Open Password: Mittwoch, den 20. Juli 2016

ReQuest – Deep Web – Open Data – Wissenschaftliche Suchmaschinen – Informationswissenschaft Düsseldorf – TH Köln – Hochschule Anhalt-Köthen – Universität Hildesheim

ReQuest: Der Wettbewerb

Basiskonzepte, gewaltige Mengen
und Einsatzbereiche des Deep Web

 

Warum wir Linked Open Data
und wissenschaftliche Suchmaschinen benötigen

Wenn Studierende im ReQuest-Wettbewerb unter möglichst realistischen Bedingungen den Wissensmanager spielen,  freuen wir uns. Weil die Lernmotivation der Teilnehmer gesteigert wurde? Weil sie sich in Eigeninitiative wertvolle Kontakte zu möglichen Arbeitgebern erschlossen? Das auch, aber bei weitem nicht nur. Vielmehr freuen wir uns auch, weil die erarbeiteten Beiträge ernst zu nehmen sind und geeignet, die Strategien von Unternehmen zu verbessern – so jedenfalls der Geschäftführer des in diesem Jahr sponsernden Unternehmens, Michael Krake von LexisNexis. Andererseits müssen die Arbeiten der Studenten nicht besser als die Beiträge gestandener Forscher sein. Auch kann es durchaus darauf ankommen, wie geschliffen beispielsweise etwas vorgetragen wird, während die Inhalte im Grundsatz bekannt sind.

Bei den Arbeiten zum ReQuest 2016 handelt es sich zum guten Teil um gelungene State-of-the-Art-Reports, die dem Leser gelegentlich neue Erkenntnisse bringen mögen.

Fragen wir also, was die Studierenden uns zu dem von LexisNexis vorgegebenem Thema  „Ich hab´s im Internet gelesen“ – Sollten Recherchen ergänzend zum Free Web auch im Deep Web durchgeführt werden?“ – das sind Fragen, die für die Informationsanbieter und die Information Professionals angesichts der Konkurrenz mit Google von existenziellem Interesse sind – zu sagen haben.

Wir erwähnen am Rande, dass die Teams von „Düsseldorf I“ und „Düsseldorf II“ die ersten Plätze vor der TH Köln belegten. Wir zitieren auch aus den Studien der Hochschule Anhalt-Köthen und der Universität Hildesheim.  

___________________________________________________________________________

Was ist das Deep Web, was das Freie Web?

___________________________________________________________________________

Am meisten gefielen uns die Definitionen, wie sie von der TH Köln vorgetragen wurden:

„Das Free Web besteht aus Webseiten und Dokumenten, die von Suchmaschinen wie beispielsweise Google erfasst (werden) und über eine einfache Recherche auffindbar und erreichbar sind. … Das Deep Web besteht zu einem großen Teil aus Datenbanken und dynamischen Seiten, die erst durch eine Anfrage an eben diese Datenbanken erzeugt werden. … Schätzungsweise erfassen Suchmaschinen jedoch nach wie vor mit etwa 2% nur eine sehr geringe Menge des gesamten World Wide Web. …

Unter Opaque Web sind Webseiten zu verstehen, die theoretisch von Suchmaschinen erfasst werden können, jedoch nicht erfasst werden. Gründe für die Nichterfassung sind unter anderem die Tiefe des Crawlings, denn Suchmaschinen können nicht alle Dokumente einer Webseite erfassen, die Aktualität, da Suchmaschinen ihre Datenbestände derzeit nicht vollständig aktuell halten können, die begrenzte Maximalzahl der angezeigte Ergebnisse zu einer Suchanfrage und nicht vorhandene Webseiten.

Einige Autoren entscheiden sich bewusst gegen die Indexierung durch Suchmaschinen und schließen diese beispielsweise durch Passwortabfragen aus“ (Private Web).

Im Proprietary Web ist die Nutzung von Inhalten nur nach Zustimmung von bestimmten Nutzungsbedingungen möglich. …

Webseiten des Truly Invisible Web sind für Suchmaschinen aufgrund technischer Gegebenheiten nicht indexierbar, da Dokumente dieser Webseiten meist aus speziellen Datenbankformaten bestehen, oder sie in einem Format vorliegen, das es bereits vor der Entwicklung des Internets gab. Da sich die technischen Möglichkeiten von Suchmaschinen ständig ändern, hat das Truly Invisible Web keine klar definierte Grenze. ..

Dark Web ist ein Teil des Deep Webs. Es begründet sich auf Darknets oder Netzwerken, in denen Verbindungen zwischen vertrauenswürdigen Partnern hergestellt werden. … Man kommt nur über die Verschlüsselungssoftware TOR ins Dark Net.“

__________________________________________________________________________

Open Data, Linked Open Data, wissenschaftliche Suchmaschinen

___________________________________________________________________________

Das Team der Universität Hildesheim beschränkte sich auf den Bereich der Wissenschaftsinformationen und fügte Definitionen und Basiszusammenhänge zu (Linked) Open Data und Wissenschaftlichen Suchmaschinen hinzu:

Open Data (LOD) ist ein weiteres Free-Web-Konzept. Man versteht darunter offen
zugängliche Daten, auf die ein Nutzer über das Internet zugreifen kann. Die Daten sind miteinander über URLs und RDF verknüpft und bilden ein Netzwerk, das auch als LinkedOpen Data Cloud bezeichnet wird. Pohl und Christoph (2014) untersuchten einen LOD-basierten Aufbau von Fachinformationssystemen und schlussfolgerten, dass sie einenwichtigen Eckpfeiler einer nachhaltigen Metadateninfrastruktur für die Wissenschaft bilden können.

Im Wesentlichen basiert der LOD-Ansatz auf dem Konzept des World Wide Web. Anstellevon verlinkten Webseiten soll mit Linked Open Data ein Netzwerk aus reinen Datenverschiedener Quellen entstehen, die über Informationsintegration automatisch weiter verwendet werden können. Demzufolge soll dem Nutzer nicht nur eine uneingeschränkte Nutzung der verfügbaren Daten ermöglicht werden, sondern auch das Teilen der Inhalte und deren Weiterverwendung (vgl. Luke & Geiger 2010). Der Nutzen, den LOD für die wissenschaftliche Recherche bietet, zeigt sich in den Bereichen Transparenz, Beteiligung und Zusammenarbeit. So können z.B. vorher nicht verknüpfte Daten miteinander kombiniert werden und zu neuen Erkenntnissen führen. Diese Daten können über die Domaingrenzen hinweg für Statistiken, Auswertungen, Karten und Publikationen verwendet werden. Darüber hinaus baut die einfache Zugänglichkeit der Datenbestände Hürden im Informationssuchprozess ab. …

Die Annehmlichkeit eines offenen Ansatzes (LOD) im Umgang mit wissenschaftlichen Daten bringt ebenfalls einige Risiken mit sich. Insbesondere der Schutz von Persönlichkeitsrechten findet bei einem offenen Ansatz, der von einer Gleichberechtigung aller Nutzer ausgeht, nicht ausreichend Berücksichtigung (vgl. LinkedUp Project 2013). Aufgrund rechtlicher Hindernisse, vor allem im Bereich des Datenschutzrechtes, können einige Prämissen des LOD-Modells nur eingeschränkt umgesetzt werden. Datenbankstrukturen fallen beispielsweise unter das Datenschutzrecht. Damit man überhaupt eine offene Lizenz umsetzen kann, sind Creative-Commons-Lizenzen für Datensätze sinnvoll. Sie stellen den Urhebern der Datensätze standardisierte Methoden zur Verfügung, über die sie urheberrechtliche Erlaubnisse für ihre Datensätze vergeben können. Eine Vervielfältigung, Veränderung und Verbreitung von Datensätzen wäre auf diese Weise im Rahmen des Datenschutzgesetzes möglich (vgl. Creative Commons 2015). Die Erfüllung der gesetzlichen Bedingungen wird auch in Zukunft ein Evaluierungskriterium für den Umgang mit großen Datenmengen sein.“

Wissenschaftliche Suchmaschinen können Google überlegen sein, weil das „Herausfiltern wissenschaftlicher Dokumente bei konventionellen Suchmaschinen schwieriger ist … weil die verwendeten Referenzen in einem Dokument sofort sichtbar sind und somit auch Literatur gefunden wird, die unabhängig von der gestellten Suchanfrage relevant sein kann“ (so bereits üblich bei Google Scholar).

____________________________________________________________________________

Werden nur 0,03% aller Seiten dem Informationssuchenden verfügbar gemacht?

___________________________________________________________________________

Die Hildesheimer sammelten auch Informationen insbesondere bei Bright Planet darüber, mit welchen Mengen wir es beim Deep Web zu tun haben:

1) Der Umfang öffentlicher Informationen ist, wenn man die Inhalte aus dem Deep Web berücksichtigt, bis zu 550 Mal größer als der bisher geschätzte Umfang des Free Web.

2) Das Deep Web beinhaltet 7.500 Terrabyte an Informationen, während das Surface Web rund 19 Terrabyte bietet.

3) Das Deep Web beinhaltet fast 550 Milliarden Dokumente im Vergleich zu einer Milliarde im Surface Web.

4) Zurzeit existieren rund 200.000 Deep-Web-Websites.

5) 60 der größten Deep-Web-Websites enthalten gemeinsam 750 Terrabyte an Informationen – eine kumulative Größe, die das Surface Web 40 Mal übersteigt.

6) Im Durchschnitt erhalten Deep-Web-Websites 50% höheren monatlichen Traffic als Websites im Surface Web.

7) Die Qualität von Inhalten im Deep Web wird auf bis zu 2000 Mal höher geschätzt als die im Surface Web.

8) Deep-Web-Inhalte sind in höchstem Maße relevant für jeden Informationsbedarf, jeden Markt und jede Domäne.

9) Mehr als die Hälfte des Deep-Web-Inhalts ist in themenspezifischen Datenbanken verankert.

10) Ganze 90% des Deep Web sind öffentlich zugängliche und gebührenfreie Informationen.

Aufbauend auf diesen Ergebnissen konnte man außerdem schätzen, dass die größten Suchmaschinen nicht mehr als 16% des Surface Web indizieren. Da Suchmaschinen die Inhalte des Deep Webs komplett auslassen, werden gerade Mal 0.03% der vorhandenen Seiten für den Informationssuchenden zur Verfügung gestellt.“

___________________________________________________________________________

Für welche Zwecke Informationsrecherchen in Unternehmen genutzt werden.

___________________________________________________________________________

Zu den Einsatzbereichen von Informationsrecherchen in Unternehmen erstellte das Team „Düsseldorf I“ diese Klassifizierung:

  • „Monitoring und Auswertung relevanter Sites (Wettbewerber, Zulieferer, Kunden, sonstige bekannte URLs)
  • Scouting: (Globale) Früherkennung von neuen Anbietern und neuen Produkten (Anbieterverzeichnisse, Auswertung von Firmenberichten, Newsgroups, Marktforschungsberichte, Branchenreports, etc.)
  • Technologiemonitoring (Auswertung wissenschaftlicher Literatur, Konferenzen, Kompetenzzentren, Forschungszentren, Ausschreibungen, Patentdatenbanken etc.)
  • Kundenfeedback und Produktreviews, Kommentare und Gerüchte zu Wettbewerbern und Industriestrukturen (insbesondere Newsgroups, aber auch Beiträge zu Fachzeitschriften oder Konferenzen)
  • Identifikation von Experten und Primärkontakten (Autoren von Publikationen, Sprecher auf Konferenzen, Interviewberichte etc.)
  • Ad-hoc-Recherchen für Hintergrundinformationen (Marktforschungsberichte, Guru-Sites etc.)
  • News Feed (kontinuierliche, maßgeschneiderte, aktuelle Informationen)
  • Informationen über Personen (Lebensläufe, Publikationen, Interviews, Expertendatenbanken) für Profiling-Analysen
  • Finanzkennzahlen (Merger & Acquisitions, Bilanzen etc.)

Bei Höchstötter und Lewandowski (2014) werden für das Media Monitoring die Informationsbedürfnisse Reputation, Resonanzanalyse, Marktforschung und Wettbewerb genannt.“

*

Lesen Sie in der nächsten Folge: Stärken, Schwächen, Chancen und Risiken der Recherchen im Tiefen Web

Archiv & Touchpoint

Das Open Password Archiv Plus bündelt mehr als 1.100 Beiträge aus den Open Password Pushdiensten seit 2016.

 

Anzeige

Anzeige



Open Password FAQ

FAQ + Hilfe

Das Open Password Archiv ist eine digitale Sammlung von über 1.100 Artikeln und Ausgaben des ehemaligen Newsletters „Open Password“ aus der Publikation “Password Online”. Diese Publikation, die von 1986 bis 2015 als Print-Ausgabe erschien, diente als zentrale Informationsquelle für Fachleute in der Informationsbranche.

Im Archiv des 2016 gestarteten Pushdienstes finden Sie tiefgreifende Analysen, exklusive Geschichten und redaktionelle Beiträge, die wichtige Entwicklungen und Trends in verschiedenen Sektoren wie Finanzen, IT und Pharma beleuchten. Das Archiv ist online zugänglich und bietet eine wertvolle Ressource für Forscher, Information Professionals und alle, die an der Geschichte und den Entwicklungen der Informationsbranche interessiert sind.

Eine noch ausführlichere Zusammenfassung zu Open Password wurde vom ehemaligen Herausgeber Dr. Wilhelm Heinrich Bredemeier verfasst.

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Open Password Navigation Hilfe

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Open Password Archiv Titelübersicht

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.