Open Password: Mittwoch, den 20. Juli 2016
ReQuest – Deep Web – Open Data – Wissenschaftliche Suchmaschinen – Informationswissenschaft Düsseldorf – TH Köln – Hochschule Anhalt-Köthen – Universität Hildesheim
ReQuest: Der Wettbewerb
Basiskonzepte, gewaltige Mengen
und Einsatzbereiche des Deep Web
Warum wir Linked Open Data
und wissenschaftliche Suchmaschinen benötigen
Wenn Studierende im ReQuest-Wettbewerb unter möglichst realistischen Bedingungen den Wissensmanager spielen, freuen wir uns. Weil die Lernmotivation der Teilnehmer gesteigert wurde? Weil sie sich in Eigeninitiative wertvolle Kontakte zu möglichen Arbeitgebern erschlossen? Das auch, aber bei weitem nicht nur. Vielmehr freuen wir uns auch, weil die erarbeiteten Beiträge ernst zu nehmen sind und geeignet, die Strategien von Unternehmen zu verbessern – so jedenfalls der Geschäftführer des in diesem Jahr sponsernden Unternehmens, Michael Krake von LexisNexis. Andererseits müssen die Arbeiten der Studenten nicht besser als die Beiträge gestandener Forscher sein. Auch kann es durchaus darauf ankommen, wie geschliffen beispielsweise etwas vorgetragen wird, während die Inhalte im Grundsatz bekannt sind.
Bei den Arbeiten zum ReQuest 2016 handelt es sich zum guten Teil um gelungene State-of-the-Art-Reports, die dem Leser gelegentlich neue Erkenntnisse bringen mögen.
Fragen wir also, was die Studierenden uns zu dem von LexisNexis vorgegebenem Thema „Ich hab´s im Internet gelesen“ – Sollten Recherchen ergänzend zum Free Web auch im Deep Web durchgeführt werden?“ – das sind Fragen, die für die Informationsanbieter und die Information Professionals angesichts der Konkurrenz mit Google von existenziellem Interesse sind – zu sagen haben.
Wir erwähnen am Rande, dass die Teams von „Düsseldorf I“ und „Düsseldorf II“ die ersten Plätze vor der TH Köln belegten. Wir zitieren auch aus den Studien der Hochschule Anhalt-Köthen und der Universität Hildesheim.
___________________________________________________________________________
Was ist das Deep Web, was das Freie Web?
___________________________________________________________________________
Am meisten gefielen uns die Definitionen, wie sie von der TH Köln vorgetragen wurden:
„Das Free Web besteht aus Webseiten und Dokumenten, die von Suchmaschinen wie beispielsweise Google erfasst (werden) und über eine einfache Recherche auffindbar und erreichbar sind. … Das Deep Web besteht zu einem großen Teil aus Datenbanken und dynamischen Seiten, die erst durch eine Anfrage an eben diese Datenbanken erzeugt werden. … Schätzungsweise erfassen Suchmaschinen jedoch nach wie vor mit etwa 2% nur eine sehr geringe Menge des gesamten World Wide Web. …
Unter Opaque Web sind Webseiten zu verstehen, die theoretisch von Suchmaschinen erfasst werden können, jedoch nicht erfasst werden. Gründe für die Nichterfassung sind unter anderem die Tiefe des Crawlings, denn Suchmaschinen können nicht alle Dokumente einer Webseite erfassen, die Aktualität, da Suchmaschinen ihre Datenbestände derzeit nicht vollständig aktuell halten können, die begrenzte Maximalzahl der angezeigte Ergebnisse zu einer Suchanfrage und nicht vorhandene Webseiten.
Einige Autoren entscheiden sich bewusst gegen die Indexierung durch Suchmaschinen und schließen diese beispielsweise durch Passwortabfragen aus“ (Private Web).
Im Proprietary Web ist die Nutzung von Inhalten nur nach Zustimmung von bestimmten Nutzungsbedingungen möglich. …
Webseiten des Truly Invisible Web sind für Suchmaschinen aufgrund technischer Gegebenheiten nicht indexierbar, da Dokumente dieser Webseiten meist aus speziellen Datenbankformaten bestehen, oder sie in einem Format vorliegen, das es bereits vor der Entwicklung des Internets gab. Da sich die technischen Möglichkeiten von Suchmaschinen ständig ändern, hat das Truly Invisible Web keine klar definierte Grenze. ..
Dark Web ist ein Teil des Deep Webs. Es begründet sich auf Darknets oder Netzwerken, in denen Verbindungen zwischen vertrauenswürdigen Partnern hergestellt werden. … Man kommt nur über die Verschlüsselungssoftware TOR ins Dark Net.“
__________________________________________________________________________
Open Data, Linked Open Data, wissenschaftliche Suchmaschinen
___________________________________________________________________________
Das Team der Universität Hildesheim beschränkte sich auf den Bereich der Wissenschaftsinformationen und fügte Definitionen und Basiszusammenhänge zu (Linked) Open Data und Wissenschaftlichen Suchmaschinen hinzu:
„Open Data (LOD) ist ein weiteres Free-Web-Konzept. Man versteht darunter offen
zugängliche Daten, auf die ein Nutzer über das Internet zugreifen kann. Die Daten sind miteinander über URLs und RDF verknüpft und bilden ein Netzwerk, das auch als LinkedOpen Data Cloud bezeichnet wird. Pohl und Christoph (2014) untersuchten einen LOD-basierten Aufbau von Fachinformationssystemen und schlussfolgerten, dass sie einenwichtigen Eckpfeiler einer nachhaltigen Metadateninfrastruktur für die Wissenschaft bilden können.
Im Wesentlichen basiert der LOD-Ansatz auf dem Konzept des World Wide Web. Anstellevon verlinkten Webseiten soll mit Linked Open Data ein Netzwerk aus reinen Datenverschiedener Quellen entstehen, die über Informationsintegration automatisch weiter verwendet werden können. Demzufolge soll dem Nutzer nicht nur eine uneingeschränkte Nutzung der verfügbaren Daten ermöglicht werden, sondern auch das Teilen der Inhalte und deren Weiterverwendung (vgl. Luke & Geiger 2010). Der Nutzen, den LOD für die wissenschaftliche Recherche bietet, zeigt sich in den Bereichen Transparenz, Beteiligung und Zusammenarbeit. So können z.B. vorher nicht verknüpfte Daten miteinander kombiniert werden und zu neuen Erkenntnissen führen. Diese Daten können über die Domaingrenzen hinweg für Statistiken, Auswertungen, Karten und Publikationen verwendet werden. Darüber hinaus baut die einfache Zugänglichkeit der Datenbestände Hürden im Informationssuchprozess ab. …
Die Annehmlichkeit eines offenen Ansatzes (LOD) im Umgang mit wissenschaftlichen Daten bringt ebenfalls einige Risiken mit sich. Insbesondere der Schutz von Persönlichkeitsrechten findet bei einem offenen Ansatz, der von einer Gleichberechtigung aller Nutzer ausgeht, nicht ausreichend Berücksichtigung (vgl. LinkedUp Project 2013). Aufgrund rechtlicher Hindernisse, vor allem im Bereich des Datenschutzrechtes, können einige Prämissen des LOD-Modells nur eingeschränkt umgesetzt werden. Datenbankstrukturen fallen beispielsweise unter das Datenschutzrecht. Damit man überhaupt eine offene Lizenz umsetzen kann, sind Creative-Commons-Lizenzen für Datensätze sinnvoll. Sie stellen den Urhebern der Datensätze standardisierte Methoden zur Verfügung, über die sie urheberrechtliche Erlaubnisse für ihre Datensätze vergeben können. Eine Vervielfältigung, Veränderung und Verbreitung von Datensätzen wäre auf diese Weise im Rahmen des Datenschutzgesetzes möglich (vgl. Creative Commons 2015). Die Erfüllung der gesetzlichen Bedingungen wird auch in Zukunft ein Evaluierungskriterium für den Umgang mit großen Datenmengen sein.“
Wissenschaftliche Suchmaschinen können Google überlegen sein, weil das „Herausfiltern wissenschaftlicher Dokumente bei konventionellen Suchmaschinen schwieriger ist … weil die verwendeten Referenzen in einem Dokument sofort sichtbar sind und somit auch Literatur gefunden wird, die unabhängig von der gestellten Suchanfrage relevant sein kann“ (so bereits üblich bei Google Scholar).
____________________________________________________________________________
Werden nur 0,03% aller Seiten dem Informationssuchenden verfügbar gemacht?
___________________________________________________________________________
Die Hildesheimer sammelten auch Informationen insbesondere bei Bright Planet darüber, mit welchen Mengen wir es beim Deep Web zu tun haben:
1) Der Umfang öffentlicher Informationen ist, wenn man die Inhalte aus dem Deep Web berücksichtigt, bis zu 550 Mal größer als der bisher geschätzte Umfang des Free Web.
2) Das Deep Web beinhaltet 7.500 Terrabyte an Informationen, während das Surface Web rund 19 Terrabyte bietet.
3) Das Deep Web beinhaltet fast 550 Milliarden Dokumente im Vergleich zu einer Milliarde im Surface Web.
4) Zurzeit existieren rund 200.000 Deep-Web-Websites.
5) 60 der größten Deep-Web-Websites enthalten gemeinsam 750 Terrabyte an Informationen – eine kumulative Größe, die das Surface Web 40 Mal übersteigt.
6) Im Durchschnitt erhalten Deep-Web-Websites 50% höheren monatlichen Traffic als Websites im Surface Web.
7) Die Qualität von Inhalten im Deep Web wird auf bis zu 2000 Mal höher geschätzt als die im Surface Web.
8) Deep-Web-Inhalte sind in höchstem Maße relevant für jeden Informationsbedarf, jeden Markt und jede Domäne.
9) Mehr als die Hälfte des Deep-Web-Inhalts ist in themenspezifischen Datenbanken verankert.
10) Ganze 90% des Deep Web sind öffentlich zugängliche und gebührenfreie Informationen.
Aufbauend auf diesen Ergebnissen konnte man außerdem schätzen, dass die größten Suchmaschinen nicht mehr als 16% des Surface Web indizieren. Da Suchmaschinen die Inhalte des Deep Webs komplett auslassen, werden gerade Mal 0.03% der vorhandenen Seiten für den Informationssuchenden zur Verfügung gestellt.“
___________________________________________________________________________
Für welche Zwecke Informationsrecherchen in Unternehmen genutzt werden.
___________________________________________________________________________
Zu den Einsatzbereichen von Informationsrecherchen in Unternehmen erstellte das Team „Düsseldorf I“ diese Klassifizierung:
- „Monitoring und Auswertung relevanter Sites (Wettbewerber, Zulieferer, Kunden, sonstige bekannte URLs)
- Scouting: (Globale) Früherkennung von neuen Anbietern und neuen Produkten (Anbieterverzeichnisse, Auswertung von Firmenberichten, Newsgroups, Marktforschungsberichte, Branchenreports, etc.)
- Technologiemonitoring (Auswertung wissenschaftlicher Literatur, Konferenzen, Kompetenzzentren, Forschungszentren, Ausschreibungen, Patentdatenbanken etc.)
- Kundenfeedback und Produktreviews, Kommentare und Gerüchte zu Wettbewerbern und Industriestrukturen (insbesondere Newsgroups, aber auch Beiträge zu Fachzeitschriften oder Konferenzen)
- Identifikation von Experten und Primärkontakten (Autoren von Publikationen, Sprecher auf Konferenzen, Interviewberichte etc.)
- Ad-hoc-Recherchen für Hintergrundinformationen (Marktforschungsberichte, Guru-Sites etc.)
- News Feed (kontinuierliche, maßgeschneiderte, aktuelle Informationen)
- Informationen über Personen (Lebensläufe, Publikationen, Interviews, Expertendatenbanken) für Profiling-Analysen
- Finanzkennzahlen (Merger & Acquisitions, Bilanzen etc.)
Bei Höchstötter und Lewandowski (2014) werden für das Media Monitoring die Informationsbedürfnisse Reputation, Resonanzanalyse, Marktforschung und Wettbewerb genannt.“
*
Lesen Sie in der nächsten Folge: Stärken, Schwächen, Chancen und Risiken der Recherchen im Tiefen Web
Anzeige
FAQ + Hilfe