Die sieben Todsünden von Google Books

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

Open Password – Donnerstag,

den 12. April 2018

#348

Wikiversity – Google Books – Klaus Graf – Digital Humanities – HathiTrust – Archivalia – Internet Archiv – BASE – Europeana – Virtual Library – de Gruyter

Zukunft der Informationswissenschaft:
Wikiversity

Weitgehendes Versagen der Wissenschaft
beim reflektierten Umgang

mit Google Books

Klaus Graf, streitbarer Autor in Urheberrechts- und Open-Access-Fragen, hat in Wikiversity sieben Todsünden von Google Books diagnostiziert, es allerdings auch als „geniales Rechercheinstrument“ bezeichnet und der Wissenschaft ein weitgehendes Versagen beim reflektierten Umgang mit diesem Angebot attestiert. https://de.wikiversity.org/wiki/Benutzer:Histo/GBS_Digital_Humanities

Der skizzen-, stichwort- und thesenhafte Charakter seines Beitrages dürfte auch damit zu erklären sein, dass Wikiversity aus Bestrebungen hervorgegangen ist, wissenschaftliche Lehrbücher zu erstellen. Graf nennt seine Freiburger Lehrveranstaltung seit etlichen Semestern „Google Books und die Wunderwelt digitaler Bibliotheken“. Die deutschsprachige Wikiversity-Community definiert Wikiversity mittlerweile weiter, nämlich als eine „Plattform zur gemeinschaftlichen Bearbeitung wissenschaftlicher Projekte, zum Gedankenaustausch in fachwissenschaftlichen Fragen und zur Erstellung freier Kursmaterialien“. 2013 hatte Wikiversity 15.000 registrierte Nutzer und hundert aktive Autoren, Grund genug aus der Sicht der Gemeinschaft, nicht zufrieden zu sein („Wikiversity: Über Wikiversity“).

Wir geben den Beitrag von Graf leicht gekürzt und redigiert wieder.

Google Books und Digital Humanities

Die sieben Todsünden
von Google Books

Von Klaus Graf

These: Google Books ist für geisteswissenschaftliche Recherchen und damit für die Digital Humanities das wichtigste Werkzeug.

Nicht alles, was in Google Books und Google Scholar auffindbar ist, ist in die Websuche integriert.

These: Es gibt zu wenig wissenschaftliche Forschung über Google Books. – Fragment (2011) dazu: https://archivalia.hypotheses.org/59945

These: Google Books ändert sich ständig, alle Aussagen können am nächsten Tag überholt sein

Neben gravierenden Mängeln gibt es auch viele lässliche Sünden … Fehlen von Permalinks – https://archivalia.hypotheses.org/64173 – Nicht dauerhafte Einbettungsfunktion – https://archivalia.hypotheses.org/60596

Im Vergleich zum Arcanum Google Books waren die frühneuzeitlichen Archive Horte der Transparenz.

„Black box“ und Geheimniskrämerei. Umfang: 20 Millionen Bücher (zum Vergleich Harvard: 16 Millionen). Scanzentren unzugänglich

Vertrag der BSB München mit Google nicht öffentlich – https://archivalia.hypotheses.org/11434

Google kultiviert eine ausgeprägte Urheberrechts-Paranoia und gibt ein schlechtes Beispiel für HathiTrust

Europäische Bücher nach 1876 (Stand: 2017, moving wall) sind für Nicht-US-Nutzer in der Regel in Google Books nicht in Vollansicht einsehbar…

Tipp: Nur mit US-Proxy in Vollansicht benutzbare Google Books ins Internet Archive hochladen! Siehe auch den #Gemeinfreitag in Archivalia – https://redaktionsblog.hypotheses.org/3313

Tipp: Digitalisate im Internet Archive in Wikisource eintragen! – https://de.wikisource.org/wiki/Konstanz#Konstanzer_Konzil…

Während bei Google für US-Nutzer bei europäischen Büchern auch bei ca. 1909 Schluss ist, können Nutzer mit US-IP in HathiTrust Bücher bis einschließlich 1922 ganz lesen. – https://babel.hathitrust.org/cgi/pt?id=mdp.39015014707650;view=1up;seq=7

Von den 15 Millionen Büchern in HathiTrust sind knapp sechs Millionen für US-Nutzer als Public Domain zugänglich.

Google Books ist voll von miesen Metadaten.

Von einem unüberprüften Import in Literaturverwaltungsprogramme kann nur abgeraten werden…

Metadatenfehler werden kaum korrigiert…

Google Books enthalten immer noch eine Menge zu schlechter Scans, und auch auf die OCR ist nicht selten zu wenig Verlass.

Zugegeben: Google Books ist erheblich besser geworden, Scans werden laufend ausgetauscht; die OCR bei Fraktur ist inzwischen gut. http://theartofgooglebooks.tumblr.com/

BSB: „Etwa alle zwei Jahre nimmt sich Google die Daten erneut vor und überarbeitet sie. So wurden beispielsweise irgendwann die Finger des Scan-Personals, die anfangs zu sehen waren, entfernt“ – https://archivalia.hypotheses.org/64823

Aber es gibt noch genügend unbrauchbare Teile, z.B. nicht ausgeklappte Tafeln…

Google bevormundet seine Nutzer bei der Auswahl der Suchergebnisse in unerträglicher Weise.

Bücher werden nicht gefunden, die in Google Books vorhanden sind und die Suchkriterien erfüllen.

Es geht nicht nur um Ranking (bei umfangreichen Treffermengen), sondern auch um Auswahl (bei kleinen) …

Die Filter der erweiterten Suche sind unzulässig. …

Die Suche im Buch ist unzuverlässig (Ritter Toggenburg 1940-1960: Google Books 20 Treffer, HathiTrust (fast alles Google Scans) 485 Treffer…

Massive Irreführung auch bei der Vollansicht (Google Verlagsprogramm): https://archivalia.hypotheses.org/60030 – https://archivalia.hypotheses.org/64173

Diese Fehler schaden auch der Zitatsuche…

Die Trefferlisten sind voller Spam.

In den Trefferlisten sind häufig Bücher zu finden, die ersichtlich nicht relevant sind und nichts mit der Suchanfrage zu tun haben. – https://www.google.de/search?num=100&tbm=bks&q=konstanz+%22gallus+%C3%B6hem%22 – 1300 Ergebnisse schnurren auf Seite 2 auf 173 zusammen. …

Google vernachlässigt Google Books zunehmend und arbeitet nicht mit der Wissenschaft/Zivilgesellschaft zusammen.

Scott Rosenberg sprach in einem vor kurzem erschienenen Artikel von den zwei Toden des Google Book Search-Projekts. „Den ersten starb es, nachdem gegen Google Books geklagt wurde. Den zweiten starb es, nachdem Google vor Gericht gesiegt hatte. Denn trotzdem wird das Projekt offenbar nur noch höchst halbherzig weitergeführt“. -https://archivalia.hypotheses.org/64485…

Wo bleibt das Positive?

(Trivial:) Forderung nach Quellenkritik gilt auch Google Books!

These: Je mehr man sich mit Google Books befasst und kreativ mit den eigenen Suchprozessen umgeht, umso eher ist es möglich, die aufgezählten Beschränkungen zu umgehen oder abzumildern.

Trotz aller Einwände: Google Books ist ein geniales Recherche-Instrument.

Etwas, was Google absolut richtiggemacht hat: Bei mehreren Suchworten werden nur Treffer ausgegeben, die ungefähr auf einer einzigen Seite stehen. Anders HathiTrust: https://babel.hathitrust.org/cgi/ls?field1=ocr;q1=holzapfel%20splettst%C3%B6sser;a=srchls

HathiTrust ist nicht die einzige Volltextsuche aus Google-Scans. Neben HathiTrust bieten Gent, München, Oxford, Den Haag und Wien die von Google gelieferten Scans in eigenen Angeboten an. Volltextsuchen gibt es in München, Wien und Den Haag. …

Google duldet erfreulicherweise das massive Hochladen seiner Scans ins Internet Archive. Im Internet Archive gibt es erst seit kurzem wieder eine einigermaßen funktionierende Volltextsuche (aber: keine Phrasensuche möglich) – https://archive.org/search.php?query=gottfried%20pahl&sin=TXT

Gezielt Metadaten zu durchsuchen, wie dies Bielefelds Suchmaschine BASE oder die Europeana ermöglichen, weiß ich zu schätzen; aber dies ersetzt keine Volltextsuche. Googles Konzept einer Volltextsuche ist goldrichtig.

Kulturinstitutionen denken meistens, für Volltextsuchen ist Google zuständig, obwohl es kaum etwas Dringenderes gäbe als akademische Volltext-Zusatzangebote zu Google. Niemand kann Google derzeit ersetzen, aber wir brauchen intelligente Werkzeuge, die seine Unzulänglichkeiten abmildern. …

Zahlreiche deutsche Bibliotheken bieten Digitalisate mit der kommerziellen Software Visual Library an, teilweise auch mit Volltextsuche. Aber es gibt keine die einzelnen Projekte übergreifende Volltextsuche.- https://www.semantics.de/visual_library/

Riesiger Bestand an wichtigen Retrodigitalisaten auf dem Verlagsserver von De Gruyter, aber die Volltextsuche ist unzulänglich: https://www.degruyter.com/dg/advancedsearchpage

Scheitern der Discovery-Bibliothekssysteme liegt auch an mangelnden Schnipseln (z.B. KonSearch). Zu weiteren wichtigen Volltextsuchen: https://archivalia.hypotheses.org/9726

Schlussbemerkung

Bedenkt man den Rang, den Google Books für die geisteswissenschaftliche Recherche-Arbeit, aber auch für Überlegungen zum Thema Suche/Retrieval hat, erstaunt das weitgehende Versagen der Wissenschaft beim reflektierten Umgang mit dem Angebot.

Es sollten viel mehr veröffentlichte Beobachtungen und Studien zu Google Books geben. Anders als die Websuche ist es für Suchmaschinenoptimierung uninteressant. Umso wichtiger wäre es, dass Wissenschaftler über eines ihrer wichtigsten Instrumente nachdenken.

Es ist falsch, dass sich Wissenschaftsorganisationen und die Politik zu Google Books völlig passiv verhalten. Sie müssten im Interesse der Wissenschaft den – gewiss sehr schwierigen – Dialog mit Google suchen, etwa im Bereich der vergriffenen und verwaisten Werke. An den Grundgedanken des gescheiterten „Settlement“ müsste weitergearbeitet werden.

Nicht-kommerzielle und kommerzielle Anbieter von Volltextsuchen sollten stärker zur Zusammenarbeit im Bereich akademischer Metasuchen gedrängt werden.

Das also wäre meine Vision: Lasst tausend vernetzte, also bequem gemeinsam durchsuchbare Volltextsuchen neben Google aufblühen! Vor allem solche, die Googles Fehler vermeiden und seine Vorteile kopieren …

Anzeige

FAQ + Hilfe

Was ist das Open Password Archiv?

Das Open Password Archiv ist eine digitale Sammlung von über 1.100 Artikeln und Ausgaben des ehemaligen Newsletters „Open Password“ aus der Publikation “Password Online”. Diese Publikation, die von 1986 bis 2015 als Print-Ausgabe erschien, diente als zentrale Informationsquelle für Fachleute in der Informationsbranche.

Im Archiv des 2016 gestarteten Pushdienstes finden Sie tiefgreifende Analysen, exklusive Geschichten und redaktionelle Beiträge, die wichtige Entwicklungen und Trends in verschiedenen Sektoren wie Finanzen, IT und Pharma beleuchten. Das Archiv ist online zugänglich und bietet eine wertvolle Ressource für Forscher, Information Professionals und alle, die an der Geschichte und den Entwicklungen der Informationsbranche interessiert sind.

Eine noch ausführlichere Zusammenfassung zu Open Password wurde vom ehemaligen Herausgeber Dr. Wilhelm Heinrich Bredemeier verfasst.

Wo ist das Archiv und die Beiträge zu finden?

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Was ist die GPT KI-Suche?

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Kann man einen Beitrag der fehlt anfordern?

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

information is our mission
KONTAKT

Archiv & Touchpoint

Was ist das Open Password Archiv?

Wo ist das Archiv und die Beiträge zu finden?

Was ist die GPT KI-Suche?

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Kann man einen Beitrag der fehlt anfordern?