Open Password – Montag, den 25. November 2020
#856
vfm – Marianne-Englert-Preis – Frank Dürr – Ute Essegern – Vanessa Sautter – Michael Vielhaber – Hiltrud Lehmkühler – Norbert Weitkämper – Pub Engine – Übersetzungstechnologie – Search by Document – ZBW – Guido Scherp – Künstliche Intelligenz – Wissenschaftliche Bibliotheken – Kuratierung – Qurator – Clemens Neudecker – Staatsbibliothek zu Berlin-Preußischer Kulturbesitz – Extraktion von Textzeilen – Monographien – Layouts – Transformer – Reading Order – Bildähnlichkeit – Cropping – Bayerische Staatsbibliothek – Fraunhofer Heinrich Hertz Institut – Hochschule für Technik und Wirtschaft – Zenodo – Medieninformatik – GoogleLeNet – ImageNet – Neuronales Netz – Automatische Texterkennung – Optical Character Recognition – Massiv Parallele Grafikkarten – DFG – Verzeichnisse der deutschsprachigen Drucke des 16.-18. Jahrhunderts – Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition – Herzog-August-Bibliothek Wolfenbüttel – Berlin-Brandenburgische Akademie der Wissenschaften – Karlsruher Institut für Technologie – Handschriftliche Texte – READ – READ-COOP – GT4HistoOCR – CNN – LSTM – Dinglehopper – Natural Language Processing – Computerlinguistik – Saarbrückener Pipelinemodell – OCR-Nachkorrektur – Crowd-Beteiligung – Deutsches Textarchiv
Briefe (1):
vfm
Gewinner des Marianne-Englert-Preises 2020 gesucht!
Dabei sein bei der ersten Online-Frühjahrstagung des vfm. Neben hochklassigen Vorträgen gibt es die Möglichkeit, Ihre Arbeit vor Fachkolleg/innen zu präsentieren und ein Preisgeld von 500 € zu gewinnen.
Die Bewerbungsfrist läuft! Eingereicht werden können Arbeiten, die sich mit Fragestellungen zur Informationsgesellschaft befassen. Dazu gehören insbesondere Arbeiten und Projekte, die ihren Blick auf mediendokumentarische oder kommunikationswissenschaftlich-technische Themen richten und möglichst nicht älter als zwei Jahre alt sind. Die Preisverleihung findet am 27. April 2021 online während der Frühjahrstagung des vfm – Verein für Medieninformation und Mediendokumentation e.V. – statt.
Einsendeschluss ist der 31. Januar 2021.
*Wenn Sie ein Projekt erarbeitet oder eine Abschlussarbeit angefertigt haben, welche zu den Wettbewerbsanforderungen passen, dann bewerben Sie sich jetzt bei uns!
*Wenn Sie in Ihrem Unternehmen von interessanten Projekten oder Abschlussarbeiten Ihrer jüngeren Kolleg*innen hören, dann erzählen Sie ihnen vom Marianne-Englert-Preis oder leiten diese Mail gleich weiter!
Wir freuen uns auf viele Bewerbungen.
Mit besten Grüßen Die Jury des vfm, Frank Dürr, Ute Essegern, Vanessa Sautter und Michael Vielhaber, www.vfm-online.de
Fragen gerne auch an: Hiltrud Lehmkühler, Büro vfm, Am Göpel 24, 44795 Bochum, 0234 3889376
Briefe (2):
Norbert Weitkämper
PubEngine integriert
KI-basierte Übersetzungssoftware
Sehr geehrter Herr Dr. Bredemeier,
die PubEngine bietet ab sofort die Übersetzungstechnologie mit Techniken modernster neuronaler Netzwerke und KI. Grundlage für die Übersetzung sind nicht nur einzelne Worte und Phrasen, sondern ganze Sätze und Zusammenhänge. Zum Einsatz kommen Supercomputer, die viele Millionen Rechenoperationen in kurzer Zeit ausführen.
Das Ergebnis sind Übersetzungen, die auch bei anspruchsvollen Texten von überragender Qualität sind. Zeigen Sie z.B. Abstracts oder Keywords automatisch in unterschiedlichen Sprachen an!
Angeboten werden Übersetzungen „on the fly“ in Deutsch, Englisch, Französisch, Italienisch, Spanisch, Russisch, Japanisch sowie Chinesisch.
*
„Search by Document“ ist eine neue Art, wie passende eBooks und Zeitschriftenartikel in der PubEngine gesucht werden können. Ein PDF Dokument wird per Drag and Drop hochgeladen, von der PubEngine analysiert und passende eLibrary Inhalte angezeigt. Völlig intuitiv und ohne komplizierte Suchbegriffe formulieren zu müssen.
„Search by Document“ ist crosslingual. Fremdsprachige Dokumente werden automatisch übersetzt und passende Inhalte auch in anderen Sprachen angezeigt.
Mit besten Grüßen Ihr Norbert Weitkämper, Geschäftsführer
Briefe (3)
ZBW
Link zu Tochtermann-Interview
Lieber Herr Bredemeier,
vielen Dank, dass Sie das Interview von Herrn Tochtermann in Ihren Newsletter aufgenommen haben! Mögen Sie in der Online-Ausgabe unter https://www.password-online.de/ noch den Link auf das Interview ergänzen?
Viele Grüße aus Kiel Guido Scherp, Leitung Open-Science-Transfer, Koordinator Leibniz-Forschungsverbund Open Science, ZBW – Leibniz-Informationszentrum Wirtschaft, Kiel
Künstliche Intelligenz
in wissenschaftlichen Bibliotheken
Zur Kuratierung digitalisierter Dokumente mit Künstlicher Intelligenz: Das Qurator-Projekt
Von Clemens Neudecker, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Dritter Teil
Während der Prozess der Extraktion von Textzeilen für einspaltige Druckwerke wie Monographien sehr gute Ergebnisse liefert, bleiben Dokumente mit mehrspaltigen und komplexeren Layouts schwierig. Um die Inhalte beispielsweise für Text- und Datenmining zu nutzen, ist es besonders wichtig, die logische Reihenfolge der Textabschnitte korrekt herauszufinden. Die Methode der SBB-PK nutzt hierfür Merkmale, denen in den vorangegangenen Schritten aufgrund des Layout, also ihrer Position auf der Seite, Strukturfunktionen zugewiesen worden sind – wie z.B. Überschriften oder Separatoren. Da jedoch diese optischen Merkmale insbesondere bei historischen Zeitungen häufig nicht ausreichen, um eine eindeutige Reihenfolge der Textregionen festzulegen, beabsichtigt die SBB-PK die Integration von Layoutanalyse anhand von optischen Merkmalen mit einer Textanalyse anhand von semantischen Eigenschaften der durch OCR erkannten textlichen Inhalte einer Textregion [3].
Abbildung 2: Reading Order
Aktuelle KI-Sprachmodelle der Kategorie Transformer (wie beispielsweise BERT [9] oder GPT-2[1]) sind besonders gut für diese Aufgabe geeignet – sind sie doch auf großen Sprachkorpora dafür trainiert, für einen gegebenen Satz eine semantisch passende Fortsetzung zu generieren[2]. Diese Eigenschaft lässt sich sehr gut einsetzen, um die Lesereihenfolge (“Reading Order”) einer ungeordneten Menge von Textregionen auf einer Seite zu bestimmen. Für einen gegebenen Textabschnitt bekommt das Modell eine Reihe von Kandidaten weiterer Textabschnitte vorgelegt. Es entscheidet dann, welcher Abschnitt aufgrund seiner Semantik die logische Fortsetzung des vorgegebenen Textes darstellt.
Bildähnlichkeit. Als Ergebnis der Layoutanalyse liegen Informationen vor, welche Bereiche einer Seite Text und welche andere überwiegend graphische Elemente enthalten. Dabei sind die jeweiligen Seitenbereiche mit ihren Pixelkoordinaten auf dem Bild erfasst, was wiederum ermöglicht, die graphischen Elemente anhand ihrer Position aus dem Bild auszuschneiden (Cropping). In einem weiteren Schritt werdem die extrahierten graphischen Elemente nach Ähnlichkeit gruppiert und nach Typ und Inhalt klassifiziert. So wird beispielsweise die Suche nach Bildähnlichkeit ermöglicht, wie dies auch die Bayerische Staatsbibliothek (BSB) in Kooperation mit dem Fraunhofer Heinrich Hertz Institut (HHI) für die Digitalen Sammlungen der BSB realisiert hat [6][3].
An der SBB-PK wurden auch Vorarbeiten aufgegriffen, die gemeinsam mit der Hochschule für Technik und Wirtschaft (HTW) in Berlin im studentischen Projekt “Chasing Unicorns and Vampires in a Library”[4] im Studiengang Medieninformatik begonnen wurden. In einem ersten Schritt wurden knapp 600.000 graphische Elemente aus Einzelseiten der digitalisierten Sammlungen der SBB-PK extrahiert. Das entsprechende Datenset steht über Zenodo[5] frei zur Verfügung. Anschließend wurden die Datensets von unerwünschten Artefakten wie Leerseiten, Farbpaletten, Barcodes, Stempelmarken und Logos der SBB-PK bereinigt. Auf diesem Set wurde das neuronale Netz GoogLeNet angewandt, ein CNN, das auf einem Ausschnitt des Datensatzes ImageNet[6] mit einer Million Abbildungen, die in eintausend Kategorien klassifiziert worden sind, trainiert wurde [27]. Da aber die in ImageNet vergebenen Kategorien für Abbildungen (z.B. moderne Alltagsgegenstände) nur zu einem geringen Teil den aus den digitalisierten Sammlungen der SBB-PK extrahierten graphischen Elementen entsprechen, soll im Qurator-Projekt ein weiteres Fine Tuning der Klassifikation erfolgen. Hierfür wird das neuronale Netz so modifiziert, dass die grundlegenden Schichten erhalten bleiben. Nur die oberste Schicht des neuronalen Netzes, in der die Klassifikation der graphischen Elemente in Kategorien erfolgt, wird durch eine andere Schicht ersetzt, in der Kategorien hinterlegt sind, die besser zu den Daten der SBB-PK passen. Anschließend wird das optimierte Netz erneut auf die extrahierten graphischen Elemente angewandt. Es wird erwartet, hiermit eine attraktive Alternative zur Metadaten- oder volltextbasierten Suche in den digitalisierten Sammlungen der SBB-PK zu entwickeln, zu erweitern und dauerhaft anzubieten.
Texterkennung. Die automatische Texterkennung bzw. Volltextgenerierung mit Optical Character Recognition (OCR) hat besonders in den letzten Jahren durch KI enorme Fortschritte erzielt. In den späten 90er Jahren waren erste KI-Ansätze im Bereich der Mustererkennung entstanden.[7] Diese finden sich ab 2008 auch in der Anwendung für digitalisierte Kulturobjekte[8]. Aber ab 2014 kam es dank der Entwicklung und kommerziellen Verfügbarkeit massiv paralleler Grafikkarten (GPUs) mit mehreren tausend Prozessorkernen zu einem regelrechten Boom neuer Methoden, die auf neuronalen Netzen beruhen – wie in den Proceedings der einschlägigen Konferenzen[9] zu sehen ist.
Die rasanten Fortschritte in der OCR durch KI bewogen die Deutsche Forschungsgemeinschaft (DFG), 2014 eine Ausschreibung zur Weiterentwicklung von OCR-Verfahren mit besonderem Fokus auf digitalisierte historische Drucke, wie sie aktuell in den VD-Projekten[10] (Verzeichnisse der deutschsprachigen Drucke des 16.-18. Jahrhunderts) entstehen, auf den Weg zu bringen. 2015 konstituierte sich das “Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR-D)”, in dem die Herzog-August-Bibliothek Wolfenbüttel, die Berlin-Brandenburgische Akademie der Wissenschaften, das Karlsruher Institut für Technologie und die SBB-PK zusammenarbeiten. Das OCR-D[11] befasst sich mit der Untersuchung und Optimierung von Workflows und Verfahren der automatischen Texterkennung und hat dafür umfangreiche Standards und technische Spezifikationen entwickelt [18]. Seit Beginn 2020 liegen als Ergebnis einer zweiten DFG-Förderphase, in der acht zusätzliche Projekte mit der Entwicklung von Softwarewerkzeugen beauftragt wurden, erste Prototypen vor. Diese stellen, in einzelne Module[12] unterteilt, spezifische Verfahren für die komplette Prozesskette der OCR für historische Drucke bereit. Die Module für die Schriftartenerkennung, Layoutanalyse, Texterkennung und Nachkorrektur beruhen alle auf KI-Verfahren [2].
Sogar die automatische Erkennung handschriftlicher Texte ist durch KI in den Bereich des Möglichen gerückt. Hierbei ist insbesondere auf die Ergebnisse des EU-Projekts READ zu verweisen, das mit Transkribus[13] eine Software-Suite vorgelegt hat. Diese ermöglicht es Nutzern, in einer Cloud-basierten Umgebung eigene Transkriptionen von Handschriften anzufertigen, um dann die im READ-Konsortium entwickelten KI-Verfahren für die Textzeilenextraktion und Handschriftenerkennung darauf zu trainieren und anzuwenden. Die dabei verwendeten Technologien gleichen mit wenigen Ausnahmen im Bereich der Zeilenerkennung (Baseline Detection) denen für historische Drucke – mit dem Unterschied, dass für jede Handschrift spezifische Trainingsdaten erstellt und ein eigenes Modell trainiert werden müssen. Mit Beginn 2020 ist die Förderung für READ ausgelaufen und eine europäische Kooperative READ-COOP[14] bietet die entwickelten Technologien als kommerzielle Dienste zur Nutzung an.
Im Rahmen von Qurator verfolgt die SBB-PK einerseits eine enge Abstimmung mit OCR-D. So unterstützen beispielsweise mehrere der in Qurator entwickelten Softwarewerkzeuge die von OCR-D definierten Standards und Schnittstellendefinitionen. Zudem wird parallel an der Weiterentwicklung eines eigenen Texterkennungsmodells auf der Basis der OCR-Engine Calamari [33][15] und dem Datensatz GT4HistOCR [28][16] gearbeitet. Calamari nutzt aktuelle KI-Verfahren für die OCR wie CNN und Long-Short-Term-Memory (LSTM). Mit Calamari ist es im Unterschied zu anderen OCR-Engines möglich, einen Trainingsdatensatz in mehrere Sets aufzusplitten und daraus jeweils ein Erkennungsmodell zu trainieren. Bei der Texterkennung kommen dann alle Modelle zusammen zum Einsatz, wobei jedes Modell mehrere nach Wahrscheinlichkeit geordnete Erkennungsvarianten ausgibt. In einem weiteren Schritt wird auf Basis der Wahrscheinlichkeiten der einzelnen Modelle eine Abstimmung darüber durchgeführt, welche Erkennungsvariante welchen Modells letztlich in der Ausgabe vorzuziehen ist. In internen Tests wurde so die Zeichenfehlerrate der Texterkennung gegenüber der Tesseract[17] OCR Engine, die ebenfalls auf dem identischen Datensatz GT4HistOCR trainiert wurde, um weitere ein bis zwei Prozent verringert. Mit der ebenfalls in Qurator von der SBB-PK entwickelten Software Dinglehopper[18] lässt sich anhand von manuell erstellten Transkriptionen und OCR-Ergebnissen die Qualität der Texterkennung für eine OCR-Engine ermitteln.
[1] https://openai.com/blog/better-language-models/
[2] Vgl. https://talktotransformer.com/
[3] https://bildsuche.digitale-sammlungen.de/index.html?c=start&l=de
[4] https://github.com/elektrobohemian/imi-unicorns/blob/master/abschlussbericht_unicorn.pdf
[5] https://zenodo.org/communities/stabi/
[7] http://yann.lecun.com/exdb/lenet/
[8] Vgl. http://papers.nips.cc/paper/3449-offline-handwriting-recognition-with-multidimensional-recurrent-neural-ne
[9] Vgl. https://dblp1.uni-trier.de/db/conf/icdar/index.html; https://dblp1.uni-trier.de/db/conf/das/index.html; https://dblp1.uni-trier.de/db/conf/icpr/index.html
[10] Vgl. http://www.vd16.de/, http://www.vd17.de/ und https://gso.gbv.de/DB=1.65/
[12] https://ocr-d.de/en/module-projects
[13] https://transkribus.eu/Transkribus/
[15] https://github.com/qurator-spk/ocrd_calamari
[16] https://zenodo.org/record/1344132
[17] https://github.com/tesseract-ocr/tesseract
[18] https://github.com/qurator-spk/dinglehopper
Natural Language Processing. Die Verarbeitung natürlicher Sprache mit algorithmischen Methoden als Schnittstelle zwischen Sprachwissenschaft und Informatik wird im Englischen “Natural Language Processing” (NLP) genannt. Im Deutschen ist hierfür der Begriff “Computerlinguistik” üblich. Dem “Saarbrückener Pipelinemodell” [34] folgend – die Universität des Saarlandes war eine der ersten Universitäten in Deutschland mit einem Studiengang Computerlinguistik – werden typischerweise diese aufeinander aufbauenden Analyseschritte unterschieden:
- Spracherkennung (Umwandlung von Schall zu Text)
- Tokenisierung
- Morphologische Analyse
- Syntaktische Analyse
- Semantische Analyse
- Dialog- und Diskursanalyse.
Die semantische Erschließung digitalisierter, insbesondere historischer Dokumente steht in ihren Anfängen. Bislang sind nur wenige technische Werkzeuge verfügbar, die für die besonderen Anforderungen digitalisierter Dokumenten geeignet sind. Während in der Computerlinguistik zahlreiche technische Verfahren für die semantische Analyse, Aufbereitung und Anreicherung von Texten existieren, sind diese üblicherweise auf moderne Texte ausgerichtet. Das heißt, die Werkzeuge sind nicht ohne weitere Anpassungen in der Lage, Dokumente mit historischen Sprachvarianten oder mit einer hohen Fehlerquote in einer zufriedenstellenden Qualität zu verarbeiten [29]. Die Besonderheiten der historischen Dokumente erfordern daher die Verwendung spezifischer Wörterbücher und eine Anpassung an den historischen Kontext.
OCR-Nachkorrektur. Daher wird auch bei der Verwendung neuester Verfahren für die Texterkennung nach wie vor an Verfahren für die automatisierte Nachkorrektur der mit OCR erkannten Texte gearbeitet.
Zwar existieren bereits zahlreiche Werkzeuge und Prototypen für die Qualitätsverbesserung digitalisierter Texte und in geringerem Maße der Struktur digitalisierter Dokumente. Dabei werden aber überwiegend “Semi-supervised”-Ansätze verfolgt. Das bedeutet, dass die Korrektur immer von einem menschlichen Bearbeiter durchgeführt wird, den technischen Werkzeuge dabei allenfalls unterstützen (z.B. durch die gezielte Hervorhebung von fehlerhaften Wörtern oder durch die Anzeige von “Korrekturkandidaten”).
Ein ebenfalls häufig gewählter Ansatz liegt in der Beteiligung der “Crowd” für die Nachkorrektur. Während mit dem “Semi-supervised”-Ansatz aufgrund des hohen intellektuell-manuellen Anteils sehr gute Ergebnisse erzielt werden, ist dieses Verfahren für die Nachkorrektur von tausenden Dokumenten mit Millionen von Seiten ungeeignet. Die Bearbeitungszeit für eine manuelle Nachkorrektur einer Seite liegt erfahrungsgemäß bei dreißig bis sechzig Minuten (je nach Anzahl der Wörter auf einer Seite). Die Nachkorrektur durch eine große Anzahl Bearbeiter im Crowdsourcing führt zwar zu Kostensenkungen, aber zu anderen Schwierigkeiten. Das Management einer großen Zahl von Änderungen durch eine nicht weiter definierte Menge von Bearbeitern stellt bisher nicht beherrschbare Anforderungen an die Qualitätskontrolle sowie an die Update- und Versionierungsverwaltung für digitalisierte Dokumente in Bibliotheken. Auch sind die Bearbeiter üblicherweise ohne vorherige Schulung nicht in der Lage, die teils komplexen und historischen Texte genau zu korrigieren. Oder sie nehmen womöglich Änderungen an der Textgrundlage vor (z.B. Modernisierung der Rechtschreibung), die so von den wissenschaftlichen Nutzern nicht gewünscht werden.
Im Gegensatz dazu zielen die durch die SBB-PK zu entwickelnden Werkzeuge auf eine weitestgehend automatisierte, also unüberwachte (“unsupervised”) Nachkorrektur ab. Dabei sollen nicht zwingend sämtliche Fehler behoben werden. Jedoch führt eine automatisierte Korrektur der am häufigsten auftretenden Fehler meistens zu einer drastischen Verbesserung der Auffindbarkeit und Nutzbarkeit digitalisierter Dokumente – dies ohne die oben genannten Nachteile. Interne Tests bestätigen eine Verringerung der Fehler um bis zu 80 Prozent bereits bei einer Korrektur der 10 Prozent am häufigsten vorkommenden Fehler. So können die bislang weitgehend ungehobenen Schätze der Kultureinrichtungen als nachnutzbare Wissensquellen und grundlegende Infrastruktur für die Verwendung in Wissenschaft und Wirtschaft sowie für die Öffentlichkeit in deutlich verbesserter Form verfügbar gemacht werden.
In der SBB-PK wird hierfür ein Verfahren aus dem Bereich der maschinellen Übersetzung auf den speziellen Anwendungsfall der OCR-Nachkorrektur übertragen [12]. Die Grundlage dafür stellen rund 4.000 am Deutschen Textarchiv[1] transkribierte deutsche Texte aus dem Zeitraum des 17.-20. Jahrhunderts dar. Für die weitestgehend fehlerfreien, manuell erzeugten Transkriptionen werden mit den im Qurator-Projekt entwickelten OCR-Modellen zusätzlich Volltexte erzeugt. Anschließend müssen die Transkriptionen und OCR-Ergebnisse einander auf Zeilenebene zugeordnet werden. Über ein Sequence-to-Sequence-Verfahren werden aus den OCR-Ergebnissen die erwünschten fehlerfreien Transkriptionen automatisch generiert. Das heißt, der mit OCR-Fehlern belastete Text wird unter Beibehaltung historischer Rechtschreibung in einen fehlerfreien Text “übersetzt”.
Lesen Sie in der abschließenden Folge: Named Entity Recognition – Named Entity Linking – Zusammenfassung und Ausblick
[1] http://www.deutschestextarchiv.de/
Open Password
Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum
Neue Ausgaben von Open Password erscheinen viermal in der Woche.
Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.
Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.
International Co-operation Partner:
Outsell (London)
Business Industry Information Association/BIIA (Hongkong)
Anzeige
FAQ + Hilfe