Digitale Kuratierung mit Künstlicher Intelligenz: Das Qurator-Projekt

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

Open Password – Freitag, den 20. November 2020

#854

Michael Klems – Patrick Müller – Bundesregierung – Krieg gegen Corona – Youtube – SCHUFA Holding AG – SCHUFA CheckNow – Bonitätsprüfungen – Kontodatenanalyse – finAPI – PSD2-Richtlinie – Vertrauen – Künstliche Intelligenz – Wissenschaftliche Bibliotheken – Kuratierung – Qurator – Clemens Neudecker – Staatsbibliothek zu Berlin-Preußischer Kulturbesitz – BMBF – Unternehmen: Region: Wachstumskerne – 3pc GmbH Neue Kommunikation – Ada Health GmbH – ART+COM AG – Condat AG – Semtation GmbH – Ubermetrics Technologies GmbH – Deutsches Forschungszentrum für Künstliche Intelligenz GmbH – Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS – Wikimedia Deutschland e.V. – Neuronales Netz – Layouterkennung – Texterkennung – Semantische Anreicherung – Metadaten – Profiling – Clustering – Extrinsische Metadaten – Intrinsische Metadaten – Digital Humanities – GitHub – Computer Vision – Segmentierung von Bilddigitalisaten – Ground Truth – GAN – Document Image Binarisation Competition – Extraktion von Textzeilen

Von Michael Klems und Patrick Müller empfohlen

Wie die Bundesregierung den Krieg gegen Corona
mit Humor gewinnt

Wer erwartet, von der Bundesregierung nur dröge Informationen serviert zu bekommen, hat schon verloren. Michael Klems und Patrick Müller empfehlen ein Video auf Youtube, in dem gezeigt, wie die Bundesregierung den Krieg gegen Corona mit Humor gewinnt: https://youtu.be/krJfMyW87vU

SCHUFA Holding AG

SCHUFA CheckNow erweitert Möglichkeiten
der Bonitätsprüfung durch Kontodatenanalyse
im Auftrag des Verbrauchers

Die SCHUFA bietet Unternehmen im Rahmen einer ersten Testphase jetzt erweiterte Optionen der Bonitätsprüfung an. Die SCHUFA CheckNow genannte Lösung basiert auf einer mit dem Kunden vereinbarten Analyse seiner Kontoinformationen. Damit können Unternehmen – wie beispielsweise Telekommunikationsanbieter – Kunden, denen sie nach herkömmlicher Risikoprüfung keinen Vertragsabschluss ermöglichen würden, nun eine Möglichkeit offerieren, um eventuell doch noch einen neuen Mobilfunkvertrag abschließen zu können.

Die freiwillige Analyse der Kontoinformationen ist für Verbraucher kostenlos und erfolgt durch die SCHUFA. Hierzu muss der Kunde explizit einen Auftrag erteilen. Den vom Kunden beauftragten Einblick in das von ihm bei der Bestellung angegebene Konto nimmt ausschließlich die BaFin-lizensiert finAPI GmbH auf Basis einer gesonderten Zustimmung vor und übermittelt die Informationen an die SCHUFA. Die finAPI GmbH ist ein Tochterunternehmen der SCHUFA Holding AG.

Im weiteren Prozess analysiert die SCHUFA die bonitätsrelevanten Daten und übermittelt anschließend ausschließlich das Ergebnis an das Unternehmen. Auf dieser Basis kann das Unternehmen erneut prüfen, ob es nun doch einen Vertragsabschluss gewähren kann. Zu keiner Zeit erhält das Unternehmen selbst die Kontoinformationen wie z.B. Buchungen oder einzelne Kontostände.

Der Vorteil des SCHUFA CheckNow-Verfahrens: Durch die Analyse von Kontoinformationsdaten können im Rahmen dieser zusätzlichen Bonitätsprüfung nun auch Informationen berücksichtigt werden, die bisher Dritten außerhalb des kontoführenden Institutes für eine Kreditrisiko- und Bonitätsbewertung nicht zur Verfügung standen.

Die PSD2 Richtlinie macht’s möglich. Das neue Angebot der SCHUFA basiert auf den Neuerungen der zweiten EU-Zahlungsdiensterichtlinie, kurz PSD2. Sie soll den Zahlungsverkehr in der EU für Verbraucher bequemer und sicherer machen und zugleich den Wettbewerb fördern. Ein wesentliches Ziel der Richtlinie ist, dass der Kontoinhaber selbst darüber entscheiden kann, wer Zugriff auf die Kontodaten haben soll. Der Einblick von anderen Unternehmen über das kontoführende Kreditinstitut hinaus (an Drittunternehmen) ist explizit gewollt.

Verbraucher sollen dadurch in den Genuss mehrwertiger Services und Angebote kommen, die sie bisher nicht wahrnehmen konnten. Zu solchen Angeboten zählen zum Beispiel die digitale Erstellung einer Haushaltsrechnung, die Nutzung anderer Zahlungsdienstleister, die Verwaltung von mehreren Bankkonten bei Drittanbietern oder eben eine zusätzliche Bonitätsbewertung.

Transparent und verbraucherfreundlich. Die Grundlage des SCHUFA CheckNow-Verfahren ist Vertrauen zwischen Kunden, Unternehmen und dem Informationsdienstleister. Für die Akzeptanz sind transparente, verbraucherfreundliche und sichere Prozesse nötig. Diese zu optimieren steht im Fokus der aktuellen Markttests, an dem sich auch weitere interessierte Unternehmen noch beteiligen können.

Nach erfolgreichem Abschluss der Testphase plant die SCHUFA das Verfahren allen Unternehmen zur Verfügung zu stellen, die Ihr Leistungsangebot einem erweiterten Kreis von Verbrauchern öffnen wollen.

Künstliche Intelligenz
in wissenschaftlichen Bibliotheken

Zur Kuratierung digitalisierter Dokumente mit Künstlicher Intelligenz: Das Qurator-Projekt

Von Clemens Neudecker, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz

Zweiter Teil

___________________________________________________________________

Das Qurator-Projekt

___________________________________________________________________

“Qurator – Curation Technologies”[1] ist ein vom Bundesministerium für Bildung und Forschung (BMBF) in seinem Programm “Unternehmen Region: Wachstumskerne” über einen Zeitraum von drei Jahren (November 2019 bis Oktober 2021) gefördertes Forschungsprojekt mit dem Ziel, eine branchenübergreifende flexible KI-Plattform für die adaptive Analyse und kreative Generierung digitaler Inhalte auf der Grundlage generischer Sprach- und Wissenstechnologien, Maschinellem Lernen und Künstlicher Intelligenz zu entwickeln.

[1] https://qurator.ai/

Die Qurator-Plattform

In dem Projekt arbeiten sechs Unternehmen (3pc GmbH Neue Kommunikation, Ada Health GmbH, ART+COM AG, Condat AG, Semtation GmbH, Ubermetrics Technologies GmbH) sowie vier Forschungseinrichtungen und weitere Einrichtungen zusammen (Deutsches Forschungszentrum für Künstliche Intelligenz GmbH, Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS, Wikimedia Deutschland e.V., Staatsbibliothek zu Berlin – Stiftung Preußischer Kulturbesitz).[1] Langfristig wird mit dem Vorhaben angestrebt, die Metropolregion Berlin-Brandenburg zu einem weltweit anerkannten Exzellenz-Standort für digitale Kuratierungstechnologien zu etablieren.

Die SBB-PK zeichnet innerhalb des Projekts für den Bereich “Digitalisiertes kulturelles Erbe” verantwortlich. Im Teilprojekt “Automatisierte Kuratierungstechnologien für das digitalisierte kulturelle Erbe” stehen vor allem zwei Ziele im Vordergrund: die Steigerung der Qualität der Digitalisierung sowie die Kuratierung der Digitalisate durch KI-basierte Verfahren. Künftig sollen mehr Dokumente schneller und besser erschlossen und damit leichter recherchierbar werden. Es werden Werkzeuge entwickelt, die die Qualität der extrahierten Texte aus gescannten Dokumenten verbessern – eine wichtige Voraussetzung für die spätere semantische Analyse und Anreicherung der Inhalte.

Speziell für das Qurator Projekt wurde an der SBB-PK ein “KI-Server” beschafft, denn die gängigsten Software-Frameworks für die Entwicklung von KI-Technologien wie beispielsweise Tensorflow[2] und PyTorch[3] setzen auf der Programmierschnittstelle CUDA[4] für Grafikprozessoren (GPUs) von Nvidia auf, für die eine besondere Grafikkarte installiert sein muss. Der KI-Server der SBB-PK beinhaltet zwei Nvidia Tesla V100 GPUs, die mit jeweils 32 GB Grafikspeicher und 5.120 Kernen sowie zusätzlich 640 Tensor-Kernen ausgestattet sind. Von besonderer Bedeutung sind die große Zahl von Kernen für parallele Berechnungen und der sehr großzügig bemessene Grafikspeicher – je größer der Speicher, desto größer können die Abschnitte von Trainingsdaten (Batches) bemessen werden, aus denen das neuronale Netz lernt, wovon wiederum die Qualität des Modells profitiert.

Digitale Kuratierung. Im Gegensatz zu den weiter verbreiteten Einsatzszenarien von KI beispielsweise für die automatisierte Verschlagwortung liegt der Fokus der SBB-PK im Qurator-Projekt in erster Linie auf dem Prozess der Digitalisierung beziehungsweise auf der Layout- und Texterkennung sowie der semantischen Anreicherung der digitalisierten Inhalte.

Metadaten. Metadaten finden im Qurator-Arbeitsprogramm der SBB-PK zweifach Verwendung – in einem ersten Schritt (Profiling) werden bestehende Metadaten zu den Digitalisaten ausgewertet, aber auch zusätzliche Metadaten aus der Analyse der Digitalisate generiert. In einem weiteren Schritt (Clustering) werden die Digitalisate anhand der gesammelten Metadaten in Klassen mit ähnlichen Merkmalen unterteilt. Das soll die gezielte Entwicklung und Anwendung speziell abgestimmter Verfahren und zu erwartender Qualitäten für diese Dokumentklassen ermöglichen [7]. Darüber hinaus werden Erfahrungen über jene Dokumentklassen gewonnen, die für die Volltexterkennung und -analyse besondere Herausforderungen in sich bergen.

Profiling. In einem ersten Schritt werden bestehende (“extrinsische”) Metadaten zu Digitalisaten in den Formaten METS[5], MODS[6] und ALTO[7] analysiert und ausgewertet. Anschließend werden durch eine tiefergehende Analyse der Digitalisate zusätzliche (“intrinsische”) Metadaten generiert.

Beispiele für “extrinsische Metadaten” sind insbesondere die bibliographischen bzw. das Objekt beschreibenden Informationen wie

Erscheinungsdatum
Erscheinungsort und
Gattung bzw. Materialart.

Beispiele für “intrinsische Metadaten” für das Clustering sind:

aus den digitalen Bilddaten/Scans extrahierte Informationen wie
- vorkommende Schriftarten
- Format, optische Auflösung sowie gegebenenfalls verwendete Kompressionsalgorithmen
- Druckbild, z.B. einspaltig/mehrspaltig, sowie
- Auftreten von Abbildungen, Tabellen und Diagrammen

aus den digitalen Volltexten/OCR extrahierte Informationen wie
- Erkennungskonfidenz beziehungsweise, falls “Ground Truth”-Daten vorhanden sind, Zeichen- und Wortfehlerrate (Character Error Rate/Word Error Rate) [24]
- durchschnittliche Anzahl der Zeichen pro Seite
- Wortfrequenzinformationen und
- vorkommende Sprache(n).

Die so gewonnenen Informationen können für die Anreicherung und Korrektur bestehender Metadaten verwendet werden. Darüber hinaus liefern sie reichhaltige Informationen, die die Einrichtung zusätzlicher explorativer Such- und Filteroptionen sowie statistische Auswertungen in digitalisierten Sammlungen ermöglichen [19].

Clustering. Durch eine Gruppierung (Clustering) sämtlicher Dokumente mit ähnlichen Merkmalen lässt sich die große Vielfalt und Menge der digitalisierten Objekte in kleinere Klassen mit ähnlichen Merkmalen unterteilen, für die dann spezifisch angepasste Verfahren und Modelle in der digitalen Kuratierung angewandt werden. Eine entsprechende Software wird aktuell an der SBB-PK entwickelt und steht auf GitHub[8] bereit.

Zusätzlich lassen sich auf dieser Grundlage komfortabel Datensets zusammenstellen, die eine gute Voraussetzung für die Entwicklung neuer Methoden in Informatik und “Digital Humanities” sind.

Computer Vision. Unter Computer Vision werden sämtliche Verfahren verstanden, die Bilder oder Videos analysieren und verstehen, sich also im weitesten Sinne an den Fähigkeiten des menschlichen visuellen Systems orientieren.

Layoutanalyse. Die Layoutanalyse bzw. Segmentierung von Bilddigitalisaten ist ein Prozess, der der Volltexterkennung zwingend vorgeschaltet ist. Sie hat zum Ziel, Struktureinheiten einer Dokumentseite bzw. eines Dokuments anhand optischer Merkmale zu erkennen und zu klassifizieren. Typischerweise beginnt der mehrstufige Prozess mit der Identifizierung von Seitenregionen, die Text enthalten, und anderen Regionen, in denen sich grafische Abbildungen, Fotografien, Diagramme oder andere nicht-textuelle Inhalte befinden. Dieser Arbeitsschritt kann die Erkennung von Strukturelementen beinhalten, beispielsweise Spalten, Überschriften, Fußnoten, Tabellen, Marginalien und andere Elemente, die durch ihre Position im Layout semantisch herausgehoben sind. Eine besondere Schwierigkeit stellen (historische) Zeitungen mit ihren oft vielfältigen und komplexen Layouts mit mehreren Spalten, unterschiedlichen Schriftgrößen und ganz besonders den Anzeigen dar. Diese setzen oft künstlerische Stilmittel und Dekorationen ein, die eine Erkennung erschweren.

Sind die Regionen identifiziert, die Text enthalten, so sind diese im nächsten Schritt in einzelne Zeilen zu zerlegen (zu segmentieren). Dafür werden die einzelnen Zeilen mit ihren jeweiligen Pixelkoordinaten als Ausschnitt des Gesamtbildes erfasst. Für diesen Schritt ist besonders wichtig, dass die Zeilen sich nicht überlappen und möglichst präzise an der Horizontalen ausgerichtet sind.

Sowohl für die Layoutanalyse als auch für die folgende Textzeilenextraktion stellen aktuell vortrainierte CNN den Stand der Technik dar [13]. Man spricht daher auch von datengetriebenen Methoden, da ein CNN auf der Grundlage von Daten, in diesem Fall korrekten Transkriptionen von Layout und Text (Ground Truth), trainiert wird. Leider stehen noch nicht genügend umfangreiche “Ground Truth”-Daten insbesondere für historische Dokumente öffentlich zur Verfügung, um daraus ein Modell für die Layoutanalyse zu trainieren, das eine robuste Performanz für die enorme Vielfalt historischer Druckwerke bietet. Da die Erstellung geeigneter qualitativ hochwertiger “Ground Truth”-Daten mit sehr hohem Aufwand verbunden ist – so benötigt die Transkription einer Zeitungsseite acht bis zehn Stunden -, müssen andere Wege gefunden werden, die erforderliche Qualität des Modells zu erreichen. Hierfür werden zwei Verfahren unterstützend eingesetzt. Zum einen wird das KI- Modell um regelbasierte Methoden und Heuristiken erweitert – so lässt es sich durch Expertenwissen bei der Entscheidungsfindung unterstützen. Zusätzlich wird “Data Augmentation” mit KI eingesetzt. Enthalten die Trainingsdaten nur wenige Beispiele für bestimmte Dokumenttypen oder Layouts, kann ein GAN dazu trainiert werden, aus dem Vorbild der “Ground Truth”-Daten zusätzliche Varianten mit geringen Abweichungen zu generieren. So bleiben Verteilung und Repräsentativität der “Ground Truth”-Daten erhalten, aber es stehen insgesamt größere Datenmengen für das Training zur Verfügung.

[1] https://qurator.ai/partner/

[2] https://www.tensorflow.org/

[3] https://pytorch.org/

[4] https://developer.nvidia.com/cuda-zone

[5] https://www.loc.gov/standards/mets/

[6] https://www.loc.gov/standards/mods/

[7] https://www.loc.gov/standards/a/lto/

[8] https://github.com/qurator-spk/modstool

Seitensegmentierung

Auf 628 Beispielseiten “Ground Truth” wurde zunächst ein Pixel-Encoder, basierend auf dem CNN-Modell ResNet-50 [10] in Kombination mit U-Net [25] trainiert. Die Software und das trainierte Modell sind über https://github.com/qurator-spk/sbb_pixelwise_segmentation und https://qurator-data.de/sbb_pixelwise_segmentation/pretrained_encoder/ verfügbar. Für ein Eingabebild erzeugt der Pixel-Encoder eine PAGE-XML-Datei, in der die Pixelkoordinaten für die erkannten Regionentypen kodiert werden.

Aus den so identifizierten Regionen werden mit einem weiteren CNN die Pixelkoordinaten für einzelne Zeilen extrahiert. Da dieser Schritt intern ein binarisiertes Bild verwendet, d.h. ein Bild, in dem sämtliche Pixel entweder schwarz (Vordergrund) oder weiß (Hintergrund) sind, kann die Pixeldichte der schwarzen Pixel in der Horizontalen genutzt werden. Dort, wo sich dann entsprechende Täler in der Dichte bzw. Anzahl der Pixel ergeben, lassen sich die Zwischenräume zwischen den einzelnen Zeilen finden und sich diese so voneinander abgrenzen. Die Software und das auf Basis von 151 Digitalisaten trainierte Zeilenextraktionsmodell sind über https://github.com/qurator-spk/sbb_textline_detection und https://qurator-data.de/sbb_textline_detector/ abzurufen. Für die Binarisierung wurde ebenfalls ein CNN-Modell auf der Grundlage von 187 Dokumenten der “Document Image Binarisation Competition” (DIBCO) [17] trainiert und auf https://github.com/qurator-spk/sbb_binarization veröffentlicht. Die Verwendung dieser Binarisierung führte in den bisherigen Experimenten der SBB-PK zu weiteren Qualitätsvorteilen bei der Extraktion von Regionen und Textzeilen.

Extraction von Textzeilen

Lesen Sie in der nächsten Folge: Bildähnlichkeit – Texterkennung – Natural Language Processing,

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen viermal in der Woche.

Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.

Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)

Anzeige

FAQ + Hilfe

Was ist das Open Password Archiv?

Das Open Password Archiv ist eine digitale Sammlung von über 1.100 Artikeln und Ausgaben des ehemaligen Newsletters „Open Password“ aus der Publikation “Password Online”. Diese Publikation, die von 1986 bis 2015 als Print-Ausgabe erschien, diente als zentrale Informationsquelle für Fachleute in der Informationsbranche.

Im Archiv des 2016 gestarteten Pushdienstes finden Sie tiefgreifende Analysen, exklusive Geschichten und redaktionelle Beiträge, die wichtige Entwicklungen und Trends in verschiedenen Sektoren wie Finanzen, IT und Pharma beleuchten. Das Archiv ist online zugänglich und bietet eine wertvolle Ressource für Forscher, Information Professionals und alle, die an der Geschichte und den Entwicklungen der Informationsbranche interessiert sind.

Eine noch ausführlichere Zusammenfassung zu Open Password wurde vom ehemaligen Herausgeber Dr. Wilhelm Heinrich Bredemeier verfasst.

Wo ist das Archiv und die Beiträge zu finden?

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Was ist die GPT KI-Suche?

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Kann man einen Beitrag der fehlt anfordern?

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

information is our mission
KONTAKT

Archiv & Touchpoint

Was ist das Open Password Archiv?

Wo ist das Archiv und die Beiträge zu finden?

Was ist die GPT KI-Suche?

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Kann man einen Beitrag der fehlt anfordern?