Herausforderungen, Lösungen und Grenzen der Bildähnlichkeitssuche

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

Open Password – Freitag, den 19. März 2021

# 901

Maschinelles Lernen – Bildähnlichkeitssuche – Künstliche Intelligenz – Historische Bibliotheksbestände – Klaus Kempf – Markus Brantl – Thomas Meiers – Thomas Wolf – Münchener Digitalisierungszentrum – Bayerische Staatsbibliothek – DFG – Google – Digitalisierung – Erschließung – Optical Character Recognition – Automatisierte Indexierung – Heinrich-Hertz-Institut – Text-Bild-Trennung – Deutscher Bibliothekstag – Themenschwerpunkte – AI-SDV – Christopf Haxel

Deutscher Bibliothekartag

Die Themenschwerpunkte

Von politischen und gesellschaftlichen Herausforderungen bis Forschungsdaten und forschungsnahen Dienstleistungen

bis 18. Juni 2021, 109. Deutscher Bibliothekartag – Buten und Binnen – wagen un winnen, in Bremen – Die Themenschwerpunkte:

Themenkreis 1: Politische und gesellschaftliche Herausforderungen (hier auch: Covid19-Themen)

Themenkreis 2: Bibliothek als physischer Ort

Themenkreis 3: Ausbildung, Weiterbildung & Personalentwicklung

Themenkreis 4: Technik und IT-Infrastruktur

Themenkreis 5: Content und Digitalisierung

Themenkreis 6: Forschungsdaten und forschungsnahe Dienstleistungen

Themenkreis 7: Management und Organisation

AI-SDV

From Artificial Intelligence and
New Tools for Competitive Intelligence to Advances in Text Analysis

Dear Colleagues,

The show must go on – physically or online. Please take that on board and make your positive plans for 2021. The call for papers is open and Early Bird Exhibition Booking with special prices is possible … more @ www.ai-sdv.com

AI-SDV brings together specialists in scientific and technical information, who want to update themselves and learn the latest from practitioners and technology specialists working in the field of AI, text and data mining, analytics, digitization 2.0, deep learning, visualisation, etc. The conference is an integral part of a two-day event of learning, networking and exploring technologies and concepts that are changing the way individuals and organisations work, rest and play.

Conference topics may include, but are not limited to:

User – vendor case study relating to successful software implementation
AI, Machine Learning, Machine Translation and Deep Learning
New tools for competitive intelligence
Search engine development, personalisation, recommendation engines, collaborative filtering
Scraping content, semantic technologies
New visualization tools and mapping
Innovative tools for analysing or manipulating big data including news analysis
Text and Data Mining tools
Advances in text searching and analysis such as patent, techno-economic and news searching), mining, mapping and analysis
User identification and testing new information tools
Training and adoption

The conference includes plenary sessions, expert panels and product updates from practitioners, vendors and subject matter specialists.

Presentation submissions should include:

An engaging title
Short descriptive abstract – what attendees will take away from your talk
Speaker biography (max 200 words)

News of new innovative products or beta versions with substantial upgrades may also be of interest to attendees.

Presentations accepted will be expected to make real contributions within the field of scientific, technical, business, patent and information searching, analysis and data mining – or in furthering the understanding of meeting participants within these areas.

All presentations will be in plenary sessions to the full conference audience (virtually or physically) – there are no parallel or breakout sessions taking place.

Conference language is English. Presenters receive one complimentary pass to the two-day conference (one registration per presentation). Speaker reimbursement is not normally provided.

Please send your proposals to Christoph Haxel at Dr. Haxel CEM GmbH (c @ haxel.com)

Deadline: 30. April 2021 However, we would also welcome proposals, suggestions, sponsorship enquiries, etc. prior to this date.

There are also a very limited number of exhibition (table-top) spaces available on a strictly first-come, first-served basis. Please contact the organisers early to secure a place. An additional benefit of exhibiting is that all exhibitors are provided with a short “product presentation” slot during the main conference.

I am looking forward to seeing you in nice Nice – physically or online.

Kind regards Christoph Haxel

Maschinelles Lernen

Auf der Suche nach dem verborgenen Bild

Künstliche Intelligenz erschließt
historische Bibliotheksbestände

Die Motivation, die Herausforderungen, Automatisierte Trennung von Texten und Bildern

Von Klaus Kempf, Markus Brantl, Thomas Meiers und Thomas Wolf

__________________________________________________________________________________

Die Motivation
__________________________________________________________________________________

Seit 23 Jahren werden im Münchener Digitalisierungszentrum (MDZ) die reichhaltigen und weltweit einzigartigen Sammlungen der Bayerischen Staatsbibliothek (BSB) digitalisiert und online bereitgestellt. Was 1997 als experimentelles Projekt mit Anschubfinanzierung der Deutschen Forschungsgemeinschaft begann, ist binnen weniger Jahre zu einem der wichtigsten Geschäftsgänge der Bayerischen Staatsbibliothek geworden. Durch die Zusammenarbeit mit Google wurde der digitale Bestandsaufbau seitdem Jahr 2007 stark erweitert. Die Anzahl der digitalisierten Werke stieg von einigen zehntausend auf aktuell über 2,5 Millionen. Der größte Teil des Altbestandes vor 1900 und damit rund ein Zehntel des Gesamtbestandes der Bibliothek ist inzwischen auch in digitaler Form verfügbar. Dabei handelt es sich um Werke aus zwölf Jahrhunderten. Von koptischen Papyri des 6. Jahrhunderts über mittelalterliche Handschriften, neuzeitliche Inkunabeln bis hin zu Druckwerken des späten 19. und frühen 20. Jahrhunderts ist alles dabei.

Doch Digitalisierung allein genügt nicht. Ein wichtiger Aspekt der Benutzbarkeit der digitalen Werke ist ihre Erschließung. Zwar ist jedes dieser Werke durch umfangreiche, qualifizierte ebenfalls online verfügbare bibliographische Metadaten erfasst. Indes erfordert die Erfassung der Struktur zum Beispiel eines digitalisierten mittelalterlichen Buches, also der Überschriften, Kapitelnummern, der nativen Seitenzählung, der Illustrationen usw. immer noch aufwendige und teure Handarbeit. Diese Art Erschließung kann nur für einen Bruchteil der digitalisierten Werke bereitgestellt werden, und so bleiben die Inhalte dieser Werke meist verborgen, bis diese Seite für Seite am Bildschirm durchblättert werden. Für gedruckte Werke neueren Datums kann mittels automatisierter Optical Character Recognition-Verfahren (OCR) zumindest der Text maschinenlesbar gut transformiert und zugänglich gemacht werden. Andere wesentliche Inhalte, wie zum Beispiel Abbildungen, bleiben weiterhin verborgen.

Diese Situation – fehlende strukturelle Informationen für eine große Zahl von Werken und fehlende Kenntnis über die enthaltenen Illustrationen – war für die Bayerische Staatsbibliothek die Motivation, bei der Erschließung des Bestandes neue Wege im Zugang zu beschreiten, weg von der textorientieren Suche in bibliographischen, textbasierten Metadaten, hin zur automatisierten Indexierung und Suche der Vergleichsmerkmale von Bildern. Der Idee der Schaffung einer neuen bildorientierten Zugangsform folgte eine intensive Marktsichtung. Schließlich wurde 2011 gemeinsam mit dem Fraunhofer Heinrich-Hertz-Institut (HHI) in Berlin das innovative und seinerzeit weltweit einmalige Projekt einer Bildähnlichkeitssuche begonnen.

Das Fraunhofer Heinrich-Hertz-Institut besitzt langjährige Erfahrung und umfangreiches Know-How mit automatischen Bilderkennungs- und Bildanalyse-Systemen. Noch 2011 konnte eine erste prototypische Applikation zur Bildähnlichkeitssuche auf der Basis einer kleinen Auswahl von 250 digitalisierten Werken umgesetzt werden. Dieser erste Anwendungsfall zeigte das Potential der vorhandenen Möglichkeiten auf. Es wurde aber klar, dass hier noch ein längerer Weg beschritten werden musste, um eine benutzbare Applikation bereitstellen zu können. Heute stehen – täglich mit Fortschritt der digitalen Produktion aktualisiert – über 54 Millionen Bilder und Bildsegmente online frei zur Verfügung.

__________________________________________________________________________________

Die Herausforderungen _________________________________________________________________________________

Die erste Herausforderung bestand darin, Text und Bild automatisiert zu unterscheiden und zu trennen. Denn die von Fraunhofer Heinrich-Hertz-Institut (HHI) bereitgestellte und in der prototypischen Anwendung eingesetzte Bilderkennungs-Software war bislang ausschließlich für die Ermittlung von Plagiaten moderner Digitalfotografien eingesetzt. Die Software lieferte mit Fotografien (digitale Einzelbilder) sehr gute Ergebnisse, aber im Falle der gescannten historischen Buchseiten war dieses Verfahren, das zunächst eine Buchseite als ein Bild betrachtete, nicht zielführend. So musste in einem ersten Schritt ein Verfahren entwickelt werden, um Text und Bild voneinander zu unterscheiden und die erkannten Bilder beziehungsweise Bildsegmente performant zu extrahieren.

Die zweite Herausforderung war unmittelbar mit der ersten verbunden. Eine Buchseite kann mehr als eine Illustration enthalten. Es sollten nach Möglichkeit natürlich alle Bilder einer Seite erkannt werden und in Abgrenzung zum Text auf dem Image lokalisiert werden.

Die dritte Herausforderung war die Extraktion der visuellen Merkmale der Bilder. Erschwerend kam hinzu, dass von Anfang an die Ambition bestand, alle Bilder aus allen Werken über den gesamten Bestand hinweg durchsuchbar zu machen. Kunstvolle Miniaturen auf mittelalterlichem Pergament, Holzschnitte auf Büttenpapier, kolorierte Kupferstiche in unterschiedlichsten Größen, verwoben mit Textelementen, filigrane Stahlstiche auf Seidenpapier und nicht zuletzt grob gerasterte Fotografien auf stark vergilbtem, billigem Papier von Büchern und Zeitungen der Neuzeit – all diese Bilder sollten in einer Suche auffindbar sein, ohne sich an Epochen oder Bestandsgrenzen orientieren zu müssen.

Die vierte Herausforderung ergab sich aus den spezifischen Eigenheiten des Bestandes: Stockflecken sind keine Bilder, Risse, Eselsohren ebenfalls nicht. Es galt somit diese „Bildtypen“ zu identifizieren und mittels Verfahren des maschinellen Lernens Irrelevantes herauszufiltern und die individuellen Merkmale für eine Ähnlichkeitssuche zu ermitteln.

Text-Bild-Trennung. Die eingesetzte Text-Bild-Trennung nutzt Verfahren, die in ähnlicher Form als Vorstufe einer OCR-Segmentierung zum Einsatz kommen. Hier werden sie umgekehrt genutzt, um Bilder auf Buchseiten zu extrahieren. Seite für Seite werden Textflächen von Nichttextflächen getrennt. Es wird ein Ansatz verwendet[1], der auf einer Folge morphologischer Operationen basiert. Im ersten Schritt wird eine Otsu-Binarisierung des Grauwertbildes durchgeführt (siehe Abbildung 1, Schritt 1). Liegt der Helligkeitswert eines Pixels unter einem Schwellenwert, wird der Wert auf 1 (Vordergrund), sonst auf 0 (Hintergrund) gesetzt.

[1] Vgl. hierzu: Bloomberg D.S. (1991), Multiresolution morphological approach to document image analysis. In: Proc. Int. Conf. Document Analysis and Recognition (ICDAR 1991): S. 963–971 und Bukhari S.S., Shafait F., and Breuel T.M. (2011), Improved document image segmentation algorithm using multiresolution morphology. Proc. SPIE7874, Document Recognition and Retrieval XVIII.

Abbildung 1: Verarbeitungsschritte bei der Text-Bild-Trennung

Es werden hauptsächlich morphologische Operationen verwendet, welche einen 2×2-Pixel umfassenden Block durch ein einzelnes Pixel ersetzen. Ist die Summe der Pixelhelligkeitswerte des Blocks größer oder gleich einem Schwellwert T, der zwischen 1 und 4 liegen kann, so erhält das neue Pixel den Wert 1, sonst 0. Durch diese morphologische Operation wird das Bild um den Faktor 2 in Breite und Höhe verkleinert, wobei je nach Größe des Schwellenwertes kleine Strukturen verschwinden. Diese Operation wird viermal hintereinander mit den Schwellenwerten 1, 1, 4 und 3 durchgeführt, wodurch das Bild verkleinert wird und „kleine“ Strukturen wie Buchstaben verschwinden (siehe Abbildung 1, Schritt 2).

Übrig bleiben Bereiche, die größere zusammenhängende Strukturen wie Linien und Flächen beinhalten. Diese Bereiche werden mit dem originalen Binärbild überlagert. Mit der morphologischen Operation „Dilatation“ werden Löcher gefüllt (siehe Abbildung 1, Schritt 3). Als Ergebnis erhält man zusammenhängende Bereiche, die jeweils zu einem Rechteck aufgefüllt werden. Diese Rechtecke umfassen die Nicht-Textflächen und kommen als Bilder oder Grafiken in Frage. Dabei werden alle individuellen Bilder jeder Buchseite erfasst.

Lesen Sie in der nächsten Folge: Extraktion visueller Merkmale – Aussortieren irrelevanter Bilder – Effiziente parallele Suche – Flankierende Indexierung auf der Basis textueller Metadaten

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen viermal in der Woche.

Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.

Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)

Anzeige

FAQ + Hilfe

Was ist das Open Password Archiv?

Das Open Password Archiv ist eine digitale Sammlung von über 1.100 Artikeln und Ausgaben des ehemaligen Newsletters „Open Password“ aus der Publikation “Password Online”. Diese Publikation, die von 1986 bis 2015 als Print-Ausgabe erschien, diente als zentrale Informationsquelle für Fachleute in der Informationsbranche.

Im Archiv des 2016 gestarteten Pushdienstes finden Sie tiefgreifende Analysen, exklusive Geschichten und redaktionelle Beiträge, die wichtige Entwicklungen und Trends in verschiedenen Sektoren wie Finanzen, IT und Pharma beleuchten. Das Archiv ist online zugänglich und bietet eine wertvolle Ressource für Forscher, Information Professionals und alle, die an der Geschichte und den Entwicklungen der Informationsbranche interessiert sind.

Eine noch ausführlichere Zusammenfassung zu Open Password wurde vom ehemaligen Herausgeber Dr. Wilhelm Heinrich Bredemeier verfasst.

Wo ist das Archiv und die Beiträge zu finden?

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Was ist die GPT KI-Suche?

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Kann man einen Beitrag der fehlt anfordern?

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

information is our mission
KONTAKT

Archiv & Touchpoint

Was ist das Open Password Archiv?

Wo ist das Archiv und die Beiträge zu finden?

Was ist die GPT KI-Suche?

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Kann man einen Beitrag der fehlt anfordern?