Open Password – Freitag, den 13. November 2020
#851
Künstliche Intelligenz – Wissenschaftliche Bibliotheken – Kuratierung – Qurator – Clemens Neudecker – Staatsbibliothek zu Berlin-Preußischer Kulturbesitz – Kulturelles Erbe – Deutsche Digitale Bibliothek – Europeana – Digital Humanities – CLARIAH-DE – Nationale Forschungsdateninfrastruktur – NFDI14Culture – NFD14Memory – Open Educational Resources – Computerspiele – Apps – Urheberrechtsschutz – Texterkennung – Maschinelles Lernen – Deep Neural Network – Recurrent Neural Network – Convolutional Network – Generative Adversarial Network – Diskriminator – Data Augmentation – Google – Transformer Architecture – Attention – Deutsche Nationalbibliothek – Technische Informationsbibliothek Hannover – Deutsche Zentralbibliothek für Wirtschaftswissenschaften – Europeana Tech Community – Fantastic Futures – Nationalbibliothek Norwegen – Living with Machines – British Libraries – Collections as Data – Human Centric AI – WhatsApp – Jisc Collection – De Gruyter – LexisNexis Enterprise Solutions – Lexis Omni – Refinitiv – Due Diligence – Outsell – OCLC – Bibliotheksleitertagung – Gabriele Wolberg – University College London – Fake News – Machine Learning – Anil R. Doshi – Sharat Raghavan – William Schmidt
Künstliche Intelligenz
in wissenschaftlichen Bibliotheken
Zur Kuratierung digitalisierter Dokumente mit Künstlicher Intelligenz: Das Qurator-Projekt
Von Clemens Neudecker, Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
__________________________________________________________________________________
Einleitung
__________________________________________________________________________________
Die Digitalisierung des kulturellen Erbes in Bibliotheken, Archiven und Museen hat in den letzten Jahrzehnten eine rasant zunehmende Verfügbarkeit kultureller Inhalte im Web bewirkt – so hat die Staatsbibliothek zu Berlin – Preußischer Kulturbesitz (SBB-PK) rund 170.000 Werke (Bücher, Zeitschriften, Zeitungen, Karten, Notenschriften etc.) aus ihrem reichhaltigen Bestand digitalisiert und über ein eigenes Online-Portal[1] bereitgestellt (Stand Mai 2020). Noch deutlicher wird die immense Menge der durch die Digitalisierung entstandenen digitalen Kulturobjekte beim Blick auf die von Aggregatoren gebildeten Sammlungen – so beinhaltet die Deutsche Digitale Bibliothek[2] etwa 33 Millionen Nachweise für Digitalisate aus Kultureinrichtungen (Stand Mai 2020), die europäische digitale Bibliothek Europeana[3] weist knapp 60 Millionen digitalisierte Kulturobjekte nach (Stand Mai 2020).
Die kosteneffiziente Massendigitalisierung bringt zusätzlich zu einer verbesserten Auffindbarkeit für die Recherche und Nutzung in digitalisierten Sammlungen von zuhause und auf dem eigenen Computer erhebliche Vorteile für die Verwendung der erzeugten Daten in Forschung, Bildung und Kreativindustrie mit sich. Rasant verbreitet sich das Forschen mit digitalen Methoden und digitalen Objekten in den Geisteswissenschaften, den “Digital Humanities”. Forschungsinfrastrukturen wie DARIAH-DE für die Digital Humanities und CLARIN-D für die Sprachwissenschaften (ab 2019 in CLARIAH-DE[4] zusammengeführt) sind bestrebt, gemeinsam mit Einrichtungen des Kulturellen Erbes wie Bibliotheken die Digitalisate als umfangreiche Korpora und digitale Editionen in den Wissenschaftsbetrieb einzubringen. Mit dem Prozess zur Errichtung einer Nationalen Forschungsdateninfrastruktur (NFDI) und den darin vorgesehenen Konsortien wie NFDI4Culture und NFDI4Memory kommen perspektivisch weitere wissenschaftliche Nutzer und Anbieter für die digitalisierten Daten hinzu. Aber auch in der Bildung und Erziehung spielen digitalisierte Kulturobjekte zunehmend eine wichtige Rolle, beispielsweise bei der Einbindung digitalisierter Objekte in digitale Lernangebote (Open Educational Resources). Zu guter Letzt profitieren auch private Unternehmen von der Digitalisierung. Die Nachnutzung von frei zugänglichen Werken digitalisierten Kulturerbes bereichert durch Journalismus (z.B. Data Driven Journalism), durch Medien wie Film und Fernsehen, durch Computerspiele bis hin zu Apps etwa für den Tourismus führt zu einer Vielzahl von Anwendungen und zur Erschließung neuer Nutzergruppen für die digitalisierten Bestände.
Gleichzeitig ergeben sich grundlegende Herausforderungen durch die Digitalisierung – vor allem mit Blick auf die erzielbaren Qualitäten. Bedingt durch den Urheberrechtsschutz, wird die Massendigitalisierung in Bibliotheken in erster Linie auf Dokumente fokussiert, die vor dem Beginn des 20. Jahrhunderts entstanden sind. Damit kommt es bei zahlreichen Arbeitsschritten zu Problemen. Angesichts der großen Heterogenität der Druckerzeugnisse aus vier Jahrhunderten, der sich stark verändernden Erscheinungsformen, einer Vielzahl von Schriftarten und der insbesondere im Deutschen stark variierenden historischen Rechtschreibung kommen lexikalische Verfahren bei der Texterkennung schnell an ihre Grenzen. Die Verarbeitung von Bilddigitalisaten mit automatisierten Verfahren zur Texterkennung führt oft lediglich zu einer Erkennungsrate von etwa 70 – 80 Prozent Wortgenauigkeit. Der hohe Anteil von 20 – 30 Prozent Fehlern in den erkannten Texten macht eine Verbesserung der Textgenauigkeit zur zwingenden Voraussetzung für die Weiterverarbeitung der Inhalte mit Sprach- und Wissenstechnologien. Zudem erfordern historische Sprache und spezifische Inhalte eine Domänenanpassung von Sprach- und Wissenstechnologien für die semantische Erschließung und Anreicherung dieser Inhalte mit intelligenten Verfahren für die Kuratierung.
Zum anderen ergeben sich durch die großen Mengen an digitalen Objekten Herausforderungen für die Erschließung der enthaltenen Inhalte nach bibliothekarischen Methoden, die immer noch weitgehend intellektuell-manuell organisiert sind. Ohne hochwertige, automatisierte Kuratierungstechnologien, die es erlauben, den intellektuell-manuellen Aufwand dramatisch zu reduzieren, fehlt es schlichtweg an den nötigen Ressourcen, um die rasch wachsende Zahl digitalisierter Dokumente in einer solchen Weise zu erschließen und so aufzubereiten, dass dadurch eine einfache, attraktive und gezielte Nachnutzung der Inhalte ermöglicht wird.
Vor diesem Hintergrund wecken neue Methoden aus dem Bereich der Künstlichen Intelligenz (KI) oder des Maschinelles Lernens (ML) große Erwartungen mit Blick auf eine mögliche Bewältigung dieser Herausforderungen, versprechen diese Verfahren doch, große Datenmengen in den Griff zu bekommen. Im folgenden werden nach einer kurzen Einführung zu KI eine Reihe von KI-Anwendungen vorgestellt, an denen die SBB-PK aktuell im Rahmen eines Forschungsprojekts arbeitet, und mit ihren jeweiligen Anforderungen und Ergebnissen diskutiert.
__________________________________________________________________________________
Künstliche Intelligenz
__________________________________________________________________________________
Unter “Künstliche Intelligenz” wird der gesamte Bereich der Anwendung von Computerprogrammen zur Lösung von Problemen verstanden, im Gegensatz zur allgemeinen Softwareentwicklung, in der Computerprogramme entwickelt werden, um Aufgaben anhand eines definierten Lösungswegs zu bearbeiten.[5] Die hier diskutierten Ansätze und Verfahren lassen sich dem Unterbereich des Maschinellen Lernens zuordnen. Das Grundprinzip des Maschinellen Lernens lässt sich gut am Beispiel einer Gleichung illustrieren, bei der sowohl Eingangsdaten (Input) als auch das gewünschte Ergebnis (Output, hier: Referenz- bzw. Trainingsdaten) bekannt sind und die Maschine auf Basis dieser Daten selbstständig einen Weg lernt, um von der Eingabe zum Ergebnis zu gelangen.
Die meisten gängigen Verfahren des Maschinellen Lernens beruhen letztlich auf – massiv parallelisierten – statistischen Methoden. Eine Klasse besonders populärer Methoden stellen neuronale Netze dar sowie insbesondere die aus mehreren Schichten bestehenden tiefen neuronalen Netze (Deep Neural Networks, Deep Learning). Diese wiederum liegen in vielfältigen Ausprägungen (Architekturen) vor. Die aktuell am weitesten verbreiteten Architekturen stellen rekurrente neuronale Netze (Recurrent Neural Network, RNN), “faltende” neuronale Netze (Convolutional Neural Network, CNN) sowie “erzeugende gegnerische” neuronale Netze (Generative Adversarial Network, GAN) dar.
In einem CNN sind die Neuronen in zwei grundsätzlich verschiedenen Schichten organisiert. In einer “faltenden” Schicht, die üblicherweise aus mehreren Schichten Neuronen besteht, werden die Eingabedaten in kleine Bildausschnitte, bestehend aus wenigen Pixeln unterteilt. Die Neuronen lernen dann die sich durch die Faltung lokal überlappenden Merkmale. CNNs eignen sich besonders gut für die Anwendung auf Bilddaten. Ein RNN besteht hingegen aus vielen ähnlichen Schichten, die aber durch die Möglichkeit der Rückkopplung miteinander verschaltet sind. Sie bieten besondere Vorteile bei dem Erlernen sequentieller Daten, die also in einer zeitlichen Abfolge organisiert sind. Diese Verfahren sind besonders gut geeignet, um geschriebenen oder gesprochenen Text zu erkennen, da die Reihenfolge der Wörter in einem Satz eine sequentiell kodierte Struktur darstellt, die das neuronale Netz aus den Trainingsdaten lernen kann. Ein GAN stellt eine weitere verbreitete Anordnung eines neuronalen Netzes dar. Hier befinden sich zwei unterschiedliche Schichten in einer Art Wettkampf. Während ein Generator anhand von Trainingsdaten versucht, eine ideale Ausgabe zu generieren, wird diese von einem Diskriminator bewertet und solange zurückgewiesen, bis die generierte Ausgabe dem gewünschten Ergebnis entspricht. Dieses Verfahren wird oft dort eingesetzt, wo eine zu geringe Menge von Trainingsdaten vorliegt, da mit einem GAN zusätzliche ähnliche Daten generiert werden, um so die Breite und Repräsentativität der Trainingsdaten zu verbessern. Man spricht dann von “Data Augmentation.”
Es gibt zahlreiche weitere Wege, ein neuronales Netz für KI-Anwendungen zu strukturieren. Insbesondere die 2018 von Google entwickelte “Transformer Architecture” greift mehrere etablierte Ansätze aus allen Bereichen der KI-Forschung auf und kombiniert diese mit Attention [31], einem neuartigen Mechanismus, der durch seine gezielte Aufmerksamkeit auf die Anordnung von Elementen in einer Sequenz erhebliche Fortschritte in der Analyse und Verarbeitung von Sprachdaten erzielt.
[1] https://digital.staatsbibliothek-berlin.de/
[2] https://www.deutsche-digitale-bibliothek.de/
[5] Vgl. https://worldwritable.com/ai-literacy-the-basics-of-machine-learning-2e20f93e34b4
______________________________ ____________________________________________________
KI in Bibliotheken.
__________________________________________________________________________________
Bislang ist die Anwendung von KI in deutschen Bibliotheken weitestgehend auf die Sacherschließung ausgerichtet [30]. Die Vorreiterrolle gebührt der Deutschen Nationalbibliothek (DNB), die seit 2012 [16] mit Maschinellem Lernen für die Sacherschließung experimentiert[1]. An der SBB-PK wurde das Wissenschaftsjahr 2019 zum Anlass genommen, eine Blogreihe[2] zu Künstlicher Intelligenz zu erarbeiten. Im Oktober 2019 trat erstmals das “Netzwerk maschinelle Verfahren in der Erschließung” zusammen, um sich auf einer von der DNB organisierten Fachtagung[3] über den Stand der Erfahrungen zum Einsatz von KI in Bibliotheken auszutauschen. Anfang 2020 fand die erste Konferenz des Qurator-Projekts in Berlin statt[4]. Teil des Konferenzprogramms war ein wissenschaftlicher Workshop zu digitalen Kuratierungstechnologien,[5] auf dem auch die Technische Informationsbibliothek Hannover (TIB) und die Deutsche Zentralbibliothek für Wirtschaftswissenschaften in Kiel (ZBW) ihre aktuellen Arbeiten zu Künstlicher Intelligenz in der Bibliothek präsentierten [23]. Seit Ende 2019 beschäftigt sich erstmals eine Task Force[6] in der EuropeanaTech Community speziell mit der Rolle von KI in GLAM-Einrichtungen (GLAM = Galleries, Libraries, Archives, Museums).
Die Konferenz “Fantastic Futures2[7] wurde 2018 erstmals an der Nationalbibliothek Norwegens in Oslo ausgerichtet und tagte 2019 in Stanford und 2020 an der französischen Nationalbibliothek in Paris. Diese hat eine Plattform[8] für den internationalen Diskurs zu Künstlicher Intelligenz in Bibliotheken verfügbar gemacht. Im angelsächsischen Raum werden in den Großprojekten “Living with Machines”[9] der British Library und der US-Initiative “Collections as Data”[10] KI-Anwendungen für digitalisierte Sammlungen entwickelt. Eine zentrale Frage ist, wie digitalisierte Sammlungen am besten als Datensets für KI-Anwendungen bereitgestellt werden können. Hinzu kommen ethische Fragestellungen[11] wie die Möglichkeiten der Vermeidung von Verzerrungen (Bias) [22] und die Rolle des Menschen im Spannungsfeld von Training, Anwendung und Evaluation der KI-Technologien (“Human Centric AI”).
Lesen Sie in der nächsten Folge: Das Projekt Qurator
[1] https://d-nb.info/1048376788/34
[2] https://blog.sbb.berlin/tag/wissenschaftsjahr-2019/
[3] https://wiki.dnb.de/display/FNMVE/Fachtagung+Netzwerk+maschinelle+Verfahren+in+der+Erschliessung
[4] https://qurator.ai/conference-qurator-2020/
[5] https://dblp.org/db/conf/qurator/qurator2020.html
[6] https://pro.europeana.eu/project/ai-in-relation-to-glams
[7] Vgl. https://www.nb.no/artikler/fantastic-futures/ und https://library.stanford.edu/projects/fantastic-futures
[8] https://sites.google.com/view/ai4lam/home
[9] https://www.bl.uk/projects/living-with-machines
[10] https://collectionsasdata.github.io/
[11] Siehe dazu https://www.oclc.org/research/publications/2019/oclcresearch-responsible-operations-data-science-machine-learning-ai.html
International News
WhatsApp Lets Messages Vanish After Seven Days
WhatsApp is introducing a „disappearing messages“ option that will erase chats from the phone of both the sender and recipient after seven days. The Facebook-owned app said the setting would help keep chats private.
New Agreement: All Participating Jisc Member Articles Published with De Gruyter to Be Open Access
Jisc Collections and De Gruyter have signed an agreement to provide default open access publishing in De Gruyter journals for all authors at participating institutions, as well as subscription access to the complete De Gruyter eJournal collection. The agreement will contribute to an increase in open access articles written by researchers based in the United Kingdom in De Gruyter journals.
LexisNexis Enterprise Solutions Announces Lexis Omni
LexisNexis Enterprise Solutions has unveiled Lexis Omni, a flexible technology platform that will power optimised legal service delivery for any legal services organisation. Organisations adopting Lexis Omni will have access to new tools that will allow them to deploy tailored solutions in familiar Microsoft environments to match their business needs.
Refinitiv Launches AI-Powered Due Diligence to Better Assess Business Supply Chains
Refinitiv has launched a new AI-powered due diligence report to help businesses stay on top of the risks associated with increasingly complex supply chains. The data-driven ‘Snapshot’ report offers a quick and cost-effective review of suppliers and business interests to help companies better evaluate the perceived risks presented.
Quelle: Outsell
OCLC
„Jetzt das Immunsystem
Ihrer Bibliothek stärken“
Sehr geehrte Damen und Herren,
Auch in diesem Jahr wird es einen OCLC Bibliotheksleitertag geben – und zwar online. Am 8. und 9. Dezember bieten wir Bibliotheken wieder ein ideales Forum für aktuelle Themen und Informationen.
Das Thema „Stark durch schwierige Zeiten – Jetzt das Immunsystem Ihrer Bibliothek stärken“ ist nun leider wieder aktueller denn je. Wir gehen der Frage nach, wie schwierige Zeiten auch zum Motor für Veränderung werden können und geben Impulse und Ideen weiter, die trotz allem optimistisch stimmen.
Warum es sich lohnt? Getrennte Sessions für wissenschaftliche und öffentliche Bibliotheken – ermöglichen es uns, auf unterschiedliche Teilnehmerinteressen einzugehen. Hochkarätige Referent*innen sprechen darüber, warum die Krise auch Chancen eröffnet und geben Impulse und Ideen für die Bibliothekspraxis.
Nicht umsonst ist der Bibliotheksleitertag eines der beliebtesten Foren für Bibliotheksverantwortliche und -interessierte. Und nicht zuletzt konnten wir Ranga Yogeshwar, Journalist und TV-Moderator, als Keynote gewinnen. Alle weiteren Referent*innen der verschiedenen Sessions und ihre Themen finden Sie unter: https://www.oclc.org/go/de/bibliotheksleitertag/programm.html
Die Anmeldung ist kostenlos. Hier der Link zu mehr Informationen und der Registrierung >>> www.bibliotheksleitertag.de. Rückfragen richten Sie bitte an deutschland@oclc.org, Herrn Steffen Drayß +49 (0) 6324 9612-4210 oder gerne auch an mich +49 (0) 89 61308-326.
Mit freundlichen Grüßen Gabriele Wolberg
University College London
Machine learning tool developed
to detect fake news domains when they register
Academics at UCL and other institutions have collaborated to develop a machine learning tool that identifies new domains created to promote false information so that they can be stopped before the ‘fake news’ can be spread through social media and online channels. “Real-Time Prediction of Online False Information Purveyors and their Characteristics,” is a working paper co-authored by Anil R. Doshi (UCL School of Management), Sharat Raghavan (University of California, Berkley) and William Schmidt (Cornell University).
To counter the proliferation of false information it is important to move fast, before the creators of the information begin to post and broadcast false information across multiple channels. Anil Doshi and his fellow academics set out to develop an early detection system to highlight domains that were most likely to be bad actors. Details contained in the registration information, for example, whether the registering party is kept private, are used to identify the sites.
Anil Doshi, Assistant Professor for the UCL School of Management commented: “Many models that predict false information use the content of articles or behaviours on social media channels to make their predictions. By the time that data is available, it may be too late. These producers are nimble and we need a way to identify them early. By using domain registration data, we can provide an early warning system using data that is arguably difficult for the actors to manipulate. Actors who produce false information tend to prefer remaining hidden and we use that in our model.”
By applying a machine-learning model to domain registration data, the tool was able to correctly identify 92 percent of the false information domains and 96.2 percent of the non-false information domains set up in relation to the 2016 US election before they started operations.
Doshi and his co-authors propose that their tool should be used to help regulators, platforms, and policy makers proceed with an escalated process in order to increase monitoring, send warnings or sanction them, and decide ultimately, whether they should be shut down. The academics behind the research also call for social media companies to invest more effort and money into addressing this problem which is largely facilitated by their platforms.
The research is ongoing in recognition that the environment is constantly evolving and while the tool works well now, the bad actors will respond to it. This underscores the need for constant and ongoing innovation and research in this area.
Open Password
Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum
Neue Ausgaben von Open Password erscheinen viermal in der Woche.
Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.
Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.
International Co-operation Partner:
Outsell (London)
Business Industry Information Association/BIIA (Hongkong)
Anzeige
FAQ + Hilfe