Open Password Archiv Logo

Anzeige






Open Password – Montag, den 25. April 2022

# 1058

F.A.Z.-Archiv – Archivierung von Podcasts – Vermarktung von Podcasts – Birgitta Fella – Jens Peter Kutz – Hans Peter Trötscher – Caspar Dawo – Frankfurter Allgemeine Zeitung – FAZ.net – Automatische Indexierung – Speech-to-Text-Transkription – Indexierungssoftware – Stichproben – Testset – Indexierungsqualität – Implementierung im Produktivbetrieb – Rückindexierung – Neuindexierung – Qualitätsoptimierung – Maschinelle Nachindexierung – Suchmaschinenoptimierung

Outsell – Balance Between Remote and In-Office Work – Product Renewal – Price Parity – New Participants in the Buying Process – New Skills – HAW – ZBW – Bewerbung für Hochschulprofessur – Forschungsdaten und Publikationsmärkte – Doreen Siegfried – INCONNECS – Isabell Welpe – Digital Transformation – Potential of AI for Libraries – Tamara Pianos

  1. Titel:

F.A.Z.-Archiv

Werkstattbericht „Archivierung und Vermarktung von Audiodaten“ – Zweiter Teil –

Von Birgitta Fella, Jens Peter Kutz, Hans Peter Trötscher und Caspar Dawo

II.
Outsell: Das Ohr am Kunden
Striking a Balance Between Remote and In-Office Work – A Need for New Skills to Monitor Buyers at Product Level

III.
HAW und ZBW
Last Minute-Bewerbung für Hochschulprofessur

IV.
INCONECSS
Digital Transformation and the Potential of AI for Libraries

F.A.Z.-Archiv

Werkstattbericht „Archivierung und Vermarktung von Audiodaten“

Zweiter Teil

Von Birgitta Fella, Jens Peter Kutz, Hans Peter Trötscher und Caspar Dawo

FAZ-Podcast: Wie erkläre ich´s meinem Kind?

_____________________________________________________

Aufgabe 2: Automatische Indexierung im F.A.Z.-Archiv

_____________________________________________________

Schon vor der Archivierung von Podcasts erfolgte im F.A.Z.-Archiv eine einheitliche Inhaltserschließung (Indexierung) der bisherigen Artikeltexte für externe und interne Zwecke und das über den in TRIP-Datenbanken vorliegenden Gesamtbestand. Dies ermöglicht komfortable Recherchen sowohl für interne Nutzer (Archiv, Redaktion) als auch für externe Kunden (Onlinezugriff) und unterstützt die Produkterstellung (Dossiers, CD-ROMs usw.). Die Indexierung wird bereits seit 2003 durch maschinelle Verfahren unterstützt. Eingesetzt wird der ClassifyServer der Firma d.velop classification consulting GmbH, der für fast alle Erschließungskategorien entsprechende Indexat-Vorschläge generiert. Für den Großteil der Quellen wird ein semi-automatisches Verfahren eingesetzt: tägliche Vorab-Indexierung für hauseigene und fremde Volltextquellen durch die Software, danach Überprüfung und manuelle Nachbearbeitung der (relevanten) Artikel durch die DokumentarInnen des Archivs.

Für Sachthemen (Notationen, Länder usw.) kommt ein statistisches Verfahren zum Einsatz. Hierbei werden neuen Dokumenten Indexate zugeteilt, wenn nach einem Ähnlichkeitsabgleich mit älteren, bereits verschlagworteten Dokumenten eine definierte statistische Wahrscheinlichkeit gegeben ist, dass das Indexat zutrifft (probabilistischer Ansatz). Voraussetzung hierfür ist ein möglichst großer, vielthematischer Bestand an Dokumenten mit kontrolliertem Indexat (Trainingskorpus). Für die Verschlagwortung von Entitäten (Firmen, Personen usw.) werden umfangreiche Namenslisten eingesetzt, die intellektuell mit Synonymen „angereichert“ sowie auf Homonyme kontrolliert sind. Das Vokabular im zu indexierenden Dokument wird mit den Einträgen der Listen verglichen (Zeichenkettenabgleich). Kommt ein Entitätenname (bzw. seine Synonyme) ausreichend oft bzw. an prominenter Stelle (Überschriften, Bildunterschriften) im Dokument vor, wird dieser Name als Indexterm vorgeschlagen.

Die Qualität der automatischen Indexierung in Recall und Precision ist im F.A.Z.-Archiv sehr hoch, insbesondere für die tägliche Printausgabe der hauseigenen Zeitung. Voraussetzung hierfür ist das kontinuierliche tagesaktuelle Optimieren der verwendeten Trainingskorpora bzw. Namenslisten.

Auch für die neue Medienkategorie „Podcast“ in ihrer mittels Speech-to-Text-Verfahren transkribierten Form sollte eine differenzierte Indexierung mit den üblichen Kategorien des F.A.Z.-Archivs erfolgen, damit eine medienunabhängige bestandsübergreifende Recherche über den gesamten Quellenpool des Archivs ermöglicht wird. Aus zeitökonomischen und sonstigen wirtschaftlichen Gründen war von Anfang an geplant, die Podcasts ausschließlich vollautomatisch zu erschließen.

Herausforderungen für die Podcast-Indexierung. Die automatische Indexierung der Podcasts sieht sich einigen spezifischen Herausforderungen gegenüber, die dieser Quellenkategorie genuin sind:

  • Die transkribierten Podcasts weisen eine von den meisten Printquellen abweichende, reduzierte Struktur auf. Es fehlen insbesondere (Unter-)Überschriften und Bildunterschriften. Dadurch bieten sie weniger auswertbare Informationen für den Indexierungsprozess, etwa über Wortpositionen im Dokument. Hinzu kommt die relative Länge der Dokumente (60 Minuten Podcast ergeben etwa 10 DIN-A4-Seiten). Daraus resultiert eine von den meisten Printquellen völlig abweichende Verteilung und Frequenz relevanter Namen innerhalb eines Dokuments.
  • Die automatische Erkennungsqualität ist abhängig von der Ähnlichkeit der Podcast-Themen mit Themen aus dem archivierten und indexierten Artikelbestand. Allgemein gilt die Regel, je thematisch näher ein neu zu indexierendes Dokument an Dokumenten aus dem Trainingskorpus liegt, desto besser wird die sachthematische Einordung erfolgen. Neue Themen sind schwerer identifizierbar. Das gleiche gilt für Spezialthemen, stark „feuilletonistisch“ gefärbte und auch mehrdeutige Themen. Gerade in den Podcasts werden aber solche Themen manchmal in aller Ausführlichkeit behandelt, zu denen es thematische Pendants im Bestand der Printquellen nur – wenn überhaupt – in unzureichender Menge gibt.
  • Die Qualität der Speech-to-Text-Transkription ist ausschlaggebend für die Entitätenerkennung: Namen können nur erkannt werden, wenn ihre Zeichenkette im Dokument einer Zeichenkette in einer der eingesetzten Namenslisten entspricht. Fehlerhafte Transkriptionen können also den Recall negativ beeinflussen (z.B. „Präsident beiden“ statt „Präsident Biden“).
  • Eine besondere Herausforderung sind polythematische Podcasts (aktuell F.A.Z. Podcast für Deutschland, A.Z. Einspruch und F.A.Z. Bücher-Podcast): Da im automatischen Indexierungsprozess versucht wird, zu einem zu indexierenden Dokument möglichst ähnliche Dokumente im Trainingskorpus zu finden, bleibt diese Suche hier ergebnislos, da der Trainingskorpus kaum solche Dokumente enthält, in denen dieselben Themen innerhalb eines einzigen Dokuments behandelt werden. Üblicherweise wird die Indexierungssoftware hier eben kein „passendes“ Dokument finden und entsprechend kein Indexat vergeben.
  • Eine gewisse Mehrthematigkeit ergibt sich häufig auch aus der Gesprächssituation (situatives Abschweifen), wenn von den Gesprächsteilnehmern viel „geplaudert“ wird und dabei auch in einem eigentlich monothematischen Podcast viele benachbarte Themen gestreift werden. Auch hierdurch wird die Zuordnung übereinstimmender Referenzdokumente aus dem Trainingskorpus erschwert.
  • Die zu indexierenden Podcasts enthalten transkribierte gesprochene Sprache, dies im Unterschied zu den Dokumenten im Trainingskorpus, die ausschließlich aus geschriebenen (Presse-)Texten bestehen. Dieses abweichende Wortmaterial in Form etwa von umgangssprachlichen Ausdrücken, Füllwörtern, gegebenenfalls Dialekten oder Slang ist der Indexierungssoftware weitgehend unbekannt und könnte sie insofern vor Probleme stellen (Falsch-Indexierung oder Nicht-Indexierung).
  • Schließlich enthalten manche Podcasts abweichend von den meisten Printquellen spezifische Themenabschnitte, die nicht sinnvoll indexierbar sind (Einleitungen, Überleitungen, Nachrichtenblöcke oder Werbevorspanne).

Vorgehen bei den Vorab-Tests. Die vielfältigen Einstellungsmöglichkeiten, die die Indexierungssoftware ClassifyServer bietet, sind überaus komfortabel, um gezielt Einfluss auf die Qualität der automatischen Indexierung zu nehmen. Dies macht jedoch ausgiebige Indexierungstestläufe notwendig, um vor Aufnahme einer produktiven Verschlagwortung die optimalen Einstellungen zu ermitteln. Während üblicherweise bei der Auswertung von Testdaten ein Vergleich sowie eine statistische Analyse von manuellen (kontrollierten und validierten) Indexaten mit automatisch vergebenen Indexaten aus ein und demselben Indexierungstestlauf erfolgt, konnte bei den Vorab-Tests für die neue Quellenkategorie „Podcast“ nicht auf manuelle Indexate zurückgegriffen werden. Die bewährte, im F.A.Z.-Archiv praktizierte automatisierte statistische Auswertungsmethode ließ sich daher nicht angewandt werden. Stattdessen erfolgte die Auswertung der Tests durch zeitaufwändigere intellektuelle Sichtung und Bewertung der automatischen Indexate.

Vor diesem Hintergrund wurden mehrere Testreihen mit unterschiedlichen Einstellungen für Schwellenwerte und diverse andere Parameter durchgeführt. Zum Einstieg wurden die jahrelang optimierten Einstellungen gewählt, die für den Produktivbetrieb für die F.A.Z.-Printausgabe gelten. Um die Vergleichbarkeit zu gewährleisten, wurde ein unveränderliches Stichproben-Testset von zwanzig transkribierten Podcasts aus verschiedenen thematischen Reihen zusammengestellt. Die Auswertungsergebnisse der diversen Testreihen wurden in einer fortlaufenden Tabelle dargestellt und grafisch für alle Projektbeteiligten aufbereitet.

Ergebnisse und Erkenntnisse. Im Projektverlauf ergaben die Tests eine kontinuierliche Verbesserung der Indexierungsqualität. Diese Entwicklung wurde durch die gleichzeitige Optimierung der Speech-to-Text-Erkennungsleistung (Evaluation verschiedener Dienstleister) gefördert. Die mit Abschluss der letzten Testphase erzielte Qualität der automatischen Indexierung der Podcasts ist insgesamt als gut zu bewerten. Sie kann sich mit der – noch besseren – produktiven Indexierungsqualität der Printausgabe der F.A.Z. messen lassen, die uns als „Benchmark“ dient.

Wie zu erwarten war die Indexierungsqualität insbesondere für die Sachthemen (Notationen) sehr stark von den konkreten Themen der jeweiligen Podcasts abhängig. Auch bestehen Qualitätsunterschiede zwischen den einzelnen Podcast-Reihen. Bei unscharfen, schwer abgrenzbaren Themen bzw. solchen, die zur Weitschweifigkeit einladen, sowie bei Gesprächspartnern, die sich zwanglos unterhalten, bleibt die Indexierungsqualität unbefriedigend. Dieses Problemfeld stellt eine bleibende Herausforderung für die automatische Verschlagwortung der Podcasts dar.

Gleichfalls zu erwarten war die mangelhafte Indexierungsqualität für Podcasts, in denen mehrere Themen behandelt werden. Um für solche polythematischen Podcasts eine gute Indexierungsqualität zu erreichen, wäre es erforderlich, die einzelnen Themenabschnitte als einzelne, getrennte Datensätze für die Indexierungssoftware bereitzustellen. Da der manuelle Aufwand einer fortlaufenden Themenseparierung im Produktivbetrieb zu hoch wäre (geschätzte Bearbeitungszeit von mehr als zehn Minuten pro Podcast), harrt dieses Problemfeld bis zur Entwicklung einer technischen Möglichkeit zur automatisierten Separierung einer Lösung.

Dagegen erwies sich die befürchtete negative Auswirkung fehlerhafter Erkennungen bei der Speech-to-Text-Konvertierung als weitgehend unbegründet. Zum einen ist die Erkennungsrate tatsächlich sehr hoch und wurde diese im Projektverlauf kontinuierlich verbessert – für die Verschlagwortung von Namen stellen diese Transkriptionsfehler somit kein gravierendes Problem dar. Zum anderen haben Transkriptionsfehler auf die Indexierungsqualität von Sachthemen generell einen eher geringen Einfluss, da der Abgleich mit dem Trainingskorpus auf der Basis sehr großer Wortmengen erfolgt, so dass gelegentlich abweichende Schreibweisen keinen störenden Einfluss nehmen.

Zudem beeinflussten auch die nicht sinnvoll indexierbaren Themenabschnitte innerhalb der Podcasts (Werbung, Überleitungen usw.) die Indexierungsqualität kaum. Die Kürze dieser Abschnitte fällt verglichen mit der durchschnittlichen Länge einzelner Podcast-Episoden weniger als erwartet ins Gewicht. Dies ist auch deswegen positiv zu sehen, weil ein automatisch gesteuerter Ausschluss solcher Abschnitte zurzeit im Produktivbetrieb technisch nicht umsetzbar wäre.

Implementierung im Produktivbetrieb. Zum 1. Dezember 2021 wurde die Produktivindexierung der transkribierten Podcasts durch das F.A.Z.-Archiv erfolgreich gestartet. Für die Indexierung der Podcasts gilt prinzipiell ein identischer produktiver Workflow wie für alle anderen Quellen, die zurzeit automatisch verschlagwortet werden – ein Workflow, der durch die Datenbankgruppe des F.A.Z.-Archivs weitgehend automatisiert (Skript-gesteuert) ist: Sobald die Konvertierungen vom Dienstleister geliefert und in der TRIP-Datenbank abgelegt sind, erfolgen die standardisierten Schritte „Dokumenten-Export“ – „Dokumenten-Verschlagwortung“ – „Indexat-Import (nach TRIP)“.

Parallel zur kontinuierlichen Verschlagwortung des aktuellen, fortlaufenden Podcast-Materials erfolgte die Rückindexierung der vor dem 1. Dezember 2021 erschienen Podcasts. Diese Rückindexierung war bereits Ende Januar 2022 abgeschlossen, so dass der gesamte Bestand der seit November 2017 publizierten über 1500 Episoden umfassenden F.A.Z.-Podcasts für die professionelle Recherche mit den Indexierungskategorien des F.A.Z.-Archivs zur Verfügung steht.

Auch nach Beendigung des Projekts geht die Arbeit an der Podcast-Indexierung weiter: Wie bei allen automatisch verschlagworteten Quellen werden auch die Indexate der Podcasts im Produktivbetrieb fortlaufend zum Zweck einer künftigen weiteren Qualitätsoptimierung optimiert. So wird die Indexierungsqualität bei einer Reihe anderer Quellen im Laufe der vergangenen Jahre kontinuierlich gesteigert, und auch die Podcasts bieten sicherlich noch Potential. Die Optionen etwa einer vollständigen Neuindexierung (zweiter Durchlauf) mit verbesserten Verfahren oder eventuell die (begrenzte) semi-maschinelle Nachindexierung – wie es das F.A.Z.-Archiv beispielsweise mit dem umfangreichen, ebenfalls vollautomatisch indexierten Retro-Bestand für den Zeitraum 1949-1992 gehandhabt hat – sind zumindest eine Überlegung wert, zumal weitere Erkenntnisse über die Podcasts in der täglichen Praxis von Recherche und Vermarktung gewonnen werden.

Mit der Entwicklung und Implementierung dieses Prozesses zählt das F.A.Z.-Archiv in der deutschen Presselandschaft zu den Vorreitern und Pionieren in der Verarbeitung, der strukturierten Archivierung und Vermarktung multimedialer Inhalte. Zudem ist davon auszugehen, dass die Verwendung der Transkripte für die Suchmaschinenoptimierung (SEO) die Reichweite der Podcasts selbst deutlich steigert.

Outsell: Das Ohr am Kunden

Striking a Balance Between Remote
and In-Office Work

A Need for New Skills to Monitor Buyers
at Product Level

 

We continue to hear about a broad range of approaches to the return to the office. On one end of the spectrum, there are companies that are still staying fully remote. On the other end, those requiring a full return: five days a week. More interesting are the approaches in the middle, some of which have been quite innovative.

Companies are trying to strike a balance between remote and in-office work to try to gain the benefits of both while offsetting the potential disadvantage of an all-or-nothing policy. For example, some are asking workers to be in the office a certain number of days per week, often two or three. Others are using flexible arrangements, such as having those who work together coordinate the days they are in the office for collaboration purposes.

*

Product renewal discussions are becoming more complicated as suppliers try to make up for lost revenue. They are looking to get “paid” for the flexibility they’ve shown during the pandemic. In fact, the old trope that they are required to show regulators price parity has resurfaced.

Another theme relates to demands placed on buyers by new enterprise participants in the buying process (new organizational structures, new CDOs, etc.). Buyers are not only being asked to show market understanding and alignment with business cases — they are being asked to supply specific product analyses and comparisons as part of their new and renewal purchase justifications. Buyers are seeing that they need new skills/capabilities to monitor suppliers at the product level and communicate the findings and alternatives to new audiences.

HAW und ZBW

Last Minute-Bewerbung für Hochschulprofessur

 

Lieber Herr Bredemeier,

Sie sind doch so gut verdrahtet. Könnten Sie diese Stellenausschreibung ggf. über Ihre Kanäle versenden?

https://stellenportal.haw-hamburg.de/jobposting/ebfb04c89757485bb8dc8d920f552b9084e072700?ref=homepage

Es geht um eine gemeinsame Professur von HAW und ZBW

PROFESSUR FÜR DAS LEHRGEBIET „FORSCHUNGSDATEN UND DIGITALE PUBLIKATIONSMÄRKTE“.

Bewerbungsfrist endet am 28.April 2022.

Danke!

Mit freundlichen Grüßen Doreen Siegfried,
ZBW – Leibniz-Informationszentrum Wirtschaft
.

INCONECSS

Digital Transformation and
the Potential of AI for Libraries

 

Lieber Herr Bredemeier,

Im Mai veranstalten wir die INCONECSS Konferenz. Sie richtet sich zwar v.a. an Informationseinrichtungen im Kontext Business/Economics, aber viele der Themen gehen über den fachlichen Fokus hinaus, so dass das eine oder andere Thema auch für eine größere Runde von Interesse sein könnte.

Falls Sie den Veranstaltungshinweis z.B. in Password teilen möchten, würde mich das sehr freuen.

INCONECSS – International Conference on Economics and Business Information

Free online conference from 17th-19th May 2022

There will be a mixture of live content and asynchronous content that can be viewed on the conference platform by registered participants.

The keynote „The next chapter for research information: decentralised, digital” will be held by Professor Isabell Welpe (Technical University of Munich, Germany). The business economist Isabell Welpe is an expert for the digital transformation of companies and the future of leadership and work/organizational design.

https://www.inconecss.eu/keynote/

The panel discussion is on „Potential of AI for Libraries: A new level for knowledge organization?“ On the panel, we will bring together experts from different backgrounds: Research, AI, Libraries, Thesaurus/ Ontology.

Topics covered during the conference will be Cooperation, Open Access, Corona effects, AI and Structured Data, Research and Teaching support or Onboarding, Information Literacy, Identifying trustworthy Conferences and much more.

Conference Program: https://www.inconecss.eu/programme/

Registration: https://www.inconecss.eu/registration/

The conference is free but you need to register in order to access the platform.

Twitter Hashtag: #INCONECSS

Viele Grüße Tamara Pianos, Leitung Informationsvermittlung,
ZBW – Leibniz-Informationszentrum Wirtschaft

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen dreimal in der Woche.

Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.

Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)

Archiv & Touchpoint

Das Open Password Archiv Plus bündelt mehr als 1.100 Beiträge aus den Open Password Pushdiensten seit 2016.

 

Anzeige

Anzeige



Open Password FAQ

FAQ + Hilfe

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Open Password Navigation Hilfe

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Open Password Archiv Titelübersicht

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.