Open Password Archiv Logo

Anzeige



Open Password – Mittwoch, den 20. April 2022

# 1056

F.A.Z.-Archiv – Archivierung von Podcasts – Vermarktung von Podcasts – Birgitta Fella – Jens Peter Kutz – Hans Peter Trötscher – Caspar Dawo – Frankfurter Allgemeine Zeitung – FAZ.net – mp3 – aac – vorbis – opus – Inhaltliche Erschließung – Workflow – Indexate – Teaser – Produktionsmetadaten – Automatisierung – Transkriptionen – Dragon – Trint – Tool-e-Byte – Machine Learning – Software-Effizienz – Datenkongruenz – TRIP-Datenbanken – ClassifyServer – d.velop classification consulting – Probabilistischer Ansatz

Digitale Altlasten – Datensammelwut – Unstrukturierte Daten – Kosten – Ökologischer Fußabdruck – Datenschutz – Gregor Bieler – Aparavi – Aktuelle Daten – Aggregierte Metadaten – Transparenz – DSGVO – Datenbereinigung – Automatisierte Lösungen – Cloud Provider – Datenspeicherung – Rechenzentren YouGov

Titel
F.A.Z.-Archiv:
Werkstattbericht „Archivierung und Vermarktung von Audiodaten – Von Birgitta Fella, Jens Peter Kutz, Hans Peter Trötscher und Caspar Dawo

Digitale Altlasten:
Sammelwut bei unstrukturierten Daten bringt Probleme bei Kosten, ökologischem Fußabdruck und Datenschutz – Von Gregor Bieler

F.A.Z.-Archiv

Werkstattbericht „Archivierung und Vermarktung von Audiodaten“

Teil I


Von Birgitta Fella, Jens Peter Kutz, Hans Peter Trötscher und Caspar Dawo

_____________________________________________________

Ausgangssituation und Aufgabenstellung

_____________________________________________________

Wie bei den meisten anderen Medienunternehmen besteht das Web-Angebot der Frankfurter Allgemeinen Zeitung aus Text- und Bildmaterial sowie multimedialen Inhalten. In den vergangenen Jahren haben vor allem die Podcasts einen immer bedeutenderen Platz eingenommen.

Zurzeit wird das Multimedia-Ressort auf FAZ.Net mit zehn Podcasts bespielt:

  • Podcast für Deutschland
  • Einspruch
  • Wissen
  • Digitech
  • KI
  • Finanzen & Immobilien
  • Gesundheit
  • Bücher
  • Wie erklär ich’s meinem Kind?

Die Erscheinungsweise der Podcasts reicht von täglich (Podcast für Deutschland) über wöchentlich (Einspruch) bis zu unregelmäßigen Erscheinungsweisen mit mehreren Wochen Abstand (KI). Seit dem 20. Januar 2020 sind bislang mehr als 270 Stunden Audiomaterial produziert worden.

Die Podcasts ähneln in ihrer Form und Thematik anspruchsvollen Radiosendungen. Es erscheinen Beiträge einzelner Redakteure, aber auch Formate mit mehreren Sprechern, z.B. Interviews und Diskussionen. Es gibt Podcast-Ausgaben (Episoden), die sich nur einem Thema widmen, und solche, die einem Magazin ähnlich mehrere Themen in einer Ausgabe behandeln.

Auf https://www.faz.net/podcasts/ findet man eine Übersicht aller Podcasts der Frankfurter Allgemeinen Zeitung. Zu jeder Episode gibt es einen Begleittext sowie die einzelne Episode zum Anhören oder Download. Alle Podcasts können kostenfrei abonniert werden.

Zu jeder Episode liegen folgende Daten vor:

  • Titel
  • Erscheinungsdatum
  • Begleittext zur Audiodatei
  • Audio in den Formaten mp3, aac, vorbis und opus
  • Laufzeit
  • teilweise Original-Artikel, weiterführende Links usw.

Diese Daten erlauben eine Archivierung mit formalen Angaben, aber keine inhaltliche Erschließung. Hierfür ist eine Konvertierung der gesprochenen Sprache in maschinenlesbaren Text Voraussetzung (s.u.). Mit der Produktion der Podcasts beginnt für das F.A.Z.-Archiv die Verpflichtung, dieses Material sowohl in angemessener Form zu archivieren als auch im Zuge der Zweitverwertung zu monetarisieren. Unsere Aufgabenstellung bestand folglich darin, einen Workflow zu entwickeln, in dem das Datenmaterial so aufbereitet wird, dass dieser Verpflichtung entsprochen werden kann.

Zwar entstehen bei der Produktion der Podcasts auch einige Beschreibungsdaten, mit denen die Produzenten ihre mp3-Audiodateien ergänzen. Diese dienen aber in erster Linie dazu, die Audios auf der Webseite zu präsentieren. Eine detaillierte inhaltliche Beschreibung, Schlagwörter oder gar ein Indexat sind nicht enthalten. Außer den formalen Angaben, die z.B. die Reihenzugehörigkeit mit laufender Nummer, die Spieldauer und die Quelle angeben, enthalten diese Daten lediglich einen kurzen Teaser als inhaltliche Information für die Zuhörer und Abonnenten.

Dennoch sind die Produktionsmetadaten, wie am fertigen Produkt leicht zu erkennen ist, ein unerlässlicher Bestandteil des gesamten entstehenden Datensatzes.

Der erste Teil des Projektauftrags bestand also darin, aus dem Audiomaterial mit möglichst wenig Aufwand automatisiert einen für Verschlagwortung und Retrieval tauglichen Text zu gewinnen und diesen mit den Produktionsmetadaten in einen Datensatz zusammenzuführen. Als erster Abnehmer der Podcast-Daten stand die Presse Monitor GmbH fest, die diese Daten mit einem Link zur ursprünglichen mp3-Datei für die Vermarktung (z.B. in elektronischen Pressespiegeln) zur Verfügung stellen sollte. Dieser Vermarktungskanal definierte also die Gestaltung der Daten als XML für die Auslieferung der Dokumente.

FAZ-Podcast: Wie erklär ich´s meinem Kind?

_____________________________________________________

Aufgabe 1: Die Transkription der mp3-Dateien.

_____________________________________________________

Um das geeignete Werkzeug für die Transkription der Audiodaten zu finden, wurden hauptsächlich drei Verfahren getestet:

  • Dragon, eine installierbare Software der Nuance Communications Inc., die vor allem der automatische Anfertigung von Schriftsätzen aus Diktaten beispielsweise in Anwaltskanzleien dient.
  • Trint, eine Cloudlösung, die automatisiert Texte aus Audiofiles generiert und beides miteinander verknüpft.
  • Tool-e-Byte, ein in Griesheim und unter anderem in Indien ansässiger Anbieter von Konvertierungsdienstleistungen, der neben einer Konvertierung und Verknüpfung in der Lage ist, aus konvertiertem Text und Produktionsmetadaten eine den Anforderungen genügende XML-Datei zu erzeugen.

Um die Tools miteinander vergleichen zu können, wurden 15 Podcast-Dateien von jedem Tool transkribiert. Als Vergleich wurden weitere fünf Hörbuch-mp3 transkribiert, die auf einem geschriebenen Text beruhten und von Profisprechern mit modernster Studiotechnik aufgenommen wurden.

Dragon scheiterte bereits an dieser Hürde, da praktisch keine Eigennamen, Fremdwörter und Zitate korrekt transkribiert wurden. Auch die Syntax und die berechneten Satzzeichen waren komplett willkürlich gesetzt und nicht nachvollziehbar. Der Wert der Software-Effizienz (d.h. der Anteil des korrekt transkribierten Textes) lag bei den im Test verwendeten Podcasts bei rund 50 Prozent (Dragon), rund 55 Prozent (Trint) und bei rund 75 Prozent (Tool-e-Byte). Über angewandtes Machine Learning kommt Tool-e-Byte auf eine Effizienz von über 80 Prozent im Durchschnitt aller Sprecher. Je nach Sprecher können diese Werte nach oben oder unten um bis zu zehn Prozent abweichen.

Der Fehlerkoeffizient, den Trint produzierte, war zwar ein wenig besser als der von Dragon, aber noch nicht überzeugend. Im Endergebnis lagen beide Tools auch beim Ergebnis der automatischen Indexierung fast gleichauf.

Tool-e-Byte zeigte schon in der vollautomatischen Basisversion deutlich bessere Ergebnisse als die anderen Tools. Bei den Hörbuchtexten entsprach die transkribierte Version nahezu vollständig dem Ausgangstext. Der Funktionstest sowie die bereits vorhandene Lösung für den Produktionsweg gaben schließlich den Ausschlag für dieses Angebot.

Die fertige XML-Datei wird im Paket mit der mp3-Audiodatei innerhalb einer Frist vom doppelten der Podcastspielzeit an PMG und die F.A.Z. ausgeliefert. Dort werden die Daten in die jeweilige Datenbankstruktur übernommen und vermarktet sowie für die interne Nutzung bereitgestellt.

Die reibungslose Übernahme der Podcastdaten zur weiteren Verwendung setzt die Kongruenz der Daten voraus. Dazu mussten zunächst die mitgelieferten Metadaten der Podcasts den vorhandenen Datenfeldern im XML-Ausgabeformat zugeordnet werden. Kleine Schwierigkeit am Rande: Das XML-Format der PMG ist bisher für Artikel-Datensätze optimiert und sieht keine typischen Angaben für Audioformate vor. Deshalb wird zum Beispiel die Dauer als Seitenzahl ausgegeben und die Podcast-Reihe als Ressort. Beim Erzeugen des XML-Datensatzes muss Tool-eByte die Konventionen der PMG für Quelle, Dateinamen und Veröffentlichungsdatum penibel einhalten und die Ausgangsdaten der Podcasts entsprechend umwandeln.

Nach einer Woche Testlauf ging die Produktion Anfang November 2021 in den Regelbetrieb und beliefert seitdem PMG mit den Daten der aktuellen Podcasts.

Das F.A.Z.-Archiv erhält ebenfalls die aktuellen Podcastdaten sowie rückwirkend bis Januar 2020 alle transkribierten Backfiles zur Archivierung.

Bei der F.A.Z. bestand die erste interne Verwendung in einer Anreicherung ausgewählter FAZ.Net-Podcastseiten durch die zugehörigen Transkriptionen. Innerhalb kürzester Zeit machte sich ein deutlich positiver Effekt auf die Reichweite bemerkbar. Die Suchmaschinen-Spider reagieren wesentlich besser auf die Transkriptionen als auf die bislang ausschließlich verwendeten Teasertexte und Metadaten.

Auch die F.A.Z.-interne Datenbank sah bisher keine Archivierung von Audiodaten vor. Hier wurde für die Podcasts eine eigene, neue Datenbank aufgebaut, die auch spezielle Merkmale der Podcasts berücksichtigt. Auf Basis des PMG-XML, das Tool-e-Byte per FTP an das F.A.Z.-Archiv überträgt, wurden die Vorgaben für die Podcast-Datenbank definiert: ID und Dateinamen, Übernahme der Laufzeit in die Quellenangabe, Kurzbeschreibung, Weblink zum Original-Podcast, Verknüpfung zur mp3-Audiodatei und Podcast als neuer Artikeltyp. Für die weitere Vermarktung der Podcastdaten wird eine neues Ausgabeformat erarbeitet.

Die Verwendung der Podcasts im F.A.Z.-Archiv und in der weiteren Contentvermarktung setzt noch einen weiteren Schritt der Datenverbesserung voraus: die automatische Indexierung dieser neuen Quelle.

Digitale Altlasten

Sammelwut bei unstrukturierten Daten bringt Probleme bei Kosten, ökologischem Fußabdruck und Datenschutz

Von Gregor Bieler, CEO EMEA bei Aparavi***

Von Gregor Bieler

Unternehmen sammeln immer mehr digitale Altlasten an. Wird das zum Problem? Im Folgenden mein Reality Check auf der Basis von Umfragen im Auftrag von Aparavi:

Check 1: Sind Unternehmen zu Daten-Messis geworden? Wer aktuell im E-Commerce das Jahresendgeschäft vorbereitet, der braucht Daten, ohne Frage. Ein gutes Angebot zur rechten Zeit kann Leads konvertieren und die Loyalität von Bestandskunden steigern. Notwendig dafür sind aktuelle Daten – das Augenmerk liegt auf aktuell. Das heißt im Umkehrschluss, die Daten, die heute erfasst werden, wird in Zukunft niemand mehr benötigen – zumindest nicht in der Tiefe, in der sie erhoben wurden. Für Langzeitanalysen oder die Erfassung von Trends dürften in der Regel aggregierte Metadaten ausreichen. Gespeichert werden dennoch komplette Datensätze. Das ist nicht nur im Handel der Fall, sondern auch in allen anderen digitalen – also praktisch allen – Unternehmen.

Immer noch agieren die meisten Firmen nach dem Prinzip „Mehr ist Mehr“ und häufen regelrechte digitale Müllhalden an. Es schadet nichts, es kostet nichts, im Zweifel speichern wir einfach alles – solche Aussagen hört man immer noch. Das ist jedoch ein Trugschluss und kann sogar illegal sein.

Check 2: Mehr Daten, mehr Produktivität? Arbeiten Unternehmen besser, je mehr Daten sie zur Verfügung haben? In einer Aparavi-Umfrage* erklärten lediglich 20 Prozent der Studienteilnehmer, dass ihre Unternehmen aktiv mit allen vorhandenen Daten arbeiten, während ein weiteres Drittel (34 Prozent) angab, sich immerhin fast alle Daten zunutze zu machen. Im Umkehrschluss bedeutet das, dass 46 Prozent der deutschen Unternehmen große Teile ihrer Daten nicht nutzen.

Unter den Studienteilnehmern, die laut eigener Aussage bislang nur die Hälfte oder weniger ihrer Daten nutzen, möchten zwar 63 Prozent in Zukunft ihre Unternehmensdaten aktiver verwenden. Daran, so gaben 43 Prozent an, hindere sie der Zeitmangel. Es kommt also darauf an, intelligente Lösungen zu implementieren, die Transparenz im eigenen Datendschungel schaffen und bei der Entscheidung helfen, welche Daten wirklich wertvoll und erhaltenswert sind. Der Rest sollte dann direkt gelöscht werden.

Check 3: Der Datenschutz bleibt gewahrt? Man könnte denken, solange Kundendaten sicher verwahrt werden und nicht nach außen dringen ist alles in Ordnung. Seit Einführung der DSGVO ist allerdings geregelt, dass Daten nur so lange aufbewahrt werden dürfen, wie sie für den Zweck benötigt werden, für den sie ursprünglich erhoben wurden. Um hier nicht in Konflikt mit den Vorschriften zu geraten, sollten Unternehmen unbedingt ein Löschkonzept für personenbezogene Daten implementieren, das auf den gesetzlichen Fristen basiert. Das Stichwort ist hier Data Cleaning oder Datenbereinigung. Automatisierte Lösungen, die Daten in Datenschutz-relevant und -irrelevant strukturieren können, sind dabei eine große Hilfe für Unternehmen.

Check 4: Datensammeln kostet nichts? Tag für Tag fressen ungenutzte Daten, die in Rechenzentren auf der ganzen Welt Speicherplatz blockieren, Ressourcen auf. Speicherplatz wird allerdings nicht als knappe Ressource im wirtschaftlichen Sinn gesehen. Fehlt es an Speicher, lassen sich schnell mit ein paar Klicks weitere Terrabyte beim Cloud Provider der Wahl hinzubuchen. Die Kosten dafür werden als unvermeidlicher Tribut an die Digitalisierung verbucht und der Ressourcenverbrauch wird nicht wahrgenommen: Lediglich 32 Prozent der Geschäftsführer und IT-Entscheider deutscher Unternehmen wissen, welche Daten in ihrem Unternehmen vorhanden sind – zu diesem Schluss kam eine Studie im Auftrag von Aparavi*.

Diese fehlende Übersicht wirkt sich auch auf die Kosten aus: 40 Prozent der Teilnehmer einer weiteren Studie** gaben an, im Geschäftsjahr bis zu 100.000 Euro für die Datenspeicherung zu zahlen. Bei 27 Prozent beliefen sich die Kosten auf über 100.000 Euro und jeder Dritte konnte bei dieser Frage keinen Betrag nennen.

Fazit. Der immense Stromhunger allein der Rechenzentren wird zu einem immensen Problem für eine Gesellschaft, die mitten im Jahrhundertprojekt Energiewende steckt. Unternehmen, die es nicht schaffen, die ihre Datenstrategie umzustellen und zu verschlanken, werden auf Dauer große Probleme bekommen, sei es mit Blick auf ihren ökologischen Fußabdruck, auf die Kosten oder auf den Datenschutz.

* YouGov hat im Auftrag von Aparavi zwischen dem 23. April und 1. Mai 2021 mit 250 Geschäftsinhabern, Geschäftsführern und IT-Entscheidern in Deutschland Online-Interviews durchgeführt.

** YouGov hat im Auftrag von Aparavi zwischen dem 1. und 13. September 2021 mit 522 IT-haupt- und mitverantwortlichen Entscheidern in Deutschland Online-Interviews durchgeführt.

***Aparavi verspricht den Unternehmen, die volle Kontrolle über ihre unstrukturierten Daten zu verschaffen. Mehr unter https://aparavi.eu/de.

Lesen Sie in der abschließenden Folge: Automatische Indexierung im F.A.Z.-Archiv: Herausforderungen für die Podcast-Indexierung – Vorgehen bei den Vorab-Tests – Ergebnisse und Erkenntnisse – Implementierung im Produktivbetrieb

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen dreimal in der Woche.

Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.

Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)

Archiv & Touchpoint

Das Open Password Archiv Plus bündelt mehr als 1.100 Beiträge aus den Open Password Pushdiensten seit 2016.

 

Anzeige

Anzeige



Events & Termine mit Relevanz für die Informationsbranche

Open Password FAQ

FAQ + Hilfe

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Open Password Navigation Hilfe

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Open Password Archiv Titelübersicht

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Wir sind bemüht die Beiträge so schnell wie möglich in das Archiv einzubinden. Die Planung sieht die komplette Einbindung aller Beiträge bis zum Ende dieses Jahres (2022) vor.

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.