Wie Zeitungsinhalte Forschung und Entwicklung befördern (FAZ-Archiv) -

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

Open Password – Donnerstag, den 20. Juli 2017

#237

FAZ-Archiv – Olivera Kipcic – Corinna Cramer – FAZ – Content-Vermarktung – PMG – Computergestützte Indexierung – Digitales Textarchiv – Retrodigitalisierung – Metaforschung .- Automatische Spracherkennung – Big Data – Digital Humanities – Universität Würzburg – Data Scientist – Universität Kopenhagen – Trainingsdaten – Künstliche Intelligenz – Tensor Flow – Referenzdaten – Data Mining – Classcon Consulting – Lizenzierung – Bibliothekskataloge – GBV – Verwertungsrechte – UrhWissG – vfm

Zwischen Wissenschaft und Kommerz

Wie Zeitungsinhalte
Forschung und Entwicklung befördern

Von Olivera Kipcic und Corinna Cramer

Das F.A.Z.-Archiv ist nach innen das Informationszentrum der F.A.Z. Hier ist seine oberste Aufgabe die Informationsversorgung der Redaktionen der F.A.Z. GmbH und der Nachweis der F.A.Z. mit allen Teilen und Ausgaben.[1] Nach außen tritt es als Vermarkter von Zeitungsdaten auf, dies sowohl für das eigene Haus wie auch für Dritte. Klarer Auftrag ist dabei die Generierung von Erlösen für die F.A.Z.-Gruppe durch Informations- und Datenbankdienste für externe Kunden.

Bereits bei Gründung der Zeitung im Jahr 1949 war das F.A.Z.-Archiv dabei und unterstützte die Arbeit der F.A.Z.-Redaktion. Seit über 25 Jahren vermarktet das F.A.Z.-Archiv erfolgreich die Inhalte der F.A.Z. und weiterer Verlagserzeugnisse. Die Vermarktung war dabei von Anfang an auch auf digitale Produkte ausgelegt und startete 1982 mit dem Zugang zu F.A.Z.-Daten per Btx und mit dem Recherchedienst für externe Kunden. 1994 kamen die F.A.Z.-Volltextdatenbank und elektronische Infoprodukte wie F.A.Z.-Online und die F.A.Z. auf CD-ROM hinzu. Seit 2000 können F.A.Z.-Artikel im Internet unter www.faz-archiv.de recherchiert werden. Weitere wichtige Meilensteine im F.A.Z.-Archiv und in der Content-Vermarktung sind der Beginn der Vergabe von Pressespiegel-Lizenzen über die PMG Presse-Monitor GmbH 2001 und der Start der computergestützten Indexierung 2003. Seit 2004 wird das F.A.Z.-Archiv ausschließlich als digitales Textarchiv fortgeführt und seit 2008 wird die inhaltliche Erschließung der Fachdokumentare durch eine computerbasierte Vorverschlagwortung unterstützt. 2010 brachte das F.A.Z.-Archiv ein umfangreiches und mehrjähriges Projekt zur Retrodigitalisierung der bis dahin noch nicht digital vorliegenden Ausgaben der Jahrgänge 1949 bis 1992 erfolgreich zum Abschluss. Durch die Erschließung dieser neuen Daten in einem eigenen Text- und Data-Mining Projekt ist es seitdem möglich, die F.A.Z. bruchlos über alle Jahrgänge zu recherchieren. Neue Produkte, die begleitend zu dieser Digitalisierungsinitiative entstanden, sind die Lizenzierung von F.A.Z.-Rezensionen als Anreicherungen für Bibliothekskataloge und die F.A.Z.-Text- und Data-Mining-Lizenz.

[1] Für ein ausführliches Porträt der Bestände des F.A.Z.-Archivs vgl. Jochen Ganzmann: Vom Zeitungsausschnittsarchiv zur integrierten Wissensbasis: Das F.A.Z.-Archiv und seine Informationsbestände. In: archivnachrichten, Jg. 2012, Nr. 1, 40-44.

________________________________________________________________________

Big Data trifft Pressearchiv.
________________________________________________________________________

Das F.A.Z.-Archiv hält mehr als sechs Millionen Artikel aus über sechzig Erscheinungsjahren der F.A.Z., der Frankfurter Allgemeinen Sonntagszeitung und weiterer Verlagserzeugnisse in seiner Sammlung. Dieser Bestand an digitalem Text- und damit verbundenem Sprachmaterial stößt bereits seit einigen Jahren auf verstärktes Interesse und so verzeichnet das F.A.Z.-Archiv seit etwa Mitte der neunziger Jahre zunehmend Anfragen aus Wissenschaft und Wirtschaft zur Bereitstellung digitaler Textinhalte, die nicht vorrangig inhaltsbezogen sind. Hierbei geht es also nicht um den Gegenstand der jeweiligen Artikel. Vielmehr steht statt des Themas die sprachliche Beschaffenheit der Texte im Zentrum. Ausgangspunkt waren dabei Forschungsvorhaben, die sich mit der automatischen Spracherkennung und automatisierten Übersetzung beschäftigten, insbesondere vor dem Hintergrund der Entwicklung von Assistenzsystemen für Menschen mit Behinderungen. Um solche Systeme zu konzipieren und zu realisieren, war es zunächst erforderlich, tatsächlich gesprochene und geschriebene Sprache zu erfassen, zu analysieren und Sprachmodelle zu entwickeln, auf deren Basis Regeln abgeleitet werden konnten, nach denen Computer und Softwareprogramme Spracherwerb betreiben, angelernt und trainiert werden.

Solche Modelle mussten beispielsweise die Vorkommenshäufigkeit von Wörtern erfassen und wiederkehrende semantische und syntaktische Muster beschreiben. Um dies zu gewährleisten und sicherzustellen, dass die entwickelten Modelle für die jeweils im Zentrum stehende Sprache relevant waren, war allerdings eine große Menge an Sprachmaterial erforderlich. Zudem musste Material in geschriebener Sprache in maschinenlesbarer Form vorliegen. Außerdem sollte, um eine Sprache möglichst detailreich und realistisch abzubilden, ein sehr umfangreiches Themenspektrum abgedeckt werden. Ausgehend von diesen Anforderungen lag es also nahe, dass man sich bei der Suche nach solchen Daten auch an die Pressearchive mit ihren umfangreichen Textsammlungen wandte. Für die Pressearchive ergab sich so eine neue Perspektive auf ihre Artikelsammlungen.

Durch die großen Fortschritte der jüngsten Vergangenheit auf den Gebieten der Informations- und Speichertechnologie sowie der Künstlichen Intelligenz verstärkt sich dieses Interesse an dem digitalen Sprachschatz, der in den Pressearchiven gesammelt wird, da jetzt die Verarbeitung umfangreicher Datensammlungen möglich geworden ist.

In den Kultur- und Geisteswissenschaften werden die Wechselwirkungen von Sprache, Politik, Gesellschaft und Medien untersucht. Das neue Fachgebiet der Digital Humanities entsteht und auch die Entwicklung der F.A.Z. wird aus deren Sicht selbst zum Forschungsgegenstand. In einem von der DFG geförderten Projekt des Lehrstuhls für Neueste Geschichte an der Universität Würzburg untersucht ein Forscherteam die Geschichte der F.A.Z. als Leitmedium und führt in diesem Zusammenhang semantische Analysen im digitalen Bestand des F.A.Z.-Archivs semantische Analysen durch.[1]

Wirtschaftsunternehmen müssen sich im Zeitalter von Big Data fragen, welcher Wert in ihren eigenen Daten steckt und wie sie aus diesen neue Strategien entwickeln, um neue Geschäftsfelder zu identifizieren und die eigenen Ressourcen zu schonen. Denn in vielen Unternehmen beispielsweise aus dem produzierenden Gewerbe und aus der informationsverarbeitenden Industrie fallen Daten in Form von Bildern, Texten, Audio- und Videoinhalten sowie Geodaten und Sensordaten von Maschinen, Apps und Wearables an. Ein neues Berufsbild entsteht: der Data Scientist bzw. Datenanalyst. Seine Aufgabe ist es, diese heterogenen Daten aus unterschiedlichen Datenbeständen miteinander zu verknüpfen, zu analysieren und für bestehende oder neue Geschäftsmodelle nutzbar zu machen. Mit dieser Analyse entstehen neue Metadaten, Statistiken und Indizes, die selbst wieder als neuer Rohstoff für Datenanalysen, für neue Produkte und Lizenzen dienen.

[1] Vgl. http://www.geschichte.uni-wuerzburg.de/institut/abteilungen/neueste_geschichte/dfg_projekt/

________________________________________________________________________

Presseartikel als Trainings- und Referenzdaten
________________________________________________________________________

Welche Rolle können nun Presseartikel in diesem Umfeld spielen? Sie sind zunächst einmal Trainingsdaten, mit deren Hilfe die Algorithmen ihre Kategorisierung entwickeln und trainieren und anhand derer die Leistung der Anwendungsprogramme stetig überprüft wird. Letzteres ist in hohem Maße erforderlich, denn ansonsten laufen die Programme Gefahr, Vorurteile aus den Trainingsdaten zu reproduzieren und ihre Ergebnisse falsch zu gewichten. So haben Forscher an der Uni Kopenhagen beobachtet, dass viele Sprachmodelle des Deutschen, die im Bereich des maschinellen Spracherwerbs eingesetzt werden, auf einem zwanzig Jahre alten Korpus von F.A.Z.-Artikeln basieren und dass die darauf entwickelten Anwendungen die Sprache von Sprechern des Deutschen im Alter von über 45 Jahren besser verstehen als die von Sprechern unter 35 Jahren.[1] Da sich Sprache kontinuierlich verändert und sich die künstliche Intelligenz der Algorithmen ihrer Defizite nicht bewusst ist, da sie ja nicht weiß, was sie nicht weiß, folgt, dass die Annahmen über den Stand einer Sprache, die für die maschinelle Sprachentwicklung zu Grunde gelegt werden, ständig überprüft und auf ihren Einsatzzweck hin gewertet werden müssen. Für das Trainingsmaterial bedeutet dies notwendigerweise gleichfalls eine ständige Überprüfung und Erweiterung.

2015 hat Google seine Programmbibliothek für maschinelles Lernen, „Tensor Flow“, öffentlich zugänglich gemacht und 2016 zog Microsoft mit seinem „Cognitive Toolkit“ nach.[2] Die Vermutung liegt nahe, dass die Fortschritte im maschinellen Lernen im hohen Maß vom Trainingsmaterial abhängen. Wertvoll ist also nicht allein die entwickelte Software, der Wert liegt vorrangig in den Trainingsdaten.[3]

Die Grafik in Abbildung 1 illustriert beispielhaft, wie künstliche Intelligenz nach dem Modell der neuronalen Netze mit einer Bildinformation umgeht, wie sie diese anhand von vorher analysiertem Bildmaterial in bekannte Strukturen zerlegt, um anschließend zu einer Bewertung des fraglichen Bildinhalts zu kommen.

Abbidlung 1: Wie neuronale Netze ein Kind erkennen

[1] Vgl. Eva Wolfangel: Computer lesen Menschen aus, In: Stuttgarter Zeitung, 11.04.2017, S. 2. und Eva Wolfangel: Dunkle Algorithmen. In: Süddeutsche Zeitung, 25.03.2017, S. 35.

[2] Vgl. Stefan Betschon: Die Demokratisierung der künstlichen Intelligenz“, In: NZZ, 21.12.2016, S. 38.

[3] Vgl. Marco Metzler: Künstliche Intelligenz. Wie uns Computer versteckt diskriminieren“, In: NZZ am Sonntag, 05.03.2017, S. 36.

Diese künstliche Intelligenz muss, damit sie angemessen klassifiziert, beurteilt und entscheidet, ständig mit neuen und aktuellen Basisinformationen versorgt werden. Was aber ist diese Basisinformation? Welche Klassifizierungs- und Bewertungsfragen muss sie heute und morgen beantworten? Da derzeit niemand genau weiß, welche Tätigkeiten künftig von Maschinen und Algorithmen übernommen werden und welche Informationen sie zu diesem Zweck zu erfassen und zu verarbeiten haben, kann niemand aktuell abschätzen, unter welchen Gesichtspunkten Trainingsdaten einmal bedeutsam werden. Beispielhaft sei auf das Alltagswissen verwiesen, welches ein selbstfahrendes Auto haben muss, um unvorhersehbare Ereignisse, die im Straßenverkehr an der Tagesordnung sind, rechtzeitig zu erkennen und zu berechnen.[1] Die Nutzerperspektive von morgen auf die Daten von heute kann also nach heutigen Maßstäben eine radikal andere sein.

Zusätzlich zu ihrer Rolle als Trainingsdaten können Presseartikel die Funktion von Referenzdaten zu Präsentationszwecken oder zur Qualitätssicherung erfüllen. Entwickler und Vertriebsmitarbeiter müssen, damit ihre hochkomplexen Produkte und Services verkaufbar werden, diese erklärbar und erfahrbar machen. So hat ein Unternehmen z.B. eine Software entwickelt, die aus natürlichsprachlichen Ablaufbeschreibungen eines Unternehmens dessen Unternehmensprozesse automatisch modellieren und so dazu beitragen, die Einschaltung eines Prozessberaters zu sparen. Ein anderes Unternehmen bietet einen Dienst an, der automatisch Entitäten wie Personen, Orte, Unternehmen, Marken usw. in Texten erkennt und diese mit einer passenden Bildinformation verknüpft. Ein drittes Unternehmen unterstützt andere Unternehmen darin, verwandte digitale Inhalte miteinander zu verknüpfen. Alle diese Anbieter möchten die Leistungsfähigkeit ihres Produkts dem Kunden gegenüber unter Beweis stellen, können aber beispielsweise aus Gründen der Vertraulichkeit oder der Nachvollziehbarkeit nicht auf bereits vorhandene Texte beim Kunden zugreifen. Hier können Presseartikel aus einer unabhängigen und verlässlichen Quelle hilfreich sein und anhand neutraler und unabhängiger Inhalte aus Kundensicht die Arbeitsweise des Produkts beispielhaft illustrieren. In der Produktentwicklung können die Presseartikel als Goldstandard für das eigene Produkt gelten, also den Qualitätsgrad definieren, der z.B. bei der automatischen Textproduktion erreicht werden soll oder den Grad an Information, der produktspezifisch verarbeitet und aufbereitet werden kann.

Um Referenz- und Trainingsdaten sinnvoll einzusetzen, müssen Presseartikel eine Reihe von Anforderungen erfüllen. Damit sie als Referenz dienen können, sollten sie aus einer namhaften Quelle stammen. Darüber hinaus sollten sie inhaltlich ein breites Themenspektrum abdecken, um möglichst vielen Trainingszenarien zu entsprechen, und gleichzeitig Spezialinteressen zu bedienen. Sie sollten sehr große Umfänge aufweisen und es muss eine aussagekräftige Menge an Materialien vorhanden sein. Das Material sollte zudem eine hohe Datenqualität aufweisen und formal und inhaltlich ausgezeichnet erschlossen sein.

Als Tageszeitung, die seit 1949 erscheint und nunmehr vollständig digital vorliegt, die sich inhaltlich mit aktuellen politischen, wirtschaftlichen und kulturellen Ereignissen und Entwicklungen beschäftigt und die zudem regelmäßig Wissenschafts- und Technologieberichterstattung betreibt, verfügt die F.A.Z. über solche Umfänge und ausreichend aussagekräftiges Material. Als Abteilung eines Unternehmens, welches sich den Herausforderungen von Big Data wie selbstverständlich stellt, hat das F.A.Z.-Archiv, um die eigenen Leistungen zu optimieren und neue Produkte anzubieten, selbst eigene Text- und Data-Mining-Projekte umgesetzt.

________________________________________________________________________

Text- und Data-Mining im F.A.Z.-Archiv – Retroindexierung 1949 – 1992

________________________________________________________________________

Zwischen 2005 und 2010 wurden die bis zu dem Zeitpunkt noch nicht digital vorliegenden Ausgaben der Erscheinungsjahre 1949 bis 1992 retrodigitalisiert und für die Recherche und Vermarktung erschlossen. Anspruch dieses Vorhabens war die vollständige und bruchlose Integration dieser neuen Digitalisate in die bereits bestehenden und fortlaufenden Datenbanken des Archivs.

Dazu wurden zunächst Scans ganzer Zeitungsseiten angefertigt. Durch eine automatisierte Analyse des Zeitungslayouts (vgl. Abbildung 2) wurden die einzelnen Artikel in diesen Scans identifiziert und aus diesen wiederum per OCR-Verfahren maschinenlesbare Texte erzeugt, so dass alle Artikel nun in drei Formaten vorliegen, als Artikeltext in strukturierter Form, als PDF-Faksimile des einzelnen Artikels und als PDF-Faksimile der ganzen Zeitungsseite.[2] Doch um die etwa drei Millionen neu gewonnenen Digitalisate für die Recherche und Vermarktung nutzbar zu machen, war es erforderlich, diese Inhalte auch rückwirkend inhaltlich zu erschließen und zu retroindexieren. Angesichts der großen Artikelmenge und vor dem Hintergrund bereits bestehender Erfahrungen in der automatisierten Inhaltserschließung wurde die Entscheidung getroffen, diesen neuen Bestand ebenfalls computergestützt rückwirkend zu indexieren. Das Vorgehen wird am Beispiel retrodigitalisierter Buchrezensionen erläutert.

[1] Vgl. Andreas Sudmann: Wenn die Maschinen mit der Sprache spielen. In: Frankfurter Allgemeine Zeitung, 02.11.2016, S. N2.

[2] Für eine ausführliche Darstellung des Projekts vgl. Franz-Josef Gasterich, Ulrike Mackenroth, Caspar Dawo: Wie ein Archiv der Zeitgeschichte entstand. Die Retrodigitalisierung der Frankfurter Allgemeinen Zeitung der Jahre 1949-1992. In: Info7, Jg. 2010, Nr. 3, 11-17.

Abbildung 2: Ganzseite mit Layoutanalyse

Das F.A.Z.-Archiv vermarktet seit vielen Jahre Buchrezensionen an den Online-Buchhandel und an Bibliothekskataloge. Für den Rezensionsbestand der Jahrgänge 1949 bis 1992 ergab sich die Schwierigkeit, dass zu den einzelnen Rezensionen keine inhaltsbezogenen Metadaten vorlagen, die in die bestehenden Katalogsysteme der Kunden integriert und mit den dort vorhandenen Katalogisaten verknüpft werden konnten. Auch stellte sich die Frage, welche Informationen überhaupt zur Verknüpfung geeignet waren, denn die ISBN, über die heute Bücher eindeutig gekennzeichnet und identifiziert werden, existiert erst seit 1971. Für ein Matching der Rezensionen mit den Katalogisaten eigneten sich folglich nur die bibliographischen Angaben. Diese Informationen waren glücklicherweise in allen Rezensionen enthalten und mussten so nicht zusätzlich recherchiert werden (vgl. Abbildung 3). Stattdessen wurden Überlegungen angestellt, wie diese Angaben aus den Rezensionstexten zu extrahieren waren.

Abbildung 3: Ausriss aus einer Rezension, in der die bibliographischen Angaben zum rezensierten Werk am Textanfang stehen

Allerdings standen die bibliographischen Angaben an verschiedenen Stellen und in unterschiedlicher Ansetzung in den Artikeln, so dass die Extrahierung in einem mehrstufigen Verfahren umgesetzt werden musste. Realisiert wurde dies mit dem Classify Server der Firma Classcon Consulting GmbH.

Im ersten Schritt wurde der Textblock, in dem die bibliographischen Angaben vorkamen, identifiziert. Dieser Block wurde indexiert, extrahiert und in ein neues Feld der Datenbank geschrieben. Innerhalb des Textblocks wurden nun die einzelnen Elemente der bibliographischen Angaben identifiziert. Diese wurden wiederum indexiert und extrahiert und in jeweils einzelne Datenbankfelder geschrieben (vgl. Abbildung 4).

Abbildung 4: Auszug aus der Rezensionsdatenbank mit den bibliographischen Angaben als Textblock und aufgeteilt in die einzelnen Datenfelder

Die Kriterien zur Identifizierung der Position des Textblocks und der einzelnen Elemente der bibliographischen Angaben wurden über reguläre Ausdrücke formuliert und ausgelesen. Unter einem regulären Ausdruck versteht man ein musterhaftes Schema, das in einer Volltextsuche alle relevanten Varianten, die die gesuchte Zeichenkette haben kann, um die gewünschten Suchbedingungen zu erfüllen, formelhaft abdeckt.

Bei der Analyse der möglichen Textpositionen und Ansetzungsvarianten, die die bibliographischen Angaben einnehmen konnten, fiel auf, dass sie vielfach direkt am Textanfang standen, maximal 400 Zeichen lang waren und mit einer Information zum Kaufpreis oder zur Seitenzahl endeten. Dies ließ sich in einem regulären Ausdruck wie folgt formulieren:

Ähnlich wurden alle Beiträge aus dem retrodigitalisierten Bestand rückwirkend indexiert und etwa drei Millionen Artikel der Jahrgänge 1949 bis 1992 nach Sachgruppe, Branche, Ländern, Firmen, Personen, Institutionen und Artikeltyp automatisch erschlossen.

Die Integration der Buchrezensionen der Jahrgänge 1949 bis 1992 in einem Bibliothekskatalog kann exemplarisch im GVK des GBV unter https://gso.gbv.de/DB=2.1/ eingesehen und recherchiert werden. Dort gelangt der Nutzer in der Titelansicht eines in der F.A.Z. besprochenen Buchs über die Zeile „Mehr zum Titel“ auf die entsprechende F.A.Z.-Rezension im Format einer PDF-Datei.[2] Im Katalogisat des Titels referenziert diese Zeile auf das Feld 856 des MARC21-Datensatzes zu der jeweiligen Veröffentlichung. In diesem Feld ist die URL der PDF-Datei dauerhaft als Information hinterlegt.

________________________________________________________________________

Text- und Data-Mining Lizenz des F.A.Z.-Archivs.

________________________________________________________________________

Das F.A.Z.-Archiv stellt sowohl das Material der Jahrgänge 1949 bis 1992 als auch die Artikel der Jahrgänge 1993 bis heute einschließlich der vorhandenen Metadaten auf Anfrage im Rahmen einer Text- und Data-Mining-Lizenz zur Verfügung.[3] Mit dieser Lizenz werden Unternehmen und Forschungsprojekte in die Lage versetzt, F.A.Z.-Artikeldaten kostengünstig auf legalem Weg und ausgelegt für ihre Zwecke und für ihren Bedarf auszuwerten und zu verarbeiten. Dazu werden zunächst in Vorgesprächen mit dem Kunden die genauen Suchparameter sowie die formalen und inhaltlichen Kriterien bestimmt, die die gewünschten Artikeldaten erfüllen sollen. Im zweiten Schritt werden die Nutzung und der hierfür erforderliche Lizenzbedarf bestimmt. Das Ausgabeformat für die Bereitstellung der Daten kann der Kunde selbst vorgeben.

Da sich die Text- und Data-Mining-Lizenz des F.A.Z.-Archivs in der Regel auf sehr große Datenmengen beziehen, hat das F.A.Z.-Archiv einige Maßnahmen zum Schutz dieser Daten unternommen. So werden nur unvollständige Jahrgänge in zitierfähiger Form herausgegeben. Außerdem lässt sich das Haus von den jeweiligen Auftraggebern schriftlich zusichern, dass Dritte keinen Zugang zu den Daten erhalten, keine kommerzielle Verwertung ohne Freigabe durch die F.A.Z. erfolgt, alle Daten nach Vertragsende vollumfänglich gelöscht werden und die Auftraggeber anerkennen, dass die Urheber-, Verlags- und Verwertungsrechte in vollem Umfang bei der Frankfurter Allgemeinen Zeitung GmbH verbleiben

[1] Vgl. Philipp Kuchler: Extraktion bibliographischer Angaben aus Buchbesprechungen einer retrodigitalisierten Tageszeitung (1949 – 1992). Unveröffentlichte Bachelorarbeit, Hochschule Darmstadt, S. 52.

[2] Vgl. zur Integration in den Bibliothekskatalog des GBV: Reiner Diedrichs und Corinna Cramer: F.A.Z.-Rezensionen als Kataloganreicherung im Katalog des GBV. Ein Best-Practice-Beispiel. In: Bibliotheksdienst. Juni 2013, Band 47, Heft 6, 450–462.

[3] Für weitere Informationen vgl. http://www.faz-rechte.de/Text_und_Data_Mining.htm

_______________________________________________________________________

Bedrohung durch neue Gesetzesvorhaben

________________________________________________________________________

Die F.A.Z. und damit das F.A.Z.-Archiv stellen sich seit vielen Jahren den Herausforderungen des digitalen Zeitalters und befördern Forschung und Wirtschaft kontinuierlich durch neue und innovative Datenprodukte und Lizenzmodelle. Die Investitionen, die die F.A.Z. bis heute in die Aufbereitung und den Erhalt der etwa sechs Millionen Beiträge aus über 60 Erscheinungsjahren getätigt hat und die Möglichkeiten, diese Investitionen in neue Erlösquellen zu überführen, werden jedoch durch bestehende Gesetze und neue Gesetzesvorhaben bedroht. Ohnehin durchlaufen die Zeitungen einen Transformationsprozess und stehen unter großem wirtschaftlichen Druck. Durch die im Internet weitverbreitete Gratismentalität und bereits umgesetzte Regulierungsvorhaben wie Mindestlohn, Datenschutz, Verbot der Vorratsdatenspeicherung zur Missbrauchsverhinderung, Werbeverbot und die faktisch kostenfreie Zweitverwertung von Pressecontent durch Suchmaschinen und Newsaggregatoren wird das Marktumfeld von Jahr zu Jahr schwieriger. Nunmehr üben Interessengruppen Druck auf den Gesetzgeber aus, bestehendes und bewährtes Recht aufzuweichen und durch geänderte Schrankenregelungen der Wissenschaft und ebenso der kommerziellen Forschung den ungehinderten Durchgriff auf digitales Eigentum zu ermöglichen. Gefordert wird das im „Gesetz zur Angleichung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft (UrhWissG)“.

Wird dieses Gesetzesvorhaben umgesetzt, wäre das Ergebnis ein massiver Eingriff in bestehende funktionierende Märkte. Dies ginge zu Lasten der Urheber und Verlage, denen Erlöse und wirtschaftliche Anreize genommen werden. Mit dem Wegfall dieser Anreize für Privatwirtschaft und kreativ Schaffende, z.B. Autoren, entstünde ein nachhaltiger gesamtgesellschaftlicher Schaden.

________________________________________________________________________

Ausblick

_______________________________________________________________________

Für Medienarchive und Presseverlage ergibt sich die dringende Aufgabe, wo noch nicht geschehen, endlich offene Fragen der Verwertungsrechte abschließend zu beantworten, die Digitalisierung der eigenen Bestände voranzutreiben und die eigenen Archivschätze jetzt zu heben, um so die eigene Zukunftsfähigkeit dauerhaft sicherzustellen.

Dieser Beitrag beruht auf einem Vortrag der Autorinnen auf der vfm-Frühjahrstagung 2017. Er wird demnächst in info7 2017/3 veröffentlicht.

Anzeige

FAQ + Hilfe

Was ist das Open Password Archiv?

Das Open Password Archiv ist eine digitale Sammlung von über 1.100 Artikeln und Ausgaben des ehemaligen Newsletters „Open Password“ aus der Publikation “Password Online”. Diese Publikation, die von 1986 bis 2015 als Print-Ausgabe erschien, diente als zentrale Informationsquelle für Fachleute in der Informationsbranche.

Im Archiv des 2016 gestarteten Pushdienstes finden Sie tiefgreifende Analysen, exklusive Geschichten und redaktionelle Beiträge, die wichtige Entwicklungen und Trends in verschiedenen Sektoren wie Finanzen, IT und Pharma beleuchten. Das Archiv ist online zugänglich und bietet eine wertvolle Ressource für Forscher, Information Professionals und alle, die an der Geschichte und den Entwicklungen der Informationsbranche interessiert sind.

Eine noch ausführlichere Zusammenfassung zu Open Password wurde vom ehemaligen Herausgeber Dr. Wilhelm Heinrich Bredemeier verfasst.

Wo ist das Archiv und die Beiträge zu finden?

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Was ist die GPT KI-Suche?

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Kann man einen Beitrag der fehlt anfordern?

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

information is our mission
KONTAKT

Archiv & Touchpoint

Was ist das Open Password Archiv?

Wo ist das Archiv und die Beiträge zu finden?

Was ist die GPT KI-Suche?

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Kann man einen Beitrag der fehlt anfordern?