Erfahrungsbericht AI-SDV 2021: An den Fronten der Suche, Datenanalyse, Visualisierung und Wissensverarbeitung (II) -

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

Open Password – Montag, den 31. Januar 2022

# 1023

Konferenz AI-SDV 2021 – Suche – Datenanalyse – Visualisierung – Wissensverarbeitung – Bassam Mokbel – Lucy Antunes – CAS IP Services – Muriel Bourgeois Tassanary – MT-IP Consulting – Intellectual Property Manager – Skill-Set – Heiko Wongel – Wongel IP – Interface Projects – Machine Learning Tools in Patent Searching – Regelbasierte Suchlogik – MI-gestützte Ähnlichkeitssuche – Integrator Smart Search – Human-in-the-Loop-Ansatz – Transfer Learning – EXTRA Classifier – Dokumentenklassifikation – Informationsextraktion – Holger Keibel – Karakan – Daniela Puccinelli – BERT – Trainingsdaten – Small Data – Nils Newman – Search Technology – Composite AI – Generative AI-Ansätze – Linus Wretblad – Ipscreener/Uppdragshuset – Black-Box-Charakter der Entscheidungsfindung – Best Practice – Explainable AI – Externe SaaS-Angebote – Assisted Reading – Automatisierte Entscheidungsprozesse – Anwenderperspektive – Spatial Concept Maps – Patent Citation Network Maps – Tony Trippe – Patentinformatics – Software Implementation – Marjorie Hlava – Information Access – Content-Management-Technologien – Public Library of Science – American Society for Clinical Oncology – Semantische Suchfunktionen – Automatische Taggings

Experian – Intrum Switzerland – DACH Business – BIIA – Credit Rating Data – Marco Kaiser – Wissenschaftsrat – Transformation – Wissenschaftliches Publizieren – Open Access – UB Universität Hildesheim – Annette Strauch-Davey – Forschungsethik – GO UNITE

Erfahrungsbericht AI-SDV 2021:
An den Fronten der Suche, Datenanalyse, Visualisierung und Wissensverarbeitung (II) – Von Dr. Bassam Mokbel

Experian:

Cooperation with Intrum Switzerland to Grow its DACH Business

III.
Wissenschaftsrat:
Empfehlungen zum OA-Transformationsprozess

IV.
UB Universität Hildesheim:
Austausch über Forschungsethik

Erfahrungsbericht AI-SDV 2021

An den Fronten der Suche, Datenanalyse, Visualisierung und Wissensverarbeitung (II)

Von Dr. Bassam Mokbel*

Bassam Mokbel

_____________________________________________________

Kombination regelbasierter Suchlogik und ML-gestützter Ähnlichkeitssuche.

_____________________________________________________

Der zweite Konferenztag begann mit einer Präsentation von Lucy Antunes (CAS IP Services) und Muriel Bourgeois Tassanary (MT-IP Consulting) mit dem Titel „Project Management Challenges for IP Projects“. Die Referentinnen diskutierten die vielfältigen Herausforderungen für Intellectual Property (IP) Manager, beispielsweise die Prioritäten ihrer Kunden und Vorgesetzten zu verstehen, die Schlüsselinformationen für die jeweilige Art der IP zu sammeln und das eigene Skill-Set mit Blick auf die regulatorischen Rahmenbedingungen zu erkennen und gegebenenfalls zu erweitern. Diese Ansprüche zu koordinieren stellen von Projekt zu Projekt unterschiedliche Anforderungen dar. Jedoch können Software-Werkzeuge und digitale Wissensquellen, aber auch gezieltes Outsourcing viele Prozesse erleichtern oder beschleunigen.

Heiko Wongel (Wongel IP) stellte in Kollaboration mit Interface Projects die Frage: „Machine learning tools in patent searching – are we on the right track?“. Der Referent sah als zentrale Herausforderung, dass die wachsende Menge an Patentdokumentationen in naher Zukunft nicht mehr mit konventionellen Suchmethoden handhabbar sein wird. Zwar fließen bereits heute ML-basierte Werkzeuge in verschiedenen Weisen in den Rechercheprozess ein, um menschliche Nutzer bei der Suche zu unterstützen. Zu einem wirklichen Durchbruch von KI & ML als Standard ist es in der Patentsuche aber noch nicht gekommen. Als mögliche Gründe nannte er aus der Forschung bekannte Schwächen von ML. So wird dem menschlichen Benutzer ein Einblick in die Suchlogik verwehrt und damit die direkte Einflussnahme auf den Prozess erschwert.

Wongel verglich die jeweiligen Vorteile und Nachteile regelbasierter Suchlogik mit ML-gestützter Ähnlichkeitssuche und beschrieb dann die Suche mit dem Produkt „Intergator Smart Search“, das die beiden Ansätze geschickt kombiniert. Zusätzlich kann der Benutzer mit Hilfe einer Graph-Visualisierung selbst die Suchlogik interaktiv beeinflussen.

Wongels Präsentation hat mich persönlich beeindruckt, da Human-in-the-loop ein vielversprechender Weg ist, um das Vertrauen in KI zu steigern. Mit dem gezeigten Tool wurde dieses Potenzial veranschaulicht.

___________________________________________________________________

Transfer-Learning-Anwendung „EXTRA Classifier“ um Dokumentenklassifikation und Informationsextraktion erweitert.
_____________________________________________________

In „Leveraging pre-trained language models for document classification“ präsentierten Holger Keibel (Karakun) und Daniele Puccinelli (University of Applied Sciences of Southern Switzerland) den „EXTRA Classifier“, eine Transfer-Learning-Anwendung, mit der das weltweit bekannte vortrainierte Sprachanalysemodell BERT um mehrere Aufgaben der Dokumentenklassifikation und die Funktion „Informationsextraktion“ erweitert wurde. Dabei ging es um die praktische Anwendung auf gescannten Dokumenten, so dass auch die Schrifterkennung aus Bilddaten zu einem Teil der Verarbeitungskette wurde. Bei der Unterscheidung von Bankdokumenten, Rechnungen und Verträgen sowie einer Ausschlussklassifikation von andersartigen Dokumenten wurden vielversprechende Ergebnisse erzielt, obwohl nur wenige Trainingsdaten manuell annotiert wurden. Ferner wurden relevante Textbestandteile der jeweiligen Dokumentenarten wie z.B. die Rechnungsnummer aus Rechnungen zuverlässig automatisch extrahiert.

_____________________________________________________

Wie wir uns bei Small Data angesichts nicht ausreichender Trainingsdaten helfen können.
_____________________________________________________

Nils Newman von Search Technology suchte die Frage zu beantworten: „AI – Who is in control and why is that important?“. Er sprach zunächst das Problem an, dass die immer aufwändigeren und umfangreicheren vortrainierten Modelle der Sprachanalyse für Fachwissen ungeeignet sein können und in Werkzeugen, die von fachkundigen Benutzern verwendet werden sollen, eine nur unzureichende Qualität bieten. Newman betonte, wie wichtig Trainingsdaten in ausreichender Menge sind. Dieser Faktor wird häufig unterschätzt.

Die Arbeit von Fachexperten basiert häufig auf kleinen, aber fachlich hochrelevanten Datenmengen, also auf Small Data anstelle Big Data. Diese können für das Training von zuverlässigen ML-Systemen zu wenige sein. Als mögliche Auswege nannte Newman Zero-Shot-, Few-Shot- und Transfer-Learning, aber auch die Verknüpfung mehrerer KI-Verfahren mit Sprachanalyse, Wissensmodellierung und anderen Techniken. Verknüpfungen dieser Art werden gemeinhin als „Composite AI“ bezeichnet. Ferner kamen generative KI-Ansätze zur Sprache. Der Referent wies zum Schluss darauf hin, wie wichtig es sei, den Fachexperten eine ausreichende Kontrolle über die KI zu geben, anstatt zu versuchen, ihre Expertise durch den Automatismus zu ersetzen.
_____________________________________________________

AI den Nutzern erklären, ihre Skepsis mindern.
_____________________________________________________

In „Best practice on new intelligent tools in IP management and the ethical dilemma of using AI“ ging Linus Wretblad (IPscreener/Uppdragshuset) auf Verlässlichkeit, Transparenz und Datenschutzaspekte bei ML-basierten Systemen ein. In diesen Bereichen stößt die Technologie auf Grenzen, beispielsweise durch den inhärenten Black-Box-Character der Entscheidungsberechnung. Die führt häufig bei Nutzern zu Skepsis. Um dem entgegenzuwirken, wurden mittlerweile einige Best Practices entwickelt, z.B. bei der Evaluation von ML-Modellen. Jedoch sind diese nicht allseits bekannt oder noch nicht im Einsatz. Ferner liegen unter dem Stichwort „Explainable AI“ Erweiterungen der Technologie aus der jüngeren Forschung vor, die die Transparenz verbessern können. Diese Erweiterungen müssen ihren Weg in die Praxis noch finden.

Wretblad nahm die Perspektive eines Anwenders ein, der z.B. mit externen SaaS-Angeboten auf eigenen Daten ML-Modelle trainieren und anwenden möchte. Er riet dazu, sich vor und während der Arbeit Fragen nach der Transparenz und den datenschutzrechtlichen Besonderheiten des Serviceangebots zu stellen und auch die Evaluationsprozesse und Qualitätsänderungen zu hinterfragen. Zum Schluss stellte er strategisch vielversprechende KI-Anwendungsgebiete im IP-Management vor, z.B. um mit „Assisted Reading“ oder automatisierten Entscheidungsprozessen dem Informationsüberfluss entgegenzutreten.

Ich empfand Wretblads ausdrückliche Einnahme einer Anwenderperspektive als sehr gelungen.

Christoph Haxel, der Macher der AI-SDV

_____________________________________________________

Aufbereitung gefundener Dokumentenmengen in „Spatial Concept Maps“ und „Patent Citation Network Maps“.
_____________________________________________________

In „The Current State of Machine Learning for Patent Searching and Analytics: Practical Perspectives from ML4Patents.com“ gab Tony Trippe von Patinformatics einen Überblick über aktuelle Entwicklungen im Bereich der KI-gestützten Patentsuche und -analyse. Er zählte die nötigen Arbeitsschritte bei der Erstellung von Patentlandschafts-Berichten auf und ging dann auf Möglichkeiten der Unterstützung durch KI-Ansätze ein. Zusätzlich zu einer Verbesserung der Suche und der Relevanzbewertung durch semantische Textanalyse stand die nachträgliche Aufbereitung der gefundenen Dokumentenmenge im Fokus. Dabei können automatische Gruppierung und Kategorisierung hilfreich sein. Diese sollten die inhaltliche Ähnlichkeit von Patentschriften nicht nur aus den textuellen und kategorialen Beschreibungen im Dokument ableiten, sondern beispielsweise auch Einschätzungen externer Experten und Verweise auf andere Patente einbeziehen.

Trippe stellte zwei Arten der Visualisierung mit Ähnlichkeiten in zweidimensionalen Karten vor: „Spacial Concept Maps“, die einer Landkarte ähneln, sowie „Patent Citation Network Maps“, welche die Zusammenhänge von Literaturreferenzen als Netzwerk zeigen. Eine Graph- bzw. Netzwerkrepräsentation begünstigt nicht nur die Visualisierung, sondern fördert auch nachgelagerte Analysen, wie zum Beispiel die Entdeckung einflussreicher Patente als ausgeprägte Netzwerk-Knotenpunkte. Der Referent verwies mit einigen Zahlen und Beispielen auf die hauseigene Webseite ML4Patents.com, eine allgemeine Ressourcen-Sammlung rund um das Thema, in der sich zahlreiche Blogposts, Newsartikel, Publikationen und Bildungsmaterialien befinden.

Den Abschluss der Konferenz bildete der Vortrag „Semantic Search and Content Management – Case Studies in Successful Software Implementations“ von Marjorie Hlava (Information Access). Sie stellte sehr unterschiedliche Fallstudien vor, in denen veraltete Content-Management-Technologien und -Infrastrukturen in der Praxis erfolgreich ausgetauscht oder modernisiert wurden. Unter den Fällen befanden sich bedeutende Einrichtungen wie die Public Library of Science (PLOS) und die American Society for Clinical Oncology (ASCO). Die Referentin beschrieb in jedem Fall den Stand der jeweiligen Software vor der Umrüstung, die in Angriff zu nehmenden technischen Herausforderungen sowie die Ziele der Modernisierung, die in enger Zusammenarbeit mit den jeweiligen Kunden bestimmt wurden. Obwohl die Lösungen für den jeweiligen Kunden angepasst wurden, gab es Gemeinsamkeiten des Vorgehens, z.B. die Einführung semantischer Suchfunktionen (u.a. gestützt durch Taxonomien) sowie die Einführung automatischen Taggings von Schlüsselwörtern im Dokumentenbestand. In allen Fällen führte die Umrüstung zu einem bedeutenden Mehrwert für die Kunden.
_____________________________________________________

Mein Fazit.
_____________________________________________________

Insgesamt war die Konferenz eine bereichernde Erfahrung für mich. Die Vorträge betrachteten viele verschiedene Aspekte des übergeordneten Themas und ergänzten sich inhaltlich sehr gut. Auch die solide Qualität aller Präsentationen hinterließ einen äußerst positiven Gesamteindruck.

*Dr. Bassam Mokbel ist Chief Data Scientist bei Semalytix, einem Anbieter für KI-basierte Aggregation von Patientenaussagen aus Social-Media-Foren und anderen Textquellen. Zuvor forschte er am „Center for Cognitive Interaction Technology“ (CITEC) der Universität Bielefeld in den Bereichen Machine Learning und Datenvisualisierungsmethoden.

Experian

Cooperation with Intrum Switzerland
to Grow its DACH Business

(BIIA) Experian is expanding its strategic partnership with Intrum Switzerland and thus extending its commitment in the DACH region. Intrum clients in Switzerland now benefit from business information from Germany and Austria, enabling them to tap into additional target groups within the DACH region.

Intrum is broadening its existing offering of credit rating data with German and Austrian consumer data. Companies from Switzerland can now easily obtain meaningful information about their foreign customers through an already existing interface.

„In the DACH region we see great opportunities to become a decisive player with our core business in the long term,“ comments Marco Kaiser, Vice President Business
Development at Experian DACH. “On the one hand, companies that already have relationships with customers in Germany or Austria will benefit from the new offering. On the other hand, it also opens up attractive opportunities for companies that are planning to expand into the neighboring German-speaking countries but have not yet dared to do so due to possible payment defaults.“

The first e-commerce companies from Switzerland are already accessing the high-quality data via Intrum’s Credit Information data pool. By using reliable and fast processes, they can quickly expand their customer base to the DACH region without increasing their payment default rate. Via the customer-friendly web portal or via a modern programming interface, customers receive all information directly from a single source and can thus focus on their growth strategy.

As a leading provider of credit reports, Intrum offers address and creditworthiness data on virtually all people in Switzerland. Credit scores are updated daily thanks to Intrum’s own collection data and are continuously expanded through additional external data sources. Intrum provides its clients with the best possible risk management and offers solutions for compliance checks and fraud prevention services.

BIIA ist he international partner of Open Password

Soeben erschienen

Wissenschaftsrat: Empfehlungen
zum OA-Transformationsprozess

Wissenschaftsrat, Empfehlungen zur Transformation des wissenschaftliche Publizierens zu Open Access, Januar 2022, https://www.wissenschaftsrat.de/download/2022/9477-22.pdf?__blob=publicationFile&v=12 – Die Inhalte:

Kurzfassung

Publizieren als Teil des Forschungsprozesses

A.I Publikationsorte und Publikationsformen
A.II Funktionen des wissenschaftlichen Publizierens
A.III Entwicklungen bei wissenschaftlichen Publikationsdienstleistern
A.IV Entwicklung der Open-Access-Bewegung
A.V Finanzierungsmodelle von Open-Access-Publikationen
A.VI Daten zu Publikationszahlen und Publikationskosten
A.VII Systematisierung von Open Access – Dimensionen der Offenheit
A.VIII Lizenzierung

Ziel und Gegenstand der Empfehlungen

Empfehlungen

C.I Produkte und Prozesse
I.1 Weiterentwicklung wissenschaftlicher Publikationen in ihrer Vielfalt
I.2 Weiterentwicklung von Publikationen als digitale Objekte
I.3 Erwartungen an Publikationsdienstleistungen
I.4 Sicherung der inhaltlichen Qualität von Beiträgen
I.5 Qualitätsförderliche Anreize

C.II Rahmenbedingungen
II.1 Aufgaben und Zusammenwirken der Akteure im Wissenschaftssystem
II.2 Finanzströme und Geschäftsmodelle
II.3 Infrastruktur für das wissenschaftliche Publizieren

Anhang: Stand der OA-Transformation

I.1 Der Open-Access-Diskurs seit der Berliner Erklärung 89
I.2 Rechtliche Rahmenbedingungen und Praxis 98
I.3 Erprobte Vertragsmodelle für OA-Publikationsorgane

UB Universität Hildesheim

Austausch über Forschungsethik

(Annette Strauch.Davey) Beim vergangenen „GO UNITE!“ – Herbstworkshop

https://www.go-fair.org/events/go-unite-autumn-workshop/

wurden mehrere Themen für neue Arbeitsgruppen vorgestellt, so auch das Thema „Forschungsethik“. Die Themengruppe möchte sich im Vorfeld des nächsten GO UNITE! General Meetings im Februar austauschen, um dann beim General Meeting im Frühjahr kurz darüber zu berichten.

Die Besprechung wird am Donnerstag, den 10.02.2022 zwischen 13:30 und 14:30 Uhr stattfinden, und ich möchte hiermit daran erinnern. Wir treffen uns im Besprechungsraum „FAIRes FDM“ : https://bbb.uni-hildesheim.de/b/ann-34u-ft7

Eingeladen sind alle, die dabei helfen wollen, diesen wichtigen Aspekt im FDM – in untersch. Kontexten – für den Forschungssupport an den Standorten voranzutreiben.

Link: https://www.go-fair.org/events/go-unite-working-groups-join-the-discussion-in-german/

Open Password

Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum

Neue Ausgaben von Open Password erscheinen dreimal in der Woche.

Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.

Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.

International Co-operation Partner:

Outsell (London)
Business Industry Information Association/BIIA (Hongkong)

Anzeige

FAQ + Hilfe

Was ist das Open Password Archiv?

Das Open Password Archiv ist eine digitale Sammlung von über 1.100 Artikeln und Ausgaben des ehemaligen Newsletters „Open Password“ aus der Publikation “Password Online”. Diese Publikation, die von 1986 bis 2015 als Print-Ausgabe erschien, diente als zentrale Informationsquelle für Fachleute in der Informationsbranche.

Im Archiv des 2016 gestarteten Pushdienstes finden Sie tiefgreifende Analysen, exklusive Geschichten und redaktionelle Beiträge, die wichtige Entwicklungen und Trends in verschiedenen Sektoren wie Finanzen, IT und Pharma beleuchten. Das Archiv ist online zugänglich und bietet eine wertvolle Ressource für Forscher, Information Professionals und alle, die an der Geschichte und den Entwicklungen der Informationsbranche interessiert sind.

Eine noch ausführlichere Zusammenfassung zu Open Password wurde vom ehemaligen Herausgeber Dr. Wilhelm Heinrich Bredemeier verfasst.

Wo ist das Archiv und die Beiträge zu finden?

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Was ist die GPT KI-Suche?

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Kann man einen Beitrag der fehlt anfordern?

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

information is our mission
KONTAKT

Archiv & Touchpoint

Was ist das Open Password Archiv?

Wo ist das Archiv und die Beiträge zu finden?

Was ist die GPT KI-Suche?

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Kann man einen Beitrag der fehlt anfordern?