Open Password – Montag, den 31. Januar 2022
# 1023
Konferenz AI-SDV 2021 – Suche – Datenanalyse – Visualisierung – Wissensverarbeitung – Bassam Mokbel – Lucy Antunes – CAS IP Services – Muriel Bourgeois Tassanary – MT-IP Consulting – Intellectual Property Manager – Skill-Set – Heiko Wongel – Wongel IP – Interface Projects – Machine Learning Tools in Patent Searching – Regelbasierte Suchlogik – MI-gestützte Ähnlichkeitssuche – Integrator Smart Search – Human-in-the-Loop-Ansatz – Transfer Learning – EXTRA Classifier – Dokumentenklassifikation – Informationsextraktion – Holger Keibel – Karakan – Daniela Puccinelli – BERT – Trainingsdaten – Small Data – Nils Newman – Search Technology – Composite AI – Generative AI-Ansätze – Linus Wretblad – Ipscreener/Uppdragshuset – Black-Box-Charakter der Entscheidungsfindung – Best Practice – Explainable AI – Externe SaaS-Angebote – Assisted Reading – Automatisierte Entscheidungsprozesse – Anwenderperspektive – Spatial Concept Maps – Patent Citation Network Maps – Tony Trippe – Patentinformatics – Software Implementation – Marjorie Hlava – Information Access – Content-Management-Technologien – Public Library of Science – American Society for Clinical Oncology – Semantische Suchfunktionen – Automatische Taggings
Experian – Intrum Switzerland – DACH Business – BIIA – Credit Rating Data – Marco Kaiser – Wissenschaftsrat – Transformation – Wissenschaftliches Publizieren – Open Access – UB Universität Hildesheim – Annette Strauch-Davey – Forschungsethik – GO UNITE
Erfahrungsbericht AI-SDV 2021:
An den Fronten der Suche, Datenanalyse, Visualisierung und Wissensverarbeitung (II) – Von Dr. Bassam Mokbel
Experian:
Cooperation with Intrum Switzerland to Grow its DACH Business
III.
Wissenschaftsrat:
Empfehlungen zum OA-Transformationsprozess
IV.
UB Universität Hildesheim:
Austausch über Forschungsethik
Erfahrungsbericht AI-SDV 2021
An den Fronten der Suche, Datenanalyse, Visualisierung und Wissensverarbeitung (II)
Von Dr. Bassam Mokbel*
Bassam Mokbel
_____________________________________________________
Kombination regelbasierter Suchlogik und ML-gestützter Ähnlichkeitssuche.
_____________________________________________________
Der zweite Konferenztag begann mit einer Präsentation von Lucy Antunes (CAS IP Services) und Muriel Bourgeois Tassanary (MT-IP Consulting) mit dem Titel „Project Management Challenges for IP Projects“. Die Referentinnen diskutierten die vielfältigen Herausforderungen für Intellectual Property (IP) Manager, beispielsweise die Prioritäten ihrer Kunden und Vorgesetzten zu verstehen, die Schlüsselinformationen für die jeweilige Art der IP zu sammeln und das eigene Skill-Set mit Blick auf die regulatorischen Rahmenbedingungen zu erkennen und gegebenenfalls zu erweitern. Diese Ansprüche zu koordinieren stellen von Projekt zu Projekt unterschiedliche Anforderungen dar. Jedoch können Software-Werkzeuge und digitale Wissensquellen, aber auch gezieltes Outsourcing viele Prozesse erleichtern oder beschleunigen.
Heiko Wongel (Wongel IP) stellte in Kollaboration mit Interface Projects die Frage: „Machine learning tools in patent searching – are we on the right track?“. Der Referent sah als zentrale Herausforderung, dass die wachsende Menge an Patentdokumentationen in naher Zukunft nicht mehr mit konventionellen Suchmethoden handhabbar sein wird. Zwar fließen bereits heute ML-basierte Werkzeuge in verschiedenen Weisen in den Rechercheprozess ein, um menschliche Nutzer bei der Suche zu unterstützen. Zu einem wirklichen Durchbruch von KI & ML als Standard ist es in der Patentsuche aber noch nicht gekommen. Als mögliche Gründe nannte er aus der Forschung bekannte Schwächen von ML. So wird dem menschlichen Benutzer ein Einblick in die Suchlogik verwehrt und damit die direkte Einflussnahme auf den Prozess erschwert.
Wongel verglich die jeweiligen Vorteile und Nachteile regelbasierter Suchlogik mit ML-gestützter Ähnlichkeitssuche und beschrieb dann die Suche mit dem Produkt „Intergator Smart Search“, das die beiden Ansätze geschickt kombiniert. Zusätzlich kann der Benutzer mit Hilfe einer Graph-Visualisierung selbst die Suchlogik interaktiv beeinflussen.
Wongels Präsentation hat mich persönlich beeindruckt, da Human-in-the-loop ein vielversprechender Weg ist, um das Vertrauen in KI zu steigern. Mit dem gezeigten Tool wurde dieses Potenzial veranschaulicht.
___________________________________________________________________
Transfer-Learning-Anwendung „EXTRA Classifier“ um Dokumentenklassifikation und Informationsextraktion erweitert.
_____________________________________________________
In „Leveraging pre-trained language models for document classification“ präsentierten Holger Keibel (Karakun) und Daniele Puccinelli (University of Applied Sciences of Southern Switzerland) den „EXTRA Classifier“, eine Transfer-Learning-Anwendung, mit der das weltweit bekannte vortrainierte Sprachanalysemodell BERT um mehrere Aufgaben der Dokumentenklassifikation und die Funktion „Informationsextraktion“ erweitert wurde. Dabei ging es um die praktische Anwendung auf gescannten Dokumenten, so dass auch die Schrifterkennung aus Bilddaten zu einem Teil der Verarbeitungskette wurde. Bei der Unterscheidung von Bankdokumenten, Rechnungen und Verträgen sowie einer Ausschlussklassifikation von andersartigen Dokumenten wurden vielversprechende Ergebnisse erzielt, obwohl nur wenige Trainingsdaten manuell annotiert wurden. Ferner wurden relevante Textbestandteile der jeweiligen Dokumentenarten wie z.B. die Rechnungsnummer aus Rechnungen zuverlässig automatisch extrahiert.
_____________________________________________________
Wie wir uns bei Small Data angesichts nicht ausreichender Trainingsdaten helfen können.
_____________________________________________________
Nils Newman von Search Technology suchte die Frage zu beantworten: „AI – Who is in control and why is that important?“. Er sprach zunächst das Problem an, dass die immer aufwändigeren und umfangreicheren vortrainierten Modelle der Sprachanalyse für Fachwissen ungeeignet sein können und in Werkzeugen, die von fachkundigen Benutzern verwendet werden sollen, eine nur unzureichende Qualität bieten. Newman betonte, wie wichtig Trainingsdaten in ausreichender Menge sind. Dieser Faktor wird häufig unterschätzt.
Die Arbeit von Fachexperten basiert häufig auf kleinen, aber fachlich hochrelevanten Datenmengen, also auf Small Data anstelle Big Data. Diese können für das Training von zuverlässigen ML-Systemen zu wenige sein. Als mögliche Auswege nannte Newman Zero-Shot-, Few-Shot- und Transfer-Learning, aber auch die Verknüpfung mehrerer KI-Verfahren mit Sprachanalyse, Wissensmodellierung und anderen Techniken. Verknüpfungen dieser Art werden gemeinhin als „Composite AI“ bezeichnet. Ferner kamen generative KI-Ansätze zur Sprache. Der Referent wies zum Schluss darauf hin, wie wichtig es sei, den Fachexperten eine ausreichende Kontrolle über die KI zu geben, anstatt zu versuchen, ihre Expertise durch den Automatismus zu ersetzen.
_____________________________________________________
AI den Nutzern erklären, ihre Skepsis mindern.
_____________________________________________________
In „Best practice on new intelligent tools in IP management and the ethical dilemma of using AI“ ging Linus Wretblad (IPscreener/Uppdragshuset) auf Verlässlichkeit, Transparenz und Datenschutzaspekte bei ML-basierten Systemen ein. In diesen Bereichen stößt die Technologie auf Grenzen, beispielsweise durch den inhärenten Black-Box-Character der Entscheidungsberechnung. Die führt häufig bei Nutzern zu Skepsis. Um dem entgegenzuwirken, wurden mittlerweile einige Best Practices entwickelt, z.B. bei der Evaluation von ML-Modellen. Jedoch sind diese nicht allseits bekannt oder noch nicht im Einsatz. Ferner liegen unter dem Stichwort „Explainable AI“ Erweiterungen der Technologie aus der jüngeren Forschung vor, die die Transparenz verbessern können. Diese Erweiterungen müssen ihren Weg in die Praxis noch finden.
Wretblad nahm die Perspektive eines Anwenders ein, der z.B. mit externen SaaS-Angeboten auf eigenen Daten ML-Modelle trainieren und anwenden möchte. Er riet dazu, sich vor und während der Arbeit Fragen nach der Transparenz und den datenschutzrechtlichen Besonderheiten des Serviceangebots zu stellen und auch die Evaluationsprozesse und Qualitätsänderungen zu hinterfragen. Zum Schluss stellte er strategisch vielversprechende KI-Anwendungsgebiete im IP-Management vor, z.B. um mit „Assisted Reading“ oder automatisierten Entscheidungsprozessen dem Informationsüberfluss entgegenzutreten.
Ich empfand Wretblads ausdrückliche Einnahme einer Anwenderperspektive als sehr gelungen.
Christoph Haxel, der Macher der AI-SDV
_____________________________________________________
Aufbereitung gefundener Dokumentenmengen in „Spatial Concept Maps“ und „Patent Citation Network Maps“.
_____________________________________________________
In „The Current State of Machine Learning for Patent Searching and Analytics: Practical Perspectives from ML4Patents.com“ gab Tony Trippe von Patinformatics einen Überblick über aktuelle Entwicklungen im Bereich der KI-gestützten Patentsuche und -analyse. Er zählte die nötigen Arbeitsschritte bei der Erstellung von Patentlandschafts-Berichten auf und ging dann auf Möglichkeiten der Unterstützung durch KI-Ansätze ein. Zusätzlich zu einer Verbesserung der Suche und der Relevanzbewertung durch semantische Textanalyse stand die nachträgliche Aufbereitung der gefundenen Dokumentenmenge im Fokus. Dabei können automatische Gruppierung und Kategorisierung hilfreich sein. Diese sollten die inhaltliche Ähnlichkeit von Patentschriften nicht nur aus den textuellen und kategorialen Beschreibungen im Dokument ableiten, sondern beispielsweise auch Einschätzungen externer Experten und Verweise auf andere Patente einbeziehen.
Trippe stellte zwei Arten der Visualisierung mit Ähnlichkeiten in zweidimensionalen Karten vor: „Spacial Concept Maps“, die einer Landkarte ähneln, sowie „Patent Citation Network Maps“, welche die Zusammenhänge von Literaturreferenzen als Netzwerk zeigen. Eine Graph- bzw. Netzwerkrepräsentation begünstigt nicht nur die Visualisierung, sondern fördert auch nachgelagerte Analysen, wie zum Beispiel die Entdeckung einflussreicher Patente als ausgeprägte Netzwerk-Knotenpunkte. Der Referent verwies mit einigen Zahlen und Beispielen auf die hauseigene Webseite ML4Patents.com, eine allgemeine Ressourcen-Sammlung rund um das Thema, in der sich zahlreiche Blogposts, Newsartikel, Publikationen und Bildungsmaterialien befinden.
Den Abschluss der Konferenz bildete der Vortrag „Semantic Search and Content Management – Case Studies in Successful Software Implementations“ von Marjorie Hlava (Information Access). Sie stellte sehr unterschiedliche Fallstudien vor, in denen veraltete Content-Management-Technologien und -Infrastrukturen in der Praxis erfolgreich ausgetauscht oder modernisiert wurden. Unter den Fällen befanden sich bedeutende Einrichtungen wie die Public Library of Science (PLOS) und die American Society for Clinical Oncology (ASCO). Die Referentin beschrieb in jedem Fall den Stand der jeweiligen Software vor der Umrüstung, die in Angriff zu nehmenden technischen Herausforderungen sowie die Ziele der Modernisierung, die in enger Zusammenarbeit mit den jeweiligen Kunden bestimmt wurden. Obwohl die Lösungen für den jeweiligen Kunden angepasst wurden, gab es Gemeinsamkeiten des Vorgehens, z.B. die Einführung semantischer Suchfunktionen (u.a. gestützt durch Taxonomien) sowie die Einführung automatischen Taggings von Schlüsselwörtern im Dokumentenbestand. In allen Fällen führte die Umrüstung zu einem bedeutenden Mehrwert für die Kunden.
_____________________________________________________
Mein Fazit.
_____________________________________________________
Insgesamt war die Konferenz eine bereichernde Erfahrung für mich. Die Vorträge betrachteten viele verschiedene Aspekte des übergeordneten Themas und ergänzten sich inhaltlich sehr gut. Auch die solide Qualität aller Präsentationen hinterließ einen äußerst positiven Gesamteindruck.
*Dr. Bassam Mokbel ist Chief Data Scientist bei Semalytix, einem Anbieter für KI-basierte Aggregation von Patientenaussagen aus Social-Media-Foren und anderen Textquellen. Zuvor forschte er am „Center for Cognitive Interaction Technology“ (CITEC) der Universität Bielefeld in den Bereichen Machine Learning und Datenvisualisierungsmethoden.
Experian
Cooperation with Intrum Switzerland
to Grow its DACH Business
(BIIA) Experian is expanding its strategic partnership with Intrum Switzerland and thus extending its commitment in the DACH region. Intrum clients in Switzerland now benefit from business information from Germany and Austria, enabling them to tap into additional target groups within the DACH region.
Intrum is broadening its existing offering of credit rating data with German and Austrian consumer data. Companies from Switzerland can now easily obtain meaningful information about their foreign customers through an already existing interface.
„In the DACH region we see great opportunities to become a decisive player with our core business in the long term,“ comments Marco Kaiser, Vice President Business
Development at Experian DACH. “On the one hand, companies that already have relationships with customers in Germany or Austria will benefit from the new offering. On the other hand, it also opens up attractive opportunities for companies that are planning to expand into the neighboring German-speaking countries but have not yet dared to do so due to possible payment defaults.“
The first e-commerce companies from Switzerland are already accessing the high-quality data via Intrum’s Credit Information data pool. By using reliable and fast processes, they can quickly expand their customer base to the DACH region without increasing their payment default rate. Via the customer-friendly web portal or via a modern programming interface, customers receive all information directly from a single source and can thus focus on their growth strategy.
As a leading provider of credit reports, Intrum offers address and creditworthiness data on virtually all people in Switzerland. Credit scores are updated daily thanks to Intrum’s own collection data and are continuously expanded through additional external data sources. Intrum provides its clients with the best possible risk management and offers solutions for compliance checks and fraud prevention services.
BIIA ist he international partner of Open Password
Soeben erschienen
Wissenschaftsrat: Empfehlungen
zum OA-Transformationsprozess
Wissenschaftsrat, Empfehlungen zur Transformation des wissenschaftliche Publizierens zu Open Access, Januar 2022, https://www.wissenschaftsrat.de/download/2022/9477-22.pdf?__blob=publicationFile&v=12 – Die Inhalte:
Kurzfassung
- Publizieren als Teil des Forschungsprozesses
A.I Publikationsorte und Publikationsformen
A.II Funktionen des wissenschaftlichen Publizierens
A.III Entwicklungen bei wissenschaftlichen Publikationsdienstleistern
A.IV Entwicklung der Open-Access-Bewegung
A.V Finanzierungsmodelle von Open-Access-Publikationen
A.VI Daten zu Publikationszahlen und Publikationskosten
A.VII Systematisierung von Open Access – Dimensionen der Offenheit
A.VIII Lizenzierung
- Ziel und Gegenstand der Empfehlungen
- Empfehlungen
C.I Produkte und Prozesse
I.1 Weiterentwicklung wissenschaftlicher Publikationen in ihrer Vielfalt
I.2 Weiterentwicklung von Publikationen als digitale Objekte
I.3 Erwartungen an Publikationsdienstleistungen
I.4 Sicherung der inhaltlichen Qualität von Beiträgen
I.5 Qualitätsförderliche Anreize
C.II Rahmenbedingungen
II.1 Aufgaben und Zusammenwirken der Akteure im Wissenschaftssystem
II.2 Finanzströme und Geschäftsmodelle
II.3 Infrastruktur für das wissenschaftliche Publizieren
Anhang: Stand der OA-Transformation
I.1 Der Open-Access-Diskurs seit der Berliner Erklärung 89
I.2 Rechtliche Rahmenbedingungen und Praxis 98
I.3 Erprobte Vertragsmodelle für OA-Publikationsorgane
UB Universität Hildesheim
Austausch über Forschungsethik
(Annette Strauch.Davey) Beim vergangenen „GO UNITE!“ – Herbstworkshop
https://www.go-fair.org/events/go-unite-autumn-workshop/
wurden mehrere Themen für neue Arbeitsgruppen vorgestellt, so auch das Thema „Forschungsethik“. Die Themengruppe möchte sich im Vorfeld des nächsten GO UNITE! General Meetings im Februar austauschen, um dann beim General Meeting im Frühjahr kurz darüber zu berichten.
Die Besprechung wird am Donnerstag, den 10.02.2022 zwischen 13:30 und 14:30 Uhr stattfinden, und ich möchte hiermit daran erinnern. Wir treffen uns im Besprechungsraum „FAIRes FDM“ : https://bbb.uni-hildesheim.de/b/ann-34u-ft7
Eingeladen sind alle, die dabei helfen wollen, diesen wichtigen Aspekt im FDM – in untersch. Kontexten – für den Forschungssupport an den Standorten voranzutreiben.
Link: https://www.go-fair.org/events/go-unite-working-groups-join-the-discussion-in-german/
Open Password
Forum und Nachrichten
für die Informationsbranche
im deutschsprachigen Raum
Neue Ausgaben von Open Password erscheinen dreimal in der Woche.
Wer den E-Mai-Service kostenfrei abonnieren möchte – bitte unter www.password-online.de eintragen.
Die aktuelle Ausgabe von Open Password ist unmittelbar nach ihrem Erscheinen im Web abzurufen. www.password-online.de/archiv. Das gilt auch für alle früher erschienenen Ausgaben.
International Co-operation Partner:
Outsell (London)
Business Industry Information Association/BIIA (Hongkong)
Anzeige
FAQ + Hilfe