Online-Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000
Print Archiv | 1999 | 1998 | 1997 | 1996 | 1995 | 1994 | 1993 | 1992 | 1991 | 1990 | 1989 | 1988 | 1987 | 1986
Open Password – Donnerstag,
den 15. Februar 2018
#322
Technische Informationsbibliothek – Strategie – Forschende Bibliothek – Fake News – Melanie Siegel – Soziale Medien – Automatisches Extrahieren – Gekaufte Bewertungen – Opinion Spam – Hochschule Darmstadt – Amazon – Textkorpus
Technische Informationsbibliothek
Auf dem Weg zur „forschenden Bibliothek“
Die Technische Informationsbibliothek hat die „TIB-Strategie 2018 – 2022“ veröffentlicht. https://www.tib.eu/fileadmin/Daten/presse/dokumente/TIB-Strategie_2018-2022_deutsch_01.pdf. Die alte TIB ist auch unter ihrem neuen Direktor Sören Auer wiederzuerkennen. Gleichzeitig wird deutlich, wie sich der Strukturwandel, der TIB auf ihrem Weg zu einer „forschenden Bibliothek“ in den nächsten fünf Jahren vollziehen soll. Zwei von fünf Leitlinien heißen denn auch „Eigene Forschung betreiben“ und „Kooperation mit Hochschulen stärken“. Dabei kann es auf seine anerkannte Expertise „in den Bereichen Erschließung und Standardisierung von Metadaten, Forschungsdatenmanagement, Umgang mit nicht-textuellen Materialien, Lizenzen, Informationsversorgung, Langzeitarchivierung und Open Access“ aufbauen. Das Papier ist erstaunlich konkret gefasst und verzichtet auf Leerformeln. Wir geben im Folgenden die einzelnen strategischen Teilziele der Leitlinien in der Form von Schlagzeilen wieder:
- I. Wissen bewahren und Zugang ermöglichen: Besitzende Bibliothek – Bestandsaufbau vorrangig auf digitaler Basis – Einfache Nutzbarkeit unserer Bestände – Kulturelles Erbe sichern – Open Science unterstützen und betreiben – Unverzichtbare Partnerin der Forschungsinfrastruktur – Wissens- und Technologietransfer leisten –Forschungsfreundliches Urheberrecht
- II. Eigene Forschung betreiben: Ausbau von Forschungskompetenz – Forschungsschwerpunkte positionieren – Innovative Lösungen aus dem Open Science Lab – Gemeinsame Forschung mit dem Forschungszentrum L3S – Forschungsergebnisse nachhaltig in den Betrieb überführen – Akademischen Nachwuchs ausbilden
- III. Kooperation mit Hochschulen stärken: Kristallisationspunkt für die Digitalisierung der Wissenschaft – Gemeinsame Berufungen – Leibniz Joint Lab Data Science & Open Knowledge – Universitätsbibliothek – Nähe zu Nutzerinnen und Nutzern
- IV. Nationale, europäische und internationale Zusammenarbeit ausbauen: Aktive Partnerin in strategischen Netzwerken und Kooperationen – Ausbau von Kooperationen mit der Wirtschaft – Anerkannte TIB-Expertise im wissenschaftspolitischen Diskurs – Bessere Sichtbarkeit von TIB-Expertinnen und TIB-Experten
- V. Die TIB-Strukturen zukunftsfähig weiterentwickeln: Leistungsstark aufstellen – Strategisch ausgerichtete Personal- und Organisationsentwicklung – Als attraktive Arbeitgeberin alle Beschäftigten fördern und wertschätzen – Strategische Handlungsfähigkeit sicherstellen.
Gefälschte Meinungsäußerungen
Der automatischen Extraktion
von Opinion Spam entgegen
Von Melanie Siegel
Wer hat nicht schon mal die Bewertung anderer Konsumenten gelesen, bevor er oder sie eine Reise gebucht, ein Buch gekauft oder ein Rezept nachgekocht hat? In den letzten Jahren ist dies zum Standardverhalten der Konsumenten geworden. Viele schreiben auch selbst Bewertungen in Verkaufsportalen oder auf Twitter. Der Konsument bekommt damit einen direkten Einfluss auf die Entwicklung der Produkte – einen viel direkteren Einfluss als zu Zeiten der Leserbriefe. Für die Firmen (Hotelanbieter, Autoren, Produzenten, …) liegt darin eine große Chance, mehr darüber zu erfahren, was ihren Kunden wichtig ist und was sie stört. Damit kann viel schneller reagiert werden, wenn z.B. mal etwas schiefgeht, ein neues Design nicht ankommt, eine Marketingkampagne danebengeht oder ein Produkt nicht funktioniert wie es soll. Das geht aber nur, wenn sie die Information aus den Meinungsäußerungen der Kunden schnell extrahieren können, was bei größeren Datenmengen nur mit automatischen Verfahren möglich ist. Solche Verfahren gibt es seit längerer Zeit schon für die englische Sprache. In den letzten Jahren werden aber auch für die deutsche Sprache verstärkt Softwarelösungen angeboten, die helfen, automatisch Meinungen aus den Texten der Kunden zu extrahieren.
Mit zunehmender Relevanz der Kundenmeinungen für Konsumenten und Erzeuger steigt jedoch auch die Anzahl der Manipulationsversuche. Schätzungen sprechen davon, dass 20-30% der Beiträge in Foren gefälscht sind. Das sind zumeist gekaufte Rezensionen. Fake-Bewertungen haben sich zu einem eigenen Geschäftsmodell entwickelt. Es gibt Plattformen und Anbieter für gekaufte Reviews. Da die Glaubwürdigkeit der Online-Portale unter den Manipulationen leidet, gehen ihre Betreiber mittlerweile gegen „Opinion Spam“ vor. Nichtsdestotrotz findet man sehr schnell eine große Menge von offensichtlichen Fakes, wie eine Analyse des deutschen Amazon-Portals mit Studierenden an der Hochschule Darmstadt zeigte.
Wir haben es hier also mit einem gesellschaftlich und ökonomisch wichtigen Problem zu tun. WissenschaftlerInnen arbeiten daher an Methoden, um den Erkennungsprozess von Opinion Spam durch automatische Methoden zu unterstützen.
________________________________________________________________________
Erkennen von Opinion Spam.
________________________________________________________________________
Die Datenbasis für die Erkennungsmethoden umfasst neben dem eigentlichen Text die Entität, die bewertet wird, den bewerteten Aspekt dieser Entität, die Meinung dazu, den Rezensenten und den Zeitpunkt des Reviews. Die Erkennung von Opinion Spam ist damit eine klassische Klassifikationsaufgabe, die Dokumente (Bewertungen) als gefälscht oder als nicht gefälscht klassifizieren soll.
So sieht man sich zunächst das Verhalten der Rezensenten an. Rezensenten, die ausschließlich positive Bewertungen in großer Menge abgeben, sind ebenso verdächtig wie Rezensenten, die viele Bewertungen in einer sehr kurzen Zeit abgeben. In einigen Fällen hat ein einzelner Rezensent an einem Tag fünfzig sehr verschiedene Produkte bewertet, allen fünf Sterne gegeben und bei allen denselben nichtssagenden Text geschrieben. Auch der Zeitpunkt des Reviews kann eine Rolle spielen. Agenturen, in denen gefälschte Reviews geschrieben werden, arbeiten an Wochentagen, während echte Reviews, beispielsweise zu Restaurantbewertungen, eher am Wochenende entstehen.
Der nächste Fokus ist auf das Produkt selbst gerichtet: Das plötzliche Auftreten von vielen Bewertungen zu einem Produkt, das schon länger auf dem Markt ist, ist verdächtig, vor allem wenn sich damit plötzlich die durchschnittliche Meinung ändert.
Schließlich der Fokus auf den Text an sich: Die Fake-Rezensenten müssen meist in kurzer Zeit viele Rezensionen schreiben. Daher verwenden sie Texte, die wenig über ein Produkt aussagen und wenden diese auf unterschiedliche Produkte an.
Ein Beispiel:
„Wie beschrieben. Alles OK. Keine Beanstandungen. Gute Qualität. Preis Leistung auch OK. Günstiger als im Laden und genauso gut. Würde ich weiterempfehlen.“
Linguistische Hinweise auf Detail-Genauigkeit, bzw. -ungenauigkeit helfen hier, die Texte zu identifizieren.
Prof. Melanie Siegel: Eine erfolgreiche Bekämpfung von Opinion Spam ist möglich.
________________________________________________________________________
Aufbau eines deutschsprachigen Korpus mit gefälschten Bewertungen.
________________________________________________________________________
Für automatische Verfahren ist es jedoch zunächst notwendig, einen annotierten Textkorpus zu erstellen, bei dem von Hand und mit mehreren Annotatoren gleichzeitig Opinion-Spam-Texte zusammengestellt werden. Dieser Korpus dient zunächst zur Evaluation der Methoden und kann – wenn er groß genug ist – auch für automatische Lernmethoden verwendet werden. An der Hochschule Darmstadt wurde damit begonnen, einen solchen Korpus zu erstellen.
Erste Beobachtungen auf dem deutschen Amazon-Portal zeigen, dass Forschungsergebnisse für das Englische und Chinesische zum Teil auf das Deutsche übertragbar sind und es möglich sein wird, automatische Erkennungsmethoden zu entwickeln.
Im deutschen Amazon-Portal scheint der Shop nicht ausschlaggebend zu sein. Wenn wir eine gefälschte Bewertung gefunden und weitere Bewertungen zu Produkten im selben Shop analysiert haben, so haben wir nur sehr selten weitere gefälschte Bewertungen gefunden. Es müsste somit untersucht werden, ob eher die Herstellerfirma (z.B. im Fall von technischen Geräten) oder der Autor, Komponist oder ein anderer Urheber Opinion Spam in Auftrag geben. In einer weiteren Untersuchung sollte diese Information in das Korpus mit aufgenommen werden.
Wie auch die Wissenschaftler für den englischen Sprachraum feststellen, haben wir häufig verdächtige Reviewer gefunden, die denselben Text am selben Datum für verschiedene Produkte verwenden. Dies ist auch ein Ansatzpunkt für eine Erweiterung des Korpus, denn weitere Bewertungen von notorischen Spammern können damit aufgenommen werden.
Das Datum scheint eine Rolle zu spielen, etwa wenn es direkt nach Erscheinen einer CD sehr viele positive Reviews innerhalb weniger Tage gibt und später dann in erster Linie negative. Wir konnten feststellen, dass die Spammer meist an Wochentagen und nur in Ausnahmefällen an Wochenenden agieren. Es sind nur 25 der gefälschten Bewertungen am Wochenende entstanden und 75 an einem Wochentag.
Anders als in der Literatur zum englischen Sprachraum festgestellt, handelt es sich bei den gefälschten Bewertungen im deutschen Amazon-Portal oft um verifizierten Kauf, im Korpus in 84 Fällen von 100. Dies deutet auf eine gewisse Professionalität der Spammer hin, die entweder direkt von den Shops oder Herstellern beauftragt werden oder die Produkte bestellen und danach zurücksenden. Jedenfalls scheint für das deutsche Amazon-Portal die Methode des Aufbaus eines Korpus mit nicht verifizierten Käufen nicht zu funktionieren.
Die Texte – gerade wenn sie von Spammern mehrfach verwendet werden – sind wenig konkret, z.B.:
„Alles bestens und schnell wie immer gelaufen – würde ich immer wieder wiederholen. Die Ware ist OK“,
„also die lieferung ist schnell und unkompliziert. die ware ist top und es gibt keine beanstandungen. da würde ich wieder bestellen. :-)“.
Häufig beziehen sich die Spammer auf die Lieferung, wie im oben genannten Beispiel, und nicht auf das Produkt selbst, da sie dann für jedes Produkt eine eigene Bewertung schreiben müssen. Manche versuchen jedoch, auch diesen Prozess zu automatisieren, was im folgenden Fall schiefgegangen ist, weil die Variablen im Text geblieben sind:
„Ich kann das oben angegebene Produkt $article_name vorbehaltlos empfehlen. Als ich $article_medium endlich erwerben konnte, war ich mehr als positiv überrascht. Ich werde auch in Zukunft $article_name immer wieder konsumieren und habe gleich noch einmal zugegriffen, da auch der Preis $article_price für das Produkt $article_name sehr gut ist. Ich freue mich schon auf weitere sehr gute Angebote von $article_manufacturer.“
Gefälschte Texte sind im Durchschnitt kürzer als echte Bewertungen (27,5 Wörter pro Bewertung). Viele Spammer reagieren auf die Anforderungen von Amazon nach einer Mindestlänge eines Reviews von zwanzig Wörtern mit Tricks wie sinnlose Sätze, Wiederholungen und Wörtern mit Leerzeichen zwischen den Buchstaben:
„alles war gut, ich habe leider keine weitere Lust noch mehr dazu zu schreiben mit recht freundlichen grüßen danke !!!“
„gefällt mir, sieht gut aus, ist sehr praktisch, einfach gut, gefällt mir, sieht gut aus, ist sehr praktisch, einfach gut, gefällt mir, sieht gut aus, ist sehr praktisch, einfach gut“
„Hab den Anhänger damals für ne Freundin bestellt – hat Ihr gefallen – e m p f e h l e n s w e r t“
Eine automatische Klassifikation als gefälschte Bewertung erscheint mit maschinellen Lernverfahren also insgesamt als möglich, sobald das Korpus deutlich erweitert wird und ein Vergleichskorpus mit echten Bewertungen aufgebaut worden ist.
________________________________________________________________________
Das Fazit.
________________________________________________________________________
Meinungen über Produkte, Reisen, Filme, Bücher, Dienstleistungen und vieles mehr werden heutzutage in unzähligen Foren geäußert. Es ist üblich, sich die Meinung der anderen Kunden durchzulesen, bevor man etwas kauft oder eine Dienstleistung in Anspruch nimmt. Unternehmen nutzen diese Information, um sich auf Kundenwünsche einzustellen oder Missstände schnell zu beheben.
Unter den Reviewern tummeln sich aber vermehrt Fälscher. Ähnlich wie bei E-Mail-Spam geht das vom kleinen Betrug mit gefälschten Meinungsäußerungen bis hin zu kriminellen Machenschaften.
In diesem Beitrag wurde im ersten Schritt die Information vorgestellt, die für die Identifikation von gefälschten Bewertungen zur Verfügung steht. Neben dem Text und seiner Überschrift haben wir Metadaten wie z.B. das Datum des Postings und Produktinformationen wie z.B. den Verkaufsrang.
Für automatische Klassifikationsmethoden wird ein Textkorpus mit deutschsprachigen gefälschten Bewertungen benötigt, das wir an der Hochschule Darmstadt begonnen haben zu entwickeln.
Letztlich hängt die weitere Entwicklung der Kundenbeteiligung davon ab, ob es gelingt, Opinion Spam automatisch zu extrahieren. Wenn es nicht schon seit mindestens zehn Jahren gute E-Mail-Spam-Filter gäbe, würde wahrscheinlich heute niemand mehr E-Mails versenden oder lesen. Es ist höchste Zeit, das Problem auch für Opinion Spam anzugehen.
Prof. Dr. Melanie Siegel lehrt und forscht an der Hochschule Darmstadt.
Anzeige
FAQ + Hilfe