Automatisierte Bekämpfung von Opinion Spam -

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

Open Password – Donnerstag,

den 15. Februar 2018

#322

Technische Informationsbibliothek – Strategie – Forschende Bibliothek – Fake News – Melanie Siegel – Soziale Medien – Automatisches Extrahieren – Gekaufte Bewertungen – Opinion Spam – Hochschule Darmstadt – Amazon – Textkorpus

Technische Informationsbibliothek

Auf dem Weg zur „forschenden Bibliothek“

Die Technische Informationsbibliothek hat die „TIB-Strategie 2018 – 2022“ veröffentlicht. https://www.tib.eu/fileadmin/Daten/presse/dokumente/TIB-Strategie_2018-2022_deutsch_01.pdf. Die alte TIB ist auch unter ihrem neuen Direktor Sören Auer wiederzuerkennen. Gleichzeitig wird deutlich, wie sich der Strukturwandel, der TIB auf ihrem Weg zu einer „forschenden Bibliothek“ in den nächsten fünf Jahren vollziehen soll. Zwei von fünf Leitlinien heißen denn auch „Eigene Forschung betreiben“ und „Kooperation mit Hochschulen stärken“. Dabei kann es auf seine anerkannte Expertise „in den Bereichen Erschließung und Standardisierung von Metadaten, Forschungsdatenmanagement, Umgang mit nicht-textuellen Materialien, Lizenzen, Informationsversorgung, Langzeitarchivierung und Open Access“ aufbauen. Das Papier ist erstaunlich konkret gefasst und verzichtet auf Leerformeln. Wir geben im Folgenden die einzelnen strategischen Teilziele der Leitlinien in der Form von Schlagzeilen wieder:

I. Wissen bewahren und Zugang ermöglichen: Besitzende Bibliothek – Bestandsaufbau vorrangig auf digitaler Basis – Einfache Nutzbarkeit unserer Bestände – Kulturelles Erbe sichern – Open Science unterstützen und betreiben – Unverzichtbare Partnerin der Forschungsinfrastruktur – Wissens- und Technologietransfer leisten –Forschungsfreundliches Urheberrecht
II. Eigene Forschung betreiben: Ausbau von Forschungskompetenz – Forschungsschwerpunkte positionieren – Innovative Lösungen aus dem Open Science Lab – Gemeinsame Forschung mit dem Forschungszentrum L3S – Forschungsergebnisse nachhaltig in den Betrieb überführen – Akademischen Nachwuchs ausbilden
III. Kooperation mit Hochschulen stärken: Kristallisationspunkt für die Digitalisierung der Wissenschaft – Gemeinsame Berufungen – Leibniz Joint Lab Data Science & Open Knowledge – Universitätsbibliothek – Nähe zu Nutzerinnen und Nutzern
IV. Nationale, europäische und internationale Zusammenarbeit ausbauen: Aktive Partnerin in strategischen Netzwerken und Kooperationen – Ausbau von Kooperationen mit der Wirtschaft – Anerkannte TIB-Expertise im wissenschaftspolitischen Diskurs – Bessere Sichtbarkeit von TIB-Expertinnen und TIB-Experten
V. Die TIB-Strukturen zukunftsfähig weiterentwickeln: Leistungsstark aufstellen – Strategisch ausgerichtete Personal- und Organisationsentwicklung – Als attraktive Arbeitgeberin alle Beschäftigten fördern und wertschätzen – Strategische Handlungsfähigkeit sicherstellen.

Gefälschte Meinungsäußerungen

Der automatischen Extraktion
von Opinion Spam entgegen

Von Melanie Siegel

Wer hat nicht schon mal die Bewertung anderer Konsumenten gelesen, bevor er oder sie eine Reise gebucht, ein Buch gekauft oder ein Rezept nachgekocht hat? In den letzten Jahren ist dies zum Standardverhalten der Konsumenten geworden. Viele schreiben auch selbst Bewertungen in Verkaufsportalen oder auf Twitter. Der Konsument bekommt damit einen direkten Einfluss auf die Entwicklung der Produkte – einen viel direkteren Einfluss als zu Zeiten der Leserbriefe. Für die Firmen (Hotelanbieter, Autoren, Produzenten, …) liegt darin eine große Chance, mehr darüber zu erfahren, was ihren Kunden wichtig ist und was sie stört. Damit kann viel schneller reagiert werden, wenn z.B. mal etwas schiefgeht, ein neues Design nicht ankommt, eine Marketingkampagne danebengeht oder ein Produkt nicht funktioniert wie es soll. Das geht aber nur, wenn sie die Information aus den Meinungsäußerungen der Kunden schnell extrahieren können, was bei größeren Datenmengen nur mit automatischen Verfahren möglich ist. Solche Verfahren gibt es seit längerer Zeit schon für die englische Sprache. In den letzten Jahren werden aber auch für die deutsche Sprache verstärkt Softwarelösungen angeboten, die helfen, automatisch Meinungen aus den Texten der Kunden zu extrahieren.

Mit zunehmender Relevanz der Kundenmeinungen für Konsumenten und Erzeuger steigt jedoch auch die Anzahl der Manipulationsversuche. Schätzungen sprechen davon, dass 20-30% der Beiträge in Foren gefälscht sind. Das sind zumeist gekaufte Rezensionen. Fake-Bewertungen haben sich zu einem eigenen Geschäftsmodell entwickelt. Es gibt Plattformen und Anbieter für gekaufte Reviews. Da die Glaubwürdigkeit der Online-Portale unter den Manipulationen leidet, gehen ihre Betreiber mittlerweile gegen „Opinion Spam“ vor. Nichtsdestotrotz findet man sehr schnell eine große Menge von offensichtlichen Fakes, wie eine Analyse des deutschen Amazon-Portals mit Studierenden an der Hochschule Darmstadt zeigte.

Wir haben es hier also mit einem gesellschaftlich und ökonomisch wichtigen Problem zu tun. WissenschaftlerInnen arbeiten daher an Methoden, um den Erkennungsprozess von Opinion Spam durch automatische Methoden zu unterstützen.
________________________________________________________________________

Erkennen von Opinion Spam.
________________________________________________________________________

Die Datenbasis für die Erkennungsmethoden umfasst neben dem eigentlichen Text die Entität, die bewertet wird, den bewerteten Aspekt dieser Entität, die Meinung dazu, den Rezensenten und den Zeitpunkt des Reviews. Die Erkennung von Opinion Spam ist damit eine klassische Klassifikationsaufgabe, die Dokumente (Bewertungen) als gefälscht oder als nicht gefälscht klassifizieren soll.

So sieht man sich zunächst das Verhalten der Rezensenten an. Rezensenten, die ausschließlich positive Bewertungen in großer Menge abgeben, sind ebenso verdächtig wie Rezensenten, die viele Bewertungen in einer sehr kurzen Zeit abgeben. In einigen Fällen hat ein einzelner Rezensent an einem Tag fünfzig sehr verschiedene Produkte bewertet, allen fünf Sterne gegeben und bei allen denselben nichtssagenden Text geschrieben. Auch der Zeitpunkt des Reviews kann eine Rolle spielen. Agenturen, in denen gefälschte Reviews geschrieben werden, arbeiten an Wochentagen, während echte Reviews, beispielsweise zu Restaurantbewertungen, eher am Wochenende entstehen.

Der nächste Fokus ist auf das Produkt selbst gerichtet: Das plötzliche Auftreten von vielen Bewertungen zu einem Produkt, das schon länger auf dem Markt ist, ist verdächtig, vor allem wenn sich damit plötzlich die durchschnittliche Meinung ändert.

Schließlich der Fokus auf den Text an sich: Die Fake-Rezensenten müssen meist in kurzer Zeit viele Rezensionen schreiben. Daher verwenden sie Texte, die wenig über ein Produkt aussagen und wenden diese auf unterschiedliche Produkte an.

Ein Beispiel:

„Wie beschrieben. Alles OK. Keine Beanstandungen. Gute Qualität. Preis Leistung auch OK. Günstiger als im Laden und genauso gut. Würde ich weiterempfehlen.“

Linguistische Hinweise auf Detail-Genauigkeit, bzw. -ungenauigkeit helfen hier, die Texte zu identifizieren.

Prof. Melanie Siegel: Eine erfolgreiche Bekämpfung von Opinion Spam ist möglich.

________________________________________________________________________

Aufbau eines deutschsprachigen Korpus mit gefälschten Bewertungen.
________________________________________________________________________

Für automatische Verfahren ist es jedoch zunächst notwendig, einen annotierten Textkorpus zu erstellen, bei dem von Hand und mit mehreren Annotatoren gleichzeitig Opinion-Spam-Texte zusammengestellt werden. Dieser Korpus dient zunächst zur Evaluation der Methoden und kann – wenn er groß genug ist – auch für automatische Lernmethoden verwendet werden. An der Hochschule Darmstadt wurde damit begonnen, einen solchen Korpus zu erstellen.

Erste Beobachtungen auf dem deutschen Amazon-Portal zeigen, dass Forschungsergebnisse für das Englische und Chinesische zum Teil auf das Deutsche übertragbar sind und es möglich sein wird, automatische Erkennungsmethoden zu entwickeln.

Im deutschen Amazon-Portal scheint der Shop nicht ausschlaggebend zu sein. Wenn wir eine gefälschte Bewertung gefunden und weitere Bewertungen zu Produkten im selben Shop analysiert haben, so haben wir nur sehr selten weitere gefälschte Bewertungen gefunden. Es müsste somit untersucht werden, ob eher die Herstellerfirma (z.B. im Fall von technischen Geräten) oder der Autor, Komponist oder ein anderer Urheber Opinion Spam in Auftrag geben. In einer weiteren Untersuchung sollte diese Information in das Korpus mit aufgenommen werden.

Wie auch die Wissenschaftler für den englischen Sprachraum feststellen, haben wir häufig verdächtige Reviewer gefunden, die denselben Text am selben Datum für verschiedene Produkte verwenden. Dies ist auch ein Ansatzpunkt für eine Erweiterung des Korpus, denn weitere Bewertungen von notorischen Spammern können damit aufgenommen werden.

Das Datum scheint eine Rolle zu spielen, etwa wenn es direkt nach Erscheinen einer CD sehr viele positive Reviews innerhalb weniger Tage gibt und später dann in erster Linie negative. Wir konnten feststellen, dass die Spammer meist an Wochentagen und nur in Ausnahmefällen an Wochenenden agieren. Es sind nur 25 der gefälschten Bewertungen am Wochenende entstanden und 75 an einem Wochentag.

Anders als in der Literatur zum englischen Sprachraum festgestellt, handelt es sich bei den gefälschten Bewertungen im deutschen Amazon-Portal oft um verifizierten Kauf, im Korpus in 84 Fällen von 100. Dies deutet auf eine gewisse Professionalität der Spammer hin, die entweder direkt von den Shops oder Herstellern beauftragt werden oder die Produkte bestellen und danach zurücksenden. Jedenfalls scheint für das deutsche Amazon-Portal die Methode des Aufbaus eines Korpus mit nicht verifizierten Käufen nicht zu funktionieren.

Die Texte – gerade wenn sie von Spammern mehrfach verwendet werden – sind wenig konkret, z.B.:

„Alles bestens und schnell wie immer gelaufen – würde ich immer wieder wiederholen. Die Ware ist OK“,

„also die lieferung ist schnell und unkompliziert. die ware ist top und es gibt keine beanstandungen. da würde ich wieder bestellen. :-)“.

Häufig beziehen sich die Spammer auf die Lieferung, wie im oben genannten Beispiel, und nicht auf das Produkt selbst, da sie dann für jedes Produkt eine eigene Bewertung schreiben müssen. Manche versuchen jedoch, auch diesen Prozess zu automatisieren, was im folgenden Fall schiefgegangen ist, weil die Variablen im Text geblieben sind:

„Ich kann das oben angegebene Produkt $article_name vorbehaltlos empfehlen. Als ich $article_medium endlich erwerben konnte, war ich mehr als positiv überrascht. Ich werde auch in Zukunft $article_name immer wieder konsumieren und habe gleich noch einmal zugegriffen, da auch der Preis $article_price für das Produkt $article_name sehr gut ist. Ich freue mich schon auf weitere sehr gute Angebote von $article_manufacturer.“

Gefälschte Texte sind im Durchschnitt kürzer als echte Bewertungen (27,5 Wörter pro Bewertung). Viele Spammer reagieren auf die Anforderungen von Amazon nach einer Mindestlänge eines Reviews von zwanzig Wörtern mit Tricks wie sinnlose Sätze, Wiederholungen und Wörtern mit Leerzeichen zwischen den Buchstaben:

„alles war gut, ich habe leider keine weitere Lust noch mehr dazu zu schreiben mit recht freundlichen grüßen danke !!!“

„gefällt mir, sieht gut aus, ist sehr praktisch, einfach gut, gefällt mir, sieht gut aus, ist sehr praktisch, einfach gut, gefällt mir, sieht gut aus, ist sehr praktisch, einfach gut“

„Hab den Anhänger damals für ne Freundin bestellt – hat Ihr gefallen – e m p f e h l e n s w e r t“

Eine automatische Klassifikation als gefälschte Bewertung erscheint mit maschinellen Lernverfahren also insgesamt als möglich, sobald das Korpus deutlich erweitert wird und ein Vergleichskorpus mit echten Bewertungen aufgebaut worden ist.

________________________________________________________________________

Das Fazit.
________________________________________________________________________

Meinungen über Produkte, Reisen, Filme, Bücher, Dienstleistungen und vieles mehr werden heutzutage in unzähligen Foren geäußert. Es ist üblich, sich die Meinung der anderen Kunden durchzulesen, bevor man etwas kauft oder eine Dienstleistung in Anspruch nimmt. Unternehmen nutzen diese Information, um sich auf Kundenwünsche einzustellen oder Missstände schnell zu beheben.

Unter den Reviewern tummeln sich aber vermehrt Fälscher. Ähnlich wie bei E-Mail-Spam geht das vom kleinen Betrug mit gefälschten Meinungsäußerungen bis hin zu kriminellen Machenschaften.

In diesem Beitrag wurde im ersten Schritt die Information vorgestellt, die für die Identifikation von gefälschten Bewertungen zur Verfügung steht. Neben dem Text und seiner Überschrift haben wir Metadaten wie z.B. das Datum des Postings und Produktinformationen wie z.B. den Verkaufsrang.

Für automatische Klassifikationsmethoden wird ein Textkorpus mit deutschsprachigen gefälschten Bewertungen benötigt, das wir an der Hochschule Darmstadt begonnen haben zu entwickeln.

Letztlich hängt die weitere Entwicklung der Kundenbeteiligung davon ab, ob es gelingt, Opinion Spam automatisch zu extrahieren. Wenn es nicht schon seit mindestens zehn Jahren gute E-Mail-Spam-Filter gäbe, würde wahrscheinlich heute niemand mehr E-Mails versenden oder lesen. Es ist höchste Zeit, das Problem auch für Opinion Spam anzugehen.

Prof. Dr. Melanie Siegel lehrt und forscht an der Hochschule Darmstadt.

Anzeige

FAQ + Hilfe

Was ist das Open Password Archiv?

Das Open Password Archiv ist eine digitale Sammlung von über 1.100 Artikeln und Ausgaben des ehemaligen Newsletters „Open Password“ aus der Publikation “Password Online”. Diese Publikation, die von 1986 bis 2015 als Print-Ausgabe erschien, diente als zentrale Informationsquelle für Fachleute in der Informationsbranche.

Im Archiv des 2016 gestarteten Pushdienstes finden Sie tiefgreifende Analysen, exklusive Geschichten und redaktionelle Beiträge, die wichtige Entwicklungen und Trends in verschiedenen Sektoren wie Finanzen, IT und Pharma beleuchten. Das Archiv ist online zugänglich und bietet eine wertvolle Ressource für Forscher, Information Professionals und alle, die an der Geschichte und den Entwicklungen der Informationsbranche interessiert sind.

Eine noch ausführlichere Zusammenfassung zu Open Password wurde vom ehemaligen Herausgeber Dr. Wilhelm Heinrich Bredemeier verfasst.

Wo ist das Archiv und die Beiträge zu finden?

Sie können über die Kopfzeile die einzelnen Jahre per Klick ansteuern. Hierzu einfach auf die passende Jahreszahl klicken (siehe Pfeile)

Nach dem Klick auf die jeweilige Jahreszahl gelangen sie auf die Titelliste des jeweiligen Jahres. Hier dann auf den gewünschten Titel klicken. (Siehe Pfeile)

Wir sind bemüht die Beiträge schnellstmöglich in das Archiv zu übernehmen. Falls ein Beitrag per Klick nicht erreichbar ist zählen wir diese Klicks aus. Sie können aber auf der jeweiligen Seite die beschleunigte Einbindung auswählen.

Was ist die GPT KI-Suche?

Die Beiträge von Open Password von 2016 bis 2022 sind seit dem 18.11 2023 über ChatGPT recherchierbar.

Was bedeutet dies konkret? Wir haben alle Beiträge als Wissensbasis über Chat GPT auswertbar gemacht. Wenn Sie ein ChatGPT Plus Nutzer sind und Zugriff auf ChatGPT 4.0 haben, so steht Ihnen das Open Password Archiv dort zur Verfügung.

Mit der Auswertung per KI Abfrage stehen ihnen unendliche Möglichkeiten zur Verfügung. Sie können Themen suchen, Fachbegriffe zusammenfassen und erläutern lassen. Hier geht es zum GPT des Open Password Archiv.

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Wir haben alle Pushdienste (Beiträge) der letzten Jahre als PDF vorliegen. Hier sind entsprechende Abbildungen und Bilder enthalten. Die PDFs zu den Pushdiensten werden ebenfalls Schritt für als Link mit in die Beiträge angelegt.

Kann man einen Beitrag der fehlt anfordern?

Wir sind bemüht Beiträge nach denen einen hohe Nachfrage besteht in der Anlage vorzuziehen. Hierfür werten wir die Zugriffe auf die Titellisten und die Klicks auf Beiträge regelmässig aus.

Beitrage die als Material benötigt werden, aber noch nicht im Archiv eingebunden sind können wie folgt angefordert werden.

1. Klicken sie auf den Beitrag aus der Titelliste
2. Füllen sie das Formular aus und fragen sie eine bevorzugte Einbindung an

Wir ziehen die Einbindung vor und senden eine Benachrichtigung sobald der Beitrag eingebunden wurde.

Übersicht Ausgaben | 2024 | 2022 | 2021 | 2020 | 2019 | 2018 | 2017 | 2016 | GPT KI Suche | Podcast | Über das Archiv
Print Archiv | 2016 | 2015 | 2014 | 2013 | 2012 | 2011 | 2010 | 2009 | 2008 | 2007 | 2006 | 2005 | 2004 | 2003 | 2002 | 2001 | 2000

information is our mission
KONTAKT

Archiv & Touchpoint

Was ist das Open Password Archiv?

Wo ist das Archiv und die Beiträge zu finden?

Was ist die GPT KI-Suche?

Bilder & Charts fehlen in den Beiträgen - wo kann man diese abrufen?

Kann man einen Beitrag der fehlt anfordern?