Content

Fabienne Marco, Simon Hegelich, Linda Sauer, Orestis Papakyriakopoulos, Algorithmen gegen politischen Sexismus. Machine Learning als Anstoß zum gesellschaftlichen Umdenken in:

Andreas Schäfer, David Meiering (Ed.)

(Ent-)Politisierung?, page 279 - 306

Die demokratische Gesellschaft im 21. Jahrhundert

1. Edition 2020, ISBN print: 978-3-8487-6301-6, ISBN online: 978-3-7489-0407-6, https://doi.org/10.5771/9783748904076-279

Bibliographic information
Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos Algorithmen gegen politischen Sexismus. Machine Learning als Anstoß zum gesellschaftlichen Umdenken Der digitale Transformationsprozess, in dem wir uns gegenwärtig befinden, ver- ändert unsere Lebenswelt insbesondere durch seine neuen Informations- und Kommunikationsstrukturen auf radikale Weise. Einen der massivsten Umbrüche erfährt dabei die politische Öffentlichkeit, die heute zunehmend auf sozialen Plattformen stattfindet und insofern für Politisierungsprozesse immer entscheidender wird. Für die Sozialwissenschaften entstehen dadurch neue theoretische und empirische Schwierigkeiten: Die großen Datenmengen, die in sozialen Medien erzeugt werden, lassen sich nicht ohne automatische Verfahren auswerten. Gleichzeitig ist aber fraglich, ob Methoden aus dem Bereich des maschinellen Lernens komplexe sozialwissenschaftliche Kategorien adäquat erfassen können. Am Beispiel des politischen Sexismus in Facebook-Kommentaren wollen wir im Folgenden aufzeigen, dass moderne Verfahren hier einen vielversprechenden Weg für die Sozialwissenschaften eröffnen, mit dem allerdings auch neue Schwierigkeiten und Herausforderungen verbunden sind. Positive und negative Politisierung: Politische Öffentlichkeit in sozialen Medien Plattformen wie Facebook, Twitter & Co, die ursprünglich für private Inhalte und Zwecke konzipiert wurden, werden zunehmend genutzt, um sich über politische Inhalte zu informieren und selbst politische Botschaften und Kommentare zu senden. Die inhaltliche Politisierung dieser Netzwerke impliziert einen revolutionären Wandel nicht nur des Informationsverbreitungsprozesses, sondern auch der Kommunikationsstrukturen: Sie verlaufen nicht mehr asymmetrisch wie in der klassischen Sender-Empfänger-Ära, sondern symmetrisch. Informationen werden von Nutzer*innen nicht nur passiv konsumiert, sondern selbst aktiv generiert. Jede*r ist gleichzeitig Sender*in und Empfänger*in, Konsument*in und Produzent*in von Informationen, Meinungen und Einschätzungen.1 Neben diese veränderte Sender-Empfänger-Struktur tritt eine neue Form der Verbreitung der Inhalte: Welche Meldung welcher Nutzer*in angezeigt wird, ist abhängig von der Interaktion anderer Nutzer*innen mit dieser Nachricht. Das Konsumieren von Nachrichten, vor allem aber auch das Kommentieren, Liken und Teilen, wird somit selbst zu einer politischen Betätigung, sofern die für die Distribution der Inhalte verantwortlichen Algorithmen auf diese Signale reagieren. Informationen werden dadurch nicht nur immer stärker vom persönlichen wie sozialen Umgang, Gebrauch und Austausch abhängig; sie sind gleichzeitig auch von der Form ihres Mediums 1. 1 Vgl. Han 2013, S. 10. Leviathan, 48. Jg., Sonderband 35/2020, S. 279 – 306 abhängig, werden durch dieses geprägt und lassen damit das Medium in seiner Funktion und praktischen Anwendung bereits selbst zur (politischen) Botschaft werden.2 Politische Diskursräume sind in der Demokratie maßgebend für die Bildung einer pluralistischen und kritischen Öffentlichkeit, die von unterschiedlichen Standpunkten zeugt und sich dabei dennoch auf wesentliche liberale Grundwerte und Grundrechte stützt: die der individuellen Freiheit, der politischen Gleichberechtigung sowie der Gleichwertigkeit von Interessen, Ansichten und Teilhabe.3 Wo Diskursräume einseitig gefärbt sind, mit Stereotypen behaftet werden und bestimmte gesellschaftliche Gruppen aufgrund ihres Geschlechts, ihrer Herkunft oder ihrer Hautfarbe in ihren Mitwirkungsrechten einschränken und von politischer Teilhabe ausgrenzen, dort ist der deliberative Prozess in seinen liberalen Geltungsansprüchen gefährdet und dort wird schließlich auch der demokratische Nährboden durch Diskriminierung, Radikalisierung und Polarisierung korrumpierbar. Dabei erleben wir gerade heute, im Zeitalter der digitalen Information und Kommunikation, die Chancen wie Gefährdungen der politischen Plattform-Öffentlichkeit. Auf der einen Seite lässt sich eine positive Politisierung durch die Öffnung der politischen Diskursräume feststellen, in denen sich die Partizipationsund Diskussionsmöglichkeiten ausweiten: Diskursräume haben sich in den letzten Jahren vervielfacht, was neue politische Akteur*innen hervorgebracht und dabei auch neue politische Agenden und Inhalte ermöglicht hat. So können durch die Netzwerkstrukturen Gruppen und Interessen am öffentlichen Geschehen anteilig werden, die vorher noch keine Stimme hatten. Und mit ihnen kommen Standpunkte und Ansichten zum Vorschein, die vorher keine Beachtung fanden, sondern erst durch ihre Offenlegung einen politischen Stellenwert erhalten. Ein prägnantes Beispiel hierfür ist die #metoo-Bewegung, die durch einen Twitter-Hashtag initiiert wurde und innerhalb weniger Stunden mehrere tausend Likes und Posts erhielt. Das Thema konnte sich damit schnell weiterverbreiten, konnte diskutiert und kommentiert werden und dadurch einen globalen Aktionsradius gegen Sexismus, sexuelle Belästigung und geschlechts-diskriminierendes Verhalten in Gang setzen.4 Hier zeigt sich, wie sich soziale Medien nutzen lassen, um auf gesellschaftliche Graubereiche hinzuweisen und die Bevölkerung stärker für Probleme zu sensibilisieren, die einer breiten öffentlichen Diskussion bedürfen. So können Themen zur gesellschaftlichen Agenda werden, die vorher noch keine etablierte Lobby hatten und erst durch die digitalen Diskursräume einen politischen Resonanzboden erhalten. Doch gibt es auch eine Kehrseite innerhalb der digitalen Diskurslandschaft: Gerade der symmetrisch verlaufende Kommunikations- und Informationsprozess, den wir gegenwärtig erleben, setzt der politischen Informationsgewinnung, -dar- 2 Vgl. McLuhan 1964. 3 Vgl. Arendt 2010, S. 71 ff. 4 Vgl. Zeit Online 2019a. 280 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos stellung und -verbreitung keine Grenzen mehr. Die klassischen Gatekeeper, ehemals noch repräsentiert durch die großen Medienanstalten, durch öffentliche Rundfunkkanäle und renommierte Tageszeitungen, fallen zunehmend weg.5 Diese jedoch waren maßgeblich für die mediale Verbreitung und inhaltliche Darstellung verantwortlich und gaben damit nicht nur das Themensetting für die politische Öffentlichkeit vor, sondern stellten zugleich auch entsprechende Beurteilungsmaßstäbe, Analysehilfen und Interpretationslinien zur Verfügung. Wo sich derartige Filter auflösen, dort werden auch politische Orientierungsmuster hinfällig. Subjektive Stimmungslagen können sich heute ungefiltert verbreiten, können dabei auch verzerrt werden und zu einer ebensolchen Verzerrung in der Wahrnehmung der politischen Öffentlichkeit führen.6 Und dies wiederum hat negative Politisierungseffekte zur Folge, sofern bestimmte Einschätzungen zwar oftmals nur partielle Meinungen repräsentieren, durch die expansiven Verbreitungsmöglichkeiten der digitalen Netzwerkstrukturen jedoch schnell den Eindruck vermitteln können, dass sie eine gesamtgesellschaftliche Atmosphäre widerspiegeln.7 Anstelle eines herrschaftsfreien Diskurses können so auch Nachrichten massenhaft verbreitet werden, die zu einer Einschüchterung der Nutzer*innen führen. Sexismus in Online-Diskussionen ist ein Beispiel für eine solch negative Politisierung, weil zu befürchten ist, dass Opfer von Sexismus aus dem Diskurs aussteigen und in diesem Sinne entpolitisiert werden. Dadurch wird ihre Teilnahme an den neuen Formen politischer Diskurse zurückgedrängt. Gleichzeitig erhalten sexistische Stimmen damit ein entsprechend größeres Gewicht und werden stärker in der algorithmischen Distribution der Inhalte berücksichtigt. Dadurch kann ein sich selbst verstärkender Effekt der Depolitisierung entstehen, der letztlich dazu führt, dass negative Politisierung überwiegt und nur eine laute Minderheit den Diskurs bestimmt. Der folgende Beitrag beschäftigt sich mit dem Phänomen des Sexismus als Negativfolie politischer Diskursführung und stellt dabei insbesondere quantitative Methoden zu dessen Offenlegung vor. Denn gerade die Quantität, mit der politische Diskurse auf Social Media geführt und verbreitet werden, erlaubt eine Analyse nur noch auf Basis maschineller Verfahren. Im Bereich des maschinellen Lernens sind unter dem Stichwort »Deep Learning« in den letzten Jahren neue Ansätze entwickelt worden, denen ein hohes Potential für eine automatische Textanalyse zugesprochen wird. Gleichzeitig stellt sich dabei die Frage, ob mathematische Modelle allgemeingültige Beurteilungsmaßstäbe zur Verfügung stellen, um Sexismus in seinen komplexen und kontextabhängigen Erscheinungsformen identifizieren und entsprechend bewerten zu können. Um diese interdisziplinäre Frage zu beantworten, bringen wir Ansätze und Methoden aus den Sozialwissenschaften und den Technik- bzw. Computerwissenschaften zusammen. 5 Vgl. Faus, Hartl 2018. 6 Vgl. Hegelich, Shahrezaye 2017. 7 Vgl. Papakyriakopoulos et al. 2017. Algorithmen gegen politischen Sexismus 281 Leviathan, 48. Jg., Sonderband 35/2020 So soll am Beispiel von Sexismus gezeigt werden, wie eine Operationalisierung komplexer, gesellschaftlich relevanter Phänomene ermöglicht werden kann. Diesbezüglich beschäftigt sich der erste Teil mit der aktuellen Forschung zum Thema Sexismus im öffentlichen Diskurs und stellt eine mögliche Begriffsoperationalisierung insbesondere unter Berücksichtigung der Besonderheiten sozialer Plattformen dar. Fokussiert wird dabei auch die Relevanz des Themas im Hinblick auf die fortschreitende Politisierung der Plattformen, insbesondere auch in Hinblick auf die disruptiven Veränderungen innerhalb der politischen Kommunikation und Öffentlichkeit. Schließlich werden die darauf aufbauenden Ergebnisse vorgestellt, um abschließend der Frage nachzugehen, inwieweit sich Sexismus mittels technischer Modelle erkennen und klassifizieren sowie künftig regulieren und reduzieren lässt. Begriffsoperationalisierung durch den modernen Sexismus-Diskurs Das Phänomen ›Sexismus‹ ist heute verstärkt zum Gegenstand politischer Diskussionen geworden und hat dementsprechend auch im sozialen und kulturellen Bereich an Bedeutung gewonnen. Bisherige Forschungsarbeiten zum Thema Sexismus konzentrierten sich überwiegend auf allgemeine Analysen sexistischer Sprache, fokussierten generelle Auswirkungen von geschlechterdiskriminierender Sprache8 und richteten ihr Augenmerk auf die Identifizierung von sogenannten Gender-Bias.9 Andere Studien untersuchten das Thema ›Hate-Speech‹ in seinen allgemeinen Erscheinungsformen und analysierten dessen Verwendung wie auch die damit verbundenen Folgen, ohne jedoch eine bestimmte Spielart näher zu betrachten.10 Einige Studien versuchten darüber hinaus sowohl auf theoretischer wie auch auf empirisch-technischer Basis die Erkennung von diskriminierender Sprache zu modellieren.11 Hierbei sind die Methoden, die viele Modelle verwenden, häufig ineffizient sowie auch einfachen Methoden des Deep Learnings unterlegen. Zimmerman et al. zeigen beispielsweise, dass eine häufig genutzte Methode, die Einteilung in ›Hate-Speech‹ lediglich auf Basis des Sentiment-Scores, bereits von einfachen Methoden des Deep Learnings übertroffen wird, wenn man gängige statistische Maße zur Evaluation heranzieht.12 Das bislang effektivste Modell einer solchen Hate-Speech-Klassifikation ist ein zweistufiger Klassifikationsalgorithmus, der auf Basis von Twitter-Kommentaren entwickelt wurde.13 Insgesamt lässt sich eine deutliche Tendenz zur Nutzung von Twitter-Daten feststellen.14 2. 8 Vgl. Cameron 2016. 9 Vgl. Menegatti, Rubini 2017. 10 Vgl. Benoit 1995; Forster 2015. 11 Vgl. Dinakar et al. 2011. 12 Vgl. Zimmerman et al. 2018. 13 Vgl. Park, Fung 2017. 14 Vgl. Gambäck, Sikdar 2017; Badjatiya 2017. 282 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos Doch hat sich die Forschung bislang zum einen eher allgemein mit dem Phänomen ›Hate-Speech‹ befasst und basiert zum anderen entweder auf qualitativen oder auf quantitativen Analysen, die allerdings auf sehr geringen Datenmengen beruhen.15 Insofern ist die Bereitstellung eines Datensatzes, der groß genug ist, um quantitative Analysen durchzuführen und dessen Klassifikation auf klaren, eindeutig bestimmbaren und reproduzierbaren Regeln basiert, unabdingbar. Aber wie lassen sich klare Regeln bestimmen, die ein abstraktes Konzept auf kurze Kommentare in einer virtuellen Plattform übertragen? Die folgenden Absätze stellen eine mögliche Operationalisierung des Sexismus-Begriffes, der in fünf Kategorien unterteilt wird, vor. Diese Definition umfasst dabei verschiedene Ausprägungen des Begriffs. Zunächst wird eine eher allgemeine und offene Definition von Sexismus vorgestellt, um anschließend die für eine entsprechende Operationalisierung relevanten Konzepte darzulegen, insbesondere jene, die sich mit zwei maßgeblichen Forschungsfragen beschäftigen: zum einen mit der Frage, inwieweit Maschinen komplexe Konzepte wie Sexismus ermitteln können; zum anderen mit der Frage, inwieweit sich mittels Algorithmen negative Politisierungseffekte im politischen Diskurs, wie bspw. Hate-Speech und Sexismus, eindämmen und entsprechend regulieren lassen. Daraufhin werden im Anschluss die aus den beiden Konzepten des traditionellen Sexismus und modernen Sexismus hervorgehenden Regeln abgeleitet. Die beiden Sexismus-Konzepte sollen im Folgenden zunächst knapp vorgestellt werden. Das English Oxford Dictionary bezeichnet Sexismus als »Prejudice, stereotyping, or discrimination, typically against women, by sex«.16 Diese Definition ist sehr weitläufig und bietet einen großen Interpretationsspielraum. Sie umfasst Vorurteile, Stereotype und Diskriminierung und geht darauf ein, dass Sexismus zwar typischerweise Frauen entgegengebracht wird, sich aber nicht allein auf Frauen beschränken muss. Festzuhalten ist hierbei, dass die Definition selbst historisch bedingt ist, insofern also auch unterschiedlichen Bedeutungen unterliegt. Der Begriff hat über Jahrzehnte hinweg eine Weiterentwicklung durch Simone de Beauvoir17 bis hin zu einer völligen Dekonstruktion durch Judith Butler18 oder Paula-Irene Villa19 erfahren. Verschiedene historische Ereignisse markieren unterschiedliche Perioden, welche sich in der Begriffsentwicklung widerspiegeln (Postkolonialismus, Subjektivität, Rassismus und Geschlecht). Hier sind insbesondere die Frauenbewegungen, das Wahlrecht für Frauen – in Südafrika beispielsweise sind Frauen erst seit 1994 wahlberechtigt20 – und der Wandel traditioneller Herrschaftskonzepte zu nennen, die wiederum die feministische Literatur beeinflusst haben und dabei auch neue Formen von Macht, Geschlecht und Rollenstereoty- 15 Vgl. Waseem 2016. 16 Vgl. English Oxford Dictionary 2019. 17 Vgl. Kruks 2012. 18 Vgl. Butler 2012. 19 Vgl. Villa 2009. 20 Vgl. Daley, Nolan 1994, S. 352. Algorithmen gegen politischen Sexismus 283 Leviathan, 48. Jg., Sonderband 35/2020 pen diskutieren. Jede Veränderung der Begrifflichkeiten ›Geschlecht‹, ›sex‹ oder ›gender‹ führt zwangsläufig auch zu einer veränderten Wahrnehmung der Begrifflichkeit ›Sexismus‹. Hieraus begründet sich auch die Relevanz von Autor*innen wie Judith Butler für die Entwicklung des Begriffs Sexismus und seine Operationalisierung. Trotz veränderter Wertvorstellungen und neuer Partizipationsmöglichkeiten ist das Phänomen Sexismus längst nicht überwunden, sondern führt gerade durch den disruptiven Wandel in der Kommunikation zu dessen Wiederaufleben, wenn auch komplexer und zum Teil latenter. Dieser Wandel vom biologischen Geschlecht hin zum soziokulturellen Geschlecht findet sich auch in den Operationalisierungskategorien wieder. Der Begriff des Sexismus, dies muss an dieser Stelle wiederholt werden, ist durch den oben beschriebenen Wandel geprägt und befindet sich in ständiger Transformation. Hierbei entwickeln sich immer wieder neue Facetten und Strömungen. Bei der Wahl der Operationalisierungskategorien wurde der historische Verlauf berücksichtigt und eine Auswahl aus den verschiedenen Begrifflichkeiten der Hauptströmungen identifiziert. Während die Kategorien 1, 3 und 4 eher den traditionellen Begriff von Sexismus widerspiegeln, beinhalten die Kategorien 2 und 5 den ambivalenten bzw. modernen Sexismusbegriff. Insbesondere Kategorie 4, die antifeministische Äußerungen aufgreift, behandelt die Thematik einer strukturellen Parallele zwischen Feminismus und Rassismus: darin enthalten sind sämtliche Kommentare, die sich auf Geschlechterund Rassenstereotype beziehen und dabei insbesondere auf kulturelle Befindlichkeiten zielen. Sie ist insofern weder dem traditionellen noch dem modernen Sexismus zuordbar.21 Bei der Operationalisierung des Begriffes zu Zwecken des Classifiers war es insbesondere wichtig, die Besonderheiten der Daten zu berücksichtigen. Zunächst handelt es sich um die Analyse von Daten aus den sozialen Medien (Facebook). Hierbei gilt es zu beachten, dass in sozialen Medien verschiedene Generationen und Kulturen involviert sind und der hier verwendete Sexismusbegriff natürlich nur auf den deutschen, sich ebenfalls stark verändernden kulturellen Kontext angewendet werden kann.22 Ferner ist die Kommunikation sprachlich basiert und wird daher unabhängig von Gestik und Mimik analysiert. Bei der Erforschung sexistischer Sprache geht es insbesondere darum, festzustellen, wie sich Sexismus semantisch und grammatikalisch ausdrückt. Im Deutschen ist dies beispielsweise die Wahl der Pluralform oder der Gebrauch von Kosewörtern, die auf verhöhnende Weise auf die traditionelle Mutterrolle der Frau anspielen.23 In Kategorie 1 beispielsweise befinden sich diejenigen Kommentare, die den Begriff »Mutti Merkel« beinhalten. Die Sprachwissenschaften unterscheiden generell drei verschiedene Sprachtypen in Bezug auf Gender und Sexualität: Genderlose Sprachen, natürliche Gendersprachen und grammatikalische Gendersprachen.24 Deutsch ist eine gram- 21 Vgl. Boshammer 2008; Schäfer 2012. 22 Vgl. Gutiérrez Rodriguez 2003. 23 Vgl. Menegatti, Rubini 2017. 24 Ebd. 284 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos matikalische Gendersprache und deshalb gender-biased. Jedes Nomen hat einen zugehörigen Artikel (der, die, das), der das Geschlecht des Nomens eindeutig bestimmt. Hinzu kommt, dass häufig zur Bildung der weiblichen Form die männliche Form als Wortstamm herangezogen wird. Die weibliche Form ist also von der männlichen Form abgeleitet. Sofern nicht im Nebensatz ein Ausschluss von Frauen oder die Betonung traditionell maskuliner Eigenschaften mit der Verwendung einhergehen, lassen sich eine korrekte und vermeintlich genderneutrale Verwendung des Plurals von einer Diskriminierung des weiblichen Geschlechtes – ob intendiert oder nicht – also nicht unterscheiden. Konkret bedeutet dies für die vorliegende Klassifikation, dass nicht alle Kommentare, die einen männlichen Plural enthalten, als sexistisch gewertet wurden, sondern nur solche, deren Kontext eine intendierte Diskriminierung nahelegten. Ähnliche Erwägungen gelten für Adjektive. Auch wenn Adjektive in gewissen Szenarien, beispielsweise bei der Beförderung, bei Frauen negativ und bei Männern positiv konnotiert sind, ist es nicht immer möglich, an Hand von Kommentaren zu entscheiden, ob eine geschlechterdiskriminierende Motivation Einfluss auf die Wahl der Adjektive hat. Zukünftige Forschungsprojekte müssen hierfür eine Lösung bereitstellen, um die Intention besser herausstellen zu können. Des Weiteren handelt es sich um Äußerungen, die alle auf Facebook-Seiten der Parteien getätigt wurden, also Seiten der Parteien25 selbst oder den Seiten parteipolitischer Persönlichkeiten,26 und daher Teil der politischen Kommunikation sind. Das Bild des Politikers, das über die Jahre entstand, ist bis heute männlich sexistisch geprägt. Kompetenz und Eigenschaften, aus denen Kompetenz abgeleitet wird, werden traditionell als männlich angesehen. Daraus folgt, dass gerade im politischen Bereich Komplimente, die andeuten, dass eine Frau oder ein Mann hübsch seien, die also körperliche Merkmale und phänotypische Betrachtungen einer Bewertung zu Grunde legen, sexistisch sind. In jedem Fall soll entweder durch die weibliche Charakterisierung die eigentliche Aussage oder die entsprechende Kompetenz untergraben werden. Das traditionelle Rollenbild des Politikers findet sich in Kategorie 1 (vgl. »Mutti Merkel«, »Flintenuschi«), in Kategorie 3 (insbesondere die stereotypische Befürwortung des »alten, weißen Mannes« durch Kommentare wie »Adenauer war wenigstens noch ein richtiger Politiker und Mann«27), in Kategorie 4 (»Eine Frau sollte eben keine Politik betreiben, wer braucht denn schon Feminismus«) sowie in Kategorie 2 »Komplimente« wieder. Für alle Kategorien sind jedoch drei Stereotype ausschlaggebend: das des Mannes, das der Frau und das des Politikers. Die folgenden Abschnitte stellen die Hauptkriterien der zwei Klassen des traditionellen und modernen Sexismus unter den bisher genannten Besonderheiten vor. 25 Vgl. zum Beispiel: Christlich-Soziale Union in Bayern e. V. 2020; Sozialdemokratische Partei Deutschlands (SPD) 2020. 26 Vgl. zum Beispiel: Blume 2020; Lindner 2020. 27 Die Kommentare der Nutzer sind hier zum Teil schematisch oder verkürzt dargestellt, um den Leser*innen mehr Klarheit zu bieten. Algorithmen gegen politischen Sexismus 285 Leviathan, 48. Jg., Sonderband 35/2020 Der Begriff Sexismus wurde erstmals im Jahre 1968 von Caroline Bird definiert. In der Zeitschrift Vital Speeches of the Day schreibt Bird: »There is recognition abroad that we are in many ways a sexist country. Sexism is judging people by their sex when sex doesn't matter. Sexism is intended to rhyme with racism. Women are sexists as often as men.«28 Die Kernthemen des Feminismus dieser Zeit betrafen vornehmlich die Missstände, denen gegenüber sich Frauen zu emanzipieren suchten, vor allem auch die Rollenzuweisung der Frau als ›Gebärmaschine‹, sorgende Mutter und treue Ehefrau, die keine eigenen Bedürfnisse, Ansprüche und Ziele haben darf. Die Reduktion auf eine solche Existenz implizierte auch die Minderwertigkeit gegenüber den Männern. Folglich zeichnet sich der traditionelle Sexismus dadurch aus, dass er eines der drei folgenden Kriterien erfüllt:29 1. Stereotypische Betonung der Geschlechterunterschiede 2. Betonung der Minderwertigkeit von Frauen (im Vergleich zu Männern) 3. Befürwortung traditioneller Rollenbilder Vereinfacht ausgedrückt beinhaltet der traditionelle Sexismus insbesondere die Stigmatisierung von Frauen. Hier geht es in der Regel um primären Sexismus, damit also um eine geschlechtsbezogene Stigmatisierung.30 Die traditionelle Form des Sexismus ist des Weiteren durch Hostilität und einen abwertenden Charakter gekennzeichnet. Diese sehr traditionelle Definition wurde immer wieder untersucht. Dabei hat sich herausgestellt, dass sich zwar die Haltung zu solchen Äußerungen verändert hat, nicht aber das stereotypische Bild der Geschlechter an sich. Die Geschlechterbilder und diese Strömung sind Veränderungen gegenüber resistent geblieben.31 Äußerungen dieser Spielart des Sexismus befinden sich hauptsächlich in den Kategorien 1, 3 und teilweise 4. Handelt es sich um feindliche oder stereotypisch geprägte Einzelbezeichnungen von Politiker*innen, so befinden sie sich in Kategorie 1. Sie umschließt beispielsweise Kommentare, die Angela Merkel mit »Mutti Merkel« betiteln oder Äußerungen wie »Schlampe«. In Kategorie 3 befindet sich insbesondere die Befürwortung traditioneller Rollenbilder wie »Frauen gehören wieder hinter den Herd« oder »Der hat einfach keine Eier«. Die angeführte Definition von traditionellem Sexismus greift das Befürworten hierarchischer Strukturen und festgelegter Rollenbilder auf. Diese Kategorie verwendet Stereotype implizit und bildet so gesehen eine Brücke zwischen dem traditionellen und dem modernen Sexismus. Sie beinhaltet den hostilen Charakter, das gesellschaftliche Korsett vergangener Zeiten, und befürwortet es, greift jedoch auf eine subtilere Art der Vermittlung, wie sie dem modernen Sexismus eigen ist, zurück. 28 Bird 1968, S. 88-91. 29 Vgl. Benokraitis, Feagin 1995. 30 Vgl. Warren 1993. 31 Vgl. Prentice, Carranza 2003. 286 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos In die Operationalisierung ist neben dem traditionellen Sexismusbegriff ebenfalls der moderne Sexismusbegriff eingegangen. Insbesondere Judith Butler dekonstruiert den Begriff ›Geschlecht‹ gänzlich und ersetzt ihn durch ›sexuelle Identität‹, wobei diese ebenfalls eine von der Gesellschaft künstlich geschaffene, also konstruierte und nicht biologisch fixierte Identität darstellt. Hier bestimmen insbesondere moderne Machtverhältnisse – eine Macht, die auf sanfte und ›gewaltfreie‹ Weise konditioniert – den Rahmen für den modernen, genderbasierten Feminismus.32 Judith Butler begreift das Geschlecht als rein gesellschaftlich konstruiert. Sie beschreibt die Ausbildung des Genders, also des geschlechtlichen Selbstverständnisses oder der sexuellen Identität, als von der Gesellschaft bewirkt. Männlich und weiblich sind demnach keine unausweichlichen Absolutheiten. Eine solche Theorie ist natürlich ungleich komplexer als die zuvor behandelte Klassifikation des traditionellen Sexismusbegriffs und bringt auch für die technische Operationalisierung des Begriffs Sexismus einige Schwierigkeiten mit sich: Denn hier sind generell nur geschlechtslose Äußerungen nicht-diskriminierend und nicht-sexistisch. Dies liegt in der sogenannten Gleichheitsthese begründet. Sie geht davon aus, dass zwischen den Geschlechtern ausschließlich gesellschaftlich induzierte Unterschiede bestehen, sodass jede geschlechterspezifische Äußerung per se sexistisch sei, da sie der Diversität der betroffenen Individuen nicht gerecht werde und insofern repressiv sei.33 Dennoch ist es möglich, die Idee einer sexuellen Identität sowie die Freiheit, diese selbst zu wählen, damit zu vereinbaren. Deshalb wurde bei der Erstellung des Datensatzes ›Sexismus‹ als Form jeglicher geschlechtlicher Diskriminierung (Männer, Frauen, Diverse) klassifiziert. Der Classifier schließt deshalb in Kategorie 5 insbesondere homophobe Kommentare mit ein.34 Eine weitere Kategorie, in der sich Geschlechtsmerkmale und Stereotype auf repressive Weise kenntlich machen, ist die Äußerung von Komplimenten. Besonders häufig wird dabei das Klischee der »schönen, dekorativen« Frau oder des »starken, attraktiven« Mannes verwendet. Sowohl in der Äußerung stereotyper Komplimente wie auch umgekehrt, in der bewussten Betonung, derartigen Attributen nicht zu genügen, finden sich sexistische Sentenzen. Die Verwendung von Komplimenten und die schwer zu fassende Spielart des Sexismus nennen Hark und Villa ambivalenten Sexismus, eine spezielle Variante des modernen Sexismus.35 Kategorie 2 schließt Komplimente mit ein, während Kategorie 3 die Kritik, nicht dem Stereotyp zu entsprechen, miteinbezieht. Eine solche, weitergehende Diversifizierung des Sexismusbegriffs wird insbesondere in sozialen Netzwerken nötig, um die vielen verschiedenen Spielarten des Sexismus aufzuzeigen und voneinander zu unterscheiden. Hierbei ist weniger die exakte Unterscheidung, also die Grenzsetzung selbst, sondern vielmehr das Verständnis und die Ak- 32 Vgl. Butler 2004. 33 Vgl. Boshammer 2008, S. 3. 34 Dies bedeutet ebenfalls ein Einschließen von »Anti-Transgender«-Kommentaren. 35 Vgl. Hark, Villa 2017. Algorithmen gegen politischen Sexismus 287 Leviathan, 48. Jg., Sonderband 35/2020 zeptanz des Vorhandenseins dieser verschiedenen Tendenzen und die daraus folgende Steigerung der Komplexität der technischen Umsetzung wichtig.36 Daten & Methode Kategorisierung von Sexismus Systematisiert man die in den vorigen Absätzen vorgestellten Konzepte, ergeben sich insgesamt die folgenden Typen von Sexismus, die in ihrer Gesamtheit den Begriff »Political Sexism in Social Media« repräsentieren und gleichfalls als Regeln zur Klassifikation für den Algorithmus dienen: Tabelle 1: Klassifizierungsregeln für Datensatz und Klassifizierungsalgorithmus Regel/Name der Regel Begründung Index Buzzwords Manche Buzzwords reduzieren Menschen auf ihr Geschlecht oder referieren ausschließlich das Geschlecht auf nette oder sarkastische Art und Weise. Beispiele sind »Flintenuschi«, »Mutti« und ähnliche Ausdrücke. 1 Komplimente Komplimente, die sich auf traditionell weibliche Attribute oder Adjektive beziehen, den Kleidungsstil bewundern sowie Komplimente, die Frauen beglückwünschen besonders männlich gehandelt zu haben und vice versa. 2 Traditionelle Rollenmodelle Alle Äußerungen, die traditionelle Rollen innerhalb der atomaren Familie propagieren oder eine traditionelle Rollenverteilung moralisierend äußern. 3 Anti-feministische Äußerungen Kommentare, die sich gegen Feminismus oder Gendergerechtigkeit aussprechen. Dies inkludiert Äußerungen, die Feminismus als überbewertet und unsinnig bezeichnen sowie feindliche und offensive Äußerungen in Bezug auf emanzipierte Frauen und Feministinnen. Beispiele: »Wir brauchen nicht noch mehr Feminismus« oder »Die ficken sich doch eh alle hoch« 4 Homophobe Kommentare Homophobe oder Anti-Transgender Kommentare 5 Das in Tabelle 1 dargestellte Bewertungsschema wurde nachfolgend auf knapp 100.000 Facebook-Kommentare mit politischem Inhalt angewendet, sowohl auf den Facebook-Seiten von Parteien wie auch auf den Facebook-Seiten einzelner Politiker*innen. Die Klassifizierung selbst erfolgte an Hand der zuvor vorgestellten Klassifikationsschemata durch eine Wissenschaftlerin. Der gesamte Klassifizierungsvorgang fand per Tonaufnahme statt und wurde anschließend in eine Tabelle übertragen. Hierbei wurde nicht nur die Erteilung des Labels, sondern auch die 2. 2.1 36 Vgl. Sharifirad, Matwin 2019. 288 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos Begründung für die Wahl des Labels akustisch erfasst, sowohl bei positiven wie auch bei strittigen Fällen. Durch die Tonaufnahmen wird erstens der Klassifizierungsprozess bewusster,37 wodurch auch die Qualität des Labelings steigt. Zweitens haben die Ausführungen gezeigt, dass es keinen widerspruchsfreien Begriff von Sexismus gibt. Durch die Tonaufnahmen kann diese Ambiguität im Labeling nachvollziehbar gemacht werden, auch wenn der Aufwand dadurch erhöht wird. Gleichzeitig ist durch diese Art der Klassifikation sichergestellt, dass die Ambiguität nicht durch verschiedene, subjektive Verständnisse der Regeln entsteht, sondern dem Begriff selbst innewohnt. Die Kommentare selbst stammen allesamt von den öffentlich zugänglichen Facebook-Seiten der Parteien sowie von den einzelnen Politiker*innen der jeweiligen Parteien. Dies bedeutet insbesondere, dass sich in den Daten keine Kommentare aus geschlossenen Gruppen oder privaten Korrespondenzen wiederfinden. Jeder Kommentar war zum Zeitpunkt des Downloads für jede Nutzer*in sichtbar.38 Da bereits beim Download die Daten der jeweiligen Partei oder der jeweiligen Politiker*in zugeordnet wurden, konnten auch die Kommentare entsprechend katalogisiert werden. Daraus ergibt sich ein Datensatz, der 98.000 Kommentare umfasst, von denen jeweils 12.000 mit je einer Partei (AfD, Bündnis 90/Die Grünen, CDU, CSU, FDP, DIE LINKE, SPD) assoziiert sind. Innerhalb des so ausgewerteten Datensatzes fanden sich insgesamt 2048 sexistische Kommentare, wobei sich die meisten Kommentare in Kategorie 1 befanden. Die genaue Aufteilung der sexistischen Kommentare lässt sich Tabelle 2 entnehmen. Tabelle 2: Verteilung des Sexismustyps (vgl. Tabelle 1) innerhalb der sexistischen Kommentare des Datensatzes. Buzzwords 954 Komplimente 255 Traditionelle Rollenmodelle 619 Anti-feministische Äußerungen 150 Homophobe Kommentare 70 Die Schaffung des vorgestellten Datensatzes ist erstmalig in seinem Umfang und seiner Thematik. Eines der größten Forschungshindernisse im Bereich der automatischen Erkennung von Sexismus war bislang neben der inhaltlichen Komplexität das Fehlen einer Datenbasis, die ausreichend viele, sauber klassifizierte Sam- 37 Vgl. Ericsson, Simon 1984; Jha, Mamidi 2017. 38 Hierbei ist anzumerken, dass es natürlich möglich ist, Kommentare jederzeit zu löschen. In diesem Fall sind die Kommentare auch über den ursprünglichen Link nicht mehr abrufbar. Algorithmen gegen politischen Sexismus 289 Leviathan, 48. Jg., Sonderband 35/2020 ples, enthält. Vergleichbare Studien arbeiten mit wesentlich kleineren Datensätzen, die dazu in der Regel aus sehr unterschiedlichen Bereichen stammen.39 Im Rahmen der vorgestellten Forschungsarbeit wurden die knapp 100.000 Kommentare zunächst mittels deskriptiver Statistik ausgewertet. Einerseits ermöglichen die Daten erstmals empirisch gestützte Annahmen über die Menge und die Ausprägung sexistischer Aussagen innerhalb der durch die Parteien bereitgestellten und kontrollierten Seiten. Andererseits sind das Wissen über die Struktur und die Häufigkeit des Auftretens der verschiedenen Typen von Sexismus wichtige Hinweise darauf, wie die Ergebnisse des Klassifizierungsalgorithmus zu interpretieren sind und welche Kombination aus Algorithmus und Merkmalen bei der Klassifizierung hilfreich sein könnten. Sexismus mit Deep Learning erkennen Um die Ergebnisse einer automatischen Klassifizierung beurteilen zu können, ist es wichtig, den angewandten Algorithmus in seiner grundlegenden Wirkungsweise zu verstehen. Daher stellen wir im Folgenden in aller Kürze vor, welche Algorithmen aus dem Bereich Deep Learning verwendet wurden, wohlwissend, dass sich diese Methode aufgrund ihrer Komplexität nur sehr vereinfacht in dieser Form darstellen lässt. Bei Deep Learning handelt es sich um eine Unterart von so genannten künstlichen neuronalen Netzen. Bei dieser Klasse von Algorithmen wird eine komplexe mathematische Formel mit vielen Unbekannten so optimiert, dass bei den bereits bekannten (also gelabelten) Daten der Input (der Text der Kommentare) mit einer großen Wahrscheinlichkeit zum bereits bekannten Output (den Labeln) führt. Dafür sind drei mathematische Formeln relevant: Das Modell, die Cost-Function und der Optimierungsalgorithmus. Das Modell beschreibt die Architektur des Netzwerks und wird in abstrakter Form von dem/der Forscher*in definiert, in dem einfache Rechenoperationen (Addition, Multiplikation und Aktivierung, wenn ein bestimmter Grenzwert erreicht wird) in einem Rechengraphen – also einem Netzwerk von Rechenoperationen – zusammengefasst werden. Während bei klassischen neuronalen Netzen eine sehr starre Struktur von Ebenen (layers) eingesetzt wird, in der jede abgeschlossene Rechenoperation (nodes) als Input in die nächste Ebene einfließt, werden bei Deep Learning wesentlich komplexere Strukturen verwendet. In diesem Artikel werden zwei unterschiedliche Deep-Learning-Architekturen vorgestellt: Die erste Netzwerkstruktur bezieht Long-Short-Term-Memory-Layers ein.40 Dabei wird nicht nur ein einzelnes Wort für sich berücksichtigt, sondern die vorangegangenen Worte verändern das Signal, das von den späteren ausgeht. Dadurch können auch kontextbezogene Muster in den Daten erfasst werden. Die zweite Architektur ist ein Attention-Netzwerk. Auch hier geht es darum, den Kontext, in dem die Worte auftauchen, zu erfassen. Dafür wird aber nicht sequentiell vorgegangen, sondern 2.2 39 Vgl. Fink et al. 2011; Dinakar et al. 2011. 40 Vgl. Hochreiter, Schmidhuber 1997. 290 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos die Position eines Wortes im Satz wird berücksichtigt. Würde man diese Operation mehrfach nacheinander durchführen (Multihead Attention), so dass der Algorithmus zum Beispiel lernen kann, dass die Wahrscheinlichkeit eines sexistischen Kommentars steigt, wenn bestimmte Worte an bestimmten Positionen im Text gleichzeitig auftreten, würden sich auch die beiden Ansätze stark einander annähern. Auf diese Erweiterung wird im Zuge der Diskussion der Ergebnisse eingegangen.41 Die zweite mathematische Formel, die beim maschinellen Lernen zum Einsatz kommt, ist die so genannte Cost-Function. Hier wird definiert, wie eine Abweichung von den eigentlichen Labels mathematisch berechnet wird. Eine gängige Cost-Function für Klassifizierungsprobleme wäre die Sigmoidfunktion, die auch bei der logistischen Regression verwendet wird. In der vorliegenden Analyse verwenden wir Cross-Entropy, weil diese Funktion eine klare Zuordnung zu den Klassen fokussiert. Schließlich braucht es einen Optimierungsalgorithmus, der die unbekannten Variablen, die im Modell definiert sind, auf Basis der Cost-Function optimiert. Hierfür hat sich bei neuronalen Netzen die so genannte Backpropagation-Methode42 als Standard etabliert, die von uns in Form des Adam-Algorithmus angewandt wird. Bei Backpropagation werden alle unbekannten Variablen erst mit Zufallswerten gesetzt. Anschließend lässt sich ein erstes vorläufiges Ergebnis für die Trainingsdaten berechnen. Basierend darauf kann die Ableitung der Cost-Function und von dort an rückwärts zu den vorherigen Layers des Netzwerkes erfolgen. Dadurch weiß man, welche Variable in welche Richtung angepasst werden muss. Das Maß der Anpassung wird vorab durch die so genannte Learning Rate (in der Regel eine sehr kleine Zahl) gesetzt. Dieser Vorgang wird mehrfach – häufig tausendfach – wiederholt, bis keine signifikanten Verbesserungen des Modells erreicht werden. Ein großes Problem bei der automatischen Klassifizierung von Texten ist, dass die Klassen häufig ungleich verteilt sind. Im konkreten Fall waren nur 2.048 der 98.000 Kommentare sexistisch – also in etwa 2 %. Trainiert man den Algorithmus auf sämtliche Daten, dann lernt das Modell überwiegend Muster aus nichtsexistischen Kommentaren und nicht die Muster, die wirklich maßgeblich für Sexismus sind. Eine gebräuchliche Praxis ist es deswegen, das Daten-Set für die Modellbildung so zu verändern, dass die Klassen ausgewogen sind. Im konkreten Fall wurde das Modell daher auf die sexistischen und auf 2.048 zufällig ausgewählte nicht-sexistische Kommentare trainiert. Ein weiteres Problem beim maschinellen Lernen entsteht durch das sogenannte Overfitting:43 Der Algorithmus lernt Muster zu erkennen, die auf den gegebenen Daten zwar eine Unterscheidung zwischen den Klassen ermöglichen, die aber in Wirklichkeit zufällig auftreten und sich nicht in neuen Daten wiederfinden. Daher 41 Vgl. Bahdanau et al. 2014. 42 Vgl. Werbos 1990. 43 Vgl. Patterson, Gibson 2017, S. 26-27. Algorithmen gegen politischen Sexismus 291 Leviathan, 48. Jg., Sonderband 35/2020 ist es wichtig, dass man die Ergebnisse der Klassifizierung auf Daten überprüft, die selbst nicht in die Modellbildung eingeflossen sind. In diesem Artikel sind 80 % der Daten für das Training des Modells benutzt worden und das optimierte Modell wurde dann auf die verbleibenden 20 % getestet. Darüber hinaus verwendet man »Tricks«, um den Optimierungsalgorithmus anzupassen. Das Modell wird immer nur auf einen Teil der Daten optimiert (Mini-Batches, stochastic gradient descent).44 Zusätzlich werden immer nur zufällig ausgewählte Nodes optimiert (dropout). In unserer Studie benutzen wir zwei unterschiedliche Test-Sets. Das erste Test-Set beinhaltet zufällige ausgewählte Kommentare aus dem gesamten Datensatz. Das zweite Test-Set beinhaltet ausschließlich Kommentare, die das Modell aus dem Trainingsvorgang bereits kennt (filtered). Auch wenn man diese Maßnahmen gegen Overfitting ergreift, stellt sich immer noch die Frage, wie sich die Qualität des Modells letztlich bemessen lässt. Dafür gibt es unterschiedliche Kennzahlen. Ein intuitiver Ansatz gründet darin, die Genauigkeit (Accuracy) zu kalkulieren. Dafür wird berechnet, bei wie viel Prozent der Testdaten der Algorithmus das richtige Ergebnis erzielt hat, also in unserem Fall, wie viel Prozent der Fälle in die richtige Kategorie von Sexismus eingeordnet wurden. Dieser Wert sagt aber noch nichts darüber aus, ob ein Modell einer Kategorie zu viele oder zu wenige Kommentare zuweist. Daher ziehen wir zwei weitere Maße heran: Precision und Recall. Precision ist das Verhältnis der richtig positiv klassifizierten Fälle zu den insgesamt positiv klassifizierten Fällen, also in einem Modell, dass nur zwischen Sexismus und Nicht-Sexismus unterscheidet, die Anzahl aller richtigerweise als sexistisch vorhergesagten Fälle im Verhältnis zu allen Fällen, bei denen das Modell die Antwort »sexistisch« gibt. Recall hingegen beschreibt das Verhältnis aller richtigerweise als sexistisch kategorisierten Fälle zu allen wirklich vorkommenden sexistischen Fällen. Hat man es mit mehreren Klassen zu tun, die noch dazu ungleich verteilt sind, dann ist es sinnvoll, Precision und Recall in ein Verhältnis zueinander zu setzen. Dies geschieht über den sogenannten F1-Score. F1 berechnet sich aus dem Verhältnis von Precision multipliziert mit Recall zu Precision plus Recall, welches mit 2 multipliziert wird: F1 − score = precision ⋅ recallprecision + recall ⋅ 2 . Dieser Wert ist weniger intuitiv, hat sich aber für die Bewertung von Klassifizierungsproblemen mit mehreren ungleich verteilten Klassen sehr bewährt.45 Schließlich bleibt noch die Frage, wie die Worte überhaupt im Algorithmus verarbeitet werden können, da Computer als Rechenmaschinen mit Zahlen und nicht mit Worten arbeiten. Während man früher jedem Wort eine Zahl zugewiesen hat, hat sich inzwischen eine neue Technik durchgesetzt, bei der jedes Wort als ein mehrdimensionaler Vektor dargestellt wird (word embeddings). Diese Vektordarstellung wird selbst in einem separaten Modell trainiert, so dass Worte, die häufig 44 Ebd., S. 98 ff. 45 Vgl. Sarkar 2016, S. 204. 292 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos gemeinsam auftreten, nahe beieinander in diesem Vektorraum liegen. Dadurch werden semantische Informationen, die im Kontext der Texte codiert sind, mathematisch aufgegriffen. In diesem Artikel verwenden wir den GloVe-Algorithmus46 zum Berechnen der Embeddings mit 300 Dimensionen, der auf den kompletten Datensatz der Kommentare trainiert wurde. Anstatt die Embeddings vorab kontextbezogen zu trainieren, gibt es auch die Möglichkeit, diese zusätzlichen unbekannten Variablen (300 pro Wort) in einem Zug mit dem eigentlichen Modell zu trainieren. Jedoch lassen sich die Embeddings dann nicht mehr als semantischer Kontext interpretieren, sondern enthalten Gewichte, die die Bedeutung zum eigentlichen Klassifikationsproblem repräsentieren. Ein großer Vorteil in modernen Deep-Learning-Ansätzen ist, dass vorab trainierte Modelle weiterverwendet werden können. Es können also Embeddings benutzt werden, die zuvor auf den semantischen Kontext optimiert wurden und nun für die Klassifizierung weiter trainiert werden. Im Resultat testen wir drei unterschiedliche Modelle: Als Input dienen die GloVe-Embeddings, die aber im Laufe des Trainingsprozesses weiter optimiert werden. Im ersten Modell kommt dann eine LSTM-Layer mit 64 Neuronen und dropout von 0.4, gefolgt von einer Layer mit sechs Neuronen und einer Sigmoid-Funktion, wodurch für jede Klasse (neutral und fünf Arten von Sexismus) eine Wahrscheinlichkeit berechnet wird. Im zweiten Modell wird die LSTM-Layer durch eine Self-Attention-Layer ersetzt. Da dieses Modell insgesamt deutlich besser abschneidet, haben wir noch ein Attention-Modell auf die gefilterten Embeddings trainiert, um zu zeigen, welche Performance mit diesem Modell theoretisch möglich ist. Anschließend haben wir die beiden Attention-Modelle noch als binären Classifier getestet, der nur zwischen neutral und sexistisch unterscheidet. Ergebnisse der Analyse Deskriptive Analyse Im Rahmen der vorgestellten Forschungsarbeit wurden die knapp 100.000 Kommentare zunächst mittels deskriptiver Statistik ausgewertet. Einerseits ermöglichen die Daten erstmals empirisch gestützte Annahmen über die Menge und die Ausprägung sexistischer Aussagen innerhalb der durch die Parteien bereitgestellten und kontrollierten Facebook-Seiten. Andererseits sind das Wissen über die Struktur, die Häufigkeit des Auftretens der verschiedenen Typen von Sexismus wichtige Hinweise darauf, wie die Ergebnisse des Klassifizierungsalgorithmus zu interpretieren sind und welche Kombination aus Algorithmus und Merkmalen bei der Klassifizierung hilfreich sein könnten. 3. 3.1 46 Vgl. Pennington et al. 2014. Algorithmen gegen politischen Sexismus 293 Leviathan, 48. Jg., Sonderband 35/2020 Abbildung 1: Verteilung des Typus von Sexismus im gesamten Datensatz. Eigene Abbildung. Abbildung 1 zeigt die Verteilung der Kommentare innerhalb der 2048 sexistischen Kommentare im Datensatz. Hierbei zeigt sich eine besonders starke Ausprägung in der Kategorie 1. Hieraus lässt sich schließen, dass die Parteien sexistische oder diffamierende Spitznamen von Politikern wie »Mutti Merkel« oder »Flintenuschi« nicht löschen. Des Weiteren ist damit eine Kategorie am stärksten, die sich weder dem traditionellen noch dem modernen Sexismus zuordnen lässt. Die Kategorien 2 und 3 sind Typen des modernen Sexismus, während 4 und 5, die gemeinsam unter 10 % ausmachen, dem traditionellen Sexismus zuzuordnen sind. Hierbei ist auch zu beachten, dass die verschiedenen Parteien aktiv Kommentare, die sie selbst als sexistisch und diffamierend einstufen, von ihren Seiten entfernen.47 Ein Kennzeichen des modernen Sexismus ist, dass er unterschwellig und schwieriger zu erkennen ist. Es ist davon auszugehen, dass es sich bei der gezielten Löschung eher um Kommentare im Bereich des traditionellen Sexismus handelt. Da also die ursprüngliche Anzahl von sexistischen Kommentaren weit größer ist, scheint auch der Anteil des traditionellen Sexismus stärker vertreten zu sein. In jeder Partei sind alle Typen sexistischer Kommentare zu finden. Die Verteilung innerhalb der verschiedenen Kategorien ist jedoch unterschiedlich. Hierbei ist zu beachten, dass es keine Vergleichbarkeit bezüglich der Menge der verschiedenen Typen untereinander gibt, da die verschiedenen Grafiken von verschiedenen Grundmengen an Kommentaren ausgehen (siehe Abbildung 2). Die Verteilungen sind aber qualitativ vergleichbar, insbesondere im Verhältnis der auftretenden Klassen zueinander. Es zeigt sich, dass die Verteilung innerhalb der mit den Parteien AfD, CDU und CSU assoziierten Kommentare ähnlich ist, ebenso wie die der Parteien Bündnis 90/Die Grünen, SPD und DIE LINKE. Die einzige Partei, bei der sich keine signifikanten Ähnlichkeiten zu einer der anderen Parteien finden lassen, ist die FDP. 47 Vgl. Christlich-Soziale Union 2018. 294 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos Abbildung 2 Sexistische Kommentare auf den mit der AfD assoziierten Seiten sortiert nach Typ Sexistische Kommentare auf den mit der CDU assoziierten Seiten sortiert nach Typ Sexistische Kommentare auf den mit der CSU assoziierten Seiten sortiert nach Typ Sexistische Kommentare auf den mit der FDP assoziierten Seiten sortiert nach Typ Sexistische Kommentare auf den mit Bündnis90/DieGrünen assoziierten Seiten Sexistische Kommentare auf den mit der SPD assoziierten Seiten sortiert nach Typ Sexistische Kommentare auf den mit DIE LINKE assoziierten Seiten sortiert nach Leviathan, 48. Jg., Sonderband 35/2020 Infratest DiMap hat 2018 eine Studie herausgebracht, in der alle relevanten Parteien in Deutschland auf einer Skala zwischen 0 und 11 eingeordnet wurden, wobei 0 für sehr links und 11 für sehr rechts standen. Kategorie 5, die homophobe Kommentare beinhaltet, tritt eher bei linken Parteien, die einen Score von niedriger als 5,5 innerhalb dieser Studie aufweisen, auf. Typ 2 wiederum findet sich hauptsächlich in den Kommentaren der Parteien DIE LINKE, FDP und SPD. Die Daten stammen aus dem Wahljahr 2017. Die Spitzenkandidaten der zugehörigen Parteien waren Sarah Wagenknecht, Christian Lindner und Martin Schulz. Allen drei Kandidaten wird in den Medien eine sexuelle Attraktivität unterstellt, die die öffentliche Meinung widerspiegelt. Insofern ist diese Erkenntnis nicht überraschend. Eine letzte Erkenntnis betrifft die verwendeten Worte. Analysiert man die am häufigsten verwendeten Worte innerhalb der sexistischen Kommentare, dann stellt man fest, dass die Terminologie überwiegend nur im Kontext als sexistisch zu werten ist. Es handelt sich dabei also nicht um Schimpfworte oder diffamierende Ausdrücke. Hierbei wurden insbesondere Erwartungen hinsichtlich des Zusammenhanges von der politischen Einordnung der Partei innerhalb des Links-Rechts-Spektrums und der Verteilung der verschiedenen Typen von Sexismus sowie den Spitzenkandidaten aus dem Wahljahr 2017 und den verschiedenen Typen von Sexismus überprüft. Analyse der verschiedenen Modelle Die beiden resultierenden Modelle, sprich die Modelle, welche die besten Resultate in der Klassifikation erzielten, sind die folgenden: Tabelle 3: Ergebnisse der verschiedenen Modelle bei Klassifikation der Kommentare in 5 verschiedene Sexismus-Typen (vgl. Tabelle 1) Model Embeddings Trainab le Accuracy F1 neutral F1 - sexismus 1 F1 - sexismus 2 F1 - sexismus 3 F1 - sexismus 4 F1 - sexismus 5 LSTM GloVe True 0.87 0.69 0.62 0.49 0.26 0.04 0.42 Attention GloVe True 0.9 0.76 0.61 0.5 0.34 0.17 0.35 Attention GloVe filtered True 0.92 0.81 0.78 0.75 0.59 0.42 0.55 Die beiden getesteten Grundmodelle erzielten insgesamt unterschiedlich gute Ergebnisse: Am besten schnitt das Modell ab, das sowohl GloVe als auch eine Filterung der Kommentare im Test-Set, das nur Kommentare, deren Worte bereits im Trainings-Set vollständig enthalten waren, verwendete. Dennoch erzielten alle Modelle einen F1-Score über null in allen fünf Kategorien. Das bedeutet, dass es jedem Modell möglich war, alle fünf Typen von Sexismus (vgl. Tabelle 2) zu iden- 3.2 296 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos tifizieren. Trotzdem haben alle Modelle gezeigt, dass die Klassen eins bis drei besser zu identifizieren sind als die Klassen vier und fünf. Das beste Modell wurde dann wiederum verwendet, um zu testen, wie gut der Algorithmus funktioniert, wenn er nur zwischen sexistischen und neutralen Kommentaren unterscheiden soll, ohne die Art des Sexismus zu klassifizieren. Tabelle 4: Ergebnisse der zuvor am besten getesteten Modelle bei Klassifikation in zwei Kategorien (sexistisch/neutral) Model Embeddings Trainable Accuracy F1 - sexist F1 - neutral Attention GloVe True 0.80 0.80 0.81 Attention GloVe filtered True 0.92 0.92 0.91 Tabelle 4 zeigt die Ergebnisse der bereits auf eine Klassifikation in fünf Kategorien angewendeten Algorithmen bei einer Klassifikation in zwei Kategorien. Hier erzielt der Algorithmus eine Trefferquote von 92 %. Die vorgestellten Modelle klassifizieren also im Durchschnitt mehr als neun von zehn Kommentaren richtig als sexistisch oder nicht-sexistisch. Die maschinelle Klassifikation ist damit fast so gut wie eine vom Menschen händisch durchgeführte Klassifikation. Die folgende Diskussion erläutert noch einmal, welches Potential durch Erweiterungen und Anpassungen des Algorithmus in den Modellen enthalten ist. Sie ordnet die Ergebnisse hinsichtlich ihrer Aussagekraft ein und diskutiert die Herausforderungen sowohl bei der Entwicklung eines solchen Algorithmus als auch bei der Verwendung eines Deep-Learning-Modells zur Klassifikation von Sexismus im Allgemeinen. Diskussion In den vorherigen Abschnitten wurde die Notwendigkeit eines Systems, das sexistische Kommentare erkennt und kategorisiert, wie auch der zugrunde liegende Begriff von Sexismus und einige Modelle, die eine solche Klassifikation ermöglichen, vorgestellt. Dennoch gibt es sowohl bei der Entwicklung als auch bei der Einführung eines solchen Systems einige Herausforderungen, die es zu diskutieren gilt. Grenzen und Möglichkeiten der automatisierten Erkennung von Sexismus Die bisher vorgestellten Modelle zeigen bereits sehr gute Ergebnisse. Dennoch gibt es weitere Möglichkeiten, ihre Performance zu verbessern. Eine Möglichkeit bestünde zum Beispiel darin, weitere State-of-the-Art Architekturen zur Verbesserung des Modells zu nutzen. Derartige Architekturen bestehen aus besonders tiefen neuronalen Netzen, die sowohl auf Wort- als auch auf Zeichenebene angewendet werden können und bereits gute Ergebnisse bei ähnlichen Textklassifikationen erzielt haben. Im Gegensatz zu den präsentierten Modellen verwenden die- 4. 4.1 Algorithmen gegen politischen Sexismus 297 Leviathan, 48. Jg., Sonderband 35/2020 se beispielsweise statt der absoluten Wortabstände Repräsentationen relativer Wortabstände. Dies macht die Modelle flexibler. Die Anwendung effizienter Repräsentationen für die Positionierung von Worten hat bereits beeindruckende Verbesserungen insbesondere im Bereich von maschinellen Übersetzungen gezeigt.48 Eine weitere Möglichkeit wäre, besonders tiefe Attention-Modelle mit einem festen Kontext zu verwenden. Sie berücksichtigen immer dieselbe Anzahl von Worten oder Zeichen, vor und nach dem gerade betrachteten Element, zur Berechnung des Outputs.49 Es ist davon auszugehen, dass diese Methoden noch einmal bessere Ergebnisse erzielen werden als die bereits vorgestellten Modelle. Auch wenn die bisherigen Ergebnisse vielversprechend sind, hat diese Arbeit natürlich auch Grenzen in ihrer Aussagekraft. Eine Grenze liegt beispielsweise darin begründet, dass das Trainings- und Testdaten-Set manuell generiert wurde. Für zukünftige Arbeiten muss der vorhandene Datensatz also nicht nur erweitert, sondern auch validiert werden. Außerdem handelt es sich um die Analyse von Sprache. Die Schwierigkeiten bei der Definition wurden bereits erläutert, aber es gibt zwei elementare Hemmnisse, die insbesondere bei der Klassifizierung selbst ins Spiel kommen: Zum einen ergeben sich durch die Polysemie der Sprache, also die Mehrdeutigkeit von Worten im Allgemeinen, insbesondere bei der maschinellen Sprachanalyse Schwierigkeiten. Es ist nahezu unmöglich, für jeden Kommentar linguistisch eine bestimmte Bedeutung als die »richtige« oder tatsächlich »gemeinte« Bedeutung zu belegen. Bei jeder Klassifikation kann also nur aus dem Kontext heraus, der in diesem Fall häufig sehr kurz ist, angenommen werden, welche Bedeutung gemeint ist. Je nach Wort und Verwendung kann dies sehr eindeutig sein, es kann aber auch dazu führen, dass Worte unabsichtlich missinterpretiert werden.50 Zum anderen verändert sich Sprache fortwährend. Neue Worte kommen hinzu und die konnotative Bedeutung etablierter Begriffe wandelt sich.51 Beispiele hierfür sind Begriffe wie »Führer« oder »Arier«, die sich über historische Erfahrungen und Ereignisse von neutralen zu heute gemiedenen und mit Rassismus verknüpften Begriffen entwickelt haben. Diese dynamische Fortentwicklung zu integrieren, ist nur begrenzt möglich. Denn ein Klassifizierungsalgorithmus trainiert auf einer großen Datenmenge. Ändert sich die Bedeutung eines Wortes in der Realität, so hat sie sich für den Algorithmus zunächst nicht verändert. Andererseits finden solche Veränderungen in der Regel eher langsam statt. Geht man von einem stetig wachsenden Datensatz aus, so würde dieser die Dynamik automatisch mit aufnehmen. Für den vorhandenen Datensatz und andere Datensätze muss aber deshalb immer bedacht werden, dass die Worte natürlich nur in der Bedeutung der jeweiligen Zeit verstanden werden können. Auch hier zeigt sich wieder, dass eine Klassifikation von 48 Vgl. Shaw et al. 2018. 49 Vgl. Le et al. 2018; Al-Rfou et al. 2019. 50 Vgl. Spillner 1971, S. 247 ff. 51 Vgl. Koch 1988, S. 341-342. 298 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos demjenigen geprägt ist, der sie durchführt. Der zeitliche und gesellschaftliche Kontext, in dem sie durchgeführt wird, spielt eine enorme Rolle. Ähnlich wie die Sprache transformiert sich auch Sexismus fortlaufend. Durch die Entwicklung hin zu immer unterschwelligeren Formen sind neue Arten von Sexismus schwieriger zu erkennen. Dies ist insofern problematisch, als davon auszugehen ist, dass der Anteil dieses unterschwelligen Sexismus in Zukunft steigen wird, während der traditionelle Sexismus eher zurückgeht. Der Begriff der sexuellen Identität und ihrer Einordnung ist politisch strittig und keinesfalls eindeutig.52 Den stetigen Wandel von Sprache in all ihren Ausprägungen und Bedeutungen ad- äquat zu repräsentieren, ist maschinell nicht möglich. Der vorliegende Artikel hat sich insofern nur auf die Kernelemente des traditionellen und modernen Sexismus gestützt, gleichzeitig aber auch die Grenzen für die Dekonstruktion des Geschlechterbegriffs aufzuzeigen versucht. Abhängig vom künftigen Deutungs- und Begriffsverständnis des Geschlechts, der sexuellen Identität und des Sexismus müssen also Wege gefunden werden, diese neuen Formen ebenfalls durch klare Regeln zu operationalisieren. Herausforderungen in der systematischen Anwendung von Algorithmen für die Erkennung und Entfernung von sexistischen Inhalten Neben den im vorigen Abschnitt beschriebenen Schwierigkeiten bei der Erstellung sinnvoller Modelle, die Sexismus systematisch erkennen, gibt es durchaus auch Herausforderungen, die unabhängig von der Entwicklung geeigneter Modelle sind und sich eher auf die Einführung und Anwendung eines solchen Algorithmus beziehen. Diese Herausforderungen sind insbesondere politischer und regulatorischer Natur. Eine Frage wäre zunächst, welche politischen Auswirkungen entsprechend klassifizierte Kommentare haben, insbesondere auch, welche politischen Folgen mit Falschklassifizierungen einhergehen. Und ferner, inwiefern derartige Falschklassifikationen von Kommentaren das Ansehen einer Partei in der Öffentlichkeit schädigen können. Die Gefahr, dass eine Statistik, die derartige Klassifizierungen enthält, missbräuchlich verwendet und politisch instrumentalisiert wird, ist keineswegs gering und, sofern sie öffentlich zugänglich sind, kaum zu vermeiden. Ferner bleibt auch die Frage, wie mit Kommentaren in Statistiken verfahren werden soll, die falsch klassifiziert wurden. Neben diesen technisch-operationalen Aspekten, die zweifellos gesellschaftspolitische Auswirkungen haben und dabei auch zu negativen Politisierungseffekten durch verzerrte Meinungsbilder führen können, gibt es jedoch auch die andere Seite, nämlich die der Opfer und Diffamierten. Die Folgen von Mobbing und Hassrede im Netz, insbesondere im Jugendalter, sind nachweislich vorhanden.53 Welche Frustration löst es also auf Seiten des Opfers aus, wenn der Algorithmus einen verletzenden Kommentar als nicht sexistisch markiert? Auf der anderen Seite beschränkt ein Algorithmus, der beispielsweise automatisch Kommentare flaggt 4.2 52 Vgl. Hark 2013, S. 9 ff. 53 Vgl. Kern 2014. Algorithmen gegen politischen Sexismus 299 Leviathan, 48. Jg., Sonderband 35/2020 oder sogar entfernt, auch die Rede- und Meinungsfreiheit. Diese ist – genauso wie das Recht ohne Diskriminierung zu leben – aber jede*r Bürger*in im Grundgesetz zugesichert. Der Schutz der Diskriminierten steht also im Spannungsverhältnis zum Recht auf freie Meinungsäußerung. Für den politischen Diskurs wäre ein irrtümlich negativ klassifizierter Kommentar ebenso verhängnisvoll wie umgekehrt, ein fälschlicherweise nicht negativ klassifizierter Kommentar für die Seite des Opfers folgenschwer wäre. Ein ähnliches Spannungsverhältnis ergibt sich zwischen dem Kommentierenden und der Rezipient*in beziehungsweise zwischen dem Opferschutz und der Meinungsfreiheit. Eine Klassifizierung eines nicht sexistischen Kommentars als sexistisch wäre aus Sicht des Opferschutzes dem umgekehrten Fall vorzuziehen – bei der Meinungsfreiheit verhält es sich genau anders herum. Genau aus diesen Gründen ist es wichtig, durch eine geeignete Modellentwicklung inklusive der Begriffsentwicklung sowie durch adäquate Regulierungsmaßnahmen die Konsequenzen von Falschklassifikationen in beide Richtungen zu bestimmen und entsprechend auszubalancieren. Einerseits führt kein Weg an der Einführung eines solchen automatischen Klassifikationssystems vorbei, andererseits muss dazu ein online trainierbares System – idealerweise in Echtzeit – und in mehreren Sprachen entwickelt werden. Derzeit verwenden die Konzerne Leitfäden, die hochkomplexen Entscheidungsbäumen gleichen und dann von Menschen durchgegangen werden, um zu entscheiden, ob ein Kommentar den sogenannten Gemeinschaftsrichtlinien einer Plattform entspricht oder nicht. Auch hier spielt das subjektive Empfinden der jeweiligen Mitarbeiter*in eine große Rolle. Denn kein Regelbuch kann alle Fälle abdecken. Hier zeigt sich erneut, dass ein Algorithmus, der Sexismus klassifiziert, genauso gut sein muss wie die Klassifikation von menschlicher Hand. Die vorherigen Abschnitte haben gezeigt, dass die menschliche Subjektivität, also der subjektive Faktor der klassifizierenden Wissenschaftler*in bzw. Programmierer*in, sowohl in die Klassifikation der Daten wie auch in den jeweiligen Sexismusbegriff und in den Algorithmus mit einfließt. Gleichwohl haben sie auch gezeigt, dass die Modelle schon so gut operieren wie händische Klassifikationen. Eine weitere Frage, die sich zwangsläufig stellt, ist die Frage nach der Legitimation. Der Einsatz eines Algorithmus, der darüber entscheidet, welche Kommentare sexistisch zu werten sind und welche nicht, und der ferner auch für die entsprechende Entfernung einzelner Kommentare zuständig ist, würde in die Meinungsfreiheit einwirken. Denn er müsste kontrollieren, bewerten und entscheiden, welche Begriffe oder Kommentare zulässig sind und welche nicht. Der Algorithmus würde in der digitalen politischen Öffentlichkeit also auch zur digitalen Polizei avancieren. Um die politische Öffentlichkeit in ihren demokratischen Prämissen zu schützen, müssten die Entscheidungen eines solchen Algorithmus entsprechend transparent und nachvollziehbar bleiben. Eng verbunden mit dem Faktor der Subjektivität, mit der Komplexität der Materie und mit der Problematik, wie eng oder weit der Sexismusbegriff, auf dessen Basis der Algorithmus operiert, gefasst sein sollte, steht die Frage nach Verantwortung und Umgang mit den entsprechend klassifizierten Kommentaren. Im Gegen- 300 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos satz zu traditionellen Medien gibt es innerhalb der sozialen Medien keine journalistische Sorgfaltspflicht. Die Inhalte der sozialen Medien sind die Inhalte der Nutzer*innen, nicht die der Plattformbetreiber, die daher auch nicht die Agenda der Nachrichten festsetzen. In den letzten Jahren gab es unterschiedliche Versuche und Vorschläge für die Etablierung einer etwaigen ›Sorgfaltspflicht‹, ohne dabei den offenen Charakter der sozialen Medien zu stark anzugreifen. Der weiteste Vorstoß dahingehend ist das 2017 in Kraft getretene Netzwerkdurchsetzungsgesetz (NetzDG), das Betreiber sozialer Plattformen für bestimmte Inhalte haftbar zu machen sucht und sie zur Entfernung demokratiefeindlicher Inhalte aufruft.54 Dieses Gesetz wurde schon mit der Einführung stark diskutiert. Mittlerweile hat sich gezeigt, dass die Umsetzung nur schlecht bis hinreichend funktioniert.55 Auch hier stellt sich heraus, dass die händische Meldung von Hass und Hetze im Internet nicht funktioniert. Das Gesetz wird u. a. auch dafür kritisiert, dass es in der Umsetzung zu wenig transparent und schwierig zu handhaben sei. Schwierigkeiten zwischen gesetzlicher Regulierung und politischer Öffentlichkeit entstehen insbesondere auch dadurch, dass Gesetzgeber nicht stärker mit den Plattformbetreibern zusammenarbeiten – selbst (und gerade) dort, wo die Unternehmen nicht an nationale gesetzliche Regelungen gebunden sind. Ein Algorithmus könnte dabei unterstützend wirken, da er das Problem der Anwendbarkeit behebt und auch die nötige Transparenz gewährleistet, vorausgesetzt seine Regeln werden öffentlich gemacht. Doch selbst hierbei würden vor allem politische Fragen entstehen, welche wiederum politische Antworten erfordern. Wer soll über die Regeln der Algorithmen entscheiden; wer wiederum kontrolliert die Einhaltung dieser Regeln; und wie sollen die Kompetenzen im digitalen Strukturwandel künftig aufgeteilt werden? Angenommen, die Unternehmen würden selbst für das Entfernen bestimmter Kommentare verantwortlich werden, bleibt die Frage, ob kleinere Firmen überhaupt die Kapazität hätten, hinsichtlich der Datenmenge und der Ressourcen, derartige Systeme zu etablieren. Neben diesen gesellschaftspolitischen Herausforderungen haben die Untersuchungen in diesem Artikel gezeigt, wie subjektiv und kontextabhängig die Bewertungen der Kommentare insbesondere im Bereich Sexismus sind. Auch wenn bestimmte Definitionen und Kriterien für einen bestimmten Zeit- und Geltungsraum durchaus allgemeingültig bleiben, hat sich ebenso herausgestellt, dass die Systeme nicht kontextunabhängig eingesetzt werden können. Ihre Entwicklung, insbesondere hinsichtlich der Regeln und der Etablierung einer geeigneten Datenbasis, ist ein hochkomplexer Prozess. Umso notwendiger erscheint es, dass er von wissenschaftlicher wie gesellschaftlicher Seite begleitet und kritisch reflektiert wird. 54 Vgl. Bundesamt für Justiz 2019. 55 Vgl. Zeit Online 2019b. Algorithmen gegen politischen Sexismus 301 Leviathan, 48. Jg., Sonderband 35/2020 Fazit Die dem Artikel zugrunde liegende Frage, ob es möglich ist, Sexismus maschinell zu erfassen und zu klassifizieren, kann grundsätzlich bejaht werden. Das Resümee beruht dabei auf den folgenden vier Ergebnissen: Erstens wurde ein Modell für »Political Sexism in Social Media« geschaffen, das theoretisch und methodisch auf den Konzepten von Sexismus und Feminismus beruht und eine klare Klassifikation von Sexismus in verschiedene Kategorien vornehmen kann. Dieses flexible System erlaubt einerseits eine differenzierte Diskussion über Sexismus und bietet andererseits eine Basis semantischer Regeln, auf der die Modelle aus dem Bereich des maschinellen Lernens arbeiten können. Zweitens wurde mit einem Daten-Set aus sozialen Medien operiert, das sowohl mit den modernsten Methoden gelabelt wurde, wie auch eine vergleichsweise gro- ße Datenmenge enthält. Dabei haben sich verschiedene Modelle aus dem Bereich des maschinellen Lernens und des Deep Learning als geeignet erwiesen, um unterschiedliche Arten von Sexismus zu klassifizieren. In einer Art ›Proof of Concept‹ konnte gezeigt werden, wie derartige Modelle aufgebaut sein müssen und welche grundlegenden Strukturen sich eignen, um ein solches System zu erstellen. Neben der bereits erwähnten Notwendigkeit und Realisierbarkeit derartiger Systeme hat sich drittens herausgestellt, dass es zwar nicht möglich ist, einen sozial geprägten Begriff genauso deterministisch abzubilden, wie es den Natur- und Computerwissenschaften gegeben ist; dass sich aber gleichwohl soziale Kriterien und Prämissen definieren lassen, die dem Algorithmus bei der Identifizierung und Klassifizierung zugrunde gelegt werden können. Derartige Definitionen gelten zwar nicht unbeschränkt und die Prämissen sind nicht unumstößlich. Dennoch basieren sie auf gesellschaftlich wie historisch etablierten Erfahrungswerten. Das vierte und abschließende Resultat betrifft die Notwendigkeit eines solchen Klassifizierungssystems: Zum einen ist es aufgrund der immensen Datenmengen heute, in der digitalen Öffentlichkeit, kaum noch möglich, Datensätze händisch auszuwerten. Zum anderen fungieren soziale digitale Plattformen immer mehr als Diskursräume, die die politische Öffentlichkeit beeinflussen und sich dabei auch auf politische Meinungs- und Willensbildungsprozesse auswirken. Der Inhalt der Diskurse entscheidet insofern maßgeblich über die Qualität der politischen Öffentlichkeit. Wo also Diskurse einseitig, diskriminierend und diffamierend geführt werden, sei es beabsichtigt oder nicht, dort verfällt auch das politische Klima einer Gesellschaft; und dort werden negative Politisierungseffekte sichtbar, die von den traditionellen staatlichen wie medialen Instanzen kaum noch aufgefangen und entsprechend eingedämmt werden können. Insofern müssen technische Regularien etabliert werden, die bei der Eindämmung dieser Effekte unterstützend wirken und damit auch als gesellschaftliche Filter fungieren. Die vorgestellte Arbeit ist ein erster Schritt in Richtung automatischer Erkennung von Sexismus in Social Media. So wie sich die Struktur des politischen Diskurses auf Plattformen verändert, unterliegt auch der Inhalt der Diskurse einem strukturellen Wandel. Facebook ist nicht nur eine der größten Datenbanken der Welt, sondern avanciert zunehmend zum Diskursraum von privater wie öffentli- 5. 302 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos cher Kommunikation, die unseren Alltag, unsere Einstellungen und unsere Denkweisen beeinflusst. Dabei unterschätzen sowohl die Nutzer*innen wie auch Politik und Forschung nach wie vor, welche Bedeutung und vor allem auch welche Auswirkungen ihr Verhalten auf den sozialen Plattformen haben kann. Bis zu einer erfolgreichen Implementierung eines Algorithmus werden zwar noch weitere Validierungen der Modelle und erweiterte Datensätze nötig sein. Dennoch ist eine kritische Auseinandersetzung mit den genannten Herausforderungen bereits jetzt für den politischen Diskurs unabdingbar. Sexistische Kommentare von den digitalen Plattformen nur zu entfernen, wird alleine nicht ausreichen, um eine gesellschaftliche Sensibilisierung und einen bewussteren Umgang mit dem Thema zu schaffen. Denn hierfür sind auch gesellschaftliche Einstellungen zu ändern, ein tieferes Verständnis für Sprache wie auch für soziale und digitale Interaktion zu entwickeln. Dennoch können technische Maßnahmen dabei unterstützend wirken. Und sie können Wirkmechanismen bilden, die wiederum den Anstoß für eine Transformation des gesellschaftlichen Gedankenguts hin zu einer gendergerechten Gesellschaft geben. Literatur Al-Rfou, Rami; Choe, Dokook; Constant, Noah; Guo, Mandy; Jones, Llion 2019. »Characterlevel language modeling with deeper self-attention«, in Proceedings of the AAAI Conference on Artificial Intelligence, S. 3159-3166. Arendt, Hannah 2010. Vita activa oder Vom tätigen Leben. München: Piper Verlag. Badjatiya, Pinkesh; Gupta, Shashank; Gupta, Manish; Varma, Vasudeva 2017. »Deep learning for hate speech detection in tweets«, in Proceedings of the 26th International Conference on World Wide Web Companion, S. 759-766. Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua 2014. »Neural Machine Translation by Jointly Learning to Align and Translate«, in arXiv preprint arXiv:1409.0473. Benoit, William Lyon 1997. »Hate Speech«, in Argumentation 11, hrsg. v. Whillock, Rita Kirk; Slayden, David. S. 381-383. Heidelberg: Springer Netherlands. Benokraitis, Nijole V.; Feagin, Joe R. 1995. Modern Sexism: Blatant, Subtle, and Covert Discrimination. London: Pearson College Div. Bird, Caroline 1968. »On Being Born Female«, in Vital Speeches of the Day 25, 3, S. 88-91. Blume, Markus 2020. Markus Blume. https://www.facebook.com/pg/markusblumecsu/about/?r ef=page_internal (Zugriff vom 10.02.2020). Boshammer, Sabine 2008. »Sexismus«, in Handbuch der Politischen Philosophie und Sozialphilosophie, hrsg. v. Gosepath, Stefan; Rössler, Beate; Hinsch, Wilfried, S. 1163-1166. Berlin: De Gruyter. Bundesamt für Justiz 2019. Rechtsdurchsetzung in sozialen Netzwerken. https://www.bundesju stizamt.de/DE/Themen/Buergerdienste/NetzDG/NetzDG_node.html (Zugriff vom 01.09.2019). Butler, Judith 2004. »Changing the Subject: Judith Butler’s Politics of Radical Resignification. Interview mit Gary A. Olson und Lynn Worsham«, in The Judith Butler Reader, hrsg. v. Butler, Judith; Salih, Sara, S. 325-356. Malden, Oxford, Victoria: Blackwell. Butler, Judith 2012. Das Unbehagen der Geschlechter. Frankfurt a. M.: Suhrkamp. Cameron, Deborah 2016. Sexism In Language: A Problem That Hasn’t Gone Away, https://dis coversociety.org/2016/03/01/sexism-in-language-a-problem-that-hasnt-gone-away/ (Zugriff vom 08.10.2018) Christlich-Soziale Union in Bayern e. V. 2018. Netiquette. https://www.facebook.com/pg/CSU/ about/?ref=page_internal (Zugriff vom 01.09.2019). Christlich-Soziale Union in Bayern e. V. 2020. CSU (Christlich-Soziale Union). https://www.fac ebook.com/CSU/ (Zugriff vom 10.02.2020). Algorithmen gegen politischen Sexismus 303 Leviathan, 48. Jg., Sonderband 35/2020 Daley, Caroline; Nolan, Melanie 1994. Suffrage and Beyond: International Feminist Perspectives. New York: NYU Press. Dinakar, Karthik; Reichart, Roi; Lieberman, Henry 2011. »Modeling the detection of textual cyberbullying«, in fifth international AAAI conference on weblogs and social media, https: //ie.technion.ac.il/~roiri/papers/3841-16937-1-PB.pdf (Zugriff vom 29.05.2020). English Oxford Dictionary 2019. Sexism, https://www.lexico.com/en/definition/sexism. (Zugriff vom 10.02.2020). Ericsson, K. Anders; Simon, Herbert A. 1984. Protocol analysis: Verbal reports as data. Cambridge: the MIT Press. Faus, Rainer; Hartl, Matthias 2018. Politisches Informationsverhalten in der fragmentierten Öffentlichkeit. Bonn: Friedrich-Ebert-Stiftung. Fink, Clayton R.; Chou, Danielle S.; Kopecky, Jonathan J.; Llorens, Ashley J. 2011. »Coarseand Fine-Grained Sentiment Analysis of Social Media Text«, in Johns Hopkins APL Technical Digest 30, 1, S. 22-30. Foster, Mindi D. 2015. »Tweeting About Sexism: The Well‐Being Benefits of a Social Media Collective Action«, in British Journal of Social Psychology 54, 4, S. 629-647. Gambäck, Björn; Sikdar, Utpal K. 2017. »Using Convolutional Neural Networks to Classify Hate-Speech«, in Proceedings of the first workshop on abusive language online, S. 85-90. Gutiérrez Rodríguez, Encarnación 2008. »Postkolonialismus: Subjektivität, Rassismus und Geschlecht«, in Handbuch Frauen- und Geschlechterforschung, hrsg. v. Becker, Ruth; Kortendiek, Beate, S. 267-275. Wiesbaden: VS. Han, Byung-Chul 2013. Im Schwarm. Ansichten des Digitalen. Berlin: Matthes & Seitz. Hark, Sabine 2013. deviante Subjekte. Die paradoxe Politik der Identität. 14. Aufl. Berlin: Springer-Verlag. Hark, Sabine; Villa, Paula-Irene 2017. Unterscheiden und herrschen. Ein Essay zu den ambivalenten Verflechtungen von Rassismus, Sexismus und Feminismus in der Gegenwart. Bielefeld: transcript. Hegelich, Simon; Shahrezaye, Morteza 2017. Die Disruption der Meinungsbildung. Die politische Debatte in Zeiten von Echokammern und Filterblasen. Berlin: Analysen & Argumente, Konrad-Adenauer-Stiftung, Ausgabe 253. Hochreiter, Sepp; Schmidhuber, Jürgen 1997. »Long Short-Term Memory«, in Neural Computation 9, 8, S. 1735-1780. Jha, Akshita; Mamidi, Radhika 2017. »When does a compliment become sexist? Analysis and classification of ambivalent sexism using twitter data«, in Proceedings of the second workshop on NLP and computational social science, S. 7-16. Kern, Sabrina 2014. Cyber-Mobbing: Mobbing unter Digital Natives. Formen und Folgen von Sozialer Aggression im Internet. Hamburg: Diplomica Verlag. Koch, Peter 1988. »Norm und Sprache«, in Energeia und Ergon. Sprachliche Variation, Sprachgeschichte, Sprachtypologie. Studia in honorem Eugenio Coseriu, hrsg. v. Lüdtge, Jens, S. 327-354. Tübingen: Gunter Narr Verlag. Kruks, Sonia 2012. Simone de Beauvoir and the Politics of Ambiguity. New York: Oxford University Press. Le, Hoa T.; Christophe Cerisara; Alexandre Denis 2018. »Do Convolutional Networks Need to Be Deep for Text Classification?«, in Workshops at the Thirty-Second AAAI Conference on Artificial Intelligence, https://hal.archives-ouvertes.fr/hal-01690601/file/1707.041 08.pdf (Zugriff vom 29.05.2020). Lindner, Christian 2020. Christian Lindner. https://www.facebook.com/lindner.christian/ (Zugriff vom 10.02.2020). McLuhan, Marshall 1964. Understanding Media. The Extensions of Man. McGraw-Hill, New York: Gingko Press. Menegatti, Michela; Rubini, Monica 2017. »Gender Bias and Sexism in Language«, in Oxford Research Encyclopedia of Communication, https://oxfordre.com/communication/view/10. 1093/acrefore/9780190228613.001.0001/acrefore-9780190228613-e-470 (Zugriff vom 29.05.2020). Papakyriakopoulos, Orestis; Shahrezaye, Morteza; Thieltges, Andree; Medina Serrano, Juan Carlos; Hegelich, Simon 2017. »Social Media und Microtargeting in Deutschland« Informatik-Spektrum 40, 4, S. 327-335. Berlin: Springer. 304 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos Park, Ji Ho; Fung, Pascale 2017. »One-step and two-step classification for abusive language detection on twitter«, in arXiv preprint arXiv:1706.01206. Patterson, Josh; Gibson, Adam 2017. Deep learning. A practitioner's approach. Sebastopol: O'Reilly Media, Inc. Pennington, Jeffrey; Socher, Richard; Manning, Christopher 2014. »GloVe: Global vectors for word representation«, in Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), https://www.aclweb.org/anthology/D14-1162.pdf (Zugriff vom 29.05.2020. Prentice, Deborah A.; Carranza, Erica 2003. »Sustaining Cultural Beliefs in the Face of Their Violation: The Case of Gender Stereotypes«, in The Psychological Foundations of Culture, hrsg. v. Schaller, Mark; Crandall, Christian S., S. 259-280. Mahwah, NJ: Erlbaum. Sarkar, Dipanjan 2016. Text Analytics with Python. New York: Apress. Schäfer, Rita 2012. Frauen und Kriege in Afrika. Ein Beitrag zur Gender-Forschung. Frankfurt a. M.: Brandes & Apsel Verlag. Sharifirad, Sima; Matwin, Stan 2019. »When a Tweet is Actually Sexist. A More Comprehensive Classification of Different Online Harassment Categories and The Challenges in NLP«, in arXiv preprint arXiv:1902.10584. Shaw, Peter; Uszkoreit, Jakob; Vaswani, Ashish 2018. »Self-attention with relative position representations«, in arXiv preprint arXiv:1803.02155. Sozialdemokratische Partei Deutschlands (SPD) 2020. SPD. https://www.facebook.com/SPD/ (Zugriff vom 10.02.2020). Spillner, Bernd 1971. »Polysemie und Disambiguierung«, in Beiträge zur generativen Grammatik, hrsg. v. von Stechow, Armin, S. 247-257. Wiesbaden: Vieweg+Teubner Verlag. Villa, Paula-Irene 2009. »Feministische- und Geschlechtertheorien«, in Handbuch Soziologische Theorien, hrsg. v. Kneer, Georg; Schroer, Markus, S. 111-132. Wiesbaden: VS. Warren, Mary Anne 1993. »Sekundärer Sexismus und Quotierung«, in Quotierung und Gerechtigkeit, hrsg. v. Rösler, Beate, S. 120-143. Frankfurt a. M.: Campus. Waseem, Zeerak 2016. »Are You a Racist or Am I Seeing Things? Annotator Influence On Hate Speech Detection On Twitter«, in Proceedings of the first workshop on NLP and computational social science, S. 138-142. Werbos, Paul J. 1990. »Backpropagation Through Time: What It Does and How To Do It«, in Proceedings of the IEEE 78, 10, S. 1550-1560. Zeit Online 2019a. #metoo. Ein Hashtag und die Folgen. https://www.zeit.de/thema/metoo (Zugriff vom 10.01.2019). Zeit Online 2019b. Netzwerkdurchsetzungsgesetz findet kaum Anwendung. https://www.zeit.d e/politik/deutschland/2019-03/netzdg-netzwerkdurchsetzungsgesetz-jahresbericht-eco-besc hwerdestelle (Zugriff vom 01.09.2019). Zimmerman, Steven; Kruschwitz, Udo; Fox, Chris 2018. »Improving hate speech detection with deep learning ensembles«, in Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), S. 2546-2553. Algorithmen gegen politischen Sexismus 305 Leviathan, 48. Jg., Sonderband 35/2020 Zusammenfassung: Der vorliegende Beitrag befasst sich mit der Frage, ob eine maschinelle Kategorisierung von Sexismus im politischen Kontext an Hand von Deep-Learning-Methoden möglich ist. Hierbei wird gezeigt, dass Attention-Netzwerke mit einer geeigneten Operationalisierung bereits hervorragende Ergebnisse erzielen. Im Anschluss werden die Herausforderungen bei der Algorithmenentwicklung, -einführung und -regulierung diskutiert. Stichworte: Sexismus, Maschinelles Lernen, Attention-Netzwerke, Social Media Algorithms against Sexism – Machine Learning as an Impulse for Social Rethinking Summary: The paper deals with the question of whether a machine-based categorization of sexism in the political context is possible with deep learning methods. Here it is shown that attention networks with a suitable operationalisation already achieve excellent results. Subsequently, the key challenges of algorithm development, implementation and regulation will be discussed. Keywords: Sexism, Machine Learning, Attention Networks, Social Media 306 Fabienne Marco, Simon Hegelich, Linda Sauer und Orestis Papakyriakopoulos

Chapter Preview

References

Abstract

Contradictory trends of depoliticisation and (re-)politicisation seem to characterise current democratic society. Protest movements and populism polarise opinions on both the streets and social media, while anonymous algorithms or scientific expertise threaten to technocratise political decision-making. At the same time, these phenomena raise the question of democratic theoretical standards of evaluation. This special volume provides a conceptual framework for the analysis and interpretation of these processes and relates previously unconnected fields of research. Theoretical perspectives and empirical findings thus form a debate on the understanding as well as the manifestations and dynamics of politics in the 21st century. With contributions by Priska Daphi, Beth Gharrity Gardner, Anna Geis, Samuel Greef, Simon Hegelich, Eva Her-schinger, Fabienne Marco, David Meiering,Michael Neuber, Orestis Papakyriakopoulos, Friedbert W. Rüb, Linda Sauer, Andreas Schäfer, Wolfgang Schroeder, Hanna Schwander, Grit Straßenberger, Jennifer Ten Elsen, Lena Ulbricht and Claudia Wiesner.

Zusammenfassung

Widersprüchliche Tendenzen der Ent- und (Re-)Politisierung prägen die gegenwärtige demokratische Gesellschaft. Protestbewegungen und Populismus polarisieren auf der Straße und in sozialen Medien, während anonyme Algorithmen oder wissenschaftliche Expertise politisches Entscheiden zu technokratisieren drohen. Zugleich werfen diese Phänomene die Frage nach den demokratietheoretischen Beurteilungsmaßstäben auf. Der Sonderband liefert einen konzeptuellen Rahmen für die Analyse und Deutung dieser Prozesse und setzt bisher unverbundene Forschungsfelder in Beziehung. Theoretische Perspektiven und empirische Befunde verbinden sich so zu einer Debatte um das Verständnis sowie die Erscheinungsformen und Dynamiken von Politik im 21. Jahrhundert. Mit Beiträgen von Priska Daphi, Beth Gharrity Gardner, Anna Geis, Samuel Greef, Simon Hegelich, Eva Her-schinger, Fabienne Marco, David Meiering,Michael Neuber, Orestis Papakyriakopoulos, Friedbert W. Rüb, Linda Sauer, Andreas Schäfer, Wolfgang Schroeder, Hanna Schwander, Grit Straßenberger, Jennifer Ten Elsen, Lena Ulbricht und Claudia Wiesner.