Andree Thieltges, Big Data, Machine Learning und Künstliche Intelligenz in:

ZfP Zeitschrift für Politik, page 3 - 32

ZfP, Volume 67 (2020), Issue 1, ISSN: 0044-3360, ISSN online: 0044-3360, https://doi.org/10.5771/0044-3360-2020-1-3

Browse Volumes and Issues: ZfP Zeitschrift für Politik

Bibliographic information
Andree Thieltges Big Data, Machine Learning und Künstliche Intelligenz Neue Herausforderungen für die betriebliche Mitbestimmung Zusammenfassung: ›Industrie 4.0‹ steht inzwischen auch für eine fortschreitende Verfügbarkeit von ›Big Data‹ und den Zugriff auf mitarbeiterbezogen Daten sowie der Möglichkeit, diese maschinell zu aggregieren, analysieren und auszuwerten. Das hat nicht nur einen Wandel in der Produktion zur Folge, sondern führt auch zu tiefgreifenden Veränderungen hinsichtlich des Faktors ›Arbeit‹ und das vor allem auf der Ebene der Beschäftigten: ›Hybride‹ Arbeitsumgebungen werden geschaffen, Arbeitsabläufe werden von Sensorik dokumentiert und überwacht. Die Regulierbarkeit der individuellen Arbeitskraft durch die kontinuierliche Messbarkeit ihrer ›Performance‹ haben eine Effizienzsteigerung, mehr ›Agilität‹ und bessere ›Anpassungsfähigkeit‹ zum Ziel. Hinzutritt, dass sich diese neuen Technologien auch in anderen Unternehmensbereichen etablieren, bspw. in der Personalrekrutierung, -optimierung und -rationalisierung. Mitbestimmung und Interessenvertretung der Beschäftigten erscheinen unter diesen Verhältnissen zunehmend erschwert, denn die ›datengetriebenen Verfahren‹ bleiben häufig intransparent. Außerdem benötigen betrieblichen Mitbestimmungsakteur*innen ein umfassendes Wissen, um die Datenanalyse nachvollziehen und so ungewollte Folgen frühzeitig erkennen zu können. Im folgenden Artikel sollen die Herausforderungen von KI und Machine Learning anhand von Beispielen aus dem Personalmanagement aufgezeigt und die Möglichkeiten für die betriebliche Mitbestimmung erörtert werden. Schlüsselwörter: Big Data, Algorithmen, KI, Mitbestimmung, Machine Learning, Datenschutz, Datenerhebung Andree Thieltges, Big Data machine learning and AI, new challenges for workers participation Summary: Big data and the potentials of artificial intelligence (AI) and machine learning tools are already been used to analyse and utilise data within enterprises. Companies are in a stage of data-driven change that affects their production as well as the ways and means of labour organisation. For instance, the workforce has to cope with hybrid working environments and sensor-driven workflow evaluation. The continuous measurement and rating of the individual performance aims to raise efficiency, agility and flexibility of the workforce. Moreover, the data-driven technologies are also used to ›rationalise‹ several operational processes like recruitment or job training. Within these trends, employee participation seems to be increasingly inhibited. The methods that are used are often intransparent and workers ZfP 67. Jg. 1/2020 DOI: 10.5771/0044-3360-2020-1-3 councils are in need of a widespread knowledge to understand data analysis and its potential effects on the workforce and its future organisation. We would like to show the challenges of AI and machine learning on the basis of human resource management tools and discuss the chances for regularisation by the workers council. Keywords: big data, machine learning, workers participation, data mining, human ressource management, data privacy, data collection Andree Thieltges, M.A., ist wissenschaftlicher Mitarbeiter der Professur für Political Data Science an der Hochschule für Politik an der Technischen Universität München Korrespondenzanschrift: andree.thieltges@hfp.tum.de Seit geraumer Zeit verändert die ›Digitale Revolution‹ die globale Arbeits- und Lebenswelt in vielfacher Hinsicht: Arbeitsabläufe und Arbeitsorganisation werden zunehmend ›appifiziert‹ und durch sog. SMAC-Technologien unterstützt. Ganze Produktionsprozesse werden durch cyber-physische Systeme kontrolliert, die »Informationen über die Umgebung, das Werkstück, den Arbeitsfortschritt und interne Zustände erfassen. In vielen Bereichen wächst die Anzahl der Sensoren derzeit exponentiell.«1 Dabei werden kontinuierlich und in immer größerem Umfang Daten generiert und verarbeitet. »Digitalisierung produziert Daten, das ›Öl des 21. Jahrhunderts‹, in ungeahntem Ausmaß. Das Wachstum neu entstandener Daten hat sich in gerade einmal fünf Jahren verzehnfacht, auf geschätzte knapp neun Zetabytes im Jahr 2015«2. Eine Studie3, die im Auftrag des Datenspeicherherstellers ›Seagate‹ erstellt worden ist, geht davon aus, dass sich das weltweite Datenaufkommen von aktuell 33 Zetabyte (Nov. 2018) bis zum Jahr 2025 auf 175 Zetabyte4 erhöhen wird. Dieses Anwachsen der Datenmenge hat eine Entwicklung von neuen Ansätzen und Anwendungsfeldern der künstlichen Intelligenz (KI) hervorgebracht, das sogenannte ›Data Mining‹, wodurch die in den Daten enthaltenen Informationen quantitativ ausgewertet und entsprechend verwertet werden können. Unterdessen wird kontinuierlich an neuen Möglichkeiten der Datenaufbereitung, Datenauswertung und Mustererkennung geforscht, um damit Eintrittswahrscheinlichkeiten vorherzusagen, die entsprechend in die Unternehmensentscheidungen einflie- ßen können. Diese Art der »prädiktiven und präskriptiven Analytik« wird zunehmend von autonomen Systemen übernommen, welche auf dem sogenannten ›maschinellen 1 Nils Urbach, Frederik Ahlemann, IT-Management im Zeitalter der Digitalisierung, Berlin, Heidelberg 2016, S. 47. 2 Katharina Schüller, »Big Data in der statistischen Methodenberatung«, in: Christian König, Jette Schröder, Erich Wiegand (Hg.), Big Data, Wiesbaden 2018, S. 111–127., S. 111. 3 Vgl. David Reinsel, John Gantz, John Rydning, Data Age 2025: The Digitization of the World. From Edge to Core, Framingham, MA 2018., S. 3. 4 Ausgehend von der heute noch gebräuchlichen Maßeinheit Gigabyte entspricht ein Zetabyte 931.322574615,48 Gigabyte. 4 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 4 Lernen‹ basieren und große, unstrukturierte und/oder komplexe Datenmengen verarbeiten.5 Vor dem Hintergrund der hier skizzierten, immer weiter fortschreitenden Entwicklung der Verfügbarkeit von großen Datenbeständen und der Möglichkeit, diese ›maschinell‹ aufzubereiten und auszuwerten, entstehen neue Ansätze der betrieblichen Transformation und Reorganisation. ›Industrie 4.0‹ ist inzwischen zum Synonym einer durch künstliche Intelligenz und cyber-physische Systeme (CPS) oder auch ›Cyber Physical Production System‹ (CPPS) betriebenen Produktion geworden, die zum größten Teil auf den modernen Technologien der Aufbereitung und Auswertung von ›Big Data‹ basieren. Daneben produzieren solche ›hybriden‹ Arbeitsumgebungen fortlaufend Daten und sind in der Lage, Arbeitsabläufe zu dokumentieren, die ›Performance‹ von Mitarbeiter*innen zu messen und Arbeitskraft entsprechend zu regulieren. Dabei wird neben der produktiven Anwendung durch KI-betriebene Datenanalyse und -aufbereitung auch die betriebliche (Re-)Organisation der Arbeitskraft verändert: Im Bereich des Personalmanagements oder Human Resource Management (HRM) versprechen unterschiedliche Ansätze wie bspw. ›People Analytics‹ oder ›HR-Analytics‹ Anwendungspotenziale für die anwachsenden Datenbanken der Unternehmen: »Datenbasierte Analysen können auch im HR-Bereich zu flachen Hierarchieebenen, objektiveren Entscheidungen und einem selbständigen Arbeiten der Mitarbeiter*innen führen.«6 Gerade im Bereich der datenbasierten Entscheidungsfindung oder Entscheidungsunterstützung etablieren sich sogenannte ›Front-End-Lösungen‹ wie IBM-Watson oder anwendungsspezifische KI-Analysetools wie HireVue. Diese nutzen die auf Algorithmen basierenden Analysen von firmeninternen und -externen Daten dazu, die Unternehmensführung bei Personalentscheidungen zu unterstützen. Von den Anbietern solcher Analyseanwendungen wird stets betont, dass die zugrundeliegenden Algorithmen und die KI-Tools einfach zu bedienen seien und – bei korrekter Anwendung – zu objektiveren Ergebnissen führten. Doch müssen dafür auf Ebene der Unternehmensführung zunächst einmal neue Kompetenzen ausgebildet werden: »Manager müssen lernen, mit künstlicher Intelligenz als Werkzeug umzugehen – genauso, wie sie vor einigen Jahren den Umgang mit Smartphones gelernt haben.«7 Die KI generierte und vernetzte ›Datafizierung‹ der Produktionsmittel und der an ihnen verrichteten Arbeit erscheint in diesem Zusammenhang als Qualifizierungsmerkmal, welches das Management unterstützt und zur Erlangung der Schlüsselkompetenz ›Wandlungsfähigkeit‹ beiträgt: »Im Fokus dieser vierten industriellen Revolution steht sowohl die Vernetzung der Produktions-und Automatisierungstechnik als auch die Vernetzung zwischen den 5 Reimund Neugebauer (Hg.), Digitalisierung. Schlüsseltechnologie für Wirtschaft und Gesellschaft, Heidelberg 2018., S. 269. 6 Cornelia Reindl, Stefanie Krügl, People Analytics in der Praxis - inkl. Arbeitshilfen online. Mit Datenanalyse zu besseren Entscheidungen im Personalmanagement, München 2017., S. 113. 7 Katja Joho, Künstliche Intelligenz. Wie Manager KI zu ihrem Werkzeug machen, https://ww w.wiwo.de/erfolg/management-der-zukunft/kuenstliche-intelligenz-wie-manager-ki-zu-ihre m-werkzeug-machen/20907208-all.html (Zugriff am 22.05.2018). 5 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 5 ZfP 67. Jg. 1/2020 Hierarchieebenen der IT-Architektur mittels neuster Informations- und Kommunikationstechnologien (IKT). Diese reichen vom Einsatz kostengünstiger Sensorik bis hin zu integrierten Manufacturing Execution Systems (MES) und Enterprise-Resource-Planning-Systemen (ERP-Systeme). Hierdurch wird die notwendige Transparenz und Infrastruktur geschaffen, um Entscheidungssituationen zu bewerten und im Sinne einer hohen Wandlungsfähigkeit Maßnahmen effizient umsetzen zu können. Die permanente Verfügbarkeit aller relevanten Informationen durch die Vernetzung aller am Wertschöpfungsprozess beteiligten Stufen bildet die Grundlage der Industrie 4.0. Durch die in Echtzeit verfügbaren Daten über den gesamten Wertschöpfungsprozess ist eine stetige Verbesserung der Wertschöpfung auf allen Stufen möglich.«8 Mitbestimmung und Interessenvertretung der Beschäftigten erscheinen unter diesen Verhältnissen zunehmend erschwert zu werden: »Aus Arbeitnehmersicht kommt die Gestaltungsperspektive im Diskurs immer noch zu kurz. Häufig werden beschleunigte Verfahren erwartet; Mitbestimmung sei zu langsam.«9 Dieser Befund und die Furcht vor dem Verlust technischer Innovationmöglichkeiten münden bspw. in der Forderung der Unternehmen, ein »vorläufiges Einführungsrecht« für neue Technologien in Unternehmen geltend zu machen.10 Die eingeforderte Flexibilität, ein Wandel hin zu einer ›Mitbestimmung 4.0‹, setzt allerdings ein fundiertes Wissen über die technologischen Neuerungen, die auf betrieblicher Ebene eingeführt werden sollen, voraus. Dabei sind auf betrieblicher Ebene die Beschäftigten bislang mit dem grundsätzlichen Widerspruch konfrontiert, dass sie einerseits kontinuierlich Daten über sich produzieren, auf die (ausschließlich) die Unternehmensführung Zugriff hat; und dass sie andererseits nur beschränkte Informationen darüber besitzen, was mit ›ihren‹ Daten anschließend passiert. Um diesen Widerspruch im Sinne der betrieblichen Mitbestimmung aufzulösen, müssen dringend Vereinbarungen getroffen werden, welche auch die Interessen der Mitarbeiterinnen und Mitarbeiter berücksichtigen. Daneben kann auch der Einsatz von KI nur unzureichend bewertet werden, denn Betriebsrät*innen sind in der Regel keine Expert*innen auf dem Gebiet der Informatik und können insofern auch die Mechanismen der algorithmischen Auswertung und des Data Mining nur bedingt nachvollziehen. Die aktuelle WSI-Betriebsrätebefragung dokumentiert die Unsicherheit auf Seiten der Beschäftigten und dem daraus entstehenden Regelungsbedarf: Neben den Arbeitszeitkonten gehört auch das Thema ›Datenschutz‹ (mit fast 70 %) zu den wichtigsten Themen der im Jahr 2017 geschlossenen Betriebsvereinbarungen. Das Hauptproblem besteht jedoch darin, dass sich Beschäftigte und Betriebsräte mit intransparenten Strukturen der Datenspeiche- 8 Giesela Lanza, Peter Nyhuis, Johannes Fisel, Alexander Jacob, Lars Nielsen, Matthias Schmidt, Nicole Stricker, Wandlungsfähige, menschzentrierte Strukturen in Fabriken und Netzwerken der Industrie 4.0. (acatech Studie), München 2018., S. 10. 9 Manuela Maschke, Sandra Mierich, Nils Werner, Arbeiten 4.0. Diskurs und Praxis in Betriebsvereinbarungen - Teil II, Düsseldorf 2018., S. 2. 10 Vgl. hierzu Plattform Industrie 4.0, Industrie 4.0 - Wie das Recht Schritt hält, Berlin 2016. 6 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 6 rung und -verarbeitung konfrontiert sehen. In ihrer Studie zum ›Cloud Computing‹ stellt Greve bereits vor 2 Jahren fest, dass »Regelungen fehlen, die sich tatsächlich auf die dahinterstehende Struktur einer cloudgestützten Datenverarbeitung beziehen. Die Frage nach dem verwendeten Cloud-Modell wird nicht beantwortet: Ob die Form des Software as a Service (SaaS), Platform as a Service (PaaS) oder Infrastucture as a Service (IaaS) gewählt wurde, ist aus dem Untersuchungsmaterial nicht ersichtlich. Ebenso wenig kann abgeleitet werden, ob es sich um eine Public Cloud, eine Private Cloud oder ein Hybrid Cloud handelt.«11 Neu daran ist jedoch, dass auf solche Cloud-Modelle mit autonom agierender KI zugegriffen werden kann, welche die erhobenen Daten algorithmisch weiterverarbeitet. Die Frage, ob und inwieweit die Interessen der Beschäftigten dabei gewahrt bleiben, erscheint dabei aus zweierlei Gründen schwer zu beantworten: Erstens beruhen die KI-Algorithmen, welche die Daten nach bestimmten Kriterien auswählen und auswerten, auf mathematischen Modellen. Um also den Prozess der Datenauswertung zu verstehen, bedarf es zunächst eines grundsätzlichen Verständnisses davon, wie der zugrundeliegende Algorithmus funktioniert. Selbst bei genauer Kenntnis über die Funktionsweise von Algorithmen, ist zweitens ein transparenter Einblick in das jeweilige Analyse- und Auswertungsprogramm nötig. Als Softwareprodukt ist KI zumeist ›anwenderfreundlich‹ gestaltet, d.h. die mathematischen Modelle und die Anwendung von Algorithmen laufen im ›Hintergrund‹ ab und sind auf der Benutzeroberfläche nicht ersichtlich und/oder nachvollziehbar. Der folgende Artikel soll die Akteur*innen der betrieblichen Mitbestimmung dahingehend einen grundlegenden Überblick über die aktuellen Entwicklungen auf dem Gebiet ›Big Data‹ und ›KI-gestützte Auswertung und Analysemodelle‹ geben. Als Anwendungsbeispiele werden dabei KI-Modelle aus dem ›Human Ressource Management‹ fokussiert. Hierfür ist es zunächst notwendig, den Begriff ›Big Data‹ näher zu erläutern, auch im Hinblick auf die Daten, die von Arbeitnehmerseite erhoben werden. Die Analyse und Auswertung von (Big Data-) Datensätzen im betrieblichen Umfeld wirft schon im Grundsatz datenschutzrechtliche Bedenken auf. Diese werden anhand des in 2018 in Kraft getretenen EU-Regelwerks, der sogenannten Datenschutzgrundverordnung (DS-GVO) nachgezeichnet. Anschließend soll der Auswertungsansatz von KI-gestützten Analysemodellen, die im HR-Bereich bereits zum Einsatz kommen, kritisch beleuchtet werden. Um zu beurteilen, ob ein KI-gestütztes Analysemodell zu objektiven Auswertungsergebnissen gelangt, muss es technisch evaluiert werden. Eine solche Analyse zeigen wir am Beispiel des Produkts ›Watson Analytics‹ und eruieren dabei auch die auftretenden Fehlerquellen. Im Anschluss an die Analysen und Ergebnisse erfolgt ein Rückbezug auf die betriebliche Mitbestimmung und auf deren Regelungsbedarf hinsichtlich zukünftiger Herausforderungen durch KI-Modelle. 11 Silke Greve, Cloud Computing, Düsseldorf 2016., S. 17. 7 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 7 ZfP 67. Jg. 1/2020 Der Stoff, aus dem Träume sind!? – oder die Frage »Was ist Big Data?« Der Begriff ›Big Data‹ umfasst die unterschiedlichsten Erklärungs- und Definitionsansätze. Eine einheitliche Definition scheint schon deshalb erschwert, weil bei ›Big Data‹ verschiedene Charakteristika und Eigenschaften12 fokussiert werden. Im Folgenden soll der definitorische Rahmen der Datenbeschaffenheit im Zentrum stehen, da sich auch die Fachliteratur, vor allem in den Bereichen HR-Analytics, Business Analytics und People Analytics, auf diese Definition bezieht. Bis vor Kurzem wurde Big Data noch durch die drei Kriterien Datenumfang, Datenvielfalt und Datengeschwindigkeit definiert, die auch als 3V-Model oder 3V's bekannt sind13. Demgegenüber ist der Definitionsrahmen mittlerweile um sieben Kriterien erweitert worden: neben dem Umfang, der Heterogenität und der Entstehungsgeschwindigkeit der Daten wird nun auch ihre Kontextualität, ihre Authentizität, ihre Visualisierbarkeit und ihr (ökonomischer) Nutzen zu den entscheidenden Merkmalen gerechnet14. Im Folgenden soll zunächst erläutert werden, in welchem Zusammenhang die Kriterien der Datenbeschaffenheit und der Begriff ›Big Data‹ stehen. Darüber hinaus wird auch ein Bezug zu den Arbeitnehmerinnen/Arbeitnehmern hergestellt, wobei insbesondere die zukünftige Nutzung von Big-Data-Analysen eine entscheidende Rolle spielt. Hier stellt sich die Frage, inwieweit die Daten von den Arbeitnehmerinnen/Arbeitnehmern selbst erzeugt werden und welchen Zweck personenbezogene Daten für die Unternehmen erfüllen. Ein naheliegendes Kriterium für Big Data ist der Umfang, den die jeweilige Datensammlung aufweist. Allerdings gibt es hierfür bislang noch keine genaue ›Mindestgrenze‹. Da sich die technischen Rahmenbedingungen fortlaufend ändern und weiterentwickeln, variieren die Angaben über den tatsächlichen Umfang15 oder werden von anderen Faktoren16 abhängig gemacht. Kennzeichnend für Big Data ist, dass Informationen aus unterschiedlichsten Quellen zusammengeführt werden, um aus den Daten mög- 12 Mauro et al. unterteilen die verschiedenen Definitionsansätze bspw. in 4 Gruppen: 1. Definitionsansätze, die die Beschaffenheit und Eigenschaften der Daten in den Vordergrund stellen. 2. Ansätze, die die technologischen Anforderungen zur Verarbeitung der Daten als charakteristisch definieren. 3. Definitionen die entweder die Grenze von konventionellen Speichermedien als charakteristisch ansehen oder die Definition von »groß« mit dem Moorschen Gesetz verbinden. 4. Definitionen, die den Effekt von Big Data auf die gesellschaftliche Entwicklung als charakteristisch erachten. Vgl. dazu Andrea de Mauro, Marco Greco, Michele Grimaldi, »A formal definition of Big Data based on its essential features« in: Library Review 65, Nr. 3 (2016), S. 122–135. 13 Vgl. dazu Philip Russom, Big Data Analytics, Renton 2011; Stefan Strohmeier, Franca Piazza, Human Resource Intelligence und Analytics, Wiesbaden 2015. 14 Georgios Skourletopoulos, George Mastorakis, Constandinos X. Mavromoustakis, Ciprian Dobre, Evangelos Pallis, Mobile Big Data, Cham 2018. 15 Eine in 2012 vom Konzern Intel durchgeführte Studie geht bspw. davon aus, dass Big Data nur in Organisationen oder Unternehmen entsteht, die durchschnittlich zwischen 300 und 500 Terabyte unstrukturierte Daten pro Woche produzieren. Vgl. dazu Peer Research Big Data Analytics. Intel’s IT Manager Survey on How Organizations Are Using Big Data 2012. 16 Microsoft definiert Big Data im Jahr 2013 bspw. als »Big data is the term increasingly used to describe the process of applying serious computing power – the latest in machine learning 8 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 8 lichst umfassende Erkenntnisse über Muster oder Zusammenhänge zu gewinnen. Dies bedeutet auch, dass die unterschiedlichen Daten nicht in homogenen Strukturen vorliegen, sondern aus heterogenen Strukturen generiert werden. Man unterscheidet dabei zwischen strukturierten Daten17, semi-strukturierte Daten18 und unstrukturierten Daten19. Heterogenität liegt aber nicht nur zwischen unterschiedlichen Datenstrukturen vor, sondern auch zwischen Datenformaten, die zur gleichen Kategorie gehören. Videound Audiodateien sind unstrukturierte Daten, die sich in den meisten Fällen deutlich voneinander unterscheiden. Data-Warehouse-Dateien und Tabellendateien, die häufig in Personalzusammenhängen genutzt werden, gehören zur Kategorie der strukturierten Daten, unterscheiden sich allerdings in Umfang und Inhalt voneinander. Die Zusammenführung und Auswertung großer Mengen von heterogenen Datenformaten lässt bereits vermuten, dass die Informationen aus unterschiedlichen Entstehungskontexten stammen. Dementsprechend ist die Kontextualität der Daten ein weiteres Charakteristikum für Big-Data-Analysen. Wie bereits erwähnt, zielen Big-Data-Analysen generell auf die Erhebung und Nutzung möglichst umfassender Datensätze. Im Idealfall werden hierzu möglichst viele unterschiedliche Kontexte durchsucht, wobei die dort enthaltenen Informationen auf die jeweilige Zielsetzung analysiert werden. Daraus ergibt sich allerdings die Notwendigkeit, die unterschiedlichen Kontexte als ›bestimmende Rahmenbedingungen‹ für den Informationsgewinn in die Auswertung miteinfließen zu lassen. Selbst in sehr hohem Umfang bleiben Informationen ohne Rückbezug auf ihren ursprünglichen Kontext abstrakt und sind für einen Erkenntnisgewinn, der nach konkreten Zusammenhängen sucht, irrelevant. Das Kriterium der Kontextualität der Daten führt zu einer weiteren Eigenschaft von Big Data: Die Authentizität der Daten. Große Datensätze liegen zumeist als Sammlung mit komplexer und/oder sehr heterogener Informationsstruktur vor. Als Basis für eine Auswertung muss zunächst ein theoretisches Modell existieren, das die gesammelten Informationen so strukturiert und in Beziehung zueinander setzt, dass eine zielgerichtete Auswertung möglich ist. Hierfür muss eine ›Datenbereinigung‹ durchgeführt werden, die bspw. irrelevante Informationen aussondert. Häufig gehen dabei jedoch auch relevante Informationen, die für das Auswertungsmodell durchaus von Interesse and artificial intelligence – to seriously massive and often highly complex sets of information.« Vgl. dazu Microsoft Corporation UK, The Big Bang: How the Big Data Explosion Is Changing the World, https://blogs.msdn.microsoft.com/microsoftenterpriseinsight/2013/04/ 15/the-big-bang-how-the-big-data-explosion-is-changing-the-world/ (Zugriff am 13.08.2018). 17 Daten, die bereits in einer Datenbankstruktur liegen oder ein vorgegebenes Format besitzen, das sich in eine Datenbank übernehmen lässt. Bspw. Information aus Excel-Tabellen, in denen jede einzelne Information eine Zeilen- und eine Spaltenposition besitzt. 18 Daten, die sowohl aus strukturierten als auch aus unstrukturierten Daten bestehen. Als Beispiel werden hier häufig E-Mails genannt, da diese sowohl strukturierte Daten (Absender*in, Empfänger*in) als auch unstrukturierte Daten (Nachrichtentext) aufweisen. 19 Bspw. Audio-, Video-, Textdateien oder Fotos, die bspw. personenbezogene Informationen in sich tragen, aber keine formale Organisation besitzen. 9 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 9 ZfP 67. Jg. 1/2020 wären, verloren. Um das zu vermeiden bzw. zu minimieren, ist es notwendig, einen kontinuierlichen Rückbezug zwischen den originären Informationen einer Datenquelle und den für die Auswertung aufbereiteten Informationen herzustellen. Entscheidend für jede Big-Data-Analyse ist auch die Entstehungsgeschwindigkeit der Daten. Grundsätzlich ist es durch den Ausbau schneller Internetleitungen sowie der technischen Entwicklung von kabellosen Internetverbindungen und ihrer inzwischen fast flächendeckenden Verfügbarkeit möglich geworden, Daten und Informationen asynchron und ortsunabhängig zu produzieren und mit anderen Nutzer*innen zu teilen. Mit dem alltäglichen Gebrauch unterschiedlichster Kommunikations- und Informationstechnologie (bspw. Geräte aus dem Bereich smart devices), der Restrukturierung und Rationalisierung von Speicherplätzen und Speicherorten (Cloud, ›platform as a service‹-Produkte etc.) sowie der flächendeckenden Nutzung von sozialen Netzwerken und Messenger-Diensten (bei Anbietern wie bspw. ›WhatsApp‹, ›Telegram‹ etc.) hat sich die Entstehungsgeschwindigkeit der Daten enorm erhöht.20 Hinsichtlich der Nutzung von immer schneller kursierenden Datenströmen und der dadurch generierten Informationsmenge, die zeit- und ortsunabhängig ist, kann eine zielgeleitete Auswertung nur noch durch Data Mining und eine algorithmisch gestützte Big-Data- Analyse bewältigt werden. Zudem ist es inzwischen technisch möglich, nicht nur zeitversetzt21 auf Daten zuzugreifen, sondern sie bereits während ihrer Entstehung, sozusagen in ›Echtzeit‹, zu analysieren und auszuwerten. Daneben sind Big-Data-Analysen auf die Visualisierung als spezifische Form der Informationsaufbereitung und -darstellung angewiesen. Dafür gibt es zwei Gründe: Erstens lassen sich die qualitativen und quantitativen Informationen, die sich aus den Auswertungen ergeben, häufig nicht adäquat in Text- oder Tabellenform wiedergeben. Zweitens können spezifische Analyseergebnisse (bspw. Mustererkennungen, Clusteranalysen, Prädiktionen oder Trendanalysen) nur auf Basis von entsprechender Visualisierung nachvollzogen und validiert werden. Der ökonomische Nutzen von Big-Data-Analysen und deren Informationsgehalt für eine strategische Unternehmensplanung wird als ›Potenzial‹ gesehen. Mit validen und dem Gegenstand angemessenen algorithmischen Auswertungsmethoden, die von Data Mining bis hin zur visuellen Aufbereitung nachvollziehbar und transparent gestaltet sind22, können Informationen sichtbar gemacht werden, die wiederum in die Unternehmensentscheidungen einfließen. Allerdings ist in betrieblichen Anwendungsfeldern, die unmittelbar die Beschäftigten (HRM und Personalmanagement) und die betriebliche Mitbestimmung betreffen, der Einsatz von HR-Analytics oder People- 20 Das Unternehmen Cisco prognostiziert, dass das monatlich bereitgestellte Datenvolumen, das jedes einzelnen mobilen Endgeräts sendet, zwischen 2017 und 2022 von 1,5 Gigabyte auf 9 Gigabyte ansteigen wird. Dies entspräche einer Steigerung von 46 %. Vgl. dazu Cisco, VNI Mobile Forecast Highlights, https://www.cisco.com/c/dam/assets/sol/sp/vni/forecast_h ighlights_mobile/pdf/Global_2022_Forecast_Highlights.pdf (Zugriff am 07.10.2019). 21 Zwischen Datenentstehung und Datenverwertung liegt ein gewisser Zeitraum. 22 Dies schließt die Berücksichtigung der o.g. Kriterien hinsichtlich des Entstehungshintergrundes der Daten und der Möglichkeit der Manipulation von Daten ausdrücklich ein. 10 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 10 Analytics-Ansätzen auf Basis von Big-Data-Auswertungen in Deutschland noch fragwürdig. Bislang ist zu beobachten, dass diesbezüglich in deutschen Unternehmen eher zurückhaltend agiert wird: Einerseits möchte man die Potenziale nutzen, die sich aus der Anwendung dieser neuen Technologien ergeben; andererseits fehlt die notwendige Expertise23 für eine dauerhafte Implementierung der Big-Data-basierten KI-Analysemodelle. Hinzu kommen scheinbare Anpassungsschwierigkeiten mit den datenschutzrechtlichen Grundlagen bei der Datenerhebung und deren Verarbeitung.24 Datenschutz und Big Data Die enormen Datenmengen, die auch personenbezogene Daten enthalten, werfen bereits bei ihrer Erhebung und Sicherung generelle Fragen zum Datenschutz auf. Als staatliches Regelwerk gelten in Deutschland neben den allgemeinen Grundrechten25 sowie den darauf aufbauenden Entscheidungen durch das Bundesverfassungsgericht und den Europäischen Gerichtshof (EuGH) auch das Bundesdatenschutzgesetz (BDSG) und die jüngst in Kraft getretene Datenschutz-Grundverordnung (DS- GVO)26. Im Folgenden soll erläutert werden, wie sich diese Regelungen auf die personenbezogenen Daten, die innerhalb von Big-Data-Analysen erhoben werden, auswirken. Zentraler Bezugspunkt des Datenschutzrechts und der Datenschutz-Grundverordnung sind die personenbezogenen Daten, die per definitionem alle Informationen enthalten, »die sich auf eine identifizierte oder identifizierbare natürliche Person (im Folgenden »betroffene Person«) beziehen; als identifizierbar wird eine natürliche Person 23 »Der Fachkräftemangel zeigt sich besonders ausgeprägt im Technologie/IT-Bereich. Hier spüren die meisten Unternehmen (57 %) den Fachkräftemangel am stärksten.« CFO Survey Herbst 2018. CFOs unter Druck - Fachkräftemangel und indirekte Kosten, Berlin 2018, S. 16. Vgl. hierzu auch bitkom, 82.000 freie Jobs: IT-Fachkräftemangel spitzt sich zu, https://www. bitkom.org/Presse/Presseinformation/82000-freie-Jobs-IT-Fachkraeftemangel-spitzt-sich-z u (Zugriff am 20.12.2018): »Der Mangel an IT-Fachkräften hat einen neuen Höchststand erreicht. In Deutschland gibt es derzeit 82.000 offene Stellen für IT-Spezialisten. Das entspricht einem deutlichen Anstieg um 49 Prozent im Vergleich zum Vorjahr.« 24 Laut einer Studie von bitkom in Kooperation mit der Landesbeauftragten für Datenschutz Niedersachsen haben erst knapp ein Viertel (24 %) aller deutschen Unternehmen die DSGVO vollständig umgesetzt. Vgl. hierzu Susanne Dehmel, Barbara Thiel, Vier Monate DS-GVO - wie weit ist die deutsche Wirtschaft?, Berlin 2018. 25 Grundlegend wird in Deutschland der Datenschutz durch das Recht auf informationelle Selbstbestimmung (Art. 2 Abs. 1 Ggi.V.m. Art. 1 Abs. 1 GG) geregelt: Nach einem Urteil des Bundesverfassungsgerichts aus dem Jahr 1983 gewährleistet dies die Befugnis des Einzelnen, »grundsätzlich selbst über die Preisgabe und Verwendung seiner persönlichen Daten zu bestimmen.« Vgl. hierzu den Text der Urteilsverkündung zum sog. ›Volkszählungsurteil‹ unter https://www.zensus2011.de/SharedDocs/Downloads/DE/Gesetze/Volkszaehlungsurteil_19 83.pdf_blob=publicationFile&v=9 (Zugriff am 01.10.2019). 26 Am 25.08.2018 trat im Rahmen der europäischen Datenschutzreform die Datenschutz- Grundverordnung (DS-GVO) in Kraft und löste die europäischen Datenschutzrichtlinien und Teile des Bundesdatenschutzgesetzes (BDSG) ab. 11 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 11 ZfP 67. Jg. 1/2020 angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung zu einer Kennung wie einem Namen, zu einer Kennnummer, zu Standortdaten, zu einer Online- Kennung oder zu einem oder mehreren besonderen Merkmalen identifiziert werden kann, die Ausdruck der physischen, physiologischen, genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität dieser natürlichen Person sind.«27 Mit Blick auf Big Data legt die neue DS-GVO verschiedene Grundsätze für die Verarbeitung von personenbezogenen Daten fest. Da die Verarbeitung personenbezogener Daten auf dem Grundsatz der Rechtmäßigkeit28 beruht, muss sie sich auf eine geltende Rechtsgrundlage stützen. Als zentrale Voraussetzung für die Zulässigkeit der Verarbeitung personenbezogener Daten sieht die DS-GVO die jeweilige Einwilligung der betroffenen Person vor.29 Allerdings ist im weiteren Rahmen der Verordnung festgelegt, dass personenbezogene Daten überall dort erhoben werden dürfen, wo sie zur Vertragserfüllung oder zum Vertragsabschluss30 oder zur Wahrung berechtigter Interessen31 erforderlich sind. Des Weiteren gibt die DS-GVO vor, dass personenbezogen Daten nach ›Treu und Glauben‹ und in einer für die betroffene Person nachvollziehbaren Weise verarbeitet werden müssen. Dies bedeutet, dass der Verantwortliche sowie der Zweck der Verarbeitung für die betroffene Person transparent sein muss.32 Sofern personenbezogene Daten nur zweckgebunden erhoben werden dürfen, muss der Zweck die jeweilige Datenerhebung im Einzelfall rechtfertigen.33 Das Prinzip der Zweckbindung wird so verstanden, dass ein bestimmter Zweck festgelegt ist, an den die Datenerhebung und deren Verarbeitung (grundsätzlich) gebunden ist. Die spätere Weiterverarbeitung der Da- 27 Vgl. Art. 4 Abs. 1, DS-GVO. 28 Vgl. Art. 5 Abs. 1 a) DS-GVO. 29 Vgl. Art. 6 Abs. 1 a) DS-GVO. 30 Vgl. Art. 6 Abs. 1 b) DS-GVO. 31 Vgl. Art. 6 Abs. 1 f) DS-GVO. 32 Das Prinzip der Transparenz ist in der DS-GVO im Erwägungsgrund 39 ›Grundsätze der Datenverarbeitung‹ näher umrissen. Darin heißt es: »Für natürliche Personen sollte Transparenz dahingehend bestehen, dass sie betreffende personenbezogene Daten erhoben, verwendet, eingesehen oder anderweitig verarbeitet werden und in welchem Umfang die personenbezogenen Daten verarbeitet werden und künftig noch verarbeitet werden. Der Grundsatz der Transparenz setzt voraus, dass alle Informationen und Mitteilungen zur Verarbeitung dieser personenbezogenen Daten leicht zugänglich und verständlich und in klarer und einfacher Sprache abgefasst sind. Dieser Grundsatz betrifft insbesondere die Informationen über die Identität des Verantwortlichen und die Zwecke der Verarbeitung und sonstige Informationen, die eine faire und transparente Verarbeitung im Hinblick auf die betroffenen natürlichen Personen gewährleisten, sowie deren Recht, eine Bestätigung und Auskunft darüber zu erhalten, welche sie betreffende personenbezogene Daten verarbeitet werden.« 33 Der Grundsatz der Datenminimierung ist im Erwägungsgrund 39 der DS-GVO wie folgt ausformuliert: »Die personenbezogenen Daten sollten für die Zwecke, zu denen sie verarbeitet werden, angemessen und erheblich sowie auf das für die Zwecke ihrer Verarbeitung notwendige Maß beschränkt sein. (…) Personenbezogene Daten sollten nur verarbeitet werden dürfen, wenn der Zweck der Verarbeitung nicht in zumutbarer Weise durch andere Mittel erreicht werden kann.« 12 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 12 ten für einen anderen Zweck ist damit allerdings nicht ausgeschlossen: So ist es bspw. möglich, personenbezogene Daten, die ursprünglich für einen anderen Zweck erhoben und gespeichert wurden, für ›statistische Zwecke‹34 weiterzuverarbeiten.35 Daten müssen nach dem Grundsatz der ›Richtigkeit‹ sachlich richtig und erforderlichenfalls auf dem neusten Stand sein. Je nach Erhebungszweck ist also eine kontinuierliche Überprüfung und ein andauernder Abgleich zwischen den bereits erhobenen Daten und den potenziell erneuerten Daten erlaubt und notwendig. Darüber hinaus ist das Vorhalten von personenbezogenen Datenbeständen im Grundsatz der Speicherbegrenzung zeitlich und formal eingeschränkt. Diese Daten dürfen nur »in einer Form gespeichert werden, die die Identifizierung der betroffenen Personen nur so lange ermöglicht, wie es für die Zwecke, für die sie verarbeitet werden, erforderlich ist.«36 Eine Speicherung der Daten über die Zweckbindung hinaus ist allerdings möglich, wenn die Daten anonymisiert werden. Schließlich ist bei der Erhebung und Verarbeitung von personenbezogenen Daten der Grundsatz der Integrität und Vertraulichkeit zu wahren. Die Verantwortlichen haben angemessene technische und organisatorische Mittel zu ergreifen, um die generelle Sicherheit vor unbeabsichtigter Zerstörung oder Schädigung und den Schutz vor unbefugter oder unrechtmäßiger Verarbeitung von personenbezogenen Daten zu gewährleisten.37 Hinsichtlich der EU-weit geltenden Verordnung für die Erhebung und Verwendung von personenbezogenen Daten ist der Einsatz von Big Data in betrieblichen Anwendungsfeldern als problematisch zu erachten. Grundsätzlich lässt sich festhalten, dass das eingeforderte Prinzip der Datenminimierung bei der Speicherung, Aggregation und Nutzung von Daten dem Big-Data-Ansatz konträr entgegensteht. Denn Big Data beruht auf einer möglichst umfassenden Datensammlung, was dem Prinzip ›so viele Daten wie nötig und so wenige wie möglich‹ widerspricht.38 Auch der Versuch ausschließlich solche Daten zu verwenden, die keinen Personenbe- 34 ›Statistische Zwecke‹ werden in der DS-GVO wie folgt gefasst: »Unter dem Begriff ›statistische Zwecke‹ ist jeder für die Durchführung statistischer Untersuchungen und die Erstellung statistischer Ergebnisse erforderliche Vorgang der Erhebung und Verarbeitung personenbezogener Daten zu verstehen. Diese statistischen Ergebnisse können für verschiedene Zwecke, so auch für wissenschaftliche Forschungszwecke, weiterverwendet werden. Im Zusammenhang mit den statistischen Zwecken wird vorausgesetzt, dass die Ergebnisse der Verarbeitung zu statistischen Zwecken keine personenbezogenen Daten, sondern aggregierte Daten sind und diese Ergebnisse oder personenbezogenen Daten nicht für Maßnahmen oder Entscheidungen gegenüber einzelnen natürlichen Personen verwendet werden.« Vgl. dazu Erwägungsgrund 162 ›Verarbeitung zu statistischen Zwecken‹. 35 Vgl. dazu Art. 5 Abs. 1 b) DS-GVO. 36 Vgl. Art. 5 Abs. 1 e) DS-GVO. 37 Vgl. Art. 5 Abs. 1 f) DS-GVO. 38 Machine learning als eine Methode der algorithmischen Verarbeitung von Big Data unterscheidet grundsätzlich zwischen den Ansätzen ›supervised learning‹ und ›unsupervised learning‹. Der Ansatz des supervised learning leitet aus bekannten Zusammenhängen eine Prognose oder Vorhersage für zukünftige Ereignisse ab, d.h. je mehr Daten über diesen Zusammenhang vorhanden sind, umso präziser die Vorhersage. Unsupervised learning zielt auf das ›Verstehen‹ und Sichtbarmachen von Zusammenhängen und Mustern in den vorliegenden Daten. Auch hier gilt zunächst, je mehr Daten vorliegen, desto wahrscheinlicher und präziser die Mustererkennung. 13 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 13 ZfP 67. Jg. 1/2020 zug aufweisen, oder die Daten vor der Verarbeitung zu anonymisieren, um sie ohne die o. g. Datenschutzrichtlinien verwenden zu können, erscheint mit zunehmender Verknüpfung unterschiedlicher Datensätze, Informationsquellen und Erfassungssysteme39 zu algorithmischen Auswertungszwecken zweifelhaft: »Das schiere Volumen der (auch öffentlich verfügbaren) Datenbestände und immer leistungsstärkere Analysewerkzeuge erschweren eine wirksame Anonymisierung so erheblich, dass teilweise bezweifelt wird, ob es unter den Bedingungen von Big Data überhaupt noch anonyme Daten geben kann (…).«40 Bspw. ist das Speichern und Auswerten von Metadateien aller gängigen Text-, Bildoder Videoformate sowie von Systemlogdateien zunächst auch ohne einen Personenbezug möglich. Je nachdem, worauf die Datenanalyse abzielt und welche Datenquellen dabei in Beziehung zueinander gesetzt werden, lässt sich anhand der Informationen nachvollziehen, wer diese Daten, wann und wo produziert hat und von welchem Gerät aus die Daten ins Internet, auf eine Arbeitsplattform oder in die Cloud gestellt wurden41. Je mehr Daten auf solche Weise über verschiedene Gerätenutzerinnen und -nutzer erhoben und verwertet werden, desto eher lässt sich darüber ein konkreter Personenbezug herstellen. Für die ›Reidentifizierbarkeit‹ spielen die erwähnten Merkmale Datengeschwindigkeit, Heterogenität und Kontextualität eine wichtige Rolle. Denn mit der immer schnelleren Analyse- und Verarbeitungsgeschwindigkeit und dem zunehmenden Anwachsen des Datenbestandes durch neu erfasste Daten aus unterschiedlichen Quellen erhöht sich auch die Gefahr eines »dynamischen Hineinwachsens in den Personenbezug«42: 39 Die Verknüpfung von ›cyber-physikalischen Produktionssystemen‹ (CPPS), dem ›Internet of Things‹ (IoT) Cloud Computing und prädiktiven Analysemethoden hin zur ›Smart Factory‹ ist bspw. darauf ausgerichtet, biometrische Daten und Leistungsdaten jedes einzelnen Beschäftigten der entsprechenden Produktionsumgebungen zu erheben. Vgl. dazu Jianing Sun, Minglei Gao, Qifeng Wang, Minjie Jiang, Xuan Zhang, Robert Schmitt, »Smart Services for enhancing Personal Competence in Industrie 4.0 Digital« in: Logforum 14, Nr. 1 (2018), S. 51–57. 40 Gerrit Hornung, Constantin Herfurth, »Datenschutz bei Big Data. Rechtliche und politische Implikationen«, in: Christian König, Jette Schröder, Erich Wiegand (Hg.), Big Data, Wiesbaden 2018, S. 149–183. 165. 41 Die Studie zur technischen Machbarkeit von ›Microtargeting‹ in Deutschland von Papakyriakopoulos et al. zeigt, wie durch algorithmische Auswertung von anonymen Metadaten im sozialen Netzwerk Facebook personenbezogen Daten sichtbar werden: »Auf den Seiten [hier sind die öffentlichen Profilseiten verschiedener deutscher Parteien gemeint, Anm. d. Verf.] wurden alle Posts extrahiert, die von den Betreibern seit dem Zeitpunkt der Seitenerstellung veröffentlicht wurden, sowie die Likes zu jedem Post, die von Facebook festgelegte ID der Nutzer, die geliked haben, und deren Profilname: In vielen Fällen ist der Profilname des Facebook-Accounts deckungsgleich mit dem ›Klarnamen‹ der Person oder dieser ist durch relativ geringen Aufwand herauszufinden. Dies war jedoch nicht Gegenstand unserer Studie.« Vgl. Orestis Papakyriakopoulos, Morteza Shahrezaye, Andree Thieltges, Juan Carlos Medina Serrano, Simon Hegelich, »Social Media und Microtargeting in Deutschland« in: Informatik-Spektrum 40, Nr. 4 (2017), S. 327–335. 42 Hornung, Herfurth, Datenschutz bei Big Data. Rechtliche und politische Implikationen, aaO. (FN 54), S. 165. 14 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 14 »Die zusätzlichen Eigenschaften von Big Data, die Varianz der Daten und ihrer Formate aus unterschiedlichen Quellen (»variety«), die Dynamik und Geschwindigkeit, in der sie erzeugt werden (»velocity«) und die Heterogenität in Qualität und Konsistenz (»variability«), stellen gängige Konzepte zur Anonymisierung zudem vor große Herausforderungen.«43 Erschwerend tritt hinzu, dass insbesondere bei der Vermischung von privaten und beruflichen Kontexten der Personenbezug immanent ist (bspw. durch eine nicht oder nur ungenügend geregelte »bring your own device«-Praxis)44. Durch diese ›Vermischung‹ von Kontexten entstehen bei der Auswertung von Big Data weitere Probleme: Die angewandten algorithmischen Modelle müssen die unterschiedlichen Kontexte zweifelsfrei identifizieren können, um die tatsächliche Bedeutung oder die Aussagekraft der dort enthaltenen Inhalte bewerten zu können. Darüber hinaus stellt sich bei der Verwendung von Daten aus unterschiedlichen Kontexten generell die Frage, wie die Informationen zu gewichten sind. Ein weiterer Punkt, der hinsichtlich der Auswertung von Big Data Fragen aufwirft, ist die Zweckbindung der Datenanalyse. Wie bereits erwähnt, ist es mit Data Mining und Machine Learning möglich, den Algorithmus selbstständig nach Mustern in den Daten suchen zu lassen. Der Zweck dieser Suche – sowie die damit verbundene Zielsetzung – kann nicht im Voraus bestimmt werden, da die Analyse ja gerade in der Auffindung von noch unbekannten Mustern und Zusammenhängen besteht. Eine diesbezügliche Verwendung von personenbezogenen Daten ist, gemäß den Richtlinien der DS-GVO, zunächst verboten. Doch sind nachträgliche Zweckänderungen, die das Analyseziel klar definieren, unter bestimmten Voraussetzungen möglich. Wie bereits erläutert, ist die Verwendung von personenbezogenen Daten für statistische Zwecke unter Berücksichtigung bestimmter »Garantien für die Rechte und Freiheiten der betroffenen Person«45 erlaubt. Demgegenüber erscheint auch der ausdrückliche Verweis auf eine Pseudonymisierung zum Schutz der personellen Daten vor der Möglichkeit einer Reidentifizierung von Einzelpersonen als überholt. Zudem sind Zweckänderungen bei der Weiterverarbeitung von personenbezoge- 43 Ninja Marnau, »Anonymisierung, Pseudonymisierung und Transparenz für Big Data« in: Datenschutz und Datensicherheit - DuD 40, Nr. 7 (2016), S. 428–433. 44 Neben der Benutzung von Geräten für berufliches und privates gibt es immer mehr Arbeitnehmer*innen die Profile in sozialen Netzwerken sowohl für die Mitteilung und Verbreitung privater Inhalte oder den privaten Status, als auch für die berufliche Kommunikation, Informationen und Repräsentation nutzen. 45 In der DS-GVO werden diese Garantien wie folgt gefasst: »Die Verarbeitung zu im öffentlichen Interesse liegenden Archivzwecken, zu wissenschaftlichen oder historischen Forschungszwecken oder zu statistischen Zwecken unterliegt geeigneten Garantien für die Rechte und Freiheiten der betroffenen Person gemäß dieser Verordnung. Mit diesen Garantien wird sichergestellt, dass technische und organisatorische Maßnahmen bestehen, mit denen insbesondere die Achtung des Grundsatzes der Datenminimierung gewährleistet wird. Zu diesen Maßnahmen kann die Pseudonymisierung gehören, sofern es möglich ist, diese Zwecke auf diese Weise zu erfüllen.« Vgl. DS-GVO Abs. 1 Art. 89 ›Garantien und Ausnahmen in Bezug auf die Verarbeitung zu im öffentlichen Interesse liegenden Archivzwecken, zu wissenschaftlichen oder historischen Forschungszwecken und zu statistischen Zwecken‹. 15 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 15 ZfP 67. Jg. 1/2020 nen Daten auch zulässig, wenn die betroffene Person in die Zweckänderung einwilligt. Hinsichtlich der Anwendung von Big-Data-Analysen in betrieblichen Zusammenhängen ist die Zweckänderung im Einzelfall den Betriebsparteien selbst überlassen. Der Erwägungsgrund 43 DS-GVO stellt hier generell die Gültigkeit einer Einwilligung auf Basis eines »klaren Ungleichgewichts«46 zwischen Verantwortlichen und Betroffenen infrage. Allerdings stellen Hornung und Hofmann (2018) dazu fest, dass »[a]nders als in den Beratungen [gemeint sind hier die Beratungen zum Gesetzentwurf, Anm. d. Verf.] wird das Arbeitsverhältnis nicht mehr explizit als Beispiel hierfür genannt, sodass abgewartet werden muss, wie die Gerichte den Tatbestand auslegen.«47 Im Hinblick auf den Beschäftigtendatenschutz muss auch auf das generelle Problem der Intransparenz von Big Data hingewiesen werden, und zwar in zweifacher Hinsicht: Allein aufgrund der Datenmenge ist es für den Einzelnen häufig unmöglich, zu prüfen, welche Daten, aus welcher Quelle, für welche Anwendung genutzt werden. Diese Unüberschaubarkeit der Daten steht dem Recht auf informationelle Selbstbestimmung entgegen. Die Intransparenz setzt sich auf der Ebene der Analyse von Big Data fort. Das Zustandekommen der Analyseergebnisse, d.h. die Möglichkeit grundsätzlich nachzuvollziehen, wie welcher Algorithmus angewendet wird, welche Fehlerquellen zu beachten sind und wie dementsprechend die Analyseergebnisse zu bewerten sind, ist sowohl für die Anwender*in als auch für die ›Datenspender*in‹ eine ›black box‹48-System. Die datenschutzrechtliche Forderung nach Transparenz wird dabei durch zwei Aspekte erschwert, die vor allem das Informationsinteresse der Beschäftigten betreffen: Software-Anwendungen zur Analyse von Big Data sind häufig von Unternehmen zugekaufte Produkte, die von Entwickler*innen produziert, angeboten und vertrieben werden. Dementsprechend ist und bleibt das Softwareprodukt das geistige Eigentum der Entwickler*innen und wird durch das Betriebs- und Geschäftsgeheimnis geschützt. Die Offenlegung der verwendeten Algorithmen in einer solchen Software widerspricht dem Geschäftsgeheimnis, weshalb die Entwickler*innen nicht dazu verpflichtet ist, Auskünfte darüber zu geben. In Erwägungsgrund 63 der DS-GVO wird festgelegt, dass das Auskunftsrecht »die Rechte und Freiheiten anderer Personen, etwa 46 Ein klares Ungleichgewicht wird dort wie folgt definiert: »Um sicherzustellen, dass die Einwilligung freiwillig erfolgt ist, sollte diese in besonderen Fällen, wenn zwischen der betroffenen Person und dem Verantwortlichen ein klares Ungleichgewicht besteht, insbesondere wenn es sich bei dem Verantwortlichen um eine Behörde handelt, und es deshalb in Anbetracht aller Umstände in dem speziellen Fall unwahrscheinlich ist, dass die Einwilligung freiwillig gegeben wurde, keine gültige Rechtsgrundlage liefern.« Vgl. Erwägungsgrund 43 ›Zwanglose Einwilligung‹ DS-GVO. 47 Gerrit Hornung, Kai Hofmann, »Datenschutz als Herausforderung der Arbeit in der Industrie 4.0«, in: Hartmut Hirsch-Kreinsen, Peter Ittermann, Jonathan Niehaus (Hg.), Digitalisierung industrieller Arbeit. Die Vision Industrie 4.0 und ihre sozialen Herausforderungen, Baden-Baden 2018, S. 165–185. 48 Vgl. dazu Diakopoulos, Algorithmic Accountability Reporting: On the Investigation of Black Boxes, aaO. (FN 48). 16 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 16 Geschäftsgeheimnisse oder Rechte des geistigen Eigentums und insbesondere das Urheberrecht an Software, nicht beeinträchtigen.« Zwar wird eingeräumt, dass dies nicht dazu führen darf, »dass der betroffenen Person jegliche Auskunft verweigert wird«, allerdings darf der Verantwortliche, der Big Data Sammlungen anlegt und diese zu Analysezwecken nutzt, verlangen, »dass die betroffene Person präzisiert, auf welche Information oder welche Verarbeitungsvorgänge sich ihr Auskunftsersuchen bezieht, bevor er ihr Auskunft erteilt.«49 Eine vorhergehende, intensive Auseinandersetzung mit der Funktionsweise von Big-Data-Analysen, mit der Datenverknüpfung und Datenauswertung, ist entsprechende Voraussetzung für eine präzise Nachfrage. Ob diese jedoch auch im Interesse der Betroffenen beantwortet wird, bleibt dabei offen – vor allem dann, wenn die Daten auf Servern gespeichert, vorgehalten und verarbeitet werden, die nicht im Geltungsraum der DS-GVO oder der BDSG liegen. Diese ›Auftragsverarbeitung‹50 durch Unternehmen, die nicht dem Europäischen Wirtschaftsraum angehören, ist aus datenschutzrechtlicher Sicht besonders problematisch: »So war eine Auftragsdatenverarbeitung durch ein beauftragtes Unternehmen au- ßerhalb des Europäischen Wirtschaftsraumes nach deutschem Recht bisher ausgeschlossen (§ 3 Abs. 8 BDSG). Die Datenschutz-Grundverordnung enthält kein solches Verbot (Müthlein 2016, S 83; Schmitz/Dall‹ Armi 2016a, S. 430f), sondern unterwirft die Auftragsdatenverarbeitung im Ausland denselben (zusätzlichen) Anforderungen wie die Übermittlung in Drittländer (Schmidt/Freund 2017, S. 16). Diese ist prinzipiell verboten, wenn das Datenschutzniveau im Empfängerland nicht »angemessen« ist, das heißt wesentlich unter europäischen Niveau liegt. Dies gilt auch für Unternehmen desselben Konzerns (Kort 2016, S. 558).«51 Algorithmische Entscheidungshilfen Die vorangegangene Darstellung der charakteristischen Merkmale von Big Data sowie die kritische Gegenüberstellung von Big Data und Datenschutz erlauben nun einen Ausblick auf die Auswertung der Daten. Denn erst hierdurch erhalten Daten ihr Anwendungspotenzial.52 Datenauswertungen, die mit Machine Learning oder selbstlernenden Algorithmen durchgeführt werden, verfolgen einen prädiktiven Ansatz: Die in Big Data enthaltenen Informationen werden dazu genutzt, konkrete ›Vorhersagen‹ und Szenarien für die zukünftige Unternehmensausrichtung zu prognostizieren. Darüber hinaus sind bestimmte algorithmische Modelle in der Lage, die vorhandenen Daten ei- 49 Vgl. Erwägungsgrund 63 ›Auskunftsrecht‹ DS-GVO. 50 Der Begriff ›Auftragsverarbeitung‹ aus der DS-GVO ersetzt den Begriff ›Auftragsdatenverarbeitung‹ aus dem BDSG. 51 Hornung, Hofmann, Datenschutz als Herausforderung der Arbeit in der Industrie 4.0, aaO. (FN 61), S. 178. 52 »Just collecting data has less business significance. (…) Analytics brings value to the data. « Neetu Jain, Maitri, »Big Data and Predictive Analytics. A Facilitator for Talent Management«, in: Usha Mujoo Munshi, Neeta Verma (Hg.), Data Science Landscape, Singapore 2018, S. 199–204, S. 199. 17 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 17 ZfP 67. Jg. 1/2020 genständig auf Muster zu untersuchen. Ziel dieser Auswertungsmethode ist es, anhand der neu erkannten Muster potenzielle Entwicklungschancen abzuleiten oder Steuerungszusammenhänge zu hinterfragen: »Ziel ist es, Ursache-Wirkungszusammenhänge aufzudecken und zu versuchen, kausale Zusammenhänge (»A beeinflusst B« oder »Nur wenn A hoch, dann B hoch/ niedrig«) nicht nur zu interpretieren, sondern auch in den konkreten Daten durch Analysemethoden nachzuweisen.«53 Die Anwendung von Machine Learning, Predictiv Analytics oder KI-Modellen zur Unterstützung von Unternehmensentscheidungen bietet dahingehend ein großes Potenzial. Die zugrundeliegende Annahme ist, dass mit Big Data umfassendere Informationen generiert werden können, wodurch auch künftige Ereignisse vorhersehbarer und kontrollierbarer werden.54 Hierzu lässt sich sagen, dass es mittels Data Mining und Machine Learning prinzipiell möglich wird, Verhaltensweisen von Individuen oder Gruppen sichtbar zu machen, Präferenzen zu analysieren oder mit Hilfe ›selbstlernender Algorithmen‹ aus Big Data neue Beziehungsmuster abzuleiten, um daraus potenzielle Schlüsse zu ziehen. Für die konkrete, unternehmensbezogene Anwendung erweist sich jedoch »eine zielgerichtete und aufgabenadäquate Aufbereitung des Rohdatenmaterials«55 als unabdingbar. Das unterstellte Potenzial von Big Data kann sich demnach nur entfalten, wenn bei Data Mining und der Datenaggregation bereits eine konkrete Zielsetzung verfolgt wird und diese Schritte nicht einfach auf eine möglichst umfassende Datenansammlung zielen. Gleichzeitig muss die Datensammlung daraufhin überprüft werden, ob ihr qualitativer Gehalt überhaupt für den gewünschten Zweck tauglich ist: »Eine hinreichende Datenqualität und harmonisierte Datenstrukturen sind sicherlich die Grundvoraussetzung für einen erfolgreichen Einsatz von Predictive Analytics. Die Methoden können so gut sein, wie sie wollen; wenn der Input nicht stimmt, wird das Ergebnis dementsprechend mangelhaft sein.«56 Grundsätzlich muss daran erinnert werden, dass es sich bei prädiktiven Analysen, die mit Machine Learning, selbstlernenden Algorithmen oder KI durchgeführt werden, um mathematische Modelle handelt, die Wahrscheinlichkeiten ermitteln. Dementsprechend muss die o.g. Annahme relativiert werden: 53 Reindl, Krügl, People Analytics in der Praxis, aaO. (FN 6), S. 36. 54 »Analytics have brought a significant difference bringing an element of quantifiable outcome and predictability to enhance performance and productivity of work force.« Namrata Kishnani, »Talent Analytics for Organizations of 21st Century« in: SSRN Electronic Journal (2019)., S. 221–231, S. 221. 55 Vgl. Peter Chamoni, Peter Gluchowski, »Business Analytics — State of the Art« in: Controlling & Management Review 61, Nr. 4 (2017), S. 8–17., S. 9. 56 Utz Schäffer, »Predictive Analytics macht Planung und Steuerung flexibler« in: Controlling & Management Review 61, Nr. 4 (2017), S. 34–40., S. 39. 18 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 18 »The marriage of people data and algorithm-based artificial intelligence (AI) raises (…) concerns to a new level. Just as people may never know why a certain advertisement pops up on their Web browser, business leaders are beginning to realize that «data-driven decisions” are not guaranteed to be understandable, accurate, or good.«57 Seit geraumer Zeit wird vor diesem Hintergrund die Nützlichkeit von prädiktiven Ansätzen für das Personalmanagement diskutiert.58 Anwendungsbeispiele in der betrieblichen Praxis finden sich dafür bisher im sog. ›Talent Recruitment‹ oder ›Workforce Management‹. Dass im Bereich des Human Resource Management nun auch in Deutschland die ersten Versuche unternommen werden, prädiktive Analysen mit Machine Learning oder KI-Modellen anzuwenden, könnte einerseits auf den zunehmenden Fachkräftemangel zurückgeführt werden, der die wirtschaftliche Situation der Unternehmen erheblich trübt.59 Andererseits, so das Versprechen von Entwickler*innen und kommerziellen Anbieter*innen, lassen sich mit der maschinellen Suche und (Vor-)Auswahl von potenziellen Arbeitskräften die Kosten der Reorganisation deutlich effizienter gestalten. In diesem Zusammenhang wird häufig argumentiert, dass die auf Machine Learning oder KI-Modellen basierende Bewerber*innenauswahl nicht nur während des tatsächlichen Anwerbungsprozesses kosteneffizienter sind, sondern auch schon in der Auswahl der passenden Bewerber*innen Kosten eingespart werden können: »Data-analyses have shown repeatedly that personality measures can predict job performance fairly well under certain conditions. (…) This would allow for more informed hiring decisions that could save the company valuable time and resources that might otherwise go into hiring and training employees who might not be wellsuited for the particular job in question.«60 57 Dimple Agarwal, Josh Bersin, Gaurav Lahiri, Jeff Schwartz, Erica Volini, The rise of the social enterprise. 2018 Deloitte Global Human Capital Trends 2018. 58 Vgl. dazu u.a. Sjoerd van den Heuvel, Tanya Bondarouk, »The rise (and fall?) of HR analytics« in: Journal of Organizational Effectiveness: People and Performance 4, Nr. 2 (2017), S. 157–178; Dana Minbaeva, »Human capital analytics: why aren't we there? Introduction to the special issue« in: Journal of Organizational Effectiveness: People and Performance 4, Nr. 2 (2017), S. 110–118; Julie Fernandez, »The ball of wax we call HR analytics« in: Strategic HR Review 18, Nr. 1 (2019), S. 21–25. 59 »Das größte Hemmnis ist der Fachkräftemangel. Mittlerweile sehen sechs von zehn Unternehmen hierin eine Gefahr für ihre Geschäftsentwicklung. Bleiben dringend benötigte Stellen unbesetzt, wird es immer schwieriger anstehende Aufträge abzuarbeiten. Zweitgrößtes Risiko ist die Entwicklung der Arbeitskosten.« Ilja Nothnagel, Sophia Krietenbrink, Kathrin Andrae, Jacob Flechtner, Kevin Heidenreich, Michael Liecke, Wirtschaft unter Volldampf, Engpässe nehmen zu. DIHK-Konjunkturumfrage bei den Industrie - und Handelskammern, Berlin 2018., S. 4. 60 Ayeshaa Parveen Abdul Waheed, Mojgan Moshirpour, Mohammad Moshirpour, Jon Rokne, Reda Alhajj, »Effective Personnel Selection and Team Building Using Intelligent Data Analytics«, in: Mohammad Moshirpour, Behrouz Far, Reda Alhajj (Hg.), Highlighting the Importance of Big Data Management and Analysis for Various Applications, Cham 2018, S. 61– 69. 19 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 19 ZfP 67. Jg. 1/2020 Zudem wird argumentiert, dass die algorithmische Beurteilung bei der Auswahl der Bewerber*innen ›objektiver‹ und ›gerechter‹ sei, da die Gefühlsebene (bspw. Sympathie/Antipathie) ausgeblendet wird und persönliche Präferenzen oder Abneigungen keinen Einfluss auf den Auswahlprozess haben.61 Technisch unterscheiden sich die KIgestützten Bewerbungsverfahren deutlich voneinander: Bot-gestützte Ansätze von Anbietern wie MYA62 oder MeetFrank63 nutzen bspw. das sog. ›natural language processing‹, um automatisierte Interviews zu führen und Bewerber*innen nach bestimmten Kriterien zu sortieren. Andere Anbieter*innen wie bspw. ARYA nutzen einen Mix aus unterschiedlichen Methoden: Durch ›microtargeting‹ und der algorithmischen Umsetzung von psychologischen Modellen (bspw. ›behavioral pattern recognition‹) werden geeignete Bewerber*innen identifiziert, sortiert und dann dem jeweiligen Personalmanagement vorgeschlagen. Die dafür benötigte Datengrundlage besteht nicht aus Interviews, sondern wird aus bereits bestehenden digitalen Bewerbungsunterlagen (bspw. aus digitalen Jobbörsen) ›extrahiert‹. Bei Anbietern wie HireVue erkennt und analysiert eine KI während eines Videointerviews den Tonfall, die Gestik und die Mimik der Bewerberin/des Bewerbers. Diese Daten werden dann auf Grundlage eines psychologischen Modells mit den jeweiligen Testdaten verglichen. Mit Hilfe eines Algorithmus, der eine Rangfolge der Bewerber*innen erstellt, werden dem Personalmanagement die ›besten‹ empfohlen. Außerdem existieren sog. ›gamification‹ Ansätze von Anbietern wie bspw. Pyrametrics: Dabei spielen die Bewerber*innen unterschiedliche 61 Die HR-Abteilung von Google setzt bspw. auf ein selbstentwickeltes algorithmisches Modell (»Project Janus«), das vormals abgelehnte Bewerberinnen und Bewerber ›nachbeurteilt‹, um eine mögliche Fehlentscheidung bei der Ablehnung zu korrigieren. Vgl. dazu John Sullivan, How Google Is Using People Analytics to Completely Reinvent HR, https://www.tlnt.c om/how-google-is-using-people-analytics-to-completely-reinvent-hr-2/ (Zugriff am 01.02.2019)). 62 »In order to communicate with Mya a candidate must first apply for a job on the employer’s website. Afterward, Mya will help the employer by asking candidates key questions and, based on their answers; will determine if the candidate posses the required skills for the position he/she is applying. Mya will also extract data from the candidate resume; will score applications and even, schedule interviews.« George Suciu, Adrian Pasat, Carmen Nădrag, Cristina Bălăceanu, Alexandru Drosu, »Design of an internship recruitment platform employing NLP based technologies«, in: Institute of Electrical and Electronics Engineers (Hg.), Proceedings of the 10th International Conference on Electronics, Computers and Artificial Intelligence - ECAI-2018. 28 June-30 June 2018, [Piscataway, New Jersey] 2018, S. 1–6; Vgl. dazu auch Ria Roy, »Corporate Recruiting Opening Its Doors to AI: The Performance Opportunity?« in: Performance Improvement 56, Nr. 10 (2017), S. 43–44. 63 Cindy Michel, Was bringt Künstliche Intelligenz bei Jobsuche und Personalauswahl – und was nicht?, https://www.wired.de/article/was-bringt-kuenstliche-intelligenz-bei-jobsuche-u nd-personalauswahl-und-was-nicht (Zugriff am 21.08.2018). Interessant ist, dass MeetFrank einen Überblick über die allgemeinen Gehaltsvorstellungen in bestimmten Branchen liefert, die sich aus den individuelle Gehaltsvorstellung der App-Nutzer*innen ergibt. Diese Informationen sind für Unternehmen (in Deutschland wird die App u.a. von Daimler, E.ON, DeliveryHero, SumUp, Blinkist, HIGH Mobility oder auch MyTaxi genutzt) bei der Personalbeschaffung höchst relevant. Damit wird den Unternehmen eine ständige Vergleichsgröße zu ihren Löhnen geliefert, die das Potenzial birgt, die Konkurrenzsituation der Arbeitnehmer*innen untereinander zu verschärfen. 20 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 20 Spiele64, die auf neurowissenschaftlichen Theorien und Methoden beruhen und die die Eignung der Bewerberin/des Bewerbers bewertet.65 Für eine bessere Vergleichbarkeit und Analyse der für die jeweilige Stelle notwendigen Fähigkeiten und Charaktereigenschaften werden die Spiele vorher von den ›top performern‹ des jeweiligen Unternehmens gespielt. Aus diesen Ergebnissen berechnet dann ein Algorithmus ein Modell der idealen Kandidatin/des idealen Kandidaten. Neben der oben genannten immanenten Problematik der Zusammensetzung von Datenquellen, die für solche KI-Modelle gebraucht werden, können die methodischen Grundlagen eines solchen Modells aus Sicht von Arbeitnehmer*innenn ebenfalls problematisch werden. Zumeist wird der Algorithmus auf einen bestimmten Bewerbertypus ›trainiert‹. D.h. die technisch erfassbaren Daten und Informationen werden mit einem vom Unternehmen festgelegten ›Wunschprofil‹ verglichen, gerankt und ausgewählt. Wie in den oben genannten Anwendungsbeispielen beschrieben, unterscheiden sich die Methoden der Datengewinnung für den Trainingsdatensatz voneinander. Diese Daten (bspw. die der ›top performer‹ im o.g. gamification-Ansatz) werden anschließend dafür benutzt, Algorithmen auf Basis von ›supervised‹66 oder ›unsupervised learning‹67 auf eine Mustererkennung oder Klassifikation zu trainieren. Wenn der Trainingsdatensatz wie im o.g. Beispiel nur die ›top performer‹ beinhaltet, hat bereits eine Selektion der Daten stattgefunden: Über die Eingrenzung der Daten auf eine bestimmte Gruppe von Beschäftigten, ist es sehr wahrscheinlich, dass der darauf beruhende Klassifikator oder die Mustererkennung eine Verzerrung (sog. ›bias‹) aufweist68. Qualitativ zielt eine solche Klassifikation oder Mustererkennung auf eine möglichst exakte Reproduktion von unternehmensinternen Kriterien und persönlichen Merkmalen einer bestimmten (leistungsorientierten) Beschäftigtengruppe. Damit werden dann die Bewerber*innen verglichen: Im Ergebnis führen ›störende‹ Merkmale der Kandidat*innen zu einer schlechteren Bewertung und letztendlich zum Ausschluss. Neben der so zustande gekommenen, fragwürdigen Reproduktion der Belegschaft, muss ein solch ›arbeitgeberzentiertes‹ Verfahren auch da- 64 Bei Pyrametrics sind es bspw. 12 unterschiedliche Spiele. 65 Am Beispiel der Ermittlung von ›Risikoaversion‹ wird aufgezeigt, wie ein solches Spiel abläuft und worauf die Beurteilung abzielt: »[It, Anm. d. Verf.] gives users three minutes to collect as much ›money‹ as possible using the following system. Clicking ›pump‹ inflates a balloon by 5 cents; at any point, the user can click ›collect money‹. If the balloon pops, the user receives no money. A cautious user who takes a small amount of money from each balloon is neither better nor worse than an adventurous user who takes each balloon to its limit. They just receive different types of scores.« Vgl. Leanna Garfield, A startup claims to have finally figured out how to get rid of bias in hiring with brain games and artificial intelligence, https://www.businessinsider.sg/hiring-diversity-brain-games-artificial-intelligence-automati on-2017-9/ (Zugriff am 04.02.2019). 66 Dem Algorithmus wird ein bestimmtes Muster vorgeben, dass er in den Daten finden soll. Hier besteht das »Training« darin, die Fehlerquelle bei der Suche zu minimieren. 67 Der Algorithmus wird darauf trainiert selbstständig Muster zu identifizieren. D.h. der Algorithmus lernt anhand selbstgewählter Kriterien aus den vorhandenen Trainingsdaten. 68 Wenn sich der Trainingsdatensatz bspw. mehrheitlich aus männlichen, weißen Mitarbeitern im Alter zwischen 28 und 35 zusammensetzt, wird die Klassifikation durch diese Merkmale verzerrt. 21 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 21 ZfP 67. Jg. 1/2020 hingehend hinterfragt werden, ob dieses einseitige ›matching‹ dem oben genannten Fachkräftemangel nicht zuwiderläuft: »Bei Fachkräftemangel helfen starre Verfahren nicht weiter« sagt sie. [Gemeint ist hier Heike Ballhaus, Leiterin Talentmanagement und Organisationsentwicklung beim Beratungsunternehmen Willis Towers Watson, Anm. d.Verf.] »Die Recruiter müssen die Jobprofile heute stärker mit den Bedürfnissen der Kandidaten in Übereinstimmung bringen.«69 Für die Bewerber*innen stellt sich zudem die Frage nach der Transparenz der vom Unternehmen festgelegten Kriterien und deren algorithmischer Umsetzung in einem KI-Modell. Werden Entscheidungen aufgrund von Korrelationen bestimmter Merkmale getroffen oder steht hinter den angewandten Kriterien eine Klassifikation, die von einer validen Kausalität untermauert ist? Wie sind die Kriterien untereinander gewichtet? Gibt es Interdependenzen innerhalb des Modells und entspricht dies auch den tatsächlichen Anforderungen an den jeweiligen Arbeitsplatz? »Wenn zwei Merkmale zusammenfallen, heißt das nicht, dass das eine das andere verursacht. Überlässt man eine künstliche Intelligenz sich selbst, besteht tatsächlich die Gefahr, dass sie irgendwann nach merkwürdigen Kriterien entscheidet. Ihr fehlt das Fachwissen. Bevor man eine bestimmte Eigenschaft zum Auswahlkriterium macht, sollte immer die Frage geklärt werden: Ergibt das denn inhaltlich überhaupt Sinn? Oder sitzt man eher einer Scheinkorrelation auf?«70 Analyse algorithmischer Auswertung am Beispiel IBM-Watson-Analytics Neben dem Bereich Recruitment werden inzwischen auch in anderen Bereichen des Personalmanagements KI-Modelle angewendet, die auf algorithmischer Berechnung, Aufbereitung und Empfehlung beruhen. Der deutsche Anbieter PRECIRE hat sich bspw. auf KI-Modelle spezialisiert, die »es erstmals ermöglichen soll[en], von Sprache zuverlässig auf die dahinterliegende Persönlichkeit zu schließen. Mit PRECIRE® sollen Persönlichkeitsmerkmale, darunter die sog. ›Big Five‹, anhand eines 15-minütigen Interviews gemessen werden.«71 69 Christine Demmer, »So verändern Roboter die Jobsuche« in: Süddeutsche Zeitung, Nr. 17.06.2017 (2017), https://www.sueddeutsche.de/karriere/bewerbung-so-veraendern-rob oter-die-jobsuche-1.3544051 (Zugriff am 18.02.2019). 70 Bernd Kramer, »Roboter Recruiting. ›Der Algorithmus diskriminiert nicht‹« in: Die Zeit, Nr. 09.02.2018 (2018), https://www.zeit.de/arbeit/2018-01/roboter-recruiting-bewerbungsge spraech-computer-tim-weitzel-wirtschaftsinformatiker/komplettansicht (Zugriff am 18.02.2019). 71 Lena Schaumlöffel, Ricarda Hübner, Svenja Thiel, Klaus P. Stulle, »Du bist, was du sprichst. Validierung der Sprachanalysetechnologie PRECIRE® anhand des HEXACO®-Persönlichkeitsmodells«, in: Stulle (Hg.) 2018 – Psychologische Diagnostik durch Sprachanalyse, S. 57– 158. 22 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 22 Auf Basis der so gewonnenen Daten bietet PRECIRE aktuell zwei KI-gestützte Lösungen für Personalentwicklung an: Das Modul ›PRECIRE develop‹ verspricht »maßgeschneiderte Trainingsvorschläge« für »agile Mitarbeiter und Führungskräfte«.72 Das zweite Modul ›PRECIRE CommPass‹ »identifiziert persönliche Ressourcen und Entwicklungsfelder und gibt passgenaue Vorschläge zur Verbesserung der kommunikativen Wirkung.«73 Google setzt als Unternehmen bereits schon seit längerem auf die unternehmenseigenen Entwicklungen im Bereich People-Analytics. Dabei ist ein Algorithmus entwickelt worden, der in einem mathematischen Modell die Mitarbeiterbindung oder die Gefahr einer Abwanderung voraussagt: » (…), the retention algorithm makes use of past data such as employees' compensation, performance reviews and promotions to identify employees who are likely to exit the organization.«74 Auf der Grundlage einer solchen algorithmischen Auswertungssoftware, die Vorhersagen über die Abwanderungswahrscheinlichkeit von Mitarbeiter*innen aus unternehmensbezogenen Datensätzen ableitet, haben wir eine technische Untersuchung vorgenommen. Ziel war es, zu zeigen, wie die algorithmische Auswertung von arbeitnehmerbezogenen Daten arbeitet und welche Ansatzpunkte es für die betriebliche Mitbestimmung gibt. Dafür haben wir als Beispiel das Softwareprodukt IBM-Watson Analytics ausgewählt und zwar aus mehreren Gründen: Die Fragestellung, die dieser Auswertung zugrunde liegt, stammt aus dem Bereich des HR-Managements, bezieht sich also unmittelbar auf die Verarbeitung und Auswertung von arbeitnehmerbezogenen Daten. Ein zweiter wichtiger Aspekt für die Auswahl dieses Beispiels war der Zugriff auf den verwendeten Datensatz: Dieser war als sog. Tutorial öffentlich zugänglich. Für die technische Analyse des algorithmischen Models konnten wir also auf einen passenden Datensatz75 zurückgreifen, was insofern wichtig ist, als dass unsere Rekonstruktion, die durchgeführten Simulationen und die anschließende Analyse nicht durch einen von uns generierten Datensatz verzerrt oder verfälscht worden ist. Das gewählte Beispiel76 stellt einen fiktiven HR-Manager vor, der die Faktoren für den Verbleib oder die Kündigung von Arbeitnehmer*innen im Unternehmen ermitteln möchte. Ziel ist es, die Faktoren für eine Abwanderung von Arbeitskraft im Unternehmen möglichst abzustellen. Vor dem Hintergrund der kontinuierlichen Klage über einen generellen Fachkräftemangel ist dies ein durchaus plausibles Szenario. 72 Diese werden in Form von Übungseinheiten auf einer Lernplattform im Dashboard-Design bereitgehalten. 73 Vgl. https://www.precire.com/de/hr-solutions-de/, (Zugriff am 20.12.2018). 74 Shweta Shrivastava, Kritika Nagdev, Anupama Rajesh, »Redefining HR using people analytics: the case of Google« in: Human Resource Management International Digest 26, Nr. 2 (2018), S. 3–6. 75 Die im Tutorial verwendeten Daten wurden für diese Verwendung extra zusammengestellt. Dementsprechend handelt es sich hierbei um einen simulierten Datensatz. 76 Vgl. hierzu das Video zum Tutorial von IBM Watson Analytics: »Watson Analytics for HR: Retain your team« https://www.youtube.com/watch?time_continue=46&v=MUbmmuve1h 8, (Zugriff am 09.10.2018). 23 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 23 ZfP 67. Jg. 1/2020 Der Datensatz, auf den diese Auswertung zurückgreift, enthält gespeicherte und aggregierte Daten von Mitarbeiterinnen und Mitarbeitern, die im Unternehmen beschäftigt (gewesen) sind. Darin sind neben den personenbezogenen Daten wie Alter, Geschlecht und Familienstand, auch tätigkeitsbezogene Daten wie monatliches Einkommen, Arbeitszeit, Überstunden und der derzeitige Status (entweder ›Teil der Belegschaft‹ oder ›Abgewandert‹) erfasst. Diese unterschiedlichen Informationen sollen nun von IBM Watson Analytics ausgewertet und daraus deren Abwanderungsfaktoren ermitteln werden. Dies geschieht auf einer Nutzeroberfläche mit Dashboard-Charakter, die einen möglichst guten Überblick über die verschiedenen Funktionen bieten soll. Die Nutzer*innen müssen zunächst via ›drag and drop‹-Verfahren die Datenquellen in die Analysesoftware importieren. Um für die Software überhaupt bearbeitbar zu sein, wird im nächsten Schritt der importierte Datensatz aufbereitet und analysiert. Allerdings erfährt die Anwender*in nicht, wie die Aufbereitung konkret funktioniert. Dafür bekommt man am Ende des Imports und der automatisierten Aufbereitung mitgeteilt, ob der Datensatz signifikante Fehler enthält. Dies geschieht anhand eines Score-Boards, das die Datenqualität beurteilt. Wie dieses Urteil zustande kommt, resp. welche Qualitätskriterien als Maßstab an den Datensatz angelegt werden, erfährt man als Nutzer*in ebenfalls nicht. Aus dem importierten Datensatz können nun unterschiedliche, unabhängige Variablen77 ausgewählt werden. Im Falle unseres Beispiels ist die abhängige/zu erklärende Variable ›Attrition‹ (Abwanderung). Danach wird eine Klassifizierungsprozedur auf der Grundlage eines sogenannten Entscheidungsbaums durchgeführt: Die Klassifizierung besteht darin, Variablen zu bestimmen, die in Bezug zur Abwanderung stehen und diese nach Stärkegrad ordnen. Entscheidungsbäume werden als Klasse von Algorithmen bei solchen komplexen Klassifizierungsproblemen eingesetzt, weil sie im Unterschied zu klassischen statistischen Methoden78 keine Vorannahme einer zugrundeliegenden Verteilung beinhalten. Auf Grundlage der vorhandenen Daten ermittelt der Algorithmus alle Werte, die eine Variable A in Bezug auf alle anderen vorhandenen Variablen annehmen kann. Anschließend unterteilt der Algorithmus diese Wertebereiche in Segmente und ermittelt für jedes Segment einen (Grenz-)Wert, der die Wahrscheinlichkeit eines Zusammenhangs zwischen Variable A und Variable B, C, D … vorhersagt. Dazu ein Beispiel: Abbildung 1 zeigt, dass Überstunden (OverTime) in diesem Entscheidungsbaum die Variable mit der stärksten Beziehung zur Abwanderung darstellt. Bei allen Mitarbeiter*innen, die Überstunden haben, stellt das monatliche Einkommen die Variable dar, mit der die nächste Teilmenge am besten gebildet werden kann: Ist das Einkommen >=2475, kann die nächste Unterteilung der Daten anhand der Variable ›DailyRat‹ erfolgen. Bei allen Mitarbeiter*innen , die Überstunden hatten, mehr als den Wert 2475 verdienen und eine ›DailyRat‹ >= 931 haben, liegt die Wahrscheinlichkeit, dass sie abwandern, bei 88 % usw. Wie gelangt der Algorithmus zu der beschriebenen Segmentierung? 77 In der Statistik werden solche unabhängigen Variablen oder Prädiktoren dazu benutzt, um die Werte von anderen Variablen vorherzusagen. 78 Häufig beinhalten solche Methoden die sog. Wahrscheinlichkeitsdichtefunktion. 24 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 24 Abbildung 1: Entscheidungsbaum Um die bestmögliche Unterteilung im gesamten Variablenbereich zu schaffen, wird meist eine rekursive Binärunterteilung79 benutzt. Eine entscheidende Charakteristik für diese Art der Unterteilung ist, dass sie als ›gierig‹ gilt. D.h. der Algorithmus agiert nicht vorausschauend: Er wählt immer den bestmöglichen ›split‹ für den aktuellen Unterteilungsschritt, anstatt eine Teilung vorzunehmen, die einen der folgenden Unterteilungsschritte optimieren würde. Daneben sind Entscheidungsbäume häufig anfällig für die sogenannte ›Überanpassung‹ des Modells. Unterteilt man den Variablenraum in so viele Bereiche, dass sich in jedem Segment nur noch ein einzelner Datenpunkt befindet, liefert das eine perfekte Vorhersage der Daten. Allerdings funktioniert ein solch überkomplexes Model nur auf diesem spezifischen Datensatz. Sobald man es auf einen neuen Datensatz anwendet, erhält man eine sehr schlechte Vorhersage. Um dieses ›overfitting‹ zu vermeiden, wird versucht, ein Modell aus wenigen Segmenten zu bilden, um die Unterteilungsbereiche möglichst groß zu halten. Ein solches Modell besitzt bei der Anwendung auf einen neuen/anderen Datensatz eine deutlich höhere Wahrscheinlichkeit für eine korrekte Vorhersage der Daten.80 79 Charakteristisch für einen solchen Segmentierungsansatz ist, dass er ›top down‹ verläuft. D.h. der Algorithmus startet an der Baumspitze, wo alle Variablen im selben Bereich liegen und beginnt dann diesen schrittweise zu unterteilen. Jedes neue Segment wird durch zwei neue Äste gebildet. Die Rekursion bedingt, dass die Prozedur solange ausgeführt wird, bis keine neuen Äste mehr gebildet werden können. 80 In diesem Zusammenhang spricht man von der »Robustheit« des Algorithmus. Robuste Modelle funktionieren auf unterschiedlichen Datensätzen gleich gut, allerdings beinhalten solche Ansätze immer einen ›Klassifikationsfehler‹, d.h. die Wahrscheinlichkeit der vorgenommenen Klassifikation liegt immer unter 100 %. 25 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 25 ZfP 67. Jg. 1/2020 Abbildung 2: Original IBM Watson-Analytics Entscheidungsbaum der zeigen soll, dass Abwanderung signifikant von der Variable Überstunden beeinflusst ist (Quelle: https://www.youtube.co m/watch?time_continue=46&v=MUbmmuve1h8 Abbildung 2 zeigt, dass im Watson Analytics Beispiel ›OverTime‹ (Überstunden) als die Variable mit der signifikantesten Beziehung im Hinblick auf Abwanderung ausgegeben wird. Um zu überprüfen, wie ›robust‹ das Entscheidungsbaummodell tatsächlich ist, haben wir den Algorithmus zunächst rekonstruiert, d.h. wir haben einen Entscheidungsbaum programmiert, der auf Basis des Watson-Analytics Datensatzes berechnen soll, welche Variable den größten Einfluss auf die Abwanderung von Mitarbeiter*innen hat. Danach haben wir mit der sogenannten ›jackknifing‹ Methode unser Entscheidungsbaummodell auf seine Robustheit überprüft. Abbildung 3: Jackknifing Entscheidungsbaum 1 Dabei wird der Originaldatensatz zufällig in unterschiedlich große Teildatensätze (Samples) unterteilt. Der Algorithmus wird dann auf alle Samples angewendet und die Ergebnisse werden miteinander verglichen: Je ähnlicher die Klassifikationsergebnisse aus den Teildatensätzen sind, desto robuster ist der Algorithmus. Unsere Ergebnisse 26 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 26 bei diesem Test präsentieren ein eher heterogenes Bild.81 Die Variable Überstunden (›OverTime‹) spielt in allen Samples eine mehr oder weniger untergeordnete Rolle. Zunächst kann also keine Signifikanz einer bestimmten Variable nachgewiesen werden. Die im IBM Watson Analytics Beispiel gemachte Aussage über den starken Zusammenhang von Überstunden und Abwanderung ist auf der Grundlage unserer Simulationen mit unterschiedlichen Samples also nicht haltbar, die Robustheit des verwendeten Algorithmus daher eher gering. Allerdings lässt sich anhand dieses Ergebnisses eine weitere generelle Schwachstelle dieser Klasse von Algorithmen ausmachen: Die große Varianz der Ergebnisse von Entscheidungsbäumen. Die Lösung besteht darin, den Mittelwert aus den Ergebnissen vieler Entscheidungsbäume zu bilden (der sogenannte ›Random Forest‹).82 Normalerweise kann man allerdings nicht auf multiple Trainingsdatensätze zurückgreifen und eine simple Unterteilung des Originaldatensatzes beeinflusst das darauf basierende Modell ebenfalls stark. Eine mathematische Lösung für dieses Problem besteht im sogenannten ›bootstrapping‹.83 Wendet man den Entscheidungsbaum-Algorithmus auf eine Vielzahl von Trainingsdatensätzen an, lässt sich aus den unterschiedlichen Modellen ein Mittelwert bilden, womit die sich einstellende Varianz reduziert werden kann.84 Um ein Random Forest-Modell zu bekommen, das die Varianz insgesamt minimiert, muss die Varianz der einzelnen Entscheidungsbäume möglichst hoch sein. Es bietet sich daher an, Entscheidungsbäume mit möglichst vielen Segmenten auf die neu entstandenen Datensätze anzuwenden.85 Um den Mittelwert der Klassifikation zu bilden, greift man auf das Mehrheitsprinzip zurück, d.h. man zieht jede einzelne Information oder Beobachtung aus dem Originaldatensatz und analysiert, wie die Mehrzahl der bootstraping-Entscheidungsbäume den jeweiligen Daten- 81 Exemplarisch für das durchgeführte jackknifing zeigen Abbildung 3, dass der Algorithmus auf Basis der Samples unterschiedliche Variablen klassifiziert, die jeweils die stärkste Beziehung zur Abwanderung haben. 82 Vgl. Leo Breiman, »Random Forests« in: Machine Learning 45, Nr. 1 (2001), S. 5–32. 83 Dies erzeugt beliebig viele Datensätze in beliebiger Größe aus dem Originaldatensatz. Dabei kommt das aus der Kombinatorik bekannte Verfahren des »Ziehen und Zurücklegen« (in Bezug auf Entscheidungsbäume auch »bagging« genannt) zur Anwendung: Alle Informationen und Beobachtungen des Originaldatensatzes sind in einer Urne. Man zieht eine einzelne Information oder Beobachtung aus dieser Urne und fügt sie einem neuen Datensatz in einer anderen Urne hinzu (bootstrapping Datensatz). Danach legt man die Information zum Originaldatensatz zurück, sodass sie ein weiteres Mal gezogen werden kann usw. Die so entstandenen Datensätze sind sowohl in der Häufigkeit als auch in der Verteilung zufällige Abbilder der Verteilungsmerkmale des Originaldatensatzes. 84 »Recall that given a set of n independent observations Z1,..,Zn, each with variance σ2, the variance of the mean Ž of the observations is given by σ2/n. In other words, averaging a set of observations reduces variance.« Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, An Introduction to Statistical Learning, New York, NY 2013. 85 Wie bereits erwähnt, erhält der Entscheidungsbaum durch die vielfache Unterteilung des Datensatzes in möglichst kleine Segmente eine hohe Varianz und eine sehr geringe Fehlerrate bei der Klassifikation. Das Mittel der neu entstandenen Entscheidungsbäume reduziert die Varianz und es entsteht ein Random Forest-Klassifizierungsmodell, das sowohl robust ist, wie auch eine geringe Fehlerrate aufweist. 27 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 27 ZfP 67. Jg. 1/2020 punkt klassifiziert haben.86 Der Random Forest-Algorithmus begrenzt bei jedem Split von jedem Baum die vorhandenen Variablen auf eine zufällige Auswahl. Betrachtet man nicht nur den einzelnen Entscheidungsbaum, sondern die Gesamtheit aller durch das bootstrapping entstandenen Entscheidungsbäume, so hat dieser ›random split‹ einen entscheidenden Vorteil: Er minimiert die Verzerrung durch eine oder mehrere unabhängige Variablen, die eine besonders starke Ausprägung haben. Diese würden bei Entscheidungsbäumen automatisch als Startvariable gesetzt werden, weshalb alle Entscheidungsbäume, die diese Variable beinhalten, mehr oder weniger gleich verlaufen und untereinander sehr stark korrelieren.87 Um zu klären, ob es möglich ist, ein exakteres Auswertungsergebnis mit weniger Varianz zu erzielen, haben wir auf Grundlage der beschriebenen Methode ein Random Forest erstellt. Abb. 6 zeigt das Random Forest Ergebnis: Die Variable (Überstunden) spielt eine eher untergeordnete Rolle für das Auswertungsergebnis. Die Variable ›monatliches Einkommen‹ ist dagegen die eigentliche Zielvariable. Im Anschluss haben wir simuliert, wie sich die Zielvariable verändert, wenn man dem Datensatz nur einzelne Datenpunkte entnimmt. Auch hier ist festzustellen, dass dies ebenfalls dazu führt, dass die ausgegebene Zielvariable in den einzelnen Simulationen stark divergiert. Abbildung 6: Ergebnis des Random Forest Algorithmus 86 Der Logik der o.g. Kombinatorik des »Ziehen und Zurücklegen« folgend, ist nicht jede Information oder Beobachtung Teil eines neuen bootstrapping-Datensatz. Dementsprechend müssen so viele Datensätze gebildet werden, dass alle Datenpunkte aus dem Originaldatensatz mindestens einmal enthalten sind. 87 Vgl. Simon Hegelich, »Decision Trees and Random Forests: Machine Learning Techniques to Classify Rare Events« in: European Policy Analysis 2, Nr. 1 (2016). 28 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 28 Fazit Vor dem hier dargelegten Hintergrund stellt sich die Frage, wie Mitbestimmungsakteur*innen zukünftig mit Big Data, KI und Machine Learning Ansätzen umgehen sollen? Welche Regelungen sind zu treffen, die die Interessen der Beschäftigten wahren und die ihnen eine aktive Rolle am Digitalisierungsprozess zuerkennen? Für ein angemessenes Urteil über die Validität der Ergebnisse von KI-Modellen und Machine Learning Ansätzen bedarf es eigentlich einer ›Technikfolgeabschätzung‹. Unsere Rekonstruktion und Simulation am Beispiel Watson Analytics offenbart die Schwierigkeiten mit denen sich Mitbestimmungsakteur*innen bei dieser Technologie konfrontiert sehen: Selbst, wenn alle Informationen über die benutzten Datenquellen, deren Aufbereitung, die Methode und das dahinterliegende mathematische Modell bekannt sind, besteht immer noch das Problem, dass man sich zunächst mit der Funktion und Wirkungsweise des jeweiligen Algorithmus vertraut machen muss, um etwaige Fehlerquellen aufzudecken. Daneben muss eine daran anschließende prozessbegleitende und ergebnisoffene Evaluation von KI-Modellen auf betrieblicher Ebene so gestaltet werden, dass die Mitbestimmungsakteur*innen bereits bei der Planung der Implementierung eingebunden werden und ausreichend Zeit bekommen, um das jeweilige Produkt technisch zu überprüfen. Bei den hier vorgestellten KI-Modellen, die im HR-Bereich für einen automatisierten Entscheidungsfindungsprozess88 eingesetzt werden, könnte eine mögliche Lösung auch in der nachträglichen Überprüfung des Systems bestehen: »In vielen Fällen können die Auswirkungen von ADM-Systemen ohne eine genaue Kenntnis des darunterliegenden Wirkmechanismus überwacht werden mit sogenannten Black-Box-Analysen (Krafft & Zweig, 2018). Der wesentliche Bestandteil des Schadens liegt nämlich in den Anteilen der Fehlurteile des Systems. Wenn sich die beurteilten Personen darin beobachten lassen, wie sie sich weiterhin verhalten, kann dieser Anteil berechnet werden, ohne dass man weiß oder wissen muss, wie das System zu ihrem Urteil kam. (…) Insbesondere bei algorithmischen Entscheidungssystemen im Bereich der (schulischen und beruflichen) Leistungsbewertung kann routinemäßig überprüft werden, ob Menschen nach ihrem Geschlecht, ihrer Herkunft, ihrem Alter oder weiteren Eigenschaften diskriminiert werden. Diese Überprüfung lässt sich leicht automatisieren, und sie sollte bei relevanten ADM-Systemen in Abhängigkeit von der Auswertung des möglichen Schadens gefordert werden.«89 Neben dem generellen Problem, dass Betriebsrät*innen bei solchen Formen des technischen ›reverse engineerings‹ auf eine externe Expertise angewiesen sind, bleibt die Form der nachträglichen Überprüfung einer maschinellen Beurteilung allerdings gerade bei den KI-Modellen im Recruitment-Bereich problematisch: Das tatsächliche Verhalten von Bewerber*innen , die aufgrund der algorithmischen Beurteilung aus dem 88 Dem sogenannten ›automated descision making‹ (ADM). 89 Katharina A. Zweig, Algorithmische Entscheidungen: Transparenz und Kontrolle, Berlin 2019, S. 10. 29 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 29 ZfP 67. Jg. 1/2020 Bewerbungsprozess ausgeschlossen worden sind, kann bspw. nachträglich nicht mehr beobachtet werden. Wie im Kapitel über den Datenschutz bereits angedeutet, entsteht bei der Regelung von KI Modellen, die auf Big Data beruhen, ein generelles Problem: Das Interesse der Mitbestimmungsakteur*innen an der Nachvollziehbarkeit der angewandten Methode und des mathematischen Modells steht im Gegensatz zum Geschäftsgeheimnis der Anbieter*innen. Eine praktische Lösung für dieses ›Dilemma‹ könnte hierbei ebenfalls die Beauftragung einer externen Sachverständigen sein, der auf die Wahrung des Geschäftsgeheimnisses gegenüber Dritten verpflichtet wird. Ein solches Verfahren setzt allerdings die Zustimmung des Anbieterunternehmens voraus. Unabhängig davon sollte bereits im Implementierungsprozess von KI-Modellen deren konkrete Zwecksetzung überprüft werden, um in der daran anschließenden Betriebsvereinbarung unerwünschte Nutzungsmöglichkeiten ausschließen zu können. Dafür muss zunächst geklärt werden, was der Analysegegenstand ist. Daran anschließend muss das methodische Vorgehen detailliert beschrieben90 werden. Zudem sollte ein Absatz in die Betriebsvereinbarung aufgenommen werden, der den zu erwartenden Erkenntnisgewinn klar umreißt: Wie die Analyse von Watson-Analytics zeigt, passen die Umsetzung des algorithmischen Modells und die Fragestellung nicht zueinander. Dementsprechend muss vor dem Einsatz eines solchen Modells geprüft werden, wie valide die Ergebnisse in Bezug auf die zugrundeliegende Fragestellung sind. Mit Blick auf die Zwecksetzung und die zu erwartenden Ergebnisse sollte die anschließende Betriebsvereinbarung zwei Regelungen beinhalten: 1. Eine prozessbegleitende Evaluation durch den Betriebsrat, der das Einhalten der Zwecksetzung und ihr Ergebnis überprüft. 2. Eine Verpflichtung des Unternehmens auf diese Zwecksetzung und ein Ausschluss aller anderen/weiteren Anwendungsmöglichkeiten. Darüber hinaus zeigen die durchgeführten Resampling-Simulationen sowie die Simulationen auf Grundlage der Entnahme einzelner Datenpunkte, dass algorithmische Auswertungen stark von der exakten Aggregation und Aufbereitung der Datenquelle abhängig sind. Dementsprechend muss bspw. ausgeschlossen werden, dass die verwendeten Datenquellen das Modell verzerren. Gleiches gilt für einen möglichen ›Bias‹, der bspw. durch Wechselwirkungen unterschiedlicher Algorithmen innerhalb des Auswertungsmodells verursacht werden kann.91 Wie die oben genannten KI-Beispiele aus dem Bereich Recruitment vermuten lassen, ist es durchaus möglich, dass bei Klassifikatio- 90 Allgemeine Beschreibungen wie bspw. »ein algorithmisches Modell« oder »die KI-Software« sind an dieser Stelle wenig zielführend. Die konkrete Benennung welches mathematische Modell, welche Algorithmen auf welcher Grundlage was berechnen soll, ist hier unumgänglich. 91 Unsere früheren Forschungsergebnisse zeigen bspw. welche Zielkonflikte sich bspw. bei der Optimierung von Klassifikationsfehlern ergeben und welche ethischen Herausforderungen dadurch entstehen können. Vgl. dazu Andree Thieltges, Schmidt Florian, Simon Hegelich, »The Devil’s Triangle. Ethical Considerations on Developing Bot Detection Methods«, in: The Association for the Advancement of Artificial Intelligence (Hg.), The 2016 AAAI Spring Symposium Series, Palo Alto, California 2016, S. 253–257 und Andree Thieltges, Orestis Papakyriakopoulos, Juan Carlos Medina Serrano, Simon Hegelich, Effects of Social Bots in the Iran-Debate on Twitter 5/25/2018. 30 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 30 nen oder Mustererkennungen eine ›Diskriminierung‹ durch die erhobenen Daten oder die angewandte Methode stattfindet. Vor der Einführung eines solchen KI-Modells sollte deshalb geprüft werden, ob und wie dadurch potenzielle Diskriminierungen möglich sind und wie sich diese ausschließen lassen. Technisch wäre dies durch eine oder mehrere Simulationen mit Testdatensätzen möglich. Auf der Ebene der Betriebsvereinbarung sollten Regelungen zur Sammlung, Bereinigung und Aggregation von personenbezogenen Mitarbeiter*innendaten zu Analysezwecken getroffen werden. Denkbar wäre bspw. eine Regelung, die die Verwendung von Daten und Informationen mit ›Diskriminierungspotenzial‹ (bspw. Alter, Geschlecht, ethische, soziale oder kulturelle Besonderheiten) von vorneherein ausschließt. Mit Hinblick auf eine potenzielle Diskriminierung muss darüber nachgedacht werden, ob betriebliche Regelungen zu KI-Modellen und Machine Learning Auswertungen auch nicht-personenbezogen Daten umfassen sollten. Die o.g. Anwendungsbeispiele und die skizzierte Diskussion um Reidentifizierbarkeit verdeutlichen, dass es technisch inzwischen möglich ist, auch durch die ausschließliche Auswertung und ›Verdichtung von Daten ohne Personenbezug‹ einen solchen (nachträglich) herzustellen. Neben der Diskriminierungsproblematik könnten mit der Reidentifizierung auch neue Formen der ›Leistungs- und Verhaltenskontrolle‹ in Gang gesetzt werden. Dementsprechend sollte der betriebliche Umgang mit nicht-personenbezogenen Daten in Betriebs- oder Rahmenvereinbarungen aufgenommen werden. Die oben genannte Festlegung auf eine bestimmte Zwecksetzung könnte bspw. um Daten ohne Personenbezug erweitert werden. Zudem sollten konkrete Löschfristen vereinbart werden. Mit der ›Einhaltungskontrolle‹ des festgelegten Zwecks sollte auch die sachgemäße Vernichtung von mitarbeiterbezogenen und beziehbaren Daten einer kontinuierlichen Überprüfung unterworfen werden.92 Vor dem Hintergrund einer potenziellen Leistungs- und Verhaltenskontrolle ist der Abfluss von Daten aus dem Betrieb in die Datenbestände von Dritten (bspw. Anbieter von KI-Modellen) ebenfalls als kritisch zu erachten. Ist die Nutzung solcher Daten nicht klar beschränkt, könnten solche Daten von Dritten dazu benutzt werden, den zwischen Arbeitgeber*innen und Betriebsrat vereinbarten Ausschluss von Leistung- und Verhaltenskontrolle zu unterlaufen.93 Um dies zu verhindern, sollte auf der Ebene der Betriebsvereinbarung die Regelung zur Auftragsverarbeitung konkretisiert und erweitert werden. Neben der Begrenzung oder dem Ausschluss der Nutzung von mitarbeiterbezogenen oder -beziehbaren Daten durch das beauftragte Unternehmen wäre hier eine grundsätzliche Festlegung des tatsächlichen Speicherortes innerhalb der Europäischen Union sinnvoll.94 Neben den genannten technischen Herausforderungen und Pro- 92 Bspw. in Form eines turnusmäßig durchgeführten und dokumentierten ›Checks‹ des vereinbarten Löschvorgangs. 93 Denkbar wäre hier, dass Daten und Informationen über die Mitarbeiter*innen von der Dienstleister*in hinsichtlich Leistung und Verhalten maschinell ausgewertet und der Arbeitgeber*innen angeboten werden. 94 Die verbindliche Einhaltung der DS-GVO und den darin getroffenen Datenschutzregelungen ist nur in Mitgliedsstaaten der EU möglich. Dementsprechend sollte der Datenverkehr auf diesen Rechtsraum beschränkt sein. 31 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 31 ZfP 67. Jg. 1/2020 blemstellungen, die von den betrieblichen Mitbestimmungsakteur*innen berücksichtigt werden sollten, stellt sich die Frage nach den organisationalen Veränderungen. Das betrifft zunächst den Mitbestimmungsprozess selbst: Wie die oben gemachten Empfehlungen zeigen, machen die unterschiedlichen Aspekte von Big Data und KI eine kontinuierliche Kontrolle und Evaluation durch die betriebliche Mitbestimmung notwendig. Die weiteren Beteiligungsrechte sind also in den Vereinbarungen mit der Unternehmensführung so zu formulieren, dass sie einen dauerhaften Prozess initiieren und eine Basis für den fortwährenden Rückbezug auf die Mitbestimmung schaffen. Dies bedeutet im Umkehrschluss, dass abschließende oder starre Vereinbarung bei der Regelung von KI-Modellen und Machine Learning Anwendungen kein adäquates Mittel sind. Das vorherrschende ›knowledge gap‹ und die weitere dynamische Entwicklung, die die Mitbestimmung durch immer neuere Technologie fordert, führt bereits jetzt dazu, dass die Mitbestimmungsakteur*innen praktisch nicht mehr in der Lage sind, alle Beteiligungsaspekte zu überblicken. Eine Möglichkeit dem entgegenzutreten, ist die konsequente Nutzung der im Betriebsverfassungsgesetz verankerten Unterstützung durch externe und unabhängige (juristische und technische) Sachverständige.95 Für den praktischen Implementierungsprozess, sollte die frühestmögliche Einbindung der Mitbestimmungsorgane festgelegt werden. Hierfür könnte bspw. ein ›paralleler‹ Mitbestimmungsprozess gewählt werden: Die KI oder das Machine Learning Modell werden sukzessive implementiert und während der Inbetriebnahmen auf mitbestimmungsrelevante Aspekte überprüft. Diese könnten im Anschluss in eine Betriebs- oder Rahmenvereinbarung münden. Die oben aufgezeigten datenschutzrechtlichen Aspekte, sollten schließlich dazu genutzt werden, das Verhältnis zwischen der betrieblichen Mitbestimmung und der Belegschaft zu stärken. Um die Datenschutzinteressen von Mitarbeiter*innen sachgerecht vertreten zu können und den Rückbezug zwischen Interessen und daraus resultierenden Regelungen nachvollziehbar zu gestalten, muss eine kontinuierliche Einbindung der Belegschaft in Mitbestimmungsprozesse erfolgen. Auftakt dafür könnte bspw. eine Veranstaltungsreihe sein, die die Belegschaft für den Umgang mit den eigenen Daten sensibilisiert. Ein inhaltlicher Ausgangspunkt wäre hier die kritische Auseinandersetzung mit einem seit Längerem zu beobachtenden Phänomen: Der täglich stattfindende Zugriff und die (maschinelle) Auswertung von personenbezogenen und -beziehbaren Daten wird in unterschiedlichen Kontext häufig als ›reine Zugangsvoraussetzung‹ für die Nutzung digitaler Dienstleistungen begriffen. Dass dieser Umgang mit den eigenen Daten im beruflichen Kontext zu negativen und weitreichenden Konsequenzen führen kann, sollte als kontinuierliches Handlungsfeld der Mitbestimmungspraxis und als Ausgangspunkt für die Mitarbeiter*inneneinbindung in die betriebliche Mitbestimmung einfließen. 95 Vgl. dazu Betriebsverfassungsgesetz § 80 Allgemeine Aufgaben Abs. 3 »Der Betriebsrat kann bei der Durchführung seiner Aufgaben nach näherer Vereinbarung mit dem Arbeitgeber Sachverständige hinzuziehen, soweit dies zur ordnungsgemäßen Erfüllung seiner Aufgaben erforderlich ist.« 32 Thieltges · Big Data, Machine Learning und Künstliche Intelligenz 32

Abstract

Big data and the potentials of artificial intelligence (AI) and machine learning tools are already been used to analyse and utilise data within enterprises. Companies are in a stage of data-driven change that affects their production as well as the ways and means of labour organisation. For instance, the workforce has to cope with hybrid working environments and sensor-driven workflow evaluation. The continuous measurement and rating of the individual performance aims to raise efficiency, agility and flexibility of the workforce. Moreover, the data-driven technologies are also used to ›rationalise‹ several operational processes like recruitment or job training. Within these trends, employee participation seems to be increasingly inhibited. The methods that are used are often intransparent and workers councils are in need of a widespread knowledge to understand data analysis and its potential effects on the workforce and its future organisation. We would like to show the challenges of AI and machine learning on the basis of human resource management tools and discuss the chances for regularisation by the workers council.

Zusammenfassung

›Industrie 4.0‹ steht inzwischen auch für eine fortschreitende Verfügbarkeit von ›Big Data‹ und den Zugriff auf mitarbeiterbezogen Daten sowie der Möglichkeit, diese maschinell zu aggregieren, analysieren und auszuwerten. Das hat nicht nur einen Wandel in der Produktion zur Folge, sondern führt auch zu tiefgreifenden Veränderungen hinsichtlich des Faktors ›Arbeit‹ und das vor allem auf der Ebene der Beschäftigten: ›Hybride‹ Arbeitsumgebungen werden geschaffen, Arbeitsabläufe werden von Sensorik dokumentiert und überwacht. Die Regulierbarkeit der individuellen Arbeitskraft durch die kontinuierliche Messbarkeit ihrer ›Performance‹ haben eine Effizienzsteigerung, mehr ›Agilität‹ und bessere ›Anpassungsfähigkeit‹ zum Ziel. Hinzutritt, dass sich diese neuen Technologien auch in anderen Unternehmensbereichen etablieren, bspw. in der Personalrekrutierung, -optimierung und -rationalisierung. Mitbestimmung und Interessenvertretung der Beschäftigten erscheinen unter diesen Verhältnissen zunehmend erschwert, denn die ›datengetriebenen Verfahren‹ bleiben häufig intransparent. Außerdem benötigen betrieblichen Mitbestimmungsakteur*innen ein umfassendes Wissen, um die Datenanalyse nachvollziehen und so ungewollte Folgen frühzeitig erkennen zu können. Im folgenden Artikel sollen die Herausforderungen von KI und Machine Learning anhand von Beispielen aus dem Personalmanagement aufgezeigt und die Möglichkeiten für die betriebliche Mitbestimmung erörtert werden.

References

Abstract

Zeitschrift für Politik sees its main goals in representing political science in its full range; in outlining its development in research and teaching and in serving as a forum for innovative academic discussions.

It addresses scholars from various fields of research: political theory and philosophy, comparative political studies and international relations, political sociology, political economy and political law.

Website: www.zfp.nomos.de

Zusammenfassung

Die „Zeitschrift für Politik“ sieht ihre Aufgabe darin, die Politikwissenschaft in ihrer ganzen Breite und Vielfalt zu repräsentieren, ihre Entwicklung in Forschung und Lehre zu dokumentieren und als Forum für innovative wissenschaftliche Diskussionen zu dienen..

Ihr wissenschaftliches Erkenntnisinteresse bezieht sich auf: die Politische Theorie, Philosophie und Ideengeschichte als die traditionelle Basis der Politikwissenschaft, die vergleichende Politikwissenschaft und komparative, Politikfeldforschung, die neueren Entwicklungen der deutschen, europäischen und internationalen Politik sowie die Forschungsfelder der Zeitgeschichte, der Politischen Soziologie, der Politischen Ökonomie sowie der Politischen Rechtslehre.

Homepage: www.zfp.nomos.de