Wie man KI trainiert, ohne den Datenschutz zu verletzen

Wer im Unternehmen Künstliche Intelligenz entwickeln und einsetzen will, muss diese mit geeigneten Daten trainieren. Nach einer Umfrage unter 503 Unternehmen ab 50 Mitarbeitern im Auftrag des Digitalverbands Bitkom geben zwei Drittel (64 Prozent) derjenigen, die sich mit KI auseinandersetzen, an, dass personenbezogene Daten genutzt werden müssen, damit die KI verwertbare Analyseergebnisse liefert. „Wer mit personenbezogenen Daten arbeitet, muss die Anforderungen des Datenschutzes erfüllen“, sagt Dr. Nabil Alsabah, Bereichsleiter Künstliche Intelligenz beim Bitkom. „Entwicklern stehen zwei wichtige Werkzeuge zur Verfügung, um den Personenbezug zu verschleiern oder ganz zu entfernen: Sie können die Daten pseudonymisieren oder anonymisieren.“ Wie das in der Praxis gelingen kann zeigt der Digitalverband Bitkom in einem neuen Leitfaden „Anonymisierung und Pseudonymisierung von Daten für Projekte des maschinellen Lernens“.

Nach einer Einführung in die verschiedenen Methoden der Anonymisierung und Pseudonymisierung werden konkrete Anwendungen und Maßnahmen vorgestellt, wie sich personenbezogene Daten datenschutzkonform nutzen lassen und wo mögliche Gefahren lauern. Unter anderem werden Lösungen für den Umgang mit Geo-Bewegungsprofilen vorgestellt und die Methoden, mit denen Google Mobilitätsdaten für die Covid-19-Warnung erhebt. Jeweils ein eigenes Kapitel widmet sich der Anonymisierung und Pseudonymisierung medizinischer Textdaten, dem Verfahren der der semantischen Anonymisierung sowie Datenschutzrisiken bei Medieninhalten. Ausführlich wird zudem das Konzept des föderierten Lernens vorgestellt, bei dem das maschinelle Lernen nur lokal stattfindet und so keine personenbezogenen Daten an Dritte übertragen werden.