KI und Data poisoning: Künstliche Intelligenz ist verwundbar

By Digital Today Künstliche Intelligenz 25. Juli 2019

In den kommenden Jahren sollen alle Bereiche unserer Gesellschaft von einer digitalen Transformation durchdrungen werden. Die treibende Kraft hinter dieser Transformation nennt sich: künstliche Intelligenz (KI). Die Sicherheitskriterien der künstlichen Intelligenz indes sind alles andere als verheißungsvoll. Dies wurde anhand eines Sicherheitsberichtes deutlich, der von Deutschland und Frankreich gemeinsam erstellt wurde. Experten kamen zu dem Schluss, dass sowohl die bestehende Datenbasis als auch der neue Dateninput des Deep Learnings angreifbar sind.

Die künstliche Intelligenz nimmt in einer Vielzahl von Anwendungen einen stetig wachsenden Einfluss auf unseren Alltag. Banken benutzen künstliche Intelligenz, um über Aktienein und -verkäufe zu entscheiden, und Versicherungen lassen ihre Tarife mittels künstlicher Intelligenz bestimmen. Bei der Polizei wird ebenfalls eine “vorhersagende Analyse” (Predictive Analytics) eingesetzt, um die Wahrscheinlichkeit von Einbrüchen in bestimmten Regionen zu bewerten. Desgleichen soll künstliche Intelligenz in Zukunft Flugzeuge fliegen sowie PKWs und LKWs autonom steuern und fahren. Dies alles trotz festgestellter Sicherheitsmängel aus oben benanntem deutsch-französischen Sicherheitsbericht.

Das „Deutsche Bundesamt für Sicherheit in der Informationstechnik (BSI)“ sowie die französische „Nationale Agentur für Sicherheit der Informationssysteme“ (Agence nationale de la sécurité des systèmes d’information – ANSSI) warnen in ihrer gemeinsamen Studie „Common Situational Picture“ vor den Gefahren der künstlichen Intelligenz, durch vorsätzlich herbeigeführte Fehlentscheidungen. Die deutsch-französischen Kollegen Arne Schönbohm, Chef des BSI, und der Generaldirektor von ANSSI, Guillaume Poupard, betonten bei der Vorstellung der Studie, dass sowohl die bestehende Datenbasis als auch neuer Dateninput des Deep Learnings angreifbar sind. Das Fazit der beiden Experten klingt nicht vertrauenerweckend: Vergleichbar der Thematik Malware bahnt sich hier ein Kräftemessen zwischen den Angreifern und den Verteidigern an, wobei die Angreifer aktuell die Stärkeren sind. Die Autoren der gemeinsamen deutsch-französischen Studie äußerten sich dazu wie folgt: „Trotz der erheblichen Fähigkeit von neuronalen Netzen, Generalisierungen zu erzielen, ist das Verhalten neuronaler Netze bei neuen und seltenen Situationen nicht vorhersehbar. Dieser Umstand muss als Verlässlichkeitsproblem betrachtet werden.“

Vier Jahre nach den USA – Reaktionen innerhalb der EU

In Frankreich wurde zwischenzeitlich ein staatliches Programm namens „How to secure, certify and make reliable the systems involving AI?“ eingeführt. Der dafür verantwortliche Programmdirektor ist seit Beginn des Jahres 2019 unmittelbar dem französischen Premierminister unterstellt. In Deutschland wurde vom Bundesministerium für Bildung und Forschung eine Richtlinie mit der Betitelung “Künstliche Intelligenz für IT-Sicherheit” veröffentlicht. Auf EU-Ebene wird derselbe Ansatz durch ein Programm mit der Bezeichnung „SAFAIR“ verfolgt. Die Basis für dieses Programm bildet das IT-Sicherheitsnetzwerk „SPARTA“. Dieses Sicherheitsnetzwerk ist seinerseits Teil eines größeren multimilliardenschweren EU-Programms namens „Horizon 2020“. An dieser Stelle ein Hinweis zum politischen Ausmaß dieses Sachverhalts: Sowohl Deutschland als auch Frankreich betrachten verlässliche Architekturen sowie Zuverlässigkeit und Privatsphäre beim elektronischen Lernen als essenziell zur Rückgewinnung der IT-Souveränität in Europa. Dieses löbliche Engagement darf indes nicht vorenthalten, dass es vor allen Dingen die Forscher und Universitäten der USA sind, welche bereits seit Jahren auf die Mängel und Sicherheitslücken der künstlichen Intelligenz hinweisen und diese offen darlegen und bekannt machen. Die Forscher der renommierten US-amerikanischen Universitäten publizieren seit 2014 gemeinsam mit den Experten der Internetriesen eine Studie und Erkenntnis nach der anderen.

Die Forschungsarbeiten wurden durch den einsetzenden Boom auf dem Gebiet der autonom fahrenden PKWs sowie der Befunderhebung durch künstliche Intelligenz im medizinischen Bereich angeregt. In beiden Sektoren führen Fehlinterpretationen unmittelbar zu Schäden an Leib und Leben.

Siehe auch Künstliche Intelligenz wird in der Logistik immer wichtiger

Von der renommierten US-amerikanischen Ingenieursvereinigung IEEE wurden die Forschungsergebnisse wie folgt zusammengefasst: „Für den Menschen ist es schwer, eine Vorstellung davon zu gewinnen, auf welche Art und Weise Roboter die Welt wahrnehmen. Die künstliche Intelligenz mit ihren Algorithmen arbeitet gänzlich anders als das menschliche Gehirn.“ Die Cornell University in Washington, DC, die Stony Brook University in Michigan sowie die University of California in Berkeley publizieren gemeinsam mit dem Internetgiganten Google seit 2014 ihre Forschungsergebnisse zum Thema Fehlleistungen der künstlichen Intelligenz. Aufgrund dieser Ergebnisse zeigt sich, dass bereits ein minimaler Eingriff genügt, um ein als sicher eingestuftes Objekt falsch zuzuordnen. Bei einem Versuch mit einer künstlichen Schildkröte, in deren Textur ein minimalster Eingriff stattfand, wurde diese von der künstlichen Intelligenz als Gewehr [sic!] erkannt.

In einem anderen Versuch, der Eingang in die deutsch-französische Studie fand, wurde ein Pandabär als Affe interpretiert. In beiden Experimenten entschied sich die künstliche Intelligenz für das am geeignetsten erscheinende Muster, ungeachtet der Tatsache, ob dies der Realität entspricht. Die vorgegebenen Muster bringen die Bilderkennung durcheinander, da diese auf das Erkennen spezifischer Bildattribute konditioniert ist. Um welche Attribute es sich dabei handelt, ist in vielen Fällen selbst den Verantwortlichen nicht bekannt. Die aus Millionen verschiedenster Parameter bestehende Wissensbasis in einem Deep Learning System bildet für Forscher und Entwickler ein unüberschaubares Dickicht. Wie sich nachträglich häufig herausstellt, ist manch gepriesener Erfolg neuronaler Netzwerke in Wirklichkeit ein Misserfolg. In einem speziellen Fall wurde ein neuronales Netz mit beachtlichem Erfolg und beeindruckender Erkennungsrate auf die Unterscheidung zwischen Wölfen und Huskies trainiert. Im weiteren Verlauf der Untersuchung zeigte sich indes, dass der Erfolg maßgeblich durch abgebildeten Schnee im Hintergrund beeinträchtigt wurde. Das Netz hatte unerwünschte Verknüpfungen erstellt und auf falsche Weise gelernt. Das Risiko der unbeabsichtigten Verknüpfung fälschlicher Daten und Bilder, die nicht gelernt werden sollen, ist permanent gegenwärtig. Weit schwerwiegender verhält es sich im Fall gezielter technischer Kompromittierung bestimmter Daten. Es wurde ersichtlich, dass künstliche Intelligenz dahingehend trainiert werden kann, nicht berechtigten Personen Zugriff zur IT zu erlauben. Diese Art Backdoors sind im Bereich IT durchaus keine Neuigkeit; in diesem Fall indes sind sie inmitten von Millionen erlernter Beispiele unauffindbar versteckt und bis dato nicht aufspürbar. Geöffnet wird diese Backdoor erst, nachdem das Netz einen vorher erlernten Schlüsselreiz wahrnimmt.

Diese neue Bedrohung wird als „data poisoning“ – vergiftete Daten – bezeichnet. Sicherheitsbehörden fordern aus diesem Grund abgesicherte Lieferketten für die Trainingsdaten der künstlichen Intelligenz, da ohne Trainingsdaten kein System von künstlicher Intelligenz funktioniert. Aufgrund der hohen Datenmengen, die zum Training eines Systems benötigt werden, ist es für den Einzelkunden unmöglich, sein System im Alleingang zu trainieren. Mit dieser Begründung fordert die Studie mehr Transparenz und Nachprüfbarkeit bezüglich der Herkunft von Trainingsdaten sowie der erzielten Resultate. Dieser Forderung stehen die weltweiten Hersteller gegenwärtig hilflos gegenüber, da sie ihre neuronalen Netze zumeist als Blackbox ausliefern. Die Sicherheitsbehörden erhalten unterdessen Unterstützung von deutschen Datenschutzbeauftragten, die ihrerseits das antrainierte Wissen der Systeme von künstlicher Intelligenz überprüfen möchten. Die Berechtigung für dieses Vorgehen beziehen sie durch die europäische Datenschutzgrundverordnung (DSGVO).

Siehe auch Künstliche Intelligenz gegen unverständliche Arztbriefe

Die Autoren der Studie wenden sich ausdrücklich gegen eine Nutzung großer und freier Entwicklerplattformen wie Github. Durch den unkontrollierten Eingriff vieler verschiedener Teilnehmer in die offenen Lieferketten besteht ein erhöhtes Risiko bezüglich des Dateninputs. Nach Ansicht der Experten stellen derartige Plattformen ein erhebliches Sicherheitsrisiko dar. Darüber hinaus wird in der Studie das anhaltende Training der neuronalen Netzwerke als unerlässlich betont. Auf diese Weise kann auf Änderungen flexibel reagiert und eine, als solche erkannte, Sicherheitslücke erfolgreich geschlossen werden. Der Nachteil: Durch die Benutzung von Chat-Bots, die mit künstlicher Intelligenz gesteuert werden, birgt ein kontinuierliches Training der Netze relevante Sicherheitsrisiken. Mithilfe solcher Chat-Bots könnten Eingabedaten manipuliert werden, um schädliche Inhalte in die Netze einzuspeisen. Das deutsche BSI sowie das französische ANSSI fordern aus diesem Grund anstelle der offenen Lieferketten, welche von der Industrie bevorzugt werden, transparentere und sicherere Lösungen. Das Augenmerk liegt hierbei auf der Verifizierbarkeit der Herkunft und Wirkung von Trainingsdaten.

Neue Risiken durch unkontrolliertes Lernen

Das BSI sowie die Datenschützer sind ebenfalls nicht begeistert von dem aktuellen Trendthema bezüglich künstlicher Intelligenz mit der Bezeichnung „Generative Adversarial Networks“ (GAN). Bei diesem Projekt handelt es sich um zwei verschiedene neuronale Netze, die einander gegenübergestellt wurden, um sich gegenseitig zu optimieren. Das Projekt ermöglicht unkontrolliertes Lernen; aus Sicht der Datenschützer ist es bereits deshalb diskreditiert. Diese GANs wurden 2014 erstmalig vorgestellt und setzen sich aus einem Generator einerseits sowie einem Diskriminator andererseits zusammen. Ersterer erzeugt anhand seiner Trainingsdaten Kandidaten, die der Zweite entweder akzeptieren oder verwerfen muss. Das Projekt kann dazu missbraucht werden, beliebige Identitäten zu fälschen oder Kunstfälschungen zu erstellen, die nach etablierten Prüfungskriterien als „echt“ erkannt werden. Darüber hinaus besitzen GANs nach Angaben der Studie das notwendige Potenzial, um aus ursprünglich harmlosen neuronalen Netzen gefährliche Werkzeuge oder gar Waffen zu erzeugen.

Die bisher gebräuchlichen Angriffswerkzeuge wurden vollständig ohne künstliche Intelligenz von Menschenhand und Menschengeist entwickelt. Wie deutsche Forscher auf der Bühne beim Sicherheitskongress des BSI live demonstrierten, sind diese bereits äußerst wirksam. Ein in Bonn-Bad Godesberg vor der Kongresshalle aufgenommenes Foto von einem Mann mit Zeitung wurde von einem Angriffstool der künstlichen Intelligenz in ein Bild verwandelt, das als Foto von einem Hund identifiziert wurde. Die Mathematiker des Start-ups Neurocat in Berlin verraten nicht, wie ein solcher Angriff im Einzelnen funktioniert. Die Manipulationen sind mit bloßem Auge nicht zu erkennen. Ähnlich dem vorher erwähnten Beispiel des Pandabären, der als Affe identifiziert wurde, verhält es sich hier. Die Bilderkennung wird irregeführt, indem einzelne Bildpunkte des Fotos verändert werden, jedoch nicht die Anzahl der Pixel. Das entscheidende Merkmal für die Bilderkennung liegt in der korrekten Dosierung der Veränderung von Farbe und Helligkeit. Die Mathematiker von Neurocat rühmen sich mit „Millionen“ ähnlicher Szenarien in ihrem Portfolio. Nachdem in den vergangenen Jahren in den USA die wissenschaftlichen Publikationen über die Schwachpunkte der künstlichen Intelligenz stetig zunahmen, taten sich die Berliner Forscher vor zwei Jahren zusammen, um durch eigene Forschungsprojekte geeignete Lösungen für das Problem zu finden. Eines der Ergebnisse aus der Berliner Forschung besteht in einem Generator, der in der Lage ist die Objekterkennung zu narren. Die Fehlerkennungen sind nahezu unendlich. In manchen Fällen verschwinden die Objekte gänzlich und verschmelzen mit dem Hintergrund.

Siehe auch KI: Totale Überwachung in China schon bald Realität?

Stephan Hinze, der Geschäftsführer von Neurocat, erläutert den Sachverhalt folgendermaßen: „Die Euphorie des Hypes um die künstliche Intelligenz in den vergangenen zehn Jahren ist teilweise einer Ernüchterung gewichen.“ Rund um das Thema Safety und Security bezüglich autonom agierender Geräte und Apparate hat sich ein völlig neues Forschungsfeld aufgetan, das als „robuste künstliche Intelligenz“ bezeichnet wird. Die Gruppe der Forscher ist außerordentlich gering und umfasst weltweit maximal 500 Personen, unter denen sich 50 Trendsetter befinden.

Stephan Hinze erläutert weiter: „Im Finden von Gegenmaßnahmen liegt aktuell eine internationale Challenge, die von den Größen unter den Firmen der künstlichen Intelligenz ausgetragen wird.“ Seine Forscher agieren gemeinsam mit den Forschungsabteilungen des Internetriesen Google. Die Wissenschaftler sind sich durch diverse Konferenzen persönlich bekannt. Wie gegen die Manipulation vorzugehen sei, bleibt umstritten. Ein großer Teil der Forscher ist der Meinung, dass durch das Einspeisen von mehr Trainingsdaten in den Wissensschatz des Systems von Deep Learning das Problem behoben werden kann. Andere Forscher betrachten eine solche Vorgehensweise skeptisch. Sie argumentieren, dass durch zu viele Negativbeispiele das neuronale Netz die Wirklichkeit nicht korrekt erkennen kann. Eine andere Gruppe Forscher sieht die Lösung darin, den vorhandenen Wissensschatz – das tiefe Netz – durch direkte Eingaben zu verändern; und wieder andere Forscher wollen Schutzmodule aus Software konstruieren, um Störungen bereits aus dem Datenfluss zu entfernen, ehe dieser die neuronalen Netze erreicht.

Transparenz versus „vergiftete“ Daten

Stephan Hinze möchte noch nicht verraten, für welche Lösung sich seine Firma entschieden hat. Er verweist stattdessen auf zukünftige Veröffentlichungen sowie auf entsprechende Patentgesuche. Doch eines verrät er: „Die Sicherheitsrisiken liegen nicht ausschließlich in den Algorithmen; sie stecken ebenso in den Daten.“ Mit dieser Ansicht liegt er mit dem BSI, ANSSI sowie dem Bundesdatenschutzbeauftragten auf einer gemeinsamen Linie. Alle Sicherheitsbehörden fordern, dass die Herkunft der zwingend erforderlichen Trainingsdaten transparent und verifizierbar sein müssen, da „vergiftete“ Daten zu unerwünschten Resultaten führen. Während die eine Gruppe um Safety und Security bangt, befürchtet die andere, Nachteile und Diskriminierungen für politische und religiöse Gruppierungen. Die möglichen Diskriminierungen zählen zum Arbeitsgebiet der Enquete-Kommission „Künstliche Intelligenz“ im Deutschen Bundestag.

Die Ursachen all dieser Probleme liegen tief versteckt im Wissensspeicher des Deep Learnings, der aus Millionen verschiedenster Parameter besteht. Aus mathematischer Sicht stellt dies ein hoch dimensionales Optimierungsproblem dar. Für die IT ist es ein Spiel mit völlig neuen Regeln. Die Informatiker wissen zumindest theoretisch, wie man schädliche Anweisungen in einem Sourcecode (Quellcode) auffindet. Bei neuronalen Netzen des Deep Learning Systems und deren Sicherheitslücken beißen sich indes die Experten noch die Zähne aus. „Die Qualität der künstlichen Intelligenz kann nicht allein durch eine Quelltextsichtung, die von Experten vorgenommen wird, beurteilt werden. Für diesen Zweck benötigen die Experten eine neue Prüfsoftware, die in der Lage ist, die Daten und komplexen Systeme der künstlichen Intelligenz zu analysieren“, so die Meinung von Stephan Hinze. Verschiedene Teams arbeiten bereits an derartigen Prüfverfahren. Angesichts der rasanten Geschwindigkeit, mit der die künstliche Intelligenz in der Gesellschaft vordringt, eine wahrlich drängende Aufgabe.