Ausgestorbene Sprache mit KI übersetzt

By Digital Today Künstliche Intelligenz 14. Juli 2019

Ausgehend von einer verwandten Sprache konnten Forscher mit künstlicher Intelligenz (KI) eine ausgestorbene Sprache übersetzen. Dieser Erfolg gelang nur dadurch, dass das System zuvor mit einer verwandten Sprache trainiert werden konnte. Training oder Konditionierung sind nämlich der zentrale Schlüssel zum Erfolg, will man künstliche Intelligenz sinnvoll einsetzen.

KI bildet Sprach-Koordinaten

Ausgestorbene Sprachen stellen daher eine besonders große Herausforderung für die Übersetzung durch künstliche Intelligenz dar. Weil es nur wenige Beispiele und keine aktiven Verwender gibt, muss Trainingsmaterial mühsam kreiert werden. Das ist der Grund, weshalb Übersetzungen dieser Sprachen noch immer ausschließlich von Menschen gemacht werden können. Dass beispielsweise Apples Siri oder der Google Assistant im Urlaub recht flüssig übersetzen können liegt dagegen an dem ausgiebigen Übungsmaterial, dass beide Systeme täglich durch das Verhalten ihrer Nutzer sammeln und auswerten können. Außerdem greifen die Systeme auf die bereits vorhanden unendlich großen Textdatenbanken aktueller Sprachen zu.

Dem Experiment liegt die Idee zugrunde, dass in einer Sprache, unabhängig davon, welche Sprache es ist, Wörter immer in einem ähnlichen Zusammenhang zueinander auftauchen. So findet sich das deutsche Wort “Auto” häufig in direkter Nähe zu dem Verb deutschen “fahren”. Die gleiche Verbindung findet sich im Englischen zwischen den Wörtern “car” und “to drive”. In der Theorie wird dann angenommen, dass nahezu alle Wörter einer Sprache entsprechende Nachbarschaftsverhältnisse haben, dass also das Äquivalent jeder Sprache zu “Auto” in der Nähe des Äquivalentes zu “fahren” steht. Diese Eigenschaft von Sprachen macht sich die Übersetzung zunutze.

Der Computer weist den einzelnen Wörtern nun Koordinaten in einem Koordinatensystem zu. Jeder Punkt stellt eine Repräsentation eines Wortes dar. Anschließend kann die KI zwei verschiedene auf diese Weise erstellte Koordinatensysteme übereinander legen. Sie findet so die Entsprechungen der Wörter beider Sprachen, da diese denselben Punkt im Raum zugewiesen bekommen hatten.

Siehe auch 5 grandiose KI-Apps, die nicht nur Spaß machen, sondern auch noch nützlich sind

Linearschrift B: Vorgänger des Altgriechischen

Die von den Forschern des Massachusetts Institute of Technology und KI-Forschern des Internetriesen Google gewählte Sprache Linearschrift B hat eine besondere Eigenschaft, die sich das Team zunutze machte. Bereits im Jahr 1952 erkannten Forscher, dass die Linearschrift B ein Vorgänger der griechischen Sprache ist. Dieses Wissen nutzten sie, um eine Übersetzung der Schrift anzufertigen.

Die Linearschrift B war 1878 durch den britischen Archäologen Arthur Evan entdeckt worden. Sie stammt aus der Zeit um das 15. bis 12. Jahrhundert vor unserer Zeitrechnung. Von dieser Schrift sind nur 160 Zeichen bekannt, denen eine Wortbedeutung zugeschrieben werden kann.

Die Forscher nahmen nun das Altgriechische zur Hilfe, aus dem große Textsammlungen zur Verfügung stehen und trainierten damit ihre künstliche Intelligenz. Diese konnte mit diesen Ausgangsdaten ein Koordinatensystem bilden, auf das sich große Mengen der ausgestorbenen Linearschrift B repräsentieren ließen. Diese Methode hat das Potenzial, das generelle Problem bei der Übersetzung ausgestorbener Sprachen durch künstliche Intelligenz zu lösen. In diesem Fall gelang es bereits, zwei Drittel aller Wörter in eine bekannte Sprache zu übertragen.

KI lernt mit Beispielen und Regeln

Um die Effizienz der eingesetzten KI-Technologie zu steigern, fütterten die Forscher ihr System neben beispielhaften Textbausteinen auch mit allgemeinen aus der Linguistik bekannten Regeln. Diese Regeln unterstützten die KI dabei, Punkte bzw. Wörter im Koordinatensystem korrekt zuzuordnen. Dazu integrierten Forscher in ihrem System Strukturen, die zeigen, wie sich Sprachen entwickeln und wie Wörter aus Ausgangssprachen in späteren Folgesprachen verwendet werden können.

Ein Beispiel für eine solche Evolution innerhalb von Sprachen ist das deutsche Wort “Haus”. Dieses Wort hat seinen Ursprung im Altdeutschen, wo das Wort “hus” bedecken bedeutete. Eine weitere Variante dieses Wortes findet sich beispielsweise im Englischen “House”. Die Nachfolger des Wortes “hus” haben die besondere Eigenschaft, dass sie eindeutige Übersetzungen voneinander sind. Dies ist eine Regelmäßigkeit, die sich in fast allen Sprachen findet und die die Forscher nutzen konnten, um das Radar ihres Computers im Hinblick auf das Verhältnis von Ausgangssprache und Nachfolgesprache zu schärfen.

Siehe auch Künstliche Intelligenz: Der Daten- und Stromfresser

Mit den Textfeldern aus dem Altgriechischen zusammen mit den oben beschriebenen Regeln gelang es der KI dann, 67 Prozent der ausgestorbenen Linearschrift zu übersetzen. Dazu hat das System einzelne Wörter der beiden Sprachen in ihrem selbst entworfenen Koordinatensystem zugeordnet. Jede Zuordnung entspricht dabei einer Übersetzung.

Dieser Erfolg verspricht große Fortschritte in der Übersetzung auch anderer ausgestorbener Sprachen. Einzige Bedingung ist, dass die zu übersetzende Sprache eine bekannte Nachfolgersprache besitzt. Die Forscher weiteten ihr Projekt bereits aus und übersetzten mit ihrer Methode die Ugaritische Sprache. Dabei handelt es sich um eine frühere Ausgangssprache des heutigen Hebräisch.

Der Ausblick für die Übersetzung alter Sprachen ist mit dieser Forschungsleistung deutlich besser geworden.