Im Jahr 2012 stellten Forscher der künstlichen Intelligenz eine große Verbesserung der Fähigkeit von Computern zur Erkennung von Bildern fest, indem sie ein neuronales Netzwerk mit Millionen von beschrifteten Bildern aus einer Datenbank namens ImageNet speisten. Dies leitete eine aufregende Phase für das Computer-Sehen ein, da sich herausstellte, dass ein mit ImageNet geschultes Modell bei der Lösung aller Arten von Bilderkennungsproblemen helfen kann. Sechs Jahre später haben selbstfahrende Autos die Möglichkeit erhalten, durch die Straßen der Stadt zu navigieren, und Facebook, um automatisch Personen auf Ihren Fotos zu markieren.
In anderen Bereichen der KI-Forschung wie dem Verstehen von Sprache haben sich ähnliche Modelle als schwer fassbar erwiesen. Jüngste Forschungen von fast.ai, OpenAI und dem Allen Institute for AI deuten jedoch auf einen möglichen Durchbruch mit robusteren Sprachmodellen hin, die Forschern helfen können, eine Reihe ungelöster Probleme zu lösen. Sebastian Ruder, Forscher hinter einem der neuen Modelle, nennt es den „ImageNet-Moment“seines Fachgebiets.
Die Verbesserungen können dramatisch sein. Das bislang am häufigsten getestete Modell heißt Embeddings from Language Models (ELMo). Als es in diesem Frühjahr vom Allen Institute herausgegeben wurde, hat ELMo frühere Bestleistungen bei einer Vielzahl von herausfordernden Aufgaben wie dem Leseverständnis, bei dem eine KI SAT-artige Fragen zu einer Passage beantwortet, und der Stimmungsanalyse zügig übertroffen. In einem Bereich, in dem der Fortschritt tendenziell nur schrittweise erfolgt, verbesserte das Hinzufügen von ELMo die Ergebnisse um bis zu 25 Prozent. Im Juni wurde es auf einer großen Konferenz als bestes Papier ausgezeichnet.
Dan Klein, Professor für Informatik an der UC Berkeley, gehörte zu den Early Adopters. Zusammen mit einem Studenten arbeitete er an einem Wahlkreis-Parser, einem Bread-and-Butter-Tool, bei dem die grammatikalische Struktur eines Satzes abgebildet wird. Durch das Hinzufügen von ELMo hatte Klein plötzlich das beste System der Welt, das mit erstaunlich großem Abstand genaueste. „Wenn Sie mich vor ein paar Jahren gefragt hätten, ob es möglich wäre, ein so hohes Niveau zu erreichen, wäre ich mir nicht sicher gewesen“, sagt er.
Modelle wie ELMo befassen sich mit einem Kernproblem für AI-fähige Linguisten: dem Mangel an beschrifteten Daten. Damit ein neuronales Netzwerk Entscheidungen treffen kann, sind bei vielen Sprachproblemen Daten erforderlich, die sorgfältig von Hand beschriftet wurden. Die Erstellung dieser Daten kostet jedoch Zeit und Geld, und selbst viele Daten können die unvorhersehbare Art und Weise, wie wir sprechen und schreiben, nicht erfassen. Für andere Sprachen als Englisch verfügen Forscher häufig nicht über genügend beschriftete Daten, um selbst grundlegende Aufgaben zu erledigen.
"Wir werden nie in der Lage sein, genügend beschriftete Daten zu erhalten", sagt Matthew Peters, ein Forscher am Allen Institute, der das ELMo-Team leitete. "Wir müssen wirklich Modelle entwickeln, die unsaubere, unbeschriftete Daten aufnehmen und so viel wie möglich daraus lernen."
Glücklicherweise haben die Forscher dank des Internets eine Menge unordentlicher Daten aus Quellen wie Wikipedia, Büchern und sozialen Medien. Die Strategie besteht darin, diese Wörter in ein neuronales Netzwerk einzuspeisen und es ihm zu ermöglichen, Muster selbstständig zu erkennen, ein sogenannter "unbeaufsichtigter" Ansatz. Die Hoffnung ist, dass diese Muster einige allgemeine Aspekte der Sprache erfassen - ein Gefühl dafür, was Wörter vielleicht sind oder die Grundkonturen der Grammatik. Wie bei einem mit ImageNet geschulten Modell könnte ein solches Sprachmodell dann für spezifischere Aufgaben optimiert werden, z. B. um einen wissenschaftlichen Artikel zusammenzufassen, eine E-Mail als Spam zu klassifizieren oder sogar ein zufriedenstellendes Ende einer Kurzgeschichte zu generieren.
Diese grundlegende Intuition ist nicht neu. In den letzten Jahren haben Forscher unbeschriftete Daten mithilfe einer Technik untersucht, die als Worteinbettungen bezeichnet wird. Dabei wird die Beziehung zwischen Wörtern anhand ihrer Darstellung in großen Textmengen abgebildet. Die neuen Modelle zielen darauf ab, tiefer zu gehen und Informationen zu erfassen, die von Wörtern bis hin zu übergeordneten Sprachkonzepten reichen. Ruder, der über das Potenzial dieser tieferen Modelle für eine Vielzahl von Sprachproblemen geschrieben hat, hofft, dass sie ein einfacher Ersatz für Worteinbettungen werden.
ELMo verbessert beispielsweise die Worteinbettung, indem es mehr Kontext einbezieht und die Sprache eher auf einer Satzskala als auf Wörtern betrachtet. Durch diesen zusätzlichen Kontext kann das Modell den Unterschied zwischen beispielsweise "Mai" im Monat und "Mai" im Verb analysieren, aber es lernt auch die Syntax. ELMo erhält einen zusätzlichen Schub, indem es die Untereinheiten von Wörtern wie Präfixe und Suffixe versteht. Füttere ein neuronales Netzwerk mit einer Milliarde Wörtern, so wie es Peters Team tat, und dieser Ansatz erweist sich als ziemlich effektiv.