Logo mybusinessculture.com

AI Kann Standardisierte Tests Bestehen - Aber Die Vorschule Würde Scheitern

AI Kann Standardisierte Tests Bestehen - Aber Die Vorschule Würde Scheitern
AI Kann Standardisierte Tests Bestehen - Aber Die Vorschule Würde Scheitern
Anonim

Forscher der künstlichen Intelligenz haben lange davon geträumt, einen Computer zu bauen, der so kenntnisreich und kommunikativ ist wie der in Star Trek, der mit Menschen in natürlicher (dh menschlicher) Sprache interagieren könnte. Letzte Woche schienen wir mutig auf dieses Ideal zuzugehen. Die New York Times berichtete, dass ein Team am Allen Institute for Artificial Intelligence (AI2) einen „Meilenstein für künstliche Intelligenz“erreicht habe. AI2-Programm Aristo bestand nicht nur einen standardisierten wissenschaftlichen Test der achten Klasse, sondern übertraf diesen auch. Die Maschine, wie die Times ankündigte, „ist bereit für die Wissenschaft der High School. Vielleicht sogar aufs College."

WIRED MEINUNG ÜBER

Melanie Mitchell ist Professorin für Informatik an der Portland State University und externe Professorin am Santa Fe Institute. Ihr Buch Künstliche Intelligenz: Ein Leitfaden für denkende Menschen wird im Oktober von Farrar, Straus und Giroux veröffentlicht.

Oder vielleicht nicht. Aristo ist nicht das erste KI-System, das auf einem Test basiert, der das menschliche Wissen und die Fähigkeit zum Denken misst. Im Jahr 2015 erreichte ein System die Leistung eines 4-Jährigen bei einem IQ-Test und führte die BBC-Überschrift „AI hatte einen IQ eines 4-jährigen Kindes“an. Eine andere Gruppe berichtete, dass ihr System SAT-Geometrie-Fragen sowohl „als auch den Durchschnitt lösen konnte Amerikanischer Schüler der 11. Klasse. “Kürzlich erstellten Stanford-Forscher einen Test zur Beantwortung von Fragen, bei dem die New York Post ankündigte, dass„ KI-Systeme das Leseverständnis von Menschen übertreffen. “Die Wahrheit ist, dass diese Systeme in bestimmten Sprachen gute Leistungen erbringen -Verarbeitungstests können sie nur ablegen. Keiner kommt dem menschlichen Leseverständnis oder anderen allgemeinen Fähigkeiten, die mit dem Test gemessen werden sollten, nahe.

Das Problem ist, dass die heutigen Maschinen, die sich durch bestimmte enge Aufgaben auszeichnen, immer noch nicht über den gesunden Menschenverstand verfügen. Dies schließt das umfangreiche und meist unbewusste Hintergrundwissen ein, mit dem wir die Situationen, denen wir begegnen, und die Sprache, mit der wir kommunizieren, verstehen. Zum gesunden Menschenverstand gehört auch unsere Fähigkeit, dieses Wissen schnell und flexibel auf neue Gegebenheiten anzuwenden.

Das Ziel, Maschinen mit gesundem Menschenverstand auszustatten, ist so alt wie das Gebiet der KI selbst, und ich würde es als das schwierigste offene Problem der KI bezeichnen. Ab den 1990er Jahren rückte die Forschung zum gesunden Menschenverstand in den Hintergrund statistischer, datengetriebener KI-Ansätze - insbesondere in Form von neuronalen Netzen und „Deep Learning“. Kürzlich haben Forscher jedoch herausgefunden, dass Deep Learning-Systeme nicht die Robustheit und Allgemeingültigkeit von aufweisen menschliches Lernen, vor allem, weil ihnen unser breites Wissen und unsere flexiblen Denkfähigkeiten fehlen. Maschinen einen menschenähnlichen Menschenverstand zu geben, steht jetzt ganz oben auf der To-Do-Liste von AI.

Die offene Beantwortung von Fragen wie die des Star Trek-Computers ist für aktuelle KI-Systeme immer noch zu schwierig. Daher machen die Forscher Fortschritte, indem sie Programme erstellen, die sich gut für „Benchmarks“eignen - bestimmte Datensätze, die eine bestimmte Aufgabe darstellen. Aristos Benchmark besteht aus einer Reihe von Multiple-Choice-Fragen des New York State Regents Exam in Science. Eine Beispielfrage:

Welche Ausrüstung trennt am besten eine Mischung aus Eisenspänen und schwarzem Pfeffer?

(a) Magnet (b) Filterpapier (c) Dreistrahlwaage (d) Voltmeter

Die Schöpfer von Aristo glauben, dass die Entwicklung von KI-Systemen zur Beantwortung solcher Fragen eine der besten Möglichkeiten ist, das Feld voranzutreiben. "Diese Fragen sind zwar kein vollständiger Test der maschinellen Intelligenz", stellen sie jedoch fest.

Aristo ist ein kompliziertes System, das mehrere KI-Methoden kombiniert. Die Komponente, die für fast den gesamten Erfolg des Systems verantwortlich ist, ist ein tiefes neuronales Netzwerk, das als sogenanntes Sprachmodell trainiert wurde - ein Mechanismus, der bei einer gegebenen Folge von Wörtern vorhersagen kann, wie das nächste Wort aussehen wird. "Ich bin viel zu schnell gefahren, als ich von … angehalten wurde." Was ist das nächste Wort? Vielleicht „Polizei“. Wahrscheinlich nicht „Grapefruit“. Bei einer bestimmten Wortfolge berechnet ein Sprachmodell die Wahrscheinlichkeit, dass jedes der hunderttausenden Wörter in seinem Vokabular das nächste in der Folge sein wird.

Aristos Sprachmodell wurde anhand von Wortsequenzen aus Millionen von Dokumenten (einschließlich der gesamten englischen Wikipedia) trainiert. Nach dem Training mit dieser riesigen Sammlung von Englisch hat das neuronale Netzwerk vermutlich einige nützliche Dinge über Sprache im Allgemeinen gelernt. An diesem Punkt kann das Netzwerk „verfeinert“werden, um die Beantwortung von Multiple-Choice-Fragen zu erlernen. Bei der Regents-Prüfung besteht der Input aus der Frage und den vier möglichen Antworten. Die Ausgabe ist die Wahrscheinlichkeit, dass jede Antwort richtig ist. Das Netzwerk gibt die Antwort mit der höchsten Wahrscheinlichkeit als Schätzung zurück.

Wir müssen bedenken, dass eine hohe Punktzahl für einen bestimmten Datensatz nicht immer bedeutet, dass eine Maschine die von ihren menschlichen Programmierern beabsichtigte Aufgabe tatsächlich gelernt hat.

Aristo wurde an 119 Fragen der achten Klasse getestet und stimmte bei über 90 Prozent - eine bemerkenswerte Leistung. Es war auch in über 83 Prozent der Fragen der 12. Klasse richtig. Während die Times berichtete, dass Aristo den Test „bestanden“habe, stellte das AI2-Team fest, dass die tatsächlichen Tests, an denen New Yorker Studenten teilnehmen, Fragen zu Diagrammen sowie Fragen zur „direkten Beantwortung“umfassen, die Aristo nicht beantworten konnte.

Dies ist ein aufregender Fortschritt, aber wir müssen bedenken, dass eine hohe Punktzahl für einen bestimmten Datensatz nicht immer bedeutet, dass eine Maschine die von ihren menschlichen Programmierern beabsichtigte Aufgabe tatsächlich gelernt hat. Manchmal weisen die Daten, die zum Trainieren und Testen eines Lernsystems verwendet werden, subtile statistische Muster auf - ich werde diese Werbegeschenke nennen -, die es dem System ermöglichen, ohne wirkliches Verständnis oder Argumentation eine gute Leistung zu erbringen.

Beispielsweise wurde 2019 über ein Sprachmodell für neuronale Netze berichtet, das dem von Aristo verwendeten Modell ähnelt, um festzustellen, ob ein Satz einen anderen Satz logisch impliziert. Der Grund für die hohe Leistung war jedoch nicht, dass das Netzwerk die Sätze oder ihre Verbindungslogik verstand. Vielmehr beruhte es auf oberflächlichen syntaktischen Eigenschaften, wie zum Beispiel der Überlappung der Wörter in einem Satz mit denen im zweiten Satz. Als das Netzwerk Sätze erhielt, für die es diese syntaktischen Eigenschaften nicht nutzen konnte, sank seine Leistung.

In den letzten Jahren wurden Dutzende von Veröffentlichungen veröffentlicht, die die Existenz subtiler Werbegeschenke in Benchmark-Datensätzen aufzeigen, die zur Bewertung von maschinellen Lernsystemen verwendet werden. Dies hat einige Forscher dazu veranlasst zu hinterfragen, inwieweit Deep-Learning-Systeme ein „echtes Verständnis“aufweisen oder lediglich auf oberflächliche Hinweise in den Daten reagieren.

Das Aristo-Team argumentierte, dass die Fragen der Regents-Prüfung weniger anfällig für solche Werbegeschenke seien als die häufiger verwendeten Crowdsourcing-Datensätze zur Beantwortung von Fragen. Sie stellen fest, dass "viele der Benchmark-Fragen intuitiv zu beantworten scheinen" und dass Aristos hervorragende Leistung "darauf hindeutet, dass die Maschine tatsächlich etwas über Sprache und Welt gelernt hat und wie man dieses Wissen manipuliert".

Aber inwieweit sind Argumentation, Verstehen oder Wissen der Wissenschaft tatsächlich erforderlich, um diese Fragen zu beantworten? Betrachten Sie zum Beispiel die Beispielfrage oben. Das Aristo-Team behauptet: „Um diese Art von Frage solide zu beantworten, reicht es nicht aus, den Magnetismus zu verstehen. Aristo muss auch ein Modell von ‚schwarzem Pfeffer 'und‚ Mischung' haben, da die Antwort anders wäre, wenn die Eisenspäne in eine Flasche Wasser getaucht würden. “

Ich werde eine konkurrierende Hypothese aufstellen: Angesichts des Aristo-Sprachmodells sind keine derartigen Kenntnisse oder Argumente erforderlich, um diese spezielle Frage zu beantworten. Stattdessen hat das Sprachmodell statistische Assoziationen zwischen Wörtern erfasst, die es ihm ermöglichen, die Frage ohne wirkliches Verständnis zu beantworten. Betrachten Sie zur Veranschaulichung die folgenden vier Sätze.

1. Der Magnet trennt am besten eine Mischung aus Eisenspänen und schwarzem Pfeffer.

2. Filterpapier trennt am besten eine Mischung aus Eisenspänen und schwarzem Pfeffer.

3. Eine Dreistrahl-Waage trennt am besten eine Mischung aus Eisenspänen und schwarzem Pfeffer.

4. Das Voltmeter trennt am besten eine Mischung aus Eisenspänen und schwarzem Pfeffer.

Ein Sprachmodell kann jeden dieser Sätze eingeben und die „Wahrscheinlichkeit“des Satzes ausgeben - wie gut der Satz zu den Wortassoziationen passt, die das Modell gelernt hat - und die Option mit der höchsten Wahrscheinlichkeit auswählen. Als sehr grobe Simulation habe ich eine Version jedes dieser Sätze in Google eingegeben (um sicherzustellen, dass keine genauen Übereinstimmungen gefunden wurden) und mir angesehen, wie viele "Treffer" jeder einzelne Satz erhalten hat. In der Tat hat der Satz, der mit „magnet“beginnt, die meisten Treffer erzielt. Mein grobes Sprachmodell beantwortete die Frage korrekt, ohne dass andere Informationen als Wortassoziationen im Web vorhanden waren.

Ich habe dasselbe Experiment mit anderen zufällig ausgewählten Fragen aus der Regents-Prüfung durchgeführt und festgestellt, dass die richtige Antwort in sechs von zehn Fällen die meisten Treffer ergab. Mein Googeln-Experiment ist nur eine Illustration, die nicht als wissenschaftliches Experiment gedacht ist, aber es stimmt ziemlich gut mit dem Ergebnis überein, das das Aristo-Team selbst für "Baseline-Retrieval-Methoden" angegeben hat. Es liegt weit unter 90 Prozent, zeigt jedoch, dass es "Werbegeschenke" gibt Dies kann die Leistung eines Lernsystems steigern, ohne dass Kenntnisse oder Überlegungen erforderlich sind. Darüber hinaus ist dies möglicherweise nur die Spitze des Eisbergs der subtilen Werbegeschenke, mit denen ein maschinelles Lernsystem eine Antwort auswählen könnte.

Neuronale Netze sind notorisch undurchsichtig; Es ist normalerweise sehr schwer, genau das herauszufinden, was sie gelernt haben. Möglicherweise beruht Aristos beeindruckende Leistung auf der Fähigkeit, wissenschaftliche Konzepte zu extrahieren und darüber nachzudenken. In Anbetracht der Geschichte der Verarbeitungssysteme in natürlicher Sprache, die Werbegeschenke ausnutzen und „aus den falschen Gründen richtig“sind, ist es wichtig, diese Behauptungen eingehender zu untersuchen. Das Aristo-Team selbst bot einen aussagekräftigen Schritt in diese Richtung: Sie führten ein Experiment durch, bei dem sie jeder Frage vier zusätzliche falsche Antworten hinzufügten und dabei neue Antworten auswählten, die das System verwirren könnten. Die Leistung von Aristo sank auf weniger als 60 Prozent. Das Ausloten der Schwäche des eigenen KI-Systems ist unerlässlich, um bei diesen sehr schwierigen Problemen Fortschritte zu erzielen.

Empfohlen:

Tipp Der Redaktion