Logo mybusinessculture.com

Wenn Computer So Intelligent Sind, Warum Können Sie Dann Nicht Lesen?

Wenn Computer So Intelligent Sind, Warum Können Sie Dann Nicht Lesen?
Wenn Computer So Intelligent Sind, Warum Können Sie Dann Nicht Lesen?

Video: Wenn Computer So Intelligent Sind, Warum Können Sie Dann Nicht Lesen?

Video: Wenn Computer So Intelligent Sind, Warum Können Sie Dann Nicht Lesen?
Video: 15 Erstaunliche Tastenkombinationen, die du noch nie verwendet hast 2023, Dezember
Anonim

Anfang 2018 kündigte der Futurist und Erfinder Ray Kurzweil, derzeit Director of Engineering bei Google, auf der TED sein jüngstes Projekt "Google Talk to Books" an, in dem behauptet wird, mit dem Verständnis der natürlichen Sprache "eine völlig neue Art der Erforschung zu ermöglichen Bücher. “Quartz hieß es pflichtbewusst:„ Googles erstaunliches neues Suchwerkzeug [das] beantwortet jede Frage, indem es Tausende von Büchern liest. “

Wenn ein solches Tool tatsächlich existiert und robust funktioniert, wäre es erstaunlich. Aber so weit ist es nicht. Wenn wir Computern eine Fähigkeit geben könnten, die sie noch nicht haben, wäre dies die Fähigkeit, die Sprache wirklich zu verstehen. In der Medizin werden zum Beispiel täglich mehrere tausend Artikel veröffentlicht; Kein Arzt oder Forscher kann sie alle lesen. Die Entdeckung von Medikamenten wird verzögert, da Informationen in ungelesener Literatur eingeschlossen sind. Neue Behandlungen werden nicht angewendet, weil Ärzte keine Zeit haben, sie zu entdecken. KI-Programme, die die medizinische Literatur zusammenfassen - oder sogar Ihre E-Mails zuverlässig nach Dingen durchsuchen, die Ihrer To-Do-Liste hinzugefügt werden können -, wären eine Revolution.

Buchcover zum Neustart ai
Buchcover zum Neustart ai

Aber werfen Sie einen Blick auf Tools wie Google Talk to Books (GTB), und Sie stellen schnell fest, dass wir noch nicht annähernd maschinell lesen können. Als wir GTB fragten: "Wo hat Harry Potter Hermine Granger getroffen?", Bezogen sich nur sechs der 20 Antworten auf Harry Potter. Die meisten anderen drehten sich um andere Personen namens Harry oder um völlig unabhängige Themen. Nur einer erwähnte Hermine und keiner beantwortete die Frage. Als wir GTB fragten: "Wer war der älteste Richter am Obersten Gerichtshof im Jahr 1980?", Wurde ein weiterer Fehler gemeldet. Jeder einigermaßen kluge Mensch konnte auf die Wikipedia-Liste der Richter am Obersten Gerichtshof gehen und herausfinden, dass es sich um William Brennan handelte. Google Talk to Books couldn ' Kein Satz in einem Buch, den es verdaut hatte, führte die Antwort vollständig aus, und es gab keine Möglichkeit, Schlüsse zu ziehen, die über das hinausgingen, was direkt formuliert wurde.

Das aufschlussreichste Problem war jedoch, dass wir völlig unterschiedliche Antworten erhielten, je nachdem, wie wir die Frage stellten. Als wir GTB fragten: "Wer hat seinen Lehrer wegen 30 Silberstücken verraten?", Ein berühmter Vorfall in einer berühmten Geschichte, identifizierten nur drei von 20 Judas korrekt. Noch schlimmer wurde es, als wir uns vom genauen Wortlaut der „Silberlinge“abwandten. Als wir eine etwas weniger spezifische Frage stellten: „Wer hat seinen Lehrer um 30 Münzen verraten?“Judas tauchte nur in einer der Top-20-Antworten auf. und als wir fragten: "Wer hat seinen Lehrer für 30 Münzen verkauft?", verschwand Judas aus den Top-20-Ergebnissen insgesamt.

Um ein Gefühl dafür zu bekommen, warum robustes maschinelles Lesen immer noch eine so ferne Perspektive ist, hilft es, im Detail zu verstehen, was erforderlich ist, um selbst eine Kindergeschichte zu verstehen.

Angenommen, Sie lesen die folgende Passage aus Farmer Boy, einem Kinderbuch von Laura Ingalls Wilder. Almanzo, ein 9-jähriger Junge, findet eine Brieftasche (damals als „Taschenbuch“bezeichnet) voller Geld auf der Straße. Almanzos Vater vermutet, dass das Taschenbuch Mr. Thompson gehört, und Almanzo findet Mr. Thompson in einem der Läden der Stadt.

Almanzo wandte sich an Mr. Thompson und fragte: »Haben Sie ein Taschenbuch verloren?« Mr. Thompson zuckte zusammen. Er steckte eine Hand in die Tasche und schrie einigermaßen.

"Ja, habe ich! Auch eintausendfünfhundert Dollar! Was ist damit? Was weißt du darüber?"

"Ist das alles?", Fragte Almanzo.

"Ja, ja, das war's!", Sagte Mr. Thompson und schnappte sich das Taschenbuch. Er öffnete es und zählte hastig das Geld. Er zählte alle Rechnungen zweimal. … Dann atmete er erleichtert auf und sagte: „Nun, dieser Durn-Junge hat nichts davon gestohlen.“

Ein gutes Lesesystem könnte folgende Fragen beantworten:

• Warum schlug Mr. Thompson mit der Hand auf die Tasche?

• Hat Mr. Thompson, bevor Almanzo sprach, bemerkt, dass er seine Brieftasche verloren hat?

• Worauf bezog sich Almanzo, als er fragte: „Ist das alles?“

• War das gesamte Geld noch in der Brieftasche?

All diese Fragen sind für die Menschen einfach. Aber noch keine KI wurde entwickelt - denn für jede dieser Fragen muss der Leser einer Reihe von Schlussfolgerungen folgen, die nur in der Geschichte enthalten sind, und aktuelle Techniken führen keine Schlussfolgerungen in diesem Sinne aus. Was implizit ist, liegt weit außerhalb ihres Anwendungsbereichs. Solche Argumentationsketten verlangen oft, dass der Leser Hintergrundwissen über Menschen und Gegenstände und allgemein über die Funktionsweise der Welt zusammenstellt. Kein derzeitiges System verfügt über einen ausreichenden Fundus an Allgemeinwissen, um dies gut zu tun.

Nehmen Sie zum Beispiel die erste Frage. Bevor Almanzo spricht, weiß Herr Thompson nicht, dass er die Brieftasche verloren hat und geht davon aus, dass er die Brieftasche in seiner Tasche hat. Als Almanzo ihn fragt, ob er eine Brieftasche verloren hat, stellt Thompson fest, dass er tatsächlich seine Brieftasche verloren haben könnte. Um diese Möglichkeit zu testen - die Brieftasche könnte verloren gehen -, schlägt Thompson auf die Tasche. Da die Brieftasche nicht dort ist, wo er sie normalerweise aufbewahrt, kommt Thompson zu dem Schluss, dass er seine Brieftasche verloren hat. Bewusst oder unbewusst haben Sie, als Sie die Geschichte von Almanzo und der Brieftasche verdauten, wahrscheinlich auf die meisten oder alle der folgenden Fakten zurückgegriffen:

• Menschen können Dinge fallen lassen, ohne es zu merken. [Wissen über die Beziehung von Ereignissen und mentalen Zuständen von Menschen.]

• Menschen tragen ihre Brieftasche oft in der Tasche. [Wissen darüber, wie Menschen Objekte benutzen.]

• Wenn Menschen davon ausgehen, dass etwas, das für sie wichtig ist, wahr ist und sie herausfinden, dass es möglicherweise nicht wahr ist, ist es oft dringend, dass sie es überprüfen. [Wissen über die Arten von Dingen, die für Menschen psychologisch wichtig sind.]

• Sie können oft herausfinden, ob sich etwas in Ihrer Tasche befindet, indem Sie die Tasche außen anfassen. [Dies kombiniert das Wissen darüber, wie verschiedene Objekte (Hände, Taschen, Brieftaschen) miteinander interagieren, mit dem Wissen darüber, wie die Sinne funktionieren.]

Die derzeit populäre Herangehensweise an KI macht nichts davon; Anstatt Wissen darzustellen, stellt es nur Wahrscheinlichkeiten dar, vor allem, wie oft Wörter in unterschiedlichen Kontexten zusammen vorkommen. Das heißt, Sie können Wortketten erzeugen, die menschlich klingen, aber es gibt keine wirkliche Kohärenz.

Um zu veranschaulichen, was wir damit meinen, haben wir die Almanzo-Geschichte in GPT-2 eingespeist, ein von OpenAI entwickeltes, hochmodernes Texterzeugungssystem, das angeblich so gut ist, dass OpenAI es trotz allem nicht sicher mit der Öffentlichkeit teilen konnte seine Mission, AI frei verfügbar zu machen. Der Text, den wir oben vorgestellt haben, endete mit Thompsons Entdeckung, dass sein gesamtes Geld noch da war. herausgekommen das:

Es dauerte eine Menge Zeit, vielleicht Stunden, bis er das Geld an dem sicheren Ort gefunden hatte, an dem er es versteckt hatte. Also brachte er es in einem Bündel zurück und ließ es auf dem Tisch liegen. Dann bemerkte er das Geld, das sich im Bett versteckt hatte und ging mit einem großen Bündel auf das Bett zu.

Die Wörter sind fließend, aber die Ideen sind inkohärent. Wenn Mr. Thompson gerade seine Brieftasche zurückbekommen hat, warum wird das Geld plötzlich an einem sicheren Ort versteckt? Das System hat sich auf die statistische Korrelation zwischen Geldbörsen und sicheren Orten konzentriert, aber den Faden der Geschichte völlig verloren. (Sie können dies selbst ausprobieren; jede Fortsetzung wird anders sein; nur wenige werden kohärent sein.) Kein aktuelles System ist besser.

Wie sind wir in dieses Chaos gekommen?

Gegenwärtige KI-Systeme basieren größtenteils auf einer statistischen Technik, die als Tiefenlernen bezeichnet wird, und Tiefenlernen ist sehr effektiv beim Lernen von Korrelationen, wie zum Beispiel Korrelationen zwischen Bildern oder Tönen und Bezeichnungen. Aber tiefes Lernen kämpft, wenn es darum geht, zu verstehen, wie Objekte wie Sätze sich auf ihre Teile beziehen (wie Wörter und Phrasen).

Warum? Es fehlt, was Linguisten Kompositionalität nennen: ein Weg, die Bedeutung eines komplexen Satzes aus der Bedeutung seiner Teile zu konstruieren. Zum Beispiel bedeutet in dem Satz "Der Mond ist 240.000 Meilen von der Erde entfernt" das Wort Mond ein bestimmtes astronomisches Objekt, Erde bedeutet ein anderes, Meile bedeutet eine Entfernungseinheit, 240.000 bedeutet eine Zahl und dann kraft des Weges dass Phrasen und Sätze auf Englisch kompositorisch funktionieren, 240.000 Meilen bedeuten eine bestimmte Länge, und der Satz "Der Mond ist 240.000 Meilen von der Erde entfernt" besagt, dass der Abstand zwischen den beiden Himmelskörpern diese bestimmte Länge hat.

Weiter lesen



Illustration eines Kopfes
Illustration eines Kopfes

Das Neueste über künstliche Intelligenz, vom maschinellen Lernen bis zur Bildverarbeitung und mehr

Überraschenderweise hat Deep Learning keine direkte Möglichkeit, mit Kompositionalität umzugehen. Es enthält nur Informationen über viele, viele komplexe Zusammenhänge, ohne Struktur. Es kann lernen, dass Hunde Schwänze und Beine haben, aber es weiß nicht, wie sie sich auf den Lebenszyklus eines Hundes beziehen. Deep Learning erkennt einen Hund nicht als ein Tier, das aus Teilen wie einem Kopf, einem Schwanz und vier Beinen besteht, oder sogar, was ein Tier ist, geschweige denn, was ein Kopf ist und wie sich das Konzept des Kopfes zwischen Fröschen und Hunden unterscheidet und Menschen, die sich in Details unterscheiden und dennoch eine gemeinsame Beziehung zu Körpern haben. Deep Learning erkennt auch nicht, dass ein Satz wie "Der Mond ist 240.000 Meilen von der Erde entfernt" Sätze enthält, die sich auf zwei Himmelskörper und eine Länge beziehen.

Gleichzeitig hat Deep Learning keine gute Möglichkeit, Hintergrundwissen einzubeziehen. Ein System kann lernen, vorherzusagen, dass die Wörter Brieftasche und sicherer Ort in ähnlichen Sätzen vorkommen ("Er hat sein Geld in die Brieftasche gesteckt", "Er hat sein Geld an einen sicheren Ort gelegt"), aber es gibt keine Möglichkeit, dies in Beziehung zu setzen auf die Tatsache, dass die Menschen ihre Besitztümer gerne schützen.

In der Sprache der kognitiven Psychologie ist das, was Sie tun, wenn Sie einen Text lesen, ein kognitives Modell der Bedeutung dessen, was der Text sagt. Wenn Sie zum Beispiel die Passage von Farmer Boy lesen, bauen Sie nach und nach eine mentale Repräsentation aller Personen, Objekte und Ereignisse in der Geschichte und den Beziehungen zwischen ihnen auf: Almanzo, die Brieftasche und Mr Thompson und auch die Ereignisse, als Almanzo mit Mr. Thompson sprach, Mr. Thompson schrie und in die Tasche klatschte, Mr. Thompson die Brieftasche aus Almanzo riss und so weiter. Erst nachdem Sie den Text gelesen und das kognitive Modell erstellt haben, können Sie alle Ihre Handlungen mit der Erzählung ausführen - Fragen dazu beantworten, ins Russische übersetzen, veranschaulichen oder sich für später einfach daran erinnern.

Seit DeepMind 2013 ein System entwickelt hat, mit dem Atari-Spiele - oftmals besser als Menschen - ohne kognitive Modelle gespielt wurden und das sich für mehr als eine halbe Milliarde Dollar an Google verkaufte, sind kognitive Modelle aus der Mode gekommen. Aber was für Spiele mit festen Regeln und eingeschränkten Optionen funktioniert, funktioniert nicht zum Lesen. Die simulierte Prosa des kognitiv-modellfreien GPT-2 ist unterhaltsam, aber weit entfernt von einem echten Leseverständnis.

Das liegt daran, dass Statistiken letztendlich kein Ersatz für das Verständnis der realen Welt sind. Stattdessen gibt es ein grundlegendes Missverhältnis zwischen der Art der statistischen Berechnung, die aktuelle KI-Programme antreibt, und der kognitiven Modellkonstruktion, die erforderlich wäre, damit Systeme tatsächlich verstehen, was sie zu lesen versuchen.

Wir glauben nicht, dass es für Maschinen unmöglich ist, eine bessere Leistung zu erbringen. Eine rein quantitative Verbesserung - mit mehr Daten, mehr Schichten in unseren neuronalen Netzen und mehr Computern in den vernetzten Clustern leistungsfähiger Maschinen, auf denen diese Netze ausgeführt werden - kann dies jedoch nicht verhindern.

Stattdessen glauben wir, dass es Zeit für einen völlig neuen Ansatz ist, der von der menschlichen kognitiven Psychologie inspiriert ist und sich auf das Denken und die Herausforderung konzentriert, maschineninterpretierbare Versionen des gesunden Menschenverstands zu schaffen.

Beim Lesen geht es nicht nur um Statistik, sondern um Wissenssynthese: Sie müssen das, was Sie bereits wissen, mit dem kombinieren, was der Autor Ihnen zu sagen versucht. Kinder schaffen das routinemäßig. Maschinen haben noch nicht.

Empfohlen:

Tipp Der Redaktion