Logo mybusinessculture.com

Ein KI-Pionier Erklärt Die Entwicklung Neuronaler Netze

Ein KI-Pionier Erklärt Die Entwicklung Neuronaler Netze
Ein KI-Pionier Erklärt Die Entwicklung Neuronaler Netze

Video: Ein KI-Pionier Erklärt Die Entwicklung Neuronaler Netze

Video: Ein KI-Pionier Erklärt Die Entwicklung Neuronaler Netze
Video: Wie funktionieren künstliche neuronale Netze | Was ist ...? 2023, Dezember
Anonim

Geoffrey Hinton ist einer der Schöpfer von Deep Learning, Gewinner des Turing Award 2019 und technischer Mitarbeiter bei Google. Letzte Woche diskutierten wir auf der I / O-Entwicklerkonferenz des Unternehmens seine frühe Faszination für das Gehirn und die Möglichkeit, Computer nach seiner neuronalen Struktur zu modellieren - eine Idee, die andere Wissenschaftler lange als tollkühn abgetan haben. Wir diskutierten auch über das Bewusstsein, seine Zukunftspläne und darüber, ob Computern das Träumen beigebracht werden sollte. Die Konversation wurde aus Gründen der Länge und Klarheit leicht bearbeitet.

Nicholas Thompson: Beginnen wir, wenn Sie einige Ihrer frühen, sehr einflussreichen Artikel schreiben. Alle sagen: „Das ist eine kluge Idee, aber wir werden Computer nicht so entwerfen können.“Erklären Sie, warum Sie so beharrlich waren und warum Sie so zuversichtlich waren, etwas Wichtiges gefunden zu haben.

Geoffrey Hinton: Mir schien, es gibt keine andere Möglichkeit, wie das Gehirn funktionieren könnte. Es muss funktionieren, indem es die Stärke der Verbindungen lernt. Und wenn Sie ein Gerät dazu bringen möchten, etwas Intelligentes zu tun, haben Sie zwei Möglichkeiten: Sie können es programmieren oder es kann lernen. Und die Leute waren bestimmt nicht programmiert, also mussten wir lernen. Dies musste der richtige Weg sein.

NT: Erklären Sie, was neuronale Netze sind. Erläutern Sie die ursprüngliche Einsicht.

GH: Sie haben relativ einfache Verarbeitungselemente, die sehr lose Modelle von Neuronen sind. Sie haben eingehende Verbindungen, jede Verbindung hat eine Gewichtung, und diese Gewichtung kann durch Lernen geändert werden. Und was ein Neuron tut, ist, die Aktivitäten auf den Verbindungen mal die Gewichte zu nehmen, sie alle zu addieren und dann zu entscheiden, ob eine Ausgabe gesendet werden soll. Wenn die Summe groß genug ist, wird eine Ausgabe gesendet. Wenn die Summe negativ ist, wird nichts gesendet. Das ist alles. Und alles, was Sie tun müssen, ist, eine Unmenge von Leuten mit einer Unmenge von Quadratgewichten zu verdrahten und herauszufinden, wie man die Gewichte ändert, und es wird alles tun. Es ist nur eine Frage, wie Sie die Gewichte ändern.

NT: Wann haben Sie verstanden, dass dies eine ungefähre Darstellung der Funktionsweise des Gehirns ist?

GH: Oh, das war schon immer so. Es war so konzipiert, wie das Gehirn funktioniert.

NT: Irgendwann in Ihrer Karriere beginnen Sie zu verstehen, wie das Gehirn funktioniert. Vielleicht war es, als du 12 warst; Vielleicht war es, als Sie 25 waren. Wann treffen Sie die Entscheidung, dass Sie versuchen werden, Computer nach dem Gehirn zu modellieren?

GH: Irgendwie sofort. Das war der springende Punkt. Die ganze Idee war, ein Lerngerät zu haben, das wie das Gehirn lernt, so wie die Leute denken, das Gehirn lernt, indem sie die Verbindungszeichenfolgen ändern. Und das war nicht meine Idee; [Britischer Mathematiker Alan] Turing hatte die gleiche Idee. Obwohl er viel über die Grundlagen der Standardinformatik erfand, glaubte er, dass das Gehirn dieses unorganisierte Gerät mit zufälligen Gewichten sei und dass es das Lernen der Verstärkung nutzen würde, um die Verbindungen zu ändern, und dass es alles lernen würde. Und er dachte, das sei der beste Weg zur Intelligenz.

NT: Und so folgten Sie Turings Idee, dass der beste Weg, eine Maschine herzustellen, darin besteht, sie dem menschlichen Gehirn nachzubilden. So funktioniert ein menschliches Gehirn. Lassen Sie uns eine solche Maschine bauen.

GH: Ja, das war nicht nur Turings Idee. Viele Leute dachten das.

NT: Wann ist der dunkelste Moment? Wann ist der Moment, in dem andere Leute, die gearbeitet haben und dieser Idee von Turing zugestimmt haben, sich zurückziehen und Sie dennoch weiter vorankommen.

GH: Es gab immer eine Menge Leute, die daran glaubten, besonders an die Psychologie. Aber unter den Informatikern waren die Datenmengen in den 90er Jahren sehr klein und die Computer nicht so schnell. Bei kleinen Datenmengen funktionierten andere Methoden, z. B. Support-Vektor-Maschinen, etwas besser. Sie wurden nicht so sehr durch Lärm verwirrt. Das war sehr deprimierend, denn in den 80er Jahren entwickelten wir eine Rückvermehrung. Wir dachten, es würde alles lösen. Und wir waren ein bisschen verwirrt, warum es nicht alles gelöst hat. Und es war nur eine Frage des Maßstabs, aber das wussten wir damals nicht wirklich.

NT: Und warum hast du gedacht, dass es nicht funktioniert?

GH: Wir dachten, es würde nicht funktionieren, weil wir nicht die richtigen Algorithmen hatten, wir hatten nicht die richtigen Zielfunktionen. Ich dachte lange, es lag daran, dass wir versucht haben, überwachtes Lernen durchzuführen, bei dem Sie Daten kennzeichnen müssen, und dass wir unüberwachtes Lernen hätten durchführen sollen, bei dem Sie nur aus den Daten ohne Kennzeichnungen gelernt haben. Es stellte sich heraus, dass es sich hauptsächlich um eine Frage der Größenordnung handelte.

NT: Das ist interessant. Das Problem war also, dass Sie nicht genügend Daten hatten. Sie dachten, Sie hätten die richtige Datenmenge, aber Sie hatten sie nicht richtig beschriftet. Sie haben das Problem also nur falsch identifiziert?

GH: Ich dachte, es wäre ein Fehler, nur Etiketten zu verwenden. Sie machen den größten Teil Ihres Lernens ohne Verwendung von Beschriftungen, indem Sie lediglich versuchen, die Struktur in den Daten zu modellieren. Das glaube ich eigentlich immer noch. Ich denke, wenn Computer für einen bestimmten Datensatz schneller werden, ist es besser, unbeaufsichtigt zu lernen, wenn Sie Computer schnell genug machen. Und wenn Sie erst einmal unbeaufsichtigt gelernt haben, können Sie von weniger Labels lernen.

NT: In den neunziger Jahren setzen Sie Ihre Forschung fort, Sie sind in der akademischen Welt, Sie veröffentlichen immer noch, aber Sie lösen keine großen Probleme. Gab es jemals einen Moment, in dem Sie sagten: Weißt du was? Genug davon. Ich werde noch etwas ausprobieren? Oder haben Sie gerade gesagt, wir werden weiterhin tiefes Lernen betreiben?

GH: Ja. So etwas muss funktionieren. Ich meine, die Verbindungen im Gehirn lernen irgendwie und wir müssen es nur herausfinden. Und wahrscheinlich gibt es eine Reihe verschiedener Methoden, um die Stärken von Verbindungen zu lernen. Das Gehirn benutzt einen von ihnen. Es kann andere Wege geben, dies zu tun. Aber natürlich muss man etwas haben, um diese Verbindungsstärken zu erlernen. Daran habe ich nie gezweifelt.

NT: Du zweifelst also nie daran. Wann scheint es zum ersten Mal zu funktionieren?

"Ich versuche nicht, ein Modell der Funktionsweise des Gehirns zu erstellen. Ich schaue auf das Gehirn und sage: 'Dieses Ding funktioniert, und wenn wir etwas anderes machen wollen, das funktioniert, sollten wir es uns irgendwie ansehen Inspiration.'"

Geoffrey Hinton

GH: Eine der großen Enttäuschungen in den Achtzigern war, dass man Netzwerke mit vielen versteckten Ebenen nicht trainieren konnte. Das ist nicht ganz richtig, weil Sie für relativ einfache Aufgaben wie das Erkennen der Handschrift trainieren können. Aber die meisten tiefen neuronalen Netze konnten wir nicht trainieren. Ungefähr im Jahr 2005 habe ich mir eine Methode ausgedacht, um unbeaufsichtigt tiefe Netze zu trainieren. Nehmen Sie also Ihre Eingaben, sagen Sie Ihre Pixel, und Sie würden eine Reihe von Feature-Detektoren lernen, die nur gut erklären konnten, warum die Pixel überhaupt so waren. Und dann behandeln Sie diese Feature-Detektoren als Daten, und Sie lernen eine weitere Reihe von Feature-Detektoren kennen, damit wir erklären können, warum diese Feature-Detektoren diese Korrelationen aufweisen. Und du lernst immer wieder Schichten und Schichten. Interessant war jedoch, dass Sie ein bisschen rechnen und nachweisen konnten, dass Sie jedes Mal, wenn Sie eine andere Ebene gelernt haben, nicht unbedingt ein besseres Modell der Daten hatten, sondern eine Band darüber, wie gut Ihr Modell war. Und Sie könnten jedes Mal eine bessere Band bekommen, wenn Sie eine weitere Ebene hinzufügen.

NT: Was meinst du damit, du hattest eine Band darüber, wie gut dein Model war?

GH: Wenn Sie ein Modell haben, können Sie sagen: „Wie überraschend findet ein Modell diese Daten?“Sie zeigen einige Daten und sagen: „Ist das die Art von Sache, an die Sie glauben, oder ist das überraschend? Und man kann etwas messen, das das sagt. Und Sie möchten ein Modell haben, ein gutes Modell ist ein Modell, das die Daten betrachtet und sagt: „Ja, ja, das wusste ich. Es ist nicht überraschend. “Es ist oft sehr schwer zu berechnen, wie überraschend dieses Modell die Daten findet. Aber Sie können eine Band darauf berechnen. Man kann sagen, dass dieses Modell die Daten weniger überraschend findet als dieses. Und Sie können zeigen, dass Sie ein Modell erhalten, wenn Sie zusätzliche Schichten von Feature-Detektoren hinzufügen, und jedes Mal, wenn Sie eine Schicht hinzufügen, wird das Ausmaß der Überraschung, in der die Daten gefunden werden, besser.

NT: Ungefähr im Jahr 2005 haben Sie diesen mathematischen Durchbruch geschafft. Wann bekommst du die richtigen Antworten? Und an welchen Daten arbeiten Sie? Es sind Sprachdaten, bei denen Sie zum ersten Mal den Durchbruch erzielt haben, oder?

GH: Das waren nur handgeschriebene Ziffern. Sehr einfach. Ungefähr zur gleichen Zeit begannen sie mit der Entwicklung von GPUs (Grafikprozessoren). Und die Leute, die neuronale Netze betreiben, haben ungefähr 2007 damit begonnen, GPUs zu verwenden. Ich hatte einen sehr guten Studenten, der damit begann, GPUs zum Auffinden von Straßen in Luftbildern zu verwenden. Er schrieb einen Code, der dann von anderen Schülern verwendet wurde, um mit GPUs Phoneme in der Sprache zu erkennen. Also benutzten sie diese Idee des Vortrainings. Und nachdem sie das alles vor dem Training gemacht haben, kleben sie einfach Etiketten auf und verwenden die Rückvermehrung. Und auf diese Weise, stellte sich heraus, konnte man ein sehr tiefes Netz haben, das vortrainiert war. Und Sie könnten dann die Rückvermehrung verwenden, und es hat tatsächlich funktioniert. Und es übertrifft gewissermaßen die Benchmarks für die Spracherkennung. Anfangs nur ein bisschen.

NT: Es schlägt die beste im Handel erhältliche Spracherkennung? Hat es die beste akademische Arbeit zur Spracherkennung geschlagen?

GH: Bei einem relativ kleinen Datensatz namens TIMIT lief es etwas besser als die beste akademische Arbeit. Arbeitet auch bei IBM.

Und sehr schnell wurde den Leuten klar, dass dieses Zeug - da es Standardmodelle übertraf, deren Entwicklung 30 Jahre gedauert hat - mit etwas mehr Entwicklung wirklich gut funktionieren würde. Und so gingen meine Doktoranden zu Microsoft, IBM und Google, und Google war der Schnellste, der daraus einen Spracherkenner für die Produktion machte. Und bis 2012 wurde diese Arbeit, die erstmals 2009 ausgeführt wurde, in Android veröffentlicht. Und Android wurde plötzlich viel besser in der Spracherkennung.

NT: Erzählen Sie mir von dem Moment, in dem Sie diese Idee seit 40 Jahren hatten, seit 20 Jahren darüber publizieren und schließlich besser sind als Ihre Kollegen. Wie hat sich das angefühlt?

GH: Nun, damals hatte ich nur 30 Jahre lang die Idee!

NT: Richtig, richtig! Also nur eine neue Idee. Frisch!

GH: Es hat sich wirklich gut angefühlt, dass es endlich den Stand des eigentlichen Problems erreicht hat.

NT: Und erinnerst du dich, wo du warst, als du die enthüllenden Daten bekommen hast?

GH: Nein.

NT: Alles klar. Sie erkennen also, dass es bei der Spracherkennung funktioniert. Wann fängst du an, es auf andere Probleme anzuwenden?

GH: Dann wenden wir es auf alle möglichen anderen Probleme an. George Dahl, einer derjenigen, die die ursprüngliche Arbeit an der Spracherkennung durchgeführt haben, wandte sie an, um vorherzusagen, ob ein Molekül an etwas binden und als gute Droge wirken wird. Und es gab einen Wettbewerb. Und er hat gerade unsere Standardtechnologie für die Spracherkennung angewendet, um die Aktivität von Drogen vorherzusagen, und sie hat den Wettbewerb gewonnen. Das war ein Zeichen dafür, dass sich dieses Zeug ziemlich universell anfühlte. Und dann hatte ich einen Studenten, der sagte: „Weißt du, Geoff, dieses Zeug wird für die Bilderkennung funktionieren, und Fei-Fei Li hat den richtigen Datensatz dafür erstellt. Und es gibt einen öffentlichen Wettbewerb; das müssen wir machen. “

Und wir haben Ergebnisse erzielt, die viel besser sind als die von Standardcomputern. Das war 2012.

NT: Das sind also drei Bereiche, in denen es gelungen ist, Chemikalien, Sprache und Stimme zu modellieren. Wo ist es gescheitert?

GH: Das Scheitern ist nur vorübergehend, verstehen Sie?

NT: Was unterscheidet die Bereiche, in denen es am schnellsten funktioniert, und die Bereiche, in denen es länger dauern wird? Es scheint so, als ob visuelle Verarbeitung, Spracherkennung, eine Art menschlicher Kernelemente, die wir mit unserer sensorischen Wahrnehmung tun, die ersten Hindernisse sind, die es zu beseitigen gilt. Ist das richtig?

GH: Ja und nein, weil es andere Dinge gibt, die wir gerne motorisch steuern. Wir sind sehr gut in der Motorsteuerung. Unser Gehirn ist klar darauf ausgelegt. Und erst jetzt beginnen neuronale Netze mit den besten anderen Technologien zu konkurrieren, die es gibt. Sie werden am Ende gewinnen, aber sie gewinnen erst jetzt.

Ich denke, Dinge wie Denken, abstraktes Denken sind die Art der letzten Dinge, die wir lernen, und ich denke, sie gehören zu den letzten Dingen, die diese neuronalen Netze lernen werden.

NT: Und so sagen Sie immer wieder, dass neuronale Netze irgendwann bei allem gewinnen werden.

GH: Nun, wir sind neuronale Netze. Alles, was wir tun können, können sie tun.

NT: Richtig, aber das menschliche Gehirn ist nicht unbedingt die effizienteste Rechenmaschine, die jemals geschaffen wurde.

GH: Mit Sicherheit nicht.

NT: Mit Sicherheit nicht mein menschliches Gehirn! Könnte es keinen effizienteren Weg geben, Maschinen zu modellieren als das menschliche Gehirn?

GH: Philosophisch habe ich keine Einwände gegen die Idee, dass es einen völlig anderen Weg geben könnte, dies alles zu tun. Es könnte sein, dass, wenn Sie mit Logik beginnen und versuchen, Logik zu automatisieren, und Sie einige wirklich ausgefallene Theorembeweiser machen, und Sie argumentieren, und dann entscheiden, dass Sie visuelle Wahrnehmung tun, indem Sie argumentieren, könnte es sein dass dieser Ansatz gewinnen würde. Es stellte sich heraus, dass es nicht so war. Aber ich habe keine philosophischen Einwände gegen diesen Gewinn. Wir wissen nur, dass der Verstand das kann.

NT: Aber es gibt auch Dinge, die unser Gehirn nicht gut kann. Sind das Dinge, die neuronale Netze auch nicht gut können?

GH: Möglicherweise ja.

NT: Und dann gibt es ein separates Problem: Wir wissen nicht genau, wie diese Dinge funktionieren, oder?

GH: Nein, wir wissen wirklich nicht, wie sie funktionieren.

NT: Wir verstehen nicht, wie neuronale Netze von oben nach unten funktionieren. Das ist ein Kernelement der Funktionsweise neuronaler Netze, das wir nicht verstehen. Erklären Sie das und lassen Sie mich dann die offensichtliche Folgefrage stellen: Wenn wir nicht wissen, wie diese Dinge funktionieren, wie können diese Dinge funktionieren?

GH: Wenn Sie sich die aktuellen Computer-Vision-Systeme ansehen, sind die meisten davon im Grunde genommen ein Feed-Forward. Sie verwenden keine Rückkopplungsverbindungen. Gegenwärtige Computer-Vision-Systeme haben noch etwas anderes zu bieten, da sie sehr anfällig für widersprüchliche Fehler sind. Sie können ein paar Pixel leicht ändern, und etwas, das ein Bild eines Pandas war und für Sie immer noch genau wie ein Panda aussieht, sagt plötzlich, dass es ein Strauß ist. Offensichtlich ist die Art und Weise, wie Sie die Pixel ändern, so konzipiert, dass Sie sie für einen Strauß halten. Aber der Punkt ist, es sieht immer noch aus wie ein Panda für Sie.

Anfangs dachten wir, dass diese Dinge wirklich gut funktionierten. Aber wenn man dann mit der Tatsache konfrontiert wird, dass sie einen Panda anschauen und zuversichtlich sind, dass es ein Strauß ist, macht man sich ein bisschen Sorgen. Ich denke, ein Teil des Problems besteht darin, dass sie nicht versuchen, die hochrangigen Darstellungen zu rekonstruieren. Sie versuchen, diskriminierendes Lernen zu betreiben, bei dem Sie nur Schichten von Merkmaldetektoren lernen, und das gesamte Ziel besteht darin, nur die Gewichte zu ändern, damit Sie besser die richtige Antwort erhalten. Und kürzlich haben wir in Toronto entdeckt, oder Nick Frosst hat entdeckt, dass es Ihnen hilft, widerstandsfähiger gegen gegnerische Angriffe zu sein, wenn Sie den Wiederaufbau einführen. Ich denke, in der menschlichen Vision machen wir den Wiederaufbau, um zu lernen. Und auch weil wir viel lernen, indem wir Rekonstruktionen durchführen, sind wir widerstandsfähiger gegen gegnerische Angriffe.

NT: Sie glauben, dass die Top-Down-Kommunikation in einem neuronalen Netzwerk so ausgelegt ist, dass Sie testen können, wie Sie etwas rekonstruieren. Wie testest du und stellst sicher, dass es ein Panda und kein Strauß ist?

GH: Ich denke, das ist entscheidend, ja.

NT: Aber darüber sind sich die Hirnforscher nicht ganz einig, richtig?

GH: Hirnforscher sind sich alle einig, dass es immer Rückwärtsverbindungen geben wird, wenn Sie zwei Bereiche der Hirnrinde in einem Wahrnehmungspfad haben. Sie sind sich nicht einig, wofür es ist. Es könnte der Aufmerksamkeit dienen, es könnte dem Lernen dienen oder es könnte dem Wiederaufbau dienen. Oder es könnte für alle drei sein.

NT: Wir wissen also nicht, was die Rückwärtskommunikation ist. Sie bauen Ihre neuen neuronalen Netze unter der Annahme auf, dass - oder Sie bauen eine Rückwärtskommunikation auf, die zur Rekonstruktion Ihrer neuronalen Netze dient, obwohl wir nicht sicher sind, ob das Gehirn so funktioniert?

GH: Ja.

NT: Betrügt das nicht? Ich meine, wenn Sie versuchen, es wie das Gehirn zu machen, tun Sie etwas, von dem wir nicht sicher sind, dass es dem Gehirn ähnlich ist.

GH: Überhaupt nicht. Ich mache keine Computational Neuroscience. Ich versuche nicht, ein Modell dafür zu erstellen, wie das Gehirn funktioniert. Ich schaue auf das Gehirn und sage: „Dieses Ding funktioniert, und wenn wir etwas anderes machen wollen, das funktioniert, sollten wir es irgendwie als Inspiration ansehen.“Das ist also neuroinspiriert und kein neuronales Modell. Das ganze Modell, die Neuronen, die wir verwenden, sind von der Tatsache inspiriert, dass Neuronen viele Verbindungen haben, und sie verändern die Stärken.

Geoffrey Hinton
Geoffrey Hinton

NT: Es ist interessant. Wenn ich also Informatik betreiben würde und an neuronalen Netzen arbeiten würde und Geoff Hinton schlagen wollte, wäre es eine Möglichkeit, die Kommunikation von oben nach unten einzurichten und sie auf andere Modelle der Gehirnforschung zu stützen. Also basierend auf dem Lernen, nicht auf dem Wiederaufbau.

GH: Wenn sie bessere Models wären, würdest du gewinnen. Ja.

NT: Das ist sehr, sehr interessant. Kommen wir zu einem allgemeineren Thema. So können neuronale Netze alle möglichen Probleme lösen. Gibt es irgendwelche Geheimnisse des menschlichen Gehirns, die von neuronalen Netzen nicht erfasst werden oder nicht erfasst werden können? Könnte zum Beispiel die Emotion …

GH: Nein.

NT: Könnte Liebe also durch ein neuronales Netzwerk rekonstruiert werden? Bewusstsein kann rekonstruiert werden?

GH: Auf jeden Fall. Sobald Sie herausgefunden haben, was diese Dinge bedeuten. Wir sind neuronale Netze. Richtig? Jetzt ist Bewusstsein etwas, das mich besonders interessiert. Ohne es komme ich gut zurecht, aber… die Leute wissen nicht wirklich, was sie damit meinen. Es gibt viele verschiedene Definitionen. Und ich denke, es ist ein ziemlich wissenschaftlicher Begriff. Wenn Sie also vor 100 Jahren die Menschen gefragt hätten, was das Leben ist, hätten sie gesagt: „Nun, Lebewesen haben Lebenskraft, und wenn sie sterben, geht die Lebenskraft verloren. Und das ist der Unterschied zwischen Leben und Tod, egal ob du über eine vitale Kraft verfügst oder nicht. “Und jetzt haben wir keine vitale Kraft, wir denken nur, dass es ein vorwissenschaftliches Konzept ist. Und wenn Sie sich mit Biochemie und Molekularbiologie auskennen, brauchen Sie keine Lebenskraft mehr. Sie verstehen, wie es tatsächlich funktioniert. Und ich denke, es wird dasselbe mit dem Bewusstsein sein. Ich denke, Bewusstsein ist ein Versuch, mentale Phänomene mit einer besonderen Essenz zu erklären. Und diese besondere Essenz braucht man nicht. Wenn du es wirklich erklären kannst, dann erklärst du, wie wir die Dinge tun, die die Leute denken lassen, dass wir uns bewusst sind, und erklärst all diese verschiedenen Bedeutungen des Bewusstseins, ohne eine besondere Essenz als Bewusstsein zu haben.

NT: Es gibt also keine Emotionen, die nicht erzeugt werden könnten? Es gibt keinen Gedanken, der nicht geschaffen werden könnte? Es gibt nichts, was ein menschlicher Verstand tun könnte, was theoretisch nicht durch ein voll funktionsfähiges neuronales Netzwerk wiederhergestellt werden könnte, wenn wir erst einmal wirklich verstehen, wie das Gehirn funktioniert?

GH: In einem Song von John Lennon ist etwas, das sich sehr nach dem anhört, was Sie gerade gesagt haben.

NT: Und davon sind Sie zu 100 Prozent überzeugt?

GH: Nein, ich bin Bayesianer und daher zu 99, 9 Prozent zuversichtlich.

NT: Okay, was ist dann die 0.1?

GH: Nun, wir könnten zum Beispiel alle Teil einer großen Simulation sein.

NT: Richtig, fair genug. Also, was lernen wir über das Gehirn von unserer Arbeit in Computern?

"Eine der großen Enttäuschungen in den 80ern war, dass man Netzwerke mit vielen versteckten Ebenen nicht trainieren konnte."

Geoffrey Hinton

GH: Ich denke, was wir in den letzten 10 Jahren gelernt haben, ist, dass ein System mit Milliarden von Parametern und einer objektiven Funktion - wie das Ausfüllen einer Lücke in einer Reihe von Wörtern - viel besser funktioniert als dieses hat ein Recht auf. Es funktioniert viel besser als erwartet. Sie hätten gedacht, und die meisten Leute in der konventionellen KI-Denkweise nehmen ein System mit einer Milliarde Parametern, beginnen sie mit zufälligen Werten, messen den Gradienten der Zielfunktion - das heißt, finden Sie für jeden Parameter heraus, wie sich die Zielfunktion ändern würde Wenn Sie diesen Parameter ein wenig ändern, ändern Sie ihn in die Richtung, die die Objektivfunktion verbessert. Sie hätten gedacht, das wäre eine Art hoffnungsloser Algorithmus, der hängen bleibt. Aber es stellt sich heraus, dass es ein wirklich guter Algorithmus ist. Und je größer Sie Dinge skalieren, desto besser funktioniert es. Und das ist eigentlich nur eine empirische Entdeckung. Es gibt eine Theorie, aber im Grunde handelt es sich um eine empirische Entdeckung. Nun, weil wir das entdeckt haben, ist es viel plausibler, dass das Gehirn den Gradienten einer objektiven Funktion berechnet und die Stärkegewichte von Synapsen aktualisiert, um diesem Gradienten zu folgen. Wir müssen nur herausfinden, wie es abgebaut wird und welche Zielfunktion es hat.

NT: Aber wir haben das mit dem Gehirn nicht verstanden? Wir haben die Neugewichtung nicht verstanden?

GH: Es war eine Theorie. Vor langer Zeit dachten die Leute, dass dies eine Möglichkeit ist. Aber im Hintergrund gab es immer konventionelle Informatiker, die sagten: „Ja, aber diese Idee von allem ist zufällig. Man lernt alles nur durch Gradientenabstieg - das wird niemals für eine Milliarde Parameter funktionieren. Man muss viel Wissen einarbeiten. “Und wir wissen jetzt, dass das falsch ist. Sie können einfach zufällige Parameter eingeben und alles lernen.

NT: Lassen Sie uns das also erweitern. Wenn wir diese massiven Tests an Modellen durchführen, basierend auf der Funktionsweise des menschlichen Gehirns, werden wir vermutlich immer mehr darüber lernen, wie das Gehirn tatsächlich funktioniert. Kommt es zu einem Punkt, an dem wir unser Gehirn im Wesentlichen so umverdrahten können, dass es den effizientesten Maschinen ähnelt?

GH: Wenn wir wirklich verstehen, was los ist, sollten wir in der Lage sein, Dinge wie Bildung besser funktionieren zu lassen. Und ich denke wir werden. Es wird sehr seltsam sein, wenn Sie endlich verstehen können, was in Ihrem Gehirn vorgeht und wie es lernt, und nicht in der Lage sind, die Umgebung anzupassen, damit Sie besser lernen können.

NT: Wie denken Sie, werden wir in ein paar Jahren das, was wir über das Gehirn gelernt haben, nutzen und wie tiefes Lernen funktioniert, um die Funktionsweise von Bildung zu verändern? Wie würden Sie eine Klasse ändern?

GH: Ich bin mir nicht sicher, ob wir in ein paar Jahren viel lernen werden. Ich denke, die Ausbildung zu ändern, wird länger dauern. Aber wenn Sie es sich ansehen, werden die Assistenten ziemlich schlau. Und sobald Assistenten Gespräche wirklich verstehen können, können sie Gespräche mit Kindern führen und sie unterrichten.

NT: Wenn wir also das Gehirn besser verstehen, werden Sie theoretisch die Assistenten so programmieren, dass sie bessere Gespräche mit den Kindern führen, basierend darauf, wie wir wissen, dass sie lernen werden.

GH: Ja, ich habe nicht wirklich viel darüber nachgedacht. Es ist nicht was ich tue. Es erscheint mir aber durchaus plausibel.

NT: Werden wir verstehen können, wie Träume funktionieren?

GH: Ja, ich interessiere mich wirklich für Träume. Ich bin so interessiert, dass ich mindestens vier verschiedene Traumtheorien habe.

NT: Hören wir sie alle - eins, zwei, drei, vier.

GH: Vor langer Zeit gab es so genannte Hopfield-Netzwerke, und sie lernten Erinnerungen als lokale Attraktoren. Und Hopfield stellte fest, dass zu viele Erinnerungen verwirrt werden, wenn man sie einsetzt. Sie nehmen zwei lokale Attraktoren und verschmelzen sie zu einer Art Attraktor auf halbem Weg dazwischen.

Dann kamen Francis Crick und Graeme Mitchison und sagten, wir können diese falschen Minima loswerden, indem wir verlernen. Also schalten wir die Eingabe aus, versetzen das neuronale Netzwerk in einen zufälligen Zustand, lassen es sich beruhigen, und wir sagen, das ist schlecht. Ändern Sie die Verbindung, damit Sie sich nicht in diesen Zustand versetzen, und wenn Sie etwas davon tun Es wird in der Lage sein, mehr Erinnerungen zu speichern.

ERFAHREN SIE MEHR

Ein KI-Pionier erklärt die Entwicklung neuronaler Netze
Ein KI-Pionier erklärt die Entwicklung neuronaler Netze

Der WIRED-Leitfaden für künstliche Intelligenz

Und dann kamen Terry Sejnowski und ich und sagten: „Sehen Sie, wenn wir nicht nur die Neuronen haben, in denen Sie die Erinnerungen speichern, sondern auch viele andere Neuronen, können wir einen Algorithmus finden, der all diese anderen Neuronen verwendet, um zu helfen Erinnerungen wiederherstellen? “Und am Ende stellte sich heraus, dass wir den maschinellen Lernalgorithmus von Boltzmann erfanden, der eine sehr interessante Eigenschaft hatte: Ich zeige Ihnen Daten, und die anderen Einheiten rasseln so lange, bis sie ziemlich zufrieden sind Zustand, und sobald es fertig ist, erhöht es die Stärke aller Verbindungen, basierend darauf, ob zwei Einheiten aktiv sind.

Sie müssen auch eine Phase haben, in der Sie es von der Eingabe abschneiden, es herumrasseln lassen und sich in einen Zustand versetzen, mit dem es zufrieden ist. Jetzt hat es eine Fantasie, und wenn es einmal die Fantasie hat, sagen Sie: „Nehmen Sie alle Paare von Neuronen, die aktiv sind und die Stärke der Verbindung verringern. “

Deshalb erkläre ich Ihnen den Algorithmus nur als Prozedur. Aber tatsächlich ist dieser Algorithmus das Ergebnis einiger Berechnungen und der Frage: "Wie sollten Sie diese Verbindungszeichenfolgen ändern, damit dieses neuronale Netzwerk mit all diesen verborgenen Einheiten die Daten nicht überraschend findet?" Wir nennen die negative Phase, wenn sie ohne Eingabe abläuft und den Zustand verlernt, in dem sie sich einstellt.

Wir träumen jede Nacht viele Stunden. Und wenn ich Sie zufällig wecke, können Sie mir sagen, wovon Sie nur geträumt haben, weil es in Ihrem Kurzzeitgedächtnis ist. Wir wissen also, dass Sie viele Stunden lang träumen, aber wenn Sie morgens aufwachen, können Sie sich an den letzten Traum erinnern, aber Sie können sich nicht an alle anderen erinnern - was ein Glück ist, weil Sie sie möglicherweise mit der Realität verwechseln. Warum erinnern wir uns überhaupt nicht an unsere Träume? Und Cricks Ansicht war, dass der ganze Sinn des Träumens darin besteht, diese Dinge zu verlernen. Also machst du das Lernen rückgängig.

Und Terry Sejnowski und ich haben gezeigt, dass es sich bei Boltzmann-Maschinen tatsächlich um ein Maximum-Likelihood-Lernverfahren handelt. Das ist also eine Theorie des Träumens.

NT: Ich möchte zu Ihren anderen Theorien gehen. Aber haben Sie tatsächlich einen Ihrer Deep-Learning-Algorithmen so eingestellt, dass er im Wesentlichen träumt? Studieren Sie diesen Bilddatensatz für einen bestimmten Zeitraum, setzen Sie ihn zurück, studieren Sie ihn erneut, setzen Sie ihn zurück.

GH: Ja, wir hatten maschinelle Lernalgorithmen. Einige der ersten Algorithmen, die lernen konnten, wie man mit versteckten Einheiten umgeht, waren Boltzmann-Maschinen. Sie waren sehr ineffizient. Aber dann später fand ich einen Weg, um Annäherungen an sie vorzunehmen, die effizient waren. Und das war tatsächlich der Auslöser, um tiefes Lernen wieder in Gang zu bringen. Dies waren die Dinge, die zu der Zeit eine Schicht von Merkmaldetektoren lernten. Und es war eine effiziente Form einer restriktiven Boltzmann-Maschine. Und so tat es diese Art des Verlernens. Aber anstatt einzuschlafen, würde man nach jedem Datenpunkt nur ein bisschen fantasieren.

NT: Ok, also träumen Androiden von elektrischen Schafen. Gehen wir also zu den Theorien zwei, drei und vier.

GH: Theorie zwei wurde der Wake-Sleep-Algorithmus genannt. Und Sie möchten ein generatives Modell lernen. Sie haben also die Idee, dass Sie ein Modell haben, das Daten generieren kann, es verfügt über Schichten von Feature-Detektoren und aktiviert die High-Level-Detektoren und die Low-Level-Detektoren usw., bis es Pixel aktiviert, und das ist ein Bild. Sie wollen auch anders lernen. Sie möchten auch Daten erkennen.

Und so werden Sie einen Algorithmus haben, der zwei Phasen hat. In der Aufwachphase kommen Daten herein, sie versuchen, sie zu erkennen, und anstatt die Verbindungen zu lernen, die sie zur Erkennung verwenden, lernen sie die generativen Verbindungen. Damit Daten eingehen, aktiviere ich die versteckten Einheiten. Und dann lerne ich, dass diese versteckten Einheiten gut darin sind, diese Daten zu rekonstruieren. Es lernt also, auf jeder Ebene zu rekonstruieren. Aber die Frage ist, wie lernt man die Vorwärtsverbindungen? Die Idee ist also, wenn Sie die Vorwärtsverbindungen kennen, können Sie die Rückwärtsverbindungen lernen, weil Sie lernen können, sie zu rekonstruieren.

Nun stellt sich auch heraus, dass Sie bei Verwendung der Rückwärtsverbindungen die Vorwärtsverbindungen lernen können, da Sie ganz oben beginnen und nur einige Daten generieren können. Und da Sie die Daten generiert haben, kennen Sie die Zustände aller ausgeblendeten Ebenen und können so die Vorwärtsverbindungen zum Wiederherstellen dieser Zustände erlernen. Das wäre also die Schlafphase. Wenn Sie die Eingabe deaktivieren, generieren Sie nur Daten und versuchen dann, die ausgeblendeten Einheiten, die die Daten generiert haben, zu rekonstruieren. Wenn Sie also die Top-Down-Verbindungen kennen, lernen Sie die Bottom-Up-Verbindungen. Wenn Sie die Bottom-Ups kennen, lernen Sie die Top-Downs. Was passiert also, wenn Sie mit zufälligen Verbindungen beginnen und versuchen, beide zu wechseln, und es funktioniert. Damit es gut funktioniert, müssen Sie alle möglichen Variationen davon ausführen, aber es funktioniert.

NT: Also gut, wollen Sie die beiden anderen Theorien durchgehen? Wir haben nur noch acht Minuten, also sollten wir vielleicht ein paar andere Fragen durchgehen.

GH: Wenn Sie mir noch eine Stunde Zeit lassen, könnte ich die beiden anderen Dinge tun.

NT: Also lass uns darüber reden, was als nächstes kommt. Wohin geht Ihre Forschung? Welches Problem versuchen Sie jetzt zu lösen?

GH: Irgendwann werden Sie an etwas arbeiten, das Sie nicht zu Ende bringen. Und ich denke, ich arbeite vielleicht an dem, was ich nie fertig habe, aber es heißt Kapseln, und es ist die Theorie, wie Sie visuelle Wahrnehmung durch Rekonstruktion erreichen und wie Sie Informationen an die richtigen Stellen leiten. In normalen neuronalen Netzen gehen die Informationen, die Aktivität in der Schicht, einfach automatisch irgendwohin. Sie entscheiden nicht, wohin Sie es senden möchten. Die Idee von Kapseln war, Entscheidungen darüber zu treffen, wohin Informationen gesendet werden sollen.

Seitdem ich an Kapseln arbeite, haben einige andere sehr clevere Leute bei Google Transformatoren erfunden, die dasselbe tun. Sie entscheiden, wo Informationen weitergeleitet werden sollen, und das ist ein großer Gewinn.

Das andere, was Kapseln motivierte, waren Koordinatenrahmen. Wenn Menschen visuell arbeiten, verwenden sie immer Koordinatenrahmen. Wenn sie einem Objekt den falschen Koordinatenrahmen zuweisen, erkennen sie das Objekt nicht einmal. Also gebe ich Ihnen eine kleine Aufgabe: Stellen Sie sich einen Tetraeder vor; Es hat eine dreieckige Grundfläche und drei dreieckige Flächen, alle gleichseitige Dreiecke. Leicht vorstellbar, oder? Stellen Sie sich nun vor, Sie schneiden es mit einem Flugzeug, sodass Sie einen quadratischen Querschnitt erhalten.

Das ist doch nicht so einfach, oder? Jedes Mal, wenn Sie in Scheiben schneiden, erhalten Sie ein Dreieck. Es ist nicht offensichtlich, wie man ein Quadrat bekommt. Es ist überhaupt nicht offensichtlich. Okay, aber ich gebe dir die gleiche Form, die anders beschrieben wurde. Ich brauche deinen Stift. Stellen Sie sich die Form vor, die Sie erhalten, wenn Sie einen Stift wie diesen und einen anderen Stift im rechten Winkel nehmen und alle Punkte auf diesem Stift mit allen Punkten auf diesem Stift verbinden. Das ist ein fester Tetraeder.

OK, Sie sehen es relativ zu einem anderen Koordinatenrahmen, wo die Kanten des Tetraeders, diese beiden mit dem Koordinatenrahmen ausgerichtet sind. Wenn Sie sich das Tetraeder so vorstellen, ist es ziemlich offensichtlich, dass Sie oben auf diese Weise ein langes Rechteck haben, unten ein langes Rechteck und in der Mitte ein Quadrat. Jetzt ist es ziemlich offensichtlich, wie Sie es in Scheiben schneiden können, um ein Quadrat zu erhalten, aber nur, wenn Sie mit diesem Koordinatenrahmen daran denken.

Daher ist es offensichtlich, dass für den Menschen Koordinatenrahmen für die Wahrnehmung sehr wichtig sind.

NT: Aber wie ist das Hinzufügen von Koordinatenrahmen zu Ihrem Modell anders als der Fehler, den Sie in den 90er Jahren gemacht haben, als Sie versuchten, Regeln in das System einzufügen, anstatt das System unbeaufsichtigt zu lassen?

GH: Es ist genau dieser Fehler. Und weil ich so hartnäckig bin, dass das ein schrecklicher Fehler ist, darf ich ein bisschen davon machen. Es ist so, als würde Nixon mit China verhandeln. Das bringt mich in eine schlechte Rolle.

NT: Ihre aktuelle Aufgabe ist also spezifisch für die visuelle Erkennung oder eine allgemeinere Möglichkeit zur Verbesserung, indem Sie einen Regelsatz für Koordinatenrahmen erstellen?

GH: Es könnte für andere Zwecke verwendet werden, aber ich bin wirklich an der Verwendung zur visuellen Erkennung interessiert.

NT: Deep Learning war früher etwas Besonderes. Und dann wurde es zu einer Art Synonym für die Phrase KI, und jetzt ist KI ein Marketingbegriff, der im Grunde bedeutet, eine Maschine in irgendeiner Weise zu benutzen. Wie beurteilen Sie die Terminologie als der Mann, der dazu beigetragen hat?

GH: Ich war viel glücklicher, als es eine KI gab, was bedeutete, dass Sie logisch inspiriert waren und Manipulationen an Symbolzeichenfolgen vorgenommen haben. Und es gab neuronale Netze, was bedeutete, dass Sie in einem neuronalen Netzwerk lernen wollten. Es waren verschiedene Unternehmen, die sich nicht so gut verstanden und um Geld gekämpft haben. So bin ich aufgewachsen. Und jetzt sehe ich Leute, die jahrelang sagen, dass neuronale Netze Unsinn sind und sagen: „Ich bin ein KI-Professor, also brauche ich Geld.“Und es ist ärgerlich.

NT: Ihr Feld war also erfolgreich, hat das andere Feld gegessen oder unterbewertet, was ihnen einen Vorteil verschaffte, wenn sie um Geld baten, was frustrierend ist.

GH: Ja, jetzt ist es nicht ganz fair, weil viele von ihnen tatsächlich konvertiert sind.

NT: Nun, ich habe noch Zeit für eine weitere Frage. In einem Interview, in dem es um KI ging, sagten Sie: Stellen Sie sich das wie einen Löffelbagger vor - eine Maschine, die ein Loch bauen oder Sie auslöschen kann, wenn sie nicht richtig konstruiert ist. Und der Schlüssel ist, wenn Sie an Ihrem Bagger arbeiten, ihn so zu gestalten, dass es am besten ist, das Loch zu bauen und Sie nicht im Kopf zu takten. Welche Entscheidungen treffen Sie, wenn Sie über Ihre Arbeit nachdenken?

GH: Ich denke, ich würde niemals absichtlich an der Herstellung von Waffen arbeiten. Ich meine, Sie könnten einen Bagger konstruieren, der sehr gut darin ist, den Leuten die Köpfe abzuschlagen. Und ich denke, das wäre eine schlechte Verwendung eines Baggers, und ich würde nicht daran arbeiten.

Empfohlen:

Tipp Der Redaktion