Gary Marcus: Textgenerierte Bildsysteme können die Welt nicht verstehen und sind weit von AGI entfernt-KI-php.cn

Dieser Artikel wurde von Lei Feng.com reproduziert. Wenn Sie einen Nachdruck benötigen, besuchen Sie bitte die offizielle Website von Lei Feng.com, um eine Autorisierung zu beantragen.

Seit der Einführung von DALL-E 2 glauben viele Menschen, dass KI, die realistische Bilder zeichnen kann, ein großer Schritt in Richtung künstlicher allgemeiner Intelligenz (AGI) ist. Sam Altman, CEO von OpenAI, erklärte einst bei der Veröffentlichung von DALL-E 2: „AGI wird wild sein“, und auch die Medien übertreiben die Bedeutung dieser Systeme für den Fortschritt der allgemeinen Intelligenz.

Aber ist das wirklich so? Gary Marcus, ein bekannter KI-Gelehrter und Enthusiast, der die KI mit kaltem Wasser übergießt, äußerte seine „Vorbehalte“.

Kürzlich schlug er vor, dass es bei der Bewertung des Fortschritts von AGI darauf ankommt, zu sehen, ob Systeme wie Dall-E, Imagen, Midjourney und Stable Diffusion die Welt wirklich verstehen und es daher sein können Basierend auf diesem Wissen können wir argumentieren und Entscheidungen treffen.

Bei der Beurteilung der Bedeutung dieser Systeme für die KI (einschließlich enger und breiter KI) können wir die folgenden drei Fragen stellen:

#🎜🎜 #Kann Bildsynthesesysteme erzeugen qualitativ hochwertige Bilder?

Können sie Spracheingaben mit den Bildern in Verbindung bringen, die sie produzieren?

Verstehen sie die Welt hinter den Bildern, die sie präsentieren?

1 KI versteht die Beziehung zwischen Sprache und Bildern nicht

Auf die erste Frage lautet die Antwort „Ja“. Der einzige Unterschied besteht darin, dass ausgebildete menschliche Künstler KI besser zur Generierung von Bildern einsetzen können.

Auf die zweite Frage ist die Antwort nicht unbedingt sicher. Diese Systeme können bei bestimmten Spracheingaben gut funktionieren. Das folgende Bild ist beispielsweise der von DALL-E 2 generierte „Astronaut auf einem Pferd“:

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远 #🎜 🎜 #Aber bei anderen Spracheingaben sind diese KIs schlecht und lassen sich leicht täuschen. Beispielsweise hat Marcus vor einiger Zeit auf Twitter darauf hingewiesen, dass diese Systeme Schwierigkeiten haben, entsprechend genaue Bilder zu erzeugen, wenn sie mit „einem Pferd auf einem Astronauten“ konfrontiert werden:

#🎜 🎜 #

Obwohl Deep-Learning-Befürworter heftig dagegen vorgegangen sind, wie etwa der KI-Forscher Joscha Bach, der glaubt, dass „Imagen möglicherweise einfach den falschen Trainingssatz verwendet“, kontert Luca Ambrogioni, Professor für maschinelles Lernen, dass dies zeigt, dass „Imagen bereits ein Level hat.“ des gesunden Menschenverstandes“ und weigert sich daher, etwas Lächerliches hervorzubringen. Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Es gibt auch einen Google-Wissenschaftler Behnam Neyshabur, der vorgeschlagen hat, dass Imagen, wenn er „richtig gefragt wird“, ein „auf einem Astronauten reitendes“ Pferd zeichnen kann. : Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Allerdings glaubt Marcus, dass der Schlüssel zum Problem nicht darin liegt, ob das System Bilder erzeugen kann, sondern kluge Leute können immer eins finden Entscheidend ist, dass Systeme bestimmte Bilder zeichnen, ohne dass ein tiefes Verständnis für den Zusammenhang zwischen Sprache und Bildern besteht. Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

2 Sie wissen nicht, was ein Fahrradlaufrad ist? Wie kann es AGI heißen?

Das Sprachverständnis des Systems ist nur ein Aspekt. Marcus wies darauf hin, dass die Beurteilung des Beitrags von Systemen wie DALL-E zu AGI letztendlich von der dritten Frage abhängt: Ob das System sind nur eine zufällige, aber verblüffende Möglichkeit, viele Sätze in Bilder umzuwandeln, die die menschliche Kunst revolutionieren könnten, aber immer noch nicht wirklich mit AGI vergleichbar sind und diese überhaupt nicht repräsentieren.

Was Marcus an der Fähigkeit dieser Systeme, die Welt zu verstehen, verzweifeln lässt, sind aktuelle Beispiele, wie das Bild „Kaffeetasse mit vielen Löchern“ der Grafikdesignerin Irina Blok, das mit Imagen erstellt wurde: #🎜 🎜#

Normale Menschen werden denken, dass es gegen den gesunden Menschenverstand verstößt, wenn sie dieses Bild sehen. Es ist unmöglich, dass Kaffee nicht aus dem Loch ausläuft. Ähnliche sind:

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

„Fahrrad mit quadratischen Rädern“

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus: Textgenerierte Bildsysteme können die Welt nicht verstehen und sind weit entfernt von AGI „Toilettenpapier“

# 🎜🎜#

Gary Marcus: Textgenerierte Bildsysteme können die Welt nicht verstehen und sind weit von AGI entfernt

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远 # 🎜🎜#Es ist leicht, „Ja“ zu sagen, aber schwer, „Nein“ zu sagen . Wer weiß, wie ein nicht existierendes Ding aussehen sollte? Hier liegt die Schwierigkeit, die KI dazu zu bringen, das Unmögliche zu zeichnen.

Aber vielleicht „will“ das System einfach nur ein surreales Bild zeichnen, wie DeepMind-Forschungsprofessor Michael Bronstein sagte, er hält das nicht für ein schlechtes Ergebnis. Wenn er es wäre, er würde es so zeichnen.

Wie kann man dieses Problem endlich lösen? Neue Inspiration fand Gary Marcus kürzlich in einem Gespräch mit dem Philosophen Dave Chalmers.

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远 Um das Verständnis des Systems für Teile, Ganzes und Funktionen zu verstehen, schlug Gary Marcus eine Aufgabe vor, um eine klarere Vorstellung davon zu bekommen, ob die Systemleistung korrekt ist, und gab den Text an Aufforderung „Skizzieren Sie ein Fahrrad und beschriften Sie die Teile, die auf dem Boden rollen“ und „Skizzieren Sie eine Leiter und beschriften Sie eines der Teile, auf denen Sie stehen“ außerhalb des Bereichs, in dem Sie stehen.

Das Besondere an diesem Test ist, dass er nicht direkt Aufforderungen wie „Zeichne ein Fahrrad und markiere die Räder“ oder „Zeichne eine Leiter und markiere die Pedale“ gibt, sondern lass Aus Beschreibungen wie „der rollende Teil am Boden“ und „der stehende Teil“ schließt die KI auf die entsprechenden Dinge. Dies ist ein Test für die Fähigkeit der KI, die Welt zu verstehen.

Aber Marcus' Testergebnisse zeigen, dass Craiyon (früher bekannt als DALL-E mini) in solchen Dingen schrecklich ist. Es versteht nicht, dass die Räder von Fahrrädern und die Pedale von Leitern sind was: 🎜# Handelt es sich also um ein spezifisches Problem des DALL-E Mini?

Gary Marcus stellte fest, dass dies nicht der Fall war. Das gleiche Ergebnis zeigte sich auch bei Stable Diffusion, dem beliebtesten Bildsystem zur Textgenerierung.

Lassen Sie zum Beispiel Stable Diffusion „Skizzieren Sie eine Person und machen Sie die Teile, die Dinge halten, lila“ (Skizzieren Sie eine Person und machen Sie die Teile, die Dinge halten, lila), das Ergebnis ist:
# 🎜🎜#

Offensichtlich versteht Stable Diffusion nicht, was menschliche Hände sind.

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Und von den nächsten neun Versuchen wurde nur einer erfolgreich abgeschlossen (in der oberen rechten Ecke), und die Genauigkeit war nicht hoch:

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远 #🎜 🎜 #

Der nächste Test lautet: „Zeichne ein weißes Fahrrad und färbe den vom Fuß gedrückten Teil orange“, das Ergebnis des Bildes ist:

#🎜🎜 #

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Es kann also nicht verstehen, was ein Fahrradpedal ist.

Und im Test zum Zeichnen einer „Skizze des Fahrrads und Markieren des auf dem Boden rollenden Teils“ schnitt es nicht besonders gut ab:

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Wenn die Textaufforderung negative Wörter wie „Zeichnen“ enthält „Ein weißes Fahrrad ohne Räder“ lautet das Ergebnis:

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Das zeigt, dass das System negative logische Zusammenhänge nicht versteht.

Auch wenn es so einfach ist wie „ein weißes Fahrrad mit grünen Rädern zeichnen“, das sich nur auf die Beziehung zwischen Teilen und dem Ganzen konzentriert und nicht mit komplexer Grammatik oder Funktionen erscheint, sind die Ergebnisse immer noch problematisch:

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Kann also, fragte Marcus, ein System, das nicht versteht, was Räder sind oder wofür sie verwendet werden, ein großer Fortschritt in der künstlichen Intelligenz sein?

Heute veröffentlichte Gary Marcus auch eine Umfrage zu diesem Thema. Die Frage, die er stellte, lautete: „Wie viel wissen Systeme wie Dall-E und Stable Diffusion über die Welt, die sie darstellen?“

Unter ihnen waren es 86,1 %. der Menschen glauben, dass Systeme die Welt nicht gut verstehen, und nur 13,9 % glauben, dass diese Systeme die Welt in hohem Maße verstehen.

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Als Antwort antwortete Emad Mostique, CEO von Stability.AI, auch, dass ich für „nicht viele“ gestimmt habe, und gab zu, dass „sie nur ein kleiner Teil des Puzzles sind.“

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Alexey Guzey von der Wissenschaftsorganisation New Science machte ebenfalls eine ähnliche Entdeckung wie Marcus. Er bat DALL-E, ein Fahrrad zu zeichnen, aber das Ergebnis war nur ein Haufen zusammengestapelter Fahrradelemente.

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Deshalb glaubt er, dass es keine Modelle gibt, die wirklich verstehen, was ein Fahrrad ist und wie es funktioniert, und dass es lächerlich ist, aktuelle ML-Modelle zu entwickeln, die dem Menschen fast Konkurrenz machen oder ihn ersetzen können.

Was meint ihr?

Das obige ist der detaillierte Inhalt vonGary Marcus: Textgenerierte Bildsysteme können die Welt nicht verstehen und sind weit von AGI entfernt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!