この記事は Lei Feng.com から転載されたものです。転載する必要がある場合は、Lei Feng.com の公式 Web サイトにアクセスして許可を申請してください。
DALL-E 2 の出現以来、多くの人は、リアルな画像を描画できる AI が汎用人工知能 (AGI) への大きな一歩であると信じてきました。 OpenAI CEO のサム アルトマン氏は、DALL-E 2 がリリースされたときに「AGI は猛威を振るうだろう」とかつて宣言しましたが、メディアも一般知能の進歩に対するこれらのシステムの重要性を誇張しています。
しかし、本当にそうなのでしょうか? AIに冷や水を浴びせている著名なAI学者であり愛好家でもあるゲイリー・マーカス氏は、「留保」を表明した。
最近、彼は、AGI の進歩を評価する際には、Dall-E、Imagen、Midjourney、Stable Diffusion などのシステムが本当に世界を理解し、その知識に基づいて推論できるかどうかを確認することが重要であると示唆しました。そして決断を下します。
AI (狭い AI と広い AI を含む) にとってこれらのシステムの重要性を判断する場合、次の 3 つの質問をすることができます。
画像合成システムは高い性能を生成できるか高品質の画像?
彼らは言語入力を自分たちが生成する画像に関連付けることができますか?
彼らは自分たちが提示する画像の背後にある世界を理解していますか?
最初の質問の答えは「はい」です。唯一の違いは、訓練を受けた人間のアーティストの方が、AI を使用して画像を生成する際に優れた仕事ができるということです。
2 番目の質問については、答えは必ずしも確実ではありません。これらのシステムは、特定の言語入力では良好に動作します。たとえば、次の図は、DALL-E 2 によって生成された「馬に乗った宇宙飛行士」です。一部の言語入力では、これらの AI のパフォーマンスは低く、簡単にだまされます。たとえば、マーカスは少し前に Twitter で、これらのシステムは「宇宙飛行士に乗った馬」に直面したときに、対応する正確な画像を生成するのが難しいと指摘しました。ディープラーニング支持者らはこれに激しく反論しており、AI研究者のジョシャ・バッハ氏は「Imagenは間違ったトレーニングセットを使用しているだけかもしれない」と考えており、機械学習教授のルカ・アンブロジョーニ氏はこれは「Imagenがすでにある程度の常識を持っている」ことを示していると反論している。だから、ばかげたものを生み出すことを拒否してください。
Google の科学者である Behnam Neyshabur は、「適切な方法で質問された場合」Imagen は「宇宙飛行士に乗った馬」を描くことができると提案しました。
しかし、マーカス氏は、問題の鍵はシステムが画像を生成できるかどうかではないと考えています。賢い人なら、システムに特定の画像を描画させる方法をいつでも見つけることができますが、これらのシステムは肝心な言語とイメージの関係については深い理解がありません。
2 自転車の車輪が何なのか知りませんか?どうしてそれをAGIと呼ぶことができるのでしょうか?
システムによる言語理解は 1 つの側面にすぎません。最も重要なことは、DALL-E などのシステムの AGI への貢献を判断するかどうかは、最終的には 3 番目の質問、つまりすべてのシステムが理解できるかどうかによって決まることだとマーカス氏は指摘しました。多くの文章を、偶然ではあるが驚くべき方法で画像に変換することで、人間の芸術に革命を起こす可能性がありますが、依然として AGI と完全には比較できず、AGI をまったく表していません。
これらのシステムが世界を理解する能力についてマーカス氏を絶望させているのは、グラフィック デザイナーのイリーナ ブロックが Imagen を使用して生成した「穴の多いコーヒー カップ」画像などの最近の例です。
「四角い車輪の自転車」
ゲイリー マーカス: テキストで生成された画像システムは世界を理解できず、AGI からは程遠いです。
「サボテンの棘で覆われたトイレット ペーパー」
Gary Marcus: テキスト生成画像システムは世界を理解できず、AGI にはまだ程遠いです
「はい」と言うのは簡単ですが、言うのは難しいです「ノー」って言って、誰が存在しないものがどのように見えるか知っていますか? AIに不可能を描画させる難しさはここにあります。
しかし、おそらく、システムは超現実的な画像を描画することを「望んでいた」だけです。ディープマインド研究教授のマイケル・ブロンスタイン氏は、これが悪い結果だとは考えていませんでした。このように描きます。
#では、最終的にこの問題を解決するにはどうすればよいでしょうか?ゲイリー・マーカスは、哲学者デイブ・チャーマーズとの最近の会話で新たなインスピレーションを得ました。
システムの部分と全体、および機能の理解を理解するために、Gary Marcus は、システムのパフォーマンスが正しいかどうかをより明確に把握するためのタスクを提案しました。「スケッチ」というテキスト プロンプトを表示します。 「自転車をスケッチし、地面を転がる部分にラベルを付けます」および「はしごをスケッチし、立っている部分の 1 つにラベルを付けます」のパート)。
このテストの特別な点は、「自転車を描いて車輪に印を付ける」や「はしごを描いてペダルに印を付ける」などのプロンプトを直接与えるのではなく、AI に対応するものを推測させることです。 「地面を転がる部分」や「立っている部分」などの説明から物事を理解することは、AI が世界を理解する能力をテストするものです。
しかし、Marcus のテスト結果によると、Craiyon (以前は DALL-E mini として知られていました) はこの種のことが苦手で、自転車の車輪やはしごのペダルが何であるかを理解していません:
つまり、自転車のペダルが何であるかを理解できません。
そして、「自転車のスケッチを描き、地面を転がる部分にマークを付ける」というテストでは、そのパフォーマンスはあまり良くありませんでした。
#テキスト プロンプトに「車輪のない白い自転車を描いてください」などの否定的な単語が含まれている場合、結果は次のようになります。
そのうち、86.1% の人がシステムは世界をよく理解していないと考えており、これらのシステムが世界を高度に理解していると考えている人は 13.9% のみです。
それに応じて、Stability.AI の CEO、エマド モスティーク氏も、私が「あまり多くない」と投票したと答え、「それらは単なるパズルのピースです。 「そのほんの一部です。」
科学団体ニュー サイエンスのアレクセイ グゼイもマーカスと同様の発見をしました。彼はダルイーに絵を描くように頼みました。 bike ですが、その結果は、単なる自転車の要素が積み重なっただけです。
#したがって、彼は、自転車とは何か、それがどのように機能するかを真に理解できるモデルは存在せず、現在の ML モデルの生成はほぼ匹敵するか、代替できると考えています。人間、人間は愚かだ。 #########どう思いますか?
以上がゲイリー・マーカス: テキストで生成された画像システムは世界を理解できず、AGI とは程遠いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。