目次
DALL-E 2 には他にどのような問題がありますか?
ホームページ テクノロジー周辺機器 AI ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

Apr 15, 2023 pm 05:40 PM
ai 画像 研究

DALL-E 2 が最初にリリースされたとき、生成された絵画は入力されたテキストをほぼ完全に再現することができ、高精細な解像度と強力な描画イマジネーションにより、さまざまなネチズンからも「かっこよすぎる」と評されました。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

しかし、最近ハーバード大学が発表した新しい研究論文では、DALL-E 2 によって生成された画像は素晴らしいものの、テキスト内のいくつかのエンティティをつなぎ合わせているだけである可能性があることが示されています。総合すると、文章で表現されている空間関係さえ理解できません。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

論文リンク: https://arxiv.org/pdf/2208.00005.pdf

データリンク: https://osf.io/sm68h/

たとえば、「スプーンの上にカップ」というテキスト プロンプトが与えられた場合、DALL-E 2 によって生成された画像の一部が「オン」関係を満たしていないことがわかります。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

ただし、訓練セットでは、DALL-E 2 が目にする可能性のあるティーカップとスプーンの組み合わせはすべて「in」であり、「on」は比較的まれです。したがって、この 2 つの関係を生成するという点では、正解率も異なります。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

そこで、DALL-E 2 がテキスト内の意味関係を本当に理解できるかどうかを調査するために、研究者らは 15 種類の関係を選択し、そのうち 8 つは空間関係 (物理的関係)。)、中に、上に、下に、覆う、近くに、遮られる、ぶら下がる、縛られるなど、押す、引く、触れる、叩く、蹴る、助ける、隠すなどの 7 つの動作関係 (エージェント関係)。

##テキスト内のエンティティ セットは 12 に制限されており、選択されたアイテムは各データ セット内の単純で共通のアイテム、つまり、箱、円柱、毛布、ボウル、ティーカップ、ナイフ、男性、女性、子供、ロボット、サル、イグアナ。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

関係のタイプごとに 5 つのプロンプトが作成され、毎回 2 つのエンティティがランダムに選択されて置換され、最終的に 75 のテキスト プロンプトが生成されます。 DALL-E 2 レンダリング エンジンに送信した後、最初に生成された 18 枚の画像が選択され、結果として 1350 枚の画像が得られました。

研究者らは次に、常識推論テストを通じて 180 人のアノテーターの中から 169 人を選択し、アノテーション プロセスに参加させました。

実験の結果、DALL-E 2 によって生成された画像と、画像の生成に使用されたテキスト プロンプトの間の平均一貫性は、75 のプロンプト全体でわずか 22.2% であることがわかりました。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

ただし、DALL-E 2 がテキスト内の関係を本当に「理解している」かどうかを言うのは困難です。ホルム氏は、0%、25%、50% のコンセンサス閾値に基づいてアノテーターの一貫性スコアを観察することによって、 - 各関係の補正済み 1 サンプル有意性検定では、15 関係すべてについて参加者の合意が α = 0.95 (pHolm したがって、多重比較を補正しなくても、実際には、DALL-E 2 によって生成された画像は、テキスト内の 2 つのオブジェクト間の関係を理解し​​ていません。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

この結果は、「ボウルに触れる子供」など、無関係な 2 つのオブジェクトを接続する DALL-E の能力が想像ほど強力ではない可能性があることも示しています。一貫性は 87 です。 % 現実世界の画像では、子供とボウルが非常に頻繁に一緒に表示されるためです。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

「イグアナに触れるサル」によって生成された画像の最終的な一貫性率はわずか 11% であり、レンダリングされた画像には種のエラーが存在する可能性さえあります。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

したがって、DALL-E 2 の一部の画像カテゴリ (子供や食べ物など) は比較的よく開発されていますが、データの一部のカテゴリは依然として継続的なトレーニングが必要です。

しかし、現在のDALL-E 2は依然として公式サイトでその高精細でリアルなスタイルを主に表示しており、その内包的な意味が「2つの物体を接着する」ことなのか、それとも本当に理解しているのかはまだ明らかではありませんテキスト情報を取得し、画像を生成します。

研究者らは、関係性の理解は人間の知性の基本的な要素であり、基本的な空間関係(on、ofなど)におけるDALL-E 2の性能の低さは、DALL-E 2がまだ人間ほど柔軟で柔軟ではないことを示していると述べた。世界を堅牢に構築し理解する。

しかし、ネチズンは、物をくっつけるための「接着剤」を開発できたことはすでに大きな成果だと述べています。 DALL-E 2 は AGI ではないので、今後も改善の余地はたくさんありますが、少なくとも画像を自動生成する扉は開きました。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

DALL-E 2 には他にどのような問題がありますか?

実際、DALL-E 2 がリリースされるとすぐに、多くの専門家がその利点と欠点について詳細な分析を実施しました。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

ブログリンク: https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

GPT-3 で小説を書くのは少し単調ですが、DALL-E 2 ではテキストのイラストを生成したり、長いテキストの漫画を生成したりすることもできます。

たとえば、DALL-E 2 は、「アルフォンス ミュシャの絵を描いた、コーヒーショップでラップトップに取り組み、ヘッドフォンを着用している女性」などの機能を写真に追加でき、絵画スタイルやコーヒー ショップを正確に生成できます。 、ヘッドフォンを着用している、ラップトップなど。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

ただし、テキスト内の機能の説明に 2 人が関与している場合、DALL-E 2 はどの機能がどの人に属しているかを忘れる可能性があります。たとえば、入力テキストは次のとおりです:

ベッドで休む黒髪の少年と、太陽が差し込む窓の下でベッドの横の椅子に座る白髪の年配の女性。ピクサー スタイルのデジタル アート。

黒髪の少年がベッドに横たわり、白髪の老婦人が窓の下のベッドの横の椅子に座っており、日光が差し込んでいます。ピクサー風のデジタルアートです。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

DALL-E 2 は窓、椅子、ベッドを正しく生成できることがわかりますが、生成された画像は年齢、性別、髪の特徴の組み合わせがわずかに異なります。色が混乱しています。

もう 1 つの例は、「キャプテン アメリカとアイアンマンを並べて立たせる」です。生成された結果は明らかにキャプテン アメリカとアイアンマンの特徴を持っていますが、特定の要素が異なる人物に配置されていることがわかります。 . (たとえば、アイアンマンはキャプテン・アメリカの盾をかぶっています)。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

前景や背景が特に細かい場合、モデルが生成されない場合があります。

たとえば、入力テキストは次のとおりです:

2 匹の犬は、スパイグラスを通してニューヨーク市を眺めている海賊船上のローマの兵士のような服装をしています。 2 匹の犬 犬は海賊船に乗ったローマ兵のように小型望遠鏡を通してニューヨーク市を眺めています。

今回は、DALL-E 2 が動作を停止しました。ブログの著者は 30 分ほど費やしましたが、原因を理解できませんでした。最終的には、「ニューヨーク市と海賊船」でプレイする必要がありました。 」または「望遠鏡を持った犬とローマ兵の制服」のどちらかを選択してください。

Dall-E 2 は、都市や図書館の本棚などの一般的な背景を使用して画像を生成できますが、それが画像の主な焦点ではない場合、より詳細な詳細を取得することは非常に困難になることがよくあります。

DALL-E 2 はさまざまな高級椅子などの一般的なオブジェクトを生成できますが、「アルト自転車」を生成するように依頼すると、結果として得られる画像は自転車に多少似ていますが、完全にではありません。

Google画像検索でのOtto Bicycleの検索は以下の通りです。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

DALL-E 2 もスペルを書くことができませんが、一時停止の標識に STOP

# と書かせるなど、まったくの偶然で単語を正しくスペルできることがあります。 . ##モデルは実際にいくつかの「認識可能な」英語文字を生成できますが、接続されたセマンティクスは期待される単語とは依然として異なります。これが、DALL-E 2 が第一世代の DALL-E ほど優れていない点です。 ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

DALL-E 2 は楽器に関連した画像を生成する際、演奏中の人間の手の位置を記憶しているようですが、弦がないと演奏は少しぎこちないです。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

DALL-E 2 には編集機能もあります。たとえば、画像を生成した後、カーソルを使用してその領域を強調表示し、変更の完全な説明を追加できます。 。

しかし、この機能は常に効果があるわけではなく、例えば元の画像に「ショートヘア」を追加したい場合、編集機能では必ず変な場所に何かが追加されてしまいます。 ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

# テクノロジーはまだ更新および開発されており、DALL-E 3 を楽しみにしています。

ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%

以上がハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Debian Readdirによるファイルソートを実装する方法 Debian Readdirによるファイルソートを実装する方法 Apr 13, 2025 am 09:06 AM

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Mail Serverファイアウォールの構成のヒント Debian Mail Serverファイアウォールの構成のヒント Apr 13, 2025 am 11:42 AM

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

Debian Apacheログレベルを設定する方法 Debian Apacheログレベルを設定する方法 Apr 13, 2025 am 08:33 AM

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1:メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集:テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く(nanoなど):sudonano/etc/apache2/apache2.conf

Debian Readdirのパフォーマンスを最適化する方法 Debian Readdirのパフォーマンスを最適化する方法 Apr 13, 2025 am 08:48 AM

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする:キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ(memcachedやredisなど)またはローカルキャッシュ(ファイルやデータベースなど)を考慮することができます。効率的なデータ構造を採用する:ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造(線形検索の代わりにハッシュテーブルなど)を選択してディレクトリ情報を保存およびアクセスする

Debian Mail Server SSL証明書のインストール方法 Debian Mail Server SSL証明書のインストール方法 Apr 13, 2025 am 11:39 AM

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト(CSR)を生成します:Openss

Debian Readdirが他のツールと統合する方法 Debian Readdirが他のツールと統合する方法 Apr 13, 2025 am 09:42 AM

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1:C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude#include#include inctargc、char*argv []){dir*dir; structdireant*entry; if(argc!= 2){(argc!= 2){

Debian OpenSSLがどのように中間の攻撃を防ぐか Debian OpenSSLがどのように中間の攻撃を防ぐか Apr 13, 2025 am 10:30 AM

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃(MITM)を防ぐために、以下の測定値をとることができます。HTTPSを使用する:すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS(Transport Layer Security Protocol)を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認:クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

Debian Hadoopログ管理を行う方法 Debian Hadoopログ管理を行う方法 Apr 13, 2025 am 10:45 AM

DebianでHadoopログを管理すると、次の手順とベストプラクティスに従うことができます。ログ集約を有効にするログ集約を有効にします。Yarn.log-Aggregation-set yarn-site.xmlファイルでは、ログ集約を有効にします。ログ保持ポリシーの構成:yarn.log-aggregation.retain-secondsを設定して、172800秒(2日)などのログの保持時間を定義します。ログストレージパスを指定:Yarn.Nを介して

See all articles