ハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%
DALL-E 2 が最初にリリースされたとき、生成された絵画は入力されたテキストをほぼ完全に再現することができ、高精細な解像度と強力な描画イマジネーションにより、さまざまなネチズンからも「かっこよすぎる」と評されました。
しかし、最近ハーバード大学が発表した新しい研究論文では、DALL-E 2 によって生成された画像は素晴らしいものの、テキスト内のいくつかのエンティティをつなぎ合わせているだけである可能性があることが示されています。総合すると、文章で表現されている空間関係さえ理解できません。
論文リンク: https://arxiv.org/pdf/2208.00005.pdf
データリンク: https://osf.io/sm68h/
たとえば、「スプーンの上にカップ」というテキスト プロンプトが与えられた場合、DALL-E 2 によって生成された画像の一部が「オン」関係を満たしていないことがわかります。
ただし、訓練セットでは、DALL-E 2 が目にする可能性のあるティーカップとスプーンの組み合わせはすべて「in」であり、「on」は比較的まれです。したがって、この 2 つの関係を生成するという点では、正解率も異なります。
そこで、DALL-E 2 がテキスト内の意味関係を本当に理解できるかどうかを調査するために、研究者らは 15 種類の関係を選択し、そのうち 8 つは空間関係 (物理的関係)。)、中に、上に、下に、覆う、近くに、遮られる、ぶら下がる、縛られるなど、押す、引く、触れる、叩く、蹴る、助ける、隠すなどの 7 つの動作関係 (エージェント関係)。
##テキスト内のエンティティ セットは 12 に制限されており、選択されたアイテムは各データ セット内の単純で共通のアイテム、つまり、箱、円柱、毛布、ボウル、ティーカップ、ナイフ、男性、女性、子供、ロボット、サル、イグアナ。
DALL-E 2 には他にどのような問題がありますか?
実際、DALL-E 2 がリリースされるとすぐに、多くの専門家がその利点と欠点について詳細な分析を実施しました。
ブログリンク: https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do
GPT-3 で小説を書くのは少し単調ですが、DALL-E 2 ではテキストのイラストを生成したり、長いテキストの漫画を生成したりすることもできます。
たとえば、DALL-E 2 は、「アルフォンス ミュシャの絵を描いた、コーヒーショップでラップトップに取り組み、ヘッドフォンを着用している女性」などの機能を写真に追加でき、絵画スタイルやコーヒー ショップを正確に生成できます。 、ヘッドフォンを着用している、ラップトップなど。
ただし、テキスト内の機能の説明に 2 人が関与している場合、DALL-E 2 はどの機能がどの人に属しているかを忘れる可能性があります。たとえば、入力テキストは次のとおりです:
ベッドで休む黒髪の少年と、太陽が差し込む窓の下でベッドの横の椅子に座る白髪の年配の女性。ピクサー スタイルのデジタル アート。
黒髪の少年がベッドに横たわり、白髪の老婦人が窓の下のベッドの横の椅子に座っており、日光が差し込んでいます。ピクサー風のデジタルアートです。
DALL-E 2 は窓、椅子、ベッドを正しく生成できることがわかりますが、生成された画像は年齢、性別、髪の特徴の組み合わせがわずかに異なります。色が混乱しています。
もう 1 つの例は、「キャプテン アメリカとアイアンマンを並べて立たせる」です。生成された結果は明らかにキャプテン アメリカとアイアンマンの特徴を持っていますが、特定の要素が異なる人物に配置されていることがわかります。 . (たとえば、アイアンマンはキャプテン・アメリカの盾をかぶっています)。
前景や背景が特に細かい場合、モデルが生成されない場合があります。
たとえば、入力テキストは次のとおりです:
2 匹の犬は、スパイグラスを通してニューヨーク市を眺めている海賊船上のローマの兵士のような服装をしています。 2 匹の犬 犬は海賊船に乗ったローマ兵のように小型望遠鏡を通してニューヨーク市を眺めています。
今回は、DALL-E 2 が動作を停止しました。ブログの著者は 30 分ほど費やしましたが、原因を理解できませんでした。最終的には、「ニューヨーク市と海賊船」でプレイする必要がありました。 」または「望遠鏡を持った犬とローマ兵の制服」のどちらかを選択してください。
Dall-E 2 は、都市や図書館の本棚などの一般的な背景を使用して画像を生成できますが、それが画像の主な焦点ではない場合、より詳細な詳細を取得することは非常に困難になることがよくあります。
DALL-E 2 はさまざまな高級椅子などの一般的なオブジェクトを生成できますが、「アルト自転車」を生成するように依頼すると、結果として得られる画像は自転車に多少似ていますが、完全にではありません。
Google画像検索でのOtto Bicycleの検索は以下の通りです。# と書かせるなど、まったくの偶然で単語を正しくスペルできることがあります。 . ##モデルは実際にいくつかの「認識可能な」英語文字を生成できますが、接続されたセマンティクスは期待される単語とは依然として異なります。これが、DALL-E 2 が第一世代の DALL-E ほど優れていない点です。
DALL-E 2 は楽器に関連した画像を生成する際、演奏中の人間の手の位置を記憶しているようですが、弦がないと演奏は少しぎこちないです。
DALL-E 2 には編集機能もあります。たとえば、画像を生成した後、カーソルを使用してその領域を強調表示し、変更の完全な説明を追加できます。 。
しかし、この機能は常に効果があるわけではなく、例えば元の画像に「ショートヘア」を追加したい場合、編集機能では必ず変な場所に何かが追加されてしまいます。
# テクノロジーはまだ更新および開発されており、DALL-E 3 を楽しみにしています。
以上がハーバード大学は大混乱:DALL-E 2 は単なる「接着モンスター」であり、その生成精度はわずか 22%の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1:メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集:テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く(nanoなど):sudonano/etc/apache2/apache2.conf

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする:キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ(memcachedやredisなど)またはローカルキャッシュ(ファイルやデータベースなど)を考慮することができます。効率的なデータ構造を採用する:ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造(線形検索の代わりにハッシュテーブルなど)を選択してディレクトリ情報を保存およびアクセスする

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト(CSR)を生成します:Openss

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1:C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude#include#include inctargc、char*argv []){dir*dir; structdireant*entry; if(argc!= 2){(argc!= 2){

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃(MITM)を防ぐために、以下の測定値をとることができます。HTTPSを使用する:すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS(Transport Layer Security Protocol)を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認:クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

DebianでHadoopログを管理すると、次の手順とベストプラクティスに従うことができます。ログ集約を有効にするログ集約を有効にします。Yarn.log-Aggregation-set yarn-site.xmlファイルでは、ログ集約を有効にします。ログ保持ポリシーの構成:yarn.log-aggregation.retain-secondsを設定して、172800秒(2日)などのログの保持時間を定義します。ログストレージパスを指定:Yarn.Nを介して
