2022 年の人工知能開発のトレンドは何ですか?
#「マルチモーダル AI」、特にテキストから画像への生成ツールの台頭について必ず言及してください。
DALL-E から Imagen、Parti、Nuwa まで、すべて驚くべき高品質の画像を生成できます。
これの最も典型的な例は、OpenAI の Dall-E2 です。
Dall-E が登場して以来、宇宙で馬に乗った宇宙飛行士など、多くの絵画風の画像が生成されるのを見たことがあるかもしれません。
しかし、Dall-E を通じて抽象的な概念を表現する画像はほとんどありません。
いいえ、機械学習科学者のガブリエレ・スグロイは、DALL-E がこのタスクをどのように達成するかを調査するためにやって来ました。
彼は、悲しみ、愛、怒り、幸福、正義、不正義をテーマにオイル パステルと絵画スタイルをテストしました。
悲しみ
怒り
## 幸福# # ###############################のように################# # 画風
悲しみ
##愛
#怒り
## ######################幸せ####################### ####他にも評価すべき抽象的な概念があります:正義と不正義
#正義
##
不正義
##ガブリエレ・スグロイは、絵画がより豊かになると信じています。感情的なイメージを人々の表情に限定するのではなく、洞察力を持ってください。
#この記事のすべての画像 (カバー画像を含む) は、DALL-E を使用して、指定されたプロンプトから最初の世代によって提供されたすべての画像を選択して生成されました。
これらの例から、特定の感情が常に明確に識別できるわけではないにもかかわらず、DALL-E は絵画において全体的に強いスタイル感覚を持っていることがわかります。より抽象的で複雑な画像。
その中で、正義を表す絵はギリシャの女神が描かれていることが多いのですが、不正義を表す絵は本当にわかりにくいです。
# 全体的に、Sgroi は結果が選択したスタイルに大きく依存することを観察しました。
#そしてほとんどの場合、DALL-E は結果として得られる図面に感情の名前を書き込みます。
全体的に、DALL-E はテストされた感情を一定レベルで理解しており、それらを顔の表情や感情に通常関連付けられている色や記号と正しく関連付けているようです。ペア。
スグロイ氏は、スタイル間で同じ感情の表現の違いをさらに調査し、観察されたポジティブな感情とネガティブな感情の間のバイアスが当てはまるかどうかを調べることは興味深いだろうと述べました。他の例では true がまだ存在しますが、興味深いものになるでしょう。
DALL-E は失敗しましたか?皮肉なことに、DALL-E 2 は、画像の生成に使用されるテキスト プロンプトを理解するのが得意であると主張しています。
#しかし、一部のネチズンは、テキストが現時点で理解できない場合、テキストコンテンツが生成された画像に配置されることを発見しました。
#たとえば、画家ルネ・マグリットの絵画「これはパイプではない」。
DALL-E 2 に会社ロゴの生成を依頼した人工知能のジャネール シェーンもいますが、どの写真も単語を正しく綴ることができません。
#ワッフルハウスの生成例
また、DALL-E 2 はいくつかの科学法則を理解していると言えるでしょう。
#落下する物体や宇宙に浮かぶ宇宙飛行士を簡単に表現できるからです。
しかし、解剖学、X 線画像、数学的証明、または青写真を生成したい場合、結果として得られる画像は表面的には正しいかもしれません。しかし根本的にすべてが間違っています。
#たとえば、縮尺通りに描かれた太陽系の絵では、地球の形が乱れていると言えます。左下隅にポーチドエッグのような物体が左上隅にあります。
OpenAI の研究者 Aditya Ramesh 氏は、「意味を理解せずに、視覚的に似たものを作り上げようとします」と説明しました。
つまり、DALL-E 2 は科学が何であるかを知らず、テキストを読んでイラストを描く方法だけを知っています。
DALL-E 2 が人間の顔を生成すると、信じられないほどリアルになります。 トレーニング中に、OpenAI はインターネット上に頻繁に現れる顔を記憶しないようにディープフェイク保護対策を導入しました。 #アップロードされた画像に素顔が含まれている場合、たとえ未知の人物であっても、システムはコンテンツの生成を拒否します。 #しかし、別の問題が発生します。OpenAI によると、このシステムは単一の焦点に焦点を当てた画像に対して最適化されているそうです。 たとえば、「憧れの表情で地球を見つめる宇宙飛行士」の詳細なポートレートの生成は非常に成功します。 ただし、DALL-E が複数の人物の画像を同時に生成するように要求されると、直接クラッシュしてしまいました。そのため、グループショットや群衆のシーンを生成するのが非常に困難になります。 さらに、DALL-E は偏った画像も生成します。 #現在、OpenAI チームは機械学習を通じてバイアスを修正し始めています。 たとえば、DALL-E 2 のトレーニング中に、研究者はトレーニング方法を調整し、女性の画像の重みを増やしたので、女性の画像の重みがより高くなるようにしました。生成されました。 DALL-E は今後さらに驚きをもたらします。
以上がAIは感情をマッピングできるか? DALL-E が抽象化をどのように表現するかをご覧くださいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。