目次
1 か月後、Google は AI ペイントを新たなレベルに引き上げましたが、その秘密は非常に簡単だと著者は言いました。
One More Thing
ホームページ テクノロジー周辺機器 AI Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

Apr 09, 2023 pm 09:51 PM
グーグル ai parti

友達、この英語の単語は何というか知っていますか?

Pneumonoultramicroscopesilicovolcanoconiosis.

これは世界で最も長く認識されている単語であり、45 文字で構成されており、「肺に火山性シリカ粒子が沈着することによって引き起こされる病気」(一般的に知られている) を意味します。火山性珪肺症)。

しかし、この単語の綴りを尋ねる代わりに、...それを描いたらどうでしょうか?

(読むことさえできないのに、まだ絵を描くことができます。???)

Google - Parti が提案した最新の AI は、この問題を簡単に解決できます。

この単語を Parti に「入力」すると、肺疾患の合理的な画像を複数生成できるようになります:

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

# #ただし、これは単なる小さなテストです。 Google によると、Parti は現在最も先進的な「テキストから画像への変換」AI です。

たとえば、「シドニー オペラ ハウスとエッフェル塔を組み合わせる」と指示すると、出力は次のようになります:

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

(Iわかりません(本当に絵画だと思っていました)

しかも、Google独自のImagenとはアルゴリズム的にも異なり、Partiは「AI絵画」を新たなレベルに引き上げたとも言えます。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

Google AI の責任者である Jeff Dean も何度かツイートし、とても楽しい時間を過ごしました:

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

Extensibleパラメータ数は 200 億まで: より現実的で、より「スマート」な

実際、Parti の機能はそれだけではありません。

モデルの 200 億パラメータまでの拡張性のおかげで、一方では、モデルが生成する画像はより詳細で現実的になります。

それがわずか数語であっても、50 語以上の短い段落であっても、明確に表示できます。

たとえば、バイオリンの裏側、バイオリンの裏側。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

#あるいは、ゴッホの「星月夜」に従って描かれた夜の風景かもしれません。 ps、この段落には 67 語あります。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

パーティーは問題ありません。さまざまなスタイルの絵をすべて 1 つのパッケージに描きました~

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます# #これはパルティの 2 番目に優れた能力でもあり、細部が整っているだけでなく、スタイルも変化させることができます。

「アライグマはフォーマルなスーツを着て、シルクハット、ステッキ、ゴミ袋を持っている」などの奇妙な描写もあり、ディテールを損なうことなく花のある作品を作成することもできます。

スタイルに関しては、ファン ゴッホ スタイル、エジプトのファラオ スタイル、ピクセル スタイル、伝統的な中国の絵画スタイル、抽象スタイルなどがあります...

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます時々ダジャレジョークも言います。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます(ヒキガエル、ヒキガエル)

具体的には、テスト結果、MS-COCO、Localized Narrative (LN、4 倍長い説明) FID スコア,Parti は両方とも最先端の結果を達成します。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます 特に MS-COCO ゼロサンプルの FID スコアはわずか 7.23 ですが、微調整された FID スコアは 3.22 で、以前の Imagen と DALL-E 2 を上回っています。

すべてのコンポーネントはトランスフォーマーです

1 か月後、Google は AI ペイントを新たなレベルに引き上げましたが、その秘密は非常に簡単だと著者は言いました。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

Parti は主に、テキスト生成画像をシーケンスツーシーケンス モデリングとして扱います。これは機械翻訳に似ており、テキスト トークンがエンコーダーへの入力として与えられ、ターゲットの出力がテキストから画像に変わります。

構造的には、すべてのコンポーネントにはエンコーダー、デコーダー、イメージ タガーの 3 つの部分だけがあり、それらはすべて標準の Transformer に基づいています。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

まず、Transformer ベースの画像タガー ViT-VQGAN を使用して、画像が離散ラベル付きシーケンスにエンコードされます。

その後、パラメータは Transformer のエンコード/デコード構造を通じて 200 億に拡張されます。

テキストからの画像生成に関するこれまでの研究は、初期の GAN を除いて、大きく 2 つの考え方に分けられます。

1 つは自己回帰モデルに基づいており、まずテキストの特徴が画像の特徴にマッピングされ、次に Transformer に似たシーケンス アーキテクチャを使用して言語入力と画像出力の関係が学習されます。

このアプローチの重要なコンポーネントは、各画像を一連の個別ユニットに変換する画像タガーです。たとえば、DALL-E や CogView はこの考え方を採用しています。

もう 1 つは、この期間中に頻繁に進歩してきた、DALL-E 2 や Imagen などの普及に基づくテキストから画像へのモデルです。

彼らは画像タガーを放棄し、代わりに拡散モデルを使用して画像を直接生成しました。これらのモデルでは、より高品質の画像が生成され、MS-COCO ゼロショット FID でのスコアが向上していることがわかります。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

#Parti モデルの成功は、自己回帰モデルを使用してテキスト生成画像の効果を向上できることを証明しています。

同時に、Parti は新しいベンチマーク テストである PartiPrompts も導入およびリリースしました。これは、12 のカテゴリと 11 の課題におけるモデルの能力を測定するために使用されます。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

しかし、Parti にはまだ特定の制限があり、研究者はいくつかのバグも示しました:

たとえば、否定的な説明は役に立ちません~

バナナの入っていない皿と、その隣にオレンジジュースの入っていないグラス。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

また、不当なスケーリングなど、常識的な間違いもいくつか犯します。たとえば、この写真では、ロボットはレーシングカーの数倍の高さがあります。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

#レーシングスーツと黒いバイザーを着た光沢のあるロボットが、F1 マシンの前に誇らしげに立っています。夕日が街並みに沈んでいきます。漫画のイラスト。

Google の「独自のロール」

この調査は Google Research によるもので、チームメンバーのほとんどは中国人です。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

中核となる研究スタッフには、現在 Google で AI 関連の研究に従事している Yuanzhong Xu 氏、Thang Luong 氏などが含まれます。

(Thang Luong は Google Scholar で最大 20,000 回引用されています)

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

△左: Yuanzhong Xu、右: Thang Luong

しかし、興味深いのは、Google が開発した、「言葉を発して AI に描画させる」Imagen が Parti と密接に関係しているということです。

これは Parti の GitHub プロジェクト ドキュメントで言及されています:

Imagen をリリースする前に共有してくれた Imagen チームに感謝します。その最新の完全版結果。

CF ガイダンスにおける彼らの重要な発見は、最終的な Parti モデルに特に役立ちました。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

而且Imagen的作者之一Burcu Karagol Ayan,也參與了Parti的計畫中。

(有種谷歌「自己捲自己」那味了)

#不只如此,就連「隔壁」DALL-E 2的作者Aditya Ramesh,也給Parti在MS-COCO評價方面做了討論工作。

以及DALL-Eval的作者們,也在Parti資料方面的工作提供了幫助。

One More Thing

有說一,就「文字產生圖像」這事,可不只是研究人員們的寵兒。

網友們在「玩」它這條路上,也是樂此不疲(腦洞不要太大好吧)。

前一陣子讓Imagen畫一幅宋朝“虎戴VR”,直接演變成AI作畫大戰。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

△圖:Imagen作畫

DALL·E、MidJourney等「聞訊趕來」參與其中。

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

△ DALL·E作畫

#甚至還有把Wordle和DALL-E 2搞到一起的:

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

#…

不過回歸到這次的Parti,好玩歸好玩,但還是有網友提出了「直擊靈魂」的問題:

Googleの新しいAIが熱い!世界で一番長い単語を描くことができます

啥時候商業化?要是自己「關門玩」就沒意思了。

Parti論文網址:

https://parti.research.google/

GitHub專案網址:

https://github.com/google-research/parti

#參考連結:

##[1]https:/ /twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research .google/

以上がGoogleの新しいAIが熱い!世界で一番長い単語を描くことができますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Jieba Wordセグメンテーションを最適化して、風光明媚なスポットコメントのキーワード抽出効果を改善する方法は? Jieba Wordセグメンテーションを最適化して、風光明媚なスポットコメントのキーワード抽出効果を改善する方法は? Apr 01, 2025 pm 06:24 PM

Jieba Wordセグメンテーションを最適化して、風光明媚なスポットコメントのキーワード抽出を改善する方法は? Jieba Wordセグメンテーションを使用して風光明媚なスポットコメントデータを処理する場合、単語セグメンテーションの結果が無視されている場合...

ChatGptの影響の下で、国内のテクノロジーQ&Aコミュニティはどのようにして突破できますか? ChatGptの影響の下で、国内のテクノロジーQ&Aコミュニティはどのようにして突破できますか? Apr 01, 2025 pm 05:18 PM

ChatGPTの影響に直面して、国内のテクノロジーQ&Aコミュニティはどのように対応しますか?最近のスタック...

FlaskとYolov5によって開発されたHTMLページにカメラが検出ボックスを表示できないという問題を解決する方法は? FlaskとYolov5によって開発されたHTMLページにカメラが検出ボックスを表示できないという問題を解決する方法は? Apr 01, 2025 pm 06:33 PM

カメラを正常に開き、FlaskとYolov5が開発したHTML Webページに検出ボックスを表示するにはどうすればよいですか? Flask FrameworkとYolov5を使用してHTML Webページを開発するときは、写真を開きます...

uvicornは、serving_forever()なしでhttpリクエストをどのように継続的に聞いていますか? uvicornは、serving_forever()なしでhttpリクエストをどのように継続的に聞いていますか? Apr 01, 2025 pm 10:51 PM

UvicornはどのようにしてHTTPリクエストを継続的に聞きますか? Uvicornは、ASGIに基づく軽量のWebサーバーです。そのコア機能の1つは、HTTPリクエストを聞いて続行することです...

セレンでログインした後、404エラーをリダイレクトする理由は何ですか?それを解決する方法は? セレンでログインした後、404エラーをリダイレクトする理由は何ですか?それを解決する方法は? Apr 01, 2025 pm 10:54 PM

シミュレーションログインの場合にシミュレーションログイン後に404エラーをリダイレクトするための解決策は、シミュレーションログインにSeleniumを使用すると、いくつかの困難な問題に遭遇することがよくあります。 �...

文字列を介してオブジェクトを動的に作成し、Pythonでメソッドを呼び出す方法は? 文字列を介してオブジェクトを動的に作成し、Pythonでメソッドを呼び出す方法は? Apr 01, 2025 pm 11:18 PM

Pythonでは、文字列を介してオブジェクトを動的に作成し、そのメソッドを呼び出す方法は?これは一般的なプログラミング要件です。特に構成または実行する必要がある場合は...

Webページデータを取得するときに動的読み込みコンテンツが欠落の問題を解決する方法は? Webページデータを取得するときに動的読み込みコンテンツが欠落の問題を解決する方法は? Apr 01, 2025 pm 11:24 PM

リクエストライブラリを使用してWebページのデータをクロールするときに遭遇する問題とソリューション。リクエストライブラリを使用してWebページデータを取得すると、時々遭遇します...

GoまたはRustを使用してPythonスクリプトを呼び出して、真の並列実行を実現する方法は? GoまたはRustを使用してPythonスクリプトを呼び出して、真の並列実行を実現する方法は? Apr 01, 2025 pm 11:39 PM

GoまたはRustを使用してPythonスクリプトを呼び出して、真の並列実行を実現する方法は?最近、私はPythonを使用しています...

See all articles