第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!
現在、Google、OpenAI、その他の大手企業のテキストベースのグラフ モデルは、興味深いニュース記者にとっては糧であり、ミーム愛好家にとっては長きにわたる干ばつの蜜でもあります。言葉を入力することで、さまざまな美しい写真や面白い写真を生成でき、疲れたり面倒なことをせずに人々の注目を集めることができます。したがって、DALL・Eシリーズやイマージェンは、衣食住や長期干ばつといった必須特性を備えており、限られた範囲でしか利用できず、いつでも無制限に配布できる恩恵ではありません。 2022 年 6 月中旬、Hugging Face Company は、DALL・E インターフェースの使いやすくシンプルなバージョンである DALL・E Mini をネットワーク全体のすべてのユーザーに無料で完全に公開しました。さまざまなソーシャル メディア ウェブサイトのビッグ ニュース、作成トレンド。
もし古代の公務員がこれらの資料を持っていたら、アフリカのキリンを幻獣キリンに変えるためにそれほど苦労する必要はなかったでしょう。 GitHub のプログラマーは自らの職業に忠実であり、生成された「コンピュータによるリスのプログラミング」の作品を公式 Twitter に投稿しました。
「ゴジラの法廷スケッチ」は、本当に新聞や雑誌で見られるものとよく似ていると言わざるを得ません。英語圏、非公開のSketch形式の裁判報告。
こちらもスター・ウォーズの世界から、「ダース・ベイダーは氷と魚を切る」 ダース・ベイダーはとても良い先生です、ひどいです。師匠に切り倒され、火山の溶岩を浴びさせられ、障害者となって息子に追われ、人工呼吸器で力を会得した後、障害者は地上に還元されて競争するビジネスのためのエスキモーと... 「ウォルター ホワイト」のこの写真もありますうっかりどうぶつの森の世界に入ってしまったら、ハゲで孤独で末期の麻薬王が突然可愛くなりました。任天堂が2000年代にどうぶつの森を本格的に発売しなかったのは残念だ。そうでなければ、青い氷の形をした物理的な商品を懸命に作るよりも、どうぶつの森の仮想取引を通じてお金を稼ぐほうがはるかに面倒でなく、問題がないことがわかっただろう。私の家族をサポートしてください。 「ポルノを拒否してください~麻薬を拒否してください~ポルノもギャンブルも麻薬も拒否してください~」を歌ってみましょう。 「スーパーマーケットで母親を探しているサノス」のこの絵は、キャラクターの核心にぴったり合っていて、非常に印象的です。銀行のドラマ解釈のプロフェッショナル。 「不幸であれば大量虐殺を行い、反対すれば宇宙を破壊するでしょう。これは母親が見つからず激しく泣く巨大な赤ん坊の性格です。」 ただし、これらの作品は、濃い味のケスに比べて、すべて薄味です。ルー愛好家の作品はただただ水っぽい。たとえば、この「イーロン・マスクがひび割れピエロを演じる」という絵はちょっと怖いです。 「悪魔がバスケットボールをする」、この写真を見た後、編集者は本当に追いかけ続ける勇気がありませんでした。ストレンジャー・シングス』》このドラマ。 作品には、このようなホラー映画のさまざまなシリーズの主人公も登場します。 「マスク・ジェイソンがブリトーを食べる」 「エルムの悪夢」のこんな写真もありますストリート』『パスタを食べる』…このパターンはあまりにも恐ろしいので、DVD時代にこれらのホラー映画を見てパニックになるまで怖がっていたグリーンデイズを編集者が思い出させます。 ################################# ##############しかし、現代の大衆文学や芸術は、この絵「ゴヤのコミカエル」のような古典芸術よりも少し怖くない。油絵でフォトジェニックな「農耕神のトルマ」。 AI は現代の漫画と 19 世紀の表現主義の油絵を組み合わせたもので、初めて見る人は誰でも背筋に冷や汗を流して恐怖を感じるでしょう。 「死神が黄金のアーチをクリックする」という絵もあります。将来的にはまだ仕事と学校に行くつもりです。遅いですか? デモのコードはわずか 60 行です。 もちろん、DALL・E シリーズのダイナミクスを注意して追っている読者は、DALL・E Mini と以前の DALL・E 大型モデルによって生成された画像に明らかな違いがあることに気づくでしょう。・E Mini で生成 ポートレートでは、DALL・E で生成されたものよりも顔がぼやけています。 DALL・E Mini プロジェクトの主な開発者である Boris Dayma 氏は、開発ノートの中で「これは仕様を削減した人に優しいバージョンです。デモには 60 行のコードしかなく、機能が弱いのは普通のことです」と説明しています。 。 簡単な文で言えば、以下は宇宙に向かって点滅するアボカドの肘掛け椅子です~ モデルは 3 つのデータ セットを使用します: 1. 300 万の画像とタイトルのペアを含む「概念的」キャプション データセット"; 2. 「YFCC100M」の Open AI サブセットには約 1,500 万枚の画像が含まれていますが、ストレージ容量の都合上、作者は 200 万枚の画像をさらに処理してサンプリングしました。タイトルとテキストの説明をタグとして同時に使用し、対応する HTML タグ、改行、余分なスペースを削除します。 3. 1,200 万の画像とタイトルのペアを含む「Conceptual 12M」。 トレーニング フェーズ: 1. まず、画像をトークン シーケンスに変換する目的で、画像が VQGAN エンコーダーによってエンコードされます; 2 . 画像に対応するテキスト 説明は BART エンコーダによってエンコードされます; 3. BART エンコーダの出力と VQGAN エンコーダによってエンコードされたシーケンス トークンが一緒に BART デコーダに送信されます。デコーダは自己回帰モデルです。目的は次のトークン シーケンスを予測することです。 4. 損失関数はクロスエントロピー損失であり、モデルによって予測された画像符号化結果間の損失値を計算するために使用されます。 VQGAN 実画像コーディング。 推論段階では、作成者は短いタグのみを使用し、それに対応する画像を生成しようとしました。具体的なプロセスは次のとおりです: 1. タグBART エンコーダを介してエンコードします; 2. 3. BART に基づく次のトークンでデコーダによって予測される分布、画像トークンは順番にサンプリングされます; 4. 画像トークンのシーケンスは、デコードのために VQGAN デコーダに送信されます; 5 . 最後に、「CLIP」が最適な生成結果を選択します。 次に、VQGAN 画像エンコーダーとデコーダーがどのように機能するかを見てみましょう。 Transformer モデルは誰もがよく知っているはずですが、その誕生以来、NLP 分野だけでなく、CV 分野の畳み込み CNN ネットワークも席巻してきました。 VQGAN を使用する作者の目的は、画像を離散トークン シーケンスにエンコードし、Transformer モデルで直接使用できるようにすることです。ピクセル値シーケンスの使用により、離散値の埋め込みスペースが大きすぎ、最終的にはモデルをトレーニングしてセルフアテンション層のメモリ要件を満たすことが非常に困難になります。 VQGAN は、知覚損失と GAN の識別損失を組み合わせてピクセルの「コードブック」を学習します。エンコーダは「コードブック」に対応するインデックス値を出力します。画像はトークン シーケンスにエンコードされるため、任意の Transformer モデルで使用できます。このモデルでは、作成者は、f=16 の圧縮係数 (4 つのブロックの幅と高さをそれぞれ 2 で割る) を使用して、サイズ 16,384 の語彙からの画像を「16x16=256」の離散トークンにエンコードします。デコードされた画像は 256x256 (各辺 16x16) です。 VQGAN についてさらに詳しく理解するには、「高解像度画像合成のためのトランスフォーマーの飼いならし」を参照してください。 Seq2Seq モデルは、1 つのトークン シーケンスを別のトークン シーケンスに変換し、通常は NLP で翻訳、要約、会話モデリングなどのタスクに使用されます。画像が個別のトークンにエンコードされている場合、同じ考え方を CV フィールドにも適用できます。このモデルは BART を使用しており、作成者は元のアーキテクチャを微調整しただけです: 1. エンコーダーとデコーダー用に独立した埋め込み層を作成します (同じタイプの入力と出力がある場合、通常は両方とも可能です)共有); 2. デコーダーの入力と出力の形状を調整して、VQGAN のサイズと一致するようにします (このステップでは中間の埋め込み層は必要ありません); 3. 強制生成されたシーケンスには 256 個のトークンがあります (シーケンスの開始マークと終了マークとして使用される CLIP は、画像とテキストの関係を確立するために使用され、画像とテキストのペアの埋め込み度の間の積 (コサイン類似度) の最大化などの対照学習を使用してトレーニングされます。は、正のサンプル間の積です)と、非相関ペア(つまり、負のサンプル)を最小化します。画像を生成するとき、作成者はモデルのロジット分布に従って画像ラベルをランダムにサンプリングします。その結果、サンプルが異なり、生成される画像の品質が一貫していません。 CLIP では、入力された説明に基づいて生成された画像をスコアリングできるため、生成された最良のサンプルが選択されます。推論フェーズでは、OpenAI の事前トレーニングされたバージョンが直接使用されます。 それでは、CLIP は OpenAI DALL·E とどう違うのでしょうか? DAL の詳細はすべて一般に知られているわけではありませんが、著者の見解では主なものは次のとおりです。違い: ### 1. DALL・E は GPT-3 の 120 億パラメータ バージョンを使用します。比較すると、著者のモデルは 27 倍大きく、約 4 億個のパラメータがあります。 2. 著者は事前トレーニング済みモデル (VQGAN、BART エンコーダー、CLIP) を広範囲に利用していますが、OpenAI はすべてのモデルを最初からトレーニングする必要があります。モデル アーキテクチャでは、利用可能な事前トレーニング済みモデルとその効率が考慮されています。 3. DALL·E は、より少ない語彙 (8,192 VS 16,384) からのより多くのトークン (1,024 VS 256) を使用して画像をエンコードします。 4. DALL・E は VQVAE を使用していますが、著者は VQGAN を使用しています。 DALL・E は、作成者が Seq2Seq エンコーダとデコーダの間で分割している場合、テキストと画像を単一のデータ ストリームとして読み取ります。これにより、テキストと画像に別々の語彙を使用することもできます。 5. DALL・E は自己回帰モデルを通じてテキストを読み取りますが、作成者は双方向エンコーダーを使用します。 6. DALL・E は 2 億 5,000 万の画像とテキストのペアをトレーニングしましたが、著者は 1,500 万のペアのみを使用しました。の。 7. DALL·E は、テキストをエンコードするためにより少ないトークン (最大 256 VS 1024) とより少ない語彙 (16384 VS 50264) を使用します。 VQGAN のトレーニングでは、著者はまず、圧縮率 f=16、語彙サイズ 16,384 で、ImageNet 上の事前トレーニング済みチェックポイントから開始しました。広範囲の画像をエンコードする場合は非常に効率的ですが、事前トレーニングされたチェックポイントは人物と顔のエンコードが苦手 (ImageNet ではどちらも一般的ではないため)。そのため、作成者は 2 x RTX A6000 クラウド インスタンスでエンコードすることにしました。微調整に約20時間。生成される人物の顔画像の品質があまり向上していないのは明らかで、「モデル崩壊」している可能性があります。モデルがトレーニングされたら、次の段階で使用できるように Pytorch モデルを JAX に変換します。 トレーニングDALL・E Mini:TPUの利点を活かしたJAXプログラミングを採用したモデルです。作成者は、データの読み込みを高速化するために、すべての画像を画像エンコーダで事前にエンコードします。トレーニング中に、作成者はいくつかのほぼ実現可能なパラメータをすぐに決定しました: 1. 各ステップで、各 TPU のバッチサイズ サイズは 56 で、これは各 TPU で利用可能な最大メモリです; 2. 勾配累積: 有効なバッチサイズ サイズは 56 × 8 TPU チップ × 8 ステップ = 毎回更新される 3,584 枚の画像です; 3. オプティマイザー Adafactor のメモリ効率により、より高いバッチサイズを使用できます;
以下は、Boris Dayma のメモの中でのプロジェクトの説明です。まず、プロジェクトの具体的な実装を見てみましょう。テキストに基づいて対応する画像が生成されます:
以上が第二世代 GAN ネットワークの台頭? DALL・E Miniのグラフィックが怖すぎて外国人が熱狂!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Windows 11 でインターネット接続が突然遅くなり、本書に記載されているすべての方法を試した場合、それはネットワークとは何の関係もなく、最大伝送単位 (MTU) に関係している可能性があります。システムが間違った MTU サイズでデータを送受信すると、問題が発生する可能性があります。この記事では、スムーズで中断のないインターネット接続のために Windows 11 で MTU サイズを変更する方法を学びます。 Windows 11 のデフォルトの MTU サイズはどれくらいですか? Windows 11 のデフォルトの MTU サイズは 1500 で、これが許容される最大値です。 MTU は最大伝送単位の略です。これは、ネットワーク上で送受信できる最大パケット サイズです。あらゆるサポートネットワーク
![WLAN拡張モジュールが停止しました[修正]](https://img.php.cn/upload/article/000/465/014/170832352052603.gif?x-oss-process=image/resize,m_fill,h_207,w_330)
Windows コンピュータの WLAN 拡張モジュールに問題がある場合、インターネットから切断される可能性があります。この状況はイライラすることがよくありますが、幸いなことに、この記事では、この問題を解決し、ワイヤレス接続を再び正常に動作させるのに役立ついくつかの簡単な提案を提供します。 WLAN 拡張モジュールが停止しました。 WLAN 拡張モジュールが Windows コンピュータで動作を停止した場合は、次の提案に従って修正してください。 ネットワークとインターネットのトラブルシューティング ツールを実行して、ワイヤレス ネットワーク接続を無効にし、再度有効にします。 WLAN 自動構成サービスを再起動します。 電源オプションを変更します。 変更します。詳細な電源設定 ネットワーク アダプター ドライバーを再インストールする いくつかのネットワーク コマンドを実行する それでは、詳しく見てみましょう

インターネットにアクセスするには、インターネットに接続するときに正しい DNS を使用する必要があります。同様に、間違った DNS 設定を使用すると、DNS サーバー エラーが発生しますが、このときは、ネットワーク設定で DNS を自動的に取得するように選択することで問題を解決できます。ソリューション。 win11 ネットワーク dns サーバー エラーを解決する方法. 方法 1: DNS をリセットする 1. まず、タスクバーの [スタート] をクリックして入力し、[設定] アイコン ボタンを見つけてクリックします。 2. 次に、左側の列の「ネットワークとインターネット」オプションコマンドをクリックします。 3. 次に、右側で「イーサネット」オプションを見つけ、クリックして入力します。 4. その後、DNSサーバーの割り当ての「編集」をクリックし、最後にDNSを「自動(D)」に設定します。

「ネットワーク エラーのダウンロードに失敗しました」問題とは何ですか?解決策を詳しく説明する前に、まず「ネットワーク エラーのダウンロードに失敗しました」問題が何を意味するのかを理解しましょう。このエラーは通常、ダウンロード中にネットワーク接続が中断された場合に発生します。この問題は、インターネット接続の弱さ、ネットワークの混雑、サーバーの問題など、さまざまな理由で発生する可能性があります。このエラーが発生すると、ダウンロードが停止し、エラー メッセージが表示されます。ネットワークエラーで失敗したダウンロードを修正するにはどうすればよいですか? 「ネットワーク エラー ダウンロードに失敗しました」というメッセージが表示されると、必要なファイルへのアクセスまたはダウンロード中に障害が発生する可能性があります。 Chrome などのブラウザを使用している場合でも、Google ドライブや Google フォトなどのプラットフォームを使用している場合でも、このエラーはポップアップ表示され、不便を引き起こします。この問題を解決し、解決するために役立つポイントを以下に示します。

WDMyCloud が Windows 11 のネットワーク上に表示されない場合、特にそこにバックアップやその他の重要なファイルを保存している場合は、大きな問題になる可能性があります。これは、ネットワーク ストレージに頻繁にアクセスする必要があるユーザーにとって大きな問題となる可能性があるため、今日のガイドでは、この問題を永久に修正する方法を説明します。 WDMyCloud が Windows 11 ネットワークに表示されないのはなぜですか? MyCloud デバイス、ネットワーク アダプター、またはインターネット接続が正しく構成されていません。パソコンにSMB機能がインストールされていません。 Winsock の一時的な不具合がこの問題を引き起こす場合があります。クラウドがネットワーク上に表示されない場合はどうすればよいですか?問題の修正を開始する前に、いくつかの予備チェックを実行できます。

この記事では、Win10のシステムネットワーク上に地球儀マークが表示されるがインターネットにアクセスできない問題の解決策を紹介します。この記事では、地球がインターネットにアクセスできないことを示す Win10 ネットワークの問題を読者が解決するのに役立つ詳細な手順を説明します。方法 1: 直接再起動する まず、ネットワーク ケーブルが正しく接続されていないこと、ブロードバンドが滞っていないかを確認します。ルーターまたは光モデムが停止している可能性があります。この場合は、ルーターまたは光モデムを再起動する必要があります。コンピュータ上で重要な作業が行われていない場合は、コンピュータを直接再起動できます。ほとんどの軽微な問題は、コンピュータを再起動することですぐに解決できます。ブロードバンドが滞っておらず、ネットワークが正常であると判断される場合は、別の問題です。方法 2: 1. [Win]キーを押すか、左下の[スタートメニュー]をクリックし、表示されるメニュー項目の電源ボタンの上にある歯車アイコンをクリックし、[設定]をクリックします。

Wake on LAN は、コンピュータを休止状態またはスリープ モードからリモートで復帰できるようにする Windows 11 のネットワーク機能です。カジュアル ユーザーはあまり使用しませんが、この機能は有線ネットワークを使用するネットワーク管理者やパワー ユーザーにとっては便利です。今回はその設定方法を説明します。自分のコンピューターが Wake on LAN をサポートしているかどうかを確認するにはどうすればよいですか?この機能を使用するには、コンピュータに次のものが必要です。 リモートからスリープ モードから復帰できるように、PC を ATX 電源に接続する必要があります。アクセス コントロール リストを作成し、ネットワーク内のすべてのルーターに追加する必要があります。ネットワーク カードは Wake-up-on-LAN 機能をサポートしている必要があります。この機能が動作するには、両方のコンピュータが同じネットワーク上にある必要があります。ほとんどのイーサネット アダプタは

ネットワーク接続が適切に機能していることを確認するため、または問題を解決するために、Windows 11 のネットワーク接続の詳細を確認する必要がある場合があります。これにより、IP アドレス、MAC アドレス、リンク速度、ドライバーのバージョンなどのさまざまな情報を表示できます。このガイドでは、その方法を説明します。 Windows 11 でネットワーク接続の詳細を確認するにはどうすればよいですか? 1. 「設定」アプリを使用し、+ キーを押して Windows の設定を開きます。 WindowsI 次に、左側のペインで [ネットワークとインターネット] に移動し、ネットワークの種類を選択します。この場合、これはイーサネットです。ワイヤレス ネットワークを使用している場合は、代わりに Wi-Fi ネットワークを選択します。画面の下部に次のように表示されます。
