目次
トップ AI 生成モデルの概要
GANs # への適用性の検討に重点が置かれる可能性があります。
書き換えられた内容: これらの手法は、以下に適用できます。テキスト要約、チャットボット、レコメンデーション エンジン、言語翻訳、ナレッジ ベース、パーソナライズされたレコメンデーション (好みモデルによる)、感情分析、人、場所、物を識別するための固有表現認識。さらに、OpenAI の Whisper テクノロジーなどの音声認識、ビデオや画像内のオブジェクト検出、画像キャプション、テキスト分類、ダイアログ生成などの分野でも使用できます。 #とはいえTransformers は多用途ですが、制限もあります。トレーニングには費用がかかり、大規模なデータセットが必要になる場合があります。結果として得られるモデルも非常に大きいため、バイアスの原因や不正確な結果を特定することが困難になります。 「また、その複雑さにより、その内部動作を説明することが困難になり、解釈可能性と透明性が妨げられます」とマスード氏は述べています。
実際、将来的には、今日の一般的なモデル アーキテクチャに代わる、より効率的なものが登場する可能性があります。ホワイト氏は、「新しいアーキテクチャが登場すると、拡散モデルやトランスフォーマーモデルは役に立たなくなるかもしれない。自然言語アプリケーションへのアプローチが長期・短期記憶アルゴリズムやリカレントニューラルに役立たなかったため、拡散の導入でこれがわかった」と述べた。 (RNN)
ホームページ テクノロジー周辺機器 AI 生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

Nov 20, 2023 pm 05:30 PM
AI genai模型

タスクに適切な GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を理解する必要があります。以下の VAE、GAN、Diffusion、Transformers、NerF の 5 つの GenAI モデルについて学習してください。

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

これまで、ほとんどの AI モデルは、データの処理、分析、解釈の改善に焦点を当てていました。最近まで、いわゆる生成ニューラル ネットワーク モデルの進歩により、写真や絵画から詩、コード、脚本、映画に至るまで、あらゆる種類のコンテンツを作成するためのさまざまな新しいツールが誕生しました。

トップ AI 生成モデルの概要

2010 年代半ば、研究者たちは、人工知能生成モデルの新たな可能性を発見しました。当時、彼らは変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN)、拡散モデル (Diffusion) を開発しました。 2017 年に導入されたトランスフォーマーは、大規模なデータセットを大規模に分析して大規模言語モデル (LLM) を自動的に作成できる画期的なニューラル ネットワークです。 2020 年、研究者らは 3D 画像から 2D コンテンツを生成できる Neural Radiation Field (NeRF) テクノロジーを導入しました。大幅な改善につながり、目覚ましい進歩が衰えることはありません。ホワイト教授はカリフォルニア大学バークレー校で次のように述べています。「モデル アーキテクチャは常に変化しており、新しいモデル アーキテクチャは開発され続けます。」

各モデルには特別な機能があり、現在、 、拡散 モデル (Diffusion) は画像およびビデオ合成の分野で非常に優れたパフォーマンスを発揮し、Transformers モデル (Transformers) はテキストの分野で優れたパフォーマンスを発揮し、GAN は合理的な合成サンプルで小さなデータセットを拡張することに優れています。ただし、最適なモデルの選択は常に特定の使用例に依存します。

すべてのモデルは異なるため、AI 研究者と ML (機械学習) エンジニアは、コンピューティングでのモデルの使用を考慮して、適切なユースケースと必要なパフォーマンスに応じて適切なモデルを選択する必要があります。メモリと資本の制限。

特にコンバータ モデルは、生成モデルの最近の進歩と興奮に貢献しています。 UST デジタル トランスフォーメーション コンサルティングのチーフ人工知能アーキテクト、アドナン マスード氏は次のように述べています。「人工知能モデルの最新の進歩は、大量のデータでの事前トレーニングと、明示的なラベルを付けずにモデルをトレーニングする自己教師あり学習の使用によってもたらされます。」

たとえば、OpenAI の生成事前トレーニング コンバーター モデル ファミリは、このカテゴリで最大かつ最も強力なモデルの 1 つです。その中で、GPT-3 モデルには 175 億個のパラメーターが含まれています

トップ生成 AI モデルの主な用途

Masood 氏は、トップ生成 AI モデルについて次のように説明しました。モデルは、さまざまな技術や方法を使用して、まったく新しいデータを生成します。これらのモデルの主な機能と用途は次のとおりです。

VAE は、エンコーダ/デコーダ アーキテクチャを使用して、次のような画像やビデオの生成によく使用される新しいデータを生成します。プライバシー保護のための合成顔。

  • GAN はジェネレーターとディスクリミネーターを使用して新しいデータを生成し、ビデオ ゲーム開発でリアルなゲーム キャラクターを作成するためによく使用されます。
  • 拡散では、ノイズを追加して除去して、高レベルの詳細を備えた高品質の画像を生成し、自然の風景の本物に近い画像を作成します。
  • #Transformer は、機械翻訳、テキスト要約、画像作成のために連続データを効率的に並列処理します。
  • NeRF は、ニューラル表現を使用した 3D シーン再構築への新しいアプローチを提供します。
  • #各方法を詳しく見てみましょう。
  • #VAE

VAE は、ニューラル ネットワークを使用してデータをより効率的にエンコードするために 2014 年に開発されました

## Sisense の AI 責任者である # Yael Lev 氏は、人工知能分析プラットフォーム VAE は情報をより効果的に表現することを学習したと述べました。 VAE は、データを圧縮するエンコーダーと、データを元の形式に復元するデコーダーの 2 つの部分で構成されます。これらは、小さな情報から新しいインスタンスを生成したり、ノイズの多い画像やデータを修復したり、データ内の異常な内容を検出したり、欠落している情報を埋めたりするのに最適です。

ただし、UST の Masood 氏によると、変分オートエンコーダ (VAE) はぼやけた画像や低品質の画像を生成する傾向もあります。もう 1 つの問題は、データ構造をキャプチャするために使用される低次元の潜在空間が複雑で困難であることです。これらの欠点により、高品質の画像や潜在空間の明確な理解を必要とするアプリケーションにおける VAE の有効性が制限される可能性があります。 VAE の次の反復では、生成されたデータの品質の向上、トレーニングの高速化、シーケンス データ

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

GANs # への適用性の検討に重点が置かれる可能性があります。

##GAN は 2014 年に開発され、リアルな顔を生成したり、図形を印刷したりするために使用されます。 GAN は、本物のコンテンツを生成するニューラル ネットワークと、偽のコンテンツを検出するニューラル ネットワークを戦わせます。 PwC のグローバル AI リーダーであるアナンド・ラオ氏は、「2 つのネットワークが徐々に統合され、元のデータと区別できない生成画像が生成されます。」と述べています。画像編集、超解像度、データ強化、スタイル転送、音楽生成、ディープフェイク作成。 GAN の問題の 1 つは、ジェネレーターが限定的かつ反復的な出力を生成するため、トレーニングが困難になるモード崩壊が発生する可能性があることです。 Masood氏は、次世代GANはトレーニングプロセスの安定性と収束性の向上、他の分野への適用性の拡大、より効果的な評価指標の開発に重点を置くと述べた。 GAN は最適化や安定化も難しく、生成されるサンプルを明確に制御することはできません。

拡散

生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRF

拡散モデルは、スタンフォード大学の研究チームによって 2015 年に開発されました。エントロピーとノイズのシミュレーションと反転用。拡散技術は、塩などの物質が液体にどのように拡散し、それを逆転させるかなどの現象をシミュレートする方法を提供します。この同じモデルは、空白の画像から新しいコンテンツを生成するのにも役立ちます。

拡散モデルは現在、画像生成の最初の選択肢であり、Dall-E 2、Stable Diffusion、Midjourney、Imagen などの人気のある画像生成サービスの基本モデルです。これらは、音声、ビデオ、および 3D コンテンツを生成するパイプラインでも使用されます。さらに、拡散技術はデータ補完に使用でき、欠落データが予測および生成されるため、多くのアプリケーションでは拡散モデルと LLM を組み合わせて、テキストから画像またはテキストからビデオを生成します。たとえば、Stable Diffusion 2 は、対照的な言語と画像の事前トレーニング済みモデルをテキスト エンコーダーとして使用し、深さとアップスケーリングのためのモデルも追加します。

Masood 氏は、安定した拡散などのモデルのさらなる改善は、ネガティブな手がかりの改善、特定のアーティストのスタイルで画像を生成する能力の強化、有名人の画像の改善に重点が置かれる可能性があると予測しています。

Transformers

Transformer モデルは、言語翻訳を改善するために、Google Brain のチームによって 2017 年に開発されました。これらのモデルは、さまざまな順序で情報を処理するのに適しており、データを並行して処理しながら、ラベルのないデータを活用して大規模なモデルに拡張することもできます

書き換えられた内容: これらの手法は、以下に適用できます。テキスト要約、チャットボット、レコメンデーション エンジン、言語翻訳、ナレッジ ベース、パーソナライズされたレコメンデーション (好みモデルによる)、感情分析、人、場所、物を識別するための固有表現認識。さらに、OpenAI の Whisper テクノロジーなどの音声認識、ビデオや画像内のオブジェクト検出、画像キャプション、テキスト分類、ダイアログ生成などの分野でも使用できます。 #とはいえTransformers は多用途ですが、制限もあります。トレーニングには費用がかかり、大規模なデータセットが必要になる場合があります。結果として得られるモデルも非常に大きいため、バイアスの原因や不正確な結果を特定することが困難になります。 「また、その複雑さにより、その内部動作を説明することが困難になり、解釈可能性と透明性が妨げられます」とマスード氏は述べています。

NeRF

NeRF は、ライト フィールドの 3D 表現をニューラル ネットワークに取り込むために 2020 年に開発されました。最初の実装は非常に時間がかかり、数日かかりました。最初の 3D 画像を取り込むには数日かかりました。 .

しかし、2022 年に Nvidia の研究者は、新しいモデルを約 30 秒で生成する方法を発見しました。これらのモデルは、他のテクノロジがギガバイトを必要とする場合がある一方で、同等の品質で数メガバイトの単位で 3D オブジェクトを表現できます。これらのモデルは、メタバースで 3D オブジェクトをキャプチャおよび生成するためのより効率的な手法につながることが期待されます。 Nvidiaのリサーチディレクターであるアレクサンダー・ケラー氏は、NeRFは最終的には現代の写真にとってデジタルカメラが重要であるのと同じように、3Dグラフィックスにとって重要になる可能性があると述べ、マスード氏はNeRFはロボット工学、都市地図作成、自律ナビゲーション、仮想現実アプリケーションにおいて大きな可能性を示していると述べた。ただし、NERF は依然として計算コストが高く、複数の NERF をより大きなシーンに結合することは困難であり、現在 NeRF で実行可能な唯一の使用例は、画像を 3D オブジェクトまたはシーンに変換することです。これらの制限にもかかわらず、Masood 氏は、NeRF は、GenAI エコシステム内のノイズ除去、ブレ除去、アップサンプリング、圧縮、画像編集などの基本的な画像処理タスクで新たな役割を見つけるだろうと予測しています。研究者たちは、個々のモデルを改善し、他のモデルや処理技術と組み合わせる方法を模索しています。 Lev 氏は、生成モデルがより一般的になり、アプリケーションが従来の領域を超えて拡張され、ユーザーが AI モデルをより効果的にガイドし、AI モデルがどのようにより適切に機能するかを理解できるようになると予測しています。

取得メソッドを使用して特定のタスクに最適化されたモデル ライブラリを呼び出すマルチモーダル モデルに関する作業も進行中です。同氏はまた、生成モデルが API 呼び出しや外部ツールの使用など、他の機能も開発できるようになることを期待しています。たとえば、同社のコールセンターの知識に基づいて微調整された LLM は、質問に対する回答を提供し、トラブルシューティングを実行します。顧客のモデムをリセットするとき、または問題が解決したときに電子メールを送信します。

実際、将来的には、今日の一般的なモデル アーキテクチャに代わる、より効率的なものが登場する可能性があります。ホワイト氏は、「新しいアーキテクチャが登場すると、拡散モデルやトランスフォーマーモデルは役に立たなくなるかもしれない。自然言語アプリケーションへのアプローチが長期・短期記憶アルゴリズムやリカレントニューラルに役立たなかったため、拡散の導入でこれがわかった」と述べた。 (RNN)

一部の人々は、生成 AI エコシステムが 3 層モデルに進化すると予測しています。基本レイヤーは、テキスト、画像、音声、コードに基づく一連の基本モデルであり、これらのモデルは大量のデータを取り込み、人間の判断と組み合わせた大規模な深層学習モデルに基づいて構築されています。次に、業界および機能に特化したドメイン モデルにより、医療、法律、その他の種類のデータ処理が改善されます。トップレベルでは、企業は独自のデータと主題の専門知識を使用して独自のモデルを構築します。これら 3 つのレイヤーは、チームがモデルを開発する方法を破壊し、サービスとしてのモデルの新時代をもたらします#生成 AI モデルの選択方法: 最初の考慮事項

Sisense の Lev 氏によると、モデルを選択する際の主な考慮事項は次のとおりです。

解決しようとしている問題。

特定のタスクに適していることがわかっているモデルを選択してください。たとえば、言語タスクにはトランスフォーマーを使用し、3D シーンには NeRF を使用します。

データの量と質。

Diffusion が適切に動作するには大量の良質なデータが必要ですが、VAE はデータが少ないほど良好に動作します。

#結果の品質。 GAN は鮮明で詳細な画像に適しており、VAE はより滑らかな結果に優れています。

モデルをトレーニングすることの難しさ。 GAN はトレーニングが難しい場合がありますが、VAE と Diffusion は簡単です。

コンピューティング リソースの要件。 NeRF と Diffusion が正しく動作するには、多くのコンピュータ能力が必要です。

#コントロールと理解が必要です。

結果をより詳細に制御したい場合、またはモデルの動作をより深く理解したい場合は、GAN よりも VAE の方が適している可能性があります。

以上が生成 AI の 5 つの主要モデル: VAE、GAN、Diffusion、Transformers、NeRFの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

GenAI および LLM の技術面接に関する 7 つのクールな質問 GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

あなたが知らない機械学習の 5 つの流派 あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

AIなどの市場を開拓するグローバルファウンドリーズがタゴール・テクノロジーの窒化ガリウム技術と関連チームを買収 AIなどの市場を開拓するグローバルファウンドリーズがタゴール・テクノロジーの窒化ガリウム技術と関連チームを買収 Jul 15, 2024 pm 12:21 PM

7月5日のこのウェブサイトのニュースによると、グローバルファウンドリーズは今年7月1日にプレスリリースを発行し、自動車とインターネットでの市場シェア拡大を目指してタゴール・テクノロジーのパワー窒化ガリウム(GaN)技術と知的財産ポートフォリオを買収したことを発表した。モノと人工知能データセンターのアプリケーション分野で、より高い効率とより優れたパフォーマンスを探求します。生成 AI などのテクノロジーがデジタル世界で発展を続ける中、窒化ガリウム (GaN) は、特にデータセンターにおいて、持続可能で効率的な電力管理のための重要なソリューションとなっています。このウェブサイトは、この買収中にタゴール・テクノロジーのエンジニアリングチームがGLOBALFOUNDRIESに加わり、窒化ガリウム技術をさらに開発するという公式発表を引用した。 G

See all articles