人工知能の爆発的な普及により、私たちの時間の感覚が歪められています。
Stable Diffusion が誕生してまだ 4 か月しか経っていないのに、ChatGPT が存在してから 1 か月も経っていないなんて信じられますか?
鮮やかな比喩を使うと、まばたきをしている限り、まったく新しい業界を見逃すことになります。
2022 年の AI 分野では、大規模な生成モデルが雨後の筍のように出現し、AI 業界全体の状況を一変させました。
さらに、これらのモデルは急速に実験室から出て、現実に適用されつつあります。
たとえば、LLM テクノロジーは、意思決定エージェント (ゲーム、ロボットなど) と AI4Science という 2 つの新興分野に影響を与えました。
リー・フェイフェイの弟子であるジム・ファンが、2022 年の AI のハイライト瞬間トップ 10 をまとめました。時計の針を戻して、2022 年に AI がどのような驚くべき進歩を遂げるのかを見てみましょう。
DALLE-2 は、あらゆるタイトルからリアルな高解像度画像を生成する最初のツールです。 - 画像のスケール拡散モデル。
これは AI に芸術的な革命を引き起こし、多くの新しいアプリケーション、スタートアップ、考え方を生み出しました。
しかし、DALLE-2 は OpenAI の壁の後ろで保護されており、オープンソースではありません。
OpenAI の後、LMU の StabilityAI と runwayml は英雄的な一歩を踏み出し、「潜在的な拡散」アルゴリズムに基づいて独自のインターネット スケールの text2image モデルをトレーニングしました。彼らはこのモデルを「安定拡散」と呼び、コードと重みをオープンソース化しています。
事実は、Stable Diffusion のオープン性がゲームに大きな変化をもたらしたことを証明しています。
現在、多くのスタートアップや研究機関が Stable Diffusion に基づいて新しいアプリケーションを作成しており、Stable Diffusion 自体はオープンソース コミュニティによって継続的に改善されています。
最近、Stable Diffusion が v2.1 になり、単一の GPU で実行できるようになりました。
さらに、今年は GoogleAI から 2 つの image2text モデルが登場しました。 GoogleAI はモデルも API もリリースしていませんが、論文から多くの興味深い洞察を得ることができます。
Imagen
https://imagen.research.google
Parti
https://parti.research.google.ディフュージョン無しのトランスフォーマーモデルです。
# 2. テキスト-テキストの生成 誰もが知っているように、ここでは ChatGPT について話します! これは、5 日間で 100 万人のユーザーを獲得した史上唯一のアプリです。 ChatGPT は、人間の創造力にも大きなインスピレーションを与えてくれました。 このリストでは、ChatGPT に関するすべての便利で想像力に富んだアイデアを確認できます: https://github.com/f/awesome-chat##両方ChatGPT と GPT-3.5 は、RLHF (「ヒューマン フィードバックからの強化学習」) と呼ばれる新しいテクノロジを使用します。 これは、プロンプト プロジェクトが間もなく消滅する可能性があることも意味します。 ChatGPT の人気により、Jasper Chat、YouChat、Replit の Ghostwriter チャット、perplexity_ai などの新しいスタートアップや競合他社の波が生まれました。 これらの競合他社は、Google 幹部さえも汗をかくほど直感的な検索方法を提供しています! 3. テキスト ロボット モデル GPT に腕と足を与えて、散らかったキッチンを掃除してもらうにはどうすればよいでしょうか? NLP とは異なり、ロボット モデルは物理世界と対話する必要があります。 今年、事前に訓練された大型の Transformer がついにロボット工学の分野で最も困難な問題を解決し始めました!
VIMA
10 月に、同僚と私は、「ロボット GPT」、つまり VIMA という名前の変圧器を作成しました。 混合テキスト、画像、ビデオをプロンプトとして受信し、ロボット アームの制御を出力できます。 私たちのモデルは VIMA (「VisuoMotor Attendance」) と呼ばれ、完全にオープンソースです。 現在、モデル容量とデータの強力なスケーラビリティにより、単一のエージェントが視覚的なターゲット、ビデオの 1 回限りの模倣、新しいコンセプトの基礎、視覚的な制約などを解決できるようになりました。RT-1
VIMA と同様の道をたどって、GoogleAI の研究者は 700 のタスクで訓練されたロボット トランスフォーマーである RT-1 をリリースしました。 13万人の人間によるデモ。 このデータは、文字通り鋼鉄の軍隊である 13 台のロボットによって 17 か月にわたって収集されました。本質的に、ビデオは時間をかけて結び付けられた一連の画像であり、動きの錯覚を生み出します。 。
text2image を実行できるのであれば、タイムラインを追加してさらに楽しんでみてはいかがでしょうか?
現在、テキストからビデオへの分野には 3 つの主要な作品がありますが、どれもオープンソースではありません。
Make-A-Video
1 つ目は Meta AI の Make-A-Video です。ペアになったテキストビデオ データは必要なく、テキストビデオを取得できます。世代。
ここからトライアルアクセスにサインアップできます: https://makeavevideo.studio
紙のリンク: https://arxiv.org/abs / 2209.14792
##Imagen VideoGoogle AI の Imagen Video: Imagen 静止画像ジェネレーターに基づいて、拡散モデルを使用して高解像度ビデオを生成します。 デモ: http://imagen.research.google/video/ 紙のリンク: https://arxiv.org/abs/2210.02303Phenaki
Google AI の Phenaki: オープン ドメインのテキスト説明から可変長の動画を生成します。 デモ: https://phenaki.video 紙のリンク: https://arxiv.org/abs/2210.02399 5. Text-3D モデリング 革新的な製品の設計から映画やゲームの素晴らしい視覚効果の作成に至るまで、3D モデリングは Text-X 世代になりつつあり、次のブルー オーシャンになります。モデルの。 驚くべきことに、2022 年には有望な 3D 生成モデルがたくさんあります。ここでは、Fan が 3 つのモデルをリストします。DreamFusion
最初に登場するのは、Google AI 研究チームとカリフォルニア大学バークレー校が共同開発した DreamFusion です。 論文リンク: https://arxiv.org/pdf/2209.14988.pdfこのモデルは、2 次元のテキストから画像拡散モデル テキストから 3D への合成。 NeRF アルゴリズムに基づいて、DreamFusion は指定されたテキストから 3D モデルを生成できます。 モデルは、あらゆる角度から表示したり、あらゆる照明の下で再照明したり、あらゆる 3D 環境に合成したりできます。Magic3D
2 番目の結果は、GET3D と Magic3D という名前の NVIDIA AI チームの 2 つのプロジェクトです。 GET3D ペーパーのリンク: https://nv-tlabs.github.io/GET3D/assets/paper.pdfMagic3D 論文リンク: https://arxiv.org/pdf/2211.10440.pdf2D 画像のみを使用してトレーニングされた GET3D は、高忠実度のテクスチャと複雑な幾何学的詳細を備えた 3D グラフィックスを生成できます。 このモデルを使用すると、ユーザーは形状を 3D レンダラーやゲーム エンジンに即座にインポートして、その後の編集を行うことができます。 Magic3D は DreamFusion に似ており、テキストから画像へのモデルを使用して 2D 画像を生成し、それが体積 NeRF (神経放射線場) データに最適化され、低解像度で生成された粗いモデルが微細な画像に最適化されます。高解像度のモデル。
Point-E
今年の初めに発売された DALL-E 2 がその天才的なブラシで誰もを驚かせた後、OpenAI は最新の画像生成モデル「POINT- E」は火曜日に、テキストから直接 3D モデルを生成できます。 論文リンク: https://arxiv.org/pdf/2212.08751.pdf競合他社 (Google の DreamFusion など) と比較して、単一の GPU は数時間動作しますが、POINT-E は単一の GPU で数分で 3D 画像を生成できます。 テストによると、POINT-E は基本的にプロンプト入力後数秒で 3D 画像を出力できるほか、出力画像のカスタム編集、保存などの機能もサポートしています。 6.「Minecraft」をプレイできる AI 「Minecraft」は、AI の一般的な知能をテストするのに最適なゲームです。まず第一に、それはプレイヤーの創造性を非常に反映する無限に開かれたサンドボックス ゲームです。 第二に、このゲームのプレイヤーベースは 1 億 4,000 万人で、これは英国の総人口の 2 倍です。これほど巨大なユーザーベースがあるため、AI 学習用のゲームデータが無限に供給されます。では、AIは人間と同じように想像力を発揮できるのでしょうか?
Jim Fan と同僚は協力して、自然言語プロンプトの下で多くのタスクを解決できる、「Minecraft」をプレイするための初の AI、「MineDojo」を開発しました。
論文リンク: https://arxiv.org/pdf/2206.08853.pdf
ファンの最終目標は、「具体化された ChatGPT」を構築することです。現在、MineDojo プラットフォームは完全にオープンソースです。
同時に、Jeff Clune 氏のチームは、キーボードとマウスの動きを直接出力できる Video Pre-Training (VPT) と呼ばれるモデルを発表しました。
論文リンク: https://arxiv.org/pdf/2206.11795.pdf
VPT にはより広い視野がありますが、それは言語条件によって制限されません。現時点では、MineDojo と VPT は相互に補完します。
##7. AI Diplomat Meta AI が開発した CICERO は、ゲーム「外交」で人間レベルのパフォーマンスを初めて達成しました。人工知能エージェント。 論文リンク: https://www.science.org/doi/10.1126/science.ade9097「外交」これは、ボード ゲームのリスク、カード ゲームのポーカー、テレビ番組のサバイバーを組み合わせた 7 人用の古典的な戦略ゲームです。このゲームでは、人間と協力したり競争したりするために、広範な自然言語ネゴシエーションが必要です。 しかし、CICEROの出現は、人工知能が他人を説得したりハッタリをかけたりする能力を備えていることを示しています。 現在、DeepMind は独自の外交官 AI エージェントの開発も発表しています。では、CICERO がこの AI モデルを使用するとどうなるでしょうか? 8. オーディオテキストモデル Whisper は、OpenAI によってリリースされた大規模なオープンソース音声認識モデルであり、英語において人間レベルに近い堅牢性と精度を備えています。音声認識の精度。 論文リンク: https://arxiv.org/pdf/2212.04356.pdfWhisper はインターネットから 680 を通過しました。 000時間の音声データのトレーニング。 Open AI は、Whisper の音声認識能力が人間のレベルに達していることを強調しています。 Open AI は Whisper をオープンソース化します。待望の GPT-4 をトレーニングするために、より多くのテキスト トークンのロックを解除するためですか? 9. 核融合 DeepMind とスイス連邦工科大学ローザンヌ (EPFL) は、初の核融合関連の深層強化学習システムを共同開発しました。トカマク内の核融合プラズマの核安定性を維持します。 論文リンク: https://www.nature.com/articles/s41586-021-04301-9同じ今月、米国エネルギー省は大きな進歩を発表しました。人類は初めて、核融合反応による正味エネルギーの増加を達成しました。 人類がこのマイルストーンを達成したのはこれが初めてです。今世では融合文明になるかもしれない! 10. 生物学に応用されたトランスフォーマー 2021 年、AlphaFold は言語モデルによるタンパク質の 3D 構造の予測を開始しました。 7 月、DeepMind は、AlphaFold のタンパク質データベースを 2 億構造に拡張する「Protein Universe」を発表しました。 さらに、NVIDIA AI 研究チームは、バイオテクノロジー企業や研究者による生体分子データの生成、予測、理解を支援するために、BioNeMo 大規模言語モデル フレームワークも拡張しました。 動画説明: https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s上記は、2022年大会に関するジム・ファンのコメントです。 10 月 ビッグ AI のハイライトの目録。もちろんファン氏は、人工知能の進歩に貢献した刺激的な作品は数え切れないほどあるとも語った。 すべての論文は AI 構築におけるレンガであり、すべての努力は称賛されるべきです。 しかし、ファン氏は最後に、人工知能システムがますます強力になるにつれて、潜在的な危険やリスクを認識し、それらを軽減するための措置を講じる必要があるとも強調しました。 慎重なトレーニング設計、適切な監督、または新しい安全対策方法によっても、人工知能の安全性と倫理は、ますます多くの AI 専門家によって議論される議題となっています。 2022年が奇跡に満ちた素晴らしい年になることは間違いありません。来年は世界に衝撃を与えるどんな画期的な出来事が起こるでしょうか?私たちはあなたと一緒に見守っています。https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
以上がLi Feifei が今年の AI ハイライト トップ 10 を振り返る: 核融合、ChatGPT、AlphaFold がリストに名を連ねるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。