現地時間の 5 月 9 日、Meta は、視覚 (画像およびビデオ形式)、温度 (赤外線画像)、テキスト、音声、深度情報、モーション読み取り値 (慣性測定ユニットまたは IMU によって生成)。現在、関連するソース コードは GitHub でホストされています。
6 つのモードにまたがるとはどういう意味ですか?
ImageBind はビジョンを核としており、6 つのモードを自由に理解して変換できます。 Meta は、犬の鳴き声を聞いて犬の絵を描き、対応する深度マップとテキストの説明を同時に与える、鳥の画像と海の波の音を入力して画像を取得するなどのいくつかのケースを示しました。浜辺の鳥。
Midjourney、Stable Diffusion、DALL-E 2 などのテキストと画像を組み合わせる画像ジェネレーターと比較すると、ImageBind はより広い網を張るようなもので、テキスト、画像/ビデオ、オーディオ、3D 測定値 (深度)、温度データを接続できます。 (熱) および運動データ (IMU から) を分析し、人間が環境を知覚または想像する方法と同様に、あらゆる可能性について最初にトレーニングすることなく、データ間のつながりを直接予測します。
研究者らは、ImageBind は大規模な視覚言語モデル (CLIP など) を使用して初期化できるため、これらのモデルの豊富な画像とテキスト表現を活用できると述べています。したがって、ImageBind は、ほとんどトレーニングすることなく、さまざまなモダリティやタスクに適応できます。
ImageBind は、関連するすべての種類のデータから学習するマルチモーダル AI システムを作成するという Meta の取り組みの一環です。モダリティの数が増えるにつれ、ImageBind は研究者が 3D センサーと IMU センサーを組み合わせて没入型の仮想世界を設計または体験するなど、新しい総合的なシステムの開発を試みるための水門を開きます。また、テキスト、ビデオ、画像を組み合わせて画像、ビデオ、オーディオ ファイル、またはテキスト情報を検索することで、記憶を探索する豊富な方法も提供します。
このモデルは現在単なる研究プロジェクトであり、直接的な消費者向けまたは実用的なアプリケーションはありませんが、生成 AI が将来どのように没入型で多感覚のコンテンツを生成できるかを示し、またメタインが可能であることも示しています。 OpenAI や Google などの競合他社とは異なる方法で、大規模なオープンソース モデルへの道を切り開いています。
結局のところ、Meta は ImageBind テクノロジーが最終的には現在の 6 つの「感覚」を超えると信じており、ブログで次のように述べています。 —触覚、音声、嗅覚、脳の fMRI 信号など—により、より豊かな人間中心の人工知能モデルが可能になります。」
ImageBind の使用
ChatGPT が検索エンジンおよび質問と回答のコミュニティとして機能し、Midjourney が描画ツールとして使用できる場合、ImageBind で何ができるでしょうか?公式デモによると、画像から直接音声を生成できます:
音声から画像を生成することもできます:
または、次のテキストを入力して、関連する画像や音声コンテンツを直接取得することもできます:
音声を与えて対応する画像を生成することもできます:
前述したように、ImageBind は、将来の生成 AI システムを複数のモダリティで提示する方法を提供し、同時に Meta の内部仮想現実、複合現実、メタバース、その他のテクノロジーやシナリオと組み合わせることができます。 ImageBind のようなツールを使用すると、アクセシブルな空間に新しい扉が開きます。たとえば、視覚や聴覚に障害のある人が周囲の環境をよりよく認識できるように、リアルタイムのマルチメディア記述を生成することができます。
マルチモーダル学習については、まだ発見されていないことがたくさんあります。現在、人工知能の分野では、より大きなモデルでのみ現れるスケーリング動作を効果的に定量化し、そのアプリケーションを理解していません。 ImageBind は、画像の生成と取得のための新しいアプリケーションを厳密な方法で評価および実証するためのステップです。
作者: バラッド
出典: First Electric Network (www.d1ev.com)
以上がAI Morning Post | テキスト、画像、音声、ビデオ、そして 3D が相互に生成し合う体験とは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。