世界初の超小型マルチモーダル AI エージェント モデルOctopus V3、スタンフォード大学 NEXA AI チーム 、Agent をより賢く、より高速にし、エネルギー消費とコストを削減します。
今年 4 月初旬、NEXA AI は待望の Octopus V2 をリリースしました。これは 関数呼び出しパフォーマンス -4# で GPT を上回りました。 ## は、推論に必要なテキストの量を 95% 削減し、エンドサイド AI アプリケーションに新たな可能性をもたらします。特許取得済みのコア技術「関数トークン」は、革新的な関数呼び出し方法により推論に必要なテキストの長さを大幅に削減します。
このアプローチにより、わずか20 億のパラメーターを使用してモデルを効率的にトレーニングできます と 精度と遅延の点で GPT-4## を上回ります# さまざまなエンドデバイスの展開ニーズに適応します。 Octopus V2 は LLM コミュニティでリリースされて以来、広く注目を集め、Hugging Face の CTO である Julien Chaumond 氏や、有名な AI ニュースレター AI Cheung の創設者である Rowan 氏、Figure AI の創設者である Brett Adcock 氏、OPPO エッジ人工知能チーム リーダーの Manoj Kumar 氏など。これらは「デバイスサイド AI テクノロジーの新時代を創造する」と称賛されています。
有名なオープンソース AI プラットフォームである Hugging Face では、Octopus V2 は 12,000 回以上ダウンロードされています。
NEXA AI チームは、1 か月も経たないうちに、次世代マルチモーダル AI
Agentモデル Octopus V3 をリリースし、さらなる進歩を実証しました。画像処理機能と多言語テキスト処理機能により、スマートフォンなどのエンドサイドデバイスが真の AI 時代に突入する道が開かれます。
パラメータ数が 10 億未満の初のマルチモーダル AI エージェント モデルつまり、従来の大規模言語モデルと比較して、サイズが小さく、消費電力が少なく、Raspberry Pi などのさまざまな小型デバイス上で簡単に実行でき、高速性を実現します。 . と正確な関数呼び出し。
これは、将来的に AI エージェントが
スマートフォン、AR/VR、ロボット、スマート カー およびその他のエンドサイド デバイスで広く使用され、さまざまな機能を提供できることを意味します。よりスムーズでスマートなエクスペリエンスをユーザーに提供します。 一方、V3 はマルチモーダル処理機能を備えているため、テキストと画像の入力を同時に処理でき、多言語機能と組み合わせることで、ユーザー エクスペリエンスもより豊かになります。
たとえば、Instacart ショッピング アプリケーションでは、ユーザーはパイナップルの写真と簡単な会話指示を通じて AI エージェントに自動的に商品を検索させることができ、効率とユーザー エクスペリエンスを向上させることができます。
別の例として、電子メールの送信などのシナリオでは、Octopus V3 は自動的に情報を抽出し、テキスト付きの画像に基づいて電子メールのコンテンツを埋め込むことができ、よりインテリジェントな情報をユーザーに提供します。 , 便利なサービス。
ソフトウェア インタラクションからスマート カーまで、デバイス側 AI には大きな可能性があります
上記の携帯電話のシナリオに加えて、Octopus V2 をスマート カーに適用すると、新しいインタラクティブ エクスペリエンスももたらす可能性があります。現在の音声アシスタントでは、運転中に目的地を一時的に変更したり、停車地を追加したりするなど、車の所有者がより複雑なタスクを完了するのを支援するのは困難であることがよくあります。 Octopus V3を適用すると、AIアシスタントは比較的曖昧で単純な指示に基づいて、対応するタスクを迅速かつ正確に完了できるようになります。
V2 および V3 の機能と組み合わせることで、情報の検索から指示に基づいた設計の完了まで、ユーザーは仮想シーンでスムーズな AI 体験を得ることができます。コミュニティ ユーザーの VR シーン デモでは、簡単な音声コマンドを入力します。 , AI エージェントを使用すると、ユーザーは数回クリックするだけで、リビング ルームのデザインを迅速に完成させたり、ソファを交換したり、照明の色を変更したりすることができます。ユーザーが旅行指示を入力すると、ユーザーはすぐに日本に到着し、AI エージェントはユーザーが対応する観光スポットを検索したり、簡単な会話コミュニケーションで豊富な情報を提供したりすることもできます。
データは、世界の大規模言語モデル市場が急速に成長していることを示しています。 Granview Research の報告によると、世界の大規模言語モデル市場規模は 43 億 5,000 万米ドルと推定され、2024 年から 2030 年にかけて年間平均成長率 35.9% で成長すると予想されています。同様に、エッジ人工知能市場も活況を呈しており、世界のエッジ人工知能市場は2023年から2030年にかけて年平均成長率21.0%で成長し、2030年までに664億7,800万米ドルに達すると予想されています。
NEXA AI チームは、スタンフォード大学の優れた研究者によって設立されました。
創設者兼主任研究員の Alex Chen (Chen Wei) はスタンフォード大学で博士号取得を目指して勉強中です。彼は人工知能研究において豊富な経験を持ち、博士号を取得しています。スタンフォード大学の中国人研究者、スタンフォード中国起業家組織会長。
共同創設者兼最高技術責任者である Zack Li (Li Zhiyuan) もスタンフォード大学を卒業しており、Google および Google で 4 年間のエンドサイドの経験を持っています。 Amazon Lab126 研究所 AI の最前線での研究開発経験を持ち、スタンフォード中国起業家協会の会長も務めました。
スタンフォード大学の准教授であり、スタンフォード テクノロジー アントレプレナーシップ プログラムの副ディレクターであるチャールズ (チャック) エスリーはアドバイザーとして機能しており、チームに指導とサポートを提供しています。
△左: Li Zhiyuan、右: Chen Wei現在、NEXA AI の独自技術は特許保護を申請しています。
NEXA AI の創設チームは、エンドサイド AI テクノロジーの開発を促進し、オープンソース モデルを通じてその革新的なテクノロジーの影響力を高め、よりスマートで効率的なシステムを構築することに引き続き尽力すると述べました。ユーザーのこれからの生活。
論文アドレス: https://arxiv.org/abs/2404.11459
以上がスタンフォード大学の 20 億パラメータの最終テスト マルチモーダル AI エージェント モデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。