ホームページ > テクノロジー周辺機器 > AI > スタンフォード大学の 20 億パラメータの最終テスト マルチモーダル AI エージェント モデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりました

スタンフォード大学の 20 億パラメータの最終テスト マルチモーダル AI エージェント モデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりました

王林
リリース: 2024-05-07 16:25:29
転載
1101 人が閲覧しました

世界初の超小型マルチモーダル AI エージェント モデルOctopus V3スタンフォード大学 NEXA AI チーム Agent をより賢く、より高速にし、エネルギー消費とコストを削減します。

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

今年 4 月初旬、NEXA AI は待望の Octopus V2 をリリースしました。これは 関数呼び出しパフォーマンス -4# で GPT を上回りました。 ## は、推論に必要なテキストの量を 95% 削減し、エンドサイド AI アプリケーションに新たな可能性をもたらします。特許取得済みのコア技術「関数トークン」は、革新的な関数呼び出し方法により推論に必要なテキストの長さを大幅に削減します。

このアプローチにより、わずか

20 億のパラメーターを使用してモデルを効率的にトレーニングできます 精度と遅延の点で GPT-4## を上回ります# さまざまなエンドデバイスの展開ニーズに適応します。 Octopus V2 は LLM コミュニティでリリースされて以来、広く注目を集め、Hugging Face の CTO である Julien Chaumond 氏や、有名な AI ニュースレター AI Cheung の創設者である Rowan 氏、Figure AI の創設者である Brett Adcock 氏、OPPO エッジ人工知能チーム リーダーの Manoj Kumar 氏など。これらは「デバイスサイド AI テクノロジーの新時代を創造する」と称賛されています。

有名なオープンソース AI プラットフォームである Hugging Face では、Octopus V2 は 12,000 回以上ダウンロードされています。

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用NEXA AI チームは、1 か月も経たないうちに、次世代マルチモーダル AI

Agent

モデル Octopus V3 をリリースし、さらなる進歩を実証しました。画像処理機能と多言語テキスト処理機能により、スマートフォンなどのエンドサイドデバイスが真の AI 時代に突入する道が開かれます。

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

パラメータ数が 10 億未満の初のマルチモーダル AI エージェント モデル

Octopus V3 はマルチモーダル機能を備えているだけではありません, 関数呼び出しのパフォーマンスは同様のモデルをはるかに上回り、GPT-4V GPT4 に匹敵しますが、モデル パラメーターの数は 10 億に達せず、多言語機能を備えています。

つまり、従来の大規模言語モデルと比較して、サイズが小さく、消費電力が少なく、Raspberry Pi などのさまざまな小型デバイス上で簡単に実行でき、高速性を実現します。 . と正確な関数呼び出し。

これは、将来的に AI エージェントが

スマートフォン、AR/VR、ロボット、スマート カー およびその他のエンドサイド デバイスで広く使用され、さまざまな機能を提供できることを意味します。よりスムーズでスマートなエクスペリエンスをユーザーに提供します。 一方、V3 はマルチモーダル処理機能を備えているため、テキストと画像の入力を同時に処理でき、多言語機能と組み合わせることで、ユーザー エクスペリエンスもより豊かになります。

たとえば、Instacart ショッピング アプリケーションでは、ユーザーはパイナップルの写真と簡単な会話指示を通じて AI エージェントに自動的に商品を検索させることができ、効率とユーザー エクスペリエンスを向上させることができます。

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用別の例として、電子メールの送信などのシナリオでは、Octopus V3 は自動的に情報を抽出し、テキスト付きの画像に基づいて電子メールのコンテンツを埋め込むことができ、よりインテリジェントな情報をユーザーに提供します。 , 便利なサービス。

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用ソフトウェア インタラクションからスマート カーまで、デバイス側 AI には大きな可能性があります

これらの特性に基づいて、Octopus V2 および V3 には豊富で多様なアプリケーション シナリオがあります。幅広いアプリケーションの可能性。

上記の携帯電話のシナリオに加えて、Octopus V2 をスマート カーに適用すると、新しいインタラクティブ エクスペリエンスももたらす可能性があります。現在の音声アシスタントでは、運転中に目的地を一時的に変更したり、停車地を追加したりするなど、車の所有者がより複雑なタスクを完了するのを支援するのは困難であることがよくあります。 Octopus V3を適用すると、AIアシスタントは比較的曖昧で単純な指示に基づいて、対応するタスクを迅速かつ正確に完了できるようになります。

V2 および V3 の機能と組み合わせることで、情報の検索から指示に基づいた設計の完了まで、ユーザーは仮想シーンでスムーズな AI 体験を得ることができます。コミュニティ ユーザーの VR シーン デモでは、簡単な音声コマンドを入力します。 , AI エージェントを使用すると、ユーザーは数回クリックするだけで、リビング ルームのデザインを迅速に完成させたり、ソファを交換したり、照明の色を変更したりすることができます。ユーザーが旅行指示を入力すると、ユーザーはすぐに日本に到着し、AI エージェントはユーザーが対応する観光スポットを検索したり、簡単な会話コミュニケーションで豊富な情報を提供したりすることもできます。

データは、世界の大規模言語モデル市場が急速に成長していることを示しています。 Granview Research の報告によると、世界の大規模言語モデル市場規模は 43 億 5,000 万米ドルと推定され、2024 年から 2030 年にかけて年間平均成長率 35.9% で成長すると予想されています。同様に、エッジ人工知能市場も活況を呈しており、世界のエッジ人工知能市場は2023年から2030年にかけて年平均成長率21.0%で成長し、2030年までに664億7,800万米ドルに達すると予想されています。

NEXA AI チームは、スタンフォード大学の優れた研究者によって設立されました。

創設者兼主任研究員の Alex Chen (Chen Wei) はスタンフォード大学で博士号取得を目指して勉強中です。彼は人工知能研究において豊富な経験を持ち、博士号を取得しています。スタンフォード大学の中国人研究者、スタンフォード中国起業家組織会長。

共同創設者兼最高技術責任者である Zack Li (Li Zhiyuan) もスタンフォード大学を卒業しており、Google および Google で 4 年間のエンドサイドの経験を持っています。 Amazon Lab126 研究所 AI の最前線での研究開発経験を持ち、スタンフォード中国起業家協会の会長も務めました。

スタンフォード大学の准教授であり、スタンフォード テクノロジー アントレプレナーシップ プログラムの副ディレクターであるチャールズ (チャック) エスリーはアドバイザーとして機能しており、チームに指導とサポートを提供しています。

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用左: Li Zhiyuan、右: Chen Wei現在、NEXA AI の独自技術は特許保護を申請しています。

NEXA AI の創設チームは、エンドサイド AI テクノロジーの開発を促進し、オープンソース モデルを通じてその革新的なテクノロジーの影響力を高め、よりスマートで効率的なシステムを構築することに引き続き尽力すると述べました。ユーザーのこれからの生活。

論文アドレス: https://arxiv.org/abs/2404.11459

以上がスタンフォード大学の 20 億パラメータの最終テスト マルチモーダル AI エージェント モデルが大幅にアップグレードされ、携帯電話、自動車、ロボットで使用できるようになりましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート