自動運転を最初に提案、開発した企業は偶然にも Google であり、同社がリリースした Transformer モデルは今日の大型モデルの開発の基礎を築きました。
自動運転は概念から現実への華麗な変革を完了し、従来の運転方法を完全に再構築しており、大型模型業界が経験していることはまさに自動運転技術開発の伝説的な旅のようです -
トップの研究開発チームはそれに参加しようと競い合い、製品の技術革新は加速し続け、時代を先取りし、ユーザー エクスペリエンスは極限まで追い込まれ続けています。
大規模なモデル回路において、常に最前線に立ち、業界の限界を押し広げてきた企業があります。
なぜLianhui Technologyなのか?
業界が最初に大型モデルに注目し始めたとき、すでにマルチモーダル大型モデルを固定しており、工業情報化省から大型モデル試験のNo.001証明書を高いスコアで取得していました。 「100モデルの戦い」が注目された年、自社開発したOmModelマルチモーダル大型モデルのV3バージョンをリリースしただけでなく、国内初の大型モデル駆動型自律エージェントアプリケーションもリリースした。
今年、世界人工知能会議中に、
彼らは再び一連の技術成果を発表し、大型モデル技術製品をより深く幅広い応用レベルに押し上げました。 Lianhui Technology の技術チームは強力な先進的思考を持っており、主任科学者の Zhao Tiancheng 博士と密接に関係しています。この学生は、国際的な AI 分野のトップ学者である Maxine Eskenazi の下で学び、CMU LTI (カーネギー) で学びました。メロン大学言語学院)を卒業し、修士号と博士号を取得した才能ある青年であるが、趙天成氏は「AI 分野で誠実な人物」と言えるだけでなく、さらに珍しいのはそのユニークな点である。技術開発と戦略計画における洞察。
Zhao Tiancheng 博士は、AI が主導する産業革命の第 4 波では、自律知能が変化の中心変数になると指摘しました。人間が初めて創造的知性の秘密に触れ、その秘密を習得するとき、
私たちは新しい時代の到来を目の当たりにするでしょう- この時代では、機械、ソフトウェア、さらにはシステムに前例のない自律的な意思決定能力が与えられ、さまざまな作業分野で広く使用され、これまでにない効率と革新を実現します。 2024 年はインテリジェント エージェント元年です。
現在は L2 レベルにあり、徐々に L3、L4 に向かって進んでいます。
OmAgent はここにあります!
WAIC期間中、
Lianhui Technologyは第2世代マルチモーダルエージェントOmAgentを正式にリリースしました。 昨年の同時期、Lianhui Technology は業界をリードし、マルチモーダル大型モデルによって駆動される自律エージェントの最初のバッチを中国でリリースしました。それでは、Lianhui の第 2 世代マルチモデルは何を驚かせますか。今年はモーダル エージェント OmAgent が登場しますか?
1 つ目は、知覚モジュールの新しいアップグレードです。AI アプリケーションの実装により、Lianhui Technology は、万物知覚モデルにはインテリジェントな認識と処理において大きな可能性があるものの、推論速度のボトルネックによって制限されることを発見しました。推論速度における小型モデルの利点と比較すると、Idealab の G-DINO と Lianhui Technology の OmDet は速度のパフォーマンスが不十分であり、エッジ コンピューティング デバイスでのアプリケーションが大幅に制限されます。
Lianhui Technology がリリースした最新の
OmDet V2 は、あらゆるものの知覚の包括的な加速を実現します。これは、あらゆるものの知覚のモジュールを根本から再構築し、一連のモデル加速最適化テクノロジーとキャッシュ、軽量機能のエンコードとデコードなどのテクノロジーは、G-DINO や Lianhui の第 1 世代の認識モデルと比較して、すべてのリンクで 20 倍以上高速な EFH メカニズムの最適化の恩恵を受けています。 。
このような改善は、OmDet V2 が将来のエッジ AI と身体化インテリジェンスの新たな可能性を開くことを意味します。
OmDet V2 の推論速度と正確な分析機能により、単一の GPU で 500 ビデオ ストリームのリアルタイムのすべてを認識した分析を実行できます。これは、技術的なパフォーマンスが新しくなりました。同時に、これはエッジ AI の可能性を開くことも意味します。OmDet V2 により、あらゆるものの認識モデルがクラウドの制約を取り除き、エッジ デバイスにアクセスできるようになり、次のような最先端のアプリケーションに強力なインテリジェント サポートが提供されます。人型ロボットと家庭用インテリジェント コンピューティング センター。 このイノベーションは、大規模モデル製品の開発の考え方を再定義するだけでなく、よりリアルタイムで安全でプライバシーを重視した大規模モデル アプリケーション環境を構築するための基盤も築きます。 2つ目は、思考力と意思決定能力
の向上です。思考はマルチモーダル エージェントの中核です。思考能力があって初めて、エージェントは知覚と記憶の結果に基づいて意思決定を行い、自律的に行動し、真のアシスタントになることができます。ただし、既存のマルチモーダル思考モデルには明らかな限界があります。たとえば、単一の図に基づいてしか考えて意思決定を行うことができず、関連する複数の図を理解して処理することはできません。 この問題を解決するために、
Lianhui Technology は、マルチモーダル モデルのネイティブ事前トレーニングに基づく大規模な生成モデルである第 2 世代の大規模思考モデル OmChat V2 を新たにリリースしました。これは、8B の複数のバージョンを提供するだけでなく、 40Bと60Bですが、さまざまなニーズに合わせて適しています。また、ビデオ、画像とテキストの混合、テキストなどのさまざまな複雑な入力を非常に適切にサポートし、エージェントの意思決定プロセスに必要な複雑なシナリオに完全に適応します。
OmChat V2 は、最大 512K および 500,000 のコンテキスト長をサポートします。これは、30 分のビデオの長さに相当し、Google Gemin-1.5 に次いで 2 番目であり、GPT-4o および Microsoft LLaVa-1.5 をはるかに上回ります。
OmChat V2 の平均パフォーマンスは、Mantis-Eval、Q-Bench、MileBench Real、MVBench およびその他のテストにおいて業界の最前線にあります。
よりシンプルで直接的な言い方は、OmChat V2 はタイミングの関係を正確に確認できるだけでなく、複数のグラフの関係も理解できるということです。
時系列関係判断 图 マルチマップ関係理解
ビッグモデルとスマートテクノロジーを真に地に足を踏み入れることができるようにするために、Lianhui Technology は完成をリードしました。効率的なスパース アクティベーションと動的エキスパート手法により、さまざまな国内 GPU を使用した適応とパフォーマンスの検証により、推論効率が 20 倍向上します。また、Om OS 大規模モデル実行プラットフォームは、マルチリージョンの大規模モデル分散推論プラットフォーム、ヘテロジニアスを初めてサポートします。 Jiutou Snake 推論により、コンピューティング能力の使用率が 3 倍増加します。
これに関して、Lianhui Technology は多数の業界アプリケーション シナリオを正式に公開しました。
映画やテレビドラマの内容の解体
mAgent フレームワークは完全にオープンソースです。 Lianhui Technology は、マルチモーダル エージェント テクノロジーで数々の画期的な成果を上げています。オープンソースにするかどうかの問題に関して、Zhao Tiancheng 博士は常に、よりマクロで長期的な視点からそれを検討しています。
彼は次のように述べています: 私たちが OmAgent フレームワークを完全にオープンソースにすることにしたのは、より多くの企業や開発者が参加することを奨励し、知識の共有と技術革新を通じてよりオープンで豊かなインテリジェント エージェント エコシステムを構築し、業界全体を推進できるようにしたいからですよりインテリジェントな発展を目指します。OmAgent フレームワークには、知覚、記憶、意思決定などの包括的なモジュールが含まれているだけでなく、OmDet や OmChat などのさまざまな種類の大規模モデル機能も統合されており、企業や開発者のアプリケーション開発が大幅に促進され、インテリジェントなアプリケーション開発が促進されます。さまざまなレベルおよびより広い領域でのエンパワーメントをさらに強化するエージェント テクノロジー
。OmAgent を通じて、さまざまなシナリオの複雑な問題を迅速かつ正確に解決できます。たとえば、映画やドラマでは、ある質問に対する答えが必ず見つかります。映画の中で直接答えが提示されるわけではありませんが、OmAgent は映画全体の全体像を理解することでストーリーを把握し、それに基づいて考えて答えることができます。オリジナルの映画コンテンツ。
ステップ01
ステップ02
ステップ03
ステップ04
現在、OmAgentフレームワークは完全にオープンソース。
WAIC では、Lianhui Technology が OmAgent の完全なライブ インタラクティブ デモンストレーションを行いました。
インテリジェントエージェントをより迅速に日常の仕事や生活に統合するために、Lianhui は業界ユーザー向けに、マルチモーダルエージェント (宇宙運用エージェントとナレッジサービスエージェント) の新製品シリーズである Om を正式にリリースしました。 「スーパーアシスタント」。
宇宙運用インテリジェンスは、カメラやピックアップなどのIoTデバイスやアクセスされるさまざまなデータソースを通じて宇宙の物理環境を包括的に認識し、大規模モデルの思考能力に深く統合され、複数のデータを正確に処理および分析します。 - モーダルデータ情報。エージェントの役割によって設定された目標タスクに基づいて、運用における主要な問題と潜在的な機会を洞察し、記憶と学習を組み合わせることで、物理空間に関する思考、計画、意思決定を可能にし、ユーザーの強力なアシスタントになります。スペースマネジメントにおいて。
適用範囲は、オフライン小売店、ビジネスホール、コンピュータルーム、工業団地、文化観光景勝地、都市街区などのさまざまな単一スペースとチェーン環境をカバーし、洗練されたスペースの運営と管理を実現します。 宇宙運用エージェントによる現実の物理世界の運用と管理と比較して、ナレッジサービスエージェントはデジタル世界の管理とデジタル資産の価値マイニングに重点を置きます。 業界向けにカスタマイズされた人工知能アシスタントとして使用でき、企業が蓄積した経験と技術を統合し、オフィス、生産、運用保守、マーケティング、トレーニング、顧客サービスなどのシナリオで広く使用されています。 、特定分野の組織や個人、ビジネス プロセスなどを構造化された業界特有のナレッジに統合し、ナレッジ管理、ナレッジ検索、ナレッジ Q&A、ナレッジ生成などのコア機能を通じて、ユーザーの意思決定の質を向上させ、最適化します。運用プロセスを改善し、最終的には無形の知識資産を有形の生産性に変換します。 2024 年は間違いなくインテリジェント エージェント元年となり、インテリジェント エージェントは大規模モデルを実装する最良の方法になりつつあります。 将来に関して、Zhao Tiancheng博士は、
以上がライブシーンは衝撃的! OmAgent フレームワークがオープンソースになりました。産業用アプリケーションが完全に開花の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。