第一個提出自動駕駛並進行研發的公司是 Google,巧的是,它發布的 Transformer 模型也為今天的大模型發展奠定了基礎。
自動駕駛已經完成從概念到現實的華麗轉變,徹底重塑了傳統駕車方式,而大模型行業正在經歷的,恰如自動駕駛技術發展的傳奇征程——
最頂尖的研發團隊競相投身其中、不斷加速搶跑的科技產品創新,以及持續被推向極致的使用者體驗。
在大模型賽道中,有一家企業始終以領先的身位,推動著行業邊界向前拓展。
為什麼是聯匯科技?
當產業剛開始關注大模型,他們已經錨定多模態大模型,並高分取得了工信部大模型檢測的001 號證書;
去年,當人們關注「百模大戰」,他們不僅發表了自研OmModel 多模態大模型的V3 版本,更發表了國內首批大模型驅動的自主智能體應用。
今年,世界人工智慧大會期間,他們再次發布一系列技術成果,將大模型技術產品推向更深、更廣的應用層面。
聯匯科技技術團隊有著極強的前瞻性思維,這與他們的首席科學家趙天成博士緊密相關,這位師從國際AI 領域頂尖學者的Maxine Eskenazi,在CMU LTI (卡內基美隆大學語言技術研究所)完成碩博連讀的天才少年,不僅稱得上「AI 名門正派」,更難得的是,趙天成在技術發展和策略規劃方面有著獨到見解。
趙天成博士指出,在 AI 主導的第四次工業革命浪潮中,自主智能將成為變革的核心變數。隨著人類第一次接觸並掌握創造智慧的奧秘,我們將目睹一個新時代的到來 —— 在這個時代中,機器、軟體甚至系統,將被賦予前所未有的自主決策能力,只能化將廣泛應用於各個工作領域,開啟前所未有的效率與創新。
2024 年是智能體元年。
我們正處於 L2 級別,並逐步向 L3、L4 邁進的過程中。
OmAgent 來了!
WAIC 期間,聯匯科技正式發表第二代多模態智能體 OmAgent。
去年同期,聯匯科技搶跑產業,率先發布了國內第一批由多模態大模型驅動的自主智能體,那麼,今年聯匯的第二代多模態智能體 OmAgent 有哪些驚喜?
首先是感知模組全新升級。
隨著 AI 應用落地,聯匯科技發現儘管萬物感知模型在智慧識別和處理方面具有巨大潛力,但受限於推理速度的瓶頸。相較於小型模型在推理速度上的優勢,Idealab 的 G-DINO 和聯匯科技的 OmDet 在速度上的表現都不盡如人意,這極大地限制了它們在邊緣計算設備上的應用。
聯匯科技最新發布的OmDet V2,實現萬物感知的全面加速,從底層重新構建了萬物感知的模組,推出了EFH 高性能融合頭,包含了一系列模型加速的優化技術、語言向量快取、輕量化特徵編碼與解碼等技術,得益於EFH 對每一個環節的機制優化,相較於G-DINO 和聯匯的第一代感知模型,OmDet V2 在每一個環節上都實現了 20 倍以上的速度提高。
這樣的提升意味著 OmDet V2 正在打開未來邊緣 AI 與具身智能全新可能。
憑藉 OmDet V2 的推理速度和精確分析能力,單一 GPU 就可以承載對 500 路視訊串流的即時萬物感知分析,這是對技術性能的新刷新。同時,這也意味著打開邊緣 AI 的可能,OmDet V2 讓萬物感知模型擺脫雲端束縛,走向邊緣設備,為人形機器人、家庭智算中心等前沿應用提供了強大的智慧支援。
這種創新不僅重新定義了大模型產品的開發思維,更為建構一個更即時、更安全、更注重隱私的大模型應用環境奠定了基礎。
第二是思考決策能力的提升。
思考是多模態智能體的核心,只有具備了思考能力,智能體才能夠依據感知和記憶結果做決策判斷和自主行為,成為真正的助手。但現有多模態思考模型存在明顯限制,例如只能基於單張圖片進行思考與決策、無法對多個關聯圖片之間進行理解處理等。
為了解決這個問題,聯匯科技全新發布了第二代思考大模型OmChat V2,一個基於多模態模型原生預訓練的生成大模型,不僅提供8B、40B、60B 多個版本,適配不同需求。更能非常好地支援影片、圖文混合、文字等多種複雜輸入,完美適配智能體決策過程中所需的複雜場景。
OmChat V2 支援高達 5,12K、50 萬的上下文長度,折合影片長度 30 分鐘,僅次於 Google Gemin-1.5,遠超過 GPT-4o 及微軟 LLaVa-1.5。
OmChat V2 在 Mantis-Eval、Q-Bench、MileBench Real、MVBench 等測試中平均表現均在行業前列。
更簡單、直接的說法是,OmChat V2 不僅能夠看準時序關係,更能看懂多圖關係。
判斷時 多圖關係中瞭解
為了大設計模型與智能體對聯結技術能夠真正完成的惠與多款國產GPU 的適配與效能驗證,透過高效稀疏活化、動態專家方法,提升推理效率20 倍,Om OS 大模型運行平台也是首個支援多地域大模型分散式推理平台,異構九頭蛇推理能夠提升算力利用率3 倍。
就此,聯匯科技正式解鎖海量產業應用場景。
自動化體育解說
影視劇內容解構
工業智能助手
OmAgent 框架全面開源! 聯匯科技在多模態智能體技術上已經取得了多項突破性成果,對於是否開源的問題,趙天成博士始終從更宏觀、更長遠的角度看待。他表示:我們選擇將OmAgent 框架全面開源,是因為想要鼓勵更多企業、開發者參與,透過知識共享和技術創新建構一個更加開放、更加豐富的智能體生態,進而能夠帶動整個產業更好的發展。 OmAgent 框架不僅包含了感知、記憶、決策等綜合模組,並整合融入OmDet、OmChat 等多個不同類型的大模型能力,極大方便企業與開發者的應用開發,推動智能體技術向更深層次、更廣領域
的賦能。
透過 OmAgent,能夠快速、精確解決各類場景下的複雜問題。例如,從影視劇中總找出某個問題的答案,儘管影片沒有直接呈現答案,但是 OmAgent 依然可以透過對全片的整體理解,掌握劇情並根據原片內容進行思考、作答。
Step 01
Step 02 Step 03 框架已全面開源。 在 WAIC,聯匯科技對 OmAgent 做了完整的現場互動示範。 Om 多模態智能體全新產品系列—— 空間運營智能體、知識服務智能體,為行業用戶打造「超級助手」。 應用範圍涵蓋線下零售、營業廳、機房、產業園區、文旅景區、城市街區等各類單體空間、連鎖環境,實現對空間的精細化營運與管理。 相較於太空營運智能體對現實物理世界的營運管理,知識服務智能體更強調對數位世界的管理和對數位資產的價值挖掘。 它可以作為專為行業定制的人工智能助手,廣泛應用於辦公室、生產、運維、營銷、培訓、客服等場景,將企業、組織和個人在特定領域內積累的經驗、技術、業務流程等轉化為結構化的產業專用知識,透過知識管理、知識檢索、知識問答與知識生成等核心能力,提升使用者決策品質、優化作業流程,最終將無形的知識資產轉化為有形的生產力。 2024 無疑將是智能體元年,智能體也正成為大模型落地的最佳途徑。 關於未來,趙天成博士透露 智能體的未來不是單打獨鬥,而是大模型的組合拳,尤其是當多種類大模型協同作戰時,它們能釋放出遠超單一大語言模式的潛力。 智能體將打破傳統聊天機器人的界限,它們的應用形態將經歷一場革新,變得更加多樣化和深入人類活動的各個方面。 隨著邊緣 AI 的興起,大模型將不再局限於大型伺服器,它們將走向邊緣,被嵌入到眾多小型設備中,實現真正的無處不在。
以上是現場Live震撼! OmAgent框架強勢開源!業界應用已全面開花的詳細內容。更多資訊請關注PHP中文網其他相關文章!