螞蟻百靈大模式最新進展：已具備原生多模態能力-人工智慧-PHP中文網

螞蟻百靈大模式最新進展：已具備原生多模態能力

王林

發布： 2024-07-10 15:06:57

原創

561 人瀏覽過

7月5日，在2024世界人工智慧大會「可信賴大模型輔助產業創新發展」論壇上，螞蟻集團公佈了其自研的百靈大模型最新研發進展：百靈大模型已具備能「看」會「聽」、能「說」會「畫」的原生多模態能力，可以直接理解並訓練音訊、視訊、圖、文等多模態資料。原生多模態被認為是通往AGI的必經之路，在國內，目前只有少數的大型模型廠商實現了這項能力。記者從大會現場的展示看到，多模態技術可以讓大模型更像人一樣感知和互動，支撐智能體體驗升級，百靈的多模態能力已應用於“支付寶智能助理”上，未來還將支援支付寶上更多智能體升級。

螞蟻百靈大模式最新進展：已具備原生多模態能力

1. （螞蟻集團副總裁徐鵬介紹百靈大模型原生多模態能力）

百靈大模型的多模態能力，在中文圖文理解MMBench-CN評集上達到GPT-4o水平，在信通院多模態安全能力評測達到優秀級（最高），具備支援規模化應用的能力，能支援AIGC、圖文對話、視訊理解、數位人等一系列下游任務。
多模態大模型技術能夠使AI更好地理解人類世界的複雜信息，也讓AI落地應用時更符合人類的交互習慣，在智能客服、自動駕駛、醫療診斷等多個領域展現出巨大的應用潛力。
螞蟻集團有著豐富的應用場景，百靈大模型的多模態能力，也已被應用在生活服務、搜尋推薦、互動娛樂等場景。
在生活服務上，螞蟻集團使用多模態模型實現了ACT技術，讓智能體具備一定規劃執行能力，例如根據用戶語音指定直接在星巴克小程序下單一杯咖啡，目前這一功能已在支付寶智慧助理上線。
在醫療領域，多模態能力為使用者實現複雜任務的操作，可以對超過100多種複雜的醫學檢驗檢測報告進行識別和解讀，還可以檢測毛髮健康和脫髮情況，對治療提供輔助。
（觀眾在螞蟻展廳現場體驗使用支付寶智能助理點咖啡）

發佈現場，螞蟻集團副總裁徐鵬展示了新升級的多模態技術可實現的更多應用場景：

通過視訊對話的自然形式，AI助理能為用戶識別穿著打扮，給出約會的搭配建議；
根據用戶不同的意圖，從一堆食材中搭配出不同的菜譜組合；
根據用戶描述的身體症狀，從一批藥物中，挑選出可能合適的藥，並讀出服用指導，供用戶參考等。

基於百大模型多模態能力，螞蟻集團已在探索規模應用落地產業的實踐。

論壇上同時發布的“支付寶多模態醫療大模型”，便是這項探索的實踐。據了解，支付寶多模態醫療大模型增加了包含報告、影像、藥品等多模態資訊在內的百億級中英文圖文、千億級醫療文本語料、以及千萬級高品質醫療知識圖譜，具備專業醫學知識，在中文醫療LLM評測榜單promptCBLUE上，取得A榜第一，B榜第二的成績。

基於百靈大模型多模態能力，由螞蟻集團與武漢大學聯合研發的遙感模型SkySense，也在論壇上公佈了開源計畫。 SkySense是目前參數規模最大、涵蓋任務最全、辨識精度最高的多模態遙感基礎模型。

「從單一的文本語義理解，到多模態能力，是人工智慧技術的關鍵迭代，而多模態技術催生的'看聽說寫畫'的應用場景，將讓AI的表現更真實，更接近人類，從而也能更好地服務人類。

以上是螞蟻百靈大模式最新進展：已具備原生多模態能力的詳細內容。更多資訊請關注PHP中文網其他相關文章！