7月5日,在2024世界人工智慧大會「可信賴大模型輔助產業創新發展」論壇上,螞蟻集團公佈了其自研的百靈大模型最新研發進展:百靈大模型已具備能「看」會「聽」、能「說」會「畫」的原生多模態能力,可以直接理解並訓練音訊、視訊、圖、文等多模態資料。原生多模態被認為是通往AGI的必經之路,在國內,目前只有少數的大型模型廠商實現了這項能力。記者從大會現場的展示看到,多模態技術可以讓大模型更像人一樣感知和互動,支撐智能體體驗升級,百靈的多模態能力已應用於“支付寶智能助理”上,未來還將支援支付寶上更多智能體升級。
1. (螞蟻集團副總裁徐鵬介紹百靈大模型原生多模態能力)發佈現場,螞蟻集團副總裁徐鵬展示了新升級的多模態技術可實現的更多應用場景:
基於百大模型多模態能力,螞蟻集團已在探索規模應用落地產業的實踐。
論壇上同時發布的“支付寶多模態醫療大模型”,便是這項探索的實踐。據了解,支付寶多模態醫療大模型增加了包含報告、影像、藥品等多模態資訊在內的百億級中英文圖文、千億級醫療文本語料、以及千萬級高品質醫療知識圖譜,具備專業醫學知識,在中文醫療LLM評測榜單promptCBLUE上,取得A榜第一,B榜第二的成績。
基於百靈大模型多模態能力,由螞蟻集團與武漢大學聯合研發的遙感模型SkySense,也在論壇上公佈了開源計畫。 SkySense是目前參數規模最大、涵蓋任務最全、辨識精度最高的多模態遙感基礎模型。
「從單一的文本語義理解,到多模態能力,是人工智慧技術的關鍵迭代,而多模態技術催生的'看聽說寫畫'的應用場景,將讓AI的表現更真實,更接近人類,從而也能更好地服務人類。
以上是螞蟻百靈大模式最新進展:已具備原生多模態能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!