在 2024 年世界人工智慧大會的現場,許多人在一個攤位前排隊,只為讓 AI 大模型給自己在天庭「安排」一個差事。
流程:現場排隊
Step-1X 圖像生成大模型
《AI + 大鬧天宮》中的圖像生成由Step-1X 模型完成,該模型針對中國元素進行了深度優化,並擁有出色的語義對齊和指令遵循能力。
階躍星辰已建立起涵蓋萬億參數 MoE 大模型和多模態大模型的完整大模型矩陣,成為大模型創業公司第一梯隊。這得益於他們對 Scaling Law 的堅持以及匹配的技術和資源實力。
從頭訓練的Step-2 兆參數大模型
萬億參數量將顯著提升模型在數學、程式設計等領域的推理能力。 Step-2 相較於千億級模型,可解決更為複雜的數理邏輯和程式設計問題,也得到了基準評測的量化證實。
此外,它的中英文能力和指令跟隨能力也實現了明顯提升。前面提到,在 Step-1.5V 的誕生過程中,Step-2 功不可沒。這指的是,在Step-1.5V 進行RLHF(基於人類回饋的強化學習)訓練過程中,Step-2 是作為監督模型來用的,這相當於Step-1.5V 有了一個萬億參數的模型當老師。在這位老師的指導下,Step-1.5V 的推理能力大大提升,能夠根據圖像內容進行各類高階推理任務,如解答數學題、編寫程式碼、創作詩歌等。這也是 OpenAI GPT-4o 最近所展現的能力之一,這項能力讓外界對於它的應用前景充滿了期待。
多模態的生成能力主要體現在 Step-1X 這個新模型上。與一些同類模型相比,它有更好的語義對齊和指令跟隨能力,同時針對中國元素做了深度優化,更適合國人的美學風格。
基於此模型打造的《大鬧天宮》AI 互動體驗的背後融合了影像理解、風格遷移、影像生成、劇情創作等多種能力,豐富立體地展現了階躍星辰業界領先的多模態水平。 例如,在初始角色生成時,系統首先會判斷使用者上傳的照片是否符合「捏臉」要求,然後用非常《大鬧天宮》的語言風格靈活給予回饋。這裡就體現了模型的圖片理解能力和大語言模型的能力。在大模型技術加持下,這款遊戲就讓玩家獲得了和傳統線上 H5 遊戲完全不同的互動體驗。因為所有的互動問題、使用者形象、分析結果都是模型即時學習特徵後產生的,真正做到了千人千面和無限劇情的可能。
這些優異的表現離不開階躍星辰全鏈路自研的 DiT 模型架構(OpenAI 的 Sora 也是 DiT 架構)。為了讓更多人用上模型,階躍星辰為 Step-1X 設計了 600M、2B、8B 三種不同的參數量,以滿足不同算力場景的需求。在 3 月的亮相活動中,階躍星辰創始人姜大昕曾明確指出,他認為大模型的演進會經歷三個階段:
這也是姜大昕等人從創業之初就在堅持的路線。在這條路上,「兆參數」和「多模融合」缺一不可,Step-2 和 Step-1.5V、Step-1X 都是他們在這條路上達成的節點。
而且,這些節點是一環套一環的。以 OpenAI 為例,他們在年初發布的視訊生成模型 Sora 使用了 OpenAI 的內部工具(很可能是 GPT-4V)進行標註;而 GPT-4V 又是以 GPT-4 相關技術為基礎訓練出來的。就目前來看,單模態模型的強大能力會為多模態打下基礎;多模態的理解又會為生成打下基礎。 靠著這樣的模型矩陣,OpenAI 實現了左腳踩右腳。而階躍星辰正在國內印證這條路線。
我們期待這家公司為國內大模型領域帶來更多驚喜。
以上是揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相的詳細內容。更多資訊請關注PHP中文網其他相關文章!