首頁 > 科技週邊 > 人工智慧 > 無條件免費商用的全球最長開源模型XVERSE-Long-256K

無條件免費商用的全球最長開源模型XVERSE-Long-256K

WBOY
發布: 2024-01-16 21:54:15
轉載
698 人瀏覽過

元象發布了全球首個上下文視窗長度256K的開源大模型XVERSE-Long-256K。這個模型支援輸入25萬漢字,使得大模型應用能夠進入「長文本時代」。該模型完全開源,可以無條件免費商用,並且還附帶詳細的手把手訓練教程,這讓海量的中小企業、研究者和開發者能夠更早地實現「大模型自由」。

無條件免費商用的全球最長開源模型XVERSE-Long-256K全球主流長文本大模型圖譜

參數量和高品質資料量決定了大模型的計算複雜度,而長文本技術(Long Context)是大模型應用發展“殺手鐧”,因技術新、研發難度高,目前多為閉源付費提供。

 XVERSE-Long-256K支援超長文字輸入,可用於大規模資料分析、多重文件閱讀理解、跨領域知識融合,有效提升大模型應用的深度與廣度:一、為律師、金融分析師或顧問、prompt 工程師、科研人員等解決分析處理較長文本的工作;二、在角色扮演或聊天應用中,緩解模型「忘記」之前對話的記憶力問題,或胡說八道的「幻覺」問題等等;三、更好支援智能體(AI Agent)基於歷史資訊進行規劃與決策;四、幫助AI原生應用保持連貫、個人化的使用者體驗。


至此,XVERSE-Long-256K填補了開源生態空白,還與元象此前70億、130億、650億參數大模型組成“高性能全家桶”,將國產開源提升至國際一流水平。
無條件免費商用的全球最長開源模型XVERSE-Long-256K元像大模型系列

免費下載元像大模型

  • GitHub:https://github.com/xverse- ai/XVERSE-13B
  • hugging face:https://huggingface.co/xverse/XVERSE-13B-256K
  • 魔搭:https://modelscope.cn/models/xverse/ XVERSE-13B-256K
  • 詢問傳送:opensource@xverse.cn

使用者可登入大模型官網(chat.xverse.cn)或小程式立即體驗 XVERSE-Long -256K。

 高效能定位評測表現優異
為確保業界對元像大模式有全面、客觀和長期的認知,研究者參考權威產業測評,制定了六個維度的9項綜合測評體系。 XVERSE-Long-256K 均表現出色,超越其他長文模型。
 無條件免費商用的全球最長開源模型XVERSE-Long-256K全球主流長文本開源大模型評測結果 

XVERSE-Long-256K 通過了常見的長文本大模型效能壓力測試「海撈針」。該測驗在長文本語料中隱藏一個與其內容無關的句子,並透過自然語言提問讓大模型準確地提取該句子。

長篇小說 閱讀理解

#目前國內大多數大型模式只支援中英雙語,但元象支持40多種語言。我們對16萬字符的俄語經典小說《鋼鐵是如何煉成的》和41萬字符的德語歷史傳記《人類群星閃耀時》進行了測試。

無條件免費商用的全球最長開源模型XVERSE-Long-256K《鋼鐵是如何煉成的(俄文版)》測試 無條件免費商用的全球最長開源模型XVERSE-Long-256K

《人類群星閃耀時(德文版)》測試

法律法條 精準應用

#以《中華人民共和國民法典》為例,展示對法律術語的解釋,以及對案例進行邏輯分析、結合實際的彈性應用:

無條件免費商用的全球最長開源模型XVERSE-Long-256K無條件免費商用的全球最長開源模型XVERSE-Long-256K無條件免費商用的全球最長開源模型XVERSE-Long-256K《民法》測試 

手把手教你訓練長文本大模型
 

 1.  技術挑戰

  1. 模型訓練:GPU顯存的佔用與序列長度的平方成正比,使訓練量急遽上升。
  2. 模型結構:序列越長,模型的attention越分散,模型越容易忘記前序內容。
  3. 推理速度:模型序列越長,將大幅度降低模型推理速度。

 2. 元象技術路線
# 長文本大模型技術是在近一年內發展出來的新技術,其主要技術方案為:

  1. 直接進行長序列的預訓練,但會導致訓練量成平方倍的提升。
  2. 透過位置編碼的插值或外推拓展序列長度,這種方法會降低位置編碼的分辨率,從而降低大模型輸出效果。

無條件免費商用的全球最長開源模型XVERSE-Long-256K

元象長文字大模型訓練流程

#第一階段:##ABF 繼續預訓練

    GitHub:https://github.com/xverse-ai/XVERSE-13B
  • hugging face:https://huggingface.co /xverse/XVERSE-13B-256K
  • 魔搭:https://modelscope.cn/models/xverse/XVERSE-13B-256K
  • #詢問傳送:opensource@xverse.cn

以上是無條件免費商用的全球最長開源模型XVERSE-Long-256K的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板