「科大訊飛套殼ChatGPT!」「百度文心一言套皮Stable Diffusion!」「商湯大模型實則抄襲!」…
#外界對國產大模型產生質疑已經不是一次兩次了。
業內人士對這個現象的解釋是,高品質的中文資料集實在緊缺,訓模型時只能讓採買的外文標註資料集「當外援」。訓練所用的資料集撞車,就會產生相似結果,進而引發烏龍事件。
其餘辦法中,用現有大模型輔助生成訓練資料容易資料清洗不到位,重複利用token會導致過擬合,僅訓練稀疏大模型也不是長久之計。
業界漸漸形成共識:
通往AGI的道路,對資料數量和資料品質都將持續提出極高的要求。
時勢所需,近2個月來,國內不少團隊先後開源了中文資料集,除通用資料集外,針對程式設計、醫療等垂域也有專門的開源中文資料集發布。
大模型的新突破十分依賴高品質、豐富的資料集。
根據OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則(scaling law)可以看到,獨立增加訓練資料量,是可以讓預訓練模型效果變更好的。
這不是OpenAI的一家之言。
DeepMind也在Chinchilla模型論文中指出,先前的大模型多是訓練不足的,還提出最優訓練公式,已成為業界公認的標準。
#△主流大模型,Chinchilla參數最少,但訓練最充分
不過,用來訓練的主流資料集以英文為主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最受歡迎的Common Crawl中文資料只佔4.8%。
中文資料集是什麼情況?
公開資料集不是沒有-這一點量子位元從瀾舟科技創辦人兼CEO、當今NLP領域成就最高華人之一周明口中得到證實-如命名實體資料集MSRA-NER、Weibo -NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數量和英文資料集相比可謂九牛一毛。
並且,其中部分已經老舊,可能都不知道最新的NLP研究概念(新概念相關研究只以英文形式出現在arXiv上)。
雖然中文高品質資料集存在,但數量較少且使用起來較為繁瑣,這是所有開展大型模型研究的團隊不得不面對的嚴峻形勢。先前的清華大學電子系系友論壇上,清華計算機系教授唐傑分享過,千億模型ChatGLM-130B訓練前資料準備時,就曾面臨過清洗中文資料後,可用量不到2TB的情況。
解決中文世界缺乏高品質資料集迫在眉睫。
行之有效的解決方法之一,是直接用英文資料集訓大模型。
在人類玩家評分的大模型匿名競技場Chatbot Arena榜單中,GPT-3.5在非英文排行榜位居第二(第一名是GPT-4)。要知道,96%的GPT-3.5訓練資料都是英文,再刨去其他語種,用來訓練的中文資料量少到可以用「千分之n」來計算。
國內top3高校某大模型相關團隊在讀博士透露,如果採用這種方法,不嫌麻煩的話,甚至可以給模型接一個翻譯軟體,把所有語言都轉換成英語,然後把模型的輸出轉換為中文,再回傳給使用者。
然而這樣餵養的大模型始終是英文思維,當遇到成語改寫、俗語理解、文章改寫這類含有中文語言特色的內容,往往處理不佳,出現翻譯錯誤或潛在文化的偏差。
還有個解決方法就是採集、清洗和標註中文語料,做新的中文高品質資料集,供給大模型們。
察覺現況後,國內不少大模型團隊決定走第二條路,著手利用私人資料庫做資料集。
百度有內容生態數據,騰訊有公眾號數據,知乎有問答數據,阿里有電商和物流數據。
累積的私有資料不一,就可能在特定場景和領域建立核心優勢壁壘,將這些資料嚴格蒐集、整理、篩選、清洗和標註,能確保訓出模型的有效性和準確性。
而那些私有資料優勢不那麼明顯大模型團隊,開始全網爬資料(可以預見,爬蟲資料量會非常大)。
華為為了打造盤古大模型,從互聯網爬取了80TB文本,最後清洗為1TB的中文數據集;浪潮源1.0訓練採用的中文數據集達5000GB(相比GPT3模型訓練數據集為570GB);最近發布的天河天元大模型,也是天津超算中心蒐集整理全局網頁數據,同時納入各種開源訓練數據和專業領域數據集等的成果。
同時,近2個月來,中文資料集出現眾人拾柴火焰高的現象-
許多團隊陸續發布開源中文資料集,彌補目前中文開源資料集的不足或失衡。
其中部分整理如下:
當更多的中文資料集被開源到聚光燈下,行業的態度是歡迎與欣喜。如智譜AI創始人兼CEO張鵬所表達的態度:
中文高品質數據只是藏在深閨而已,現在大家都意識到這個問題了,自然也會有相應的解決方案,例如資料開源。
總之是朝著好的方向發展,不是嗎?
值得注意的是,除了預訓練數據,目前階段人類回饋數據同樣不可或缺。
現成的例子擺在眼前:
與GPT-3相比,ChatGPT疊加的重要buff就是利用RLHF(人類回饋強化學習),生成用於fine-tuing的高品質標記數據,使得大模型朝向與人類意圖對齊的方向發展。
提供人類回饋最直接的辦法,就是告訴AI助理“你的回答不對”,或直接在AI助理產生的回覆旁邊點讚或踩一踩。
先用起來就能先收集一波用戶回饋,讓雪球滾起來,這就是為什麼大家都搶著發布大模型的原因之一。
現在,國內的類ChatGPT產品,從百度文心一言、復旦MOSS到智譜ChatGLM,都提供了回饋的選項。
但由於在大部分體驗使用者眼中,這些大模型產品最主要的還是「玩具」屬性。
當遇到錯誤或不滿意的回答,會選擇直接關掉對話介面,並不利於背後大模型對人類回饋的蒐集。
以上是國產ChatGPT「套殼」的秘密,現在被找到了的詳細內容。更多資訊請關注PHP中文網其他相關文章!