Arxiv上所有論文轉成Token,加起來不過14.1GB而已。
這是最新爆火開源計畫亞歷山大完成的壯舉。
事實上,這還只是第一步。
他們最終是想要將整個互聯網變成Tokens,換言之全都轉化成ChatGPT等大模型理解這個世界的方式。
一旦這樣的資料集誕生,那豈不是為開發出GPT-4這樣的大模型又新增一大利器,上知天文下知地理指日可待了? !
訊息一出,瞬間引發巨大關注。
網友們讚嘆,史詩般的。
#而這背後僅是四個平均年齡20歲的少年發起,目前Arxiv所有論文資料集已經發布,他們將於下週發布嵌入(Embedding)搜尋平台。
超過400萬個項目、6億個token,30.7億個向量維度。
這個名為亞歷山大的開源計劃,首先從Arxiv每篇論文開始。
選擇的方式是嵌入,簡單來說,就是將現實世界的各種物件具象成電腦所能理解的向量。
最經典的例子就是將原始影像表示為灰階像素。
這種技術最大的特徵就是能夠表示人類感知到的語意相似性。
例如,當有10個字表示同一件事時,很難透過關鍵字找到論文。但嵌入就可以完成,因此很適用於搜尋、聚類、推薦和分類。
基於實用性和效率的考慮,開發團隊只選擇嵌入了論文的標題和摘要。
在測試各種模型之後,最終選擇使用InstructorXL文字嵌入模型,透過簡單地提供任務指令,而無需任何微調,適合多種任務(例如分類、檢索、聚類、文本評估等)和領域(例如科學、金融、醫學等)》
#下週他們將發布Arxiv搜尋。目前為止的流程是,首先對100篇最接近的文章進行相似性搜索,然後即時計算這些內容的嵌入,並進行第二次更複雜的搜索。
最終目標是一整個網路嵌入計畫。
之所以要開展這樣一次瘋狂的開源計劃,主要有兩方面的原因。
一方面是嵌入巨大的價值。世界上很多問題只是搜尋、 聚類、推薦或分類,而這些事情嵌入都非常擅長。而且也如前所述,可以解決一些複雜的難題。
另一方面成本是一次性的且很便宜。大多數情況下無需對同一份文件進行二次計算。目前每1億個Token只需1美元。
但他們並沒有找到任何開放的嵌入資料集,因此這樣的組織應運而生。
接下來他們還將開放更多的資料集,而這些都是這些使用者自行選擇。在官網上除了已公開的資料集,剩下的幾個待開源專案開啟了投票通道。
值得一提的是,背後是一群平均年齡僅20歲的少年team完成的。
而他們的團隊名字同樣也很霸氣,Macrocosm(宏觀世界)聯盟。
#只要你放大到夠遠,人類就會變成一個單一的生物。
就官方介紹,他們致力於為ChatGPT和其他類似產品建立插件,同時也在開發核心產品,基於大模型的個人研究助理,幫助學習、教學和科研。
有興趣的旁友可戳下方連結了解~
https://alex.macrocosm.so/download
#以上是四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!