首頁 > 科技週邊 > 人工智慧 > 四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

WBOY
發布: 2023-06-06 11:10:04
轉載
988 人瀏覽過

Arxiv上所有論文轉成Token,加起來不過14.1GB而已。

這是最新爆火開源計畫亞歷山大完成的壯舉。

事實上,這還只是第一步。

他們最終是想要將整個互聯網變成Tokens,換言之全都轉化成ChatGPT等大模型理解這個世界的方式。

一旦這樣的資料集誕生,那豈不是為開發出GPT-4這樣的大模型又新增一大利器,上知天文下知地理指日可待了? !

訊息一出,瞬間引發巨大關注。

四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

網友們讚嘆,史詩般的

四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元


四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

#而這背後僅是四個平均年齡20歲的少年發起,目前Arxiv所有論文資料集已經發布,他們將於下週發布嵌入(Embedding)搜尋平台。

從Arxiv上所有論文開始

超過400萬個項目、6億個token,30.7億個向量維度。

這個名為亞歷山大的開源計劃,首先從Arxiv每篇論文開始。

選擇的方式是嵌入,簡單來說,就是將現實世界的各種物件具象成電腦所能理解的向量。

四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

最經典的例子就是將原始影像表示為灰階像素。

四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

這種技術最大的特徵就是能夠表示人類感知到的語意相似性。

例如,當有10個字表示同一件事時,很難透過關鍵字找到論文。但嵌入就可以完成,因此很適用於搜尋、聚類、推薦和分類。

基於實用性和效率的考慮,開發團隊只選擇嵌入了論文的標題和摘要。

在測試各種模型之後,最終選擇使用InstructorXL文字嵌入模型,透過簡單地提供任務指令,而無需任何微調,適合多種任務(例如分類、檢索、聚類、文本評估等)和領域(例如科學、金融、醫學等)

#下週他們將發布Arxiv搜尋。目前為止的流程是,首先對100篇最接近的文章進行相似性搜索,然後即時計算這些內容的嵌入,並進行第二次更複雜的搜索。

最終目標是一整個網路嵌入計畫。

20歲少年的瘋狂開源計劃

之所以要開展這樣一次瘋狂的開源計劃,主要有兩方面的原因。

一方面是嵌入巨大的價值。世界上很多問題只是搜尋、 聚類、推薦或分類,而這些事情嵌入都非常擅長。而且也如前所述,可以解決一些複雜的難題。

另一方面成本是一次性的且很便宜。大多數情況下無需對同一份文件進行二次計算。目前每1億個Token只需1美元

但他們並沒有找到任何開放的嵌入資料集,因此這樣的組織應運而生。

接下來他們還將開放更多的資料集,而這些都是這些使用者自行選擇。在官網上除了已公開的資料集,剩下的幾個待開源專案開啟了投票通道。

四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

值得一提的是,背後是一群平均年齡僅20歲的少年team完成的。

四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元

而他們的團隊名字同樣也很霸氣,Macrocosm(宏觀世界)聯盟。

#只要你放大到夠遠,人類就會變成一個單一的生物。

就官方介紹,他們致力於為ChatGPT和其他類似產品建立插件,同時也在開發核心產品,基於大模型的個人研究助理,幫助學習、教學和科研。

有興趣的旁友可戳下方連結了解~

https://alex.macrocosm.so/download

#

以上是四個00後的瘋狂開源計畫:整個網路轉換成大模型語料,1億token嵌入成本只要1美元的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板