目錄
模型概述
實作細節
實驗
首頁 科技週邊 人工智慧 大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

Apr 20, 2023 am 11:10 AM
ai 論文

近年來,隨著各學科領域的研究進步,科學文獻和數據爆炸性地成長,使學術研究者從大量資訊中發現有用的見解變得越來越困難。通常,人們會藉助搜尋引擎來獲取科學知識,但搜尋引擎無法自主組織科學知識。

現在,來自 Meta AI 的研究團隊提出了一種新的大型語言模型 Galactica,可以儲存、組合和推理科學知識。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

  • 論文網址:https://galactica.org/static/paper.pdf
  • #試用網址:https://galactica.org/

#Galactica 模型有多強大呢,它可以自己總結歸納出一篇綜述論文:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

也可以產生詞條的百科全書查詢:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

對所提問題作出知識性的回答:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

#這些任務對人類學者來說尚且是具有挑戰性的任務,但Galactica 卻很好地完成了。圖靈獎得主 Yann LeCun 也在推特上發文稱讚:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

我們來看看 Galactica 模型的具體細節。

模型概述

Galactica 模型是在大量的論文、參考資料、知識庫和許多其他來源的科學語料庫上進行訓練的,包括超過4800 萬篇論文、教科書和講義、數百萬種化合物和蛋白質知識、科學網站、百科全書等。與依賴未經整理的、基於網路爬蟲文字的現有語言模型不同,Galactica 訓練所使用的語料庫是高品質且經過高度整理的。該研究在不過擬合的前提下對模型進行多個 epoch 的訓練,其中在上游和下游任務上的表現透過使用重複的 token 得到改善。

Galactica 的表現在一系列科學任務上優於現有模型。在 LaTeX 方程式等技術知識的探索任務上,Galactica 與 GPT-3 的表現是 68.2% VS 49.0%。 Galactica 在推理方面也表現出色,在數學 MMLU 基準上的表現顯著優於 Chinchilla。

儘管沒有接受過通用語料庫的訓練,Galactica 在 BIG-bench 上的表現也優於 BLOOM 和 OPT-175B。此外,它還在 PubMedQA 和 MedMCQA 開發等下游任務上創下了 77.6% 和 52.9% 的新高表現。

簡單來說,研究將逐步推理封裝在特殊的 token 中,以模仿內部工作原理。這允許研究人員使用自然語言與模型進行交互,下圖是 Galactica 的試用介面。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

值得一提的是,除了文本生成,Galactica 還可以執行涉及化學公式和蛋白質序列的多模態任務。這將為藥物發現領域做出貢獻。

實作細節

本文的語料庫包含 1,060 億個 token,這些 token 來自論文、參考文獻、百科全書以及其他科學資料。可以說研究將自然語言資源(論文、參考書)與自然界中的序列(蛋白質序列、化學形式)都囊括了。表 1 和表 2 中顯示了語料庫的細節。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

#

語料庫有了,接下來是對資料怎麼操作。一般來講,對 tokenization 的設計是非常重要的。例如,蛋白質序列是根據胺基酸殘基來編寫的,那麼基於字元的 tokenization 是合適的。為了實現 tokenization,研究對不同的模態進行了專門的 token 化。具體表現在(包括但不限於):

  • 引用:用特殊的參考token[START_REF]和[END_REF] 來包裝引用;
  • #逐步推理:用working memory token 來封裝逐步推理,模擬內部working memory 上下文;
  • 數字:把數字分成單獨的to​​ken。例如, 737612.62 → 7,3,7,6,1,2,.,6,2;
  • SMILES 公式:用[START_SMILES] 和[END_SMILES]包裝序列,並應用基於字元的tokenization。同樣,研究使用 [START_I_SMILES] 和[END_I_SMILES]來表示異構體 SMILES。例如:C(C(=O)O)N→C,(,C,(,=,O,),O,),N;
  • DNA 序列:應用一種基於字元的tokenization,將每個核苷酸鹼基視為一個token,其中起始token 為[START_DNA] 和[END_DNA]。例如,CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。

如下圖 4 顯示了對一篇論文的引用進行處理的範例。在處理引用時使用全域標識符和特殊 token[START_REF]和 [END_REF] 來表示引用的地方。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

資料集處理好之後,接下來就是怎麼實作。 Galactica 在Transformer 架構的基礎上進行了以下修改:

  • #GeLU 激活:將GeLU 激活用於各種大小的模型;
  • 上下文視窗:對於不同大小的模型,使用2048 長度的上下文視窗;
  • #無偏移量:遵循PaLM,在密集核心或層規格中不使用偏移;
  • 學習位置嵌入:學習位置嵌入用於模型;
  • #詞彙表:使用BPE 建立一個包含50k token 的詞彙表。

表 5 列出了不同大小模型以及訓練超參數。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

實驗

#重複的token 被認為是無害的

從圖6 可以看出,經過四個epoch 的訓練後,驗證損失繼續下降。擁有 120B 參數的模型在第五個 epoch 開始時才開始過擬合。這是出乎意料的,因為現有的研究表明重複的 token 可能對表現有害。研究還發現,30B 和 120B 的模型在 epoch-wise 後表現出雙重下降效應,即驗證損失達到平穩(或上升),然後是下降。這種效果在每個 epoch 後都變得更強,最明顯的是 120B 模型在訓練結束時。

圖 8 結果顯示實驗沒有出現過擬合跡象,這表明重複 token 能夠提高下游和上游任務表現。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

其他結果

#鍵入公式太慢了,現在用提示就能產生LaTeX:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

在化學反應中,要求Galactica 在化學方程式LaTeX 中預測反應的產物,模型只根據反應物就能進行推理,結果如下:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

表7 中報告了一些其他結果:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

Galactica 的推理能力。研究首先在 MMLU mathematics 基準上進行評估,並在表 8 中報告了評估結果。 Galactica 與較大的基礎模型相比表現強勁,使用 token 似乎可以提高 Chinchilla 的性能,即使對於較小的 30B Galactica 模型也是如此。

該研究也對MATH 資料集進行了評估,以進一步探索Galactica 的推理能力:

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

##從實驗結果可以得出:Galactica 在思維鍊和提示方面都大大優於基礎PaLM 模型。這表明 Galactica 在處理數學任務上是更好的選擇。

在下游任務的評估結果如表 10 所示。 Galactica 顯著優於其他語言模型,並且在大多數任務中優於更大的模型(Gopher 280B)。與 Chinchilla 相比,表現表現差異更大,Chinchilla 在子集任務上似乎更強:特別是高中科目以及數學較少、記憶密集型任務。相比之下,Galactica 往往在數學和研究生程度的任務中表現更好。

大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線

該研究還評估了Chinchilla 在給定輸入上下文的情況下預測引用的能力,這是對Chinchilla 組織科學文獻能力的一個重要測試。結果如下:

更多實驗內容,請參考原文。

以上是大模型能自己「寫」論文了,還帶公式和參考文獻,試用版已上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 排名前十的虛擬貨幣交易app有哪些 十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

穩定幣有哪些?穩定幣如何交易? 穩定幣有哪些?穩定幣如何交易? Apr 22, 2025 am 10:12 AM

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

目前有多少穩定幣交易所?穩定幣種類有多少? 目前有多少穩定幣交易所?穩定幣種類有多少? Apr 22, 2025 am 10:09 AM

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

幣圈十大交易所有哪些 最新幣圈app推薦 幣圈十大交易所有哪些 最新幣圈app推薦 Apr 24, 2025 am 11:57 AM

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

2025下一個千倍幣可能有哪些 2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和

DLC是什麼幣 DLC幣前景怎麼樣 DLC是什麼幣 DLC幣前景怎麼樣 Apr 24, 2025 pm 12:03 PM

DLC幣是基於區塊鏈的加密貨幣,旨在提供高效、安全的交易平台,支持智能合約和跨鏈技術,適用於金融和支付領域。

See all articles