30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

PHPz

Apr 14, 2023 am 11:49 AM

Google 模型

人工智慧一個重要的目標是發展泛化能力強的模型。在自然語言處理（NLP）領域中，預訓練語言模型在這方面取得了重大進展。這類模型往往透過微調來適應新的任務。

近日，來自Google的研究者分析了多種指令微調方法，包括擴展對指令微調的影響。實驗表明，指令微調確實可以根據任務數量和模型大小實現良好的擴展，最大到 5400 億參數的模型都能明顯受益，未來的研究應該進一步擴大任務的數量和模型的大小。此外，研究也分析了微調對模型執行推理能力的影響，結果都是很吸引人的。

由此產生的Flan-T5 對1800 餘種語言任務進行了指令微調，明顯提高了提示和多步驟推理能力，30 億參數跑基準就能超過GPT- 3 的1750 億參數。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

看起來Google又為大模型找到了一個能力提升的方向。不過這項研究不僅引來了機器學習社群的歡迎，也有Gary Marcus 的吐槽：

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

Google的模型為什麼要把谷歌自己的著名科學家Geoffrey Hinton 的出生日期搞錯了？人家明明是 1947 年出生的老前輩。

論文作者之一的Google大腦首席科學家Quoc Le 趕緊出來圓場：是臨時工圖片做錯了，在論文裡Flan-T5 模型其實沒有把Geoff 的出生年月搞錯，有圖為證。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

順便說一句，出生於 1963 年的著名 AI 學者是 Jürgen Schmidhuber。

既然出錯的不是 AI 模型，讓我們來看看Google的新方法究竟能為預訓練模型帶來哪些改變吧。

論文：Scaling Instruction-Finetuned Language Models

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了論文網址：https://arxiv.org/abs/2210.11416

公開模式：https:/ /github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

該研究使用540B 參數模型訓練Flan-PaLM，將微調任務的數量增加到1800 個以上，並包含思維鏈（CoT；Wei et al., 2022b）資料。經過訓練後的 Flan-PaLM 優於 PaLM，在多個基準測試中達到了新的 SOTA。在推理能力方面，Flan-PaLM 能夠利用CoT 和自洽性（self-consistency；Wang et al., 2022c）在大規模多任務語言理解（MMLU; Hendrycks et al., 2020）上實現75.2% 的準確率。

############此外，在一組具有挑戰性的開放式生成問題上，Flan-PaLM 的表現明顯優於 PaLM，可用性大幅提高。 ############總體而言，Google的這項研究闡明了使用指令微調來提高模型效能的具體方法。 #########方法#########具體來說，研究主要關注影響指令微調的幾個方面，包括：（1）擴展任務數量，（2）擴展模型大小，以及（3）對思維鏈資料進行微調。 ######

该研究发现具有上述方面的指令微调显著改进了各种模型类（PaLM、T5、U-PaLM）、prompting 设置（零样本、少样本、CoT）和评估基准（MMLU、BBH、 TyDiQA、MGSM、开放式生成）。例如，在 1.8K 任务上进行指令微调的 Flan-PaLM 540B 大大优于 PALM 540B（平均 9.4%）。Flan-PaLM 540B 在几个基准测试中实现了最先进的性能，例如在五次 MMLU 上达到 75.2%。

研究者还公开了 Flan-T5 检查点，即使与更大的模型（例如 PaLM 62B）相比，它也能实现强大的少样本性能。总体而言，指令微调是提高预训练语言模型的性能和可用性的通用方法。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

图 1. 研究人员在 1800 余个任务中对各种语言模型进行了微调，在有 / 缺乏样本（零样本和少样本）以及有 / 没有思维链的情况下进行微调，从而能够在一系列评估场景中进行泛化。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

图 2. 微调数据包括 473 个数据集、146 个任务类别和共计 1836 个任务。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

在数据微调和程序微调过程完成后，研究者根据模型大小对任务的性能来对比规模扩展的影响。首先，对于所有三种模型大小，多任务指令微调与没有微调相比性能有很大提高，增益范围从 9.4% 到 15.5%。其次，增加微调任务的数量可以提高性能。

最后，我们可以看到将模型规模增加一个数量级（8B → 62B 或 62B → 540B）可以明显提高微调和未微调模型的性能。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

多任务指令微调相对于模型大小（参数量）和微调任务数量及规模扩展对准确率的影响。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

增加微调数据中的任务数量可以提高 Flan-PaLM 在大多数评估基准上的性能。

研究人员证明了在微调混合中包含九个带有思维链 (CoT) 注释的数据集可以提高推理能力。下表显示 Flan-PaLM 的 CoT 提示能力在四个保留的评估基准上优于 PaLM。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

该研究发现对 CoT 数据进行指令微调的另外一个好处是可以实现零样本（zero-shot）推理，模型在没有针对 CoT 的少量样本的情况下就自行产生了推理能力，这可能需要大量工程调教才能正确实现。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

图 6：PaLM 和 Flan-PaLM 在一组 23 个具有挑战性的 BIG-Bench 任务 (BBH) 上的 zero-shot 性能。Flan-PaLM 需要通过「让我们一步一步思考」指令激活的思想链 (CoT) 生成。

為了展示新方法的通用性，Google訓練了 T5、PaLM 和 U-PaLM，涵蓋了從 8,000 萬到 5,400 億參數的模型體積範圍，發現所有模型都能大幅提升效能。

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

表 5. 指令微調 (Flan) 在其他持續預訓練方法之上提高了效能。

經過測試，指令微調大大提高了所有模型類型的歸一化平均性能，與非微調模型相比，T5 模型從指令微調中受益最多。這些結果對於某些基準測試來說是相當強的——例如，Flan-T5-XL 只有 30 億參數，就達到了 47.6% 的 MMLU 分數，超過了 GPT-3 1750 億參數的 43.9% 分數。

除了 NLP 基準之外，語言模型還能夠為開放式問題請求產生長格式答案。在這一方面，標準的 NLP 基準和用於評估它們的自動指標不足以衡量人類的偏好。研究人員對此進行了評估，創建了一個包含 190 個範例的評估集。此評估集包括以零樣本方式向模型提出的問題，涉及五個具有挑戰性的類別，每個類別 20 個問題：創造力、上下文推理、複雜推理、計劃和解釋。

對於其中的60 個範例（來自複雜的推理、計劃和解釋類別），該研究創建了一個帶有思維鏈觸發短語（例如，「讓我們一步一步思考」）的變體，作為微調是否進行的另一個評估在CoT 上啟用zero-shot。除了上述 160 個零樣本輸入之外，研究中還包括 30 個用於測試少樣本能力的輸入，這些沒有指令微調的強語言模型已被證明在這些方面表現良好。

研究人員認為，指令微調和規模擴展都可以持續提升大語言模型效能，而微調對於推理能力至關重要，其還能泛化模型能力。透過指令微調與其他模型適應技術（例如 UL2R）結合，Google在這項工作中提出了最強模型 Flan-U-PaLM。

重要的是，指令微調並不像模型規模擴展一樣會大幅增加計算成本，例如對於PaLM 540B，指令微調只需要0.2% 的預訓練計算，但卻可以將跨評估基準的歸一化平均值提高9.4%。使用指令微調的小型模型有時可以勝過沒有微調的大模型。

基於這些原因，研究人員建議對幾乎所有預先訓練的語言模型都進行指令微調。

以上是30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7814

Java教學

1646

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1238

Related knowledge

芝麻開門交易所網頁版登入口最新版gateio官網入口 Mar 04, 2025 pm 11:48 PM

詳細介紹芝麻開門交易所網頁版登入口操作，含登錄步驟、找回密碼流程，還針對登錄失敗、無法打開頁面、收不到驗證碼等常見問題提供解決方法，助你順利登錄平台。

芝麻開門交易所網頁註冊鏈接 gate交易app註冊網址最新 Feb 28, 2025 am 11:06 AM

本文詳細介紹了芝麻開門交易所（Gate.io）網頁版和Gate交易App的註冊流程。無論是網頁註冊還是App註冊，都需要訪問官方網站或應用商店下載正版App，然後填寫用戶名、密碼、郵箱和手機號等信息，並完成郵箱或手機驗證。

加密數字資產交易APP推薦top10（2025全球排名） Mar 18, 2025 pm 12:15 PM

本文推荐十大值得关注的加密货币交易平台，涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋，例如币安以其全球最大的交易量和丰富的功能著称，而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。希望本文能帮助您找到最适合自

芝麻開門交易平台下載手機版 gateio交易平台下載地址 Feb 28, 2025 am 10:51 AM

選擇正規渠道下載App，保障您的賬戶安全至關重要。

歐易okex賬號怎麼註冊、使用、註銷教程 Mar 31, 2025 pm 04:21 PM

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP，輸入手機號或郵箱註冊，完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服，提供必要信息並等待處理，最終獲得賬號註銷確認。通過本文，用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理，安全便捷地進行數字資產交易。

2025年Bitget最新下載地址：獲取官方App的步驟 Feb 25, 2025 pm 02:54 PM

本指南提供了 Bitget 交易所官方 App 的詳細下載和安裝步驟，適用於安卓和 iOS 系統。指南整合了來自多個權威來源的信息，包括官網、App Store 和 Google Play，並強調了下載和賬戶管理過程中的注意事項。用戶可以從官方渠道下載 App，包括應用商店、官網 APK 下載和官網跳轉，並完成註冊、身份驗證和安全設置。此外，指南還涵蓋了常見問題和注意事項，例如

如何在Bitget官網註冊並下載最新App Mar 05, 2025 am 07:54 AM

為什麼說Bittensor是AI賽道的'比特幣”？ Mar 04, 2025 pm 04:06 PM

原文標題：Bittensor=AIBitcoin?原文作者：S4mmyEth，DecentralizedAIResearch原文編譯：zhouzhou，BlockBeats編者按：本文討論了Bittensor，一個去中心化的AI平台，希望通過區塊鏈技術打破集中式AI公司的壟斷，推動開放、協作的AI生態系統。 Bittensor採用子網模型，允許不同AI解決方案的出現，並通過TAO代幣激勵創新。儘管AI市場已成熟，但Bittensor面臨競爭風險，可能會受到其他開源

See all articles

30億跑贏GPT-3的1750億，Google新模型引熱議，然而卻把Hinton年齡搞錯了

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題