目錄
GPT4All 技術報告
首頁 科技週邊 人工智慧 筆記本就能運行的ChatGPT平替來了,附完整版技術報告

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

Apr 04, 2023 pm 12:15 PM
電腦 訓練

GPT4All 是基於大量乾淨的助手資料(包括程式碼、故事和對話)訓練而成的聊天機器人,資料包括~800k 條GPT-3.5-Turbo 產生數據,基於LLaMa 完成,M1 Mac、Windows 等環境都能運行。或許就像它的名字所暗示的那樣,人人都能用上個人 GPT 的時代已經來了。

自從 OpenAI 發布 ChatGPT 後,最近幾個月聊天機器人熱度不減。

雖然 ChatGPT 功能強大,但 OpenAI 幾乎不可能將其開源。不少人都在做開源的努力,像是前段時間 Meta 開源的 LLaMA。其是一系列模型的總稱,參數量從 70 億到 650 億不等,其中,130 億參數的 LLaMA 模型「在大多數基準上」可以勝過參數量達 1750 億的 GPT-3。

LLaMA 的開源可是利好眾多研究者,例如史丹佛在LLaMA 的基礎上加入指令微調(instruct tuning),訓練了一個名為Alpaca(羊駝)的70 億參數新模型(基於LLaMA 7B )。結果顯示,只有 7B 參數的輕量級模型 Alpaca 效能可媲美 GPT-3.5 這樣的超大規模語言模型。

又例如,我們接下來要介紹的這個模型 GPT4All,也是一種基於 LLaMA 的新型 7B 語言模型。專案上線兩天,Star 量已經突破 7.8k。

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

專案網址:https://github.com/nomic-ai/gpt4all

簡單來講,GPT4All 在GPT-3.5-Turbo 的800k在以資料上進行訓練,包括文字問題、故事描述、多輪對話和代碼。

根據項目顯示,M1 Mac、Windows 等環境都能運作。

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

我們先來看看效果。如下圖所示,使用者可以和GPT4All 進行無障礙交流,例如詢問該模型:「我可以在筆記本上運行大型語言模型嗎?」GPT4All 回答是:「是的,你可以使用筆記本來訓練和測試神經網絡或其他自然語言(如英語或中文)的機器學習模型。重要的是,你需要足夠可用的記憶體(RAM) 來適應這些模型的大小…」

接下來,如果你不清楚到底需要多少內存,你還可以繼續詢問GPT4All,然後它給出答案。從結果來看,GPT4All 進行多輪對話的能力還是很強的。

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

在M1 Mac 上的即時取樣

有人將這項研究稱為「改變遊戲規則,有了GPT4All 的加持,現在在MacBook 上本地就能運行GPT。」

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

與GPT-4 相似的是,GPT4All 也提供了一份「技術報告」。

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

技術報告網址:https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf

#這份初步的技術報告簡要描述了GPT4All 的搭建細節。研究者公開了收集的資料、資料整理程序、訓練程式碼和最終的模型權重,以促進開放研究和可重複性,此外還發布了模型的量化4 位(quantized 4-bit)版本,這意味著幾乎任何人都可以在CPU 上運行該模型。

接下來,讓我們看看這份報告中寫了什麼。

GPT4All 技術報告

1、資料收集與整理

在2023 年3 月20 日至2023 年3 月26 日期間,研究者使用GPT-3.5-Turbo OpenAI API 收集了約100 萬對prompt 回答。

首先,研究者透過利用三個公開可用的資料集來收集不同的問題 /prompt 樣本:

  • LAION OIG 的統一chip2 子集
  • Stackoverflow Questions 的一個隨機子樣本集Coding questions
  • Bigscience/P3 子樣本集進行指令調優

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

筆記本就能運行的ChatGPT平替來了,附完整版技術報告

##############################################################################################################” ####參考史丹佛大學Alpaca 計畫(Taori et al., 2023),研究者對資料準備和整理給予了大量關注。在收集了最初的 prompt 產生對的資料集後,他們將資料載入到 Atlas 進行整理和清理,刪除了所有 GPT-3.5-Turbo 未能回應 prompt 並產生畸形輸出的樣本。這使得樣本總數減少到 806199 個高品質的 prompt - 產生對。接下來,研究者從最終的訓練資料集中刪除了整個 Bigscience/P3 子集,因為它的輸出多樣性非常低。 P3 包含許多同質化的 prompt,這些 prompt 從 GPT-3.5-Turbo 產生了簡短而同質化的反應。 ######這個排除法產生了一個包含 437,605 個 prompt - 產生對的最終子集,如圖 2 所示。 ##################模型訓練#########研究者在LLaMA 7B (Touvron et al., 2023) 的一個實例中將幾個模型進行微調。他們最初的公開版本相關的模型是用 LoRA (Hu et al., 2021) 在 437605 個後處理的例子上以 4 個 epoch 訓練的。詳細的模型超參數和訓練程式碼可以在相關的資源庫和模型訓練日誌中找到。 #########可重複性#########研究者發布了所有的資料(包括未使用的 P3 generations)、訓練程式碼和模型權重,供社群進行複現。有興趣的研究者可以在 Git 儲存庫中找到最新的資料、訓練細節和檢查點。 #########成本#########研究者大概花了四天的時間製作這些模型,GPU 成本為800 美元(從Lambda 實驗室和Paperspace 租的,其中包括幾次失敗的訓練),此外還有500 美元的OpenAI API 費用。 ######最終發布的模型 gpt4all-lora 可以在 Lambda 實驗室的 DGX A100 8x 80GB 上用大約 8 小時訓練完成,總成本為 100 美元。 ######這個模型可以在普通筆記本上運行,真就像網友說的「除了電費之外,沒有任何成本。」###############評估## ####研究者使用SelfInstruct 論文(Wang et al., 2022) 中的人類評估資料對此模型進行了初步評估。報告還對比了該模型與已知最好的公開的 alpaca-lora 模型(該模型由 huggingface 的用戶 chainyo 提供)的 ground truth 困惑度。他們發現,所有的模型在少數任務上都有非常大的困惑度,並且報告的困惑度最大為 100。與 Alpaca 相比,在這個收集的資料集上進行微調的模型在 Self-Instruct 評估中表現出了更低的困惑度。研究者表示,這個評估不是詳盡的,仍有進一步的評估空間 —— 他們歡迎讀者在本地 CPU 上運行該模型(文件見 Github),並對它的能力有一個定性的認識。 ######最後,需要注意的是,作者公佈了數據和訓練細節,希望它能加速開放的 LLM 研究,特別是在對齊和可解釋性領域。 GPT4All 模型的權重和數據僅用於研究目的,並獲得許可,禁止任何商業使用。 GPT4All 是基於 LLaMA 的,LLaMA 具有非商業許可。助理資料是從 OpenAI 的 GPT-3.5-Turbo 收集的,其使用條款禁止開發與 OpenAI 進行商業競爭的模型。 ###

以上是筆記本就能運行的ChatGPT平替來了,附完整版技術報告的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

遠端桌面無法驗證遠端電腦的身份 遠端桌面無法驗證遠端電腦的身份 Feb 29, 2024 pm 12:30 PM

Windows遠端桌面服務允許使用者遠端存取計算機,對於需要遠端工作的人來說非常方便。然而,當使用者無法連線到遠端電腦或遠端桌面無法驗證電腦身分時,會遇到問題。這可能是由網路連線問題或憑證驗證失敗引起的。在這種情況下,使用者可能需要檢查網路連線、確保遠端電腦是線上的,並嘗試重新連線。另外,確保遠端電腦的身份驗證選項已正確配置也是解決問題的關鍵。透過仔細檢查和調整設置,通常可以解決Windows遠端桌面服務中出現的這類問題。由於存在時間或日期差異,遠端桌面無法驗證遠端電腦的身份。請確保您的計算

2024 CSRankings全美電腦科學排名發布! CMU霸榜,MIT跌出前5 2024 CSRankings全美電腦科學排名發布! CMU霸榜,MIT跌出前5 Mar 25, 2024 pm 06:01 PM

2024CSRankings全美電腦科學專業排名,剛剛發布了!今年,全美全美CS最佳大學排名中,卡內基美隆大學(CMU)在全美和CS領域均名列前茅,而伊利諾大學香檳分校(UIUC)則連續六年穩定地位於第二。佐治亞理工學院則排名第三。然後,史丹佛大學、聖迭戈加州大學、密西根大學、華盛頓大學並列世界第四。值得注意的是,MIT排名下跌,跌出前五名。 CSRankings是由麻省州立大學阿姆赫斯特分校電腦與資訊科學學院教授EmeryBerger發起的全球院校電腦科學領域排名計畫。該排名是基於客觀的

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

拋棄編碼器-解碼器架構,用擴散模型做邊緣偵測效果更好,國防科大提出DiffusionEdge 拋棄編碼器-解碼器架構,用擴散模型做邊緣偵測效果更好,國防科大提出DiffusionEdge Feb 07, 2024 pm 10:12 PM

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5 通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5 Feb 07, 2024 pm 10:15 PM

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

大模型也能切片,微軟SliceGPT讓LLAMA-2運算效率大增 大模型也能切片,微軟SliceGPT讓LLAMA-2運算效率大增 Jan 31, 2024 am 11:39 AM

大型語言模型(LLM)通常擁有數十億參數,經過數萬億token的資料訓練。然而,這樣的模型訓練和部署成本都非常昂貴。為了降低運算需求,人們常常採用各種模型壓縮技術。這些模型壓縮技術一般可分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝、量化。剪枝方法已經存在一段時間,但許多方法需要在剪枝後進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。蘇黎世聯邦理工學院和微軟的研究者提出了一個解決這個問題的方法,名為SliceGPT。此方法的核心思想是透過刪除權重矩陣中的行和列來降低網路的嵌

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

未能開啟這台電腦上的群組原則對象 未能開啟這台電腦上的群組原則對象 Feb 07, 2024 pm 02:00 PM

使用電腦時,作業系統偶爾也會故障。今天遇到的問題是在存取gpedit.msc時,系統提示無法開啟群組原則對象,因為可能缺乏正確的權限。未能開啟這台電腦上的群組原則對象解決方法:1、存取gpedit.msc時,系統提示無法開啟該電腦上的群組原則對象,因為缺乏權限。詳細資訊:系統無法定位指定的路徑。 2、用戶點擊關閉按鈕後,就彈出如下錯誤視窗。 3.立即查看日誌記錄,並結合記錄信息,發現問題出在C:\Windows\System32\GroupPolicy\Machine\registry.pol文件

See all articles