2023年第一天，請查收ChatGPT的年終總結！-人工智慧-PHP中文網

ChatGPT的橫空出世，可能是2022年下半年最引人注目的AI突破，雖然可能不是技術含量最高的。

前不久，在新奧爾良舉行的2022 NeurIPS上，關於GPT-4的傳言不絕於耳，與此同時，OpenAI也成為全場新聞媒體的焦點。

OpenAI宣布了GPT-3系列AI大型語言模型中的一個新模型：text-davinci-003，這是其「GPT-3.5系列」的一部分，可以透過處理更複雜的指令和產生更高品質、更長形式的內容來改善效能。

2023年第一天，請查收ChatGPT的年終總結！

新模型建立在InstructGPT的基礎上，使用具有人類回饋的強化學習，使語言模型與人類指令更好地保持一致。

達文西-003是一個真正的帶有人類回饋的強化學習（RLHF）模型，它在人類的演示和高分的模型樣本上使用監督微調來提高生成品質。 "

而作為「GPT-3.5系列」的另一部分，OpenAI發布了ChatGPT的早期演示，該公司宣稱，這個互動式的對話模型，不僅可以回答大量的後續問題，還會承認錯誤，對不正確的提問前提提出質疑，拒絕不適當的提問請求。

2023年第一天，請查收ChatGPT的年終總結！

OpenAI在部落格中表示，ChatGPT的研究發布是「OpenAI迭代部署越來越安全和有用的AI系統的最新步驟。它吸取了從GPT-3和Codex等早期模型部署中的許多經驗教訓，在利用人類反饋的強化學習（RLHF）時，有害和不真實的輸出結果大幅減少。

另外，ChatGPT在訓練中強調，它是一個機器學習模型，這可能是出於避免前不久谷歌的聊天機器人LaMDA引發的「AI是否有意識」的爭議。

當然，ChatGPT也有限制。

在部落格文章中，OpenAI詳細介紹了它的局限性，包括有時答案聽起來似乎很有道理，但實際上是不正確或無意義的事實。

「解決這個問題是很有挑戰性的，因為(1) 在強化學習訓練期間，目前沒有保證一定有可靠的來源；(2 ) 訓練模型更加謹慎，會拒絕可能正確回答的問題；(3) 監督訓練可能誤導模型，因為理想的答案取決於模型知道什麼，而不是人類演示者知道什麼。」

Open AI表示，ChatGPT 「有時會對有害的指令做出反應或表現出有偏見的行為。我們正在使用API來警告或阻止某些類型的不安全內容，但預計目前會有一些錯誤的否定和肯定。我們非常願意收集用戶的回饋，幫助我們正在進行的工作，改善這個模型」。

雖然ChatGPT可能還有很多亟待改進的問題，但我們不可否認，在GPT-4登場前，ChatGPT仍然是目前大型語言模型的頂流。

不過，在最近的社群中，又有一個新的模式點燃了大家的討論熱情。最關鍵的是，它還是開源的。

本週，負責對包括Meta的Make-A-Video在內的閉源AI系統進行逆向工程的開發人員Philip Wang發布了PaLM RLHF，這是一種文字生成模型，其行為類似於ChatGPT。

2023年第一天，請查收ChatGPT的年終總結！

程式碼位址：https://github.com/lucidrains/PaLM-rlhf-pytorch

該系統結合了Google的大型語言模型PaLM和強化學習與人類回饋（RLHF）技術，創建了一個幾乎可以完成ChatGPT任何任務的系統，包括起草電子郵件和建議電腦程式碼。

PaLm RLHF的力量

#自發布以來，ChatGPT因能夠產生高清晰度的類人文本，並能以對話方式對使用者問題做出回應，因此在科技界掀起了一場風暴。

這雖然是聊天機器人發展初期的重大進步，但人工智慧領域的許多擁躉對ChatGPT的封閉性表示擔憂。

時至今日，ChatGPT模型仍然是專有的，這意味著公眾無法查看其底層程式碼。只有OpenAI真正知道它的工作原理以及它處理的數據。這種缺乏透明度可能會產生深遠的影響，並可能長期影響使用者的信任。

許多開發人員一直渴望建立一個開源替代方案，現在，它終於到來了。 PaLM RLHF是專門為Python語言建構的，可以為PyTorch實作。

開發人員可以像訓練自回歸transformer一樣輕鬆訓練 PaLM，然後使用人類回饋訓練獎勵模型。

和ChatGPT一樣，PaLM RLHF本質上是一種預測單字的統計工具。當從訓練資料中輸入大量範例時——例如來自Reddit的貼文、新聞文章和電子書——PaLM RLHF會根據諸如周圍文字的語義上下文等模式，學習單字出現的可能性。

真有這麼完美？

當然，理想和現實之間還存在著不小的差距。 PaLM RLHF看似完美，卻也有各種問題。其中最大的問題就是，人們現在還不能使用它。

要啟動PaLM RLHF，使用者需要編譯從部落格、社群媒體、新聞文章、電子書等各種來源取得的千兆位元組文字。

這些資料被提供給經過微調的PaLm模型，該模型將產生幾個回應。例如，如果詢問模型「經濟學的基礎知識是什麼」，PaLm會給出諸如「經濟學是研究…的社會科學」之類的答案。在

之後，開發者會請人對模型產生的答案從好到差進行排名，並建立一個獎勵模型。最後，排名用於訓練「獎勵模型」，該模型採用原始模型的回應並按偏好順序對它們進行排序，過濾出給定提示的最佳答案。

然而，這是一個昂貴的過程。收集訓練資料和訓練模型本身並不便宜。 PaLM有5400億個參數，也就是語言模型從訓練資料中學習到的部分。 2020年的一項研究表明，開發一個只有15億個參數的文本生成模型的費用高達160萬美元。

今年7月，為了訓練擁有1760億個參數的開源模型Bloom，Hugging Face的研究人員耗時三個月，使用了384個英偉達A100 GPU。每個A100的價格高達數千美元，這不是任何普通用戶所能負擔的成本。

此外，即使完成了模型的訓練，運行PaLM RLHF大小的模型也不是件易事。 Bloom配備了八個A100 GPU的專用PC，而OpenAI的文字產生GPT-3（約 1,750 億個參數）的運作成本約為每年87,000美元。

AI研究人員Sebastian Raschka在一篇關於PaLM RLHF的文章中指出，擴大必要的開發工作流程也可能是一個挑戰。

「即使有人為你提供500個GPU來訓練這個模型，你仍然需要處理基礎設施並擁有可以處理的軟體框架，」他說。「這雖然可行，但目前來看，需要付出很大的努力。」

下一個開源ChatGPT

高昂的費用和龐大的規模都表明，如果沒有資金雄厚的企業或個人不厭其煩地訓練模型，PaLM RLHF目前還沒有取代ChatGPT的能力。

到目前為止，沒有任何關於PaLM RLHF確切的發布日期。作為參照，Hugging Face訓練Bloom花了三個月的時間。相較之下，擁有5,400億參數的PaLM RLHF可能需要等待6-8 個月的時間才能誕生一個有意義的版本。

好消息是，到目前為止，我們有三個已知的玩家在開發這個開源版ChatGPT的替代方案：

#CarperAI
#LAION
Yannic Kilcher

CarperAI計畫與EleutherAI和新創公司Scale AI和Hugging Face合作，發布第一個可立即運行的、類似ChatGPT的AI模型，該模型經過人類回饋訓練。

2023年第一天，請查收ChatGPT的年終總結！

程式碼位址：https://github.com/CarperAI/trlx

LAION是為Stable Diffusion提供初始資料集的非營利組織，它也率先開展了一個使用最新機器學習技術複製ChatGPT的專案。

2023年第一天，請查收ChatGPT的年終總結！

程式碼位址：https://github.com/LAION-AI/Open-Assistant

LAION旨在打造一個「未來助理」，不僅能寫電子郵件和求職信，還能「做有意義的工作、使用API、動態研究資訊等」。它處於早期階段，但是幾週前，一個包含相關資源的專案已在GitHub上線。

而由油管網紅、AI研究人員Yannic Kilcher創建的GPT-4chan，更像是「出淤泥而全染」的嘴臭達人。

該模型中的「4chan」是一個美國線上匿名論壇，因網友身分皆為匿名，許多人便無所畏懼，發表各種政治不正確的言論。而Kilcher正式用4chan上的貼文對模型進行訓練，其結果可想而知。

與論壇總基調類似，GPT-4chan的回答充斥著種族歧視、性別歧視和反猶太主義。不僅如此，Kilcher還將其底層模型發佈到Hugging Face供他人下載。不過在許多AI研究人員的聲討下，官方很快就限制了網友對此模型的存取。

在我們期待更多開源語言模型出現的同時，現在我們能做的只有等待。當然，繼續免費使用ChatGPT 也是個好主意。

值得注意的是，在任何開源版本正式登場之前，OpenAI在開發方面仍遙遙領先。而2023年，GPT-4無疑是全世界AI愛好者翹首以盼的對象。

無數AI大佬都對其做出了自己的預測，這些預測或好或壞，但就像OpenAI首席營運長Sam Altman所言：「通用人工智慧的建成會比大多數人想像得更快，並且它會改變大多數人想像中的一切。」

以上是2023年第一天，請查收ChatGPT的年終總結！的詳細內容。更多資訊請關注PHP中文網其他相關文章！