AI百科：ChatGPT的工作原理-人工智慧-PHP中文網

神經網路

ChatGPT模型大小

編碼器、解碼器和RNN

變壓器與注意力

生成式預訓練

把一切結合在一起

首頁

科技週邊

人工智慧

AI百科：ChatGPT的工作原理

王林

Apr 12, 2023 pm 01:31 PM

人工智慧 chatgpt

AI百科：ChatGPT的工作原理

ChatGPT迅速獲得了數百萬人的關注，但許多人都持謹慎態度，因為都不了解它的工作原理。而本文就是試圖將其分解，以便更容易理解。

然而，就其核心而言，ChatGPT是一個非常複雜的系統。如果想要玩ChatGPT或想弄清楚它是什麼，核心介面是一個聊天窗口，可以在其中提問或提供查詢，AI會做出回應。要記住的一個重要細節是，在聊天中，上下文會被保留，這意味著訊息可以引用先前的訊息，而ChatGPT將能夠根據上下文地理解這一點。

當在聊天框中輸入查詢時會發生什麼?

神經網路

#首先，在ChatGPT的框架下，還有很多東西要發現。機器學習在過去10年裡一直在迅速發展，ChatGPT利用了許多最先進的技術來實現其成果。

AI百科：ChatGPT的工作原理

神經網路是相互連接的「神經元」層，每個神經元負責接收輸入、處理輸入，並將其傳遞給網絡中的下一個神經元。神經網路構成了當今人工智慧的支柱。輸入通常是一組稱為「特徵」的數值，表示正在處理的資料的某些方面。例如，在語言處理的情況下，特徵可能是表示句子中每個單字的意思的單字嵌入。

詞嵌入只是一種文本的數字表示，神經網路將使用它來理解文本的語義，然後可以將其用於其他目的，例如以語義邏輯的方式進行回應!

#因此，在ChatGPT中按回車鍵後，該文本首先被轉換為詞嵌入，這些詞嵌入是在整個互聯網上的文本上進行訓練的。然後有一個經過訓練的神經網絡，在給定輸入詞嵌入的情況下，輸出一組合適的響應詞嵌入。然後，使用應用於輸入查詢的逆操作將這些嵌入入翻譯成人類可讀的單字。這個解碼後的輸出就是ChatGPT印出來的內容。

ChatGPT模型大小

轉換和輸出產生的計算成本非常高。 ChatGPT位於GPT-3之上，GPT-3是一個擁有1750億個參數的大型語言模型。這意味著在OpenAI使用其大型資料集調整的廣泛神經網路中有1750億個權重。

因此，每個查詢至少需要兩次1750億次計算，加起來很快。 OpenAI可能已經找到了一種方法來快取這些計算以降低計算成本，但不知道這些資訊是否已經發佈到任何地方。此外，預計將於今年年初發布的GPT-4，據稱參數增加了1000倍!

計算複雜性會導致實際成本!如果ChatGPT很快成為付費產品，不必感到驚訝，因為OpenAI目前正在花費數百萬美元免費運營它。

編碼器、解碼器和RNN

自然語言處理中常用的一種神經網路結構是編碼器-解碼器網路。這些網路的設計目的是將輸入序列「編碼」為緊湊表示，然後將該表示「解碼」為輸出序列。

傳統上，編碼器-解碼器網路已經與循環神經網路(RNN)配對，用於處理順序資料。編碼器處理輸入序列並產生固定長度的向量表示，然後將其傳遞給解碼器。解碼器處理這個向量並產生輸出序列。

編碼器-解碼器網路已廣泛應用於機器翻譯等任務，其中輸入是一種語言的句子，輸出是將該句子翻譯成另一種語言。它們也被應用於摘要和圖像說明生成任務。

AI百科：ChatGPT的工作原理

變壓器與注意力

#與編碼器-解碼器結構類似，變壓器包括兩個元件;然而，轉換器的不同之處在於它使用一種自關注機制，允許輸入的每個元素關注所有其他元素，從而允許它捕獲元素之間的關係，而不管它們彼此之間的距離如何。

變壓器還使用多頭注意力，允許它同時專注於輸入的多個部分。這使得它能夠捕獲輸入文字中的複雜關係並產生高度準確的結果。

在2017年發表「Attention is All You Need」論文時，變壓器取代了編碼器-解碼器架構，成為自然語言處理的最先進模型，因為它可以在較長的文本中實現更好的性能。

AI百科：ChatGPT的工作原理

變壓器架構，取自https://arxiv.org/pdf/1706.03762.pdf

生成式預訓練

生成式預訓練是一種在自然語言處理領域特別成功的技術。它涉及以無監督的方式在海量資料集上訓練廣泛的神經網絡，以學習資料的通用表示。這個預訓練網絡可以針對特定任務進行微調，例如語言翻譯或問答，從而提高效能。

AI百科：ChatGPT的工作原理

生成式預訓練架構，摘自《透過生成式預訓練提升語言理解能力》

在ChatGPT的範例中，這意味著對GPT-3模型的最後一層進行微調，以適應在聊天中回答問題的用例，這也利用了人工標記。下圖可以更詳細了解ChatGPT微調:

AI百科：ChatGPT的工作原理

ChatGPT 微調步驟，來自https://arxiv.org/pdf/2203.02155.pdf

把一切結合在一起

因此，在ChatGPT的框架下有許多活動部件，這些部件只會不斷增長。看到它如何繼續發展將是非常有趣的，因為許多不同領域的進步將幫助類似GPT的模型獲得進一步的採用。

在接下來的一兩年裡，我們可能會看到這種新的使能技術帶來的重大顛覆。

以上是AI百科：ChatGPT的工作原理的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1663

CakePHP 教程

1420

Laravel 教程

1313

PHP教程

1266

C# 教程

1237

Related knowledge

ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 於 2023 年 9 月正式推出，是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一，能夠創建具有複雜細節的圖像。然而，在推出時，它不包括

位元組跳動剪映推出 SVIP 超級會員：連續包年 499 元，提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息，剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體，依託於抖音平台且基本面向該平台用戶製作短影片內容，並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級，推出全新SVIP，包含多種AI黑科技，例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面，剪映SVIP月費79元，年費599元（本站註：折合每月49.9元），連續包月則為59元每月，連續包年為499元每年（折合每月41.6元）。此外，剪映官方也表示，為提升用戶體驗，向已訂閱了原版VIP

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型（LLM）是在龐大的文字資料庫上訓練的，在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中，然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時，模型實際上停止學習。對模型進行對齊或進行指令調優，讓模型學習如何充分利用這些知識，以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的，儘管模型可以透過RAG存取外部內容，但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的，模型會遇到額外的實際知識並將其整合

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

SK 海力士 8 月 6 日將展示 AI 相關新品：12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息，SK海力士今天（8月1日）發布博文，宣布將出席8月6日至8日，在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024，展示諸多新一代產品。未來記憶體和儲存高峰會（FutureMemoryandStorage）簡介前身是主要面向NAND供應商的快閃記憶體高峰會（FlashMemorySummit），在人工智慧技術日益受到關注的背景下，今年重新命名為未來記憶體和儲存高峰會（FutureMemoryandStorage），以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在

SOTA性能，廈大多模態蛋白質-配體親和力預測AI方法，首次結合分子表面訊息 Jul 17, 2024 pm 06:37 PM

編輯|KX在藥物研發領域，準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而，目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此，來自廈門大學的研究人員提出了一種新穎的多模態特徵提取（MFE）框架，該框架首次結合了蛋白質表面、3D結構和序列的信息，並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明，該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外，消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

VSCode 前端開發新紀元：12款 AI 代碼助理推薦 Jun 11, 2024 pm 07:47 PM

在前端開發的世界裡，VSCode以其強大的功能和豐富的插件生態，成為了無數開發者的首選工具。而近年來，隨著人工智慧技術的快速發展，VSCode上的AI代碼助理也如雨後春筍般湧現，大大提升了開發者的編碼效率。 VSCode上的AI代碼助手，如雨後春筍般湧現，大大提升了開發者的編碼效率。它利用人工智慧技術，能夠聰明地分析程式碼，提供精準的程式碼補全、自動糾錯、語法檢查等功能，大大減少了開發者在編碼過程中的錯誤和繁瑣的手工工作。有今天，就為大家推薦12款VSCode前端開發AI程式碼助手，幫助你在程式設計之路

佈局 AI 等市場，格芯收購泰戈爾科技氮化鎵技術和相關團隊 Jul 15, 2024 pm 12:21 PM

本站7月5日消息，格芯（GlobalFoundries）於今年7月1日發布新聞稿，宣布收購泰戈爾科技（TagoreTechnology）的功率氮化鎵（GaN）技術及智慧財產權組合，希望在汽車、物聯網和人工智慧資料中心應用領域探索更高的效率和更好的效能。隨著生成式人工智慧（GenerativeAI）等技術在數位世界的不斷發展，氮化鎵（GaN）已成為永續高效電源管理（尤其是在資料中心）的關鍵解決方案。本站引述官方公告內容，在本次收購過程中，泰戈爾科技公司工程師團隊將加入格芯，進一步開發氮化鎵技術。 G

See all articles

AI百科：ChatGPT的工作原理

神經網路

ChatGPT模型大小

編碼器、解碼器和RNN

變壓器與注意力

生成式預訓練

把一切結合在一起

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題