目錄
簡介:什麼是Transformer
首頁 科技週邊 人工智慧 五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

Apr 11, 2023 am 11:46 AM
模型 指南

自2017 年提出至今,Transformer 模型已經在自然語言處理、電腦視覺等其他領域展現了前所未有的實力,並引發了ChatGPT 這樣的技術突破,人們也提出了各種基於原始模型的變體。

由於學界和業界不斷提出基於 Transformer 注意力機制的新模型,我們有時很難對這個方向進行歸納總結。近日,領英 AI 產品策略負責人 Xavier Amatriain 的一篇綜述性文章或許可以幫助我們解決這個問題。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#在過去的幾年裡,陸續出現了數十個來自Transformer 家族模型,所有這些都有有趣且易於理解的名字。本文的目標是為最受歡迎的 Transformer 模型提供一個比較全面但簡單的目錄和分類,此外本文也介紹了 Transformer 模型中最重要的面向和創新。

論文《Transformer models: an introduction and catalog》:

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

論文連結:

https://arxiv.org/abs/2302.07730

GitHub:https://github.com/xamat/TransformerCatalog

簡介:什麼是Transformer

Transformer 是一類由一些架構特徵定義的深度學習模型。首次出現在Google研究人員於 2017 年發表的著名論文《Attention is All you Need》(這篇論文在短短 5 年就被引用了 3.8 萬餘次)以及相關的部落格文章中。 Transformer 架構是編碼器 - 解碼器模型 [2] 的一個特定實例,該模型在 2 - 3 年前開始流行起來。然而,在此之前,注意力只是這些模型使用的機制之一,這些模型主要基於 LSTM(長短期記憶)[3] 和其他 RNN(循環神經網路)[4] 變體。 Transformers 論文的關鍵見解是,正如標題所暗示的那樣,注意力可以被用作推導輸入和輸出之間依賴關係的唯一機制。討論 Transformer 體系結構的所有細節超出了本部落格的範圍。為此,本文建議參考上面的原論文或 Transformers 的帖子,內容都十分精彩。話雖如此,本文將簡要敘述最重要的方面,下面的目錄中也會提到它們。本文將先從原始論文中的基本架構圖開始,進而展開敘述相關內容。

編碼器/ 解碼器架構

#通用編碼器/ 解碼器體系架構(參見圖1) 由兩個模型組成。編碼器接受輸入並將其編碼為固定長度的向量。解碼器取得該向量並將其解碼為輸出序列。編碼器和解碼器聯合訓練以最小化條件對數似然。一旦訓練,編碼器 / 解碼器可以產生給定輸入序列的輸出,或者可以對輸入 / 輸出序列進行評分。在最初的 Transformer 架構中,編碼器和解碼器都有 6 個相同的層。在這 6 層中的每一層編碼器都有兩個子層:一個多頭注意層和一個簡單的前饋網路。每個子層都有一個殘差連接和一個層歸一化。編碼器的輸出大小是 512。解碼器增加了第三個子層,這是編碼器輸出上的另一個多頭注意層。此外,解碼器中的另一個多頭層被遮罩。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#圖1:Transformer 系統架構

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#

圖2:注意力機制

「注意

#從上面的描述可以清楚地看出,模型體系架構唯一的特別元素是多頭注意力,但是,正如上面所描述的,這正是模型的全部力量所在。那麼,注意力到底是什麼呢?注意力函數是查詢和一組鍵值對到輸出之間的映射。輸出是按值的加權和計算的,其中分配給每個值的權重是透過查詢與對應鍵的相容性函數計算的。 Transformers 使用多頭注意力,這是一個被稱為縮放點積注意力的特定注意力函數的平行計算。關於注意力機制如何運作的更多細節,本文將再次參考《The Illustrated Transformer》的帖文,將在圖 2 中再現原始論文中的圖表,以便了解主要思想。與循環網絡和卷積網絡相比,注意力層有幾個優勢,最重要的兩個是它們較低的計算複雜性和較高的連通性,特別是對於學習序列中的長期依賴關係非常有用。

Transformer 的用途是什麼,為什麼它們如此受歡迎

最初的Transformer 是為語言翻譯而設計的,特別是從英語到德語。但是,透過原先的研究論文就可以看出,該架構可以很好地推廣到其他語言任務。這一特別的趨勢很快就引起了研究界的注意。在接下來的幾個月裡,大多數與語言相關的ML 任務排行榜完全被某個版本的Transformer 架構所主導(比方說,著名的SQUAD 排行榜,其中所有位於頂部的模型都是Transformer 的集合)。 Transformer 能夠如此迅速地佔據大多數 NLP 排行榜的關鍵原因之一是它們能夠快速適應其他任務,也就是遷移學習。預先訓練的 Transformer 模型可以非常容易且快速地適應它們沒有經過訓練的任務,這具有巨大的優勢。身為 ML 從業者,你不再需要在龐大的資料集上訓練大型模型。你所需要做的就是在你的任務中重新使用預先訓練的模型,也許只是用一個小得多的資料集稍微調整它。一種用於使預訓練的模型適應不同任務的特定技術稱為微調。

事實證明,Transformer 適應其他任務的能力是如此之強,以至於儘管它們最初是為與語言相關的任務而開發的,但它們很快就被用於其他任務,從視覺或音頻和音樂應用程序,一直到下棋或做數學。

當然,如果不是因為有無數的工具,任何人都可以輕鬆地編寫幾行程式碼,那麼所有這些應用程式都不可能實現。 Transformer 不僅能迅速整合到主要的人工智慧框架(即 Pytorch8 和 TF9)中,甚至基於此創建起整個公司。 Huggingface 是一家迄今為止已經籌集了 6000 多萬美元的新創公司,幾乎完全是圍繞著將開源 Transformer 庫商業化的想法建立的。

最後,有必要談談 Transformer 普及初期 GPT-3 對其的影響。 GPT-3 是 OpenAI 在 2020 年 5 月推出的 Transformer 模型,是他們早期 GPT 和 GPT-2 的後續產品。該公司通過在預印本中介紹該模型而引起了很大的轟動,他們聲稱該模型非常強大,以至於他們無法向世界發布它。從那以後,該模式不僅發布了,而且還透過 OpenAI 和微軟之間的大規模合作實現了商業化。 GPT-3 支援 300 多個不同的應用程序,是 OpenAI 商業策略的基礎 (對於一家已經獲得超過 10 億美元融資的公司來說,這是很有意義的)。

RLHF

#最近,從人類回饋(或偏好)強化學習(RLHF(也稱為RLHP )已成為人工智慧工具包的一個巨大補充。這個概念已經在2017 年的論文《Deep reinforcement learning from human preferences》中提出。最近,它被應用於ChatGPT 和類似的對話智能體,如BlenderBot 或Sparrow。這個想法很簡單:一旦語言模型被預先訓練,使用者就可以對對話產生不同的反應,並讓人類對結果進行排序。人們可以在強化學習環境中使用這些排名(也就是偏好或回饋)來訓練獎勵(見圖3)。###############擴散##########

擴散模型已經成為影像生成中的新 SOTA,顯然將先前的方法如 GANs(生成對抗網路)推到了一邊。什麼是擴散模型?它們是一類經過變分推理訓練的潛在變數模型。以這種方式訓練的網路實際上是在學習這些圖像所代表的潛在空間(參見圖 4)。

擴散模型與其他生成模型有關係,如著名的[生成對抗網路(GAN)] 16,它們在許多應用中已經被取代,特別是與(去雜訊)自動編碼器。有些作者甚至說擴散模型只是自編碼器的一個具體實例。然而,他們也承認,微小的差異確實改變了他們的應用,從 autoconder 的潛在表示到擴散模型的純粹生成性質。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#圖 3:具有人類回饋的強化學習。

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

#圖4:機率擴散模型架構摘自《Diffusion Models : A Comprehensive Survey of Methods and Applications》

#本文介紹的模型包括:

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

五年時間被引用3.8萬次,Transformer宇宙發展成了這樣

################################# ############################ #####################

以上是五年時間被引用3.8萬次,Transformer宇宙發展成了這樣的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1662
14
CakePHP 教程
1418
52
Laravel 教程
1311
25
PHP教程
1261
29
C# 教程
1234
24
全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles