編輯 | 蘿蔔皮
在處理語言時,大腦會部署專門的計算來從複雜的語言結構中構建含義。基於 Transformer 架構的人工神經網路是自然語言處理的重要工具。
普林斯頓大學的研究人員探討了 Transformer 模型和人類大腦在語言處理中的功能性特殊化問題。
Transformer 透過結構化電路計算整合單字間的上下文資訊。不過,目前的研究主要集中在這些電路產生的內部表徵(「嵌入」)。
研究者直接分析電路計算:他們將這些計算解構為功能專門的「transformations」,將跨詞語的上下文資訊整合在一起。利用參與者聆聽自然故事時獲得的功能性 MRI 數據,研究人員驗證了這些「transformations」是否可以解釋整個皮質語言網路中大腦活動的顯著差異。
研究證明,由各個功能專門化的「注意力頭」執行的緊急計算,會以不同的方式預測特定皮質區域的大腦活動。這些注意力頭沿著與低維皮層空間中的不同層和上下文長度相對應的梯度下降。
研究以「Shared functional specialization in transformer-based language models and the human brain」為題於 2024 年 6 月 29 日發佈在《Nature Communications》。
語言理解根本上是一個建設性的過程。我們的大腦解決詞語之間的局部依賴關係,將低階語言單位組裝成高階意義單位,最終形成我們用來理解世界的敘事。
例如,如果說話者提到“秘密計劃”,我們會隱性地處理此結構中單詞之間的關係,從而理解“秘密”修飾“計劃”。在更高層次上,我們使用周圍敘述的上下文來理解這個短語的含義——這個計劃包含什麼內容,誰在保守這個秘密,他們又在向誰保密?
這種語境可能包含數分鐘內展開的數百個單字。人們認為,人類大腦透過一系列功能專門的計算來實現這些過程,這些計算將語音訊號轉換成可操作的意義表示。
傳統的神經影像學研究使用實驗手段來分析特定的語言計算過程,並將其映射到受控環境下的腦活動。然而,這種方法難以概括自然語言的複雜性。
近年來,基於 Transformer 架構的深度神經網路已經改變了自然語言處理的方式。這些模型透過自我監督訓練在大規模真實文本語料庫上進行學習,從而實現了對長序列中每個單字的上下文敏感的意義表示。
除了依賴 Transformer 模型內部的嵌入表示之外,Transformer 模型中的一些注意力頭會實現特定的功能特殊化,如解析動詞直接賓語或追蹤名詞修飾語等。
在目前的研究中,研究人員認為 headwise transformations(由各個注意力頭執行的功能專門的上下文計算)可以為大腦中的語言處理提供一個補充視窗。自然語言處理的神經計算理論最終必須指定如何跨單字建構意義。
Transformer 架構提供了對候選機制的明確訪問,用於量化過去單字的含義如何融入當前單字的含義。
如果這是人類語言處理的重要組成部分,那麼這些 transformations 應該為在自然語言理解過程中模擬人類大腦活動提供良好的基礎。
研究人員從廣泛研究的 BERT 模型中提取 transformations,並使用編碼模型來評估這些 transformations 與其他幾個語言特徵系列在預測自然語言理解過程中的大腦活動方面的表現。
圖示:比較跨皮質語言區域的三類語言模型。 (來源:論文)
研究人員比較了三種語言模型的表現:經典語言特徵、非上下文詞嵌入(GloVe)和上下文 Transformer 特徵(BERT)。
圖示:嵌入和transformations的層偏好。 (資料來源:論文)
Para penyelidik mendapati bahawa transformasi dilakukan setanding dengan benam dan secara amnya mengatasi benam bukan kontekstual dan anotasi sintaksis klasik, menunjukkan bahawa maklumat kontekstual yang diekstrak daripada perkataan sekeliling adalah sangat kaya.
Malah, transformasi dalam lapisan awal model menerangkan lebih banyak perbezaan unik dalam aktiviti otak berbanding pembenaman itu sendiri. Akhir sekali, penyelidik menguraikan transformasi ini kepada pengiraan khusus fungsi yang dilakukan oleh ketua perhatian individu.
Ilustrasi: Korespondensi antara otak mengikut kepala dan ramalan kebergantungan. (Sumber: kertas)
Penyelidik mendapati bahawa sifat-sifat tertentu mengikut arah kepala (seperti jarak pandang ke belakang) menentukan pemetaan antara transformasi mengikut arah kepala dan telinga pertuturan kortikal. Para penyelidik juga mendapati bahawa untuk kawasan bahasa tertentu, transformasi mengikut kepala yang lebih suka mengekod kebergantungan bahasa tertentu juga meramalkan aktiviti otak dengan lebih baik.
Ringkasnya, penyelidikan ini memberikan perspektif baharu tentang pemahaman pemprosesan bahasa manusia.
Pautan kertas:https://www.nature.com/articles/s41467-024-49173-5
以上是大腦如何處理語言?普林斯頓團隊對Transformer模型進行分析的詳細內容。更多資訊請關注PHP中文網其他相關文章!