詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減
引言
字詞嵌入表示法作為機器翻譯、問答、文字分類等各種自然語言處理任務的基礎,它通常會占到模型參數總量的 20%~90%。儲存和存取這些嵌入需要大量的空間,這不利於模型在資源有限的設備上部署和應用。針對這個問題,本文提出了 MorphTE 字詞嵌入壓縮方法。 MorphTE 結合了張量積操作強大的壓縮能力以及語言形態學的先驗知識,能夠實現詞嵌入參數的高倍壓縮(超過 20 倍),同時保持模型的性能。
- 論文連結:https://arxiv.org/abs/2210.15379
- #開原始碼:https://github.com/bigganbing/Fairseq_MorphTE
模型
#本文提出的MorphTE 詞嵌入壓縮方法,首先將單字劃分成具有語義意義的最小單位——語素,並為每個語素訓練低維的向量表示,然後利用張量積實現低維語素向量的量子糾纏態數學表示,從而得到高維的單字表示。
01 單字的語素構成
語言學中,語素是具有特定語意或語法功能的最小單位。對於英語等語言來說,一個單字可以拆分成字根、詞綴等更小單位的語素。例如,“unkindly”可以拆分成表示否定的 “un”、具有“友好的” 等含義的 “kind”,以及表示副詞的“ly”。對漢語來說,一個漢字同樣可以拆分成偏旁部首等更小單位,如“沐” 可拆分成表示水的 “氵” 和“木”。
#語素在蘊含語意的同時,也可以在詞之間進行分享,從而聯繫不同的字詞。此外,有限數量的語素可以組合出更多的詞。
02 糾纏張量形式的字詞嵌入壓縮表示
#相關工作Word2ket 透過張量積,表示單字嵌入為若干低維向量的糾纏張量形式,其公式如下:
#其中##、r為秩、n 為階,表示張量積。 Word2ket 只需要儲存和使用這些低維的向量來建立高維的詞向量,從而實現參數有效降低。例如,r =2、n=3時,一個維度為512 的詞向量,可以透過兩組,每組三個維度為8 低維向量張量積得到,此時所需參數量從512 降低至48 。
03 形態學增強的張量化詞嵌入壓縮表示透過張量積,Word2ket 能夠實現明顯的參數壓縮,然而其在高倍壓縮以及機器翻譯等較複雜任務上,通常難以達到壓縮前的效果。既然低維度向量是組成糾纏張量的基本單位,同時語素是構成單字的基本單位。該研究考慮引入語言學知識,提出了 MorphTE,其訓練低維的語素向量,並利用單字所包含的語素向量的張量積來構建相應的詞嵌入表示。
#
具體而言,先利用語素分割工具對詞表V 中的詞進行語素分割,所有詞的語素將構成一個語素表M,語素的數量會明顯低於詞的數量()。
對於每個詞,建立其語素索引向量,該向量指向每個詞包含的語素在語素表中的位置。所有字的語素索引向量構成一個的語素索引矩陣,其中 n 是 MorphTE 的階數。
對於字表中的第j 個字,利用其語素索引向量
從r 群組參數化的語素嵌入矩陣中索引出對應的語素向量,並透過張量積進行糾纏張量表示得到對應的詞嵌入,該過程形式化如下:
##透過以上方式,MophTE 可以在詞嵌入表示中註入以語素為基礎的語言學先驗知識,同時語素向量在不同詞之間的共享可以明確地構建詞間聯繫。此外,語素的數量和向量維度都遠低於詞表的大小和維度,MophTE 從這兩個角度都實現了詞嵌入參數的壓縮。因此,MophTE 能夠實現詞嵌入表示的高品質壓縮。
實驗本文主要在不同語言的翻譯、問答等任務上進行了實驗,並且和相關的基於分解的詞嵌入壓縮方法進行了比較。
從表格中可以看到,MorphTE 可以適應英語、德語、義大利語等不同語言。在超過 20 倍壓縮比的條件下,MorphTE 能夠維持原始模型的效果,而其他壓縮方法幾乎都出現了效果的下降。此外,在超過 40 倍壓縮比的條件下,MorphTE 在不同資料集上的效果都比其他壓縮方法好。
同樣地,在WikiQA 的問答任務、SNLI 的自然語言推理任務上,MorphTE 分別實現了81 倍和38 倍的壓縮比,同時保持了模型的效果。
結論MorphTE 結合了先驗的形態學語言知識以及張量積強大的壓縮能力實現了詞嵌入的高品質壓縮。在不同語言和任務上的實驗表明,MorphTE 能夠實現詞嵌入參數 20~80 倍的壓縮,且不會損害模型的效果。這驗證了引入基於語素的語言學知識能夠提升詞嵌入壓縮表示的學習。儘管MorphTE 目前只建模了語素,它實際上可以被擴展為一個通用的詞嵌入壓縮增強框架,明確建模原形、詞性、大小寫等更多先驗的語言學知識,進一步提升詞嵌入壓縮表示。
以上是詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

番茄小說是一款非常熱門的小說閱讀軟體,我們在番茄小說中經常會有新的小說和漫畫可以去閱讀,每一本小說和漫畫都很有意思,很多小伙伴也想著要去寫小說來賺取賺取零用錢,在把自己想要寫的小說內容編輯成文字,那麼我們要怎麼樣在這裡面去寫小說呢?小伙伴們都不知道,那就讓我們一起到本站本站中花點時間來看寫小說的方法介紹。分享番茄小說寫小說方法教學 1、先在手機上打開番茄免費小說app,點擊個人中心——作家中心 2、跳到番茄作家助手頁面——點擊創建新書在小說的結

而後悔莫及、人們常常會因為一些原因不小心刪除某些聯絡人、微信作為一款廣泛使用的社群軟體。幫助用戶解決這個問題,本文將介紹如何透過簡單的方法找回被刪除的聯絡人。 1.了解微信聯絡人刪除機制這為我們找回被刪除的聯絡人提供了可能性、微信中的聯絡人刪除機制是將其從通訊錄中移除,但並未完全刪除。 2.使用微信內建「通訊錄恢復」功能微信提供了「通訊錄恢復」節省時間和精力,使用者可以透過此功能快速找回先前刪除的聯絡人,功能。 3.進入微信設定頁面點選右下角,開啟微信應用程式「我」再點選右上角設定圖示、進入設定頁面,,

七彩虹主機板在中國國內市場享有較高的知名度和市場佔有率,但是有些七彩虹主機板的用戶還不清楚怎麼進入bios進行設定呢?針對這一情況,小編專門為大家帶來了兩種進入七彩虹主機板bios的方法,快來試試吧!方法一:使用u盤啟動快捷鍵直接進入u盤裝系統七彩虹主機板一鍵啟動u盤的快捷鍵是ESC或F11,首先使用黑鯊裝機大師製作一個黑鯊U盤啟動盤,然後開啟電腦,當看到開機畫面的時候,連續按下鍵盤上的ESC或F11鍵以後將會進入到一個啟動項順序選擇的窗口,將遊標移到顯示“USB”的地方,然

手機遊戲成為了人們生活中不可或缺的一部分,隨著科技的發展。它以其可愛的龍蛋形象和有趣的孵化過程吸引了眾多玩家的關注,而其中一款備受矚目的遊戲就是手機版龍蛋。幫助玩家們在遊戲中更好地培養和成長自己的小龍,本文將向大家介紹手機版龍蛋的孵化方法。 1.選擇合適的龍蛋種類玩家需要仔細選擇自己喜歡並且適合自己的龍蛋種類,根據遊戲中提供的不同種類的龍蛋屬性和能力。 2.提升孵化機的等級玩家需要透過完成任務和收集道具來提升孵化機的等級,孵化機的等級決定了孵化速度和孵化成功率。 3.收集孵化所需的資源玩家需要在遊戲中

字體大小的設定成為了重要的個人化需求,隨著手機成為人們日常生活的重要工具。以滿足不同使用者的需求、本文將介紹如何透過簡單的操作,提升手機使用體驗,調整手機字體大小。為什麼需要調整手機字體大小-調整字體大小可以使文字更清晰易讀-適合不同年齡段用戶的閱讀需求-方便視力不佳的用戶使用手機系統自帶字體大小設置功能-如何進入系統設置界面-在在設定介面中找到並進入"顯示"選項-找到"字體大小"選項並進行調整第三方應用調整字體大小-下載並安裝支援字體大小調整的應用程式-開啟應用程式並進入相關設定介面-根據個人

Win11管理員權限取得方法匯總在Windows11作業系統中,管理員權限是非常重要的權限之一,可以讓使用者對系統進行各種操作。有時候,我們可能需要取得管理員權限來完成一些操作,例如安裝軟體、修改系統設定等。下面就為大家總結了一些取得Win11管理員權限的方法,希望能幫助大家。 1.使用快捷鍵在Windows11系統中,可以透過快捷鍵的方式快速開啟命令提

Oracle版本查詢方法詳解Oracle是目前世界上最受歡迎的關聯式資料庫管理系統之一,它提供了豐富的功能和強大的效能,廣泛應用於企業。在進行資料庫管理和開發過程中,了解Oracle資料庫的版本是非常重要的。本文將詳細介紹如何查詢Oracle資料庫的版本信息,並給出具體的程式碼範例。查詢資料庫版本的SQL語句在Oracle資料庫中,可以透過執行簡單的SQL語句

在現今社會,手機已經成為我們生活中不可或缺的一部分。而微信作為我們日常溝通、工作、生活的重要工具,更是經常被使用。然而,在處理不同事務時可能需要分開兩個微信帳號,這就要求手機能夠支援同時登入兩個微信帳號。華為手機作為國內知名品牌,很多人使用,那麼華為手機開啟兩個微信帳號的方法是怎麼樣的呢?下面就來揭秘一下這個方法。首先,要在華為手機上同時使用兩個微信帳號,最簡
