詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減

王林
發布: 2023-05-17 16:01:06
轉載
1278 人瀏覽過

引言

字詞嵌入表示法作為機器翻譯、問答、文字分類等各種自然語言處理任務的基礎,它通常會占到模型參數總量的 20%~90%。儲存和存取這些嵌入需要大量的空間,這不利於模型在資源有限的設備上部署和應用。針對這個問題,本文提出了 MorphTE 字詞嵌入壓縮方法。 MorphTE 結合了張量積操作強大的壓縮能力以及語言形態學的先驗知識,能夠實現詞嵌入參數的高倍壓縮(超過 20 倍),同時保持模型的性能。

詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減

  • 論文連結:https://arxiv.org/abs/2210.15379
  • #開原始碼:https://github.com/bigganbing/Fairseq_MorphTE

模型

#本文提出的MorphTE 詞嵌入壓縮方法,首先將單字劃分成具有語義意義的最小單位——語素,並為每個語素訓練低維的向量表示,然後利用張量積實現低維語素向量的量子糾纏態數學表示,從而得到高維的單字表示。

01 單字的語素構成

語言學中,語素是具有特定語意或語法功能的最小單位。對於英語等語言來說,一個單字可以拆分成字根、詞綴等更小單位的語素。例如,“unkindly”可以拆分成表示否定的 “un”、具有“友好的” 等含義的 “kind”,以及表示副詞的“ly”。對漢語來說,一個漢字同樣可以拆分成偏旁部首等更小單位,如“沐” 可拆分成表示水的 “氵” 和“木”。


詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減


#語素在蘊含語意的同時,也可以在詞之間進行分享,從而聯繫不同的字詞。此外,有限數量的語素可以組合出更多的詞。

02 糾纏張量形式的字詞嵌入壓縮表示

詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減

#相關工作Word2ket 透過張量積,表示單字嵌入為若干低維向量的糾纏張量形式,其公式如下:

詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減

#其中##、r為秩、n 為階,表示張量積。 Word2ket 只需要儲存和使用這些低維的向量來建立高維的詞向量,從而實現參數有效降低。例如,r =2、n=3時,一個維度為512 的詞向量,可以透過兩組,每組三個維度為8 低維向量張量積得到,此時所需參數量從512 降低至48 。

03 形態學增強的張量化詞嵌入壓縮表示

透過張量積,Word2ket 能夠實現明顯的參數壓縮,然而其在高倍壓縮以及機器翻譯等較複雜任務上,通常難以達到壓縮前的效果。既然低維度向量是組成糾纏張量的基本單位,同時語素是構成單字的基本單位。該研究考慮引入語言學知識,提出了 MorphTE,其訓練低維的語素向量,並利用單字所包含的語素向量的張量積來構建相應的詞嵌入表示。

詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減#

具體而言,先利用語素分割工具對詞表V 中的詞進行語素分割,所有詞的語素將構成一個語素表M,語素的數量會明顯低於詞的數量()。

對於每個詞,建立其語素索引向量,該向量指向每個詞包含的語素在語素表中的位置。所有字的語素索引向量構成一個詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減的語素索引矩陣,其中 n 是 MorphTE 的階數。

對於字表中的第j 個字詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減,利用其語素索引向量詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減從r 群組參數化的語素嵌入矩陣中索引出對應的語素向量,並透過張量積進行糾纏張量表示得到對應的詞嵌入,該過程形式化如下:

詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減

##透過以上方式,MophTE 可以在詞嵌入表示中註入以語素為基礎的語言學先驗知識,同時語素向量在不同詞之間的共享可以明確地構建詞間聯繫。此外,語素的數量和向量維度都遠低於詞表的大小和維度,MophTE 從這兩個角度都實現了詞嵌入參數的壓縮。因此,MophTE 能夠實現詞嵌入表示的高品質壓縮。

實驗

本文主要在不同語言的翻譯、問答等任務上進行了實驗,並且和相關的基於分解的詞嵌入壓縮方法進行了比較。

詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減

從表格中可以看到,MorphTE 可以適應英語、德語、義大利語等不同語言。在超過 20 倍壓縮比的條件下,MorphTE 能夠維持原始模型的效果,而其他壓縮方法幾乎都出現了效果的下降。此外,在超過 40 倍壓縮比的條件下,MorphTE 在不同資料集上的效果都比其他壓縮方法好。

詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減

同樣地,在WikiQA 的問答任務、SNLI 的自然語言推理任務上,MorphTE 分別實現了81 倍和38 倍的壓縮比,同時保持了模型的效果。

結論

MorphTE 結合了先驗的形態學語言知識以及張量積強大的壓縮能力實現了詞嵌入的高品質壓縮。在不同語言和任務上的實驗表明,MorphTE 能夠實現詞嵌入參數 20~80 倍的壓縮,且不會損害模型的效果。這驗證了引入基於語素的語言學知識能夠提升詞嵌入壓縮表示的學習。儘管MorphTE 目前只建模了語素,它實際上可以被擴展為一個通用的詞嵌入壓縮增強框架,明確建模原形、詞性、大小寫等更多先驗的語言學知識,進一步提升詞嵌入壓縮表示。

以上是詞嵌入表示參數佔比太大? MorphTE方法20倍壓縮效果不減的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板