単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式 損失のない20倍の圧縮効果
はじめに
単語埋め込み表現は、機械翻訳、質問応答、テキスト分類などのさまざまな自然言語処理タスクの基礎です。通常、全体の 20% ~ 90% を占めます。モデルパラメータ。これらの埋め込みの保存とアクセスには大量のスペースが必要であり、リソースが限られているデバイス上でのモデルの展開やアプリケーションには適していません。この問題に対処するために、本記事では MorphTE 単語埋め込み圧縮方式 を提案します。 MorphTE は、テンソル積演算の強力な圧縮機能と言語形態学の事前知識を組み合わせて、モデルの精度を維持しながら単語埋め込みパラメータの高圧縮 ( 20 倍 以上) を実現します。パフォーマンス。
- 論文リンク: https://arxiv.org/abs/2210.15379
- オープン ソース コード: https://github.com/bigganbing/Fairseq_MorphTE
この記事MorphTE 単語埋め込み圧縮方法を提案します。まず単語を意味論的な意味を持つ最小単位である形態素に分割し、形態素ごとに低次元のベクトル表現をトレーニングし、次にテンソル積を使用して低次元の量子もつれ状態の数学的表現を実現します。形態素ベクトルを使用して、高次元の単語表現を取得します。
01 単語の形態素構成言語学において、形態素は特定の意味または文法機能を持つ最小単位です。英語などの言語の場合、単語は語根や接辞などのより小さな形態素単位に分割できます。たとえば、「unkindly」は、否定の「un」、「優しい」などの「kind」、副詞の「ly」に分解できます。中国語の場合、漢字を部首などの小さな単位に分割することもでき、たとえば「MU」を水を表す「氵」と「木」に分割することもできます。
02 もつれテンソルの形式での単語埋め込みの圧縮表現
##ここで
#、r はランク、 n は次数、 はテンソル積を表します。 Word2ket は、これらの低次元ベクトルを保存して使用するだけで高次元のワード ベクトルを構築できるため、効果的なパラメータ削減が実現します。たとえば、r = 2、n = 3 の場合、次元 512 のワード ベクトルは、各グループの次元 8 の 3 つの低次元ベクトル テンソル積を 2 つのグループに分割することで得られます。パラメータの数が 512 から 48 に減少しました。 03 形態素強化テンソル化単語埋め込み圧縮表現
テンソル積を通じて、Word2ket は明白なパラメータ圧縮を実現できますが、高圧縮と機械翻訳の問題があります。より複雑なタスクの場合、圧縮する前に効果を実現することは通常困難です。低次元ベクトルはもつれテンソルを構成する基本単位であり、形態素は単語を構成する基本単位であるためです。この研究では、言語知識の導入を考慮し、低次元の形態素ベクトルを訓練し、単語に含まれる形態素ベクトルのテンソル積を使用して、対応する単語埋め込み表現を構築する MorphTE を提案します。
具体的には、まず形態素分割ツールを使用して単語リスト V 内の単語を分割します。すべての単語の形態素が形態素リスト M を形成し、形態素の数は単語の数よりも大幅に少なくなります。 ()。
各単語に対して、形態素テーブル内の各単語に含まれる形態素の位置を指す形態素インデックス ベクトルを構築します。すべての単語の形態素インデックス ベクトルは、 形態素インデックス行列を形成します。ここで、n は MorphTE の次数です。
語彙内の j 番目の単語 については、その形態素インデックス ベクトル
を使用して、それをパラメータ化します。 r グループ 対応する形態素ベクトルは形態素埋め込み行列にインデックス付けされ、対応する単語埋め込みはテンソル積によるもつれテンソル表現によって取得されます。このプロセスは次のように形式化されます。
この記事では主に、さまざまな言語での翻訳、質問と回答のタスクに関する実験を行い、関連する分解ベースの単語埋め込み圧縮方法と比較します。
表からわかるように、MorphTE は英語、ドイツ語、イタリア語などのさまざまな言語に適応できます。 MorphTE は 20 倍を超える圧縮率で元のモデルの効果を維持できますが、他のほとんどすべての圧縮方法では効果が低下します。さらに、MorphTE は、40 倍を超える圧縮率で、さまざまなデータ セットに対して他の圧縮方法よりも優れたパフォーマンスを発揮します。
同様に、MorphTE は、WikiQA の質問と回答のタスクと SNLI の自然言語推論タスクで、それぞれ 81 倍と 38 倍の圧縮率を達成しました。モデルの効果を維持します。
MorphTE は、先験的な形態素言語の知識とテンソル積の強力な圧縮機能を組み合わせて、単語埋め込みの高品質な圧縮を実現します。さまざまな言語とタスクの実験では、MorphTE がモデルの効果を損なうことなく、単語埋め込みパラメータの 20 ~ 80 倍の圧縮を達成できることが示されています。これは、形態素ベースの言語知識の導入により、単語埋め込みの圧縮表現の学習が向上できることを証明します。 MorphTE は現在、形態素のみをモデル化していますが、実際には、プロトタイプ、品詞、大文字化などのよりアプリオリな言語知識を明示的にモデル化する一般的な単語埋め込み圧縮拡張フレームワークに拡張して、単語埋め込み圧縮をさらに改善することができます。
以上が単語の埋め込みが表すパラメータの割合が大きすぎますか? MorphTE方式 損失のない20倍の圧縮効果の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









トマト ノベルは非常に人気のある小説閲覧ソフトウェアです。トマト ノベルでは、新しい小説や漫画を読むことができます。どの小説も漫画もとても面白いです。小説を書きたい友達もたくさんいます。お小遣いを稼いで、小説の内容を編集することもできます。 「テキストに文章を書きたいです。それで、小説はどうやって書くのですか?友達は知らないので、一緒にこのサイトに行きましょう。小説の書き方の入門を少し見てみましょう。」 Tomato Novels を使用して小説を書く方法に関するチュートリアルを共有します。 1. まず、携帯電話で Tomato Free Novels アプリを開き、パーソナル センター - ライター センターをクリックします。 2. Tomato Writer Assistant ページに移動し、次の場所で [新しい本の作成] をクリックします。小説の終わり

Colorful マザーボードは中国国内市場で高い人気と市場シェアを誇っていますが、Colorful マザーボードのユーザーの中には、設定のために BIOS を入力する方法がまだ分からない人もいます。この状況に対応して、編集者はカラフルなマザーボード BIOS に入る 2 つの方法を特別に提供しました。ぜひ試してみてください。方法 1: U ディスク起動ショートカット キーを使用して、U ディスク インストール システムに直接入ります。ワンクリックで U ディスクを起動する Colorful マザーボードのショートカット キーは ESC または F11 です。まず、Black Shark インストール マスターを使用して、Black Shark インストール マスターを作成します。 Shark U ディスク起動ディスクを選択し、コンピュータの電源を入れます。起動画面が表示されたら、キーボードの ESC キーまたは F11 キーを押し続けて、起動項目を順次選択するウィンドウに入ります。「USB」の場所にカーソルを移動します。 」と表示され、その後

残念ながら、WeChat は広く使用されているソーシャル ソフトウェアであり、何らかの理由で特定の連絡先を誤って削除してしまうことがよくあります。ユーザーがこの問題を解決できるように、この記事では、削除された連絡先を簡単な方法で取得する方法を紹介します。 1. WeChat の連絡先削除メカニズムを理解します。これにより、削除された連絡先を取得できるようになります。WeChat の連絡先削除メカニズムでは、連絡先がアドレス帳から削除されますが、完全には削除されません。 2. WeChat の組み込みの「連絡先帳復元」機能を使用します。WeChat には、この機能を通じて以前に削除した連絡先をすばやく復元できる「連絡先帳復元」機能が用意されています。 3. WeChat 設定ページに入り、右下隅をクリックし、WeChat アプリケーション「Me」を開き、右上隅にある設定アイコンをクリックして設定ページに入ります。

Win11 管理者権限の取得方法のまとめ. Windows 11 オペレーティング システムでは、管理者権限は、ユーザーがシステム上でさまざまな操作を実行できるようにする非常に重要な権限の 1 つです。ソフトウェアのインストールやシステム設定の変更など、一部の操作を完了するために管理者権限の取得が必要になる場合があります。以下にWin11の管理者権限を取得する方法をまとめましたので、お役に立てれば幸いです。 1. ショートカット キーを使用する Windows 11 システムでは、ショートカット キーを使用してコマンド プロンプトをすばやく開くことができます。

携帯電話が人々の日常生活において重要なツールになるにつれて、フォント サイズの設定は重要なパーソナライゼーション要件になりました。さまざまなユーザーのニーズを満たすために、この記事では、簡単な操作で携帯電話の使用体験を向上させ、携帯電話のフォントサイズを調整する方法を紹介します。携帯電話のフォント サイズを調整する必要があるのはなぜですか - フォント サイズを調整すると、テキストがより鮮明で読みやすくなります - さまざまな年齢のユーザーの読書ニーズに適しています - フォント サイズを使用すると、視力の悪いユーザーにとって便利です携帯電話システムの設定機能 - システム設定インターフェイスに入る方法 - 設定インターフェイスで「表示」オプションを見つけて入力します。 - 「フォント サイズ」オプションを見つけて、サードパーティでフォント サイズを調整します。アプリケーション - フォント サイズの調整をサポートするアプリケーションをダウンロードしてインストールします - アプリケーションを開いて、関連する設定インターフェイスに入ります - 個人に応じて

テクノロジーの発展に伴い、モバイルゲームは人々の生活に欠かせないものになりました。かわいいドラゴンエッグの画像と面白い孵化過程で多くのプレイヤーの注目を集めており、その中でも注目を集めているゲームの一つがモバイル版ドラゴンエッグです。プレイヤーがゲーム内で自分のドラゴンをより適切に育成し成長させることができるように、この記事ではモバイル版でドラゴンの卵を孵化させる方法を紹介します。 1. 適切な種類のドラゴン エッグを選択する プレイヤーは、ゲーム内で提供されるさまざまな種類のドラゴン エッグの属性と能力に基づいて、自分に適したドラゴン エッグの種類を慎重に選択する必要があります。 2. 孵化機のレベルをアップグレードします。プレイヤーはタスクを完了し、小道具を収集することで孵化機のレベルを向上させる必要があります。孵化機のレベルは孵化速度と孵化成功率を決定します。 3. プレイヤーはゲームに参加する必要がある孵化に必要なリソースを収集します。

Oracleバージョンのクエリ方法を詳しく解説 Oracleは、世界で最も人気のあるリレーショナルデータベース管理システムの1つで、豊富な機能と強力なパフォーマンスを提供し、企業で広く使用されています。データベースの管理と開発のプロセスでは、Oracle データベースのバージョンを理解することが非常に重要です。この記事では、Oracle データベースのバージョン情報をクエリする方法と具体的なコード例を詳しく紹介します。単純な SQL ステートメントを実行して、Oracle データベース内の SQL ステートメントのデータベース バージョンをクエリします。

今日の社会において、携帯電話は私たちの生活に欠かせないものとなっています。私たちの日常のコミュニケーション、仕事、生活のための重要なツールとして、WeChat はよく使用されます。ただし、異なるトランザクションを処理する場合は 2 つの WeChat アカウントを分離する必要がある場合があり、そのためには携帯電話が 2 つの WeChat アカウントへの同時ログインをサポートする必要があります。有名な国内ブランドとして、ファーウェイの携帯電話は多くの人に使用されていますが、ファーウェイの携帯電話で 2 つの WeChat アカウントを開設する方法は何でしょうか?このメソッドの秘密を明らかにしましょう。まず、Huawei 携帯電話で 2 つの WeChat アカウントを同時に使用する必要があります。最も簡単な方法は次のとおりです。
