Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに-AI-php.cn

少数ショットの一般化

データコレクション

1. 語彙語彙

2. エンティティ Entity

3. ランダムランダム

ホームページ

テクノロジー周辺機器

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

PHPz

Apr 08, 2023 am 10:51 AM

グーグルデータセット機械翻訳

中国全土の人々は中国語を話しますが、場所によって方言は少し異なります。たとえば、路地という意味もあります。「胡同」と言えば、古い北京であることがわかりますが、実際に行ってみると、南に行くと「胡同」と呼ばれる路地です。

これらの微妙な地域差が「機械翻訳」タスクに反映されると、翻訳結果は十分に「本物」ではないように見えますが、現在のほとんどすべての機械翻訳システムはそうではありません。地域を考慮する性的言語（つまり方言）の影響。

この現象は世界中にも存在しており、例えばブラジルの公用語はポルトガル語ですが、ヨーロッパのポルトガル語とは地域によって多少の違いがあります。

最近、Google は、主に方言翻訳の問題を解決する、少数ショットの地域認識型機械翻訳に使用できる新しいデータセットと評価ベンチマークFRMTをリリースしました。 TACL (Transactions of the Association for Computational Linguistics) に掲載されました。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

論文リンク: https://arxiv.org/pdf/2210.00193.pdf

オープンソースリンク: https:/ / github.com/google-research/google-research/tree/master/frmt

このデータセットには、英語からポルトガル語と中国語の 2 つの地域別バージョンへの専門的な翻訳が含まれており、ソースドキュメントは、語彙的に異なる用語や干渉用語など、対象の現象を詳細に分析します。

研究者らは、FRMT の自動評価指標を調査し、地域の一致および不一致のスコアリングシナリオの下で専門家の手動評価との相関関係を検証しました。

最後に、このタスク用にいくつかのベースラインモデルが提案され、研究者が独自のモデルをトレーニング、評価、比較する方法に関するガイダンスの提案が提供されます。データセットと評価コードはオープンソースです。

少数ショットの一般化

最新の機械翻訳システムは、英語の入力文とそれに対応するポルトガル語の翻訳で構成される入力データを使用して、数百万または数十億の翻訳サンプルでトレーニングされています。

しかし、利用可能なトレーニングデータの大部分は、翻訳における地域差を考慮していません。

このデータ不足を考慮して、研究者らは、FRMT を少数ショット翻訳のベンチマークとして位置づけ、言語ごとにラベル付きの例が 100 個以下の場合に機械翻訳モデルが特定の領域をどの程度識別できるかを測定しました。

機械翻訳モデルは、少数のラベル付きサンプル (例) に表示される言語パターンに基づいて、他のラベルなしトレーニングサンプル内の同様のパターンを識別する必要があります。モデル内で明示的に指定されていない領域に対して「慣用的な」翻訳を生成するには、モデルをこの方法で一般化する必要があります。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

たとえば、次の文を入力します: バスが到着しました。ブラジル系ポルトガル語の例をいくつか挙げると、モデルは「O ônibus chegou」を翻訳できるはずです。与えられたのがヨーロッパ系ポルトガル語の場合、モデルの翻訳結果は「O autocarro chegou」となるはずです。

機械翻訳の数ショット手法は研究価値が高く、非常に簡単な方法で既存のシステムに追加の地域言語のサポートを追加できます。

Google が公開している現在の研究は 2 つの言語の地域別バージョンを対象としていますが、研究者らは、優れたアプローチは他の言語や地域別バージョンにも簡単に適用できると予測しています。

原則として、これらの方法は、エチケットやスタイルなど、他の言語の違い現象にも適用できます。

データコレクション

FRMT データセットには、Wiki40b データセットから派生した英語のウィキペディア記事がいくつか含まれており、有料のプロ翻訳者によってさまざまな地域に翻訳されています。ポルトガル語と中国語。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

重要な地域の認識に関する翻訳の課題を強調するために、研究者は 3 つのコンテンツバケットを使用してデータセットを設計しました。

1. 語彙語彙

語彙バケットは主に、地域ごとの語彙選択の違いに焦点を当てています。「bus」という単語はそれぞれブラジル語とヨーロッパのポルトガル語に翻訳されるため、モデルは「ônibus」と「autocarro」の違いを識別できる必要があります。

研究者らは、ブログや教育ウェブサイトに基づいて地域固有の翻訳用語を 20 ～ 30 個手動で収集し、各地域のネイティブスピーカーのボランティアからのフィードバックに基づいて翻訳をフィルタリングしてレビューしました。

取得した英語用語のリストに基づいて、関連する英語版 Wikipedia の記事 (バスなど) から 100 文が抽出されます。中国語の場合は、上記と同じ収集プロセスを繰り返します。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

2. エンティティ Entity

エンティティバケットには、同様の方法で人、場所などが入力されます。関係するエンティティ特定の言語が関係する 2 つの領域のうちの 1 つとの強いつながり。

たとえば、「リスボンでは、よくバスに乗りました。」（リスボンでは、よくバスに乗りました。）のような説明文が与えられた場合、正しく解釈するためには、ブラジル系ポルトガル語に翻訳すると、モデルは 2 つの潜在的な落とし穴を識別できなければなりません:

#1) リスボンとポルトガルの間のより近い地理的つながりは、モデル翻訳の選択に影響を与える可能性があります。モデルは、ブラジルポルトガル語ではなくヨーロッパポルトガル語に翻訳する必要があると判断します。つまり、「ônibus」の代わりに「autocarro」を選択します。

2) 「リスボン」を「ブラジリア」に置き換えることは、より簡単な方法かもしれません。同じパターンの場合、翻訳結果がまだ非常にスムーズであっても、出力をブラジル系ポルトガル語にローカライズします。しかし、不正確なセマンティクスにつながる可能性もあります。

3. ランダムランダム

ランダムバケットは、モデルが他のさまざまな現象 (Wikipedia の特徴など) を正しく処理しているかどうかを確認するために使用されます。コレクションからランダムに選択された 100 個の記事。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

#システムパフォーマンス

FRMT データセット用に収集された翻訳が、特定の地域での現象に応じて、研究者はデータ品質の手動評価を実行しました。

それぞれの地域の専門アノテーターが、多次元品質測定 (MQM) フレームワークを使用して翻訳のエラーを特定し、分類します。このフレームワークには、特定されたエラーを組み合わせて翻訳の重み付けスキームが含まれています。文ごとの重大なエラーの数を大まかに表す単一のスコア。つまり、数値が小さいほど翻訳が優れていることを示します。

研究者らは、地域ごとに、MQM 評価者に、その地域の翻訳と他の地域の翻訳をその言語で評価するよう依頼しました。

たとえば、ブラジルのポルトガル語の評価者は、ブラジルとヨーロッパのポルトガル語の両方の翻訳を同時に評価しました。2 つのスコアの差は、言語現象の普遍性、つまり、言語現象の普遍性を示します。別の言語ではなく、さまざまな言語を使用できます。

実験結果では、ポルトガル語と中国語では、評価者が一致した翻訳よりも文ごとに平均で約 2 件多くの重大な誤りを発見したことがわかり、FRMT データセットが実際に特定の地域をキャプチャできることを示しています。言語現象。

手動評価はモデルの品質を保証する最良の方法ですが、多くの場合時間がかかり、コストがかかります。

したがって、研究者らは、ベンチマークでのモデルのパフォーマンスを評価するために使用できる既製の自動メトリクスを見つけたいと考えており、chrF、BLEU、BLEURT の使用を検討しています。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

いくつかのベースラインモデル変換結果に対する MQM 評価者の評価に基づくと、BLEURT が最も優れた相関関係を持っていることがわかります。この相関の強さ (ピアソン相関係数 ρ 0.65) は、アノテーター間の一致 (クラス内相関 0.70) に匹敵します。

システムパフォーマンス

この記事では、最近リリースされた数ショット制御機能を備えたモデルを評価します。

MQM の人による評価に基づくと、ベースライン手法はすべて、ポルトガル語出力をローカライズする一定の能力を示していますが、中国語北京語の場合、ほとんどのメソッドは対象地域の知識を使用して優れたローカル言語を生成しません。翻訳結果。

評価されたベンチマークの中で、Google の言語モデル PaLM モデルが最も優れたパフォーマンスを示しました。PaLM を使用して地域固有の翻訳を生成するには、最初に説明プロンプトがモデルに入力され、次にテキストが生成されます。隙間を埋めるためのものです。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

#PaLM は、たった 1 つの例で素晴らしい結果を達成しました。ポルトガル語では、次のような場合に品質がわずかに向上しました。例は 10 個に増加しますが、PaLM が教師なしでトレーニングされることを考慮すると、これはすでに非常に優れています。

この調査結果は、PaLM のような言語モデルが、スムーズな翻訳に必要な地域固有の語彙の選択肢を記憶するのに特に優れている可能性があることも示唆しています。

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

ただし、PaLM と人間の間には依然として大きなパフォーマンスの差があります。

参考資料:

https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

以上がGoogle、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7698

Java チュートリアル

1640

CakePHP チュートリアル

1393

Laravel チュートリアル

1287

PHP チュートリアル

1229

Related knowledge

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange（gate.io）Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 Mar 04, 2025 pm 11:48 PM

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか？ BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

Crypto Digital Asset Trading App（2025グローバルランキング）に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します（モバイル検証コードやGoogle Authenticatorなど）。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

ビットゲット取引プラットフォーム公式アプリのダウンロードとインストールアドレス Feb 25, 2025 pm 02:42 PM

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

2025年のBitgetの最新のダウンロードアドレス：公式アプリを取得する手順 Feb 25, 2025 pm 02:54 PM

See all articles

Google、初の「方言」データセットをオープンソース化：機械翻訳をより信頼できるものに

少数ショットの一般化