中国全土の人々は中国語を話しますが、場所によって方言は少し異なります。たとえば、路地という意味もあります。「胡同」と言えば、古い北京であることがわかりますが、実際に行ってみると、南に行くと「胡同」と呼ばれる路地です。
これらの微妙な地域差が「機械翻訳」タスクに反映されると、翻訳結果は十分に「本物」ではないように見えますが、現在のほとんどすべての機械翻訳システムはそうではありません。地域を考慮する 性的言語(つまり方言)の影響。
この現象は世界中にも存在しており、例えばブラジルの公用語はポルトガル語ですが、ヨーロッパのポルトガル語とは地域によって多少の違いがあります。
最近、Google は、主に方言翻訳の問題を解決する、少数ショットの地域認識型機械翻訳に使用できる新しいデータセットと評価ベンチマークFRMTをリリースしました。 TACL (Transactions of the Association for Computational Linguistics) に掲載されました。
論文リンク: https://arxiv.org/pdf/2210.00193.pdf
オープンソースリンク: https:/ / github.com/google-research/google-research/tree/master/frmt
このデータセットには、英語からポルトガル語と中国語の 2 つの地域別バージョンへの専門的な翻訳が含まれており、ソース ドキュメントは、語彙的に異なる用語や干渉用語など、対象の現象を詳細に分析します。
研究者らは、FRMT の自動評価指標を調査し、地域の一致および不一致のスコアリング シナリオの下で専門家の手動評価との相関関係を検証しました。
最後に、このタスク用にいくつかのベースライン モデルが提案され、研究者が独自のモデルをトレーニング、評価、比較する方法に関するガイダンスの提案が提供されます。データセットと評価コードはオープンソースです。
最新の機械翻訳システムは、英語の入力文とそれに対応するポルトガル語の翻訳で構成される入力データを使用して、数百万または数十億の翻訳サンプルでトレーニングされています。
しかし、利用可能なトレーニング データの大部分は、翻訳における地域差を考慮していません。
このデータ不足を考慮して、研究者らは、FRMT を少数ショット翻訳のベンチマークとして位置づけ、言語ごとにラベル付きの例が 100 個以下の場合に機械翻訳モデルが特定の領域をどの程度識別できるかを測定しました。
機械翻訳モデルは、少数のラベル付きサンプル (例) に表示される言語パターンに基づいて、他のラベルなしトレーニング サンプル内の同様のパターンを識別する必要があります。モデル内で明示的に指定されていない領域に対して「慣用的な」翻訳を生成するには、モデルをこの方法で一般化する必要があります。
たとえば、次の文を入力します: バスが到着しました。ブラジル系ポルトガル語の例をいくつか挙げると、モデルは「O ônibus chegou」を翻訳できるはずです。与えられたのがヨーロッパ系ポルトガル語の場合、モデルの翻訳結果は「O autocarro chegou」となるはずです。
機械翻訳の数ショット手法は研究価値が高く、非常に簡単な方法で既存のシステムに追加の地域言語のサポートを追加できます。
Google が公開している現在の研究は 2 つの言語の地域別バージョンを対象としていますが、研究者らは、優れたアプローチは他の言語や地域別バージョンにも簡単に適用できると予測しています。
原則として、これらの方法は、エチケットやスタイルなど、他の言語の違い現象にも適用できます。
FRMT データセットには、Wiki40b データセットから派生した英語のウィキペディア記事がいくつか含まれており、有料のプロ翻訳者によってさまざまな地域に翻訳されています。ポルトガル語と中国語。
重要な地域の認識に関する翻訳の課題を強調するために、研究者は 3 つのコンテンツ バケットを使用してデータ セットを設計しました。
語彙バケットは主に、地域ごとの語彙選択の違いに焦点を当てています。 「bus」という単語はそれぞれブラジル語とヨーロッパのポルトガル語に翻訳されるため、モデルは「ônibus」と「autocarro」の違いを識別できる必要があります。
研究者らは、ブログや教育ウェブサイトに基づいて地域固有の翻訳用語を 20 ~ 30 個手動で収集し、各地域のネイティブスピーカーのボランティアからのフィードバックに基づいて翻訳をフィルタリングしてレビューしました。
取得した英語用語のリストに基づいて、関連する英語版 Wikipedia の記事 (バスなど) から 100 文が抽出されます。中国語の場合は、上記と同じ収集プロセスを繰り返します。
エンティティ バケットには、同様の方法で人、場所などが入力されます。関係するエンティティ 特定の言語が関係する 2 つの領域のうちの 1 つとの強いつながり。
たとえば、「リスボンでは、よくバスに乗りました。」(リスボンでは、よくバスに乗りました。)のような説明文が与えられた場合、正しく解釈するためには、ブラジル系ポルトガル語に翻訳すると、モデルは 2 つの潜在的な落とし穴を識別できなければなりません:
#1) リスボンとポルトガルの間のより近い地理的つながりは、モデル翻訳の選択に影響を与える可能性があります。モデルは、ブラジル ポルトガル語ではなくヨーロッパ ポルトガル語に翻訳する必要があると判断します。つまり、「ônibus」の代わりに「autocarro」を選択します。
2) 「リスボン」を「ブラジリア」に置き換えることは、より簡単な方法かもしれません。同じパターンの場合、翻訳結果がまだ非常にスムーズであっても、出力をブラジル系ポルトガル語にローカライズします。しかし、不正確なセマンティクスにつながる可能性もあります。
ランダム バケットは、モデルが他のさまざまな現象 (Wikipedia の特徴など) を正しく処理しているかどうかを確認するために使用されます。コレクションからランダムに選択された 100 個の記事。
#PaLM は、たった 1 つの例で素晴らしい結果を達成しました。ポルトガル語では、次のような場合に品質がわずかに向上しました。例は 10 個に増加しますが、PaLM が教師なしでトレーニングされることを考慮すると、これはすでに非常に優れています。
この調査結果は、PaLM のような言語モデルが、スムーズな翻訳に必要な地域固有の語彙の選択肢を記憶するのに特に優れている可能性があることも示唆しています。
ただし、PaLM と人間の間には依然として大きなパフォーマンスの差があります。
参考資料:
https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html
以上がGoogle、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。