Google、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものに
中国全土の人々は中国語を話しますが、場所によって方言は少し異なります。たとえば、路地という意味もあります。「胡同」と言えば、古い北京であることがわかりますが、実際に行ってみると、南に行くと「胡同」と呼ばれる路地です。
これらの微妙な地域差が「機械翻訳」タスクに反映されると、翻訳結果は十分に「本物」ではないように見えますが、現在のほとんどすべての機械翻訳システムはそうではありません。地域を考慮する 性的言語(つまり方言)の影響。
この現象は世界中にも存在しており、例えばブラジルの公用語はポルトガル語ですが、ヨーロッパのポルトガル語とは地域によって多少の違いがあります。
最近、Google は、主に方言翻訳の問題を解決する、少数ショットの地域認識型機械翻訳に使用できる新しいデータセットと評価ベンチマークFRMTをリリースしました。 TACL (Transactions of the Association for Computational Linguistics) に掲載されました。
論文リンク: https://arxiv.org/pdf/2210.00193.pdf
オープンソースリンク: https:/ / github.com/google-research/google-research/tree/master/frmt
このデータセットには、英語からポルトガル語と中国語の 2 つの地域別バージョンへの専門的な翻訳が含まれており、ソース ドキュメントは、語彙的に異なる用語や干渉用語など、対象の現象を詳細に分析します。
研究者らは、FRMT の自動評価指標を調査し、地域の一致および不一致のスコアリング シナリオの下で専門家の手動評価との相関関係を検証しました。
最後に、このタスク用にいくつかのベースライン モデルが提案され、研究者が独自のモデルをトレーニング、評価、比較する方法に関するガイダンスの提案が提供されます。データセットと評価コードはオープンソースです。
少数ショットの一般化
最新の機械翻訳システムは、英語の入力文とそれに対応するポルトガル語の翻訳で構成される入力データを使用して、数百万または数十億の翻訳サンプルでトレーニングされています。
しかし、利用可能なトレーニング データの大部分は、翻訳における地域差を考慮していません。
このデータ不足を考慮して、研究者らは、FRMT を少数ショット翻訳のベンチマークとして位置づけ、言語ごとにラベル付きの例が 100 個以下の場合に機械翻訳モデルが特定の領域をどの程度識別できるかを測定しました。
機械翻訳モデルは、少数のラベル付きサンプル (例) に表示される言語パターンに基づいて、他のラベルなしトレーニング サンプル内の同様のパターンを識別する必要があります。モデル内で明示的に指定されていない領域に対して「慣用的な」翻訳を生成するには、モデルをこの方法で一般化する必要があります。
たとえば、次の文を入力します: バスが到着しました。ブラジル系ポルトガル語の例をいくつか挙げると、モデルは「O ônibus chegou」を翻訳できるはずです。与えられたのがヨーロッパ系ポルトガル語の場合、モデルの翻訳結果は「O autocarro chegou」となるはずです。
機械翻訳の数ショット手法は研究価値が高く、非常に簡単な方法で既存のシステムに追加の地域言語のサポートを追加できます。
Google が公開している現在の研究は 2 つの言語の地域別バージョンを対象としていますが、研究者らは、優れたアプローチは他の言語や地域別バージョンにも簡単に適用できると予測しています。
原則として、これらの方法は、エチケットやスタイルなど、他の言語の違い現象にも適用できます。
データ コレクション
FRMT データセットには、Wiki40b データセットから派生した英語のウィキペディア記事がいくつか含まれており、有料のプロ翻訳者によってさまざまな地域に翻訳されています。ポルトガル語と中国語。
重要な地域の認識に関する翻訳の課題を強調するために、研究者は 3 つのコンテンツ バケットを使用してデータ セットを設計しました。
1. 語彙語彙
語彙バケットは主に、地域ごとの語彙選択の違いに焦点を当てています。 「bus」という単語はそれぞれブラジル語とヨーロッパのポルトガル語に翻訳されるため、モデルは「ônibus」と「autocarro」の違いを識別できる必要があります。
研究者らは、ブログや教育ウェブサイトに基づいて地域固有の翻訳用語を 20 ~ 30 個手動で収集し、各地域のネイティブスピーカーのボランティアからのフィードバックに基づいて翻訳をフィルタリングしてレビューしました。
取得した英語用語のリストに基づいて、関連する英語版 Wikipedia の記事 (バスなど) から 100 文が抽出されます。中国語の場合は、上記と同じ収集プロセスを繰り返します。
2. エンティティ Entity
エンティティ バケットには、同様の方法で人、場所などが入力されます。関係するエンティティ 特定の言語が関係する 2 つの領域のうちの 1 つとの強いつながり。
たとえば、「リスボンでは、よくバスに乗りました。」(リスボンでは、よくバスに乗りました。)のような説明文が与えられた場合、正しく解釈するためには、ブラジル系ポルトガル語に翻訳すると、モデルは 2 つの潜在的な落とし穴を識別できなければなりません:
#1) リスボンとポルトガルの間のより近い地理的つながりは、モデル翻訳の選択に影響を与える可能性があります。モデルは、ブラジル ポルトガル語ではなくヨーロッパ ポルトガル語に翻訳する必要があると判断します。つまり、「ônibus」の代わりに「autocarro」を選択します。
2) 「リスボン」を「ブラジリア」に置き換えることは、より簡単な方法かもしれません。同じパターンの場合、翻訳結果がまだ非常にスムーズであっても、出力をブラジル系ポルトガル語にローカライズします。しかし、不正確なセマンティクスにつながる可能性もあります。
3. ランダム ランダム
ランダム バケットは、モデルが他のさまざまな現象 (Wikipedia の特徴など) を正しく処理しているかどうかを確認するために使用されます。コレクションからランダムに選択された 100 個の記事。
#PaLM は、たった 1 つの例で素晴らしい結果を達成しました。ポルトガル語では、次のような場合に品質がわずかに向上しました。例は 10 個に増加しますが、PaLM が教師なしでトレーニングされることを考慮すると、これはすでに非常に優れています。
この調査結果は、PaLM のような言語モデルが、スムーズな翻訳に必要な地域固有の語彙の選択肢を記憶するのに特に優れている可能性があることも示唆しています。
ただし、PaLM と人間の間には依然として大きなパフォーマンスの差があります。
参考資料:
https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html
以上がGoogle、初の「方言」データセットをオープンソース化:機械翻訳をより信頼できるものにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。

このガイドは、AndroidおよびiOSシステムに適した公式Bitget Exchangeアプリの詳細なダウンロードとインストール手順を提供します。このガイドは、公式ウェブサイト、App Store、Google Playなど、複数の権威ある情報源からの情報を統合し、ダウンロードおよびアカウント管理中の考慮事項を強調しています。ユーザーは、App Store、公式WebサイトAPKダウンロード、公式Webサイトジャンプ、完全な登録、ID検証、セキュリティ設定など、公式チャネルからアプリをダウンロードできます。さらに、ガイドはよくある質問や考慮事項をカバーします。
