目次
論文の概要
1000 言語の Web テキスト データ セットを作成する
ホームページ テクノロジー周辺機器 AI Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

Apr 08, 2023 pm 03:21 PM
グーグル モデル 翻訳する

学術および商用の機械翻訳システム (MT) の品質は、過去 10 年間で劇的に向上しました。これらの改善は主に、機械学習の進歩と大規模な Web マイニング データセットの利用可能性によるものです。同時に、ディープラーニング(DL)およびE2Eモデル、Webマイニングから得られる大規模な並列単一言語データセット、逆翻訳や自己学習などのデータ拡張手法、および大規模な多言語データセットの出現。言語モデリングは、100 言語を超える高品質の機械翻訳システムをサポートする機能をもたらしました。

しかし、低リソースの機械翻訳は大きく進歩しているにもかかわらず、広く利用可能な一般的な機械翻訳システムが構築されている言語の数は約 100 言語に限られています。それらは明らかに今日最も包括的なものにすぎず、世界で話されている 7,000 以上の言語のうちのいくつかです。言語の数が限られていることに加えて、現在の機械翻訳システムがサポートする言語の分布もヨーロッパ言語に大きく偏っています。

人口が多いにもかかわらず、アフリカ、南アジア、東南アジアで話されている言語、およびアメリカ先住民の言語を対象としたサービスが少ないことがわかります。たとえば、Google 翻訳はフリジア語、マルタ語、アイスランド語、コルシカ語をサポートしていますが、これらの言語の母語話者はいずれも 100 万人未満です。比較すると、Google 翻訳が提供されていないビハール語の人口は約 5,100 万人、オロモ語の人口は約 2,400 万人、ケチュア語の人口は約 900 万人、ティグリニャ語の人口は約 900 万人です (2022 年)。これらの言語は「ロングテール」言語として知られており、データが不足しているため、十分なトレーニング データがあれば言語を超えて一般化できる機械学習技術の適用が必要です。

これらのロングテール言語の機械翻訳システムの構築は、利用可能なデジタル化されたデータ セットや言語識別 (LangID) モデルなどの NLP ツールが不足しているため、大きく制限されています。これらは高リソース言語ではどこにでもあります。

最近の Google の論文「次の 1,000 の言語のための機械翻訳システムの構築」では、20 名を超える研究者が、1,000 を超える言語をサポートする実用的な機械を構築する取り組みを実証しました。結果。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

論文アドレス: https://arxiv.org/pdf/2205.03983.pdf

特定の具体的には、研究者らは以下の 3 つの研究分野からの成果について説明します。

まず、言語認識とデータ駆動型フィルタリング技術のための半教師あり事前トレーニングを通じて、1,500 言語用のクリーンなウェブマイニング データセットが作成されます。

2 番目に、100 を超える高リソース言語の教師付き並列データと、さらに 1,000 の追加言語の単言語データセットを使用してトレーニングされた大規模な多言語モデルを通じて、実際に十分なサービスが提供されていない言語でも機能します。

第三に、これらの言語の評価指標の限界を研究し、機械翻訳モデルの出力の定性分析を実施し、そのようなモデルのいくつかの一般的なエラー パターンに焦点を当てます。

この研究が、現在研究が進んでいない言語の機械翻訳システムの構築に取り組む実務者に有益な洞察を提供することを願っています。さらに研究者らは、この研究が、データがまばらな環境における大規模多言語モデルの弱点に対処する研究の方向性につながることを期待している。

5 月 12 日の I/O カンファレンスで、Google は、自社の翻訳システムに、ニッチなアメリカ先住民の言語を含む 24 の新しい言語を追加したと発表しました。前述のケチュア語とティグリニャ語。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

論文の概要

この研究は主に 4 つの主要な章に分かれており、ここではそれぞれの章についてのみ説明します。各章の内容を簡単に紹介します。

1000 言語の Web テキスト データ セットを作成する

この章では、1500 言語の単一言語テキスト データをクロールする研究者の取り組みについて詳しく説明します。収集プロセスで使用されます。これらの方法は、高精度データ (つまり、高い割合のきれいな言語内テキスト) を回復することに重点を置いているため、さまざまなフィルタリング方法が大部分を占めます。

一般に、研究者が使用する方法には次のようなものがあります:

  • トレーニング データの品質と LangID パフォーマンスが低い言語を LangID モデルから削除し、1629 言語の CLD3 LangID モデルと半教師あり LangID (SSLID) モデルをトレーニングします。
  • CLD3 モデルの言語のエラー率に基づいてクラスタリング操作を実行します;
  • CLD3 モデルを使用して Web クローリングの最初のラウンドを実行します;
  • 文書の一貫性を使用して文をフィルタリングします;
  • パーセンテージしきい値の単語リストを使用してすべてのコーパスをフィルタリングします;
  • 半教師あり LangID (SSLID) を使用してすべてのコーパスをフィルターします;
  • 相対再現率を使用して外れ値言語を検出し、用語周波数逆インターネット周波数 (TF-IIF) を使用してフィルターします;
  • トークン頻度の異常性スコアを使用して外れ値言語を検出し、それらのフィルターを手動で設計します;
  • 文のすべてのコーパスに直面しますレベル 重複排除操作を実行します。

以下は、1745 言語の CLD3 LangID モデルを使用した Web テキストのドキュメント整合性スコアのヒストグラムです。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

#以下の表 2 は、単一言語データの一部である完全な低リソース言語 (LRL) データ セットの単一言語データを示しています。モデルのトレーニングに使用され、高リソース言語を含む完全なトレーニング セットの単一言語統計が含まれます。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

章のディレクトリは次のとおりです。

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

は次のとおりです。ロングテール言語 機械翻訳モデルの構築

Web からマイニングされた単一言語データの場合、次の課題は、限られた量の単一言語データから高品質の一般的な機械翻訳モデルを作成することです。トレーニングデータ。この目的を達成するために、研究者らは、高リソース言語で利用可能なすべての並列データを活用して、単一言語データのみが利用可能なロングテール言語の品質を向上させるという実用的なアプローチを採用しました。ロングテール言語には直接の監視がないため、彼らはこのセットアップを「ゼロリソース」と呼んでいます。

研究者らは、ロングテール言語のゼロリソース翻訳の品質を向上させるために、過去数年間に機械翻訳用に開発されたいくつかの技術を使用してきました。これらの手法には、単言語データからの自己教師あり学習、大規模な多言語教師あり学習、大規模な逆変換、および大容量モデルの自己トレーニングが含まれます。彼らはこれらのツールを使用して、約 100 言語をカバーする既存の対訳コーパスと Web から構築された 1,000 言語の単一言語データセットを利用して、1,000 言語を翻訳できる機械翻訳モデルを作成しました。

具体的には、研究者らはまず、ゼロリソース翻訳 (3.2) における 15 億パラメータと 60 億パラメータのトランスフォーマのパフォーマンスを比較することで、高度な多言語モデルにおけるモデル能力の重要性を強調しました。自己教師あり言語の数を 1000 に増やし、同様の言語からのより多くの単言語データが利用可能になるにつれて、ほとんどのロングテール言語のパフォーマンスが向上することを検証しました (3.3)。研究者の 1,000 言語モデルは妥当なパフォーマンスを示しましたが、アプローチの長所と限界を理解するために大規模なデータ拡張を組み込みました。

さらに、研究者らは、自己学習と逆翻訳を通じて、大量の合成データを含む 30 言語のサブセットで生成モデルを微調整しました (3.4)。彼らはさらに、幻覚や誤った言語翻訳に対するこれらの微調整されたモデルの堅牢性を高めるために、合成データをフィルタリングするための実践的な方法についても説明しています (3.5)。

また、シーケンスレベルの蒸留を使用して、これらのモデルをより小さく、推論しやすいアーキテクチャに改良し、教師モデルと生徒モデル間のパフォーマンスのギャップを強調しました (3.6)。

章のディレクトリは次のとおりです:

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

Assessment

機械翻訳モデルを評価するために、研究者らはまず英語の文章をこれらの言語に翻訳し、選択した 38 のロングテール言語の評価セット (4.1) を構築しました。彼らは、ロングテール設定における BLEU の制限を強調し、CHRF (4.2) を使用してこれらの言語を評価します。

研究者らはまた、参照セットが利用できない言語でのモデルの品質を理解するために、往復翻訳に基づいた近似の非参照メトリクスを提案しました。このメトリックによって測定されたモデルの結果が報告されます (4.3)。彼らは、28 言語のサブセットに対して人によるモデルの評価を実行し、その結果を報告し、論文 (4.4) で説明されているアプローチに従って有用な機械翻訳システムを構築できることを確認しました。

大規模な多言語ゼロリソースモデルの弱点を理解するために、研究者はいくつかの言語について定性的エラー分析を実施しました。このモデルでは、「トラ」が「小さなワニ」になるなど、分布が似ている単語や概念が混同されることが多いことがわかりました (4.5)。また、より低いリソース設定 (4.6) では、出現頻度が低いトークンのトークンを変換するモデルの能力が低下します。

研究者らは、これらのモデルが短い単語や単一の単語の入力を正確に翻訳できないことが多いことも発見しました (4.7)。洗練されたモデルに関する研究では、すべてのモデルがトレーニング データに存在するバイアスやノイズを増幅する可能性が高いことが示されています (4.8)。

#この章の目次は次のとおりです:

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

##追加の実験とメモ

研究者らは、上記のモデルに対していくつかの追加実験を実施し、英語をピボットとして使用せずに類似言語間で直接翻訳する方が一般に優れたパフォーマンスを示し (5.1)、異なる言語間で使用できることを示しました。 scripts (5.2) のゼロサンプル音訳。

彼らは、ピリオド トリックと呼ばれる、任意の入力に終端句読点を追加する実用的なテクニックについて説明しています。これは、翻訳品質を向上させるために使用できます (5.3) 。

さらに、これらのモデルがすべてではないが一部の言語 (5.4) での非標準 Unicode グリフの使用に対して堅牢であることを実証し、いくつかの非 Unicode フォントを調査します。 (5.5)。

章リストは次のとおりです:

Google は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。

研究の詳細については、原文を参照してください。紙。

以上がGoogle は 1,000 以上の「ロングテール」言語用の機械翻訳システムを作成しており、すでにいくつかのニッチな言語をサポートしています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Deepseekをコメントする方法 Deepseekをコメントする方法 Feb 19, 2025 pm 05:42 PM

DeepSeekは、強力な情報を取得することですが、その不利な点は遅いことです。

DeepSeekを検索する方法 DeepSeekを検索する方法 Feb 19, 2025 pm 05:39 PM

DeepSeekは、特定のデータベースまたはシステムでのみ検索する独自の検索エンジンであり、より速く、より正確です。それを使用する場合、ユーザーはドキュメントを読み、さまざまな検索戦略を試し、ユーザーエクスペリエンスに関するヘルプを求めてフィードバックを求めて、利点を最大限に活用することをお勧めします。

セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 セサミオープンドア交換Webページ登録リンクゲートトレーディングアプリ登録Webサイト最新 Feb 28, 2025 am 11:06 AM

この記事では、SESAME Open Exchange(gate.io)Webバージョンの登録プロセスとGate Tradingアプリを詳細に紹介します。 Web登録であろうとアプリの登録であろうと、公式Webサイトまたはアプリストアにアクセスして、本物のアプリをダウンロードし、ユーザー名、パスワード、電子メール、携帯電話番号、その他の情報を入力し、電子メールまたは携帯電話の確認を完了する必要があります。

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? Feb 21, 2025 pm 10:57 PM

Bybit Exchangeリンクを直接ダウンロードしてインストールできないのはなぜですか? BYBITは、ユーザーにトレーディングサービスを提供する暗号通貨交換です。 Exchangeのモバイルアプリは、次の理由でAppStoreまたはGooglePlayを介して直接ダウンロードすることはできません。1。AppStoreポリシーは、AppleとGoogleがApp Storeで許可されているアプリケーションの種類について厳しい要件を持つことを制限しています。暗号通貨交換アプリケーションは、金融サービスを含み、特定の規制とセキュリティ基準を必要とするため、これらの要件を満たしていないことがよくあります。 2。法律と規制のコンプライアンス多くの国では、暗号通貨取引に関連する活動が規制または制限されています。これらの規制を遵守するために、BYBITアプリケーションは公式Webサイトまたはその他の認定チャネルを通じてのみ使用できます

Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Crypto Digital Asset Trading App(2025グローバルランキング)に推奨されるトップ10 Mar 18, 2025 pm 12:15 PM

この記事では、Binance、Okx、Gate.io、Bitflyer、Kucoin、Bybit、Coinbase Pro、Kraken、Bydfi、Xbit分散化された交換など、注意を払う価値のある上位10の暗号通貨取引プラットフォームを推奨しています。これらのプラットフォームには、トランザクションの数量、トランザクションの種類、セキュリティ、コンプライアンス、特別な機能の点で独自の利点があります。適切なプラットフォームを選択するには、あなた自身の取引体験、リスク許容度、投資の好みに基づいて包括的な検討が必要です。 この記事があなたがあなた自身に最適なスーツを見つけるのに役立つことを願っています

セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス セサミオープンドアトレーディングプラットフォームダウンロードモバイルバージョンgateioトレーディングプラットフォームのダウンロードアドレス Feb 28, 2025 am 10:51 AM

アプリをダウンロードしてアカウントの安全を確保するために、正式なチャネルを選択することが重要です。

セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 セサミオープンドアエクスチェンジウェブページログイン最新バージョンgateio公式ウェブサイトの入り口 Mar 04, 2025 pm 11:48 PM

ログインステップやパスワード回復プロセスなど、セサミオープンエクスチェンジWebバージョンのログイン操作の詳細な紹介も、ログイン障害、ページを開くことができず、プラットフォームにスムーズにログインするのに役立つ検証コードを受信できません。

Binance Binance公式Webサイト最新バージョンログインポータル Binance Binance公式Webサイト最新バージョンログインポータル Feb 21, 2025 pm 05:42 PM

Binance Webサイトログインポータルの最新バージョンにアクセスするには、これらの簡単な手順に従ってください。公式ウェブサイトに移動し、右上隅の[ログイン]ボタンをクリックします。既存のログインメソッドを選択してください。「登録」してください。登録済みの携帯電話番号または電子メールとパスワードを入力し、認証を完了します(モバイル検証コードやGoogle Authenticatorなど)。検証が成功した後、Binance公式WebサイトLogin Portalの最新バージョンにアクセスできます。

See all articles