研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータ トラップに注意する必要があります

王林
リリース: 2024-02-04 14:42:03
転載
1072 人が閲覧しました

研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータ トラップに注意する必要があります

アマゾン クラウド コンピューティング人工知能研究所の研究者らは最近、インターネット上に機械翻訳によって生成された大量のコンテンツが存在し、これらの翻訳の品質が複数の言語間で優れていることを発見しました。言語は一般に貧弱です。研究チームは、大規模な言語モデルをトレーニングする際のデータの品質と出所の重要性を強調しました。この発見は、高品質の言語モデルを構築する際には、データの品質とソースの選択にさらに注意を払う必要があることを浮き彫りにしています。

この調査では、リソースが少ない言語からの翻訳では機械生成コンテンツが蔓延しており、Web コンテンツの大部分を占めていることも判明しました。

このサイトは、研究チームが機械翻訳コンテンツの特性をよりよく理解するために MWccMatrix と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語をカバーする 64 億の一意の文が含まれており、翻訳タプルとして知られる、相互に翻訳する文の組み合わせが提供されます。

この調査では、大量のオンライン コンテンツが、多くの場合機械翻訳を通じて複数の言語に翻訳されていることがわかりました。この現象は、リソースが少ない言語からの翻訳でよく見られ、これらの言語の Web コンテンツの大部分を占めています。

研究者らは、広告収入などの目的で複数の言語に翻訳されるコンテンツの選択性バイアスにも注目しました。

私の調査に基づいて、私は次の結論に達しました:「機械翻訳技術は過去 10 年間で大幅に進歩しましたが、依然として人間の品質レベルには達していません。過去何年もの間、人々は何を使用してきましたか?」当時は機械翻訳システムが Web にコンテンツを追加していたため、Web 上の機械翻訳されたコンテンツの多くは比較的低品質である可能性が高く、現代の基準を満たしていませんでした。これにより、より多くの「幻覚」が発生する可能性があります。 LLM モデル, 一方、選択バイアスは、機械翻訳エラーを考慮しなくても、データ品質も低い可能性があることを示唆しています。LLM のトレーニングでは、データ品質が重要であり、書籍やウィキペディアの記事などの高品質のコーパスには通常、複数のデータが必要ですアップサンプリング。"

以上が研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータ トラップに注意する必要がありますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート