研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータ トラップに注意する必要があります
アマゾン クラウド コンピューティング人工知能研究所の研究者らは最近、インターネット上に機械翻訳によって生成された大量のコンテンツが存在し、これらの翻訳の品質が複数の言語間で優れていることを発見しました。言語は一般に貧弱です。研究チームは、大規模な言語モデルをトレーニングする際のデータの品質と出所の重要性を強調しました。この発見は、高品質の言語モデルを構築する際には、データの品質とソースの選択にさらに注意を払う必要があることを浮き彫りにしています。
この調査では、リソースが少ない言語からの翻訳では機械生成コンテンツが蔓延しており、Web コンテンツの大部分を占めていることも判明しました。
このサイトは、研究チームが機械翻訳コンテンツの特性をよりよく理解するために MWccMatrix と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語をカバーする 64 億の一意の文が含まれており、翻訳タプルとして知られる、相互に翻訳する文の組み合わせが提供されます。
この調査では、大量のオンライン コンテンツが、多くの場合機械翻訳を通じて複数の言語に翻訳されていることがわかりました。この現象は、リソースが少ない言語からの翻訳でよく見られ、これらの言語の Web コンテンツの大部分を占めています。
研究者らは、広告収入などの目的で複数の言語に翻訳されるコンテンツの選択性バイアスにも注目しました。
私の調査に基づいて、私は次の結論に達しました:「機械翻訳技術は過去 10 年間で大幅に進歩しましたが、依然として人間の品質レベルには達していません。過去何年もの間、人々は何を使用してきましたか?」当時は機械翻訳システムが Web にコンテンツを追加していたため、Web 上の機械翻訳されたコンテンツの多くは比較的低品質である可能性が高く、現代の基準を満たしていませんでした。これにより、より多くの「幻覚」が発生する可能性があります。 LLM モデル, 一方、選択バイアスは、機械翻訳エラーを考慮しなくても、データ品質も低い可能性があることを示唆しています。LLM のトレーニングでは、データ品質が重要であり、書籍やウィキペディアの記事などの高品質のコーパスには通常、複数のデータが必要ですアップサンプリング。"
以上が研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータ トラップに注意する必要がありますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









翻訳者 | Bugatti レビュー | Chonglou この記事では、GroqLPU 推論エンジンを使用して JanAI と VSCode で超高速応答を生成する方法について説明します。 Groq は AI のインフラストラクチャ側に焦点を当てているなど、誰もがより優れた大規模言語モデル (LLM) の構築に取り組んでいます。これらの大型モデルがより迅速に応答するためには、これらの大型モデルからの迅速な応答が鍵となります。このチュートリアルでは、GroqLPU 解析エンジンと、API と JanAI を使用してラップトップ上でローカルにアクセスする方法を紹介します。この記事では、これを VSCode に統合して、コードの生成、コードのリファクタリング、ドキュメントの入力、テスト ユニットの生成を支援します。この記事では、独自の人工知能プログラミングアシスタントを無料で作成します。 GroqLPU 推論エンジン Groq の概要

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

大規模な言語モデルの可能性が刺激され、大規模な言語モデルをトレーニングすることなく高精度の時系列予測を達成でき、従来のすべての時系列モデルを上回ります。モナシュ大学、Ant、IBM Research は共同で、モダリティ全体で配列データを処理する大規模言語モデルの機能を促進する一般的なフレームワークを開発しました。このフレームワークは重要な技術革新となっています。時系列予測は、都市、エネルギー、交通、リモート センシングなどの典型的な複雑なシステムにおける意思決定に役立ちます。それ以来、大規模モデルは時系列/時空間データ マイニングに革命をもたらすと期待されています。一般大規模言語モデル再プログラミング フレームワーク研究チームは、トレーニングなしで一般的な時系列予測に大規模言語モデルを簡単に使用するための一般的なフレームワークを提案しました。主に 2 つの主要なテクノロジが提案されています: タイミング入力再プログラミング、プロンプト プレフィックス。時間-

この記事は、第 2 回 OpenHarmony テクノロジー カンファレンスで実証された「OpenHarmony での大規模言語モデルのローカル デプロイメント」の結果をオープンソース化します。オープンソースのアドレス: https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty。 /InferLLM/docs/hap_integrate.md。実装のアイデアと手順は、軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmony 標準システムに移植し、OpenHarmony 上で実行できるバイナリ製品をコンパイルすることです。 InferLLM はシンプルで効率的な L

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

大規模言語モデル (LLM) は、言語理解とさまざまな推論タスクにおいて優れたパフォーマンスを示します。しかし、人間の認知の重要な側面である空間推論におけるそれらの役割は、依然として十分に研究されていません。人間には、心の目として知られるプロセスを通じて、目に見えない物体や行動の精神的なイメージを作成する能力があり、目に見えない世界を想像することが可能になります。この認知能力に触発されて、研究者らは「思考の視覚化」(VoT)を提案しました。 VoT は、LLM の推論の兆候を視覚化することで LLM の空間推論をガイドし、それによって後続の推論ステップをガイドすることを目的としています。研究者は、自然言語ナビゲーション、視覚などのマルチホップ空間推論タスクに VoT を適用します。

大規模言語モデル (LLM) は過去 2 年間で急速に発展し、GPT-4、Gemini、Claude などのいくつかの驚異的なモデルや製品が登場しましたが、それらのほとんどはクローズド ソースです。現在研究コミュニティが利用できるほとんどのオープンソース LLM とクローズドソース LLM の間には大きな隔たりがあるため、オープンソース LLM やその他の小規模モデルの機能を改善して、クローズドソースの大規模モデルとの隔たりを減らすことが研究のホットスポットとなっています。この分野で。 LLM、特にクローズドソース LLM の強力な機能により、科学研究者や産業従事者は、独自のモデルをトレーニングする際に、これらの大規模モデルの出力と知識を利用できます。このプロセスは本質的に知識の蒸留です (Knowledge、Dist

現在、人工知能テクノロジーが直面している最大のリスクは、大規模言語モデル (LLM) と生成人工知能テクノロジーの開発と適用の速度が、セキュリティとガバナンスの速度をはるかに超えていることです。 OpenAI、Anthropic、Google、Microsoft などの企業による生成 AI および大規模言語モデル製品の使用は飛躍的に増加しています。同時に、オープンソースの大規模言語モデル ソリューションも急速に成長しています。HuggingFace などのオープンソース人工知能コミュニティは、多数のオープンソース モデル、データ セット、AI アプリケーションを提供しています。人工知能の開発を促進するために、OWASP、OpenSSF、CISA などの業界団体は、OWASPAIExchange、
