ホームページ

テクノロジー周辺機器

研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータトラップに注意する必要があります

研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータトラップに注意する必要があります

王林

Feb 04, 2024 pm 02:42 PM

大規模な言語モデル

アマゾンクラウドコンピューティング人工知能研究所の研究者らは最近、インターネット上に機械翻訳によって生成された大量のコンテンツが存在し、これらの翻訳の品質が複数の言語間で優れていることを発見しました。言語は一般に貧弱です。研究チームは、大規模な言語モデルをトレーニングする際のデータの品質と出所の重要性を強調しました。この発見は、高品質の言語モデルを構築する際には、データの品質とソースの選択にさらに注意を払う必要があることを浮き彫りにしています。

この調査では、リソースが少ない言語からの翻訳では機械生成コンテンツが蔓延しており、Web コンテンツの大部分を占めていることも判明しました。

このサイトは、研究チームが機械翻訳コンテンツの特性をよりよく理解するために MWccMatrix と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語をカバーする 64 億の一意の文が含まれており、翻訳タプルとして知られる、相互に翻訳する文の組み合わせが提供されます。

この調査では、大量のオンラインコンテンツが、多くの場合機械翻訳を通じて複数の言語に翻訳されていることがわかりました。この現象は、リソースが少ない言語からの翻訳でよく見られ、これらの言語の Web コンテンツの大部分を占めています。

研究者らは、広告収入などの目的で複数の言語に翻訳されるコンテンツの選択性バイアスにも注目しました。

私の調査に基づいて、私は次の結論に達しました:「機械翻訳技術は過去 10 年間で大幅に進歩しましたが、依然として人間の品質レベルには達していません。過去何年もの間、人々は何を使用してきましたか?」当時は機械翻訳システムが Web にコンテンツを追加していたため、Web 上の機械翻訳されたコンテンツの多くは比較的低品質である可能性が高く、現代の基準を満たしていませんでした。これにより、より多くの「幻覚」が発生する可能性があります。 LLM モデル, 一方、選択バイアスは、機械翻訳エラーを考慮しなくても、データ品質も低い可能性があることを示唆しています。LLM のトレーニングでは、データ品質が重要であり、書籍やウィキペディアの記事などの高品質のコーパスには通常、複数のデータが必要ですアップサンプリング。"

以上が研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータトラップに注意する必要がありますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7476

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Groq Llama 3 70B をローカルで使用するためのステップバイステップガイド Jun 10, 2024 am 09:16 AM

翻訳者 | Bugatti レビュー | Chonglou この記事では、GroqLPU 推論エンジンを使用して JanAI と VSCode で超高速応答を生成する方法について説明します。 Groq は AI のインフラストラクチャ側に焦点を当てているなど、誰もがより優れた大規模言語モデル (LLM) の構築に取り組んでいます。これらの大型モデルがより迅速に応答するためには、これらの大型モデルからの迅速な応答が鍵となります。このチュートリアルでは、GroqLPU 解析エンジンと、API と JanAI を使用してラップトップ上でローカルにアクセスする方法を紹介します。この記事では、これを VSCode に統合して、コードの生成、コードのリファクタリング、ドキュメントの入力、テストユニットの生成を支援します。この記事では、独自の人工知能プログラミングアシスタントを無料で作成します。 GroqLPU 推論エンジン Groq の概要

GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データサイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

大規模モデルは時系列予測にも非常に強力です。中国チームがLLMの新機能を有効にし、従来のモデルを超えたSOTAを達成 Apr 11, 2024 am 09:43 AM

大規模な言語モデルの可能性が刺激され、大規模な言語モデルをトレーニングすることなく高精度の時系列予測を達成でき、従来のすべての時系列モデルを上回ります。モナシュ大学、Ant、IBM Research は共同で、モダリティ全体で配列データを処理する大規模言語モデルの機能を促進する一般的なフレームワークを開発しました。このフレームワークは重要な技術革新となっています。時系列予測は、都市、エネルギー、交通、リモートセンシングなどの典型的な複雑なシステムにおける意思決定に役立ちます。それ以来、大規模モデルは時系列/時空間データマイニングに革命をもたらすと期待されています。一般大規模言語モデル再プログラミングフレームワーク研究チームは、トレーニングなしで一般的な時系列予測に大規模言語モデルを簡単に使用するための一般的なフレームワークを提案しました。主に 2 つの主要なテクノロジが提案されています: タイミング入力再プログラミング、プロンプトプレフィックス。時間-

OpenHarmony で大規模な言語モデルをローカルにデプロイする Jun 07, 2024 am 10:02 AM

この記事は、第 2 回 OpenHarmony テクノロジーカンファレンスで実証された「OpenHarmony での大規模言語モデルのローカルデプロイメント」の結果をオープンソース化します。オープンソースのアドレス: https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty。 /InferLLM/docs/hap_integrate.md。実装のアイデアと手順は、軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmony 標準システムに移植し、OpenHarmony 上で実行できるバイナリ製品をコンパイルすることです。 InferLLM はシンプルで効率的な L

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザープリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマートスクリーン S5Pro など、スマートトラベル、スマートオフィスからスマートウェアに至るまで、多くの新しいオールシナリオスマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフルシナリオのスマートエコシステムを構築し続けています。すべてのインターネット。宏孟志興氏：スマートカー業界のアップグレードを促進するための徹底的な権限付与ファーウェイは中国の自動車業界パートナーと提携して、

大規模言語モデルの空間推論能力を刺激する: 思考の視覚化のヒント Apr 11, 2024 pm 03:10 PM

大規模言語モデル (LLM) は、言語理解とさまざまな推論タスクにおいて優れたパフォーマンスを示します。しかし、人間の認知の重要な側面である空間推論におけるそれらの役割は、依然として十分に研究されていません。人間には、心の目として知られるプロセスを通じて、目に見えない物体や行動の精神的なイメージを作成する能力があり、目に見えない世界を想像することが可能になります。この認知能力に触発されて、研究者らは「思考の視覚化」（VoT）を提案しました。 VoT は、LLM の推論の兆候を視覚化することで LLM の空間推論をガイドし、それによって後続の推論ステップをガイドすることを目的としています。研究者は、自然言語ナビゲーション、視覚などのマルチホップ空間推論タスクに VoT を適用します。

Tao Dacheng のチームは、香港大学および UMD と共同で、374 件の関連著作を要約し、LLM 知識蒸留に関する最新のレビューを発表しました。 Mar 18, 2024 pm 07:49 PM

大規模言語モデル (LLM) は過去 2 年間で急速に発展し、GPT-4、Gemini、Claude などのいくつかの驚異的なモデルや製品が登場しましたが、それらのほとんどはクローズドソースです。現在研究コミュニティが利用できるほとんどのオープンソース LLM とクローズドソース LLM の間には大きな隔たりがあるため、オープンソース LLM やその他の小規模モデルの機能を改善して、クローズドソースの大規模モデルとの隔たりを減らすことが研究のホットスポットとなっています。この分野で。 LLM、特にクローズドソース LLM の強力な機能により、科学研究者や産業従事者は、独自のモデルをトレーニングする際に、これらの大規模モデルの出力と知識を利用できます。このプロセスは本質的に知識の蒸留です (Knowledge、Dist

OWASP が大規模言語モデルのネットワークセキュリティとガバナンスのチェックリストをリリース Apr 17, 2024 pm 07:31 PM

現在、人工知能テクノロジーが直面している最大のリスクは、大規模言語モデル (LLM) と生成人工知能テクノロジーの開発と適用の速度が、セキュリティとガバナンスの速度をはるかに超えていることです。 OpenAI、Anthropic、Google、Microsoft などの企業による生成 AI および大規模言語モデル製品の使用は飛躍的に増加しています。同時に、オープンソースの大規模言語モデルソリューションも急速に成長しています。HuggingFace などのオープンソース人工知能コミュニティは、多数のオープンソースモデル、データセット、AI アプリケーションを提供しています。人工知能の開発を促進するために、OWASP、OpenSSF、CISA などの業界団体は、OWASPAIExchange、

See all articles

研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータ トラップに注意する必要があります

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

研究: インターネットには低品質の機械翻訳されたコンテンツが溢れており、大規模な言語モデルのトレーニングではデータトラップに注意する必要があります