目次
Wikipedia から WoWhead へ
フィルターに欠けている魚は何ですか?
あなたのウェブサイトは AI のトレーニングに使用されていますか?
ホームページ テクノロジー周辺機器 AI 米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

May 01, 2023 pm 04:07 PM
AI チャットボット

米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

4 月 20 日のニュース、人工知能チャットボットは過去 4 か月でますます人気が高まっており、複雑な学術論文の執筆や研究の実施など、さまざまなタスクを完了できるようになりました。 . 激しい会話と驚くべき能力。

チャットボットは人間のようには考えず、自分が何を話しているのかさえ知りません。彼らを動かす人工知能が膨大な量のテキストを吸収しており、その多くはインターネットから収集されているため、人間の音声を模倣することができます。

これらのテキストは、構築中の世界に関する AI の主な情報源であり、AI の反応に重大な影響を与える可能性があります。人工知能が司法試験で優れた成績を収めた場合、それはその学習データに何千もの LSAT (ロースクール入学試験、アメリカのロースクール入学試験) の情報が含まれているためである可能性があります。

テクノロジー企業は、人工知能にどのような情報を提供するかについて常に秘密にしています。そこでワシントン・ポスト紙は、これらの重要なデータセットの 1 つを分析し、AI のトレーニングに使用される独自の、個人的で、しばしば攻撃的な Web サイトの種類を明らかにすることに着手しました。

人工知能トレーニング データの内部構成を調査するために、ワシントン ポストはアレン人工知能研究所の研究者と協力して、Google の C4 データセットを分析しました。このデータセットは 1,500 万を超える Web サイトの大規模なスナップショットであり、そのコンテンツは、Google の T5 や Facebook の LLaMA など、多くの有名な英語 AI のトレーニングに使用されます。 OpenAIは、チャットボットChatGPTをサポートするモデルのトレーニングにどのような種類のデータセットを使用したかは明らかにしていない。

この調査では、研究者らはウェブ分析会社Similarwebのデータを使用してウェブサイトを分類しました。これらのサイトの約 3 分の 1 は分類できず、主にインターネット上に存在していないため除外されました。次に研究者らは、データセット内の各 Web サイトに出現する「トークン」の数に基づいて、残りの 1,000 万件の Web サイトをランク付けしました。トークンは、AI モデルのトレーニングに使用される小さなテキスト処理情報 (通常は単語または語句) です。

Wikipedia から WoWhead へ

米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」

C4 データセット内の Web サイトは、主にニュース、エンターテイメント、ソフトウェア開発、医療、コンテンツ作成などの業界のものです。これは、これらの分野が人工知能の新たな波によって脅かされている理由を説明できる可能性があります。上位 3 つの Web サイトは、1 つ目は世界中で公開された特許テキストを含む Google Patent Search、2 つ目は Wikipedia、3 つ目は有料購読のみを受け付けているデジタル ライブラリである Scribd です。さらに、他の上位 Web サイトには、違法行為を理由に米国司法省によって閉鎖された海賊版電子書籍マーケットプレイス Library (190 位) があります。さらに、データセットには、海賊版および偽造品の市場として米国政府によって特定された Web サイトが少なくとも 27 件あります。

また、World of Warcraft プレイヤー向けのフォーラムである wowhead (181 位)、燃え尽き症候群との戦いを支援するために Arianna Huffington によって設立された Web サイトなど、いくつかのトップ サイトも紹介されています。 )。さらに、ダンプステロイド (No. 183) を含む、ダンプスターを販売する Web サイトが少なくとも 10 件ありますが、現在はアクセスできないようです。

ほとんどの Web サイトは安全ですが、一部には重大なプライバシーの問題があります。たとえば、上位 100 位にランクされた 2 つの Web サイトには、非公開でホストされている州の有権者登録データベースのコピーがリストされています。有権者のデータは公開されていますが、これらのモデルはこの個人情報を未知の方法で使用する可能性があります。

産業用および商業用 Web サイトが最大のカテゴリを占めています (分類されたトークンの 16% を占めます)。リストのトップは、投資アドバイスを提供する The Motley Fool (13 位) です。次に Kickstarter (25 位) は、ユーザーがクリエイティブなプロジェクトにクラウドファンディングを行える Web サイトです。 2,398 位で下位にランクされている Patreon は、クリエイターが独占コンテンツの購読者から月額料金を徴収するのに役立ちます。

ただし、Kickstarter と Patreon では、人工知能がアーティストのアイデアやマーケティング コピーにアクセスできるようになる可能性があり、ユーザーに提案を提供するときに AI がこれらの作品をコピーするのではないかという懸念が生じます。アーティストらは、自分の作品がAIトレーニングデータに含まれている場合、現在何の補償も受け取っていないが、テキストから画像へのジェネレーターであるStable Diffusion、MidJourney、DeviantArtに対して著作権侵害の申し立てを行った。

このワシントン ポストの分析によると、さらなる法的問題が起こる可能性があります。C4 データ セットには、著作権シンボル (知的財産として登録されている作品を示す) が 2 億件以上存在します。

テクニカル Web サイトは 2 番目に大きいカテゴリで、分類されたトークンの 15% を占めます。これには、人々が Web サイトを構築するのに役立つ多くのプラットフォームが含まれています。たとえば、Google サイト (85 位) には、イギリスのレディングにある柔道クラブからニュージャージー州の幼稚園に至るまで、あらゆるものをカバーするページがあります。

C4 データ セットには、機密コンテンツの 3.8% を占める 500,000 を超える個人ブログも含まれています。出版プラットフォーム Medium は 46 位にランクされ、そのドメイン名の下に数万のブログが存在する 5 番目に大きなテクノロジー Web サイトです。さらに、WordPress、Tumblr、Blogpot、Live Journal などのプラットフォームで書かれたブログもあります。

これらのブログは、専門的なものから個人的なものまで多岐にわたります。たとえば、匿名の学者 2 人が共同執筆した「Grumpy Rumbles」というブログなど、そのうちの 1 人はパートナーがどのように職を失ったかについて最近書いています。夫婦の税金。さらに、C4 データセットには実写のロールプレイング ゲームに焦点を当てたトップ ブログがいくつかあります。

Facebook や Twitter (現代の Web の中核と考えられている) などのソーシャル ネットワークのコンテンツはクロールからブロックされています。これは、人工知能のトレーニングに使用されるほとんどのデータ セットがそれらにアクセスできないことを意味します。 Facebook や Google などのテクノロジー大手は、膨大な量の会話データを保管していますが、個人ユーザー情報を使用して、社内で使用したり製品として販売したりする人工知能モデルをトレーニングする方法をまだ知りません。

ニュースとメディア サイトがすべてのカテゴリで 3 位にランクされ、上位 10 サイトの半分は報道機関でした。ニューヨーク タイムズが 4 位、ロサンゼルス タイムズが 6 位、ガーディアン新聞の Web サイトが 7 位、フォーブスでした。 Web サイトは 8 位、ハフィントン ポスト Web サイトは 9 位、ワシントン ポスト Web サイトは 11 位にランクされました。アーティストやクリエイターと同様に、いくつかの報道機関はテクノロジー企業が自社のコンテンツを許可や補償なしで使用していることを批判している。

同時に、「ワシントン・ポスト」紙は、ロシアのRT(65位)、極右ニュースウェブサイトのブライトバート(159位)、ニュースガードの独立した信頼性評価でいくつかのメディアが下位にランクされていることも明らかにした。白人至上主義に関連する反移民ウェブサイト vdare (No. 993)。

チャットボットは誤った情報を共有することが証明されています。信頼できないトレーニング データは、ユーザーが元の情報源を追跡できないまま、偏見を広めたり、誤った情報を助長したりする可能性があります。

コミュニティ Web サイトは機密コンテンツの約 5% を占めており、主に宗教 Web サイトが占めています。

フィルターに欠けている魚は何ですか?

ほとんどの企業と同様、Google は AI にデータを供給する前にデータをフィルタリングして選別します。同社は、意味のない繰り返しのテキストを削除するだけでなく、402 の英語用語と絵文字を含むオープンソースの「悪い単語リスト」も使用しています。企業は多くの場合、高品質のデータセットを使用してモデルを微調整し、ユーザーが見たくないコンテンツをブロックします。

このようなリストは、人種的中傷や不適切なコンテンツに関してトレーニングされるモデルを制限することを目的としていますが、多くのことがフィルターを通過してしまいます。ワシントン・ポスト紙は、禁止用語リストに数百のポルノ・ウェブサイトと7万2000以上の「ナチス」の例を発見した。

一方、ワシントン・ポスト紙は、白人至上主義のウェブサイト、反トランスのウェブサイト、個人に対する嫌がらせキャンペーンを組織していることで知られるサイトなど、一部の不穏なコンテンツをフィルターが削除できなかったことを発見した。この調査では、陰謀論を宣伝するウェブサイトも明らかになりました。

あなたのウェブサイトは AI のトレーニングに使用されていますか?

Web スクレイピングはインターネット全体をコピーするように聞こえるかもしれませんが、実際にはスナップショット、つまり特定の時点の Web ページのサンプルを収集しているだけです。 C4 データセットは、もともと 2019 年 4 月に Web コンテンツ クロール用に非営利団体 CommonCrawl によって作成され、人工知能モデル トレーニング用の人気のリソースです。 CommonCrawl によると、同団体は最も重要で評判の良い Web サイトを優先しようと努めたが、ライセンスされたコンテンツや著作権で保護されたコンテンツを回避しようとはしなかったという。

ワシントン ポストは、人々の現代生活のさまざまな側面を管理することが期待される人工知能モデルでデータの完全な内容を提示することが重要であると考えています。ただし、このデータセット内の多くの Web サイトには非常に不快な言葉が含まれており、モデルがこれらの言葉をマスクするようにトレーニングされていても、不快なコンテンツが依然として存在する可能性があります。

専門家によれば、C4 データセットは大きいものの、大規模な言語モデルではさらに大きなデータセットが使用される可能性があります。たとえば、OpenAI は 2020 年に GPT-3 トレーニング データをリリースしました。これには、C4 で Web スクレイピングされたデータの 40 倍の量があります。 GPT-3 のトレーニング データには、英語版 Wikipedia のすべて、大手テクノロジー企業が頻繁に使用する未発表の著者による無料小説のコレクション、Reddit ユーザーによって高く評価されたリンクされたテキストの編集が含まれています。

専門家らによると、多くの企業は、個人を特定できる情報、著作権で保護された資料、同意なしに盗まれたその他のデータを知ることを恐れて、トレーニング データの内容を (内部であっても) 記録すらしていません。企業がチャットボットがどのように意思決定を行うかを説明するという課題を強調しているため、これは経営幹部が透明性のある回答を提供する必要がある分野です。

以上が米国メディアが大規模なモデルトレーニングデータセットを公開:一部のコンテンツは少し「汚い」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Bytedance Cutting が SVIP スーパー メンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Rag と Sem-Rag を使用したコンテキスト拡張 AI コーディング アシスタント Jun 10, 2024 am 11:08 AM

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

GenAI および LLM の技術面接に関する 7 つのクールな質問 GenAI および LLM の技術面接に関する 7 つのクールな質問 Jun 07, 2024 am 10:06 AM

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります 微調整によって本当に LLM が新しいことを学習できるようになるのでしょうか: 新しい知識を導入すると、モデルがより多くの幻覚を生成する可能性があります Jun 11, 2024 pm 03:57 PM

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

あなたが知らない機械学習の 5 つの流派 あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 SKハイニックスは8月6日に12層HBM3E、321層NANDなどのAI関連新製品を展示する。 Aug 01, 2024 pm 09:40 PM

8月1日の本サイトのニュースによると、SKハイニックスは本日(8月1日)ブログ投稿を発表し、8月6日から8日まで米国カリフォルニア州サンタクララで開催されるグローバル半導体メモリサミットFMS2024に参加すると発表し、多くの新世代の製品。フューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) の紹介。以前は主に NAND サプライヤー向けのフラッシュ メモリ サミット (FlashMemorySummit) でしたが、人工知能技術への注目の高まりを背景に、今年はフューチャー メモリおよびストレージ サミット (FutureMemoryandStorage) に名前が変更されました。 DRAM およびストレージ ベンダー、さらに多くのプレーヤーを招待します。昨年発売された新製品SKハイニックス

SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 SOTA パフォーマンス、厦門マルチモーダルタンパク質-リガンド親和性予測 AI 手法、初めて分子表面情報を結合 Jul 17, 2024 pm 06:37 PM

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性​​を実証しています。 「S」で始まる関連研究

See all articles