


人間は AI が学習できる高品質のコーパスを十分に持っておらず、2026 年には枯渇するでしょう。 ネットユーザー: 大規模な人間によるテキスト生成プロジェクトが開始されました!
AI の食欲は大きすぎて、人間のコーパス データではもはや十分ではありません。
エポック社チームの新しい論文は、AI が 5 年以内に高品質のコーパスをすべて使い果たしてしまうことを示しています。
これは人間の言語データの増加率、つまり、新たに書かれた論文や新たに編集された書籍の数を考慮した予測結果であることを知っておく必要があります。近年の人間は、すべてのコードをAIに与えても十分ではありません。
この開発が続けば、高品質のデータに依存してレベルを向上させる大規模な言語モデルは、すぐにボトルネックに直面することになります。
一部のネチズンはじっと座っていられません:
これはばかげています。人間はインターネット上のすべてを読まなくても効果的に自分自身を訓練することができます。
私たちが必要としているのは、より多くのデータではなく、より優れたモデルです。
一部のネチズンは、AI に自分の嘔吐物を食べさせるほうが良いと嘲笑しました:
AI を生成することができますテキスト自体は低品質のデータとして AI に供給されます。
#見てみましょう。人間はどれくらいのデータを残しているでしょうか?
テキストや画像データの「在庫」はどうでしょうか?
この論文では主にテキストと画像データを予測します。
1つ目はテキストデータです。
データの品質には通常、良いものから悪いものまで幅があります。作成者は、既存の大規模モデルやその他のデータで使用されるデータ タイプに基づいて、利用可能なテキスト データを低品質部分と高品質部分に分割しました。
高品質コーパスとは、Pile、PaLM、MassiveText などの大規模な言語モデルで使用されるトレーニング データ セットを指します。これには、Wikipedia、ニュース、GitHub 上のコード、出版された書籍などが含まれます。
低品質のコーパスは、Reddit などのソーシャル メディアのツイートや非公式のファン フィクション (ファンフィク) から得られます。
統計によると、高品質の言語データ ストックには約 4.6×10^12 ~ 1.7×10^13 ワードしか残っていないそうです。これは、現在の最大のテキストよりも 1 桁も大きくありません。データセット。
この論文は、成長率と組み合わせると、2023 年から 2027 年の間に高品質のテキスト データが AI によって使い果たされ、推定ノードは 2026 年頃になると予測しています。
少し早いようです...
もちろん、低品質のテキスト データを追加することもできます。統計によると、テキスト データの全体的なストックには現在 7×10^13 ~ 7×10^16 ワードが残っており、これは最大のデータ セットよりも 1.5 ~ 4.5 桁大きいです。
データ品質の要件が高くない場合、2030 年から 2050 年の間に AI がすべてのテキスト データを使い果たしてしまうでしょう。
画像データを改めて見てみると、ここの論文では画質の区別はありません。
現在、最大の画像データ セットには 3×10^9 枚の画像が含まれています。
統計によると、現在の画像の総数は約 8.11×10^12 ~ 2.3×10^13 で、これは最大の画像データ セットより 3 ~ 4 桁大きいです。
この論文は、AI がこれらの画像を 2030 年から 2070 年の間に使い果たすだろうと予測しています。
明らかに、大規模な言語モデルは、画像モデルよりも深刻な「データ不足」状況に直面しています。
では、この結論はどのように導かれるのでしょうか?
ネチズンが投稿する 1 日の平均投稿数を計算して結果を取得する
この論文では、テキスト画像データの生成効率とトレーニング データセットの増加を 2 つの観点から分析しています。
論文の統計はすべてラベル付きデータではないことに注意してください。教師なし学習が比較的一般的であることを考慮して、ラベルなしデータも含まれています。
テキスト データを例に挙げると、ほとんどのデータはソーシャル プラットフォーム、ブログ、フォーラムから生成されます。
テキスト データの生成速度を見積もるには、総人口、インターネット普及率、インターネット ユーザーが生成する平均データ量という 3 つの要素を考慮する必要があります。
たとえば、これは過去の人口データとインターネット ユーザー数に基づいて推定される将来の人口とインターネット ユーザーの増加傾向です:
とユーザー数を組み合わせたもの-generated データ量を平均することで、データの生成速度を計算できます。 (複雑な地理的および時間的変化のため、本稿ではユーザーが生成する平均データ量の計算方法を簡略化しています)
この方法によると、言語データの増加率は約 7% と計算されます。ただし、この成長率は増加し、時間の経過とともに徐々に減少します。
2100 年までに、言語データの増加率は 1% に低下すると予想されています。
画像データも同様の手法で分析されており、現在は8%程度の増加率ですが、2100年には画像データの増加率も1%程度に鈍化すると予想されています。
この論文では、データの増加率が大幅に増加しない場合、または新しいデータ ソースが出現した場合、それが画像であろうと、高品質のデータでトレーニングされた大規模なテキスト モデルであろうと、ボトルネック期間が始まる可能性があると考えています。ある段階で。
一部のネチズンはこれについて冗談を言いましたが、SF ストーリーのようなことが将来起こるかもしれません:
AI を訓練するために、人間は大規模なテキスト生成プロジェクトを立ち上げ、誰もがAI 向けに何かを書くのに熱心に取り組んでいます。
彼はこれを「AI のための教育」と呼んでいます:
私たちは毎年 140,000 ~ 260 万の単語を AI に送ります。テキストデータだと、人間を電池として使うよりもクールに思えますか? ##################どう思いますか?
論文アドレス: https://arxiv.org/abs/2211.04325参考リンク: https://twitter.com/emollick/status/1605756428941246466
以上が人間は AI が学習できる高品質のコーパスを十分に持っておらず、2026 年には枯渇するでしょう。 ネットユーザー: 大規模な人間によるテキスト生成プロジェクトが開始されました!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











シンプルでわかりやすい PyCharm プロジェクトのパッケージ化方法を共有する Python の人気に伴い、Python 開発のメイン ツールとして PyCharm を使用する開発者が増えています。 PyCharm は、開発効率の向上に役立つ多くの便利な機能を提供する強力な統合開発環境です。重要な機能の 1 つはプロジェクトのパッケージ化です。この記事では、PyCharmでプロジェクトをパッケージ化する方法をシンプルかつ分かりやすく紹介し、具体的なコード例を示します。プロジェクトをパッケージ化する理由Pythonで開発

フェルマーの最終定理、AIに征服されようとしている?そして、全体の中で最も意味のある部分は、AI が解決しようとしているフェルマーの最終定理は、まさに AI が役に立たないことを証明するものであるということです。かつて、数学は純粋な人間の知性の領域に属していましたが、現在、この領域は高度なアルゴリズムによって解読され、踏みにじられています。画像 フェルマーの最終定理は、何世紀にもわたって数学者を悩ませてきた「悪名高い」パズルです。それは 1993 年に証明され、現在数学者たちはコンピュータを使って証明を再現するという大きな計画を立てています。彼らは、このバージョンの証明に含まれる論理的エラーがコンピュータによってチェックできることを望んでいます。プロジェクトアドレス: https://github.com/riccardobrasca/flt

元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き直したり、継続したりしないでください。 「分位回帰はこのニーズを満たし、定量化された確率で予測間隔を提供します。これは、特に応答変数の条件付き分布が重要な場合に、予測変数と応答変数の間の関係をモデル化するために使用される統計手法です。従来の回帰とは異なります」図 (A): 分位回帰 分位回帰の概念は推定です。一連の回帰子 X と変数の間の線形関係をモデル化する方法です。被説明変数 Y の分位数。既存の回帰モデルは、実際には被説明変数と説明変数の関係を調べる手法です。説明変数と被説明変数の関係に焦点を当てます。

タイトル: PyCharm の詳細: プロジェクトを削除する効率的な方法 近年、Python は強力で柔軟なプログラミング言語として、ますます多くの開発者に支持されています。 Python プロジェクトの開発では、効率的な統合開発環境を選択することが重要です。 PyCharm は、強力な統合開発環境として、プロジェクト ディレクトリを迅速かつ効率的に削除するなど、多くの便利な機能とツールを Python 開発者に提供します。以下では、PyCharm での削除の使用方法に焦点を当てます。

PyCharm は、豊富な開発ツールと環境構成を提供する強力な Python 統合開発環境であり、開発者がコードをより効率的に作成およびデバッグできるようにします。 Python プロジェクト開発に PyCharm を使用するプロセスでは、Python 環境がインストールされていないコンピューター上で実行できるように、プロジェクトを実行可能 EXE ファイルにパッケージ化する必要がある場合があります。この記事では、PyCharm を使用してプロジェクトを実行可能な EXE ファイルに変換する方法と、具体的なコード例を紹介します。頭

原題: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 論文リンク: https://arxiv.org/pdf/2402.02519.pdf コードリンク: https://github.com/HKUST-Aerial-Robotics/SIMPL 著者単位: 香港科学大学DJI 論文のアイデア: この論文は、自動運転車向けのシンプルで効率的な動作予測ベースライン (SIMPL) を提案しています。従来のエージェントセントとの比較

iOS17のiPhoneでGroceryListを作成する方法 リマインダーアプリでGroceryListを作成するのは非常に簡単です。リストを追加して項目を入力するだけです。アプリは商品を自動的にカテゴリーに分類し、パートナーやフラットパートナーと協力してストアで購入する必要のあるもののリストを作成することもできます。これを行う完全な手順は次のとおりです: ステップ 1: iCloud リマインダーをオンにする 奇妙に聞こえるかもしれませんが、Apple は、iOS17 で GroceryList を作成するには iCloud からのリマインダーを有効にする必要があると言っています。その手順は次のとおりです: iPhone の設定アプリに移動し、[あなたの名前] をタップします。次に、「i」を選択します

MySQL データベースを予測と予測分析に使用するにはどうすればよいですか?概要: 予測と予測分析はデータ分析において重要な役割を果たします。広く使用されているリレーショナル データベース管理システムである MySQL は、予測および予測分析タスクにも使用できます。この記事では、予測と予測分析に MySQL を使用する方法を紹介し、関連するコード例を示します。データの準備: まず、関連するデータを準備する必要があります。売上予測を行うには、売上データを含むテーブルが必要だとします。 MySQL では使用できます
