4 月 19 日のニュースでは、Microsoft、Google、OpenAI が Reddit フォーラム上のユーザー チャット データを使用して新しい人工知能システムを開発しています。現在、レディットはこれらの企業にロイヤルティを請求する予定だ。
Reddit は常にインターネット上の話題の議論のハブであり、毎日約 5,700 万人がサイトを訪れ、メイクのヒントからビデオゲーム、自動洗車まであらゆることについて議論しています。
近年、Reddit フォーラムのチャットは、Google、OpenAI、Microsoft などの企業が人工知能システムを開発するための無料のトレーニング ツールとなっています。現在、業界の多くの人は、これらの人工知能システムがテクノロジー業界の次の目玉になると信じています。
したがって、Redditは人工知能技術を開発する企業に料金を請求する予定です。多くの企業は、アプリケーション プログラミング インターフェイス (API) を通じてフォーラム チャットをダウンロードし、処理しています。 Redditは火曜日、企業にAPIの使用料を請求し始める計画だと発表した。
Reddit の創設者兼 CEO の Steve Huffman (スティーブ ハフマン) はインタビューで次のように述べています。「Reddit のデータベースは確かに価値があり、この価値を世界最大の企業に無料で提供する必要はありません。」
Reddit の動きは、ChatGPT のような人工知能システムを開発するためのオープン アクセスに対して、ソーシャル ネットワークが OpenAI などに明示的に請求するのは初めてです。 ChatGPT のような新しい AI システムは、いつか大きなビジネスになるかもしれませんが、Reddit のような企業を助けることはあまりありません。逆に、これらの人工知能システムはチャット コンテンツを自動的に生成し、Reddit の競合相手になる可能性もあります。
レディットは今年の上場に向けて準備を進めている同社は2005年に設立され、現在は主にプラットフォーム広告と電子商取引で利益を得ている。 Redditは、APIインターフェースの料金詳細を最終決定しており、今後数週間以内に価格を発表すると述べた。
現在、大規模な言語モデルは新しい人工知能テクノロジーの開発の重要な部分となっており、Reddit フォーラムのユーザー チャット コンテンツは貴重な商品となっています。
Google の人工知能チャットボット Bard の基礎となるアルゴリズムの 1 つは、Reddit チャット データを使用してトレーニングされました。同時に、OpenAI の ChatGPT も、大規模な言語モデルをトレーニングするための情報の 1 つとして Reddit データを使用します。
さらに、他の企業も、プラットフォームに保存されているチャット コンテンツや画像の価値に気づき始めています。画像ホスティング サービス Shutterstock は、単純なテキスト プロンプトに基づいて画像を生成できる人工知能システムである DALL-E の開発を支援した OpenAI に画像データを販売しました。
現在、大小を問わず何千もの企業や開発者が API を使用して Twitter プラットフォーム上の何百万ものチャットを追跡しています。先月、個人ソーシャルメディアプラットフォームTwitterのオーナー、イーロン・マスク氏は、TwitterのAPIの現在の使用方法を変更し、APIの使用に数万から数十万の料金を請求すると述べた。しかしマスク氏は変更の理由として大規模な言語モデルには言及しなかった。
人工知能企業がモデルを継続的に改善するには、強力なコンピューティング能力と利用可能な大量のデータという 2 つの重要な要素が必要です。一部の大規模な人工知能開発企業は、通常、十分なコンピューティング能力を備えていますが、アルゴリズムを改善するために必要なデータをインターネット上で探しています。これらには、Wikipedia、デジタル化されたさまざまな書籍、学術論文、Reddit フォーラムのチャットなどのリソースが含まれます。
Google、OpenAI、Microsoftなどの企業は、Redditの課金計画にまだ応じていない。
長い間、Reddit は Google や Bing などの検索エンジンと共依存関係にありました。 Reddit ページ情報を自動的に取得してインデックスを作成し、関連情報を検索結果ページに表示します。この自動クロール方法はすべての Web サイトで人気があるわけではありませんが、Reddit は検索結果で上位にランクされることがあります。
大規模言語モデルはまったく異なり、新しい人工知能システムを作成するには、できるだけ多くのデータを取得する必要があります。
Reddit は、フォーラム データが常に更新されるため、特に価値があると考えています。この新鮮さと関連性こそが、大規模言語モデルのアルゴリズムが最良の結果を生み出すために必要なものである、とハフマン氏は述べた。
「Reddit はインターネット上の他のどこよりもチャットに適しています」とハフマン氏は言います。 「このサイトには、個人的にしか話さない、あるいはまったく話さないようなコンテンツがたくさんあります。」
ホフマン氏はまた、人々が Reddit を利用できるように支援するアプリケーションを開発したい開発者にとって、今のところ API は重要であると強調しました。まだ無料です。たとえば、開発者は API などのツールを無料で使用して、ユーザーのコメントがコンテンツ公開ルールに準拠しているかどうかを自動的に追跡するロボットを開発できます。学術研究や非営利目的で Reddit データを研究している人々も、引き続きデータに無料でアクセスできます。
Reddit は、さらに多くの機械学習をフォーラムの運営に統合することも望んでいます。たとえば、Reddit は機械学習を使用して、プラットフォーム上で人工知能が生成したテキストの使用を識別し、どのコメントがロボットからのものであるかをユーザーに知らせるためのラベルを追加できます。 . . Redditはまた、フォーラムモデレーターがフォーラム上のサードパーティボットを監視できるようにソフトウェアツールを改善すると約束した。
しかし、AI メーカーにとって Reddit は、代償を払う時期が来たと考えています。
「Reddit のデータをスクレイピングし、ユーザーに返金しないことで価値を生み出すのは、私たち自身の問題です」とハフマン氏は語った。 「今こそ経営を強化する好機です。」(チェンチェン)
以上がReddit、ユーザーチャットの不適切な使用を避けるためにOpenAIなどの企業に報酬を支払うの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。