Arxiv 上のすべての論文はトークンに変換され、総量はわずか 14.1 GB です。
これは、最新の注目のオープンソース プロジェクトである Alexander によって達成された偉業です。
実際、これは最初のステップにすぎません。
最終的に、彼らはインターネット全体を トークン に変えたいと考えています。言い換えれば、ChatGPT のような大規模なモデルが世界を理解する方法にすべてを変換します。
そのようなデータセットが誕生すれば、GPT-4のような大規模モデルを開発するための新たな強力なツールとなり、すぐそこまで来ている天文学や地理を理解できるようになるのではないでしょうか? !
このニュースが出るとすぐに、すぐに大きな注目を集めました。
ネチズンは epic を称賛しました。
400 万以上のプロジェクト、6 億のトークン、30 億 7000 万のベクトル次元。Alexander と呼ばれるこのオープンソース プロジェクトは、Arxiv 上の各論文から始まります。 選んだ手法はエンベディングで、簡単に言えば、現実世界のさまざまなオブジェクトをコンピューターが理解できるベクトルに視覚化することです。
#最も古典的な例は、元の画像をグレースケール ピクセルとして表すことです。
#この技術の最大の特徴は、人間が知覚する意味的な類似性を表現できることです。たとえば、同じ意味の単語が 10 個ある場合、キーワードで論文を見つけるのは困難です。ただし、埋め込みは可能なので、検索、クラスタリング、推奨、分類などに適しています。
実用性と効率性を考慮して、開発チームは論文のタイトルと要約のみを埋め込むことを選択しました。
さまざまなモデルをテストした後、最終的に、タスクの指示を提供するだけでさまざまなタスク
(分類、検索、クラスタリングなど) に適した InstructorXL テキスト埋め込みモデルを使用することを選択しました。テキスト評価など)およびフィールド (科学、金融、医学など) >>来週、Arxiv 検索がリリースされる予定です。これまでのプロセスでは、最初に最も近い 100 個の記事に対して類似性検索を実行し、次にこれらの埋め込みをオンザフライで計算し、2 番目のより複雑な検索を実行します。
最終的な目標は、インターネット全体を組み込んだ計画です。
20 歳の少年のクレイジーなオープンソース計画
一方では、巨大な価値を埋め込むことです。世の中の多くの問題は検索、クラスタリング、推奨、分類にすぎませんが、これらは埋め込みが非常に得意なことです。前述したように、いくつかの複雑なパズルを解くことができます。
一方、費用は1回限りで非常に安価です。ほとんどの場合、同じファイルに対して 2 回目の計算を実行する必要はありません。現在、1 億トークンごとにかかる費用は $
1$だけです。 しかし、オープンな埋め込みデータ セットが見つからなかったため、この組織が誕生しました。
将来的にはさらに多くのデータ セットも公開される予定で、これらのデータ セットはこれらのユーザーによって選択されることになります。公式 Web サイト上の公開データセットに加えて、残りのオープンソース プロジェクトでも投票チャネルが開設されています。
注目すべきは、その背後には平均年齢わずか 20 歳のティーンエイジャーのチームがあるということです。
そしてチーム名も非常に横暴です、Macrocosm (マクロワールド) Alliance。
ズームインする限り、人間は 1 つの生き物になります。
公式紹介によると、彼らは ChatGPT やその他の同様の製品のプラグインの構築に取り組んでおり、学習、教育、学習を支援するための大規模なモデルに基づいたコア製品、パーソナルリサーチアシスタントも開発しています。科学研究。
興味のあるお友達は、下のリンクをクリックして詳細をご覧ください~
https://alex.macrocosm.so/download
以上が4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。