


4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドル
Arxiv 上のすべての論文はトークンに変換され、総量はわずか 14.1 GB です。
これは、最新の注目のオープンソース プロジェクトである Alexander によって達成された偉業です。
実際、これは最初のステップにすぎません。
最終的に、彼らはインターネット全体を トークン に変えたいと考えています。言い換えれば、ChatGPT のような大規模なモデルが世界を理解する方法にすべてを変換します。
そのようなデータセットが誕生すれば、GPT-4のような大規模モデルを開発するための新たな強力なツールとなり、すぐそこまで来ている天文学や地理を理解できるようになるのではないでしょうか? !
このニュースが出るとすぐに、すぐに大きな注目を集めました。
ネチズンは epic を称賛しました。
400 万以上のプロジェクト、6 億のトークン、30 億 7000 万のベクトル次元。Alexander と呼ばれるこのオープンソース プロジェクトは、Arxiv 上の各論文から始まります。 選んだ手法はエンベディングで、簡単に言えば、現実世界のさまざまなオブジェクトをコンピューターが理解できるベクトルに視覚化することです。
#最も古典的な例は、元の画像をグレースケール ピクセルとして表すことです。
たとえば、同じ意味の単語が 10 個ある場合、キーワードで論文を見つけるのは困難です。ただし、埋め込みは可能なので、検索、クラスタリング、推奨、分類などに適しています。
実用性と効率性を考慮して、開発チームは論文のタイトルと要約のみを埋め込むことを選択しました。
さまざまなモデルをテストした後、最終的に、タスクの指示を提供するだけでさまざまなタスク
(分類、検索、クラスタリングなど) に適した InstructorXL テキスト埋め込みモデルを使用することを選択しました。テキスト評価など)およびフィールド (科学、金融、医学など) >>来週、Arxiv 検索がリリースされる予定です。これまでのプロセスでは、最初に最も近い 100 個の記事に対して類似性検索を実行し、次にこれらの埋め込みをオンザフライで計算し、2 番目のより複雑な検索を実行します。
最終的な目標は、インターネット全体を組み込んだ計画です。
20 歳の少年のクレイジーなオープンソース計画
このようなクレイジーなオープンソース計画を立ち上げたい主な理由は 2 つあります。
一方では、巨大な価値を埋め込むことです。世の中の多くの問題は検索、クラスタリング、推奨、分類にすぎませんが、これらは埋め込みが非常に得意なことです。前述したように、いくつかの複雑なパズルを解くことができます。
一方、費用は1回限りで非常に安価です。ほとんどの場合、同じファイルに対して 2 回目の計算を実行する必要はありません。現在、1 億トークンごとにかかる費用は $
1$だけです。 しかし、オープンな埋め込みデータ セットが見つからなかったため、この組織が誕生しました。
将来的にはさらに多くのデータ セットも公開される予定で、これらのデータ セットはこれらのユーザーによって選択されることになります。公式 Web サイト上の公開データセットに加えて、残りのオープンソース プロジェクトでも投票チャネルが開設されています。
注目すべきは、その背後には平均年齢わずか 20 歳のティーンエイジャーのチームがあるということです。
そしてチーム名も非常に横暴です、Macrocosm (マクロワールド) Alliance。
ズームインする限り、人間は 1 つの生き物になります。
公式紹介によると、彼らは ChatGPT やその他の同様の製品のプラグインの構築に取り組んでおり、学習、教育、学習を支援するための大規模なモデルに基づいたコア製品、パーソナルリサーチアシスタントも開発しています。科学研究。
興味のあるお友達は、下のリンクをクリックして詳細をご覧ください~
https://alex.macrocosm.so/download
以上が4 つのポスト 00 世代の狂気のオープンソース計画: インターネット全体が大規模なモデル コーパスに変換され、1 億トークンの埋め込みコストはわずか 1 ドルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Centos Shutdownコマンドはシャットダウンし、構文はシャットダウン[オプション]時間[情報]です。オプションは次のとおりです。-hシステムをすぐに停止します。 -pシャットダウン後に電源をオフにします。 -r再起動; -t待機時間。時間は、即時(現在)、数分(分)、または特定の時間(HH:mm)として指定できます。追加の情報をシステムメッセージに表示できます。

Centosシステムの下でのGitlabのバックアップと回復ポリシーデータセキュリティと回復可能性を確保するために、Gitlab on Centosはさまざまなバックアップ方法を提供します。この記事では、いくつかの一般的なバックアップ方法、構成パラメーター、リカバリプロセスを詳細に紹介し、完全なGitLabバックアップと回復戦略を確立するのに役立ちます。 1.手動バックアップGitlab-RakeGitlabを使用:バックアップ:コマンドを作成して、マニュアルバックアップを実行します。このコマンドは、gitlabリポジトリ、データベース、ユーザー、ユーザーグループ、キー、アクセスなどのキー情報をバックアップします。デフォルトのバックアップファイルは、/var/opt/gitlab/backupsディレクトリに保存されます。 /etc /gitlabを変更できます

CENTOSシステムでHDFS構成をチェックするための完全なガイドこの記事では、CENTOSシステム上のHDFSの構成と実行ステータスを効果的に確認する方法をガイドします。次の手順は、HDFSのセットアップと操作を完全に理解するのに役立ちます。 Hadoop環境変数を確認します。最初に、Hadoop環境変数が正しく設定されていることを確認してください。端末では、次のコマンドを実行して、Hadoopが正しくインストールおよび構成されていることを確認します。HDFS構成をチェックするHDFSファイル:HDFSのコア構成ファイルは/etc/hadoop/conf/ディレクトリにあります。使用

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

CentOSにMySQLをインストールするには、次の手順が含まれます。適切なMySQL Yumソースの追加。 yumを実行して、mysql-serverコマンドをインストールして、mysqlサーバーをインストールします。ルートユーザーパスワードの設定など、MySQL_SECURE_INSTALLATIONコマンドを使用して、セキュリティ設定を作成します。必要に応じてMySQL構成ファイルをカスタマイズします。 MySQLパラメーターを調整し、パフォーマンスのためにデータベースを最適化します。

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

SSHサービスを再起動するコマンドは次のとおりです。SystemCTL再起動SSHD。詳細な手順:1。端子にアクセスし、サーバーに接続します。 2。コマンドを入力します:SystemCtl RestArt SSHD; 3.サービスステータスの確認:SystemCTLステータスSSHD。

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所
