中国最大の オープンソース モデルはこちらです:
650 億のパラメーターと 2 兆 6000 億から 3 兆 2000 億のトークンに基づくトレーニングを備えています。 「Falcon」「Alpaca」に次いで2位にランクされ、その性能はGPT3.5に匹敵し、無条件で商用利用が可能になりました。
Shenzhen Yuanxiang Company の XVERSE です。 さまざまなコンピューティング能力、リソースの制約、特定のタスクの要件に応じて、自由に変更または抽出できます。 その大規模さに加えて、16k コンテキストがあり、40 以上の言語をサポートし、7B と 13B の 2 つのバージョンが利用可能です。 具体的な由来は何ですか? 中国で市販されている最大の大型モデルはこちらです 研究によると、パラメーターの数が増え、トレーニング データの質が高くなるほど、大型モデルのパフォーマンスが継続的に向上することがわかっています。改善されました。 業界の一般的なコンセンサスは、パラメータのしきい値 500 ~ 600 億に達した場合にのみ、大規模なモデルが「インテリジェントに出現」し、複数のタスクで強力なパフォーマンスを発揮できるということです。 ただし、この規模のモデルのトレーニングには費用がかかり、高い技術スキルが必要となるため、現在は主にクローズドソースの有料モデルとして提供されています。 海外のオープンソース エコシステムでは、Llama2-70B や Falcon-180B などのベンチマーク モデルは「条件付き」オープンソースであり、月間アクティブ ユーザー数や収入セットなどの商用上限があり、トレーニング データが不足しています。中国語機能には明らかな欠点があります。 ここで、Yuanxiang XVERSE Companyは、国内の大型モデルのオープンソースエコロジーと産業アプリケーションの開発を促進するために、650億パラメータの高性能ユニバーサル大型モデルXVERSE-65Bを無条件で無償でオープンソース化すると発表しました商用利用。 13B モデルは、「小型」モデルの能力の上限を高めるために完全にアップグレードされました。 Yuanxiang 創設者 Yao Xing が「有望な」 65B モデルを提示。」 XVERSE-65B ベース モデルは、2 兆 6000 億トークンの高品質データに基づいてゼロからトレーニングされています。コンテキスト ウィンドウは 16K まで拡張され、中国語、英語、ロシア語、フランス語を含む 40 の言語をサポートします。 大幅に向上した3 つの能力 :
1. 理解、生成、推論、記憶などの基本能力から、モデルの多様性、創造性まで優れたものから強力なものまで、精度の高いパフォーマンスを実現します;2. ツール呼び出し、コード解釈、反映と修正などの機能を拡張し、インテリジェント エージェントを構築するための技術的基盤を築きました(AI エージェント) およびモデルの実用性の向上;
3. 7B および 13B で一般的でおそらく深刻な幻覚問題を大幅に軽減し、大規模モデルの「無意味」を減らし、精度と専門性を向上させます。 Yuanxiang 大型モデル シリーズはすべて自社開発であり、多数の主要テクノロジーと研究開発イノベーションをカバーしています:1. 複雑な分散システム設計:
Tencent Go AI「Jue Yi」やKing of Glory AI「Jue Wu」、自社開発の効率的なオペレーター、メモリ最適化、並列スケジューリング戦略、データコンピューティングと通信のオーバーラップなどの大規模システム開発におけるチームの豊富な経験を活用、プラットフォームとフレームワークコラボレーションとその他の主要テクノロジーを使用して、効率的で安定したトレーニング システムを構築し、キロカロリー クラスターのピーク演算能力利用率は 58.5% に達し、業界トップにランクされます。2. 総合的なパフォーマンスの向上:
65B トレーニングでは、FlashAttendant2 を使用して計算を高速化し、3D に基づく仮想パイプライン(仮想パイプライン) テクノロジーを使用します。並列処理により、長いパイプラインによって生成される過剰なバブル レートが減少し、計算推論の効率が向上します。コンテキスト ウィンドウの長さは 8K から 16K まで段階的に増加し、長文の理解、長文の生成、超高速テキストの生成などの複雑なタスクを適切に完了できるだけでなく、ツールの呼び出し、コードの解釈、反映と修正の機能により、インテリジェント エージェント (AI エージェント) をより適切に構築できます。
3. トレーニングの安定性を大幅に向上:
膨大な量の計算により、65B トレーニングでは通信の輻輳、チップの過熱、計算ノードの障害が常態化しています。初期段階では、1 週間で最も多く発生した障害は 8 件でした。 クラスター インフラストラクチャの運用、リソース スケジューリング、トレーニング フレームワーク、およびスケジューリング プラットフォームの連携を継続的に最適化することにより、Yuanxiang は、安定性が高く、中断が少なく、強力なフォールト トレラントなトレーニング システムを構築し、毎週の有効トレーニング率を98.6%。 さらに、約 1.6 兆個のトークンを使用したモデルのトレーニングの途中で、損失関数によって NaN 値が生成され、トレーニングが中断される可能性がありました。 通常、業界では分析後に関連するデータ間隔を削除します。 チームは経験に基づいて、これはモデルの自然な進化であると判断し、データを削除しないことを選択し、関連するパラメーターの更新を直接スキップしました。最終的に、NaN 値の問題は解決されました。 パラメータ値、活性化値、勾配値などの中間状態のさらなる分析により、この問題が最後の変圧器ブロックの活性化値の最大値の変化に関連している可能性があることが判明しました。モデルのレイヤーを最大値にして徐々に減少していきますので、ご自身で解決してください。業界が Yuanxiang 大型モデルのパフォーマンスを包括的、客観的かつ長期的に理解できるようにするために、研究者は一連の信頼できる文献を参照しました。知識、推論、数学、コードを含む 6 つの側面における 11 の主流で権威のある評価基準は、今後も使用され、反復されます。
XVERSE-65Bは中国には比較対象となる同レベルのモデルが存在しませんが、海外ベンチマークとの比較評価ではいくつかの指標を上回り、全体的な性能はGPT3と同等でした。 5; オープン ソース ベンチマーク Llama2 -70B および Falcon-180B を総合的に上回りましたが、GPT4 とはまだ のギャップがあります。
完全にアップグレードされた XVERSE-13B-2 は、同じサイズのモデルと比較して大量の高品質なデータを追加し、学習データは 3.2 兆件に達し、大幅に向上しました。 「小型」モデルのパフォーマンス、能力の限界。
文系と理系の両方を研究し、文系の利点を維持しています。Q&A は 18% 向上し、科学は大幅に進歩し、コーディングは 149% 向上し、数学は 198% 向上しました。評価では、Llama2やBaichuan2といった国内外のオープンソースベンチマークを完全に上回りました。
Yuanxiang の大きなモデル # は、Github、Hugging Face、Moda ModelScope などの複数のプラットフォームで「XVERSE」を検索することでダウンロードできます、簡単な登録後、無条件に無料で商用利用でき、中小企業、科学研究機関、個人開発者のほとんどのアプリケーションと反復ニーズを満たすことができます。
Yuanxiang は、モデルのトレーニング、推論、展開、微調整などのあらゆる技術サービスも提供し、エンターテインメント、金融、医療などのさまざまな業界を強化し、インテリジェントなサービスなどの複数のシナリオを支援します。顧客サービス、クリエイティブなライティング、正確な推奨事項を提供し、業界をリードするユーザー エクスペリエンスを創造します。
2023年10月、テンセントミュージックは率先して元祥モデルとの戦略的提携の締結を発表し、lyraXVERSEアクセラレーションモデルを共同で立ち上げ、音楽アシスタント「AI小琴」を包括的にアップグレードし、AIの探究を継続します。そして未来の3D、先進テクノロジー。
以上が中国最大のオープンソースモデルが無条件無料商用利用可能に公開! 650億のパラメータ、2兆6000億のトークンに基づくトレーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。