ホームページ > テクノロジー周辺機器 > AI > AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

PHPz
リリース: 2023-12-02 08:45:04
転載
1019 人が閲覧しました

業界サミットで、清華大学の学者は、私たちの大規模な AI モデルが Wanka クラスターでトレーニングされており、3 時間ごとにエラーが発生していることを明らかにしました。ちょっと荒唐無稽な話ですが、これは世界の先進レベルに達しています

世界中で人気の大型 AI モデルが今年の注目のトピックであることは間違いなく、その数は増え続け、驚くべきレベルに達しています。 「権力を求めて争う何百ものライバル」の中で、誰もが重要な問題を見落としがちです。それは、大規模な AI モデルによってもたらされるデータの奔流が想像以上に乱暴であるということです。

「3 時間に 1 回エラーが発生する」というと信じられないように聞こえますが、実際には、大規模モデルの実践者、さらには「優等生」さえも直面する標準です。業界における現在の一般的な慣行は、フォールト トレラントなチェックポイントを作成することです。エラーは 3 時間以内に報告されるため、2.5 時間ごとに停止し、チェックポイントを書き込み、データを保存してから、トレーニングを再開する必要があります。障害が発生すると、書き込まれたチェックポイントから回復できるため、「最初からやり直す」ことやすべてが無駄になることを避けられます。チェックポイントには大量のデータを保存する必要があり、多くの時間がかかります。学者チームは、llama 2 アーキテクチャに基づいて大規模なモデルを開発しましたが、データをハードウェアに一度保存するには 10 時間かかり、保存効率が開発の進捗に直接影響します。

大規模な異種データが理不尽に押し寄せる激流だとすると、ストレージ システムはデータ フローを運ぶ川です。その幅と堅固さが、データがブロックされるか停滞するかを直接決定し、大規模 AI のライフラインをブロックします。モデル。 。大型模型業界全体の生産性や効率性はストレージによって「上限が決まっている」と言える。

これが、AI データ インフラストラクチャとしてのストレージがますます注目を集めている理由です。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

11月29日、「デジタルインテリジェンスイノベーションAI未来」2023中国データ&ストレージサミットが北京で開催された。 Sugon Storage は、大規模 AI モデル向けのストレージ ソリューションをリリースしました。

この機会を利用して、AI ラージ モデルの波がストレージにもたらす課題と、Sugon Storage がどのようにインテリジェント産業の道をリードし、AI ラージ モデルの成功を後押ししているかについて学びましょう。

AI 大型モデルは業界の深海領域に参入しており、従来のストレージ方法はデータの課題に直面しています

私は最近雲南省を旅行しましたが、北京、上海、広州などの科学技術の中心地だけでなく、昆明などの二流、三流都市でも大型模型の建設が本格化していることがわかりました。ダリ、そして国境地帯でも大型モデルの産業応用が積極的に検討されています。

あらゆる分野がインテリジェンスへの移行を進めており、そのほぼすべてが大型モデルに対する強い関心を引き起こしています。このとき、大規模な AI モデルの産業化傾向により、ストレージ インフラストラクチャのアップグレードが必要であるという重要な問題も明らかになりました。

モデル開発者がトレーニングするたびに、データはストレージ システムにさまざまな課題を引き起こします:

  1. データフラッドの影響。 大規模モデルの産業実装に伴い、多くの業界が専用モデルのトレーニングを開始しました。大量の業界データ、独自データ、および新しい注釈データが大規模モデルに供給されます。膨大な量のデータが、ストレージシステム。雲南省のデータ テクノロジ会社は、大規模なインダストリ モデルは、高品質のデータ セット、ドキュメント、顧客のプライベート データを使用してトレーニングする必要があると述べました。プロジェクトごとに個別のアノテーション グループが設立されています。データの規模は増加し続けており、ストレージ要件は増加しています。コストも増加します。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

2. データの輻輳による足かせ。 非常に大規模なデータの前処理は遅くて時間がかかります。収集、分類、再配置などのプロセスには時間と手間がかかります。ストレージのパフォーマンスが追いつかなくなると、大容量ファイルのスループットが遅くなり、読み込みが多くなります。書き込み量が減り、チェックポイント待ちに時間がかかるため、開発の進捗が遅れ、開発コストが増加します。

3. 複雑なデータの底流。 さらに、大規模な AI モデルは、複雑なファイル形式、多様なデータ セット タイプ、およびデータ量の急増を伴う、大量の異種データを使用します。従来のストレージでは、データの複雑さという課題に対処することが困難であり、消化不良の問題が発生し、データ アクセス効率が低下し、モデルの動作効率が低下し、トレーニング コンピューティングの消費電力が増加し、高価な GPU コンピューティング リソースを完全に「絞る」ことができなくなります。たとえば、雲南省の地元の太陽観測所では、AI 科学計算モデルを使用して大規模な画像を学習し、太陽の本当の姿を表現しており、毎日 2 TB の画像データを生成していますが、現在のストレージのスループット効率は低いため、データの読み込みが遅くなります。トレーニングセットと長いデータ処理サイクルにより、研究プロセスが遅くなります。

4. データのセキュリティに関する懸念。 現在、AI の大規模モデルはさまざまな業界に深く浸透しています。トレーニング、開発、アプリケーション実装のプロセスでは、業界の機密情報や個人情報を含むデータを含む大量のデータ サポートが必要です。適切なデータの非感作化とデータ ホスティングがなければ、仕組み上、データ漏洩を引き起こし、業界や個人に損失を与える可能性があります。同時に、モデルのセキュリティ リスクも真剣に受け止める必要があり、たとえば、プラグインに有害なコンテンツが埋め込まれ、犯罪者が詐欺や「中毒」を行うツールとなり、社会や産業の安全を危険にさらす可能性があります。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

AI の大型モデルは業界の深層水域に突入していますが、喜ばしいことは、この技術革新が知性のニーズを満たすために各界に深く組み込まれ、活力に満ちていることです。データ エンジニアリングは、データ収集、クリーニング、トレーニング、推論の展開、フィードバックの調整など、大規模モデルのライフサイクル全体で重要な役割を果たしており、これらのすべてに大量のデータが必要です。しかし、ストレージの問題がボトルネックとなっており、大規模な AI モデルはあらゆる段階でデータの輻輳、障害、非効率に直面する可能性があり、これにより開発サイクルが非常に長くなり、大規模モデルの総合コストが業界の手頃な価格を超えてしまう可能性があります。

データの沈着を回避し、大規模モデルの産業開発をサポートおよび育成するには、ストレージの「川」を浚渫する必要があります。 Sugon Storage は、貴重な参考事例を提供する新しいソリューションを提供します

高品質のデータ「チャネル」、Sugon Storage が大規模モデル業界に答えを提供します

大規模な AI モデルの開発者とのコミュニケーションの結果、私は明確な結論に達しました:大規模な AI モデルに適応する新しいストレージ システムの構築には、もはや議論は必要ありません。鍵となるのは、誰が最初にソリューションのアップグレードを完了し、実用的なソリューションを提供できるかです

業界のストレージ ニーズを洞察した Sugon Storage は、ParaStor ラージ モデル専用ストレージに基づいた AI ラージ モデル ストレージ ソリューションを作成し、独自の回答を作成しました。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

Sugon Storage AI ラージ モデル ストレージ クラスターには、異種融合、究極のパフォーマンス、ネイティブ セキュリティという 3 つの優れた機能があります。

まず第一に、私たちは数千億のファイル ストレージ サービスを提供でき、その拡張規模はほぼ無制限です。また、データ アクセス プロトコルの多様性の問題を具体的に解決し、ファイルやオブジェクトなどの複数のストレージ プロトコルをサポートして、異なるストレージ システム間でのデータのコピーを回避します

次に、AI ラージ モデルの開発プロセスにおけるデータ処理効率に対する高い要求に応え、Sugon Storage AI ラージ モデル ストレージ クラスターは、マルチレベル キャッシュ アクセラレーション、XDS データ アクセラレーションなどの複数のデータ IO パフォーマンス最適化機能を提供できます。インテリジェントな高速ルーティング。

プロセス全体を通じてデータのセキュリティを確保するために、Sugon ストレージ ノードはチップレベルのセキュリティ機能を提供し、国家機密命令セットをサポートします。マルチレベルの信頼性により、ストレージ クラスタがポリシーや将来のセキュリティ トレンドに沿って、トレーニングと開発のサイクル全体を通じて安定して動作することを保証できます。

市場には非常に多くのストレージ ソリューションがあり、モデル開発に専門的なサポートを提供すると宣伝しているものもあります。 Sugon Storage のソリューションの差別化された価値は何ですか?

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

各社の技術用語や製品の詳細に混乱している場合は、いくつかの単語を使って Sugon Storage AI 大型モデル ストレージ クラスターの差別化された価値を覚えておくとよいでしょう。

1.上級。 ヘテロジニアス融合、究極のパフォーマンス、チップレベルのネイティブセキュリティは、Sugon Storage の技術進歩を実証しており、特に大規模なデータ量、複雑で多様なデータ形式、低いスループット効率、大規模データのストレージと計算時間の問題を解決します。モデル開発: 待つことの本当の苦痛点。

2. 信頼できます。 高性能 AI データ インフラストラクチャは、Sugon Storage の自社開発イノベーションに基づいており、より信頼性と安全性が高く、新荘市の政策と将来のセキュリティ トレンドに適合しており、国内の大規模サービス プロバイダーが海外からの供給を避けるのに役立ちます。サプライチェーンのセキュリティからデータセキュリティに至るまでのチェーンリスク、モデルの安全性、および大規模モデル業界の発展を保護するためのその他の観点。

3. 包括的。 Sugon Storage は、ネットワーク、コンピューティング、プラットフォームをカバーするフル次元の AI ソリューションを作成し、トレーニングと開発サイクル全体を通じて安定した運用をサポートします。これにより、全体的なコストが削減され、大規模モデル開発者と業界の顧客が安心して前進できるようになります。

要約すると、Sugon Storage が構築する高品質な「チャネル」上で、大規模なデータを効率的に処理し、大規模な AI モデルの開発を加速できるため、業界や企業は一歩先を行くことができます。大規模モデルを垂直シナリオおよびビジネスと統合し、インテリジェント時代への切符を最初に手に入れましょう。

多くの企業が進歩と繁栄を競う現場を観察する、第5のパラダイムの新たな出発点

チューリング賞受賞者のジム・グレイはかつて、データ駆動型を中核とする第 4 のパラダイムを提案しました。大規模な言語モデルにおける「インテリジェンスの出現」により、「インテリジェンス主導型」の第 5 パラダイムは、データとインテリジェンスの有機的な組み合わせにより重点を置き、科学革命と産業革命を支える新しい基礎的なロジックになります。

これまでのことはすべてプロローグ。これは人工知能にも当てはまりますし、ストレージにも当てはまります

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

このカンファレンスでは、Sugon Storage Company の社長である Hui Runhai 氏に、20 年の業界経験と、AI ストレージ技術のブレークスルー、液冷ストレージの研究開発およびその他の分野における先進的な実践を誇る「ストレージ パイオニア」の称号が授与されました。彼のリーダーシップの下、Sugon 分散ファイル ストレージは長年にわたり市場をリードし続け、市場シェアでトップの地位を占めています。 AI 大型モデル向けのデータ ストレージ ソリューションにより、Sugon Storage は再び時代の最前線に浮上しました。

Sugon Storage の AI 大型モデル ストレージ クラスターは、新しいデータ パラダイムに適応し、データ インフラストラクチャのブレークスルーを通じて大型モデルの産業化の精力的な発展を促進するパラダイム シフトを積極的に実践しています。

次に、ストレージ業界の新しいパラダイムと新たな出発点において、Sugon Storage の高品質データの「川」上で、何百もの業界の大規模モデルがそのストリームをめぐって競い合い、AI アプリケーションが何千ものモデルと競争するのが見られるでしょう。情報へ向けて加速する帆、中国。

以上がAI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:sohu.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート