AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です
業界サミットで、清華大学の学者は、私たちの大規模な AI モデルが Wanka クラスターでトレーニングされており、3 時間ごとにエラーが発生していることを明らかにしました。ちょっと荒唐無稽な話ですが、これは世界の先進レベルに達しています
世界中で人気の大型 AI モデルが今年の注目のトピックであることは間違いなく、その数は増え続け、驚くべきレベルに達しています。 「権力を求めて争う何百ものライバル」の中で、誰もが重要な問題を見落としがちです。それは、大規模な AI モデルによってもたらされるデータの奔流が想像以上に乱暴であるということです。
「3 時間に 1 回エラーが発生する」というと信じられないように聞こえますが、実際には、大規模モデルの実践者、さらには「優等生」さえも直面する標準です。業界における現在の一般的な慣行は、フォールト トレラントなチェックポイントを作成することです。エラーは 3 時間以内に報告されるため、2.5 時間ごとに停止し、チェックポイントを書き込み、データを保存してから、トレーニングを再開する必要があります。障害が発生すると、書き込まれたチェックポイントから回復できるため、「最初からやり直す」ことやすべてが無駄になることを避けられます。チェックポイントには大量のデータを保存する必要があり、多くの時間がかかります。学者チームは、llama 2 アーキテクチャに基づいて大規模なモデルを開発しましたが、データをハードウェアに一度保存するには 10 時間かかり、保存効率が開発の進捗に直接影響します。
大規模な異種データが理不尽に押し寄せる激流だとすると、ストレージ システムはデータ フローを運ぶ川です。その幅と堅固さが、データがブロックされるか停滞するかを直接決定し、大規模 AI のライフラインをブロックします。モデル。 。大型模型業界全体の生産性や効率性はストレージによって「上限が決まっている」と言える。
これが、AI データ インフラストラクチャとしてのストレージがますます注目を集めている理由です。
11月29日、「デジタルインテリジェンスイノベーションAI未来」2023中国データ&ストレージサミットが北京で開催された。 Sugon Storage は、大規模 AI モデル向けのストレージ ソリューションをリリースしました。
この機会を利用して、AI ラージ モデルの波がストレージにもたらす課題と、Sugon Storage がどのようにインテリジェント産業の道をリードし、AI ラージ モデルの成功を後押ししているかについて学びましょう。
AI 大型モデルは業界の深海領域に参入しており、従来のストレージ方法はデータの課題に直面しています
私は最近雲南省を旅行しましたが、北京、上海、広州などの科学技術の中心地だけでなく、昆明などの二流、三流都市でも大型模型の建設が本格化していることがわかりました。ダリ、そして国境地帯でも大型モデルの産業応用が積極的に検討されています。
あらゆる分野がインテリジェンスへの移行を進めており、そのほぼすべてが大型モデルに対する強い関心を引き起こしています。このとき、大規模な AI モデルの産業化傾向により、ストレージ インフラストラクチャのアップグレードが必要であるという重要な問題も明らかになりました。
モデル開発者がトレーニングするたびに、データはストレージ システムにさまざまな課題を引き起こします:
- データフラッドの影響。 大規模モデルの産業実装に伴い、多くの業界が専用モデルのトレーニングを開始しました。大量の業界データ、独自データ、および新しい注釈データが大規模モデルに供給されます。膨大な量のデータが、ストレージシステム。雲南省のデータ テクノロジ会社は、大規模なインダストリ モデルは、高品質のデータ セット、ドキュメント、顧客のプライベート データを使用してトレーニングする必要があると述べました。プロジェクトごとに個別のアノテーション グループが設立されています。データの規模は増加し続けており、ストレージ要件は増加しています。コストも増加します。
2. データの輻輳による足かせ。 非常に大規模なデータの前処理は遅くて時間がかかります。収集、分類、再配置などのプロセスには時間と手間がかかります。ストレージのパフォーマンスが追いつかなくなると、大容量ファイルのスループットが遅くなり、読み込みが多くなります。書き込み量が減り、チェックポイント待ちに時間がかかるため、開発の進捗が遅れ、開発コストが増加します。
3. 複雑なデータの底流。 さらに、大規模な AI モデルは、複雑なファイル形式、多様なデータ セット タイプ、およびデータ量の急増を伴う、大量の異種データを使用します。従来のストレージでは、データの複雑さという課題に対処することが困難であり、消化不良の問題が発生し、データ アクセス効率が低下し、モデルの動作効率が低下し、トレーニング コンピューティングの消費電力が増加し、高価な GPU コンピューティング リソースを完全に「絞る」ことができなくなります。たとえば、雲南省の地元の太陽観測所では、AI 科学計算モデルを使用して大規模な画像を学習し、太陽の本当の姿を表現しており、毎日 2 TB の画像データを生成していますが、現在のストレージのスループット効率は低いため、データの読み込みが遅くなります。トレーニングセットと長いデータ処理サイクルにより、研究プロセスが遅くなります。
4. データのセキュリティに関する懸念。 現在、AI の大規模モデルはさまざまな業界に深く浸透しています。トレーニング、開発、アプリケーション実装のプロセスでは、業界の機密情報や個人情報を含むデータを含む大量のデータ サポートが必要です。適切なデータの非感作化とデータ ホスティングがなければ、仕組み上、データ漏洩を引き起こし、業界や個人に損失を与える可能性があります。同時に、モデルのセキュリティ リスクも真剣に受け止める必要があり、たとえば、プラグインに有害なコンテンツが埋め込まれ、犯罪者が詐欺や「中毒」を行うツールとなり、社会や産業の安全を危険にさらす可能性があります。
AI の大型モデルは業界の深層水域に突入していますが、喜ばしいことは、この技術革新が知性のニーズを満たすために各界に深く組み込まれ、活力に満ちていることです。データ エンジニアリングは、データ収集、クリーニング、トレーニング、推論の展開、フィードバックの調整など、大規模モデルのライフサイクル全体で重要な役割を果たしており、これらのすべてに大量のデータが必要です。しかし、ストレージの問題がボトルネックとなっており、大規模な AI モデルはあらゆる段階でデータの輻輳、障害、非効率に直面する可能性があり、これにより開発サイクルが非常に長くなり、大規模モデルの総合コストが業界の手頃な価格を超えてしまう可能性があります。
データの沈着を回避し、大規模モデルの産業開発をサポートおよび育成するには、ストレージの「川」を浚渫する必要があります。 Sugon Storage は、貴重な参考事例を提供する新しいソリューションを提供します
高品質のデータ「チャネル」、Sugon Storage が大規模モデル業界に答えを提供します
大規模な AI モデルの開発者とのコミュニケーションの結果、私は明確な結論に達しました:大規模な AI モデルに適応する新しいストレージ システムの構築には、もはや議論は必要ありません。鍵となるのは、誰が最初にソリューションのアップグレードを完了し、実用的なソリューションを提供できるかです
業界のストレージ ニーズを洞察した Sugon Storage は、ParaStor ラージ モデル専用ストレージに基づいた AI ラージ モデル ストレージ ソリューションを作成し、独自の回答を作成しました。
Sugon Storage AI ラージ モデル ストレージ クラスターには、異種融合、究極のパフォーマンス、ネイティブ セキュリティという 3 つの優れた機能があります。
まず第一に、私たちは数千億のファイル ストレージ サービスを提供でき、その拡張規模はほぼ無制限です。また、データ アクセス プロトコルの多様性の問題を具体的に解決し、ファイルやオブジェクトなどの複数のストレージ プロトコルをサポートして、異なるストレージ システム間でのデータのコピーを回避します
次に、AI ラージ モデルの開発プロセスにおけるデータ処理効率に対する高い要求に応え、Sugon Storage AI ラージ モデル ストレージ クラスターは、マルチレベル キャッシュ アクセラレーション、XDS データ アクセラレーションなどの複数のデータ IO パフォーマンス最適化機能を提供できます。インテリジェントな高速ルーティング。
プロセス全体を通じてデータのセキュリティを確保するために、Sugon ストレージ ノードはチップレベルのセキュリティ機能を提供し、国家機密命令セットをサポートします。マルチレベルの信頼性により、ストレージ クラスタがポリシーや将来のセキュリティ トレンドに沿って、トレーニングと開発のサイクル全体を通じて安定して動作することを保証できます。
市場には非常に多くのストレージ ソリューションがあり、モデル開発に専門的なサポートを提供すると宣伝しているものもあります。 Sugon Storage のソリューションの差別化された価値は何ですか?
1.上級。 ヘテロジニアス融合、究極のパフォーマンス、チップレベルのネイティブセキュリティは、Sugon Storage の技術進歩を実証しており、特に大規模なデータ量、複雑で多様なデータ形式、低いスループット効率、大規模データのストレージと計算時間の問題を解決します。モデル開発: 待つことの本当の苦痛点。
2. 信頼できます。 高性能 AI データ インフラストラクチャは、Sugon Storage の自社開発イノベーションに基づいており、より信頼性と安全性が高く、新荘市の政策と将来のセキュリティ トレンドに適合しており、国内の大規模サービス プロバイダーが海外からの供給を避けるのに役立ちます。サプライチェーンのセキュリティからデータセキュリティに至るまでのチェーンリスク、モデルの安全性、および大規模モデル業界の発展を保護するためのその他の観点。
3. 包括的。 Sugon Storage は、ネットワーク、コンピューティング、プラットフォームをカバーするフル次元の AI ソリューションを作成し、トレーニングと開発サイクル全体を通じて安定した運用をサポートします。これにより、全体的なコストが削減され、大規模モデル開発者と業界の顧客が安心して前進できるようになります。
要約すると、Sugon Storage が構築する高品質な「チャネル」上で、大規模なデータを効率的に処理し、大規模な AI モデルの開発を加速できるため、業界や企業は一歩先を行くことができます。大規模モデルを垂直シナリオおよびビジネスと統合し、インテリジェント時代への切符を最初に手に入れましょう。
多くの企業が進歩と繁栄を競う現場を観察する、第5のパラダイムの新たな出発点
チューリング賞受賞者のジム・グレイはかつて、データ駆動型を中核とする第 4 のパラダイムを提案しました。大規模な言語モデルにおける「インテリジェンスの出現」により、「インテリジェンス主導型」の第 5 パラダイムは、データとインテリジェンスの有機的な組み合わせにより重点を置き、科学革命と産業革命を支える新しい基礎的なロジックになります。
これまでのことはすべてプロローグ。これは人工知能にも当てはまりますし、ストレージにも当てはまります
このカンファレンスでは、Sugon Storage Company の社長である Hui Runhai 氏に、20 年の業界経験と、AI ストレージ技術のブレークスルー、液冷ストレージの研究開発およびその他の分野における先進的な実践を誇る「ストレージ パイオニア」の称号が授与されました。彼のリーダーシップの下、Sugon 分散ファイル ストレージは長年にわたり市場をリードし続け、市場シェアでトップの地位を占めています。 AI 大型モデル向けのデータ ストレージ ソリューションにより、Sugon Storage は再び時代の最前線に浮上しました。
Sugon Storage の AI 大型モデル ストレージ クラスターは、新しいデータ パラダイムに適応し、データ インフラストラクチャのブレークスルーを通じて大型モデルの産業化の精力的な発展を促進するパラダイム シフトを積極的に実践しています。
次に、ストレージ業界の新しいパラダイムと新たな出発点において、Sugon Storage の高品質データの「川」上で、何百もの業界の大規模モデルがそのストリームをめぐって競い合い、AI アプリケーションが何千ものモデルと競争するのが見られるでしょう。情報へ向けて加速する帆、中国。以上がAI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

この記事では、ChatGpt、Gemini、ClaudeなどのトップAIチャットボットを比較し、自然言語の処理と信頼性における独自の機能、カスタマイズオプション、パフォーマンスに焦点を当てています。

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します

2024年は、コンテンツ生成にLLMSを使用することから、内部の仕組みを理解することへの移行を目撃しました。 この調査は、AIエージェントの発見につながりました。これは、最小限の人間の介入でタスクと決定を処理する自律システムを処理しました。 buildin

この記事では、Google Cloud、Amazon Polly、Microsoft Azure、IBM Watson、DecriptなどのトップAI音声ジェネレーターをレビューし、機能、音声品質、さまざまなニーズへの適合性に焦点を当てています。

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです
