AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です-AI-php.cn

ホームページ

テクノロジー周辺機器

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

PHPz

Dec 02, 2023 am 08:45 AM

データナビゲーション産業流通モデル駆動型

業界サミットで、清華大学の学者は、私たちの大規模な AI モデルが Wanka クラスターでトレーニングされており、3 時間ごとにエラーが発生していることを明らかにしました。ちょっと荒唐無稽な話ですが、これは世界の先進レベルに達しています

世界中で人気の大型 AI モデルが今年の注目のトピックであることは間違いなく、その数は増え続け、驚くべきレベルに達しています。「権力を求めて争う何百ものライバル」の中で、誰もが重要な問題を見落としがちです。それは、大規模な AI モデルによってもたらされるデータの奔流が想像以上に乱暴であるということです。

「3 時間に 1 回エラーが発生する」というと信じられないように聞こえますが、実際には、大規模モデルの実践者、さらには「優等生」さえも直面する標準です。業界における現在の一般的な慣行は、フォールトトレラントなチェックポイントを作成することです。エラーは 3 時間以内に報告されるため、2.5 時間ごとに停止し、チェックポイントを書き込み、データを保存してから、トレーニングを再開する必要があります。障害が発生すると、書き込まれたチェックポイントから回復できるため、「最初からやり直す」ことやすべてが無駄になることを避けられます。チェックポイントには大量のデータを保存する必要があり、多くの時間がかかります。学者チームは、llama 2 アーキテクチャに基づいて大規模なモデルを開発しましたが、データをハードウェアに一度保存するには 10 時間かかり、保存効率が開発の進捗に直接影響します。

大規模な異種データが理不尽に押し寄せる激流だとすると、ストレージシステムはデータフローを運ぶ川です。その幅と堅固さが、データがブロックされるか停滞するかを直接決定し、大規模 AI のライフラインをブロックします。モデル。。大型模型業界全体の生産性や効率性はストレージによって「上限が決まっている」と言える。

これが、AI データインフラストラクチャとしてのストレージがますます注目を集めている理由です。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

11月29日、「デジタルインテリジェンスイノベーションAI未来」2023中国データ＆ストレージサミットが北京で開催された。 Sugon Storage は、大規模 AI モデル向けのストレージソリューションをリリースしました。

この機会を利用して、AI ラージモデルの波がストレージにもたらす課題と、Sugon Storage がどのようにインテリジェント産業の道をリードし、AI ラージモデルの成功を後押ししているかについて学びましょう。

AI 大型モデルは業界の深海領域に参入しており、従来のストレージ方法はデータの課題に直面しています

私は最近雲南省を旅行しましたが、北京、上海、広州などの科学技術の中心地だけでなく、昆明などの二流、三流都市でも大型模型の建設が本格化していることがわかりました。ダリ、そして国境地帯でも大型モデルの産業応用が積極的に検討されています。

あらゆる分野がインテリジェンスへの移行を進めており、そのほぼすべてが大型モデルに対する強い関心を引き起こしています。このとき、大規模な AI モデルの産業化傾向により、ストレージインフラストラクチャのアップグレードが必要であるという重要な問題も明らかになりました。

モデル開発者がトレーニングするたびに、データはストレージシステムにさまざまな課題を引き起こします:

データフラッドの影響。 大規模モデルの産業実装に伴い、多くの業界が専用モデルのトレーニングを開始しました。大量の業界データ、独自データ、および新しい注釈データが大規模モデルに供給されます。膨大な量のデータが、ストレージシステム。雲南省のデータテクノロジ会社は、大規模なインダストリモデルは、高品質のデータセット、ドキュメント、顧客のプライベートデータを使用してトレーニングする必要があると述べました。プロジェクトごとに個別のアノテーショングループが設立されています。データの規模は増加し続けており、ストレージ要件は増加しています。コストも増加します。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

2. データの輻輳による足かせ。 非常に大規模なデータの前処理は遅くて時間がかかります。収集、分類、再配置などのプロセスには時間と手間がかかります。ストレージのパフォーマンスが追いつかなくなると、大容量ファイルのスループットが遅くなり、読み込みが多くなります。書き込み量が減り、チェックポイント待ちに時間がかかるため、開発の進捗が遅れ、開発コストが増加します。

3. 複雑なデータの底流。 さらに、大規模な AI モデルは、複雑なファイル形式、多様なデータセットタイプ、およびデータ量の急増を伴う、大量の異種データを使用します。従来のストレージでは、データの複雑さという課題に対処することが困難であり、消化不良の問題が発生し、データアクセス効率が低下し、モデルの動作効率が低下し、トレーニングコンピューティングの消費電力が増加し、高価な GPU コンピューティングリソースを完全に「絞る」ことができなくなります。たとえば、雲南省の地元の太陽観測所では、AI 科学計算モデルを使用して大規模な画像を学習し、太陽の本当の姿を表現しており、毎日 2 TB の画像データを生成していますが、現在のストレージのスループット効率は低いため、データの読み込みが遅くなります。トレーニングセットと長いデータ処理サイクルにより、研究プロセスが遅くなります。

4. データのセキュリティに関する懸念。 現在、AI の大規模モデルはさまざまな業界に深く浸透しています。トレーニング、開発、アプリケーション実装のプロセスでは、業界の機密情報や個人情報を含むデータを含む大量のデータサポートが必要です。適切なデータの非感作化とデータホスティングがなければ、仕組み上、データ漏洩を引き起こし、業界や個人に損失を与える可能性があります。同時に、モデルのセキュリティリスクも真剣に受け止める必要があり、たとえば、プラグインに有害なコンテンツが埋め込まれ、犯罪者が詐欺や「中毒」を行うツールとなり、社会や産業の安全を危険にさらす可能性があります。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

AI の大型モデルは業界の深層水域に突入していますが、喜ばしいことは、この技術革新が知性のニーズを満たすために各界に深く組み込まれ、活力に満ちていることです。データエンジニアリングは、データ収集、クリーニング、トレーニング、推論の展開、フィードバックの調整など、大規模モデルのライフサイクル全体で重要な役割を果たしており、これらのすべてに大量のデータが必要です。しかし、ストレージの問題がボトルネックとなっており、大規模な AI モデルはあらゆる段階でデータの輻輳、障害、非効率に直面する可能性があり、これにより開発サイクルが非常に長くなり、大規模モデルの総合コストが業界の手頃な価格を超えてしまう可能性があります。

データの沈着を回避し、大規模モデルの産業開発をサポートおよび育成するには、ストレージの「川」を浚渫する必要があります。 Sugon Storage は、貴重な参考事例を提供する新しいソリューションを提供します

高品質のデータ「チャネル」、Sugon Storage が大規模モデル業界に答えを提供します

大規模な AI モデルの開発者とのコミュニケーションの結果、私は明確な結論に達しました:大規模な AI モデルに適応する新しいストレージシステムの構築には、もはや議論は必要ありません。鍵となるのは、誰が最初にソリューションのアップグレードを完了し、実用的なソリューションを提供できるかです

業界のストレージニーズを洞察した Sugon Storage は、ParaStor ラージモデル専用ストレージに基づいた AI ラージモデルストレージソリューションを作成し、独自の回答を作成しました。

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

Sugon Storage AI ラージモデルストレージクラスターには、異種融合、究極のパフォーマンス、ネイティブセキュリティという 3 つの優れた機能があります。

まず第一に、私たちは数千億のファイルストレージサービスを提供でき、その拡張規模はほぼ無制限です。また、データアクセスプロトコルの多様性の問題を具体的に解決し、ファイルやオブジェクトなどの複数のストレージプロトコルをサポートして、異なるストレージシステム間でのデータのコピーを回避します

次に、AI ラージモデルの開発プロセスにおけるデータ処理効率に対する高い要求に応え、Sugon Storage AI ラージモデルストレージクラスターは、マルチレベルキャッシュアクセラレーション、XDS データアクセラレーションなどの複数のデータ IO パフォーマンス最適化機能を提供できます。インテリジェントな高速ルーティング。

プロセス全体を通じてデータのセキュリティを確保するために、Sugon ストレージノードはチップレベルのセキュリティ機能を提供し、国家機密命令セットをサポートします。マルチレベルの信頼性により、ストレージクラスタがポリシーや将来のセキュリティトレンドに沿って、トレーニングと開発のサイクル全体を通じて安定して動作することを保証できます。

市場には非常に多くのストレージソリューションがあり、モデル開発に専門的なサポートを提供すると宣伝しているものもあります。 Sugon Storage のソリューションの差別化された価値は何ですか?

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

各社の技術用語や製品の詳細に混乱している場合は、いくつかの単語を使って Sugon Storage AI 大型モデルストレージクラスターの差別化された価値を覚えておくとよいでしょう。

1.上級。ヘテロジニアス融合、究極のパフォーマンス、チップレベルのネイティブセキュリティは、Sugon Storage の技術進歩を実証しており、特に大規模なデータ量、複雑で多様なデータ形式、低いスループット効率、大規模データのストレージと計算時間の問題を解決します。モデル開発: 待つことの本当の苦痛点。

2. 信頼できます。高性能 AI データインフラストラクチャは、Sugon Storage の自社開発イノベーションに基づいており、より信頼性と安全性が高く、新荘市の政策と将来のセキュリティトレンドに適合しており、国内の大規模サービスプロバイダーが海外からの供給を避けるのに役立ちます。サプライチェーンのセキュリティからデータセキュリティに至るまでのチェーンリスク、モデルの安全性、および大規模モデル業界の発展を保護するためのその他の観点。

3. 包括的。 Sugon Storage は、ネットワーク、コンピューティング、プラットフォームをカバーするフル次元の AI ソリューションを作成し、トレーニングと開発サイクル全体を通じて安定した運用をサポートします。これにより、全体的なコストが削減され、大規模モデル開発者と業界の顧客が安心して前進できるようになります。

要約すると、Sugon Storage が構築する高品質な「チャネル」上で、大規模なデータを効率的に処理し、大規模な AI モデルの開発を加速できるため、業界や企業は一歩先を行くことができます。大規模モデルを垂直シナリオおよびビジネスと統合し、インテリジェント時代への切符を最初に手に入れましょう。

多くの企業が進歩と繁栄を競う現場を観察する、第5のパラダイムの新たな出発点

チューリング賞受賞者のジム・グレイはかつて、データ駆動型を中核とする第 4 のパラダイムを提案しました。大規模な言語モデルにおける「インテリジェンスの出現」により、「インテリジェンス主導型」の第 5 パラダイムは、データとインテリジェンスの有機的な組み合わせにより重点を置き、科学革命と産業革命を支える新しい基礎的なロジックになります。

これまでのことはすべてプロローグ。これは人工知能にも当てはまりますし、ストレージにも当てはまります

AI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要です

このカンファレンスでは、Sugon Storage Company の社長である Hui Runhai 氏に、20 年の業界経験と、AI ストレージ技術のブレークスルー、液冷ストレージの研究開発およびその他の分野における先進的な実践を誇る「ストレージパイオニア」の称号が授与されました。彼のリーダーシップの下、Sugon 分散ファイルストレージは長年にわたり市場をリードし続け、市場シェアでトップの地位を占めています。 AI 大型モデル向けのデータストレージソリューションにより、Sugon Storage は再び時代の最前線に浮上しました。

Sugon Storage の AI 大型モデルストレージクラスターは、新しいデータパラダイムに適応し、データインフラストラクチャのブレークスルーを通じて大型モデルの産業化の精力的な発展を促進するパラダイムシフトを積極的に実践しています。

次に、ストレージ業界の新しいパラダイムと新たな出発点において、Sugon Storage の高品質データの「川」上で、何百もの業界の大規模モデルがそのストリームをめぐって競い合い、AI アプリケーションが何千ものモデルと競争するのが見られるでしょう。情報へ向けて加速する帆、中国。

以上がAI の大型モデルは産業の海に向かって航行しており、それを導く高品質のデータ「川」が必要ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7759

Java チュートリアル

1644

CakePHP チュートリアル

1399

Laravel チュートリアル

1293

PHP チュートリアル

1234

Related knowledge

クリエイティブプロジェクトのための最高のAIアートジェネレーター（無料＆amp;有料） Apr 02, 2025 pm 06:10 PM

この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

ベストAIチャットボットが比較されました（chatgpt、gemini、claude＆amp; more） Apr 02, 2025 pm 06:09 PM

この記事では、ChatGpt、Gemini、ClaudeなどのトップAIチャットボットを比較し、自然言語の処理と信頼性における独自の機能、カスタマイズオプション、パフォーマンスに焦点を当てています。

ChatGpt 4 oは利用できますか？ Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

トップAIライティングアシスタントは、コンテンツの作成を後押しします Apr 02, 2025 pm 06:11 PM

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します