AI大型モデル時代の発展が安定的に進展するには高度なストレージ技術が必要

王林
リリース: 2023-09-19 09:05:01
転載
1291 人が閲覧しました

人工知能の分野は 1956 年に始まり、その後半世紀にわたってほとんど進歩せず、コンピューティング能力とデータの開発はアルゴリズムに大きく遅れをとっていました。しかし、2000 年のインターネット時代の到来により、コンピューティング能力の限界は打ち破られ、人工知能は徐々にあらゆる階層に浸透し、大規模モデルの時代が到来しました。しかし、高品質のデータが人工知能の開発における最後の「ボトルネック」になっているようです

ファーウェイ OceanStor Pacific は、最近開催された全国ハイパフォーマンス コンピューティング学術年次会議で「AI ストレージ ベースのベスト イノベーション賞」を受賞しました (CCF HPC China 2 は、023 に書き換える必要があります)

AI大型モデル時代の発展が安定的に進展するには高度なストレージ技術が必要

AI 保持という概念の出現は、実際には AI のデータ価値の継続的な向上を反映しています

書き換える必要がある内容は: 01

データは人工知能の知能レベルを決定します

人工知能の開発は、継続的なデータ収集と分析のプロセスです。情報の伝達手段としてのデータは、人工知能が世界を学習し理解するための基盤です。一般知能は人工知能開発の最終目標です。自律的に学習し、理解し、推論し、問題を解決することができ、データはその開発の最大の原動力です

つまり、データが増えれば増えるほど、AIはより賢くなるのでしょうか?大量のデータがある限り、AIは専門家の役割を超えることができるのでしょうか?

医療分野の人工知能システムを例にとると、実際には、多くの診断ケースには単一の正解がありません。医療診断では、各症状にはさまざまな確率でさまざまな原因が考えられるため、AI 支援による意思決定は、臨床医が解決策が見つかるまで考えられる原因を絞り込むのに役立ちます。この場合、医療用人工知能は大量のデータではなく、正確で高品質なデータに依存します。この方法によってのみ、「スクリーニング」中に実際に考えられる原因を見逃さないようにすることができます

AI インテリジェンスにおけるデータ品質の重要性は、この典型的なデモンストレーションに反映されています

人工知能業界では、「ゴミが入ったらゴミが出てくる」というコンセンサスが常にありました。これは、高品質のデータ入力がなければ、アルゴリズムがどれほど高度であっても、またはコンピューティング能力がどれほど強力であっても、高品質の結果を生み出すことはできないことを意味します

AI大型モデル時代の発展が安定的に進展するには高度なストレージ技術が必要

今の時代、私たちは大型モデルの頂点に立っています。人工知能の大きなモデルが雨後のキノコのように湧き出ています。ファーウェイのPangu、iFlytekのSpark、ZidongのTaichuなど、多くの中国の大型モデルは急速に開発を進めており、あらゆる分野のデジタル変革に力を提供する、業界を超えた汎用人工知能機能プラットフォームの構築に取り組んでいる。

##中国科学技術省新世代人工知能開発研究センターが5月末に発表した「中国人工知能大型モデルマップ研究報告書」によると、10億以上のパラメータを持つ79の大型モデルが存在するという。中国で発売されました。 「100モデルの戦い」のパターンが形成されましたが、それは同時に大型モデルの開発について深く考えるきっかけにもなりました。

小規模データに基づくモデルの表現能力はデータ規模によって制限され、粗粒度のシミュレーションと予測しか実行できません。これは、精度の要件が比較的高い状況では適用できなくなります。モデルの精度をさらに向上させたい場合は、大量のデータを使用して関連するモデルを生成する必要があります

書き換えられた内容は次のとおりです: これは、データの量が AI の知能の程度を決定することを意味します。データの質に関係なく、データの量は「AI ストレージ容量」の構築に重点を置く必要がある分野です

書き換える必要があるのは、02

です。

ビッグデータの時代にデータが直面する課題

人工知能が大規模モデルとマルチモダリティに向けて発展するにつれて、企業は大規模モデル アプリケーションを開発または実装する際に多くの課題に直面します。

まず第一に、データの前処理サイクルは非常に長いです。データが異なるデータセンター、異なるアプリケーション、異なるシステムに分散しているため、収集速度が遅いなどの課題があり、100TBのデータの前処理には10日程度を要しており、システム利用率の改善が必要です。始まり。 ###

第二に、トレーニング セットの読み込み効率が低いという問題を解決する必要があります。現在、大規模モデルの規模はますます大きくなり、パラメータレベルは数千億、さらには兆に達しており、トレーニングプロセスには大量のコンピューティングリソースとストレージスペースが必要です。たとえば、マルチモーダル大規模モデルはトレーニング セットとして大量のテキストと画像を使用しますが、現在の大量の小さなファイルの読み込み速度が遅いため、トレーニング セットの読み込みが非効率になります

さらに、大規模なモデルパラメータの頻繁な調整と、平均して 2 日ごとにトレーニングの中断が発生する不安定なトレーニング プラットフォームという課題にも直面しています。トレーニングを再開するには、チェックポイント メカニズムを使用する必要があり、障害の回復時間が 1 日を超えるため、ビジネス継続性に多くの課題が生じます。

AIラージモデル時代を勝ち抜くには、データの質と量の両方に配慮し、大容量かつ高性能なストレージインフラを構築する必要があります。これが勝利への重要な要素となった

書き換える必要がある内容は: 03

AI時代の鍵は権力基盤にある

ビッグデータ、人工知能、その他のテクノロジーとハイパフォーマンス コンピューティングを組み合わせることで、ハイパフォーマンス データ分析 (HPDA) はデータ価値を実現する新しい形式になりました。 HPDA は、より多くの履歴データ、複数の異種コンピューティング能力、分析手法を利用することで、分析精度を向上させることができます。これは科学研究におけるインテリジェント研究の新たな段階を示し、人工知能テクノロジーは最先端の結果の応用を加速します

現在、科学研究の分野では、「データ集約型科学」に基づく新しいパラダイムが出現しています。このパラダイムは、計算と分析を通じて新しい知識と発見を得るために、ビッグデータのナレッジマイニングと人工知能のトレーニングと推論テクノロジーを組み合わせることに重点を置いています。これは、基盤となるデータ インフラストラクチャの要件が根本的に変わることも意味します。ハイ パフォーマンス コンピューティングであれ、人工知能の将来の発展であれ、データの課題に対処するための高度なストレージ インフラストラクチャを確立する必要があります。

AI大型モデル時代の発展が安定的に進展するには高度なストレージ技術が必要データの課題を解決するには、データ ストレージの革新から始める必要があります。ことわざにあるように、鐘を解く人は鐘を結ばなければなりません

AI ストレージ ベースは、OceanStor Pacific 分散ストレージに基づいて開発されており、AI のあらゆる側面のストレージ ニーズを満たすために AI ネイティブ設計コンセプトに準拠しています。 AI システムは、データ コンピューティングの高速化、データ ストレージ管理、データ ストレージとコンピューティング間の効率的な循環など、ストレージに対して包括的な課題を引き起こします。 「大容量ストレージと高性能ストレージ」を組み合わせて使用​​することで、ストレージ リソースの一貫したスケジューリングと調整が保証され、すべてのリンクが効率的に動作し、AI システムの価値を最大限に発揮できます

OceanStor Pacific 分散ストレージは、そのコア機能をどのように実証しますか?

まず第一に、技術アーキテクチャは業界でユニークです。このストレージ システムは、無制限の水平拡張をサポートし、混合負荷を処理でき、小さなファイルの IOPS と大きなファイルの高速読み取りおよび書き込みの帯域幅を効率的に処理できます。パフォーマンス層とキャパシティ層でのインテリジェントな階層型データフロー機能を備えており、大量データの収集、前処理、学習、推論などのフルプロセスのAIデータ管理を実現できます。さらに、HPC やビッグデータと同様のデータ分析機能を備えています

書き直された内容は次のとおりです: 第二に、業界の効率を向上させる最善の方法はストレージの革新です。 1 つ目はデータ ウィービングです。これは、GFS グローバル ファイル システムを通じて、さまざまなリージョンに散在する生データにアクセスし、システム、リージョン、複数のクラウドにわたるグローバルな統一データ ビューとスケジューリングを実現し、データ収集プロセスを簡素化することを意味します。 2 つ目は、ニアメモリ コンピューティングです。これは、組み込みのコンピューティング能力を蓄積することでニアデータの前処理を実現し、無効なデータ送信を削減し、前処理サーバーの待ち時間を短縮することで、前処理効率を大幅に向上させます。

実際には、「数百のモデルの戦い」は大規模な AI モデルの開発の「兆候」ではありません。今後、各界がAI大型モデルの機能を活用してデジタルトランスフォーメーションの深化した開発を推進し、データインフラの構築も加速するだろう。 OceanStor Pacific 分散ストレージの革新的な技術アーキテクチャと高効率は、業界の最初の選択肢であることが証明されています

私たちは、データが土地、労働力、資本、テクノロジーと並んで新たな生産要素になったことを理解しています。過去のデジタル市場における伝統的な定義や運用モデルの多くは書き換えられるでしょう。既存の機能を使用してのみ、データ駆動型人工知能の大規模モデルの時代を確実に前進させることができます。

以上がAI大型モデル時代の発展が安定的に進展するには高度なストレージ技術が必要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:sohu.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート