AIは急速に進歩しており、私たちは体力を温存するために先駆者になる必要があります

PHPz
リリース: 2023-06-03 20:49:23
転載
1294 人が閲覧しました

5月30日、2023年中関村フォーラム成果会議で、「世界的に影響力のある人工知能イノベーションセンターの建設を加速する北京の実施計画(2023年~2025年)」が正式に発表された。 「実装計画」では、イノベーション主体が分散型効率的な深層学習フレームワークや大規模モデル向けの新たなインフラストラクチャなどの技術のブレークスルーに注力し、大規模モデルに関連する技術革新の促進に努めるよう支援することを求めている。

これも業界では、中国が大型モデルの開発を強力に推進する証拠の一つとみなされている。実際、最近では、中央省庁や地方委員会から地方都市に至るまで、AI技術の開発や大型モデルのチャンスをつかむ政策志向が高まっており、政策導入の密度と全体の戦略の高さはともに驚くべきレベルに達している。 。

AIは急速に進歩しており、私たちは体力を温存するために先駆者になる必要があります

中国が大規模モデルをブレークスルーポイントとしてAIの飛躍を達成すると信じる理由があります。 2017年に新世代の人工知能開発戦略を立ち上げて以来、中国は現在のチャンスの中でさらに発展し、AI産業全体の爆発を促進するだろう。

AI 開発のチャンスをつかむには、技術的なブレークスルーとインフラストラクチャの構築が必要であることは誰もが知っています。AI 業界のインフラストラクチャというと、一般的に AI チップ、ディープラーニング フレームワーク、事前トレーニングされた大規模モデルが挙げられます。もう 1 つの重要な問題は見落とされがちです。大規模なモデルは膨大なデータ圧力をもたらし、データ ストレージは AI 開発プロセスのバックボーンでもあります。

ChatGPT はこの AI 爆発の先導者であり、大規模モデルの大規模アプリケーションによって引き起こされるデータの問題は、実際に ChatGPT で書かれています。

今後の圧力に直面して、中国の準備はできていますか?

ChatGPT から AI の台頭によってもたらされるデータの課題を考察する

Google が 2018 年に BERT をリリースして以来、業界は大規模モデルの事前トレーニングへの道を歩み始めました。大規模モデルの特徴は、トレーニング データとモデル パラメーターの規模が膨大であるため、ストレージに深刻な課題が生じることです。これは ChaGPT でも明らかです。

事前トレーニングされた大規模モデルのいわゆる「巨大さ」は、モデルの深層学習ネットワークが多くの層、多くのリンク、複雑なパラメーターを持ち、トレーニングに使用されるデータセットの種類がより複雑であるという事実に反映されています。そしてデータ量も豊富になります。ディープラーニングのアルゴリズムが誕生した当初、主流のモデルには数百万個のパラメータしかありませんでしたが、BERTがリリースされた時点ではモデルのパラメータは1億個を超え、ディープラーニングは大規模モデルの段階にまで進化しました。 ChatGPT の段階で、主流モデルにはすでに数千億のパラメータがあり、業界は数兆のモデルを計画し始めています。数年間でAIモデルのパラメータは数千倍に増加し、そのような膨大なデータとモデルを保存する必要があり、これはAIの流行によって引き起こされたストレージに対する最初の大きな試練となった。

さらに、大規模な AI モデルは新しいモデル構造を採用しているため、非構造化データに対する吸収効果とロバスト性が向上することが広く話題になるでしょう。これは AI の最終的な効果にとって非常に重要ですが、また、ここで派生的な質問があります。大量の非構造化データの保存と呼び出しを適切に処理する必要があります。たとえば、アップグレード後、ChatGPT には画像認識などのマルチモーダル機能が追加されたため、そのトレーニング データにはテキストの上に多数の画像を追加する必要もあります。モデルトレーニングの基礎として、毎日大量のフィールドテストビデオを作成します。これらの非構造化データの増加は、データの保存と処理を伴う AI 関連データの大幅な増加という問題を引き起こしています。

AIは急速に進歩しており、私たちは体力を温存するために先駆者になる必要があります

統計によると、現在、世界の新しいデータの 80% が非構造化データであり、年平均成長率は 38% です。多様化するデータの急増への対応は、大規模モデルの時代に克服しなければならない課題となっています。

別の問題があります。大規模なモデルでは、頻繁にデータを読み取ったり呼び出したりする必要があることがよくあります。 ChatGPTのデータアクセス使用量は単月で17億6,000万回に達し、平均応答速度は10秒以内 AIモデルのワークフローは収集、準備、トレーニング、推論の4つの部分で構成され、各段階で読み書きが必要さまざまな種類のデータ。したがって、大規模なモデルでは、ストレージのパフォーマンスにも要件が課されます。

さらに、ChatGPT を巡る一連のデータ主権とデータ保護に関する紛争は、大規模な AI モデルがデータ セキュリティに新たなリスクをもたらすことを私たちに思い出させます。想像してみてください。犯罪者がデータベースを攻撃し、ユーザーを欺くために大規模な言語モデルに誤った情報を生成させた場合、その被害は深刻かつ隠蔽されることになります。

全体として、ChatGPT は優れていますが、データ ストレージの規模、パフォーマンス、セキュリティ、その他の側面に課題をもたらします。大規模なモデルや ChatGPT のようなアプリケーションの開発に取り組む場合は、ストレージを渡す必要があります。

中国には強さがありますが、その準備はできていますか?

近年、私たちはコンピューティングパワーが生産性であると言われてきました。しかし、計画を立てるなら貯蓄が必要であり、貯蓄の限界によってデジタル生産性の発展の上限も決まります。

では、中国の予備軍は、避けられない中国の大型モデルの急増に備える準備ができているのでしょうか?残念ながら、いくつかの側面から見ると、中国の予備力に対する備えは今日でもまだ不十分であり、さらに改善し発展させる必要がある。中国の Cunli が大規模モデルによってもたらされるデータ圧力に対処できるかどうかを確認するために、いくつかの問題に注目することができます。

1. 能力不足でAI産業発展の上限が制限される

大規模なモデルには大量のデータが含まれるため、最優先事項はこのデータを適切に保存することです。しかし現段階では、中国は依然としてストレージ容量不足の問題を抱えており、大量のデータは保管段階に入ることができない。 2022年のデータから判断すると、中国のデータ生産量は驚くべき8.1ZBに達し、世界第2位となった。しかし、中国のストレージ容量はわずか約 1,000 EB、つまりデータ保存率は 12% にすぎず、大部分のデータは効果的に保存できません。中国はデータを生産の第5要素と明確に定義しており、インテリジェンスの発展にはデータに依存し、データを最大限に活用する必要があるが、保存が困難な膨大なデータが存在するという問題がある。不真面目な。中国は、大型モデルによってもたらされるAI技術開発の機会をつかむために、依然として高速かつ大規模な能力の成長を維持する必要がある。

2. 膨大なデータの影響で管理効率やアクセス効率が低下する

前述したように、大規模な AI モデルによってもたらされる主なデータ課題は、膨大なデータの管理と、データの取得と保存の処理の非効率性です。アクセス効率を向上するには、高効率かつ低エネルギー消費の方法でデータを保存および書き込む必要がありますが、現在中国ではデータの 75% が依然として機械式ハード ドライブを使用しています。フラッシュ ドライブと比較すると、メカニカル ハード ドライブは容量密度が低く、データの読み取りが遅く、エネルギー消費が高く、信頼性が低いという欠点がありますが、相対的にオール フラッシュ メモリには、高密度、低エネルギー消費、高性能、低消費電力などの一連の利点があります。信頼性は高いが、中国のオールフラッシュメモリの置き換えはまだまだ先が長い。

AIは急速に進歩しており、私たちは体力を温存するために先駆者になる必要があります

3. 複数のデータに関する懸念がストレージのセキュリティに関する深刻な状況を引き起こす

データ セキュリティの問題は、AI 企業だけでなく AI 業界にとっても緊急の懸念事項となっています。 2020年、米国のClearview AI企業でデータセキュリティインシデントが発生し、2,000社以上の顧客から30億件のデータが流出した。この事例は、AI業界におけるデータセキュリティの状況が非常に深刻であり、データの保管段階からセキュリティに注意を払う必要があることを示しています。特に、大規模な AI モデルが国家経済や国民生活においてますます重要な役割を果たすようになるにつれ、起こり得るさまざまなリスクに対処するためにストレージのセキュリティ機能を向上させる必要性がさらに高まります。

客観的に見ると、中国 Cunli は高い開発速度を維持していますが、全体の規模、オールフラッシュ メモリの割合、技術革新能力の点で依然として一定の欠陥があります。産業インテリジェンスのニーズと AI の大規模実装に応えるストレージのアップグレードの時期が来ています。

インテリジェント時代に直面するストレージ業界の機会と方向性

ChatGPT に代表される大規模な AI モデルがストレージにもたらす圧力と、中国のストレージ容量自体の開発状況を組み合わせると、次の結論が明確に導き出されます。中国のストレージは、AI の台頭と大規模なストレージの完成をサポートする必要があります。アップグレード。

ストレージ業界の発展の方向性が明確に見えており、これらの方向性の緊急性と広範なスペースがストレージ業界にとって大きなチャンスとなります。

まずは記憶容量の規模を拡大し、オールフラッシュメモリの構築を加速する必要があります。

オールフラッシュ メモリは、長年にわたるストレージ業界の全体的な開発トレンドである「シリコンの進歩と磁気の後退」により、機械式ハードディスクに取って代わります。 AIの台頭による産業機会に直面している中国のストレージ業界は、オールフラッシュメモリの代替導入と実装を加速し、高性能や高信頼性といったオールフラッシュメモリの利点を最大限に活用してデータストレージのニーズに対応する必要がある。大規模な AI モデルによってもたらされます。

さらに、オールフラッシュ分散ストレージの機会が増加していることにも注意する必要があります。大規模な AI モデルの台頭と非構造化データの急増により、データの重要性が大幅に高まっていると同時に、AI が大規模政府企業の生産の中核に浸透しており、より多くの企業ユーザーがローカライズされた AI トレーニングを実施し、AI を導入する傾向にあります。ファイルベースの AI トレーニング データをパブリック クラウド プラットフォームに置くのではなく、プロトコル データ ストレージを使用することで、分散ストレージの需要が増加し、強化されています。

AIは急速に進歩しており、私たちは体力を温存するために先駆者になる必要があります

この 2 つの組み合わせにより、ストレージ業界におけるオールフラッシュの導入が今後も急速に推進され、中国のストレージ業界の発展の中核となるでしょう。

第二に、AI モデルの開発ニーズに適応するために、ストレージ テクノロジーのイノベーションを改善する必要があります。

前述したように、AIによるデータテストはデータの大規模化だけでなく、データの複雑性やアプリケーションプロセスの多様性といった課題も抱えており、ストレージの高度性をさらに高める必要があります。たとえば、AI の頻繁なデータ アクセス要件に対処するには、ストレージの読み取りおよび書き込み帯域幅とアクセス効率をアップグレードする必要があります。大規模な AI モデルのデータ ニーズを満たすために、ストレージ業界は包括的な技術アップグレードを実行する必要があります。

データの保存形式に関して、「ファイル」や「オブジェクト」などの従来のデータ形式の本来の設計意図は、AI モデルのトレーニングのニーズと一致せず、非構造化データのデータ形式は統一されていません。データを呼び出すプロセスで、ファイル形式を再理解して調整するために多くの作業が必要となり、モデルの動作効率の低下とトレーニング コンピューティングの消費電力の増加につながります。

そのためには、ストレージ側で新たな「データパラダイム」を形成する必要があります。自動運転トレーニングを例にとると、データトレーニングプロセスにはさまざまな種類のデータが含まれますが、ストレージ側で新しいデータパラダイムを採用すると、さまざまなデータを統合し、AI モデルのトレーニングに適切に適応できるようになり、自動運転トレーニングのプロセスが加速されます。自動運転車のトレーニング。たとえば、AI を新しい動物として想像すると、新しい種類の餌を食べる必要があります。従来の形式でデータを与えると、消化不良の問題が発生します。新しいデータ パラダイムは、データを保存することです。 AIに完全に適しており、「AIに餌を与える」プロセスがスムーズになります。

AI 開発作業では、データ管理が作業負荷の大きな部分を占めますが、異なるデータセット間のデータアイランドの問題も存在します。データウィービングテクノロジーは、これらの問題に効果的に対処できます。データウィービングを通じて、ストレージにデータ分析機能を内蔵し、物理的および論理的に分散したデータを統合して、データのスケジューリングとフロー機能の全体像を形成することで、AI によってもたらされる大量のデータを効果的に管理し、データ利用効率を向上させることができます。

ストレージ側のこれらの技術革新により、データ ストレージと AI 開発が緊密に連携することができます。

さらに、アクティブなセキュリティ機能を強化するには、ストレージ自体にセキュリティ機能を組み込む必要があります。

AI の価値が高まるにつれ、データ セキュリティの問題が企業ユーザーにもたらす損失は増大します。したがって、企業はデータ セキュリティ機能を向上させる必要があります。最も重要な点は、データの復元力を向上させ、ストレージ自体にセキュリティ機能を持たせ、ソースからデータのセキュリティを保護することです。次に、ランサムウェア検出、データ暗号化、セキュリティ スナップショット、AirGap 隔離回復機能など、より多くのデータ復元機能がデータ ストレージ製品に組み込まれる予定です。

業界では、大規模な AI モデルの台頭に応じて、ストレージを包括的にアップグレードすることをすでに検討し、試みていることは注目に値します。 Huawei Storage は、高品質のオールフラッシュ製品を通じて、高度なストレージ技術と組み込みのセキュリティ機能を統合し、ストレージのイノベーションと AI 開発の緊密な適合を実現し、相互に連携します。

全体として、ストレージ産業の発展と中国のストレージ容量の進歩は、大規模な AI モデルの実装、さらには数千の産業のインテリジェント アップグレードにとって決定的な重要性を持っています。ストレージの開発がなければ、AI によってもたらされるデータの洪水を適切に解決することは難しく、データ サポートの欠如により AI テクノロジーが根なし木になる可能性さえあります。

ストレージ業界は、インテリジェント時代の機会と責任に同時に直面しています。ファーウェイのような優れたブランドの開拓が続く中、中国のストレージは前例のないチャンスに直面していると同時に、時代が与えた責任も背負っている。

多くの業界専門家は、大規模言語モデルが AI の歴史における「iPhone の瞬間」であると信じています。そして、AI テクノロジーによってもたらされるストレージアップグレードの波もまた、中国のストレージ業界にとってマイルストーンとなる瞬間であり、黄金期への序曲となる可能性があります。年。

以上がAIは急速に進歩しており、私たちは体力を温存するために先駆者になる必要がありますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:sohu.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート