2023 年を通じて、世界のテクノロジー コミュニティは大きなモデルで賑わっています。大規模 AI モデルと産業シナリオの間の最短経路として、クラウド コンピューティング業界は、大規模モデルの波の中で当然多くの注目を集めています。現段階では、クラウドベンダーが次々と大型モデル業界に参入し、大型モデルがクラウドコンピューティング業界にもたらす可能性を多角的に模索している。
しかし、私たちはそのような重要なノードを無視する傾向があります。「数百のモデルと数千の状態」を持つ大規模モデルの最初の課題は、AI の計算能力です。大規模モデル サービスで良い仕事をするには、コンピューティング パワー サービスでも良い仕事をする必要があります。
AI コンピューティング能力の最も基本的な機能には、AI クラウド サービスをさらに進化させる方法に対する本当の答えが隠されています。
9月21日、Huawei Connected Conference 2023の会期中、Huaweiマネージングディレクター兼Huawei Cloud CEOのZhang Pingan氏は、「インテリジェントな世界のためのクラウド基盤の構築、AIによる何千もの産業の再構築」に焦点を当てた基調講演を行い、Panguをリリースしました。鉱業、政府事務、自動車、気象学、医療、デジタル人材、研究開発などの分野におけるビッグデータモデルの革新的なサービスと、AIクラウドサービス「Huawei Cloud Ascend」の正式開始を発表し、包括的なメリットの実現を加速します。数千の業界の大規模モデル。 Pangu大型モデルの実装に焦点を当てた、今回のHuaweiクラウド共有のテーマは「困難な問題を解決し、困難なことを行う」です。 AIのコンピューティング能力を使いやすく、十分で、使いやすく、そして大いに活用できるようにすることが、Huawei Cloudが解決する最初の課題です。
この国にはコンピューティングパワーが導入され、AI が普及し始めています。
この重要な「難しいこと」を実現するために、Shengteng AI Cloud Service は動き出しました。
大きな山や大きな川では、AI に巨大なコンピューティング能力が必要です
情報革命以来、人類は技術革新の度合いがコンピューティングパワーの消費に正比例することを徐々に発見してきましたが、これは大規模モデルによって再び確認されました。
大規模モデルの出現と成熟により、何千もの業界のインテリジェンスに新たな機会がもたらされました。あらゆる業界のあらゆるシーンがビッグモデルに統合される価値があり、そのほとんどはビッグモデルによって再形成可能であると言えます。大規模なモデルスケールと多くのデータパラメーターを備えた大規模モデル自体の特性であっても、さまざまな業界で大規模モデルに対する新たな需要が発生しているとしても、それらはすべて同じ結果、つまり社会的生産システムによって消費される AI コンピューティングパワーを示しています。指数関数的に増加します。
大規模なモデルには大きなコンピューティング能力が必要ですが、これは業界のコンセンサスとなっています。しかし、この問題を具体的に明らかにしてみると、AI のコンピューティング能力を取り巻く産業上の課題が非常に多様であることがわかります。それは、需要と供給の矛盾、エネルギー効率の課題、運用と保守のニーズ、セキュリティ上の懸念の 4 つに要約できます。
まず、AI コンピューティング能力の中心的な課題、つまり需要と供給の間の客観的な不均衡を見てみましょう。
2023年7月現在、中国では合計130台の大型モデルが発売されている。 「100モデルの戦い」はAIの計算能力の大幅な向上をもたらした。関連するデータ報告によると、世界の AI コンピューティングの電力需要は過去 10 年間で 30 万倍に増加しており、今後 10 年間で需要は 500 倍に増加すると予想されています。 「2022-2023中国人工知能コンピューティング能力開発評価報告書」によると、2022年に中国で実行されたAIコンピューティングの総量は一般的なコンピューティングを上回りました。近い将来、AI コンピューティング能力は、あらゆる階層からの需要が最も大きく、需要と供給の間のギャップが最も大きく、リソースに最も制約のあるコンピューティング形式になるでしょう。
第二に、大規模なモデルと大規模なコンピューティング能力は、エネルギー効率に関する深刻な問題を引き起こします。
大規模なモデルのトレーニングにはクラスター化された AI コンピューティングが必要であるため、そのトレーニング タスクはデータセンターに大きく依存します。AI サーバーの電力密度は通常のサーバーよりもはるかに高く、単一のキャビネットの消費電力は 6 ~ 8 倍になります。昔よりも。デュアルカーボンの状況では、データセンターのエネルギー効率は低下し続ける必要があり、そのため、大規模モデルによって引き起こされるコンピューティングのエネルギー効率の問題は緊急になっています。 AIの計算能力の向上とエネルギー効率の低下とのバランスをいかに取るかが、業界が直面しなければならない課題となっている。
さらに、AI コンピューティング能力の適用プロセス中に発生する一連の運用および保守の問題も確認する必要があります。大規模モデルのトレーニングとデプロイメントの目標は異なり、それぞれのトレーニングとデプロイメント環境も大きく異なるため、期間中にネットワークの遅延、モデルの信頼性、運用保守管理のしきい値などの運用保守の問題が当然発生します。たとえば、一部の大規模なモデルは、サポートするために非常に大きな計算能力のクラスターを必要とし、多数のサーバーと計算ユニット間の調整で問題が発生することが多く、計算ユニットで問題が発生すると、開発者はトレーニングをやり直す必要があります。大規模なモデルのトレーニングでは、トレーニング タスクの頻繁な失敗と再起動により、時間、人材、コンピューティング能力に多大なコストがかかります。したがって、大規模なモデルには十分な AI コンピューティング能力が必要であるだけでなく、ユーザーが全体的な運用とメンテナンスの問題を軽減できるようにするための高度なコンピューティング能力サービスも必要です。
最後に、大規模なモデルが新たなセキュリティ上の懸念をもたらすこともわかります。
大規模モデルの展開シナリオは主に国家経済と国民生活に関連するため、すべてのセキュリティ リスクを排除する必要があります。データ アクセス、ストレージ暗号化、送信セキュリティなどの分野では、大規模モデルには依然として多くのセキュリティ リスクが存在します。
全体として、大規模モデルは一貫性の高い製品ではありません。その技術的な分類は複雑であり、エンジニアリング パスは変更可能であり、各ユーザーも自分のニーズに応じて大規模なモデルを微調整してカスタマイズする必要があります。これらの問題により、大規模モデルには、AI コンピューティング パワー サービスに対するさまざまな側面と角度からの要求が差別化されます。
大型モデルの AI コンピューティング能力要件を満たすことが、大型モデルの時代の最初の試験問題になりました。
Shengteng AI クラウド サービスを実用的、洗練された、競争力のあるものにする
Huawei Cloud の場合、コンピューティング能力の質問に適切に答えるには、構築の 2 つの側面を考慮する必要があります。 1 つは、AI のコンピューティング能力を十分かつ利用可能にする方法であり、もう 1 つは、その運用と運用方法です。コンピューティング電力サービス全体、安全性、エネルギー効率、その他の課題を維持します。 AI の計算能力は実用的かつ正確でなければなりません。
今年 7 月、Huawei Cloud は最新の Ascend AI クラウド サービスをリリースしました。これにより、数千の業界で急増する AI コンピューティング パワーをユーザーに提供できます。その背景には、Huawei Cloudの堅実なコンピューティングインフラストラクチャ構築があります。
これまで、Huawei Cloudは貴安、ウランキャブ、蕪湖に3つの主要なAIコンピューティングセンターを建設しました。これに基づいて、Shengteng AI クラウド サービスは、全国で 20 ミリ秒のレイテンシー サークルを達成しました。ユーザーは近くのアクセスを実現し、急増する AI コンピューティング能力に 1 本の光ファイバーで接続でき、すぐにサービスを使用できます。大規模モデルのトレーニング データのライフサイクル全体のセキュリティを確保するために、Shengteng AI クラウド サービスは、データ送信とストレージの暗号化、データ セキュリティのクリア、データ アクセス制御、漏洩を防ぐためのデータ ウォーターマーキングなどの複数のテクノロジーも採用しています。企業にとっても社会全体にとっても、デュアルカーボン時代に AI コンピューティング能力を得る最もエネルギー効率の高い方法はクラウド サービスであることは注目に値します。
AI コンピューティング能力の究極のパフォーマンスを達成するために、Huawei Cloud はインフラストラクチャ上で AI クラウド サービスの技術的な最適化も実行しました。 たとえば、ModelArts は、データ、トレーニング、推論の 3 層アクセラレーションを提供します。DataTurbo データ アクセラレーション テクノロジを通じて、コンピューティング ノードのストレージ リソースを使用して分散キャッシュを構築し、データの読み取り遅延をミリ秒未満に短縮できます。 TrainTurbo トレーニング高速化テクノロジーは、トレーニング データが 100T を超える場合にデータの読み取り時間を 50% 短縮し、全体のトレーニング効率を 20% 以上向上させることができます。モデルの推論プロセスでは、InferTurbo推論加速技術によりグラフコンパイル技術によりモデル推論を高速化し、フルリンク垂直協調最適化により大規模モデルの推論性能を30%向上させます。
このような強力なインフラストラクチャとコアテクノロジーのサポートにより、ユーザーは究極の AI コンピューティングパフォーマンスを得ることができます。そのコンピューティングパワーを「十分」であるだけでなく「使いやすく」するために、Huawei Cloud は一連の取り組みを実施してきました。 AIの計算力向上策「元気」の探求。
たとえば、AI 開発は包括的なツールとプラットフォームに依存しています。 Ascend AIクラウドサービスの背後には、ヘテロジニアスコンピューティングアーキテクチャCANN、フルシナリオAIフレームワークMindSpore、AI開発生産ラインModelArtsなど、ファーウェイが構築し続ける一連のAI基盤開発ツールとテクノロジープラットフォームがあります。 、大規模なモデルに分散並列アクセラレーションを提供するため、オペレーターとコンパイルの最適化、クラスター レベルの通信の最適化などの主要な機能が、AI コンピューティング パワー サービスの基盤を築きます。
上で述べたように、大規模モデルのトレーニングと展開中には、一連の運用とメンテナンス、エネルギー効率、その他の問題にも直面します。コンピューティングパワーサービスの最適化という点では、Ascend AIクラウドサービスはより長く安定したAIコンピューティングパワーサービスを提供でき、キロカロリートレーニングの30日間の長期安定率は90%に達し、分単位の情報取得も実現でき、 2 時間の境界と 24 時間の提供 解決策: ブレークポイントの回復時間は 10 分以内、タスクの回復時間は 30 分未満です。
モデルの移行に関して、Huawei Cloudはユーザーに移行ツールチェーンを提供し、フルスタックの開発ツールを統合します。これにより、一般的なモデルの移行効率を最短2週間で達成でき、主流のシナリオではセルフサービスの移行を実現できます。さらに、Ascend AI クラウド サービスは、LLAMA、Stable Diffusion などの業界の主流のオープンソース大規模モデルにも適合しているため、Ascend AI クラウド サービスは、「さまざまなモデルと数千の州」のニーズを満たすことができます。大型モデル。
アスリートにとって、基本的なスキルは競争力です。ファーウェイクラウドは、クラウドの大規模モデルに加えて、インフラストラクチャ、テクノロジー、サービスの統合を通じて競争力を高めるAIコンピューティング能力も開発しました。
急増する使いやすい AI コンピューティング能力は、大型モデルの産業化の基礎であり、すべての物語の始まりです。
コンピューティング能力、テクノロジー、シナリオ: 大規模なモデルの構築は好循環です
大型モデルによる突然の巨大なインテリジェントな機会に直面して、何千もの業界のユーザーが巨大かつ多様なニーズを抱えています。コンピューティング能力が不足している人、モデルが必要な人、シナリオを探している人、特定の技術ツールの助けを必要としている人もいます。一つでも条件が欠けると、大型モデルのフライホイールは回転しなくなります。
別の観点から見ると、コンピューティング リソース、技術ツール、モデルのシナリオベースのアプリケーションはすべて支点になり得ます。これらの要素は、ビジネス ユーザーと開発者がフルスタックの協力と相互促進を通じて大規模モデルへの道に乗り出すのに役立ちます。
Huawei Cloud が提供する Shengteng AI クラウド サービスは、便利で十分で使いやすい AI コンピューティング能力を備えているだけでなく、Huawei Cloud の一連のレイアウトとリンクして、大規模なモデルを「便利」にすることもできます。これから、共同で達成するために、大きな盤古モデルは困難な問題を解決し、困難なことを実行します。
たとえば、多くの技術革新と Shengteng AI クラウド サービスが相互に補完し、AI コンピューティング パワーに対する高い需要と供給の難しさという課題を共同で解決していることがわかります。 Huawei Cloudの新しくリリースされた分散型QingTianアーキテクチャには、そのような効果があります。
AIGC に代表される大規模モデル アプリケーションの計算能力要件は、分散コンピューティング機能に大きく依存しており、これが計算能力アーキテクチャに新たな課題をもたらしています。 新世代のピアツーピア アーキテクチャである分散型 QingTian アーキテクチャは、従来のデータセンター コンピューティング クラスタを、高速バスに基づいたピアツーピア プール型システム クラスタに進化させることができ、これにより、単一のアーキテクチャのパフォーマンス制限を打ち破ることができます。管理プレーンとコントロール プレーンは完全にオフロードされ、リソースとパフォーマンスの損失はゼロとなり、最終的にはパフォーマンス、信頼性、セキュリティ、信頼性の点で究極のエクスペリエンスをユーザーにもたらします。
さらに、Huawei Cloudは、AIの進化するニーズに焦点を当て、AIクラウドストレージ、GaussDBベクトルデータベース、デジタルインテリジェンス融合、サーバーレス大規模モデルエンジニアリングスイートなどの一連の分野で技術革新を行ってきました。アーキテクチャ レイヤー、データ処理レイヤー、モデル トレーニング レイヤー、およびアプリケーション開発レイヤーは体系的なイノベーションを達成することで、ユーザーが AI クラウド サービスを使用する際の障害を取り除き、AI コンピューティング能力が何千もの業界のシナリオベースのニーズに真に適合できるようにします。
基本的な AI コンピューティング能力と一連の技術革新に加えて、Huawei Cloud が提供する大型モデルの Pangu シリーズがあります。 Huawei Full Connection Conference 2023では、Panguモデルが業界でより詳細なシナリオに実装されていることも確認できます。
自動車業界では、盤古汽車の大型モデルは自動車会社の設計、生産、マーケティング、研究開発などの側面をカバーし、自動運転訓練や特別なシーンの実装などの分野で独自の価値を発揮します。自動運転の分野では、盤古汽車の大型モデルは、実際の現場から収集した写真やビデオに基づいて現場のデジタルツイン空間を構築し、可動オブジェクト、編集可能な天気、照明などを追加して、自動運転用のシーンサンプルを生成できます。運転学習。港湾や鉱山地域などの運用シナリオでは、盤古汽車の大型モデルのマルチシナリオおよび複数車両制御アルゴリズムにより、60トン大型トラックの横誤差を0.2メートル未満、正確な着岸誤差を0.1メートル未満にすることができます。 。現在、新疆江納鉱業と内モンゴル義民露天掘り炭鉱では、23台の無人大型トラックが鉱山内で24時間稼働している。
ライブブロードキャストデジタルピープルの分野では、盤古デジタル人民会議モデルは10万レベルの高品質ライブブロードキャストスピーチスキルに基づいて事前トレーニングされており、製品を正確かつ流暢に紹介するためのプロのスピーチスキルを自動的に生成できます。集中砲火や視聴者を自動的にキャプチャすることもできます。貴州省丹寨市では、盤古デジタルNPCモデルが無形遺産産業のバティックを世界にもたらしました。
要約すると、Huawei CloudがAIコンピューティング能力をベースに、技術革新を推進力として、Panguラージモデルを業界シナリオに統合することで「ラージモデルのポジティブサイクル」を形成していることを見つけるのは難しくありません。 ThePaper AI のコンピューティング能力により大規模モデルの使用が促進され、技術革新により大規模モデルの敷居が下がり続け、業界のシナリオによって大規模モデルの大規模実装が促進されるでしょう。計算能力はシナリオと技術の開発を推進し、技術の進歩により計算能力が最大限に解放され、シナリオの価値が深く探求され、シナリオの進歩により計算能力の構築が推進され、技術の進歩が導かれます。この 3 つは前進しており、何千もの業界がクラウド上の大規模モデルに対する答えを探すようになっています。
コンピューティング能力に基づいて、コンピューティング能力を鍵として使用して、AI を山や川に統合しましょう - これは Huawei Cloud の AI 長期歌です。
以上がHuawei Cloud が AI コンピューティング能力を世界にもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。