ホームページ テクノロジー周辺機器 AI 大規模な AI モデルに関して、Tencent Cloud は自社開発の Xingmai 高性能コンピューティング ネットワークを初めて完全に公開しました

大規模な AI モデルに関して、Tencent Cloud は自社開発の Xingmai 高性能コンピューティング ネットワークを初めて完全に公開しました

Jun 28, 2023 pm 02:19 PM
ai大型モデル ハイパフォーマンスコンピューティング 自社開発ネットワーク

AIGC の発生は、コンピューティング能力の課題をもたらすだけでなく、ネットワークに前例のない要求を課します。

6 月 26 日、Tencent Cloud は自社開発の Xingmai 高性能コンピューティング ネットワークを初めて完全に公開しました。Xingmai ネットワークは業界最高の 3.2T 通信帯域幅を備えており、GPU 使用率を 40% 増加させ、30% を節約できます~ 60%: モデルのトレーニング コストにより、大規模な AI モデルの通信パフォーマンスが 10 倍向上します。 Tencent Cloud の新世代コンピューティング クラスター HCC は、100,000 枚を超えるカードという巨大なコンピューティング規模をサポートできます。

Tencent Cloud のバイスプレジデントである

Wang Yachen 氏は次のように述べています。「Xingmai Network は大規模モデルのために生まれました。それが提供する、広い帯域幅、高い使用率、ゼロのパケット損失を備えた高性能ネットワーク サービスは、コンピューティング能力のボトルネックを打破し、 AI の可能性をさらに解放し、エンタープライズの大規模モデルのトレーニング効率を包括的に向上させ、クラウド上での大規模モデル テクノロジーの反復的なアップグレードと実装を加速します。」

大規模モデル専用の高性能ネットワークを構築し、GPU 使用率を 40% 向上させます

AIGC の人気により、大規模な AI モデルのパラメーターの数が数億から数兆に急増しました。大量のデータの大規模トレーニングをサポートするために、多数のサーバーが高速ネットワークを介してコンピューティング クラスターを形成し、相互接続されてトレーニング タスクを一緒に完了します。

逆に、GPU クラスターが大きくなるほど、追加の通信損失も大きくなります。クラスターが大きいからといって、計算能力が高いわけではありません。 AI ラージ モデルの時代は、高帯域幅の要件、高い使用率、情報のロスレス性など、ネットワークに重大な課題をもたらしました。

従来の低速ネットワーク帯域幅では、数千億または数兆のパラメータを持つ大規模モデルを満足させることができず、トレーニング プロセス中の通信の割合が 50% に達する場合があります。同時に、従来のネットワーク プロトコルは、ネットワークの輻輳、高遅延、パケット損失を容易に引き起こす可能性があり、わずか 0.1% のネットワーク パケット損失がコンピューティング パワーの 50% の損失につながる可能性があり、最終的にはコンピューティング パワー リソースの深刻な浪費につながります。

Tencent Cloud は、包括的な自己研究能力に基づいて、ソフトウェアとハ​​ードウェアのアップグレードと、スイッチ、通信プロトコル、通信ライブラリ、およびオペレーティング システムの革新を実行し、業界をリードする大型モデルの専用ハイエンド プラットフォームを初めて発売しました。パフォーマンス ネットワーク - Xingmai ネットワーク。

大規模な AI モデルに関して、Tencent Cloud は自社開発の Xingmai 高性能コンピューティング ネットワークを初めて完全に公開しました

ハードウェアに関しては、Xingmai Network は Tencent のネットワーク研究開発プラットフォームに基づいており、すべて自社開発の機器を使用して相互接続ベースを構築し、自動展開と構成を実現しています。

ソフトウェアの面では、Tencent Cloud が自社開発した TiTa ネットワーク プロトコルは高度な輻輳制御および管理テクノロジーを採用しており、ネットワークの輻輳をリアルタイムで監視および調整し、多数のサーバー ノード間の通信ニーズを満たし、スムーズな通信を保証します。データ交換や遅延が少なく、高負荷時でもパケットロスゼロを実現し、クラスタの通信効率を90%以上に高めます。

さらに、Tencent Cloud は、Xingmai Network 用の高性能集合通信ライブラリ TCCL も設計し、カスタマイズされたソリューションに統合して、システムがマイクロ秒レベルのネットワーク品質認識を実現できるようにしました。動的スケジューリング メカニズムを使用して通信チャネルを合理的に割り当てることにより、ネットワークの問題によるトレーニングの中断を効果的に回避でき、通信遅延を 40% 削減できます。

ネットワークの可用性によって、クラスター全体のコンピューティングの安定性も決まります。 Xingmai ネットワークの高可用性を確保するために、Tencent Cloud はエンドツーエンドのフルスタック ネットワーク オペレーション システムを開発し、エンド ネットワークの 3 次元監視とインテリジェント測位システムを通じて、エンド ネットワークの問題を自動的に境界設定し、日レベルから分レベルまで削減され、全体的な障害のトラブルシューティング時間が短縮されます。改善後、大規模モデル トレーニング システムの全体的な展開時間は 4.5 日に短縮され、基本構成の 100% の精度が保証されました。

3世代にわたる技術進化を経て、当社はソフトウェアとハ​​ードウェアの統合を深く培い、研究してきました

Xingmai Network の全面的なアップグレードの背後には、Tencent のデータセンター ネットワークの 3 世代にわたる技術進化の結果があります。

大規模な AI モデルに関して、Tencent Cloud は自社開発の Xingmai 高性能コンピューティング ネットワークを初めて完全に公開しました

Tencent の開発の初期段階では、データ センター ネットワーク トラフィックは主に、ユーザーがデータ センター サーバーにアクセスするための North-South トラフィックで構成されており、ネットワーク アーキテクチャは主にアクセス、集約、送信に基づいていました。この段階では、商用ネットワーク機器は主に標準化されたデータセンター ネットワークの構築に使用され、QQ オンライン ユーザーの 1 億人以上の増加とサーバーの規模の 10 万台以上の増加をサポートしました。

ビッグ データとクラウド コンピューティングの台頭により、サーバー間の東西トラフィックが徐々に増加し、クラウド テナントによってネットワークの仮想化と分離の要件が作成されました。データセンターのネットワーク アーキテクチャは、南北と東西の両方のトラフィックを伝送するクラウド ネットワーク アーキテクチャに徐々に進化しており、テンセント クラウドは完全に自社開発のネットワーク機器と管理システムを構築して、超大規模なデータセンター ネットワークを構築しています。約 200 万台のサーバーを備えています。

Tencent Cloud は、大規模な AI モデルのニーズを満たすために中国で初めて高性能コンピューティング ネットワークを立ち上げ、東西および南北のトラフィックに分離アーキテクチャを採用しました。 AIトレーニングトラフィックの特性を満たす超大帯域幅を備えた独立したネットワークアーキテクチャを構築し、自社開発のソフトウェアおよびハードウェア設備と連携してシステム全体の独立した制御性を実現し、ネットワークのスーパーコンピューティング能力の新たなニーズに対応します。パフォーマンス。

最近、Tencent Cloud は、Xingmai 高性能ネットワークをベースにした新世代の HCC 高性能コンピューティング クラスターをリリースしました。これは 3.2T の超高相互接続帯域幅を実現でき、コンピューティング パフォーマンスは従来の 3 倍です。前世代の大規模AIモデルであり、信頼性が高く高性能なネットワーク基盤を構築するためのトレーニングです。

将来的にも、Tencent Cloud は基礎技術の研究開発への投資を継続し、あらゆる分野のデジタル化とインテリジェント化に強力な技術サポートを提供していきます。

以上が大規模な AI モデルに関して、Tencent Cloud は自社開発の Xingmai 高性能コンピューティング ネットワークを初めて完全に公開しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

大規模な AI モデルは非常に高価であり、大企業と超富裕層だけがそれらをうまく実行できる 大規模な AI モデルは非常に高価であり、大企業と超富裕層だけがそれらをうまく実行できる Apr 15, 2023 pm 07:34 PM

ChatGPT の炎上により、AI ブームの新たな波が起きていますが、業界では一般に、AI が大規模モデルの時代に入ると、大規模な AI モデルの作成には非常に費用がかかるため、AI を導入できるのは大企業と超富裕層だけであると考えられています。 。 1 つ目は、計算コストが高いということです。トロント大学のマーケティング教授であるアヴィ・ゴールドファーブ氏は、「会社を立ち上げ、大規模な言語モデルを自分で開発し、自分で計算したいと思ったら、コストが高すぎる。OpenAIは非常に高価で、数十億ドルかかる」と述べた。レンタルコンピューティングは確かにそうなります。はるかに安価ですが、企業は依然として AWS やその他の企業に高額な料金を支払わなければなりません。第二に、データは高価です。モデルのトレーニングには大量のデータが必要ですが、データがすぐに利用できる場合もあれば、そうでない場合もあります。 CommonCrawl や LAION などのデータは無料で利用可能

AI指向のデータガバナンスシステムを構築するにはどうすればよいでしょうか? AI指向のデータガバナンスシステムを構築するにはどうすればよいでしょうか? Apr 12, 2024 pm 02:31 PM

近年、新たな技術モデルの登場や、さまざまな産業における応用シナリオの価値の磨き上げ、膨大なデータの蓄積による製品効果の向上などにより、消費やインターネットなどの分野から人工知能の応用が広がりを見せています。製造、エネルギー、電力などの伝統的な産業まで。人工知能技術の成熟度と、設計、調達、生産、管理、販売などの経済生産活動の主要なリンクにおけるさまざまな業界の企業の応用は継続的に向上しており、すべてのリンクでの人工知能の実装と範囲が加速しています。産業上の地位の向上や経営効率の最適化を図るため、徐々に本業と融合させ、自社の優位性をさらに拡大していきます。人工知能テクノロジーの革新的なアプリケーションの大規模な実装は、ビッグデータインテリジェンス市場の精力的な発展を促進し、基盤となるデータガバナンスサービスに市場の活力を注入しました。ビッグデータ、クラウドコンピューティング、コンピューティング

ポピュラー サイエンス: AI ラージ モデルとは何ですか? ポピュラー サイエンス: AI ラージ モデルとは何ですか? Jun 29, 2023 am 08:37 AM

AI ラージ モデルとは、大規模なデータと強力なコンピューティング能力を使用してトレーニングされた人工知能モデルを指します。これらのモデルは通常、高度な精度と一般化機能を備えており、自然言語処理、画像認識、音声認識などのさまざまな分野に適用できます。大規模な AI モデルのトレーニングには大量のデータとコンピューティング リソースが必要であり、通常、トレーニング プロセスを高速化するには分散コンピューティング フレームワークを使用する必要があります。これらのモデルのトレーニング プロセスは非常に複雑で、データ分布、特徴の選択、モデル構造などについての綿密な調査と最適化が必要です。 AI 大型モデルは幅広い用途があり、スマート カスタマー サービス、スマート ホーム、自動運転などのさまざまなシナリオで使用できます。これらのアプリケーションでは、AI 大型モデルは、人々がさまざまなタスクをより迅速かつ正確に完了し、作業効率を向上させるのに役立ちます。

Redis と TypeScript を使用してハイパフォーマンス コンピューティング関数を開発する方法 Redis と TypeScript を使用してハイパフォーマンス コンピューティング関数を開発する方法 Sep 20, 2023 am 11:21 AM

Redis と TypeScript を使用してハイ パフォーマンス コンピューティング機能を開発する方法の概要: Redis は、高いパフォーマンスとスケーラビリティを備えたオープン ソースのインメモリ データ構造ストレージ システムです。 TypeScript は、型システムとより優れた開発ツールのサポートを提供する JavaScript のスーパーセットです。 Redis と TypeScript を組み合わせることで、大規模なデータ セットを処理し、Redis のメモリ ストレージとコンピューティング機能を最大限に活用するための効率的なコンピューティング関数を開発できます。この記事ではその方法を説明します

AI のために生まれた:サムスンは、HBM4 ビデオ メモリを 2025 年に量産化し、ハイパフォーマンス コンピューティングのリーダーシップを競うと発表 AI のために生まれた:サムスンは、HBM4 ビデオ メモリを 2025 年に量産化し、ハイパフォーマンス コンピューティングのリーダーシップを競うと発表 Oct 13, 2023 pm 02:17 PM

近年の AI コンピューティング能力の急速な向上により、コンピューティング カードは大手ハードウェア メーカーにとって新たな需要の対象となっています。特に、NVIDIA などの企業が発売したコンピューティング カードは供給不足です。NVIDIA は、Samsung などの強力な GPU を発売していることに加えて、ハイニックスやハイニックスなどのストレージメーカー、特に自社製の高性能グラフィックスメモリを必要とする高性能コンピューティングカードは、このAIの饗宴を逃したくないと考えており、現在、サムスンのストレージ分野の幹部は、サムスンが次のように述べた文書を発表した。 2025年には最新メモリHBM4ビデオメモリを量産する予定で、ハイニックスを上回る。 2016 年、サムスンは HBM ビデオ メモリの量産を正式に開始しました。 GDDR ビデオ メモリと比較して、HBM ビデオ メモリは帯域幅が大きいため、より高いパフォーマンスの伝送を実現します。コンシューマ市場ではAMDのRadeon

大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します 大規模な AI モデルの時代に、新しいデータ ストレージ ベースが教育、科学研究のデジタル インテリジェンスへの移行を促進します Jul 21, 2023 pm 09:53 PM

生成 AI (AIGC) は、人工知能の一般化の新たな時代を切り開きました。大規模モデルをめぐる競争は壮絶なものになっています。コンピューティング インフラストラクチャが競争の主な焦点であり、権力の覚醒が業界のコンセンサスになりつつあります。新しい時代では、大規模なモデルは単一モダリティからマルチモダリティに移行しており、パラメータとトレーニング データセットのサイズは指数関数的に増大しており、大規模な非構造化データには高性能の混合負荷機能のサポートが必要です。データ集約型 新しいパラダイムが人気を博しており、スーパーコンピューティングやハイ パフォーマンス コンピューティング (HPC) などのアプリケーション シナリオが深化しており、既存のデータ ストレージ ベースでは、アップグレードされ続けるニーズを満たすことができなくなりました。コンピューティング能力、アルゴリズム、データが人工知能の開発を推進する「トロイカ」である場合、外部環境の大きな変化の中で、この 3 つは早急にダイナミックな状態を取り戻す必要があります。

Vivo が自社開発の汎用 AI モデル - Blue Heart Model を発表 Vivo が自社開発の汎用 AI モデル - Blue Heart Model を発表 Nov 01, 2023 pm 02:37 PM

Vivoは、11月1日に開催された2023年開発者カンファレンスで、自社開発の汎用人工知能大型モデルマトリックスであるBlue Heart Modelを発表しましたが、Vivoは、Blue Heart Modelは、それぞれ異なるパラメータレベルを持つ5つのモデルを発売すると発表しました。 : 数十億、数百億、数千億でコアシナリオをカバーしており、そのモデル機能は業界をリードする地位にあります。 Vivo は、優れた自社開発大型モデルには、大規模、包括的な機能、強力なアルゴリズム、安全で信頼できる、独自の進化、広くオープンソースという 5 つの要件を満たす必要があると考えており、リライトされた内容は次のとおりです。 1 つ目は Lanxin Big Model 7B です。これは、携帯電話とクラウドの二重サービスを提供するように設計された 70 億レベルのモデルです。 Vivoは、このモデルは言語理解やテキスト作成などの分野で使用できると述べた。

人間の脳を例に挙げると、忘れることを学習すると大規模な AI モデルがより良くなるでしょうか? 人間の脳を例に挙げると、忘れることを学習すると大規模な AI モデルがより良くなるでしょうか? Mar 12, 2024 pm 02:43 PM

最近、コンピューター科学者のチームは、既知の情報を定期的に忘れる機能を備えた、より柔軟で回復力のある機械学習モデルを開発しました。これは、既存の大規模言語モデルには見られない機能です。実際の測定によると、多くの場合、「忘却法」は学習において非常に効率的であり、忘却モデルのパフォーマンスが向上します。韓国基礎科学研究所のAIエンジニア、Jea Kwon氏は、新たな研究はAI分野における大きな進歩を意味すると述べた。 「忘却法」の学習効率は非常に高く、現在主流のAI言語エンジンのほとんどは人工ニューラルネットワーク技術を使用しています。このネットワーク構造の各「ニューロン」は実際には数学関数であり、互いに接続されて情報を送受信します。

See all articles