ChatGPT、AIGC、大型モデル…めくるめく言葉が次々と誕生し、AIの商品価値が社会から大きな注目を集めています。学習モデルの規模が拡大するにつれ、AI の計算能力を支えるデータセンター ネットワークも注目を集めています。コンピューティングの電力効率を向上させ、高性能ネットワークを構築する...大手メーカーが才能を発揮し、イーサネット業界にAIネットワークの「新たなF1軌道」を開拓しようと懸命に取り組んでいる。 この AI 軍拡競争において、DDC は注目を集め、一夜にして高性能 AI ネットワークを構築するための革新的なテクノロジーの代名詞になったかに見えました。しかし、それは本当に見た目ほど美しいのでしょうか?詳しく分析して冷静に判断しましょう。
2019 年に開始された DDC の本質は、フレーム ルーターをボックス ルーターに置き換えることですDCN トラフィックの急速な増加に伴い、DCI ネットワークのアップグレードの必要性が高まっていますますます緊急性が高まっています。しかし、DCIルータフレーム機器の拡張能力はフレームのサイズによって制限されると同時に、機器の消費電力が高く、フレームを拡張する場合、筐体の電力と放熱に対する要件が高く、変換コストがかかります。は高い。こうした背景から、AT&Tは2019年に商用チップをベースにしたボックスルータの仕様をOCPに提出し、DDC(Disaggregated Distributed Chassis)の概念を提案した。簡単に言うと、DDC は、モジュラー デバイスのサービス ライン カードやネットワーク ボードなどのハードウェア ユニットを置き換えるために、複数の低電力ボックス型デバイスで構成されるクラスターを使用し、ボックス型デバイスはケーブルを介して相互接続されます。 DCI シングルフレーム機器のパフォーマンスと消費電力のボトルネックを打破するために、クラスタ全体が集中型または分散型の NOS (ネットワーク オペレーティング システム) を通じて管理されます。
DDC が主張する利点は次のとおりです。
フレーム型機器の拡張限界を突破する: 容量拡張は、マシン制御なしのマルチデバイス クラスタ フレーム サイズ制限;
シングルポイント消費電力の削減: 複数の低電力ボックス タイプ デバイスが分散方式で導入され、問題が解決されます。集中的な電力消費を削減し、キャビネットの電力と放熱の要件を削減します;
帯域幅利用率の向上: 従来の ETH ネットワーク ハッシュ交換と比較して、DDC はセルを使用します (Cell) Cell に基づいた交換とロード バランシング。帯域幅使用率の向上に役立ちます。
パケット損失の軽減: デバイスの大規模なキャッシュ機能を使用して、高負荷に対応します。 DCI シナリオの収束率要件。まず、VOQ (Virtual Output Queue) テクノロジーを使用して、ネットワークで受信したパケットをさまざまな仮想アウトキューに割り当てます。次に、クレジット通信メカニズムを使用して、これらのパケットを送信する前に受信側に十分なバッファ スペースがあるかどうかを判断し、パケットのパケット量を削減します。出力の輻輳によるパケット損失のリスク。
DDC ソリューションは、DCI シーンでのほんの一瞬の出来事に過ぎませんアイデアは完璧に見えますが、実装は次のとおりです。順風満帆ではありません。 DriveNets の Network Cloud 製品は、業界初で唯一の商用 DDC ソリューションであり、ソフトウェア全体がユニバーサル ホワイトボックス ルーターに適合しています。しかし、これまで市場で明確な販売事例は見られなかった。 AT&T は、DDC アーキテクチャ ソリューションの提案者として、2020 年に自社構築の
IPバックボーン ネットワークにグレー スケールで DDC ソリューションを導入しましたが、その後のフォローアップはほとんどありませんでした。なぜこのスプラッシュは大きな波紋を起こさなかったのでしょうか?これは、DDC の 4 つの主要な欠陥に起因すると考えられます。 欠点 1: 機器管理とコントロール プレーンの信頼性の低さ
フレーム型機器の各コンポーネントは、高度に統合され信頼性の高い PCIe によってコントロール プレーンと管理プレーンの相互接続を実現します。すべての機器は、機器の管理および制御プレーンの高い信頼性を確保するために、デュアル メイン コントロール ボード設計を使用しています。 DDC は、「壊れた場合は交換」する脆弱なモジュール ケーブルを使用して相互接続し、マルチデバイス クラスタを構築し、クラスタ管理およびコントロール プレーンの動作をサポートします。ボックスタイプの機器の規模を突破しますが、この信頼性の低い相互接続方法は、管理およびコントロールサーフェスに大きなリスクをもたらします。 2 台のデバイスを積み重ねると、スプリット ブレインやテーブル エントリの非同期などの問題が発生する可能性があります。 DDC の管理プレーンとコントロール プレーンが信頼できない場合、この種の問題が発生する可能性が高くなります。
欠陥 2: 非常に複雑な機器 NOS
SONiC コミュニティは、すでに VOQ アーキテクチャに基づいた分散型転送フレームを設計しており、DDC のサポートに合わせてそれを繰り返し補足および変更し続けています。ホワイトボックスの導入事例は確かに多いものの、「ホワイトボックス」に挑戦する人は少ない。リモートの「ホワイト フレーム」を構築するには、クラスタ内の複数のデバイスのステータス、テーブル エントリ情報の同期と管理を考慮するだけでなく、バージョン アップグレード、ロールバック、ホット アクセスなどの複数の実際的なシナリオも考慮する必要があります。複数のデバイスでパッチを適用し、体系的に実装します。 DDC では、クラスターに対する NOS の複雑さの要件が急激に増加しています。現在、業界には成熟した商用ケースがなく、開発リスクが大きくなっています。
欠点 3: 保守可能なソリューションの欠如
ネットワークは信頼性が低いため、ETH ネットワークには、保守可能で配置可能な機能やツールが多数用意されています。 INT、MOD。これらのツールは、特定のフローを監視し、パケット損失のフロー特性を特定して、問題を特定してトラブルシューティングを行うことができます。ただし、DDC で使用されるセルはメッセージのスライスにすぎず、関連する IP などの 5 タプル情報を持たず、特定のサービス フローに関連付けることはできません。 DDC でパケットロスが発生すると、現在の運用保守方法ではパケットロス箇所を特定できず、保守計画が著しく不足しています。
欠点 4: コストの増加
フレーム サイズの制限を突破するために、DDC は高速ケーブル/モジュールを介してクラスター内のさまざまなデバイスを相互接続する必要があります。 ; 相互接続コストが遠い フレーム型以上の機器のラインカードやネットワークボードは PCB トレースや高速リンクを介して相互接続されており、規模が大きくなるほど相互接続コストが高くなります。
同時に、消費電力の一箇所への集中を軽減するため、ケーブル/モジュールで相互接続された DDC クラスタ全体の消費電力はフレーム型デバイスよりも高くなります。同世代のチップでは、DDC クラスタ デバイスがモジュールで相互接続されていると仮定すると、クラスタの消費電力はフレーム タイプのデバイスより 30% 高くなります。
残り物を炒めるのはやめましょう。DDC ソリューションは AI ネットワークにも適していません。
DDC ソリューションの未熟さと不完全さにより、悲しいことに DCI シーンから去りました。しかし現在、AIの圧力を受けて復活を遂げています。筆者もDDCはAIネットワークには向かないと考えているので、次に詳しく分析していきます。
AI ネットワークの 2 つの中心的な要求: 高スループットと低レイテンシー
AI ネットワークによってサポートされるサービスは、少数のフローと大きな帯域幅によって特徴付けられます。単一フロー; 同時に、トラフィック フローは不均一であり、1 つ以上がヒットする状況 (All-to-All および All-Reduce) が頻繁に発生します。したがって、不均一なトラフィック負荷、低いリンク使用率、頻繁なトラフィック混雑によるパケット損失などの問題が非常に発生しやすく、コンピューティング能力を完全に解放できません。
DDC はハッシュ問題を解決するだけですが、多くの欠陥ももたらします
DDC はセル スイッチングを使用してメッセージをセルにスライスし、到達可能性情報メカニズムに基づいてポーリングを使用します。送信済み。トラフィック負荷は比較的バランスの取れた方法で各リンクに分散され、帯域幅を最大限に活用し、ハッシュ問題をより適切に解決します。しかし、これとは別に、DDC には AI シナリオにおいて依然として 4 つの大きな欠陥があります。
欠点 1: ハードウェアには特定の機器が必要であり、閉じたプライベート ネットワークには汎用的ではありません
DDC アーキテクチャのセル スイッチングおよび VOQ テクノロジはすべて、特定のハードウェア チップに依存しています。実装のために。現在、DCN ネットワーク機器は再利用できません。 ETH ネットワークの急速な発展は、プラグ アンド プレイの利便性、一般化、標準化の恩恵を受けています。 DCC はハードウェアに依存し、汎用ではない独自のスイッチング プロトコルを通じて閉じたプライベート ネットワークを構築します。
欠点 2: 大規模なキャッシュ設計によりネットワーク コストが増加し、大規模な DCN ネットワーキングには適さない
DDC ソリューションが DCN に導入されると、これにより、チップ上の大規模なキャッシュのコスト負担が軽減されます。 DCN ネットワークは現在、最大 64M のみの小型キャッシュ デバイスを使用しています。DCI シナリオから派生した DDC ソリューションには通常、GB を超えるチップ HBM が搭載されています。 DCI と比較して、大規模な DCN ネットワークではネットワーク コストがより懸念されます。
欠点 3: 静的ネットワーク遅延が増加し、AI シナリオと一致しない
コンピューティング能力を解放する高性能 AI ネットワークとしての目標は、サービスの完了時間を短縮するため。 DDC の大規模なキャッシュ機能はパケットをキャッシュするため、ハードウェア転送の静的遅延が必然的に増加します。同時に、セルのスイッチング、スライシング、カプセル化、およびメッセージの 再組み立てもネットワーク転送遅延を増加させます。 test データ比較により、DDC 転送遅延は従来の ETH ネットワークと比較して 1.4 倍増加します。
欠点 4: DC の規模が大きくなるにつれて、DDC の信頼性の問題が悪化する
DCI シナリオで DDC がフレーム機器を置き換えるシナリオと比較して、DDC はDCN に入るには、より大きなクラスターを満たす必要があるか、少なくとも 1 つのネットワーク POD が必要です。これは、「ボックス」がさらに離れ、コンポーネントがさらに離れていることを意味します。さらに、このクラスタの管理およびコントロール プレーンの信頼性、デバイス ネットワーク NOS の同期管理、およびネットワーク POD レベルの運用および保守管理に対するより高い要件があります。 DDC のさまざまな欠陥がクラックされます。
DDC はせいぜい過渡的な解決策です
もちろん、解決できない問題はありません。いくつかの制約を受け入れても、この特定のシナリオは、大手メーカーにとって簡単に「スキルを披露する」舞台となり得ます。ネットワークは信頼性、シンプルさ、効率性を追求し、複雑さを排除します。特に「人員削減と効率化」が叫ばれている現在では、DDC の導入にかかるコストを真剣に考慮する必要があります。
在AI場景下面對網路負載分擔問題,目前已經有很多案例透過轉送路徑的全域靜態或動態編排解決,未來也可以透過端側的網卡基於Packet Spray和亂序重排解決。所以DDC最多是個短期過渡方案。
深度扒一扒,DDC背後的推手或許是DNX
#最後說下主流網路晶片公司博通(Broadcom),我們較為熟悉的有StrataXGS和StrataDNX兩個產品系列。 XGS延續高頻寬、低成本的路線,快速推出小型快取、大頻寬的晶片產品,在DCN網路佔用率持續獨佔鰲頭。 StrataDNX卻背著大快取的成本,延續VOQ 信元交換的神話,期望DDC進入DC續命。北美似乎沒有案例,國內DDC或許是DNX最後的救命稻草吧。
當今GPU等大量硬體設施在我國已經受到一定程度的限制,我們真的需要DDC麼?還是多給國產化裝置留些機會吧!
以上がDDC を使用して AI ネットワークを構築しますか?これはただの美しい幻想かもしれないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。