##Xingxuan が作成 | 51CTO テクノロジー スタック (WeChat ID: blog51cto)
過去 2 年間で、私はさらに関与しました従来のシステムではなく大規模言語モデル (LLM) を使用する生成 AI プロジェクト。サーバーレス クラウド コンピューティングが恋しくなってきました。そのアプリケーションは、会話型 AI の強化から、さまざまな業界向けの複雑な分析ソリューションやその他の多くの機能の提供まで多岐にわたります。多くの企業は、パブリック クラウド プロバイダーが既製のエコシステムをすでに提供しており、それが最も抵抗の少ない方法であるため、これらのモデルをクラウド プラットフォームにデプロイしています。ただし、安くはありません。
クラウドは、スケーラビリティ、効率性、高度なコンピューティング機能 (オンデマンドで利用可能な GPU) などの他の利点も提供します。パブリック クラウド プラットフォームに LLM を展開するプロセスには、成功または失敗に大きな影響を与える可能性があるあまり知られていない秘密がいくつかあります。おそらく、LLM を扱う AI 専門家が少なく、この分野での経験がまだ少ないため、知識体系には多くのギャップがあると考えられます。
LLM をクラウドにデプロイする際の、あまり知られていない 3 つの「コツ」を見てみましょう。AI エンジニアさえも知らないかもしれません。これらのエンジニアが年収 30 万ドルを超えることが多いことを考えると、彼らの仕事の詳細について考える時期が来ているのかもしれません。誰もが髪の毛に火がついたかのように AI への道を急いでいますが、これまで以上に多くの間違いを犯しているのが見えます。
1. 管理のコスト効率と拡張性
クラウド プラットフォームに LLM を展開する主な魅力の 1 つは、オンデマンドでリソースを拡張できることです。クラウド プラットフォームには、マウスをクリックするだけで、または自動的に割り当てられるリソースがあるため、優れたキャパシティ プランナーである必要はありません。
しかし、待ってください、私たちはクラウド コンピューティングを使用したときに犯したのと同じ間違いを犯そうとしています。スケーリングしながらコストを管理することは、多くの人が効果的にナビゲートするために必要なスキルです。クラウド サービスは通常、公共料金と同様に、消費されたコンピューティング リソースに基づいて料金を請求することに注意してください。処理すればするほど、支払う金額も高くなります。 GPU のコストが高い (そして消費電力も高い) ことを考えると、これはパブリック クラウド プロバイダーが提供する LLM を使用する場合の主要な懸念事項です。
クラウド プラットフォームによって提供されるツールや、信頼できるサードパーティのコスト ガバナンスおよびモニタリング サービス プロバイダー (finops) によって提供されるツールなど、コスト管理ツールを必ず使用してください。たとえば、自動スケーリングとスケジューリングを実装したり、適切なインスタンス タイプを選択したり、プリエンプティブル インスタンスを使用してコストを最適化したりします。さらに、展開を継続的に監視し、予測された負荷だけではなく使用状況に基づいてリソースを調整することを忘れないでください。これは、何としてもオーバープロビジョニングを回避することを意味します (冗談が通じますか?)。
2. マルチテナント環境におけるデータ プライバシー
LLM の展開には、多くの場合、機密データや独自データが含まれる可能性のある大量のデータの処理と知識モデルのトレーニングが含まれます。パブリック クラウドを使用する場合のリスクは、「ネイバー」が同じ物理ハードウェア上で実行される処理インスタンスの形式であることです。したがって、パブリック クラウド ストレージには、データの保存および処理中に、パブリック クラウド データ センター内の同じ物理ハードウェア上で実行されている他の仮想マシンからデータにアクセスされる可能性があるというリスクが伴います。
この問題を解決するために、多くのパブリック クラウド プロバイダーが企業向けにクラウド セキュリティ オプションを提供しています。これらのオプションは、物理ハードウェア上で実行されている他の仮想マシンによるアクセスからデータを分離して保護します。
もう 1 つのセキュリティ問題は、保存および処理中のデータの送信です。データはパブリック クラウド ネットワーク経由で送信される可能性があるため、送信中に傍受または盗聴される可能性があります。この問題を解決するために、パブリック クラウドは通常、暗号化と安全な送信プロトコルを提供して、送信中のデータのセキュリティを保護します。
全体として、LLM の導入について
パブリック クラウド プロバイダーにこのことについて尋ねると、彼らは、それがいかに不可能であるかを示す最新の PowerPoint プレゼンテーションを急いで提出するでしょう。これはほぼ正しいですが、完全に正確というわけではありません。このリスクはすべてのマルチテナント システムに存在します。軽減する必要があります。単一の国でのみ運営されているなど、クラウド プロバイダーの規模が小さいほど、この問題が発生する可能性が高くなることがわかりました。これはデータ ストアと LLM に当てはまります。
その秘訣は、保存中および転送中のデータ暗号化、ID およびアクセス管理 (IAM)、分離ポリシーといった厳格なセキュリティ基準を満たし、その証明を提供するクラウド プロバイダーを選択することです。もちろん、クラウド上でマルチテナント LLM を使用するリスクを軽減するには、独自のセキュリティ ポリシーとセキュリティ テクノロジ スタックを実装することをお勧めします。
3. ステートフル モデルのデプロイメントの処理
大規模言語モデル (LLM) はほとんどがステートフルであり、対話間で情報を保持します。この古いアプローチには、継続的な学習シナリオでより効率的になれるという新しい利点があります。ただし、クラウド環境のインスタンスは設計上一時的またはステートレスである可能性があるため、クラウド環境でこれらのモデルのステートフル性を管理することは困難です。
ステートフル デプロイメントをサポートするオーケストレーション ツール (Kubernetes など) が役立ちます。大規模な言語モデルの永続ストレージ オプションを活用し、セッション間で状態を維持および操作するように構成できます。大規模な言語モデルの継続性とパフォーマンスをサポートするには、これを行う必要があります。
生成型人工知能の爆発的な成長により、大規模な言語モデルをクラウド プラットフォームに展開することは当然の結論です。ほとんどの企業にとって、クラウドを使用しないことはあまりにも不便です。これから起こる狂乱について私が心配しているのは、簡単に解決できる問題を見逃したり、最終的にはほとんど避けられるような大きな、高くつく間違いを犯すことになるのではないかということです。
AIGC の詳細については、次のサイトをご覧ください:
51CTO AI.x コミュニティ
https://www.51cto.com/aigc/