OpenAI か DIY? 自己ホスト型の大規模言語モデルの真のコストを明らかにする

WBOY
リリース: 2024-04-22 18:01:02
転載
1205 人が閲覧しました

OpenAI か DIY? 自己ホスト型の大規模言語モデルの真のコストを明らかにする

大規模な言語モデルを統合することにより、サービス標準は「AI 駆動型」として位置付けられました。ウェブサイトのホームページでは、インタラクティブなデモやケーススタディを通じて、AI 主導のサービスの革命的な影響を誇らしげに紹介しています。これは、貴社が世界的な GenAI 分野に残した最初の実績でもあります。

小規模ながら忠実なユーザー ベースは顧客エクスペリエンスの向上を享受しており、将来の成長の可能性が見えています。しかし、月が 3 週目に入ると、OpenAI から驚くべき電子メールが届きます。ちょうど 1 週間前、あなたは製品マーケット フィット (PMF) を評価するために顧客と話し合っていたのに、今では何千人ものユーザーがあなたのサイトに集まっています (最近では、何でもソーシャル メディアで拡散する可能性があります) や、AI 主導のサービスがクラッシュする可能性があります。

結果として、かつては信頼できたサービスは既存ユーザーをイライラさせるだけでなく、新規ユーザーにも影響を及ぼします。

手っ取り早く明白な解決策は、使用制限を増やしてサービスを直ちに復元することです。

しかし、この一時的な解決策には不安が伴いました。独自の AI とそれに関連するコストの制御が制限され、単一ベンダーへの依存に縛られているように感じずにはいられません。

「自分でやるべきか?」と自問します。

オープンソースの大規模言語モデル (LLM) が現実のものになったことはすでにご存知でしょう。 Hugging Face のようなプラットフォームでは、何千ものモデルがすぐに使用できるため、自然言語処理の可能性が得られます。

ただし、最も強力な LLM には数十億のパラメーターがあり、数百ギガバイトに達し、拡張するには多大な労力が必要です。低遅延が必要なリアルタイム システムでは、従来のモデルのように単純にアプリケーションにプラグインすることはできません。

必要なインフラストラクチャを構築するチームの能力には自信があるかもしれませんが、本当の懸念は、この変革に伴う次のようなコストへの影響です。

微調整のコスト
  • ホスティング コスト
  • # サービス コスト
  • #したがって、大きな問題は、使用制限を増やすべきか、それともセルフホスティング (別名「」) に移行するべきかということです。
##Llama 2 を使用していくつかの計算を行ってください

#まず、焦らないでください。これは大きな決断です。

機械学習 (ML) エンジニアに相談すると、Lama 2 はオープンソースの LLM であり、ほとんどのタスクで同じように実行できるため、良い選択であるとおそらく言われるでしょう。 GPT-3も同様に優れています。

モデルには 3 つのサイズ (70 億、13 億、7 億パラメータ) があることもわかります。現在使用している OpenAI モデルとの一貫性を維持するために、最大の 70 億パラメータ モデルを使用することにします。競争力。

LLaMA 2 はトレーニングに bfloat16 を使用するため、各パラメーターは 2 バイトを消費します。これは、モデルのサイズが 140 GB になることを意味します。

このモデルは調整することがたくさんあると思われる場合でも、心配する必要はありません。 LoRA を使用すると、展開前にモデル全体を微調整する必要はありません。

実際、微調整する必要があるのはパラメータ合計の約 0.1% (70M) のみで、bfloat16 表現では 0.14 GB を消費します。

印象的ですね?

微調整中のメモリ オーバーヘッド (バックプロパゲーション、アクティベーションの保存、データセットの保存など) に対応するために、維持する最適なメモリ スペースは、パラメータ消費量の約 5 倍でトレーニング可能です。

詳しく見てみましょう:

LoRA を使用する場合、LLaMA 2 70B モデルの重みは固定されるため、メモリ オーバーヘッド → メモリ要件 = 140 GB にはなりません。

ただし、LoRA レイヤーを調整するには、0.14 GB * (5 倍) = 0.7 GB を維持する必要があります。

これにより、微調整中に合計約 141 GB のメモリが必要になります。

現在トレーニング インフラストラクチャを持っていないとして、AWS の使用を希望していると仮定します。 AWS EC2 のオンデマンド料金によると、コンピューティング コストは 1 時間あたり約 2.80 ドルであるため、微調整のコストは 1 日あたり約 67 ドルになります。微調整は何日も続くものではないため、それほど大きな出費ではありません。

人工知能はレストランとは逆です。主なコストは準備ではなくサービスにあります

導入するときは、メモリ内に 2 つの重みを維持する必要があります:

モデルの重み、140 GB のメモリを消費します。

    LoRA は重みを微調整し、0.14 GB のメモリを消費します。
  • 合計は 140.14 GB です。
もちろん、勾配計算をキャンセルすることもできますが、予期しないオーバーヘッドを考慮して、約 1.5 倍のメモリ (約 210 GB) を維持することをお勧めします。

これも AWS EC2 のオンデマンド料金に基づくと、GPU コンピューティングのコストは 1 時間あたり約 3.70 ドルで、モデルを実稼働メモリに保持し、受信リクエストに応答するには 1 日あたり約 90 ドルになります。

これは月額約 2,700 ドルに相当します。

もう 1 つ考慮すべき点は、予期しない障害が常に発生するということです。バックアップ メカニズムがない場合、ユーザーはモデル予測を受信しなくなります。これを防ぐには、最初のモデル要求が失敗した場合に備えて、別の冗長モデルを維持する必要があります。

つまり、コストは 1 日あたり 180 ドル、または 1 か月あたり 5,400 ドルになります。現在の OpenAI の使用コストにほぼ近づいています。

OpenAI とオープンソース モデルのコストはどの時点で一致しますか?

OpenAI を引き続き使用する場合、上記の微調整と一致するように 1 日に処理できる単語数は次のとおりです。 LLaMA 2 のコストのサービング。

OpenAI の価格設定によると、GPT 3.5 Turbo の微調整には 1,000 トークンあたり 0.0080 ドルの費用がかかります。

ほとんどの単語に 2 つのトークンがあると仮定すると、オープンソース LLaMA 2 70B モデルの微調整コスト (1 日あたり 67 ドル) に匹敵するには、OpenAI モデルに約 415 万単語をフィードする必要があります。

通常、A4 用紙の平均ワード数は 300 です。これは、オープンソースの微調整コストに匹敵する約 14,000 ページのデータをモデルに供給できることを意味しますが、これは膨大な数です。

微調整データがそれほど多くない可能性があるため、OpenAI を使用した微調整のコストは常に低くなります。

もう 1 つの明らかな点は、この微調整のコストはトレーニング時間ではなく、モデルの微調整に必要なデータの量に関係しているということです。オープンソース モデルを微調整する場合は、コストがデータ量と AWS コンピューティング リソースの使用時間に依存するため、これは当てはまりません。

サービスのコストについては、OpenAI の価格ページによると、微調整された GPT 3.5 Turbo の料金は、入力の場合は 1,000 トークンあたり 0.003 ドル、出力の場合は 1,000 トークンあたり 0.006 ドルです。

1000 トークンあたり平均 0.004 ドルと想定します。 1 日あたり 180 ドルのコストに達するには、API を通じて 1 日あたり約 2,220 万語を処理する必要があります。

これは、1 ページあたり 300 ワードの 74,000 ページを超えるデータに相当します。

ただし、OpenAI は従量課金制を提供しているため、モデルを 24 時間年中無休で実行し続ける必要がないという利点があります。

モデルが一度も使用されない場合、料金はかかりません。

要約: 所有権が本当に意味を持つのはどのような場合ですか?

最初は、自己ホスト型 AI への移行は魅力的な取り組みのように思えるかもしれません。ただし、それに伴う隠れたコストと頭痛の種に注意してください。

AI 主導のサービスがなぜダウンしているのか疑問に思い眠れない夜が時折起こることは別として、サードパーティのプロバイダーを使用すれば、運用システムで LLM を管理する際のほとんどすべての困難が解消されます。

特に、サービスが主に「AI」に依存しているのではなく、AI に依存している他のものがある場合に顕著です。

大企業にとって、年間 65,000 ドルの所有コストは非常に低い額かもしれませんが、ほとんどの企業にとって、これは無視できない数字です。

さらに、人材やメンテナンスなどのその他の追加費用も忘れてはなりません。これにより、総コストは簡単に年間 20 万ドルから 25 万ドル以上に増加する可能性があります。

もちろん、最初からモデルを用意することには、データと使用状況の制御を維持できるなどの利点があります。

しかし、セルフホスティングを実現するには、1 日あたり約 2,220 万ワードという標準をはるかに超えるユーザーのリクエスト量が必要になり、人材とロジスティクスの両方を管理するためのリソースが必要になります。

ほとんどのユースケースでは、API を使用する代わりにモデルを使用することは経済的に価値がありません。

以上がOpenAI か DIY? 自己ホスト型の大規模言語モデルの真のコストを明らかにするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート