採用OpenAI還是DIY?揭開自託管大型語言模型的真實成本-人工智慧-PHP中文網

使用Llama 2做一些計算

在什麼情況下，OpenAI和開源模型的成本會打平?

總結：何時擁有才真正有意義?

首頁

科技週邊

人工智慧

採用OpenAI還是DIY?揭開自託管大型語言模型的真實成本

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2024 pm 06:01 PM

人工智慧 openai 大型語言模型

採用OpenAI還是DIY?揭開自託管大型語言模型的真實成本

你的服務標準已被定位為“AI驅動”，透過整合大型語言模型。你的網站首頁自豪地展示了你的AI驅動服務帶來的革命性影響，透過互動演示和案例研究。這也是你公司在全球GenAI領域留下的第一個印記。

你的小而忠實的使用者基礎正在享受提升後的客戶體驗，並且你可以看到未來成長的潛力。然而，在這個月進入第三週時，你收到了一封來自OpenAI的郵件，讓你大吃一驚：

就在一周前，你還在與客戶交談，評估產品市場契合度（PMF ），現在，成千上萬的用戶湧到你的網站（如今在社交媒體上任何事情都可能變得病毒式傳播），並使你的AI驅動服務崩潰。

結果，你曾經可靠的服務不僅讓現有用戶感到沮喪，也影響了新用戶。

一個快速且顯而易見的解決方案是透過增加使用限制來立即恢復服務。

然而，這個臨時解決方案帶來了不安感。你不禁感到自己被鎖在對單一供應商的依賴中，對自己的AI及其相關成本控制有限。

「我該自己動手嗎?」你問自己。

你已經知道開源的大型語言模型（LLMs）已經成為現實。在Hugging Face這樣的平台上，成千上萬的模式可供即時使用，這為自然語言處理的開展提供了可能性。

然而，你遇到的最強大的LLMs擁有數十億參數，達到數百千兆字節，並且需要大量努力才能擴展。在一個需要低延遲的即時系統中，你不能像使用傳統模型那樣簡單地將它們插入你的應用程式。

儘管你對團隊建立必要基礎設施的能力充滿信心，真正的關注點在於這種轉變的成本意義，包括：

微調成本
#託管成本
服務成本

所以，一個重大的問題是：你是應該增加使用限制，還是應該走自託管，也就是所謂的「擁有」路線?

使用Llama 2做一些計算

首先，不要急。這是一個重大決定。

如果你諮詢你的機器學習(ML)工程師，他們可能會告訴你，Lama 2是一個開源LLM，看起來是一個不錯的選擇，因為在大多數任務上它的表現與你目前使用的GPT-3一樣好。

你還會發現，這個模型有三種規模大小——70億、13億和7億參數——你決定使用最大的70億參數模型，以保持與你目前使用的OpenAI模型的競爭力。

LLaMA 2使用bfloat16進行訓練，因此每個參數消耗2位元組。這意味著模型大小將是140 GB。

如果你認為這個模型調整起來很大，不用擔心。使用LoRA，你不需要在部署前對整個模型進行微調。

事實上，你可能只需要微調總參數的約0.1%，也就是70M，這在bfloat16表示下消耗0.14 GB。

令人印象深刻，對吧?

為了在微調期間適應記憶體開銷(如反向傳播、儲存啟動、儲存資料集)，最好維持的記憶體空間是可訓練參數消耗的大約5倍。

讓我們來詳細分析一下：

在使用LoRA時，LLaMA 2 70B模型的權重是固定的，因此這不會導致記憶體開銷 → 記憶體需求 = 140 GB。

然而，為了調整LoRA層，我們需要維持0.14 GB * (5倍) = 0.7 GB。

這樣在微調期間總共需要約141 GB的記憶體。

假設你目前還沒有訓練基礎設施，我們假設你更喜歡使用AWS。根據AWS EC2按需定價，計算成本約為每小時2.8美元，因此微調的成本約為每天67美元，這並不是一個巨大的費用，因為微調不會持續很多天。

人工智慧與餐廳正相反：主要成本在於服務而非準備

在部署時，你需要在記憶體中維護兩個權重：

LoRA微調權重，消耗0.14 GB記憶體。

總共是140.14 GB。

當然，你可以取消梯度計算，但仍然建議維持大約1.5倍的記憶體 — 大約210 GB — 以應對任何意外的開銷。

再次基於AWS EC2按需定價，GPU運算的成本約為每小時3.70美元，即保持模型在生產記憶體中並回應傳入請求的成本約為每天90美元。

這相當於每月約2700美元。

另一個需要考慮的事情是，意外故障總是會發生。如果你沒有備用機制，你的用戶將停止接收模型預測。如果你想防止這種情況發生，你需要維護另一個冗餘模型，以防第一個模型請求失敗。

因此，這將使你的成本達到每天180美元或每月5400美元。你幾乎接近目前使用OpenAI的成本了。

在什麼情況下，OpenAI和開源模型的成本會打平?

如果你繼續使用OpenAI，以下是每天你可以處理的單字數量，以匹配上述使用LLaMA 2的微調和服務成本。

根據OpenAI的定價，微調GPT 3.5 Turbo的成本為每1000個令牌0.0080美元。

假設大多數單字有兩個令牌，為了匹配開源LLaMA 2 70B模型的微調成本(每天67美元)，你需要向OpenAI模型提供大約415萬個單字。

通常，A4紙上的平均字數為300，這意味著我們可以向模型提供大約14,000頁的資料以匹配開源微調成本，這是一個巨大的數字。

你可能沒有那麼多的微調數據，所以使用OpenAI進行微調的成本總是較低。

另一個可能很明顯的點是，這種微調成本不是與訓練時間相關，而是與模型微調的資料量相關。在微調開源模型時並非如此，因為成本將取決於資料量和你使用AWS計算資源的時間。

至於服務成本，根據OpenAI的定價頁面，一個經過微調的GPT 3.5 Turbo的輸入成本為每1000個令牌0.003美元，輸出為每1000個令牌0.006美元。

我們假設平均每1000個令牌0.004美元。要達到每天180美元的成本，我們需要透過API每天處理大約2220萬個單字。

這相當於超過74,000頁的數據，每頁300個字。

然而，好處是你不需要確保模型全天候運行，因為OpenAI提供了按使用付費的定價。

如果你的模型從未被使用，你就不需要支付任何費用。

總結：何時擁有才真正有意義?

一開始，轉向自託管AI可能看起來是一個誘人的嘗試。但要小心隨之而來的隱藏成本和頭痛問題。

除了偶爾失眠的夜晚讓你納悶你的AI驅動服務為何會宕機之外，如果使用第三方提供商，幾乎所有在生產系統中管理LLMs的困難都會消失。

特別是當你的服務不是主要依賴“AI”，而是依賴AI的其他東西。

對大企業來說，每年65,000美元的擁有成本可能只是杯水車薪，但對大多數企業來說，這是一個不能忽視的數字。

此外，我們不應忘記其他額外費用，如人才和維護，這些可以輕鬆將總成本增加到每年200,000至250,000美元以上。

當然，從一開始就擁有模型有其好處，例如保持對你的資料和使用的控制。

但是，要使自託管變得可行，你將需要用戶請求量遠遠超過每天大約2220萬個單字的標準，並且需要同時具備管理人才和後勤的資源。

對於大多數用例來說，擁有模型而不是使用API在財務上可能並不划算。

以上是採用OpenAI還是DIY?揭開自託管大型語言模型的真實成本的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1280

C# 教程

1257

Related knowledge

位元組跳動剪映推出 SVIP 超級會員：連續包年 499 元，提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息，剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體，依託於抖音平台且基本面向該平台用戶製作短影片內容，並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級，推出全新SVIP，包含多種AI黑科技，例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面，剪映SVIP月費79元，年費599元（本站註：折合每月49.9元），連續包月則為59元每月，連續包年為499元每年（折合每月41.6元）。此外，剪映官方也表示，為提升用戶體驗，向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強AI編碼助手 Jun 10, 2024 am 11:08 AM

透過將檢索增強生成和語意記憶納入AI編碼助手，提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG，作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助，但由於依賴對軟體語言和編寫軟體最常見模式的整體理解，因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題，但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議，以便將程式碼接受到應

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型（LLM）是在龐大的文字資料庫上訓練的，在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中，然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時，模型實際上停止學習。對模型進行對齊或進行指令調優，讓模型學習如何充分利用這些知識，以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的，儘管模型可以透過RAG存取外部內容，但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的，模型會遇到額外的實際知識並將其整合

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂，你敢用嗎？隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。對於大型語言模型來說，我們也可以採用類似的方法。不過，在採用這種方法時，確保語言模型生

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

SK 海力士 8 月 6 日將展示 AI 相關新品：12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息，SK海力士今天（8月1日）發布博文，宣布將出席8月6日至8日，在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024，展示諸多新一代產品。未來記憶體和儲存高峰會（FutureMemoryandStorage）簡介前身是主要面向NAND供應商的快閃記憶體高峰會（FlashMemorySummit），在人工智慧技術日益受到關注的背景下，今年重新命名為未來記憶體和儲存高峰會（FutureMemoryandStorage），以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在

SOTA性能，廈大多模態蛋白質-配體親和力預測AI方法，首次結合分子表面訊息 Jul 17, 2024 pm 06:37 PM

編輯|KX在藥物研發領域，準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而，目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此，來自廈門大學的研究人員提出了一種新穎的多模態特徵提取（MFE）框架，該框架首次結合了蛋白質表面、3D結構和序列的信息，並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明，該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外，消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

VSCode 前端開發新紀元：12款 AI 代碼助理推薦 Jun 11, 2024 pm 07:47 PM

在前端開發的世界裡，VSCode以其強大的功能和豐富的插件生態，成為了無數開發者的首選工具。而近年來，隨著人工智慧技術的快速發展，VSCode上的AI代碼助理也如雨後春筍般湧現，大大提升了開發者的編碼效率。 VSCode上的AI代碼助手，如雨後春筍般湧現，大大提升了開發者的編碼效率。它利用人工智慧技術，能夠聰明地分析程式碼，提供精準的程式碼補全、自動糾錯、語法檢查等功能，大大減少了開發者在編碼過程中的錯誤和繁瑣的手工工作。有今天，就為大家推薦12款VSCode前端開發AI程式碼助手，幫助你在程式設計之路

See all articles

採用OpenAI還是DIY?揭開自託管大型語言模型的真實成本

使用Llama 2做一些計算

在什麼情況下，OpenAI和開源模型的成本會打平?

總結：何時擁有才真正有意義?

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題