


OpenAI oder DIY? Entdecken Sie die wahren Kosten für das Selbsthosten großer Sprachmodelle
Ihr Servicestandard wurde durch die Integration großer Sprachmodelle als „KI-gesteuert“ positioniert. Die Homepage Ihrer Website präsentiert stolz die revolutionäre Wirkung Ihrer KI-gesteuerten Dienste durch interaktive Demos und Fallstudien. Dies ist auch die erste Spur, die Ihr Unternehmen im globalen GenAI-Bereich hinterlassen hat.
Ihre kleine, aber treue Benutzerbasis genießt ein verbessertes Kundenerlebnis und Sie sehen Potenzial für zukünftiges Wachstum. Doch als der Monat in die dritte Woche geht, erhalten Sie eine E-Mail von OpenAI, die Sie überrascht:
Noch vor einer Woche haben Sie mit Kunden gesprochen und die Produktmarkttauglichkeit (Product Market Fit, PMF) beurteilt, und jetzt strömen Tausende von Benutzern auf Ihre Website (Heutzutage kann in den sozialen Medien alles viral gehen) und Ihren KI-gestützten Dienst zum Absturz bringen.
Infolgedessen frustriert Ihr einst zuverlässiger Dienst nicht nur bestehende Benutzer, sondern wirkt sich auch auf neue Benutzer aus.
Eine schnelle und naheliegende Lösung besteht darin, den Dienst sofort wiederherzustellen, indem die Nutzungsbeschränkungen erhöht werden.
Allerdings brachte diese vorübergehende Lösung ein Gefühl des Unbehagens mit sich. Sie werden das Gefühl haben, von einem einzigen Anbieter abhängig zu sein und nur begrenzte Kontrolle über Ihre eigene KI und die damit verbundenen Kosten zu haben.
„Soll ich es selbst machen?“ fragst du dich.
Sie wissen bereits, dass Open-Source-LLMs (Large Language Models) Realität geworden sind. Auf Plattformen wie Hugging Face stehen Tausende von Modellen zur sofortigen Nutzung zur Verfügung, was die Möglichkeit der Verarbeitung natürlicher Sprache bietet.
Allerdings verfügen die leistungsstärksten LLMs, denen Sie begegnen werden, über Milliarden von Parametern, umfassen Hunderte von Gigabyte und erfordern einen erheblichen Aufwand zur Skalierung. In einem Echtzeitsystem, das eine geringe Latenz erfordert, können Sie sie nicht einfach wie bei herkömmlichen Modellen in Ihre Anwendung einbinden.
Während Sie vielleicht davon überzeugt sind, dass Ihr Team in der Lage ist, die notwendige Infrastruktur aufzubauen, sind die eigentlichen Sorgen die Kostenauswirkungen dieser Transformation, darunter:
- Kosten für die Feinabstimmung
- Kosten für Hosting
- Servicekosten
Eine wichtige Frage ist also: Sollten Sie das Nutzungslimit erhöhen oder den selbst gehosteten, auch als „eigener“ Weg bezeichneten Weg wählen?
Führen Sie einige Berechnungen mit Llama 2 durch.
Zunächst einmal, Don Beeil dich nicht. Das ist eine große Entscheidung.
Wenn Sie Ihren Ingenieur für maschinelles Lernen (ML) konsultieren, wird er Ihnen wahrscheinlich sagen, dass Lama 2 ein Open-Source-LLM ist und eine gute Wahl zu sein scheint, da es bei den meisten Aufgaben die gleiche Leistung erbringt wie das GPT, das Sie derzeit verwenden -3 genau so gut.
Sie werden außerdem feststellen, dass das Modell in drei Größen erhältlich ist – 7 Milliarden, 1,3 Milliarden und 700 Millionen Parameter – und Sie entscheiden sich für die Verwendung des größten 7-Milliarden-Parameter-Modells, um mit dem OpenAI-Modell, das Sie derzeit verwenden, konkurrenzfähig zu bleiben.
LLaMA 2 verwendet bfloat16 zum Training, sodass jeder Parameter 2 Bytes verbraucht. Dies bedeutet, dass die Modellgröße 140 GB beträgt.
Wenn Sie der Meinung sind, dass dieses Modell viel anzupassen ist, machen Sie sich keine Sorgen. Mit LoRA müssen Sie nicht das gesamte Modell vor der Bereitstellung optimieren.
Tatsächlich müssen Sie möglicherweise nur etwa 0,1 % der Gesamtparameter feinabstimmen, was 70 MB entspricht, was in der bfloat16-Darstellung 0,14 GB verbraucht.
Beeindruckend, oder?
Um den Speicheraufwand während der Feinabstimmung (z. B. Backpropagation, Speichern von Aktivierungen, Speichern von Datensätzen) zu berücksichtigen, ist es am besten, etwa das Fünffache des von den trainierbaren Parametern verbrauchten Speicherplatzes beizubehalten.
Lassen Sie es uns im Detail aufschlüsseln:
Die Gewichte des LLaMA 2 70B-Modells sind bei Verwendung von LoRA festgelegt, sodass dadurch kein Speicher-Overhead entsteht → Speicherbedarf = 140 GB.
Um die LoRA-Ebene anzupassen, müssen wir jedoch 0,14 GB * (5x) = 0,7 GB beibehalten.
Dadurch ergibt sich bei der Feinabstimmung ein Gesamtspeicherbedarf von ca. 141 GB.
Vorausgesetzt, Sie verfügen derzeit nicht über eine Schulungsinfrastruktur, gehen wir davon aus, dass Sie lieber AWS verwenden würden. Gemäß der On-Demand-Preisgestaltung von AWS EC2 betragen die Rechenkosten etwa 2,80 US-Dollar pro Stunde, sodass die Kosten für die Feinabstimmung etwa 67 US-Dollar pro Tag betragen. Dies ist kein großer Aufwand, da die Feinabstimmung nicht viele Tage dauert.
Künstliche Intelligenz ist das Gegenteil eines Restaurants: Die Hauptkosten liegen im Service und nicht in der Vorbereitung.
Bei der Bereitstellung müssen Sie zwei Gewichte im Speicher behalten:
- Modellgewichte, die 140 GB Speicher verbrauchen.
- LoRA optimiert die Gewichte und verbraucht 0,14 GB Speicher.
Die Gesamtgröße beträgt 140,14 GB.
Natürlich können Sie die Gradientenberechnung abbrechen, es wird jedoch dennoch empfohlen, etwa das 1,5-fache des Speichers – etwa 210 GB – beizubehalten, um unerwarteten Mehraufwand zu berücksichtigen.
Basierend auf den On-Demand-Preisen von AWS EC2 kostet die GPU-Rechenleistung etwa 3,70 US-Dollar pro Stunde, was etwa 90 US-Dollar pro Tag entspricht, um das Modell im Produktionsspeicher zu halten und auf eingehende Anfragen zu reagieren.
Das entspricht etwa 2.700 $ pro Monat.
Eine weitere zu bedenkende Sache ist, dass es ständig zu unerwarteten Ausfällen kommt. Wenn Sie keinen Sicherungsmechanismus haben, erhalten Ihre Benutzer keine Modellvorhersagen mehr. Wenn Sie dies verhindern möchten, müssen Sie ein weiteres redundantes Modell pflegen, falls die erste Modellanforderung fehlschlägt.
Das würde Ihre Kosten also auf 180 $ pro Tag oder 5400 $ pro Monat erhöhen. Sie erreichen fast die aktuellen Kosten für die Nutzung von OpenAI.
Ab welchem Punkt stimmen die Kosten von OpenAI und Open-Source-Modellen überein?
Wenn Sie weiterhin OpenAI verwenden, ist hier die Anzahl der Wörter, die Sie pro Tag verarbeiten können, um den oben genannten Feinabstimmungs- und Servicekosten für die Verwendung von LLaMA 2 gerecht zu werden .
Gemäß der Preisgestaltung von OpenAI betragen die Kosten für die Feinabstimmung von GPT 3.5 Turbo 0,0080 $ pro 1000 Token.
Unter der Annahme, dass die meisten Wörter über zwei Token verfügen, müssten Sie dem OpenAI-Modell etwa 4,15 Millionen Wörter zuführen, um die Feinabstimmungskosten des Open-Source-Modells LLaMA 2 70B (67 USD pro Tag) zu decken.
Normalerweise beträgt die durchschnittliche Wortanzahl auf einem A4-Papier 300, was bedeutet, dass wir das Modell mit etwa 14.000 Seiten an Daten versorgen können, um den Open-Source-Feinabstimmungskosten gerecht zu werden, was eine enorme Zahl ist.
Möglicherweise verfügen Sie nicht über so viele Feinabstimmungsdaten, daher sind die Kosten für die Feinabstimmung mit OpenAI immer niedriger.
Ein weiterer Punkt, der vielleicht offensichtlich ist, ist, dass dieser Feinabstimmungsaufwand nicht mit der Trainingszeit zusammenhängt, sondern mit der Datenmenge, anhand derer das Modell feinabgestimmt wird. Dies ist bei der Feinabstimmung von Open-Source-Modellen nicht der Fall, da die Kosten von der Datenmenge und der Zeit abhängen, die Sie AWS-Rechenressourcen nutzen.
Was die Kosten des Dienstes betrifft, so kostet ein fein abgestimmter GPT 3.5 Turbo laut der Preisseite von OpenAI 0,003 US-Dollar pro 1000 Token für die Eingabe und 0,006 US-Dollar für die Ausgabe pro 1000 Token.
Wir gehen von einem Durchschnitt von 0,004 $ pro 1000 Token aus. Um die Kosten von 180 US-Dollar pro Tag zu erreichen, müssen wir etwa 22,2 Millionen Wörter pro Tag über die API verarbeiten.
Das entspricht über 74.000 Datenseiten mit 300 Wörtern pro Seite.
Der Vorteil besteht jedoch darin, dass Sie nicht sicherstellen müssen, dass das Modell rund um die Uhr läuft, da OpenAI Pay-per-Use-Preise anbietet.
Wenn Ihr Modell nie verwendet wird, müssen Sie nichts bezahlen.
Zusammenfassung: Wann macht Besitz wirklich Sinn?
Der Umstieg auf selbstgehostete KI mag zunächst wie ein verlockendes Unterfangen erscheinen. Aber hüten Sie sich vor den versteckten Kosten und den damit verbundenen Kopfschmerzen.
Abgesehen von der gelegentlichen schlaflosen Nacht, in der Sie sich fragen, warum Ihr KI-gesteuerter Dienst ausgefallen ist, verschwinden fast alle Schwierigkeiten bei der Verwaltung von LLMs in Produktionssystemen, wenn Sie einen Drittanbieter nutzen.
Vor allem, wenn Ihr Service nicht in erster Linie auf „KI“ setzt, sondern etwas anderes, das auf KI setzt.
Für große Unternehmen mögen die jährlichen Betriebskosten von 65.000 US-Dollar ein Tropfen auf den heißen Stein sein, aber für die meisten Unternehmen ist es eine Zahl, die nicht ignoriert werden kann.
Darüber hinaus sollten wir andere zusätzliche Kosten wie Talent und Wartung nicht vergessen, die die Gesamtkosten leicht auf über 200.000 bis 250.000 US-Dollar pro Jahr erhöhen können.
Natürlich hat es Vorteile, von Anfang an ein Modell zu haben, zum Beispiel die Kontrolle über Ihre Daten und Nutzung zu behalten.
Um Selbsthosting zu ermöglichen, benötigen Sie jedoch ein Benutzeranfragevolumen, das weit über der Norm von etwa 22,2 Millionen Wörtern pro Tag liegt, und Sie müssen über die Ressourcen verfügen, um sowohl Talente als auch Logistik zu verwalten.
In den meisten Anwendungsfällen lohnt es sich finanziell möglicherweise nicht, ein Modell zu haben, anstatt eine API zu verwenden.
Das obige ist der detaillierte Inhalt vonOpenAI oder DIY? Entdecken Sie die wahren Kosten für das Selbsthosten großer Sprachmodelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grundsätzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente Übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich beträgt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement beträgt 59 Yuan pro Monat und das fortlaufende Jahresabonnement beträgt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erklärte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Verbessern Sie die Produktivität, Effizienz und Genauigkeit der Entwickler, indem Sie eine abrufgestützte Generierung und ein semantisches Gedächtnis in KI-Codierungsassistenten integrieren. Übersetzt aus EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, Autor JanakiramMSV. Obwohl grundlegende KI-Programmierassistenten natürlich hilfreich sind, können sie oft nicht die relevantesten und korrektesten Codevorschläge liefern, da sie auf einem allgemeinen Verständnis der Softwaresprache und den gängigsten Mustern beim Schreiben von Software basieren. Der von diesen Coding-Assistenten generierte Code eignet sich zur Lösung der von ihnen zu lösenden Probleme, entspricht jedoch häufig nicht den Coding-Standards, -Konventionen und -Stilen der einzelnen Teams. Dabei entstehen häufig Vorschläge, die geändert oder verfeinert werden müssen, damit der Code in die Anwendung übernommen wird

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort große Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung „verdinglicht“. Am Ende des Vortrainings hört das Modell tatsächlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren können. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Domänen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zusätzliches Wissen aus der realen Welt trifft und dieses integriert

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinität von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberflächeninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universität Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfläche, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalitäten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinitäten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberflächeninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit „S

Laut Nachrichten dieser Website vom 5. Juli veröffentlichte GlobalFoundries am 1. Juli dieses Jahres eine Pressemitteilung, in der die Übernahme der Power-Galliumnitrid (GaN)-Technologie und des Portfolios an geistigem Eigentum von Tagore Technology angekündigt wurde, in der Hoffnung, seinen Marktanteil in den Bereichen Automobile und Internet auszubauen Anwendungsbereiche für Rechenzentren mit künstlicher Intelligenz, um höhere Effizienz und bessere Leistung zu erforschen. Da sich Technologien wie generative künstliche Intelligenz (GenerativeAI) in der digitalen Welt weiterentwickeln, ist Galliumnitrid (GaN) zu einer Schlüssellösung für nachhaltiges und effizientes Energiemanagement, insbesondere in Rechenzentren, geworden. Auf dieser Website wurde die offizielle Ankündigung zitiert, dass sich das Ingenieurteam von Tagore Technology im Rahmen dieser Übernahme mit GF zusammenschließen wird, um die Galliumnitrid-Technologie weiterzuentwickeln. G

Laut Nachrichten dieser Website vom 1. August hat SK Hynix heute (1. August) einen Blogbeitrag veröffentlicht, in dem es ankündigt, dass es am Global Semiconductor Memory Summit FMS2024 teilnehmen wird, der vom 6. bis 8. August in Santa Clara, Kalifornien, USA, stattfindet viele neue Technologien Generation Produkt. Einführung des Future Memory and Storage Summit (FutureMemoryandStorage), früher Flash Memory Summit (FlashMemorySummit), hauptsächlich für NAND-Anbieter, im Zusammenhang mit der zunehmenden Aufmerksamkeit für die Technologie der künstlichen Intelligenz wurde dieses Jahr in Future Memory and Storage Summit (FutureMemoryandStorage) umbenannt Laden Sie DRAM- und Speicheranbieter und viele weitere Akteure ein. Neues Produkt SK Hynix wurde letztes Jahr auf den Markt gebracht
