Heim > Backend-Entwicklung > Python-Tutorial > Token zählen: Durch die Details sortieren

Token zählen: Durch die Details sortieren

DDD
Freigeben: 2025-01-04 11:06:33
Original
259 Leute haben es durchsucht

Counting Tokens: Sorting Through the Details

Die Frauen der Six Triple Eight standen vor einer gewaltigen Herausforderung: Sie mussten unter strengen Zeitvorgaben unvollständige Adressen, Spitznamen und verschmierte Handschriften entziffern. Auch bei der Feinabstimmung benutzerdefinierter Daten mit OpenAI-Daten ist das Verständnis der Token-Nutzung von entscheidender Bedeutung – nicht nur, um sicherzustellen, dass das Modell komplexe Aufgaben bewältigen kann, sondern auch, um die Kosten effektiv zu verwalten.

Mithilfe von Tiktoken berechnen wir die Token-Anzahl in unseren Textdaten, um innerhalb der Token-Grenzen von OpenAI zu bleiben und die Effizienz zu optimieren. Die Feinabstimmung eines Modells ist nicht nur eine technische Herausforderung; es hat finanzielle Auswirkungen. Die Preisgestaltung von OpenAI zeigt beispielsweise, dass die Feinabstimmung von GPT-3.5 Turbo 0,008 US-Dollar pro 1.000 Token kostet. Um es ins rechte Licht zu rücken: 1.000 Token entsprechen ungefähr 750 Wörtern.

Kurz gesagt, die Feinabstimmung kann teuer sein, da die Kosten direkt mit der Token-Nutzung skalieren. Vorausplanung und Budgetierung – so wie die Six Triple Eight ihren Rückstand akribisch sortiert haben – sind der Schlüssel zum Erfolg.

Code

import tiktoken

def cal_num_tokens_from_row(string:str,encoding_name:str)-> int:
  encoding = tiktoken.encoding_for_model(encoding_name)  
  num_tokens = len(encoding.encode(string))
  return num_tokens

def cal_num_tokens_from_df(df,encoding_name:str) -> int:
   total_tokens = 0
   for text in df['text']:
     total_tokens += cal_num_tokens_from_row(text,encoding_name)
   return total_tokens

total_tokens = cal_num_tokens_from_df(df,'gpt-3.5-turbo')
print(f"total {total_tokens}")
Nach dem Login kopieren

Basierend auf der Gesamtzahl der Token könnte die Feinabstimmung etwa 8 bis 9 US-Dollar kosten, was für eine Einzelperson unerschwinglich sein könnte. Planung und Budgetierung sind unerlässlich, um diese Kosten effektiv zu verwalten.

Das obige ist der detaillierte Inhalt vonToken zählen: Durch die Details sortieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:dev.to
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage