In den Anfängen der Postsortierung für den Postdienst stand die Six Triple Eight vor Herausforderungen mit zurückgesandten Briefen, die als ungültig markiert waren. Dies war häufig auf Fehler zurückzuführen, die auf mangelnde Erfahrung mit der Verarbeitung eines so enormen Postvolumens zurückzuführen waren. Im Laufe der Zeit entwickelten sie innovative Indexierungssysteme, um Namen mit Regimentern und Rängen abzugleichen und so die Effizienz und Genauigkeit erheblich zu verbessern.
Ebenso ist es bei der Arbeit mit den Large Language Models (LLMs) von OpenAI entscheidend, das erforderliche Eingabeformat zu verstehen und einzuhalten. So wie falsch indizierte E-Mails zu Rücksendungen führten, können schlecht formatierte Daten zu einer ineffektiven Feinabstimmung und suboptimalen Ergebnissen führen. OpenAI verwendet das JSONL-Format (JSON Lines) als organisatorischen Rahmen für die Feinabstimmung und stellt sicher, dass die Daten strukturiert und für die Verarbeitung bereit sind.
Warum JSONL-Format?
Das JSONL-Format ermöglicht die Speicherung von Daten in einer zeilenweisen Struktur, wobei jede Zeile einen einzelnen Datensatz im JSON-Format darstellt. Diese Struktur ist kompakt, leicht lesbar und mit der Feinabstimmungs-API von OpenAI kompatibel. Durch die richtige Formatierung wird Folgendes sichergestellt:
Genauigkeit: Das Modell verarbeitet Daten wie vorgesehen und vermeidet Fehler.
Effizienz: Die Feinabstimmung erfolgt nahtlos mit einer konsistenten Struktur.
Skalierbarkeit: Große Datensätze können ohne komplexe Konfigurationen effektiv verwaltet werden.
Beispiel für ein JSONL-Format zur Feinabstimmung
So werden Daten normalerweise in JSONL zur Feinabstimmung von OpenAI-Modellen formatiert:
openai_format = { "message":[ {"role":"system","content":system}, {"role":"user","content":""}, {"role":"assistant","content":""} ] }
Jeder Datensatz besteht aus drei Schlüsselkomponenten:
System: Die Eingabeaufforderung ist erforderlich
Benutzer: Die Beispieldaten.
Assistent: Die Bezeichnung für die Daten
Konvertieren lassen
import json df = pd.read_csv('/content/dataset/train.csv', on_bad_lines='skip') final_df = df.head(150) total_tokens = cal_num_tokens_from_df(final_df,'gpt-3.5-turbo') print(f"total {total_tokens}") system ="You are a intelligent assistant designed to classify news articles into three categories :business ,entertainment,sport,tech,politics" with open('dataset/train.jsonl','w') as f: for _,row in final_df.iterrows(): openai_format = { "message":[ {"role":"system","content":system}, {"role":"user","content":row['text']}, {"role":"assistant","content":row['label']} ] } json.dump(openai_format,f) f.write('\n')
Beispielantwort
{"message": [{"role": "system", "content": "You are a intelligent assistant designed to classify news articles into three categories :business ,entertainment,sport,tech,politics"}, {"role": "user", "content": "qantas considers offshore option australian airline qantas could transfer as"}, {"role": "assistant", "content": "business"}]}
Lehren aus der Six Triple Eight
Die frühen Herausforderungen der Six Triple Eight bei der Postbearbeitung machen deutlich, wie wichtig Vorbereitung und Lernen sind. Ihre Indexierungsinnovationen stellten sicher, dass Datensätze korrekt abgeglichen und übermittelt wurden, und die Einhaltung des JSONL-Formats stellt sicher, dass die Feinabstimmung effektive und genaue Ergebnisse liefert.
Bei der Feinabstimmung von LLMs ist das Verstehen und Strukturieren von Daten im richtigen Format ebenso wichtig wie der Weg der Six Triple Eight zur Beherrschung der Kunst des Postsortierens. Indem wir sowohl aus der Geschichte als auch aus der Technologie lernen, können wir bemerkenswerte Ergebnisse bei der Lösung komplexer logistischer Herausforderungen erzielen.
Das obige ist der detaillierte Inhalt vonVerstehen des OpenAI JSONL-Formats: Organisieren der Datensätze. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!