In diesem Leitfaden werde ich Sie durch den Prozess des Hinzufügens einer benutzerdefinierten Bewertungsmetrik-Tollama-Faktorie führen. Lama-factory ist ein vielseitiges Tool, mit dem Benutzer dank seiner benutzerfreundlichen Webui und umfassenden Skripte für das Training, Bereitstellen und Bewerten von Modellen mühelos mit großer Sprachmodellen (LLMs) und umfassenden Skripten eingestellt werden können. Ein wesentliches Merkmal von LLAMA-FACTORY ISLLAMA BOARD, einem integrierten Dashboard, das auch Evaluierungsmetriken anzeigt und wertvolle Einblicke in die Modellleistung bietet. Während Standardmetriken standardmäßig verfügbar sind, können wir Modelle auf eine Weise bewerten, die für unsere spezifischen Anwendungsfälle direkt relevant sind.
Wir werden auch die Schritte zum Erstellen, Integrieren und Visualisieren einer benutzerdefinierten Metrik auf dem Lama -Board abdecken. Wenn Sie diesem Handbuch folgen, können Sie zusätzliche Metriken überwachen, die auf Ihre Anforderungen zugeschnitten sind, unabhängig davon, ob Sie an domänenspezifischen Genauigkeit, nuancierten Fehlertypen oder benutzerzentrierten Bewertungen interessiert sind. Diese Anpassung ermöglicht es Ihnen, die Modellleistung effektiver zu bewerten und sicherzustellen, dass sie mit den einzigartigen Zielen Ihrer Anwendung übereinstimmt. Lass uns eintauchen!
Dieser Artikel wurde als Teil des Data Science -Blogathons veröffentlicht.
Lama-factory, entwickelt von Hiyouga, ist ein Open-Source-Projekt, mit dem Benutzer Sprachmodelle über eine benutzerfreundliche Webui-Schnittstelle optimieren können. Es bietet eine vollständige Reihe von Werkzeugen und Skripten für Feinabstimmungen, Erstellen von Chatbots, Servieren und Benchmarking-LLMs.
Lama-Factory wurde mit Anfängern und nichttechnischen Benutzern entwickelt und vereinfacht den Prozess der Feinabstimmung von Open-Source-LLMs auf benutzerdefinierten Datensätzen und beseitigt die Notwendigkeit, komplexe KI-Konzepte zu erfassen. Benutzer können einfach ein Modell auswählen, ihren Datensatz hochladen und einige Einstellungen anpassen, um das Training zu starten.
Nach Abschluss ermöglicht die Webanwendung auch das Testen des Modells und bietet eine schnelle und effiziente Möglichkeit, LLMs auf einer lokalen Maschine zu optimieren.
Während Standardmetriken wertvolle Einblicke in die allgemeine Leistung eines fein abgestimmten Modells bieten, bieten maßgeschneiderte Metriken eine Möglichkeit, die Wirksamkeit eines Modells in Ihrem spezifischen Anwendungsfall direkt zu bewerten. Durch Anpassung von Metriken können Sie besser einschätzen, wie gut das Modell einzigartige Anforderungen erfüllt, die generische Metriken übersehen könnten. Benutzerdefinierte Metriken sind von unschätzbarem Wert, da sie die Flexibilität bieten, Maßnahmen zu erstellen und zu verfolgen, die speziell mit den praktischen Bedürfnissen ausgerichtet sind und kontinuierliche Verbesserungen basierend auf relevanten, messbaren Kriterien ermöglichen. Dieser Ansatz ermöglicht einen gezielten Fokus auf domänenspezifische Genauigkeit, gewichtete Bedeutung und Benutzererfahrungsausrichtung.
In diesem Beispiel werden wir eine Python -Umgebung verwenden. Stellen Sie sicher, dass Sie Python 3.8 oder höher haben und die erforderlichen Abhängigkeiten gemäß den Repository -Anforderungen installiert sind.
Wir werden zuerst alle Anforderungen installieren.
Git-Klon--Depth 1 https://github.com/hiyouga/llama-factory.git CD Lama-faktor PIP install -e ". [Torch, Metriken]"
Lamafactory-Cli Webui
Hinweis: Hier unter GitHub finden Sie den offiziellen Setup -Handbuch ausführlicher.
Erfahren Sie mehr über die Standardbewertungsmetriken von Lama-Factory wie Bleu- und Rouge-Scores und warum sie für die Bewertung der Modellleistung unerlässlich sind. In diesem Abschnitt wird auch der Wert des Anpassung von Metriken eingeführt.
Die BLEU-Bewertung (zweisprachige Bewertung) ist eine Metrik, die zur Bewertung der von maschinellen Übersetzungsmodellen erzeugten Textqualität verwendet wird, indem sie mit einem Referenz (oder menschlich translatierten) Text verglichen wird. Der BLEU -Score bewertet hauptsächlich, wie ähnlich die erzeugte Übersetzung zu einer oder mehreren Referenzübersetzungen ist.
Rouge (Rückruf-orientierte Zweitbesetzung für die Gisting-Bewertung) ist eine Reihe von Metriken, die zur Bewertung der Qualität der Textzusammenfassungen verwendet werden, indem sie mit Referenzzusammenfassungen verglichen werden. Es wird häufig für Zusammenfassungsaufgaben verwendet und misst die Überlappung von Wörtern und Phrasen zwischen den generierten und Referenztexten.
Diese Metriken sind standardmäßig verfügbar. Sie können jedoch auch maßgeschneiderte Metriken hinzufügen, die auf Ihren spezifischen Anwendungsfall zugeschnitten sind.
Dieser Leitfaden geht davon aus, dass LLLAMA-FACTORY bereits auf Ihrer Maschine eingerichtet ist. Wenn nicht, lesen Sie bitte die Lama-Factory-Dokumentation zur Installation und zum Einrichten.
In diesem Beispiel gibt die Funktion einen Zufallswert zwischen 0 und 1 zurück, um einen Genauigkeitswert zu simulieren. Sie können dies jedoch durch Ihre eigene Bewertungslogik ersetzen, um einen Genauigkeitswert (oder eine andere Metrik) basierend auf Ihren spezifischen Anforderungen zu berechnen und zurückzugeben. Mit dieser Flexibilität können Sie benutzerdefinierte Bewertungskriterien definieren, die Ihren Anwendungsfall besser widerspiegeln.
Lassen Sie uns zunächst eine Python -Datei namens Custom_Metric.py erstellen und unsere benutzerdefinierte metrische Funktion darin definieren.
In diesem Beispiel wird unsere benutzerdefinierte Metrik X _Score genannt. Diese Metrik nimmt Preds (vorhergesagte Werte) und Bezeichnungen (Grundwahrheitswerte) als Eingaben an und gibt eine Punktzahl basierend auf Ihrer benutzerdefinierten Logik zurück.
zufällig importieren Def Cal_x_score (Preds, Labels): "" " Berechnen Sie eine benutzerdefinierte Metrikbewertung. Parameter: Preds - Liste der vorhergesagten Werte Etiketten - Liste der Grundwahrheitswerte Rückgaben: Punktzahl - ein Zufallswert oder eine benutzerdefinierte Berechnung gemäß Ihrer Anforderung "" " # Die benutzerdefinierte metrische Berechnungslogik geht hier # Beispiel: Geben Sie eine zufällige Punktzahl zwischen 0 und 1 zurück rimenge zurückgeben. Uniform (0, 1)
Sie können die Zufallsbewertung durch Ihre spezifische Berechnungslogik ersetzen.
Um sicherzustellen, dass das Lama Board unsere neue Metrik erkennt, müssen wir sie in die metrische Berechnungspipeline in SRC/llamafactory/Train/SFT/Metric.py integrieren
Fügen Sie Ihre Metrik dem Score -Wörterbuch hinzu:
self.score_dict = { "Rouge-1": [], "Rouge-2": [], "Bleu-4": [], "x_Score": [] # Fügen Sie hier Ihre benutzerdefinierte Metrik hinzu }
Berechnen und fügen Sie die benutzerdefinierte Metrik in The__Call__Method an:
von .custom_metric import Cal_x_score def __call __ (self, Preds, Beschriftungen): # Berechnen Sie die benutzerdefinierte Metrikbewertung Custom_Score = Cal_x_score (Preds, Labels) # Die Punktzahl im Score -Wörterbuch an 'extra_metric' anhängen self.score_dict ["x_score"]. append (Custom_score * 100)
Dieser Integrationsschritt ist für die kundenspezifische Metrik unerlässlich, um im Lama Board zu erscheinen.
Die Prädikte_X_Score -Metrik erscheint jetzt erfolgreich und zeigt eine Genauigkeit von 93,75% für diesen Modell- und Validierungsdatensatz. Diese Integration bietet Ihnen eine einfache Möglichkeit, jedes fein abgestimmte Modell direkt innerhalb der Bewertungspipeline zu bewerten.
Nachdem Sie Ihre benutzerdefinierte Metrik eingerichtet haben, sollten Sie sie nach der Ausführung der Bewertungspipeline in Lama Board sehen. Theextra metricscores wird für jede Bewertung aktualisiert.
Mit diesen Schritten haben Sie eine benutzerdefinierte Bewertungsmetrik erfolgreich in Lama-Factory integriert! Dieser Prozess bietet Ihnen die Flexibilität, über die Standardmetriken hinauszugehen und Modellbewertungen anzupassen, um den besonderen Bedürfnissen Ihres Projekts zu erfüllen. Durch die Definition und Implementierung von Metriken, die für Ihren Anwendungsfall spezifisch sind, erhalten Sie sinnvollere Einblicke in die Modellleistung, wodurch Stärken und Bereiche für die Verbesserung auf eine Art und Weise hervorgehoben werden, die für Ihre Ziele am wichtigsten ist.
Das Hinzufügen benutzerdefinierter Metriken ermöglicht auch eine kontinuierliche Verbesserungsschleife. Wenn Sie Modelle für neue Daten gut abgestimmen und trainieren, bieten diese personalisierten Metriken eine konsistente Möglichkeit, den Fortschritt zu bewerten. Unabhängig davon, ob Sie sich auf domänenspezifische Genauigkeit, Ausrichtung der Benutzererfahrung oder nuancierte Bewertungsmethoden befinden, bietet das Lama Board eine visuelle und quantitative Möglichkeit, diese Ergebnisse im Laufe der Zeit zu vergleichen und zu verfolgen.
Durch die Verbesserung der Modellbewertung mit maßgeschneiderten Metriken können Sie datengesteuerte Entscheidungen treffen, die Modelle mit Präzision verfeinern und die Ergebnisse besser mit realen Anwendungen ausrichten. Diese Anpassungsfähigkeit ermöglicht es Ihnen, Modelle zu erstellen, die effektiv abschneiden, relevante Ziele optimieren und einen Mehrwert für praktische Bereitstellungen bieten.
A. LLAMA-FACTORY ist ein Open-Source-Tool zur Feinabstimmung von großsprachigen Modellen durch ein benutzerfreundliches Webui mit Funktionen für das Training, Bereitstellen und Bewertung von Modellen.
Q2. Warum eine benutzerdefinierte Bewertungsmetrik hinzufügen?A. Benutzerdefinierte Metriken ermöglichen es Ihnen, die Modellleistung basierend auf Kriterien zu bewerten, die für Ihren Anwendungsfall spezifisch sind, und liefern Erkenntnisse, dass Standardmetriken möglicherweise nicht erfassen.
Q3. Wie erstelle ich eine benutzerdefinierte Metrik?A. Definieren Sie Ihre Metrik in einer Python -Datei und geben Sie die Logik an, wie sie die Leistung basierend auf Ihren Daten berechnen sollte.
Q4. Wo integriere ich die kundenspezifische Metrik in Lama-faktorisch?A. Fügen Sie Ihre Metrik der Datei sft/metric.py hinzu und aktualisieren Sie die Score -Wörterbuch- und Berechnungspipeline, um sie einzuschließen.
Q5. Wird meine benutzerdefinierte Metrik im Lama Board erscheinen?A. Ja, sobald Sie Ihre benutzerdefinierte Metrik integrieren, zeigt das Lama -Board sie an, sodass Sie die Ergebnisse neben anderen Metriken visualisieren können.
Die in diesem Artikel gezeigten Medien sind nicht im Besitz von Analytics Vidhya und werden nach Ermessen des Autors verwendet.
Das obige ist der detaillierte Inhalt vonSteigern Sie die Modellbewertung mit benutzerdefinierten Metriken in Lama-Factory. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!