Das AI-Agent-Optimierungs-Framework für Endgeräte wird eingeführt, mit einer Genauigkeitsrate von bis zu 97 % im Feld.-KI-php.cn

Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Der Artikel wurde vom NEXA AI-Team in Zusammenarbeit mit dem MIT-IBM Watson AI Lab entwickelt. Der Erstautor, Wei Chen (Chen Wei), ist Mitbegründer, CEO und Chefwissenschaftler von NEXA AI. Er hat einen Doktortitel von der Stanford University und verfügt über umfangreiche Erfahrung in der Forschung im Bereich der künstlichen Intelligenz. Co-Autor Zhiyuan Li ist Mitbegründer und CTO von NEXA AI, Absolvent der Stanford University und verfügt über langjährige Forschungs- und Entwicklungserfahrung an vorderster Front im Bereich End-Side-KI bei Google und Amazon Lab126. Die anderen beiden Co-Autoren sind Zhen Guo und Yikang Shen vom MIT und IBM.

KI-Agenten werden immer wichtiger und können autonom Entscheidungen treffen und Probleme lösen. Um effektiv zu funktionieren, benötigen diese Agenten einen Planungsprozess, der die beste Vorgehensweise ermittelt und dann die geplanten Aktionen ausführt.

In diesem Artikel schlagen wir ein effizientes geräteseitiges Plan-Aktions-Framework vor, das die Planung und Aktionsausführung in zwei Komponenten unterteilt: einen für Edge-Geräte optimierten Planungsagenten oder Octo-Planer und einen Aktionsagenten, der das Octopus-Modell verwendet Funktionen ausführen. Octo-Planner reagiert zunächst auf Benutzeranfragen, indem er die Aufgabe in eine Reihe von Unterschritten zerlegt, die dann vom Octopus-Aktionsagenten ausgeführt werden. Um die Leistung auf Geräten mit eingeschränkten Ressourcen zu optimieren, verwenden wir eine Modellfeinabstimmung anstelle von kontextbezogenem Lernen, wodurch die Rechenkosten und der Energieverbrauch gesenkt und gleichzeitig die Reaktionszeit verbessert werden.

Unser Ansatz besteht darin, mithilfe von GPT-4 vielfältige Planungsanfragen und -antworten auf der Grundlage verfügbarer Funktionen zu generieren und anschließend zu validieren, um die Datenqualität sicherzustellen. Wir haben das Phi-3 Mini-Modell anhand eines kuratierten Datensatzes verfeinert und in einer domäneninternen Testumgebung eine Erfolgsquote von 97 % erreicht.

Um die Herausforderungen der Multi-Domain-Planung anzugehen, haben wir eine Multi-LoRA-Trainingsmethode entwickelt, die LoRA-Gewichte zusammenführt, die auf verschiedenen Teilmengen von Funktionen trainiert wurden. Dieser Ansatz verarbeitet komplexe Multi-Domain-Abfragen flexibel und behält gleichzeitig die Recheneffizienz auf Geräten mit eingeschränkten Ressourcen bei.

Papier: https://arxiv.org/pdf/2406.18082
Demo: https://www.nexa4ai.com/octo-planner#video
Modellseite: https: //huggingface.co/NexaAIDev/octopus-planning

1 Einführung

Agenten für künstliche Intelligenz (KI) haben verschiedene Branchen erheblich verändert, indem sie autonome Entscheidungen ermöglichen und die betriebliche Effizienz verbessern. Diese Agenten verlassen sich auf einen kritischen Planungsprozess, der die Bestimmung der besten Vorgehensweise, die Ausführung der geplanten Aktionen und die Zusammenfassung der Ergebnisse umfasst. Große Sprachmodelle (LLMs) wie Gemini-Pro und GPT-4 zeigen Potenzial in diesem Bereich.

Obwohl diese Modelle bei der Durchführung komplexer Planungsaufgaben vor Herausforderungen stehen und Schwierigkeiten haben, ein mit der menschlichen Leistung vergleichbares Niveau zu erreichen, sind sie dennoch effektiv bei der Bewältigung einfacher Aufgaben und erleichtern so praktische Anwendungen. Eine dieser Anwendungen sind die KI-Assistenten-Tools von Unternehmen wie MultiOn, Simular AI und Adept AI, die die Leistungsfähigkeit von LLM nutzen, um intelligente Assistenten in verschiedenen Bereichen bereitzustellen.

Darüber hinaus integrieren verbraucherorientierte KI-Hardwareprodukte wie Rabbit R1, Humane AI Pin und Limitless Pendant LLM in benutzerfreundliche Geräte, wodurch intelligente Assistenten leichter zugänglich werden und eine erhebliche Traktion erzielt wird. Der Erfolg des KI-Agenten hängt von der Leistung des zugrunde liegenden LLM ab. Agenten, die vorab trainierte Modelle ohne Feinabstimmung bei Aufgabendemonstrationen verwendeten, hatten relativ niedrige Erfolgsquoten, die von 12 % bei Desktop-Apps bis zu 46 % bei mobilen Apps reichten, während Agenten, die feinabgestimmte Modelle nutzten, bei Aufgaben, die ihrer Schulung ähnelten, bessere Ergebnisse erzielten Erzielung einer Erfolgsquote von bis zu 80 % bei Aufgaben.

Allerdings sind KI-Agenten, die LLM verwenden, aufgrund hoher Rechenanforderungen und Infrastrukturkosten kostspielig, was eine breite Akzeptanz begrenzt. Das Fehlen von KI-Agenten auf dem Gerät schränkt Anwendungen ein, die Echtzeitverarbeitung, Offline-Funktionalität oder verbesserten Datenschutz erfordern. KI-Agenten auf dem Gerät bieten Vorteile wie geringere Latenz, Offline-Betrieb, geringere Kosten und verbesserte Datensicherheit. Obwohl Aktionsmodelle wie Octopus V2 eine Genauigkeit von über 95 % bei Funktionsaufrufen erreichen, fehlt es immer noch an einem geräteseitigen Planungsmodell. Generische Agenten-Frameworks nutzen Einzelmodell-Kontextlernen und erfordern ausführliche Funktionsbeschreibungen und Planungsanweisungen in jeder Eingabeaufforderung. Dieser Ansatz ist für geräteseitige Modelle mit begrenzter Kontextlänge unpraktisch, was zu hoher Latenz und Batterieverbrauch auf Edge-Geräten führt.

In diesem Artikel stellen wir Octo-Planner vor, einen Planungsagenten auf dem Gerät, der die wichtigsten Herausforderungen in Bezug auf Effizienz, Anpassungsfähigkeit und Ressourcenbeschränkungen angeht. Unser Plan-Aktions-Framework trennt Planung und Aktionsausführung in zwei Komponenten: einen Planungsagenten, der für die Verwendung auf Edge-Geräten optimiert ist, oder Octo-Planner, und einen Aktionsagenten, der Funktionen mithilfe des Octopus-Modells ausführt.

Indem wir der Feinabstimmung Vorrang vor Hinweisen mit wenigen Schüssen geben, reduzieren wir die Rechenkosten und minimieren die Anforderungen an das Caching von Schlüsselwerten (KV). Unser Ansatz verwendet GPT-4, um Planungsdaten zu generieren und zu überprüfen, die dann zur Feinabstimmung von Phi-3 Mini für die Bereitstellung auf dem Gerät verwendet werden. Tests innerhalb der Domäne zeigten, dass diese Feinabstimmung den Planungserfolg um 97 % steigerte. Um die Herausforderung der Multi-Domain-Planung anzugehen, entwickeln wir eine Multi-LoRA-Trainingsmethode, die LoRA-Gewichte zusammenführt, die auf verschiedenen Teilmengen von Funktionen trainiert wurden. Dieser Ansatz verarbeitet komplexe Multi-Domain-Abfragen flexibel und behält gleichzeitig die Recheneffizienz auf Geräten mit eingeschränkten Ressourcen bei.

Durch die Konzentration auf vordefinierte Funktionen für einfache Aufgaben und die Nutzung von Feinabstimmungen wollen wir KI-Agenten in realen Anwendungen praktischer, zugänglicher und kostengünstiger machen.

Diese Arbeit soll zu den laufenden Bemühungen beitragen, KI zugänglicher und nützlicher zu machen. Indem wir die Lücke zwischen dem Potenzial von KI-Agenten und den Einschränkungen des Edge Computing schließen, hoffen wir, die Einführung intelligenter geräteinterner Assistenten in verschiedenen Bereichen zu fördern. Durch die Open-Sourcing-Lösung unseres Ansatzes hoffen wir, weitere Innovationen in der On-Device-KI anzuregen und den Umfang der erweiterten Planungsfunktionen zu erweitern.

2 Verwandte Arbeiten

Planungsagenten: Sprachmodelle sind zu einem Schlüsselelement in Planungsagentensystemen geworden. Proprietäre Modelle wie die Assistant API von OpenAI zeichnen sich durch die Generierung von Richtlinien basierend auf Benutzeranfragen und verfügbaren Funktionen aus. Jüngste Fortschritte erweitern die Fähigkeiten von Sprachmodellen im Gesamtsystem weiter. Das ReAct-Framework integriert Planung und Aktion in einem begrenzten Aktionsraum, während die Forschung der Alibaba Group die Wirksamkeit separater Planungs- und Aktionsmodelle bei komplexen Aufgaben hervorhebt. Auch in der Robotik werden Sprachmodelle zunehmend für die Planung auf Aufgabenebene eingesetzt. Bemerkenswerte Beispiele sind SayCan, das LLM verwendet, um übergeordnete Aufgaben in konkrete Unteraufgaben zu zerlegen, und Video Language Planning (VLP), das die langfristige Planung durch ein dynamisches Text-zu-Video-Modell erweitert. Das breite Anwendungsspektrum von Sprachmodellen in Planungssystemen, von allgemeinen Richtlinien bis hin zu spezifischen Roboteraufgaben, unterstreicht ihre zunehmend wichtige und anpassungsfähige Rolle in einer Vielzahl von Entscheidungsprozessen.

Fein abgestimmte Alternativen zu langem Kontext: Die Feinabstimmung von Sprachmodellen zur Internalisierung spezifischer Hinweise oder Kontextinformationen kann die Eingabelänge reduzieren und die Effizienz steigern. Dieser Ansatz beinhaltet das Trainieren von Modellen anhand sorgfältig kuratierter aufgabenspezifischer Datensätze. Diese Technik ist besonders wertvoll für Modelle mit begrenzten Kontextfenstern, da sie die Effizienz der Abfrageverarbeitung verbessern kann, ohne die Antwortqualität zu beeinträchtigen. Der Erfolg der Feinabstimmung hängt in hohem Maße von der Verwendung verschiedener, qualitativ hochwertiger Datensätze ab, um sicherzustellen, dass das Modell auf eine Vielzahl von Eingabeaufforderungsformulierungen verallgemeinert werden kann. Bei ordnungsgemäßer Implementierung kann die Feinabstimmung anwendungsspezifische Interaktionen vereinfachen und Kontextlängenbeschränkungen und Rechenherausforderungen in realen Bereitstellungen lösen.

LoRA und Multi-LoRA: Low-Rank-Adaptation (LoRA) kann vorab trainierte Sprachmodelle effizient an bestimmte Aufgaben anpassen. Im Gegensatz zur Feinabstimmung, bei der alle Parameter aktualisiert werden, friert LoRA vorab trainierte Gewichte ein und fügt auf jeder Ebene trainierbare Matrizen mit niedrigem Rang hinzu, wodurch trainierbare Parameter und Rechenanforderungen erheblich reduziert werden. Multi-LoRA erweitert dieses Konzept, sodass mehrere aufgabenspezifische Adapter zum Zeitpunkt der Inferenz trainiert, kombiniert oder gewechselt werden können, sodass ein einziges Basismodell eine Vielzahl von Aufgaben effizient bewältigen kann. Auf der Grundlage dieser Methoden haben Forscher mehrere verwandte Varianten entwickelt, um verschiedene Aspekte der Modellanpassung anzugehen: LoRA + optimierte Lernrate, VeRA verwendet Zufallsprojektion, AdaLoRA implementiert adaptiven Rang, DoRA zerlegt Gewichte, Delta-LoRA aktualisiert vorab trainierte Gewichte. Diese Varianten sollen die Effizienz oder Leistung in bestimmten Szenarien weiter verbessern.

3 Methode

In diesem Abschnitt wird unser Framework für die Planung auf dem Gerät vorgestellt – Aktionsagenten. Wir beschreiben zunächst die Integration von Planungs- und Aktionsagenten, um eine effiziente Problemlösung zu ermöglichen. Anschließend erläutern wir unser Datensatzdesign und den Schulungsprozess für Planungsagenten, einschließlich der Unterstützung einer breiten Palette von Funktionen und Plug-and-Play-Funktionen für zusätzliche Funktionssätze. Abschließend skizzieren wir die Benchmarks, die zur Bewertung der Agentenleistung verwendet werden.

3.1 Plan- und Aktions-Agenten-Framework

Unser Plan-Aktions-Ansatz unterscheidet sich vom allgemeinen Agenten-Framework durch die Aufteilung des Planungs- und Aktionsausführungsprozesses in zwei Komponenten. Diese Trennung erhöht die Modularität und ermöglicht eine gezielte Optimierung jeder Komponente. Das Framework funktioniert wie folgt:

Planungsphase: Bei einer Benutzeranfrage q zerlegt unser Planungsmodell πplan die Aufgabe in eine Reihe von Unterschritten. Formal:

{τ1, τ2, ..., τn} - πplan (q;F )

wobei F die Menge ist, die durch Funktionen beschrieben werden kann und τi der i-te Ausführungsschritt ist. πplan internalisiert F während der Befehlsbeschneidung.

Aktionsphase: Für jeden Schritt in der Ausführungssequenz verwenden wir das Aktionsmodell πaction. Bei Schritt i führt das Aktionsmodell angesichts der aktuellen Zustandsbeobachtung Oi Folgendes aus:

Oi+1 = πaction (τi, Oi), (2)

wobei Oi+1 und τi+1 an den nächsten Schritt übergeben werden, um die Ausführung fortzusetzen. Dieser iterative Prozess gewährleistet einen kohärenten Ablauf der Teilschritte der Aufgabe.

Für das Aktionsmodell verwenden wir das Octopus-Modell, das für geräteseitige Funktionsaufrufe entwickelt wurde. Abbildung 2 veranschaulicht den Unterschied zwischen unserem Plan-Aktions-Framework und dem Einzelmodell-LLM-Agenten.

^{Abbildung 2: Vergleich einzelner LLM-Agent- und Plan-Action-Agent-Frameworks. (Links) Einzelner LLM-Agent: Einheitliches Modell für die Aufgabenplanung und Aktionsausführung. (Rechts) Plan-Aktion-Agent: Ein spezialisiertes Planungsmodell zerlegt eine Aufgabe in Teilaufgaben, während ein separates Aktionsmodell jede Teilaufgabe der Reihe nach ausführt.}

Der modulare Aufbau unseres Frameworks bietet mehrere Vorteile:

Spezialisierung: Durch die Trennung von Planung und Aktionsausführung kann jedes Modell für seine spezifische Rolle optimiert werden, wodurch die Leistung bei komplexen Aufgaben verbessert wird.
Skalierbarkeit: Erweitern Sie selbstständig Planungs- und Handlungsfähigkeiten und können Sie sich effizient an die Komplexität verschiedener Aufgaben anpassen.
Erklärbarkeit: Die explizite Trennung der Phasen verbessert die Transparenz des Entscheidungsprozesses.
Anpassungsfähigkeit: Einfachere Integration von domänenspezifischem Wissen oder Einschränkungen in jede Phase, ohne dass systemweite Änderungen erforderlich sind.

3.2 Planungsdatensatz

Unser Framework verwendet das Octopus-Modell als Aktionsmodell und muss nur den Planungsagenten trainieren. Wir verwenden das folgende Datensatzformat zur Feinabstimmung des Planungsagenten:

Spezielle Markierungen wie und für das Chat-Modell-Vortraining sind optional. Wir setzen n auf 1–5, basierend auf unserer Feststellung, dass die meisten Aufgaben in mobilen Apps aus weniger als 5 Schritten bestehen. Der Datensatzgenerierungs- und -kurationsprozess umfasst:

1. Datensatzerfassung: Angesichts der verfügbaren Funktionen F verwenden wir ein großes Sprachmodell (GPT-4), um verschiedene Abfragen zu generieren, die von diesen Funktionen beantwortet werden. Wir erhöhen die Temperatureinstellung des Modells, um die Abfragevielfalt sicherzustellen. Die Antwort wird dann im angegebenen Datensatzformat generiert. Es ist wichtig, Funktionsbeschreibungen während des Generierungsprozesses zu verwenden, sie jedoch nicht in den endgültigen Datensatz aufzunehmen. Stattdessen verinnerlicht das Planungsmodell diese Funktionsinformationen während des Trainings.

2. Datenvalidierung: Wir verwenden dasselbe Sprachmodell als Validierungstool, um die Richtigkeit von Abfrage-Antwort-Paaren zu bewerten. Obwohl es bei der ersten Generierung einige Fehler gab, stellten wir fest, dass das Modell den generierten Inhalt effektiv als gültig oder ungültig klassifizierte, sodass wir fehlerhafte Ausgaben herausfiltern und die Qualität des Datensatzes aufrechterhalten konnten.

Beispieldatenpunkte für unterschiedliche Anzahlen von Unterschritten sind unten dargestellt:

Eine Visualisierung der Datensatzsammlung finden Sie in Abbildung 3. Beispielfunktionen sind in Anhang 7.1 beschrieben.

3.3 Basisdesign

Unsere Bewertung basiert auf einem sorgfältig erstellten Testdatensatz. Dieser Datensatz ist so konzipiert, dass er die Komplexität der realen Planung widerspiegelt. Dabei kommt ein mehrstufiger Ansatz zum Einsatz, der automatische Generierung, Expertenvalidierung und empirische Tests kombiniert.

Der Prozess beginnt mit einem anfänglichen Datensatz von 1000 Datenpunkten, der automatisch mit GPT-4 generiert wird. Anschließend durchlaufen diese Datenpunkte einen strengen Qualitätssicherungsprozess, um ihre Vollständigkeit und Relevanz sicherzustellen. Die Qualitätsbewertungskriterien sind wie folgt:

Jeder Schritt muss einer vorhandenen Funktion entsprechen
Die Reihenfolge der Schritte muss stimmen.

Um die Zuverlässigkeit der Bewertung sicherzustellen, haben wir eine zusätzliche menschliche Verifizierungsstufe eingebaut. In dieser Phase wird eine Teilmenge von Beispielen für die End-to-End-Modellausführung ausgewählt, wodurch die Genauigkeit der Ergebnisse validiert und eine umfassende Bewertung der Modellleistung durchgeführt wird.

Um unser vorgeschlagenes Planungsmodell zu bewerten, verwenden wir GPT-4 als Oracle, um die Richtigkeit der generierten Pläne zu bestimmen. Diese Wahl basiert auf empirischen Beobachtungen, die zeigen, dass GPT-4 in unserem spezifischen Anwendungsfall effizient funktioniert.

4 Experimentelles Design

Unser experimentelles Design bewertet die Leistung von Octo-planner bei der KI-Agentenplanung auf dem Gerät. Unser Ziel ist es, optimale Konfigurationen für die Bereitstellung effizienter und genauer Planungsmodelle auf ressourcenbeschränkten Geräten zu identifizieren und gleichzeitig die Anpassungsfähigkeit an neue Domänen und Funktionen aufrechtzuerhalten. Unsere Experimente konzentrieren sich auf vier Schlüsselbereiche:

Leistungs- und Effizienzkompromisse zwischen vollständiger Feinabstimmung und LoRA.
Genauigkeit von Multi-LoRA bei der gleichzeitigen Verarbeitung verschiedener Funktionssätze.
Leistungsvergleich verschiedener Basismodelle und Maßstäbe.
Der Einfluss der Datensatzgröße auf die Genauigkeit, im Bereich von 100 bis 1000 Trainingsbeispielen.

Wir führen eine überwachte Feinabstimmung an einem kuratierten Datensatz durch und verwenden dabei Phi-3 Mini und einige andere Alternativen als Basismodell. Die Schulung umfasst die vollständige Feinabstimmung und die LoRA-Technologie. Für alle Experimente haben wir die Datensatzgröße auf das 800-fache der Anzahl der verfügbaren Funktionen festgelegt und die Feinabstimmung auf einer NVIDIA A100-GPU vorgenommen. Wir verwenden optimierte Hyperparameter für beide Techniken: Lernrate 5×10-6, Batchgröße 4, Aufwärmverhältnis 0,2, Training für 2 Epochen. Für LoRA setzen wir target_modules auf all linear. 5 Ergebnisse Unsere Experimente zeigen signifikante Unterschiede in der Leistung dieser Methoden. Durch die vollständige Feinabstimmung wird die höchste Leistung mit einer Genauigkeit von 98,1 % erreicht, was eine überlegene Leistung zeigt. Im Gegensatz dazu hängt die Leistung von LoRA von der Ranggröße ab. Auf Rang 64 und Alpha 256 erreicht LoRA eine Genauigkeit von 85,1 %, während bei einer Reduzierung auf Rang 16 und Alpha 32 die Genauigkeit auf 72,9 % sinkt. Diese Ergebnisse verdeutlichen den Kompromiss zwischen Modellleistung und Recheneffizienz bei der Verwendung von LoRA. Obwohl eine vollständige Feinabstimmung eine bessere Genauigkeit bietet, bietet LoRA eine attraktivere Alternative im Hinblick auf die Ressourceneffizienz und die Leistung hängt von der Rangkonfiguration ab.

Tabelle 1: Vollständig Feinabstimmung und LoRA-Benchmark

5.2 Multi-LoRA-Training und Zusammenführung Das AI-Agent-Optimierungs-Framework für Endgeräte wird eingeführt, mit einer Genauigkeitsrate von bis zu 97 % im Feld.

gültig für einen bestimmten Satz von Funktionen, reale Anwendungen müssen sich oft mit neuen auseinandersetzen oder einen erweiterten Funktionsumfang. Um dieser Herausforderung zu begegnen, schlagen wir eine Methode vor, um jede LoRA-Gewichtung, die auf einer anderen Teilmenge von Funktionen trainiert wurde, in demselben Basismodell zusammenzuführen. Dieser Ansatz erstellt ein Kompositionsmodell, das Wissen aus verschiedenen Funktionssätzen kombiniert, um skalierbare Lösungen für komplexe Multi-Domain-Abfragen in ressourcenbeschränkten Umgebungen bereitzustellen. ^{Um diesen Ansatz zu bewerten, haben wir einen Benchmark-Datensatz erstellt, indem wir Funktionen für jede LoRA-Domäne zufällig ausgewählt und in Workflows kombiniert haben. Abfragen und Pläne werden von GPT-4 generiert. Wenn Sie beispielsweise zwei zusammengeführte LoRAs testen, könnte die Abfrage mit gleicher Wahrscheinlichkeit Android-Funktionen, E-Commerce-Funktionen oder beides betreffen.}Der folgende Codeblock zeigt eine Beispielabfrage in unserem Benchmark-Datensatz und die entsprechenden Inferenzergebnisse für das Multi-LoRA-Merge-Modell:

Tabelle 2 zeigt die Leistungsergebnisse unserer Multi-LoRA-Merge-Technik. Jeder einzelne LoRA wurde mit konsistenten Hyperparametern trainiert: Rang 64, lora_alpha 256, target_modules auf „all-linear“ eingestellt. Der Single-Domain-Android-Funktionssatz LoRA erreicht eine Genauigkeit von 85,1 %. Bei der Kombination von LoRA aus beiden Domänen (Android und E-Commerce) sinkt die Genauigkeit leicht auf 82,2 %. Die Genauigkeit sinkt bei weiterer Zusammenführung wie folgt: 78,9 % für drei Domänen (zusätzliches Video-Streaming) und 69,7 % für vier Domänen (zusätzliche Reisen). Diese Ergebnisse zeigen eine Tendenz, dass die Genauigkeit allmählich abnimmt, wenn wir mehr Funktionssätze integrieren, insbesondere nach dem Hinzufügen einer dritten Domäne.

Tabelle 2: Multi-LoRA Benchmark Das AI-Agent-Optimierungs-Framework für Endgeräte wird eingeführt, mit einer Genauigkeitsrate von bis zu 97 % im Feld.

5.3 Vollständige Feinabstimmung unter Verwendung verschiedener Basismodelle Das AI-Agent-Optimierungs-Framework für Endgeräte wird eingeführt, mit einer Genauigkeitsrate von bis zu 97 % im Feld.

Grundgenauigkeit unter Verwendung verschiedener Basismodelle nach der Abstimmung. Das Google Gemma 2b erreichte eine Genauigkeit von 85,6 %, während das größere Gemma 7b mit einer Genauigkeit von 99,7 % glänzte. Auch der Microsoft Phi-3 Mini zeigte eine starke Leistung und erreichte eine Genauigkeit von 98,1 %. Diese Ergebnisse zeigen, dass sich unser Framework an eine Vielzahl geräteseitiger LLMs anpasst, wobei größere Modelle im Allgemeinen eine höhere Genauigkeit erreichen.

5.4 Vollständige Feinabstimmung mit unterschiedlichen Datensatzgrößen

Unser Standard-Trainingsdatensatz enthält 1000 Datenpunkte, gleichmäßig verteilt in 1-5 Schrittsequenzen (jeweils 200), um unterschiedliche Aufgabenkomplexität darzustellen. Wir untersuchen den Einfluss der Datensatzgröße auf die Modellleistung, um die Effizienz der Funktionssatzintegration zu optimieren und die Kosten für die Generierung synthetischer Daten zu senken. Tabelle 4 zeigt die Basisgenauigkeit für verschiedene Trainingsdatensatzgrößen:

Die Ergebnisse zeigen einen klaren Zusammenhang zwischen Datensatzgröße und Genauigkeit. Der vollständige 1000-Punkte-Datensatz erreichte eine Genauigkeit von 98,1 %, während die Reduzierung auf 500 Datenpunkte die Genauigkeit auf 92,5 % reduzierte. Bei einer weiteren Reduzierung auf 250 und 100 Datenpunkte beträgt die Genauigkeit 85,3 % bzw. 78,1 %. Diese Ergebnisse legen nahe, dass für eine optimale Leistung die Verwendung von Trainingsdatensätzen mit mehr als 1000 Datenpunkten empfohlen wird.

6 Fazit

In diesem Artikel wird Octo-planner vorgestellt, ein geräteseitiger Planungsagent, der für die Zusammenarbeit mit mobilen Agenten wie Octopus V2 entwickelt wurde.

Durch die Trennung von Planung und Maßnahmenausführung erhöhen wir die Spezialisierung und Anpassungsfähigkeit. Unser Ansatz optimiert Phi-3 Mini, ein LLM mit 3,8 Milliarden Parametern, so, dass es nativ auf Edge-Geräten läuft und eine Erfolgsquote von 97 % bei domäneninternen Tests erreicht. Wir haben den Rechenaufwand reduziert, die Latenz und Batterielebensdauer verbessert und die Multi-LoRA-Technologie zur Skalierung der Modellfunktionen ohne vollständige Umschulung implementiert. Octo-Planner trägt zur Lösung von KI-Bereitstellungsproblemen bei, einschließlich Datenschutz, Latenz und Offline-Funktionen. Es stellt einen Schritt vorwärts hin zu praktischen, hochentwickelten KI-Agenten für persönliche Geräte dar.

Durch die offene Beschaffung unserer Modellgewichte wollen wir Innovationen in der On-Device-KI vorantreiben und die Entwicklung effizienter, die Privatsphäre respektierender Anwendungen erleichtern, die das tägliche Leben verbessern, ohne die Leistung oder Sicherheit zu beeinträchtigen.

7. Einschränkungen und zukünftige Arbeit

Während unser aktuelles Modell im spezifischen Anwendungsfall für Mobiltelefone effektiv funktioniert, weist es Einschränkungen hinsichtlich der breiteren Anwendbarkeit auf.

Im Gegensatz zu Frameworks wie ReAct, die auf der Grundlage von Echtzeit-Feedback zwischen Planungsschritten und der Ausführung von Aktionen wechseln, übernimmt unser Modell die gesamte Planung im Voraus. Dieser vorab geplante Ansatz ist bei der Bewältigung einfacher Aufgaben effizient, ist jedoch in komplexen oder unvorhersehbaren Szenarien, in denen sich die Bedingungen während der Ausführung ändern können, möglicherweise weniger anpassungsfähig.

Zukünftige Arbeiten werden sich auf die Erforschung iterativer Planungsmethoden konzentrieren, die auf Echtzeitbeobachtungen basieren, um die Anpassungsfähigkeit an dynamische Umgebungen zu verbessern. Wir planen außerdem, die Integration unseres Planungsmodells mit verschiedenen Aktionsmodellen zu untersuchen, um seine Fähigkeiten über mobile Anwendungen wie das Internet der Dinge, Robotik und Smart-Home-Systeme hinaus zu erweitern. Diese Fortschritte werden aktuelle Einschränkungen beseitigen, die Multifunktionalität unserer geräteinternen Planungsmodelle erweitern und die Lücke zwischen effizienter, lokalisierter KI-Verarbeitung und komplexen Anforderungen der realen Welt schließen.

Das obige ist der detaillierte Inhalt vonDas AI-Agent-Optimierungs-Framework für Endgeräte wird eingeführt, mit einer Genauigkeitsrate von bis zu 97 % im Feld.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!