Menschen haben die Fähigkeit, Werkzeuge zu schaffen und zu nutzen, die es uns ermöglichen, die Beschränkungen des Körpers zu durchbrechen und eine größere Welt zu erkunden.
Das Grundmodell der künstlichen Intelligenz ist ähnlich. Wenn Sie sich nur auf die während der Trainingsphase erhaltenen Gewichte verlassen, sind die Verwendungsszenarien sehr begrenzt. Das kürzlich vorgeschlagene Tool-Lernen kombiniert jedoch spezielle Tools Felder mit Durch die Kombination großer Grundmodelle können höhere Effizienz und Leistung erzielt werden.
Allerdings ist die aktuelle Forschung zum Tool-Learning nicht tiefgreifend genug und es mangelt an relevanten Open-Source-Daten und Code.
Vor Kurzem hat OpenBMB (Open Lab for Big Model Base), eine Open-Source-Community, die vom Natural Language Processing Laboratory der Tsinghua University und anderen unterstützt wird, das ToolBench-Projekt veröffentlicht, um Entwicklern zu helfen Erstellen Sie Open-Source-Daten in großem Umfang und hoher Qualität zur Befehlsoptimierung und fördern Sie die Erstellung umfangreicher Sprachmodelle mit der Möglichkeit, allgemeine Tools zu verwenden.
Repository-Link: https://github.com/OpenBMB/ToolBench
Das ToolBench-Warehouse stellt relevante Datensätze, Trainings- und Bewertungsskripte sowie das auf ToolBench abgestimmte Funktionsmodell ToolLLaMA bereit. Die spezifischen Funktionen sind:
# ?? -tool-Einstellung folgt dem AutoGPT-Tippstil. 2 Die Modellantwort umfasst nicht nur die endgültige Antwort, sondern auch den Gedankenkettenprozess, die Werkzeugausführung und die Ergebnisse der Werkzeugausführung#🎜🎜 ##🎜🎜 #
3. Unterstützt reale Komplexität und mehrstufige Toolaufrufe 4. Weltszenarien, wie Wetterinformationen, Suche, Bestandsaktualisierungen und PowerPoint-Automatisierung 5 Alle Daten werden automatisch von der OpenAI-API generiert und vom Entwicklungsteam gefiltert Erstellungsprozess Es ist einfach zu erweitern Es ist jedoch zu beachten, dass die derzeit veröffentlichten Daten nicht die endgültige Version sind und die Forscher die Daten noch nachbearbeiten um die Datenqualität zu verbessern und die Abdeckung realer Tools zu erhöhen. ToolBench Die allgemeine Idee von ToolBench besteht darin, große Sprachmodelle in überwachten Daten zu trainieren.Enthält 312.000 Mal das Lager Die 9800 aus echten API-Aufrufen erhaltenen Daten decken Einzeltool-Szenarien und Multitool-Szenarien ab. Im Folgenden finden Sie statistische Informationen zu Einzeltools.
Jede Datenzeile ist A JSON-Dikt, das Eingabeaufforderungsvorlagen für die Datenerstellung, menschliche Anweisungen (Abfragen) für die Werkzeugnutzung, Zwischengedanken-/Werkzeugausführungsschleifen und endgültige Antworten enthält.
Tool Descrition:BMTools Tool_name: translationTool action: get_translationaction_input: {"text": target texts, "tgt_lang": target language}Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max 7 times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}","observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}],"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}
Manuelle Bewertung: Wählen Sie zufällig 10 Abfragen aus den Bereichen Wetter, Karte, Bestand, Übersetzung, Chemie und WolframAlpha-Tools aus und bewerten Sie dann die Erfolgsquote des Tool-Aufrufprozesses, die endgültige Antwort und den Vergleich mit der endgültigen Antwort von ChatGPT.
ChatGPT-Auswertung: Automatische Auswertung von LLaMA- und ChatGPT-Antwort- und Tool-Nutzungsketten über ChatGPT.
Die Bewertungsergebnisse sind wie folgt (je höher die Punktzahl, desto besser). Es ist ersichtlich, dass ToolLLaMA in verschiedenen Szenarien die gleiche oder eine bessere Leistung erbringt als ChatGPT.
Werkzeuglernen
In einem von namhaften Hochschulen und Universitäten im In- und Ausland gemeinsam veröffentlichten Artikel, darunter der Tsinghua-Universität, der Renmin-Universität und der Universität für Post und Telekommunikation Peking, wird eine systematische Studie zum Tool-Lernen durchgeführt wurde durchgeführt und die Werkzeuge wurden vorgestellt, einschließlich kognitiver Ursprünge, Paradigmenwechsel in den zugrunde liegenden Modellen und der komplementären Rollen von Werkzeugen und Modellen.
Papierlink: https://arxiv.org/pdf/2304.08354 .pdfDer Artikel überprüft auch die bestehende Forschung zum Werkzeuglernen, einschließlich werkzeuggestütztem und werkzeugorientiertem Lernen, und formuliert einen allgemeinen Rahmen zum Werkzeuglernen: Ausgehend vom Verständnis von Benutzeranweisungen sollte das Modell lernen, eine komplexe Aufgabe in mehrere Unteraufgaben zu zerlegen. Passen Sie den Plan durch Argumentation dynamisch an und meistern Sie jede Teilaufgabe effizient, indem Sie die richtigen Werkzeuge auswählen.
In dem Artikel wird auch erläutert, wie Modelle trainiert werden, um die Werkzeugnutzungsfähigkeiten zu verbessern und die Popularisierung des Werkzeuglernens zu fördern.
Angesichts des Mangels an systematischer Bewertung des Tool-Lernens in früheren Arbeiten führten die Forscher Experimente mit 17 repräsentativen Tools durch und demonstrierten die Leistungsfähigkeit des aktuellen Basismodells von Werkzeugen.
Das Papier erörtert schließlich mehrere offene Probleme beim Lernen von Werkzeugen, die weiterer Forschung bedürfen, wie z. B. die Gewährleistung einer sicheren und vertrauenswürdigen Werkzeugnutzung, die Implementierung der Werkzeugerstellung mit Basismodellen und die Lösung personalisierter Lösungen Herausforderungen.
Referenz:
https://github.com/OpenBMB/ToolBench
Das obige ist der detaillierte Inhalt vonDie Tsinghua-Universität und andere Open-Source-'Tool-Learning-Benchmarks' ToolBench optimieren die Leistung des ToolLLaMA-Modells und übertreffen die Leistung von ChatGPT. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!