


Agenten teilen sich die Arbeit auf und arbeiten wie Menschen zusammen und können auch über „Gruppenchat' Informationen austauschen.
Intelligente Agenten müssen auch über ein „Spezifikationshandbuch“ verfügen!
Eine Studie namens MetaGPT verbessert die Leistung von Agenten erheblich, indem sie die Rollen der Agenten klar aufteilt und von mehreren Agenten verlangt, in der Zusammenarbeit ein einheitliches und standardisiertes „Kommunikationsformat“ zu übernehmen.
Derzeit hat diese Forschung 33,6.000 Sterne auf GitHub gesammelt und wurde als mündlicher Vortrag auf der Top-Deep-Learning-Konferenz ICLR 2024 aufgenommen.
Im Allgemeinen ahmt MetaGPT die menschliche Arbeitsteilung und Zusammenarbeit nach, indem es die Standardarbeitsanweisungen verschiedener Aufgaben in einem „Spezifikationshandbuch“ für Agenten kodiert, und Agenten mit unterschiedlichen Rollen sind für unterschiedliche berufliche Aufgaben verantwortlich.
Zum Beispiel kann die Rolle des Produktmanagers Netzwerksuchtools verwenden, während die Rolle des Ingenieurs Code ausführen kann:
Auf diese Weise erledigt die Zusammenarbeit mehrerer Agenten Aufgaben.
Die Forscher richteten eine „Gruppe zum Teilen von Nachrichten“ für die Agenten ein, und die Agenten können relevante Nachrichten, die von anderen Agenten gesendet wurden, frei einsehen.
Nach Tests mit dieser Methode erreichte MetaGPT 85,9 % bzw. 87,7 % neue SOTA für die öffentlichen Datensätze HumanEval und MBPP für Code-Vervollständigungsaufgaben.
Diese Arbeit ist jetzt Open Source und hat die Aufmerksamkeit vieler Internetnutzer im Internet auf sich gezogen:
Wie sieht MetaGPT aus?
Diese Forschung wurde gemeinsam vom DeepWisdom-Team und Wissenschaftlern des KAUST AI Center, der Xiamen University, CUHK(SZ), der Nanjing University, UPenn, UCB und vielen anderen Universitäten und Institutionen vorgeschlagen.
Mit der kontinuierlichen Verbesserung der Fähigkeiten großer Modelle wächst das Interesse in Wissenschaft und Industrie daran, große modellbasierte Agenten zur Lösung verschiedener Aufgaben einzusetzen.
Es ist erwähnenswert, dass sich die Forschung zum Einsatz mehrerer Agenten zur Zusammenarbeit zur Lösung von Problemen in bestimmten Bereichen noch in einem frühen Stadium befindet. Die bestehende Forschung konzentriert sich hauptsächlich auf die Verbesserung des Aufgabenverständnisses und der Fähigkeit zur logischen Entscheidungsfindung durch Rollenspielmechanismen und Kommunikationstopologieeinstellungen. Trotz einiger Fortschritte basieren diese Methoden immer noch auf direkten Dialogformen und es fehlen Standardspezifikationen und Einschränkungen für das Agentenverhalten.
Einige neuere Arbeiten haben auch darauf hingewiesen, dass auf Dialog basierende Multiagentensysteme mit Problemen wie Informationsinkonsistenz, Mehrdeutigkeit und möglicherweise ungültigen Wiederholungen und Endlosschleifen konfrontiert sein können.
Im Gegensatz dazu legen Standardarbeitsanweisungen (SOPs) in menschlichen Arbeitsabläufen nicht nur die Arbeitsteilung und Topologie der beteiligten Rollen klar fest, sondern legen auch Standardspezifikationen für die Ausgabeergebnisse der Rolle fest.
Untersuchungen zeigen, dass klar definierte SOPs die Konsistenz und Genauigkeit der Aufgabenausführung verbessern und sicherstellen können, dass die Endergebnisse den erforderlichen Qualitätsstandards entsprechen. Um die Herausforderungen bei der Zusammenarbeit mehrerer Agenten zu lösen, haben Forscher daher MetaGPT entwickelt, ein großes modellbasiertes Agenten-Metaprogrammierungs-Framework.
MetaGPT erfordert, dass Agenten als Experten an der Zusammenarbeit teilnehmen und nach Bedarf strukturierte Ergebnisse generieren, z. B. hochwertige Anforderungsdokumente, Architekturentwurfsdiagramme, Flussdiagramme usw.
Die strukturierte Ausgabe ist eine übergeordnete Denkkette (Chain-of-Thought) für einen einzelnen Agenten und ein Kontext (Kontext) mit klarer Semantik und klaren Zielen für nachgelagerte Rollen.
Im Rahmen von MetaGPT richten Forscher die Konzepte von SOPs auf Rollenspezialisierung, Kommunikationsprotokolldesign und iteratives ausführbares Feedbackdesign aus.
Rollenspezialisierung
Mit klar definierten Rollen können komplexe Arbeiten in kleinere, spezifischere Aufgaben unterteilt werden.
Wie in der folgenden Abbildung dargestellt, werden Rollen verschiedener Berufe mit unterschiedlichen Zielen und Einschränkungen sowie unterschiedlichen beruflichen Fähigkeiten initialisiert. Beispielsweise kann die Rolle des Produktmanagers Websuchtools verwenden, während die Rolle des Ingenieurs Code ausführen kann. Gleichzeitig folgt jeder Charakter standardmäßig dem ReAct-Verhaltensmuster.
Die Rollenspezialisierung ermöglicht es jedem Agenten, sich auf bestimmte Aufgaben innerhalb seiner Domäne zu konzentrieren, wodurch die Ausgabequalität großer Modelle verbessert wird.
Bei der Softwareentwicklung vervollständigt diese Arbeitsteilung durch den Rollenfluss die Ausrichtung von natürlicher Sprache auf Programmiersprache geschickter. Das Zeichenablationsexperiment in der Arbeit beweist die Wirkung dieses Teils weiter.
Kommunikationsprotokolldesign
Obwohl natürliche Sprache über eine reichhaltige Semantik verfügt, kommt es aufgrund ihrer unstrukturierten Eigenschaften in praktischen Anwendungen häufig zu Informationsverzerrungen und sogar zum Verlust wichtiger Inhalte während des Nachrichtenübertragungsprozesses.
Um dieses Problem zu lösen, beschränkte der Autor den Agenten auf die Teilnahme an der Zusammenarbeit mit strukturierter Ausgabe (einschließlich Dokumenten und Diagrammen) , um die Klarheit und Vollständigkeit der Informationen zu verbessern. Um dieses Design zu verifizieren, entwarfen die Autoren eine Vielzahl von Softwareentwicklungsaufgaben, um die Wichtigkeit einer strukturierten Ausgabe in der Zusammenarbeit durch die Ausführbarkeit des generierten Codes und Produktivitätsindikatoren hervorzuheben.
Um die Kommunikationseffizienz bei der Zusammenarbeit mit mehreren Agenten zu verbessern, führt MetaGPT einen Publish-Subscribe-Mechanismus (Publish-Subscribe-Mechanismus) ein, der auf dem Teilen von Nachrichten basiert.
Wie in der Abbildung oben gezeigt, ermöglicht der gemeinsame Nachrichtenpool den direkten Austausch von Nachrichten, und jeder Agent kann transparent auf Nachrichten anderer Agenten zugreifen, ohne nach einer Antwort zu fragen und darauf zu warten. Der Abonnementmechanismus erhöht die Wahrscheinlichkeit, dass der Agent Informationen zu seinen eigenen Aufgaben erhält und nicht durch irrelevante Details abgelenkt wird. Gleichzeitig kann jeder Agent die erforderlichen Informationen direkt aus dem gemeinsam genutzten Nachrichtenpool abrufen, um einen Eigenspeicher zu bilden.
Ausführbares Feedback
Der Agent optimiert sich selbst und aktualisiert sich aktiv basierend auf dem Umgebungsfeedback, das eine Manifestation des autonomen Bewusstseins des Agenten ist.
Bei Softwareentwicklungsaufgaben entwirft MetaGPT einen ausführbaren Feedbackmechanismus für Ingenieuragenten, um die Codequalität automatisch zu optimieren.
Konkret schreiben und führen Ingenieure entsprechende Unit-Testfälle aus und treffen Entscheidungen und Selbstansagen rekursiv anhand der beobachteten Ausführungsergebnisse, um ein automatisches Debuggen zu erreichen. Dieser iterative Prozess des Design-Test-Feedbacks wird fortgesetzt, bis der Komponententest erfolgreich ist oder die maximale Anzahl von Wiederholungsversuchen erreicht ist.
Mehrere Benchmarks zum Testen des neuen SOTA
In Bezug auf die Codegenerierungsfähigkeiten verwendeten die Forscher zwei öffentliche Benchmark-Datensätze: HumanEval und MBPP und meldeten den Pass@1-Indikator.
Darüber hinaus sammelten sie auch den SoftwareDev-Datensatz, der 70 typische Softwareentwicklungsaufgaben abdeckt (wie Minispiele, Datenvisualisierung, Bildverarbeitung usw.) , und führten einen Vergleich mehrerer Open-Source-Frameworks für Agenten durch Im Vergleich mehrerer Software wurden statistische Analysen und qualitative Beschreibungen zur Ausführbarkeit und Produktionseffizienz von Entwicklungsaufgaben durchgeführt.
Wie in der Abbildung unten gezeigt, übertrifft MetaGPT frühere Methoden sowohl im HumanEval- als auch im MBPP-Benchmark und erreicht 85,9 % bzw. 87,7 %. Im Vergleich zu den Ergebnissen von GPT-4 weist MetaGPT eine relative Verbesserung von 28,2 % gegenüber dem HumanEval-Datensatz auf, und das Hinzufügen eines ausführbaren Feedback-Mechanismus hat zu einer Verbesserung von 4,2 % bzw. 5,4 % bei HumanEval und MBPP geführt.
Auf dem anspruchsvollen SoftwareDev-Datensatz erreicht MetaGPT einen Ausführbarkeitswert von 3,75, sehr nahe an 4, und benötigt gleichzeitig eine kürzere Laufzeit (503 Sekunden) ; hat sich um das 2,24-fache erhöht, während die Anzahl der pro Codezeile verbrauchten Token um 50 % gesunken ist.
Diese Ergebnisse verdeutlichen die Effizienzverbesserungen, die SOPs bei der Zusammenarbeit mehrerer Agenten mit sich bringen.
MetaGPTs hohe Ausführbarkeit und relativ kurze Laufzeit bei Softwareentwicklungsaufgaben beweisen seine Praktikabilität und Effizienz in realen Anwendungen.
Forscher konzentrieren sich auf den Bereich Softwareentwicklung und liefern einen qualitativen Vergleich der Fähigkeiten verschiedener Agenten-Frameworks.
Sie fanden heraus, dass MetaGPT nicht nur die Fähigkeit besitzt, Dateien in mehreren Modi zu generieren, sondern auch das einzige Open-Source-Framework unter vielen aktuellen Frameworks ist, das den Softwareentwicklungsprozess in der realen Welt vollständig abdeckt.
Im Allgemeinen ist MetaGPT ein neuartiges Multi-Agenten-Framework, das Metaprogrammierungsideen kombiniert und SOPs einbettet, um die Fähigkeiten großer Modelle in der Multi-Agenten-Zusammenarbeit zu verbessern.
Durch Rollenspezialisierung, Workflow-Management und flexible Messaging-Mechanismen wird es zu einem Multi-Agenten-Framework mit hoher Vielseitigkeit und Portabilität.
In Kombination mit einem iterativen Feedback-Mechanismus hat MetaGPT bei mehreren Benchmark-Tests die SOTA-Leistung erreicht.
SOPs in Kombination mit menschlicher sozialer Praxis inspirieren zukünftige Forschung und Erforschung der Multi-Agenten-Gesellschaft und können auch als früher Versuch angesehen werden, Multi-Agenten-Frameworks auf der Grundlage großer Modelle zu regulieren.
Papier-Link: https://arxiv.org/abs/2308.00352
Code-Link: https://github.com/geekan/MetaGPT
Das obige ist der detaillierte Inhalt vonAgenten teilen sich die Arbeit auf und arbeiten wie Menschen zusammen und können auch über „Gruppenchat' Informationen austauschen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

0.Was bewirkt dieser Artikel? Wir schlagen DepthFM vor: ein vielseitiges und schnelles generatives monokulares Tiefenschätzungsmodell auf dem neuesten Stand der Technik. Zusätzlich zu herkömmlichen Tiefenschätzungsaufgaben demonstriert DepthFM auch hochmoderne Fähigkeiten bei nachgelagerten Aufgaben wie dem Tiefen-Inpainting. DepthFM ist effizient und kann Tiefenkarten innerhalb weniger Inferenzschritte synthetisieren. Lassen Sie uns diese Arbeit gemeinsam lesen ~ 1. Titel der Papierinformationen: DepthFM: FastMonocularDepthEstimationwithFlowMatching Autor: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Die Zielerkennung ist ein relativ ausgereiftes Problem in autonomen Fahrsystemen, wobei die Fußgängererkennung einer der ersten Algorithmen ist, die eingesetzt werden. In den meisten Arbeiten wurde eine sehr umfassende Recherche durchgeführt. Die Entfernungswahrnehmung mithilfe von Fischaugenkameras für die Rundumsicht ist jedoch relativ wenig untersucht. Aufgrund der großen radialen Verzerrung ist es schwierig, die standardmäßige Bounding-Box-Darstellung in Fischaugenkameras zu implementieren. Um die obige Beschreibung zu vereinfachen, untersuchen wir erweiterte Begrenzungsrahmen-, Ellipsen- und allgemeine Polygondesigns in Polar-/Winkeldarstellungen und definieren eine mIOU-Metrik für die Instanzsegmentierung, um diese Darstellungen zu analysieren. Das vorgeschlagene Modell „fisheyeDetNet“ mit polygonaler Form übertrifft andere Modelle und erreicht gleichzeitig 49,5 % mAP auf dem Valeo-Fisheye-Kameradatensatz für autonomes Fahren

Ich weine zu Tode. Die Daten im Internet reichen überhaupt nicht aus. Das Trainingsmodell sieht aus wie „Die Tribute von Panem“, und KI-Forscher auf der ganzen Welt machen sich Gedanken darüber, wie sie diese datenhungrigen Esser ernähren sollen. Dieses Problem tritt insbesondere bei multimodalen Aufgaben auf. Zu einer Zeit, als sie ratlos waren, nutzte ein Start-up-Team der Abteilung der Renmin-Universität von China sein eigenes neues Modell, um als erstes in China einen „modellgenerierten Datenfeed selbst“ in die Realität umzusetzen. Darüber hinaus handelt es sich um einen zweigleisigen Ansatz auf der Verständnisseite und der Generierungsseite. Beide Seiten können hochwertige, multimodale neue Daten generieren und Datenrückmeldungen an das Modell selbst liefern. Was ist ein Modell? Awaker 1.0, ein großes multimodales Modell, das gerade im Zhongguancun-Forum erschienen ist. Wer ist das Team? Sophon-Motor. Gegründet von Gao Yizhao, einem Doktoranden an der Hillhouse School of Artificial Intelligence der Renmin University.

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil
