AI를 사용하여 에이전트를 자동으로 설계하면 수학 점수가 25.9% 향상되어 수동 설계보다 훨씬 향상됩니다.-일체 포함-php.cn

Die Leistung des entdeckten ADAS-basierten Agenten übertrifft die von Hand entworfenen Basislinien auf dem neuesten Stand der Technik deutlich.

Grundlegende Modelle (FM) wie GPT und Claude werden zu einer starken Unterstützung für Allzweckagenten und werden zunehmend für eine Vielzahl von Argumentations- und Planungsaufgaben eingesetzt.

Bei der Lösung von Problemen werden jedoch in der Regel zusammengesetzte Agentensysteme mit mehreren Komponenten und keine monolithischen Modellabfragen benötigt. Darüber hinaus benötigen Agenten häufig Zugriff auf externe Tools wie Suchmaschinen, Codeausführung und Datenbankabfragen, damit sie komplexe reale Aufgaben lösen können.

Daher wurden viele wirksame Bausteine für Agentensysteme vorgeschlagen, wie z. B. Gedankenkettenplanung und Argumentation, Gedächtnisstrukturen, Werkzeugnutzung und Selbstreflexion. Obwohl diese Agenten in einer Vielzahl von Anwendungen bemerkenswerte Erfolge erzielt haben, erfordert die Entwicklung dieser Bausteine und deren Kombination zu komplexen Agentensystemen häufig eine domänenspezifische manuelle Abstimmung und erhebliche Anstrengungen von Forschern und Ingenieuren.

Die Geschichte des maschinellen Lernens zeigt jedoch, dass von Hand entworfene Lösungen irgendwann durch Lösungen ersetzt werden, die durch Modelle erlernt werden.

In diesem Artikel haben Forscher der University of British Columbia und der gemeinnützigen Forschungseinrichtung für künstliche Intelligenz Vector Institute ein neues Forschungsgebiet formuliert, nämlich das automatisierte Design von Agentensystemen (ADAS), und einen einfachen, aber effektiven ADAS-Algorithmus vorgeschlagen namens Meta Agent Search, um zu beweisen, dass Agenten durch Codeprogrammierung neuartige und leistungsstarke Agentendesigns erfinden können.

Diese Forschung zielt darauf ab, automatisch leistungsstarke Agentensystementwürfe zu erstellen, einschließlich der Entwicklung neuer Bausteine und deren Kombination auf neue Weise.

Experimente zeigen, dass die Leistung von Agenten, die auf der Grundlage von ADAS entdeckt wurden, die von Hand entworfenen Basislinien auf dem neuesten Stand der Technik deutlich übertrifft. Beispielsweise verbesserte der in diesem Artikel entwickelte Agent den F1-Score um 13,6/100 (im Vergleich zum Ausgangswert) bei der Leseverständnisaufgabe von DROP und verbesserte die Genauigkeit um 14,4 % bei der Mathematikaufgabe von MGSM. Darüber hinaus verbessert sich nach der domänenübergreifenden Übertragung ihre Genauigkeit bei GSM8K- und GSM-Hard-Matheaufgaben um 25,9 % bzw. 13,2 % gegenüber dem Ausgangswert.

Im Vergleich zu manuell entworfenen Lösungen schneidet der Algorithmus in diesem Artikel gut ab, was das Potenzial von ADAS beim Entwurf automatisierter Agentensysteme verdeutlicht. Darüber hinaus zeigen Experimente, dass die entdeckten Agenten nicht nur bei der Übertragung über ähnliche Domänen hinweg gut funktionieren, sondern auch bei der Übertragung über verschiedene Domänen hinweg, beispielsweise von der Mathematik zum Leseverständnis.

AI를 사용하여 에이전트를 자동으로 설계하면 수학 점수가 25.9% 향상되어 수동 설계보다 훨씬 향상됩니다.

Papieradresse: https://arxiv.org/pdf/2408.08435
Projektadresse: https://github.com/ShengranHu/ADAS
Papierhomepage: https:// www.shengranhu.com/ADAS/
Titel des Papiers: Automated Design of Agentic Systems

Neues Forschungsgebiet: Automated Design of Agentic Systems (ADAS)

Diese Studie schlägt ein neues Forschungsfeld vor – Automatisiert Design of Agentic Systems (ADAS) und beschreibt die drei Schlüsselkomponenten des ADAS-Algorithmus – Suchraum, Suchalgorithmus und Bewertungsfunktion. ADAS verwendet Suchalgorithmen, um Agentensysteme im gesamten Suchraum zu entdecken.

AI를 사용하여 에이전트를 자동으로 설계하면 수학 점수가 25.9% 향상되어 수동 설계보다 훨씬 향상됩니다.

Suchraum: Der Suchraum definiert, welche Agentensysteme in ADAS charakterisiert und entdeckt werden können. Beispielsweise ändert eine Arbeit wie PromptBreeder (Fernando et al., 2024) nur die Textaufforderungen des Agenten, während andere Komponenten (z. B. Kontrollfluss) unverändert bleiben. Daher ist es im Suchraum unmöglich, einen Agenten mit einem anderen Kontrollfluss als dem vordefinierten Kontrollfluss zu charakterisieren.

Suchalgorithmus: Der Suchalgorithmus definiert, wie der ADAS-Algorithmus den Suchraum erkundet. Da Suchräume oft sehr groß oder sogar unbegrenzt sind, sollte der Kompromiss zwischen Exploration und Exploitation in Betracht gezogen werden (Sutton & Barto, 2018). Im Idealfall kann dieser Algorithmus leistungsstarke Agentensysteme schnell erkennen und gleichzeitig vermeiden, in lokale Optima zu geraten. Bestehende Methoden umfassen die Verwendung von Reinforcement Learning (Zhuge et al., 2024) oder FM, das iterativ neue Lösungen generiert (Fernando et al., 2024) als Suchalgorithmen.

Bewertungsfunktion: Abhängig von der Anwendung des ADAS-Algorithmus müssen möglicherweise unterschiedliche Optimierungsziele berücksichtigt werden, beispielsweise die Leistung des Agenten, Kosten, Latenz oder Sicherheit. Die Bewertungsfunktion definiert, wie diese Metriken für einen Kandidatenagenten ausgewertet werden. Um beispielsweise die Leistung eines Agenten anhand unsichtbarer Daten zu bewerten, besteht ein einfacher Ansatz darin, die Genauigkeit anhand von Aufgabenvalidierungsdaten zu berechnen.

본 연구에서 제안하는 간단하지만 효과적인 ADAS 알고리즘의 핵심 개념인 메타 에이전트 검색은 메타 에이전트에게 흥미로운 새 에이전트를 반복적으로 생성하고 평가한 후 에이전트 저장소에 추가하고 이를 사용하도록 지시하는 것입니다. 메타 에이전트는 후속 반복에서 새롭고 더 흥미로운 에이전트를 만듭니다. 인간 관심의 개념을 활용하는 기존 개방형 알고리즘과 유사하게, 이 연구는 메타 에이전트 에이전트가 흥미롭고 가치 있는 에이전트를 탐색하도록 권장합니다.

메타 에이전트 검색의 핵심 아이디어는 FM을 검색 알고리즘으로 사용하여 성장하는 에이전트 저장소를 기반으로 흥미로운 새 에이전트를 반복적으로 프로그래밍하는 것입니다. 이 연구에서는 메타 에이전트에 대한 간단한 프레임워크(코드 100줄 이내)를 정의하여 FM 쿼리 또는 형식 지정 힌트와 같은 기본 기능 세트를 제공합니다.

따라서 메타 에이전트는 FunSearch(Romera-Paredes et al., 2024)에서 수행되는 것과 유사하게 새로운 에이전트 시스템을 정의하기 위해 "forward" 함수만 작성하면 됩니다. 작업 정보를 입력받아 해당 작업에 대한 에이전트의 응답을 출력하는 기능입니다.

그림 1과 같이 메타 에이전트 검색의 핵심 아이디어는 메타 에이전트가 코드에 새로운 에이전트를 반복적으로 프로그래밍하도록 하는 것입니다. 메타에이전트 프로그램 새 에이전트 프로그램에 대한 기본 프롬프트가 아래에 표시되어 있으며 프롬프트의 변수가 강조 표시되어 있습니다.

AI를 사용하여 에이전트를 자동으로 설계하면 수학 점수가 25.9% 향상되어 수동 설계보다 훨씬 향상됩니다.

Experiments

모든 실험 결과는 이 논문에서 발견된 에이전트가 기본적으로 손으로 디자인한 최첨단 에이전트보다 훨씬 뛰어난 성능을 보여줍니다. 특히, 본 연구에서 발견된 에이전트는 DROP 독해 과제에서 기준선 대비 13.6/100(F1 점수) 향상되었고, MGSM 수학 과제에서는 14.4%(정확도) 향상되었습니다. 또한, 연구진이 발견한 에이전트는 GPT-3.5에서 GPT-4로 마이그레이션한 후, MGSM 수학 작업에서 GSM8K 및 GSM-Hard로 마이그레이션한 경우 기준선 대비 ARC 작업에서 성능이 14%(정확도) 향상되었습니다. 수학 과제를 계속 수행한 후 정확도가 각각 25.9%, 13.2% 증가했습니다.

사례 연구: ARC Challenge

그림 3a에 표시된 것처럼 메타 에이전트 검색은 최신 수동 설계 에이전트보다 성능이 뛰어난 에이전트를 효율적이고 점진적으로 검색할 수 있습니다. 중요한 혁신 사항은 텍스트 상자에 강조 표시됩니다.

또한 그림 3b는 답변을 보다 효율적으로 개선하기 위해 복잡한 피드백 메커니즘이 사용된 최고의 에이전트를 보여줍니다. 검색 진행 상황을 자세히 살펴보면 이 복잡한 피드백 메커니즘이 갑자기 나타난 것이 아님을 알 수 있습니다.

AI를 사용하여 에이전트를 자동으로 설계하면 수학 점수가 25.9% 향상되어 수동 설계보다 훨씬 향상됩니다.

추론 및 문제 해결 도메인

여러 도메인에 걸친 결과는 메타 에이전트 검색이 SOTA가 직접 설계한 에이전트보다 더 나은 성능을 발휘하는 에이전트를 발견할 수 있음을 보여줍니다(표 1).

AI를 사용하여 에이전트를 자동으로 설계하면 수학 점수가 25.9% 향상되어 수동 설계보다 훨씬 향상됩니다.

일반화 및 전달 가능성

연구원들은 발견된 물질의 전달 가능성과 일반화 가능성을 추가로 입증했습니다.

표 2에서 볼 수 있듯이, 연구자들은 검색된 에이전트가 직접 디자인한 에이전트보다 항상 더 좋고, 그 차이가 크다는 것을 관찰했습니다. 연구원들은 Anthropic의 가장 강력한 모델인 Claude-Sonnet이 테스트된 모든 모델 중에서 가장 좋은 성능을 발휘하여 이 모델을 기반으로 하는 에이전트가 ARC에서 거의 50%의 정확도를 달성할 수 있음을 발견했다는 점은 주목할 가치가 있습니다.

AI를 사용하여 에이전트를 자동으로 설계하면 수학 점수가 25.9% 향상되어 수동 설계보다 훨씬 향상됩니다.