Inhaltsverzeichnis
Was ist ein KI-Agent?
Nachdem der Autor viele Versuche mit KI-Agenten miterlebt hat, glaubt er, dass diese noch zu früh, zu kostspielig, zu langsam und nicht zuverlässig genug sind. Viele KI-Agenten-Startups scheinen auf einen Modelldurchbruch zu warten, um den Wettlauf um die Produktion ihrer Agenten zu starten.
Real-World-Versuche
Welchen Weg werden KI-Agenten einschlagen?
Heim Technologie-Peripheriegeräte KI Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

Jun 03, 2024 pm 06:38 PM
ai 智能体

Im Einklang mit der kontinuierlichen Weiterentwicklung und Selbstinnovation großer Sprachmodelle wurden Leistung, Genauigkeit und Stabilität erheblich verbessert, was durch verschiedene Benchmark-Problemsätze bestätigt wurde.

Allerdings scheinen die umfassenden Funktionen bestehender Versionen von LLM nicht in der Lage zu sein, KI-Agenten vollständig zu unterstützen.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %


Multimodale, Multi-Task- und Multi-Domain-Inferenz sind zu notwendigen Anforderungen für KI-Agenten im öffentlichen Medienraum geworden, aber die tatsächlichen Auswirkungen, die sich in bestimmten funktionalen Praktiken zeigen, variieren stark. Dies scheint alle KI-Roboter-Startups und großen Technologieriesen noch einmal daran zu erinnern, die Realität zu erkennen: Seien Sie bodenständiger, verbreiten Sie den Stall nicht zu weit und beginnen Sie mit KI-Verbesserungsfunktionen.

Kürzlich wurde in einem Blog über die Kluft zwischen der Bekanntheit und der tatsächlichen Leistung von KI-Agenten ein Punkt hervorgehoben: „KI-Agenten sind ein Riese in der Werbung, aber die Realität ist sehr schlecht. Dieser Satz drückt genau die Ansichten vieler Menschen aus.“ KI-Technologie. Mit der kontinuierlichen Weiterentwicklung von Wissenschaft und Technologie wurde die KI mit vielen auffälligen Funktionen und Fähigkeiten ausgestattet. In praktischen Anwendungen treten jedoch häufig einige Probleme auf und

Der Hintergrund, dass autonome KI-Agenten komplexe Aufgaben ausführen können große Sorge aufgeregt. Durch die Interaktion mit externen Tools und Funktionen können LLMs mehrstufige Arbeitsabläufe ohne menschliches Eingreifen abschließen.

Aber es stellte sich heraus, dass es anspruchsvoller war als erwartet.

WebArena Leaderboard ist eine reale und reproduzierbare Netzwerkumgebung zur Bewertung der Leistung praktischer Agenten. Ein Benchmarking der Leistung von LLM-Agenten bei realen Aufgaben zeigte, dass selbst das leistungsstärkste Modell eine Erfolgsquote von nur 35,8 % aufwies.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

WebArena-Rangliste Benchmark-Ergebnisse der LLM-Agentenleistung bei realen Aufgaben: Das SteP-Modell schnitt beim Erfolgsratenindikator am besten ab und erreichte 35,8 %, während das bekannte GPT-4 die Erfolgsquote erreichte nur 14,9 %.

Was ist ein KI-Agent?

Der Begriff „KI-Agent“ ist nicht wirklich definiert und es gibt viele Kontroversen darüber, was genau ein Agent ist.

KI-Agent kann definiert werden als „ein LLM, dem die Fähigkeit gegeben wird, zu handeln (in der Regel Funktionsaufrufe in einer RAG-Umgebung durchzuführen), um Entscheidungen auf hoher Ebene darüber zu treffen, wie Aufgaben in der Umgebung ausgeführt werden.“ Derzeit gibt es zwei Hauptarchitekturmethoden zum Erstellen von KI-Agenten:

Einzelner Agent: Ein großes Modell übernimmt die gesamte Aufgabe und trifft alle Entscheidungen und Aktionen auf der Grundlage seines umfassenden Kontextverständnisses. Diese Methode nutzt die Emergenzleistung großer Modelle und vermeidet den durch Zerlegungsaufgaben verursachten Informationsverlust.

  1. Multi-Agenten-System: Unterteilen Sie die Aufgabe in Unteraufgaben. Jede Unteraufgabe wird von einem kleineren, spezialisierteren Agenten bearbeitet. Anstatt zu versuchen, einen großen Generalagenten einzusetzen, der schwer zu kontrollieren und zu testen ist, kann man viele kleinere Agenten einsetzen, um die richtige Strategie für eine bestimmte Teilaufgabe auszuwählen. Dieser Ansatz ist manchmal aufgrund praktischer Einschränkungen erforderlich, beispielsweise aufgrund von Einschränkungen bei der Länge des Kontextfensters oder der Notwendigkeit unterschiedlicher Fähigkeiten.
  2. Theoretisch ist ein einzelner Agent mit unendlicher Kontextlänge und perfekter Aufmerksamkeit ideal. Aufgrund des kürzeren Kontexts werden Multi-Agenten-Systeme bei einem bestimmten Problem immer schlechter abschneiden als ein einzelnes System.

Herausforderungen in der Praxis

Nachdem der Autor viele Versuche mit KI-Agenten miterlebt hat, glaubt er, dass diese noch zu früh, zu kostspielig, zu langsam und nicht zuverlässig genug sind. Viele KI-Agenten-Startups scheinen auf einen Modelldurchbruch zu warten, um den Wettlauf um die Produktion ihrer Agenten zu starten.

Die Leistung von KI-Agenten in tatsächlichen Anwendungen ist nicht ausgereift genug, was sich in Problemen wie ungenauer Ausgabe, unbefriedigender Leistung, höheren Kosten, Vergütungsrisiken und der Unfähigkeit, Benutzervertrauen zu gewinnen, widerspiegelt:

  • Zuverlässigkeit: Es ist bekannt, dass LLMs anfällig für Halluzinationen und Inkonsistenzen sind. Die Verbindung mehrerer KI-Schritte kann diese Probleme verschärfen, insbesondere bei Aufgaben, die eine präzise Ausgabe erfordern.
  • Leistung und Kosten: GPT-4, Gemini-1.5 und Claude Opus funktionieren gut mit Tools/Funktionsaufrufen, sind aber immer noch langsam und teuer, insbesondere wenn Schleifen und automatische Wiederholungsversuche erforderlich sind.
  • Rechtliche Fragen: Unternehmen können für die Fehler ihrer Vertreter haftbar gemacht werden. In einem aktuellen Beispiel wurde Air Canada dazu verurteilt, einen Kunden zu entschädigen, der durch den Chatbot der Fluggesellschaft in die Irre geführt wurde.
  • Benutzervertrauen: Der „Black-Box“-Charakter von KI-Agenten und ähnlichen Beispielen macht es für Benutzer schwierig, ihre Ergebnisse zu verstehen und ihnen zu vertrauen. Bei sensiblen Aufgaben, bei denen es um Zahlungen oder persönliche Daten geht (z. B. Rechnungen bezahlen, Einkaufen usw.), wird es schwierig sein, das Vertrauen der Benutzer zu gewinnen.

Real-World-Versuche

Aktuell engagieren sich folgende Startups im Bereich KI-Agenten, die meisten befinden sich jedoch noch im Experimentierstadium oder sind nur auf Einladung erhältlich:

  • adept.ai - 350 Millionen US-Dollar wurden gesammelt, aber der Zugang bleibt sehr begrenzt.
  • MultiOn – Finanzierungsstatus unbekannt, ihr API-First-Ansatz sieht vielversprechend aus.
  • HypeWrite – Bringt 2,8 Millionen US-Dollar ein, begann als KI-Schreibassistent und expandierte später zu Agenten.
  • minion.ai – erregte zunächst einige Aufmerksamkeit, ist aber jetzt inaktiv und es gibt nur noch eine Warteliste.

Unter ihnen scheint nur MultiOn die Methode des „Erteilens von Anweisungen und Beobachten ihrer Ausführung“ zu verfolgen, was eher dem Versprechen von KI-Agenten entspricht.

Alle anderen Unternehmen gehen den RPA-Weg (Record-and-Replay), der in dieser Phase möglicherweise notwendig ist, um die Zuverlässigkeit sicherzustellen.

Gleichzeitig bringen einige große Unternehmen auch KI-Funktionen auf den Desktop und den Browser, und es sieht so aus, als würden sie eine native KI-Integration auf Systemebene erhalten.

OpenAI hat seine Mac-Desktop-App angekündigt, die mit dem Betriebssystembildschirm interagiert.

Auf der Google I/O demonstrierte Google Gemini zur Automatisierung von Einkaufsretouren.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

Microsoft hat Copilot Studio angekündigt, mit dem Entwickler KI-Agentenroboter bauen können.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

Diese technischen Demonstrationen sind beeindruckend, und die Leute können abwarten und sehen, wie diese Agentenfunktionen funktionieren, wenn sie öffentlich veröffentlicht und in realen Szenarien getestet werden, anstatt sich auf sorgfältig ausgewählte Demonstrationsfälle zu beschränken.

Welchen Weg werden KI-Agenten einschlagen?

Der Autor betont: „KI-Agenten wurden überbewertet und die meisten sind noch nicht bereit für den geschäftskritischen Einsatz.“

Angesichts der schnellen Entwicklung grundlegender Modelle und Architekturen sagte er jedoch, dass die Menschen dies immer noch können Wir freuen uns auf weitere erfolgreiche Praxiseinsätze.

Der vielversprechendste Weg für KI-Agenten könnte so aussehen:

  • Der kurzfristige Schwerpunkt sollte auf der Erweiterung bestehender Tools durch KI liegen, anstatt eine breite Palette vollständig autonomer eigenständiger Dienste bereitzustellen.
  • Die Methode der Mensch-Maschine-Kollaboration ermöglicht es Menschen, sich an der Überwachung und Bearbeitung von Grenzfällen zu beteiligen.
  • Setzen Sie realistische Erwartungen basierend auf Ihren aktuellen Fähigkeiten und Einschränkungen.

Durch die Kombination eng begrenzter LLMs, guter Auswertungsdaten, kollaborativer Mensch-Maschine-Überwachung und traditioneller Engineering-Methoden ist es möglich, bei komplexen Aufgaben wie der Automatisierung zuverlässige und gute Ergebnisse zu erzielen.

Werden KI-Agenten mühsame und sich wiederholende Aufgaben wie Web Scraping, Formularausfüllen und Dateneingabe automatisieren?

Autor: „Ja, absolut.“

Wird ein KI-Agent also automatisch einen Urlaub ohne menschliches Eingreifen buchen?

Autor: „Zumindest in naher Zukunft unwahrscheinlich.“


Das obige ist der detaillierte Inhalt vonHype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1664
14
PHP-Tutorial
1268
29
C#-Tutorial
1240
24
Wie versteht man DMA -Operationen in C? Wie versteht man DMA -Operationen in C? Apr 28, 2025 pm 10:09 PM

DMA in C bezieht sich auf DirectMemoryAccess, eine direkte Speicherzugriffstechnologie, mit der Hardware -Geräte ohne CPU -Intervention Daten direkt an den Speicher übertragen können. 1) Der DMA -Betrieb ist in hohem Maße von Hardware -Geräten und -Treibern abhängig, und die Implementierungsmethode variiert von System zu System. 2) Direkter Zugriff auf Speicher kann Sicherheitsrisiken mitbringen, und die Richtigkeit und Sicherheit des Codes muss gewährleistet werden. 3) DMA kann die Leistung verbessern, aber eine unsachgemäße Verwendung kann zu einer Verschlechterung der Systemleistung führen. Durch Praxis und Lernen können wir die Fähigkeiten der Verwendung von DMA beherrschen und seine Wirksamkeit in Szenarien wie Hochgeschwindigkeitsdatenübertragung und Echtzeitsignalverarbeitung maximieren.

Wie benutze ich die Chrono -Bibliothek in C? Wie benutze ich die Chrono -Bibliothek in C? Apr 28, 2025 pm 10:18 PM

Durch die Verwendung der Chrono -Bibliothek in C können Sie Zeit- und Zeitintervalle genauer steuern. Erkunden wir den Charme dieser Bibliothek. Die Chrono -Bibliothek von C ist Teil der Standardbibliothek, die eine moderne Möglichkeit bietet, mit Zeit- und Zeitintervallen umzugehen. Für Programmierer, die in der Zeit gelitten haben.H und CTime, ist Chrono zweifellos ein Segen. Es verbessert nicht nur die Lesbarkeit und Wartbarkeit des Codes, sondern bietet auch eine höhere Genauigkeit und Flexibilität. Beginnen wir mit den Grundlagen. Die Chrono -Bibliothek enthält hauptsächlich die folgenden Schlüsselkomponenten: std :: chrono :: system_clock: repräsentiert die Systemuhr, mit der die aktuelle Zeit erhalten wird. std :: chron

Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Apr 30, 2025 pm 07:24 PM

Zu den integrierten Quantisierungstools am Austausch gehören: 1. Binance: Binance Futures Quantitatives Modul, niedrige Handhabungsgebühren und unterstützt AI-unterstützte Transaktionen. 2. OKX (OUYI): Unterstützt Multi-Account-Management und intelligentes Auftragsrouting und bietet Risikokontrolle auf institutioneller Ebene. Zu den unabhängigen quantitativen Strategieplattformen gehören: 3. 3Commas: Drag & drop-Strategiegenerator, geeignet für Multi-Plattform-Absicherungs-Arbitrage. 4. Viercy: Algorithmus-Strategie-Bibliothek auf professioneller Ebene, unterstützt maßgeschneiderte Risikoschwellen. 5. Pionex: Integrierte 16 voreingestellte Strategie, niedrige Transaktionsgebühr. Zu den vertikalen Domänen-Tools gehören: 6. CryptoHopper: Cloud-basierte quantitative Plattform, die 150 technische Indikatoren unterstützen. 7. Bitsgap:

Wie gehe ich mit einem hohen DPI -Display in C um? Wie gehe ich mit einem hohen DPI -Display in C um? Apr 28, 2025 pm 09:57 PM

Die Handhabung der hohen DPI -Anzeige in C kann in den folgenden Schritten erreicht werden: 1) Verstehen Sie DPI und Skalierung, verwenden Sie die Betriebssystem -API, um DPI -Informationen zu erhalten und die Grafikausgabe anzupassen. 2) Übereinstimmende Kompatibilität verarbeiten, plattformübergreifende Grafikbibliotheken wie SDL oder QT verwenden. 3) Leistungsoptimierung durchführen, die Leistung durch Cache, Hardwarebeschleunigung und dynamische Anpassung der Detail -Ebene verbessern; 4) Lösen Sie gemeinsame Probleme wie verschwommene Text- und Schnittstellenelemente sind zu klein und lösen Sie durch korrektes Anwenden der DPI -Skalierung.

Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Was ist eine Echtzeit-Betriebssystemprogrammierung in C? Apr 28, 2025 pm 10:15 PM

C bietet eine gute Leistung in der Programmierung von Echtzeit-Betriebssystemen (RTOs) und bietet eine effiziente Ausführungseffizienz und ein präzises Zeitmanagement. 1) C entsprechen den Anforderungen von RTOs durch direkten Betrieb von Hardwareressourcen und effizientem Speichermanagement. 2) Mit objektorientierten Funktionen kann C ein flexibles Aufgabenplanungssystem entwerfen. 3) C unterstützt eine effiziente Interrupt-Verarbeitung, aber die dynamische Speicherzuweisung und die Ausnahmeverarbeitung müssen vermieden werden, um Echtzeit zu gewährleisten. 4) Vorlagenprogrammierung und Inline -Funktionen helfen bei der Leistungsoptimierung. 5) In praktischen Anwendungen kann C verwendet werden, um ein effizientes Protokollierungssystem zu implementieren.

Wie misst ich die Thread -Leistung in C? Wie misst ich die Thread -Leistung in C? Apr 28, 2025 pm 10:21 PM

Durch die Messung der Thread -Leistung in C kann Timing -Tools, Leistungsanalyse -Tools und benutzerdefinierte Timer in der Standardbibliothek verwendet werden. 1. Verwenden Sie die Bibliothek, um die Ausführungszeit zu messen. 2. Verwenden Sie GPROF für die Leistungsanalyse. Zu den Schritten gehört das Hinzufügen der -PG -Option während der Kompilierung, das Ausführen des Programms, um eine Gmon.out -Datei zu generieren, und das Generieren eines Leistungsberichts. 3. Verwenden Sie das Callgrind -Modul von Valgrind, um eine detailliertere Analyse durchzuführen. Zu den Schritten gehört das Ausführen des Programms zum Generieren der Callgrind.out -Datei und das Anzeigen der Ergebnisse mit KCACHEGRIND. 4. Benutzerdefinierte Timer können die Ausführungszeit eines bestimmten Codesegments flexibel messen. Diese Methoden helfen dabei, die Thread -Leistung vollständig zu verstehen und den Code zu optimieren.

Eine effiziente Möglichkeit, Daten in MySQL einzufügen Eine effiziente Möglichkeit, Daten in MySQL einzufügen Apr 29, 2025 pm 04:18 PM

Effiziente Methoden für das Batch -Einfügen von Daten in MySQL gehören: 1. Verwenden von InsertInto ... Wertesyntax, 2. Verwenden von LoadDatainFile -Befehl, 3. Verwendung der Transaktionsverarbeitung, 4. Stapelgröße anpassen, 5. Deaktivieren Sie die Indexierung, 6. Verwenden Sie die Einfügung oder einfügen.

Wie benutze ich String -Streams in C? Wie benutze ich String -Streams in C? Apr 28, 2025 pm 09:12 PM

Die wichtigsten Schritte und Vorsichtsmaßnahmen für die Verwendung von String -Streams in C sind wie folgt: 1. Erstellen Sie einen Ausgangsstring -Stream und konvertieren Daten, z. B. Umwandlung von Ganzzahlen in Zeichenfolgen. 2. Anwenden Sie die Serialisierung komplexer Datenstrukturen wie die Umwandlung von Vektor in Zeichenfolgen. 3. Achten Sie auf Leistungsprobleme und vermeiden Sie die häufige Verwendung von Stressströmen bei der Verarbeitung großer Datenmengen. Sie können in Betracht ziehen, die Anhangmethode von STD :: String zu verwenden. 4. Achten Sie auf die Speicherverwaltung und vermeiden Sie häufige Erstellung und Zerstörung von String -Stream -Objekten. Sie können std :: stringstream wiederverwenden oder verwenden.

See all articles