Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %-KI-php.cn

Inhaltsverzeichnis

Nachdem der Autor viele Versuche mit KI-Agenten miterlebt hat, glaubt er, dass diese noch zu früh, zu kostspielig, zu langsam und nicht zuverlässig genug sind. Viele KI-Agenten-Startups scheinen auf einen Modelldurchbruch zu warten, um den Wettlauf um die Produktion ihrer Agenten zu starten.

Real-World-Versuche

Welchen Weg werden KI-Agenten einschlagen?

Heim

Technologie-Peripheriegeräte

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

PHPz

Jun 03, 2024 pm 06:38 PM

ai 智能体

Im Einklang mit der kontinuierlichen Weiterentwicklung und Selbstinnovation großer Sprachmodelle wurden Leistung, Genauigkeit und Stabilität erheblich verbessert, was durch verschiedene Benchmark-Problemsätze bestätigt wurde.

Allerdings scheinen die umfassenden Funktionen bestehender Versionen von LLM nicht in der Lage zu sein, KI-Agenten vollständig zu unterstützen.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

Multimodale, Multi-Task- und Multi-Domain-Inferenz sind zu notwendigen Anforderungen für KI-Agenten im öffentlichen Medienraum geworden, aber die tatsächlichen Auswirkungen, die sich in bestimmten funktionalen Praktiken zeigen, variieren stark. Dies scheint alle KI-Roboter-Startups und großen Technologieriesen noch einmal daran zu erinnern, die Realität zu erkennen: Seien Sie bodenständiger, verbreiten Sie den Stall nicht zu weit und beginnen Sie mit KI-Verbesserungsfunktionen.

Kürzlich wurde in einem Blog über die Kluft zwischen der Bekanntheit und der tatsächlichen Leistung von KI-Agenten ein Punkt hervorgehoben: „KI-Agenten sind ein Riese in der Werbung, aber die Realität ist sehr schlecht. Dieser Satz drückt genau die Ansichten vieler Menschen aus.“ KI-Technologie. Mit der kontinuierlichen Weiterentwicklung von Wissenschaft und Technologie wurde die KI mit vielen auffälligen Funktionen und Fähigkeiten ausgestattet. In praktischen Anwendungen treten jedoch häufig einige Probleme auf und

Der Hintergrund, dass autonome KI-Agenten komplexe Aufgaben ausführen können große Sorge aufgeregt. Durch die Interaktion mit externen Tools und Funktionen können LLMs mehrstufige Arbeitsabläufe ohne menschliches Eingreifen abschließen.

Aber es stellte sich heraus, dass es anspruchsvoller war als erwartet.

WebArena Leaderboard ist eine reale und reproduzierbare Netzwerkumgebung zur Bewertung der Leistung praktischer Agenten. Ein Benchmarking der Leistung von LLM-Agenten bei realen Aufgaben zeigte, dass selbst das leistungsstärkste Modell eine Erfolgsquote von nur 35,8 % aufwies.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

WebArena-Rangliste Benchmark-Ergebnisse der LLM-Agentenleistung bei realen Aufgaben: Das SteP-Modell schnitt beim Erfolgsratenindikator am besten ab und erreichte 35,8 %, während das bekannte GPT-4 die Erfolgsquote erreichte nur 14,9 %.

Was ist ein KI-Agent?

Der Begriff „KI-Agent“ ist nicht wirklich definiert und es gibt viele Kontroversen darüber, was genau ein Agent ist.

KI-Agent kann definiert werden als „ein LLM, dem die Fähigkeit gegeben wird, zu handeln (in der Regel Funktionsaufrufe in einer RAG-Umgebung durchzuführen), um Entscheidungen auf hoher Ebene darüber zu treffen, wie Aufgaben in der Umgebung ausgeführt werden.“ Derzeit gibt es zwei Hauptarchitekturmethoden zum Erstellen von KI-Agenten:

Einzelner Agent: Ein großes Modell übernimmt die gesamte Aufgabe und trifft alle Entscheidungen und Aktionen auf der Grundlage seines umfassenden Kontextverständnisses. Diese Methode nutzt die Emergenzleistung großer Modelle und vermeidet den durch Zerlegungsaufgaben verursachten Informationsverlust.

Multi-Agenten-System: Unterteilen Sie die Aufgabe in Unteraufgaben. Jede Unteraufgabe wird von einem kleineren, spezialisierteren Agenten bearbeitet. Anstatt zu versuchen, einen großen Generalagenten einzusetzen, der schwer zu kontrollieren und zu testen ist, kann man viele kleinere Agenten einsetzen, um die richtige Strategie für eine bestimmte Teilaufgabe auszuwählen. Dieser Ansatz ist manchmal aufgrund praktischer Einschränkungen erforderlich, beispielsweise aufgrund von Einschränkungen bei der Länge des Kontextfensters oder der Notwendigkeit unterschiedlicher Fähigkeiten.
Theoretisch ist ein einzelner Agent mit unendlicher Kontextlänge und perfekter Aufmerksamkeit ideal. Aufgrund des kürzeren Kontexts werden Multi-Agenten-Systeme bei einem bestimmten Problem immer schlechter abschneiden als ein einzelnes System.

Herausforderungen in der Praxis

Nachdem der Autor viele Versuche mit KI-Agenten miterlebt hat, glaubt er, dass diese noch zu früh, zu kostspielig, zu langsam und nicht zuverlässig genug sind. Viele KI-Agenten-Startups scheinen auf einen Modelldurchbruch zu warten, um den Wettlauf um die Produktion ihrer Agenten zu starten.

Die Leistung von KI-Agenten in tatsächlichen Anwendungen ist nicht ausgereift genug, was sich in Problemen wie ungenauer Ausgabe, unbefriedigender Leistung, höheren Kosten, Vergütungsrisiken und der Unfähigkeit, Benutzervertrauen zu gewinnen, widerspiegelt:

Zuverlässigkeit: Es ist bekannt, dass LLMs anfällig für Halluzinationen und Inkonsistenzen sind. Die Verbindung mehrerer KI-Schritte kann diese Probleme verschärfen, insbesondere bei Aufgaben, die eine präzise Ausgabe erfordern.
Leistung und Kosten: GPT-4, Gemini-1.5 und Claude Opus funktionieren gut mit Tools/Funktionsaufrufen, sind aber immer noch langsam und teuer, insbesondere wenn Schleifen und automatische Wiederholungsversuche erforderlich sind.
Rechtliche Fragen: Unternehmen können für die Fehler ihrer Vertreter haftbar gemacht werden. In einem aktuellen Beispiel wurde Air Canada dazu verurteilt, einen Kunden zu entschädigen, der durch den Chatbot der Fluggesellschaft in die Irre geführt wurde.
Benutzervertrauen: Der „Black-Box“-Charakter von KI-Agenten und ähnlichen Beispielen macht es für Benutzer schwierig, ihre Ergebnisse zu verstehen und ihnen zu vertrauen. Bei sensiblen Aufgaben, bei denen es um Zahlungen oder persönliche Daten geht (z. B. Rechnungen bezahlen, Einkaufen usw.), wird es schwierig sein, das Vertrauen der Benutzer zu gewinnen.

Real-World-Versuche

Aktuell engagieren sich folgende Startups im Bereich KI-Agenten, die meisten befinden sich jedoch noch im Experimentierstadium oder sind nur auf Einladung erhältlich:

adept.ai - 350 Millionen US-Dollar wurden gesammelt, aber der Zugang bleibt sehr begrenzt.
MultiOn – Finanzierungsstatus unbekannt, ihr API-First-Ansatz sieht vielversprechend aus.
HypeWrite – Bringt 2,8 Millionen US-Dollar ein, begann als KI-Schreibassistent und expandierte später zu Agenten.
minion.ai – erregte zunächst einige Aufmerksamkeit, ist aber jetzt inaktiv und es gibt nur noch eine Warteliste.

Unter ihnen scheint nur MultiOn die Methode des „Erteilens von Anweisungen und Beobachten ihrer Ausführung“ zu verfolgen, was eher dem Versprechen von KI-Agenten entspricht.

Alle anderen Unternehmen gehen den RPA-Weg (Record-and-Replay), der in dieser Phase möglicherweise notwendig ist, um die Zuverlässigkeit sicherzustellen.

Gleichzeitig bringen einige große Unternehmen auch KI-Funktionen auf den Desktop und den Browser, und es sieht so aus, als würden sie eine native KI-Integration auf Systemebene erhalten.

OpenAI hat seine Mac-Desktop-App angekündigt, die mit dem Betriebssystembildschirm interagiert.

Auf der Google I/O demonstrierte Google Gemini zur Automatisierung von Einkaufsretouren.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

Microsoft hat Copilot Studio angekündigt, mit dem Entwickler KI-Agentenroboter bauen können.

Hype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %

Diese technischen Demonstrationen sind beeindruckend, und die Leute können abwarten und sehen, wie diese Agentenfunktionen funktionieren, wenn sie öffentlich veröffentlicht und in realen Szenarien getestet werden, anstatt sich auf sorgfältig ausgewählte Demonstrationsfälle zu beschränken.

Welchen Weg werden KI-Agenten einschlagen?

Der Autor betont: „KI-Agenten wurden überbewertet und die meisten sind noch nicht bereit für den geschäftskritischen Einsatz.“

Angesichts der schnellen Entwicklung grundlegender Modelle und Architekturen sagte er jedoch, dass die Menschen dies immer noch können Wir freuen uns auf weitere erfolgreiche Praxiseinsätze.

Der vielversprechendste Weg für KI-Agenten könnte so aussehen:

Der kurzfristige Schwerpunkt sollte auf der Erweiterung bestehender Tools durch KI liegen, anstatt eine breite Palette vollständig autonomer eigenständiger Dienste bereitzustellen.
Die Methode der Mensch-Maschine-Kollaboration ermöglicht es Menschen, sich an der Überwachung und Bearbeitung von Grenzfällen zu beteiligen.
Setzen Sie realistische Erwartungen basierend auf Ihren aktuellen Fähigkeiten und Einschränkungen.

Durch die Kombination eng begrenzter LLMs, guter Auswertungsdaten, kollaborativer Mensch-Maschine-Überwachung und traditioneller Engineering-Methoden ist es möglich, bei komplexen Aufgaben wie der Automatisierung zuverlässige und gute Ergebnisse zu erzielen.

Werden KI-Agenten mühsame und sich wiederholende Aufgaben wie Web Scraping, Formularausfüllen und Dateneingabe automatisieren?

Autor: „Ja, absolut.“

Wird ein KI-Agent also automatisch einen Urlaub ohne menschliches Eingreifen buchen?

Autor: „Zumindest in naher Zukunft unwahrscheinlich.“

Das obige ist der detaillierte Inhalt vonHype und Realität von KI-Agenten: GPT-4 kann dies nicht einmal unterstützen und die Erfolgsquote realer Aufgaben beträgt weniger als 15 %. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1673

CakePHP-Tutorial

1429

Laravel-Tutorial

1333

PHP-Tutorial

1278

C#-Tutorial

1257

Related knowledge

Quantitative Exchange -Ranking 2025 Top 10 Empfehlungen für digitale Währung Quantitative Handels -Apps Apr 30, 2025 pm 07:24 PM

Zu den integrierten Quantisierungstools am Austausch gehören: 1. Binance: Binance Futures Quantitatives Modul, niedrige Handhabungsgebühren und unterstützt AI-unterstützte Transaktionen. 2. OKX (OUYI): Unterstützt Multi-Account-Management und intelligentes Auftragsrouting und bietet Risikokontrolle auf institutioneller Ebene. Zu den unabhängigen quantitativen Strategieplattformen gehören: 3. 3Commas: Drag & drop-Strategiegenerator, geeignet für Multi-Plattform-Absicherungs-Arbitrage. 4. Viercy: Algorithmus-Strategie-Bibliothek auf professioneller Ebene, unterstützt maßgeschneiderte Risikoschwellen. 5. Pionex: Integrierte 16 voreingestellte Strategie, niedrige Transaktionsgebühr. Zu den vertikalen Domänen-Tools gehören: 6. CryptoHopper: Cloud-basierte quantitative Plattform, die 150 technische Indikatoren unterstützen. 7. Bitsgap:

EasProtocol.com implementiert den ISO 20022 -Nachrichtenstandard direkt als Blockchain -Smart -Vertrag Apr 30, 2025 pm 05:06 PM

Diese bahnbrechende Entwicklung wird es Finanzinstituten ermöglichen, den global anerkannten ISO20022 -Standard zu nutzen, um Bankverfahren über verschiedene Blockchain -Ökosysteme hinweg zu automatisieren. Das Easy Protocol ist eine Blockchain-Plattform auf Unternehmensebene, die die weit verbreitete Akzeptanz durch einfach zu verwendende Methoden fördert. Es gab heute bekannt, dass es den ISO20022 -Messaging -Standard erfolgreich integriert und direkt in Blockchain -Smart Contracts integriert hat. Diese Entwicklung wird es Finanzinstituten ermöglichen, Bankenprozesse in verschiedenen Blockchain -Ökosystemen mit dem global anerkannten ISO20022 -Standard zu automatisieren, der das Swift Messaging -System ersetzt. Diese Funktionen werden in Kürze auf "DEALETESTNET" ausprobiert. EasProtokolarchitektdou

Gibt es eine Zukunft für Apps für digitale Währung? Apple Mobile Digital Currency Trading Platform App Download Top10 Apr 30, 2025 pm 07:00 PM

Die Aussichten von Apps für digitale Währung sind breit, was sich speziell in: 1. technologische Upgrades für innovationsgetriebene Funktionen widerspiegelt und die Benutzererfahrung durch die Integration von Defi- und NFT- und KI- und Big-Data-Anwendungen verbessert. 2. Trends der Vorschriften, globale Rahmenverbesserungen und strengere Anforderungen für AML und KYC; 3.. Funktionsdiversifizierung und Serviceerweiterung, Integration von Krediten, Finanzmanagement und anderen Diensten und Optimierung der Benutzererfahrung; 4. Die Benutzerbasis und die globale Erweiterung und die Benutzerskala wird voraussichtlich im Jahr 2025 1 Milliarde überschreiten.

Fehlgeschlagene Crypto Exchange FTX ergriffen rechtliche Schritte gegen bestimmte Emittenten in den letzten Versuch Apr 30, 2025 pm 05:24 PM

In seinem jüngsten Versuch hat der entschlossene Crypto Exchange FTX rechtliche Schritte eingeleitet, um Schulden zurückzufordern und Kunden zurückzuzahlen. Bei den jüngsten Bemühungen, Schulden zurückzuerobern und Kunden zurückzuzahlen, hat der gelöste Crypto Exchange FTX rechtliche Schritte gegen bestimmte Emittenten eingereicht. FTX Trading und FTX Recovery Trust haben Klagen gegen bestimmte Token -Emittenten eingereicht, die ihre Vereinbarung über die Überweisung vereinbarter Münzen an die Börse nicht erfüllt haben. Insbesondere verklagte das Umstrukturierungsteam am Montag NFTStars Limited und Orosemi Inc. wegen Compliance -Problemen. FTX verklagt den Token -Emittenten, um die abgelaufenen Münzen zurückzufordern. FTX war einst eine der herausragendsten Kryptowährungs -Handelsplattformen in den USA. Die Bank berichtete im November 2022, dass ihr Gründer Sam

Was sind die drei Riesen im Währungskreis? Top 10 empfohlene Virtual Currency Main Exchange Apps Apr 30, 2025 pm 06:27 PM

Im Währungskreis bezieht sich die sogenannten Big Three normalerweise auf die drei einflussreichsten und weit verbreiteten Kryptowährungen. Diese Kryptowährungen spielen eine bedeutende Rolle auf dem Markt und haben sich in Bezug auf das Transaktionsvolumen und die Marktkapitalisierung gut entwickelt. Gleichzeitig ist die App Virtual Currency Exchange -App der Mainstream auch ein wichtiges Instrument für Anleger und Händler, um Kryptowährungshandel durchzuführen. In diesem Artikel werden die drei Riesen im Währungskreis und die zehn wichtigsten Virtual Currency Currency Exchange -Apps empfohlen.

Top 10 Kryptowährungsplattformen der Welt, die die Unterstützung von Multi-Chain-Transaktionen unterstützen, werden im Jahr 2025 maßgeblich veröffentlicht May 08, 2025 pm 07:15 PM

Nach den neuesten Bewertungen und Branchentrends von maßgeblichen Institutionen im Jahr 2025 sind die folgenden Top-zehn Kryptowährungsplattformen der Welt, die Multi-Chain-Transaktionen unterstützen und Transaktionsvolumen, technologische Innovation, Compliance und umfassende Reputation umfassen: umfassende Analyse:

KI und Komponist: Verbesserung der Codequalität und -entwicklung May 09, 2025 am 12:20 AM

In Composer verbessert AI die Entwicklungseffizienz und die Codesqualität hauptsächlich durch Abhängigkeitsempfehlung, Abhängigkeitskonfliktlösung und Verbesserung der Codequalität. 1. AI kann entsprechende Abhängigkeitspakete entsprechend den Projektanforderungen empfehlen. 2. AI bietet intelligente Lösungen, um mit Abhängigkeitskonflikten umzugehen. 3. AI überprüft den Code und bietet Optimierungsvorschläge zur Verbesserung der Codequalität. Durch diese Funktionen können sich Entwickler mehr auf die Implementierung der Geschäftslogik konzentrieren.

Top 10 Top -Apps für digitale Virtual Currency Trading Apps in 2025 Zusammenfassung der 10 Top 10 Digital Currency Exchange Apps May 08, 2025 pm 05:24 PM

Ranking der Top Ten Digital Virtual Currency Trading Apps im Jahr 2025: 1. Binance: Führung der Welt, bietet effiziente Transaktionen und eine Vielzahl von Finanzprodukten. 2. OKX: Es ist innovativ und vielfältig und unterstützt eine Vielzahl von Transaktionstypen. 3. Huobi: stabil und zuverlässig, mit hochwertigem Service. 4. Coinbase: Seien Sie freundlich für Anfänger und einfache Schnittstelle. 5. Kraken: Die erste Wahl für professionelle Händler mit leistungsstarken Tools. 6. Bitfinex: Effizienter Handel, reichhaltige Handelspaare. 7. Bittrex: Sicherheitsvorschriften, regulatorische Zusammenarbeit.

See all articles