Jadual Kandungan
Apakah itu ejen AI?
Cabaran dalam amalan
Percubaan dunia sebenar
Rumah Peranti teknologi AI Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%

Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%

Jun 03, 2024 pm 06:38 PM
ai ejen

Selaras dengan evolusi berterusan dan inovasi kendiri model bahasa yang besar, prestasi, ketepatan dan kestabilan telah dipertingkatkan dengan banyak, yang telah disahkan oleh pelbagai set masalah penanda aras.

Namun, untuk versi LLM sedia ada, keupayaan komprehensif mereka nampaknya tidak dapat menyokong sepenuhnya ejen AI.

Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%


Inferens berbilang modal, berbilang tugas dan berbilang domain telah menjadi keperluan yang diperlukan untuk ejen AI dalam ruang media awam, tetapi kesan sebenar yang dipaparkan dalam amalan fungsi tertentu sangat berbeza. Ini nampaknya sekali lagi mengingatkan semua pemula robot AI dan gergasi teknologi besar untuk mengenali realiti: menjadi lebih sederhana, jangan menyebarkan gerai terlalu besar, dan mulakan dengan fungsi peningkatan AI.

Baru-baru ini, sebuah blog tentang jurang antara publisiti dan prestasi sebenar ejen AI menekankan satu perkara: "Ejen AI adalah gergasi dalam publisiti, tetapi realitinya sangat buruk Ayat ini menyatakan pandangan ramai orang dengan tepat." teknologi AI. Dengan kemajuan sains dan teknologi yang berterusan, AI telah dikurniakan banyak ciri dan kebolehan yang menarik perhatian Walau bagaimanapun, beberapa masalah sering berlaku dalam aplikasi praktikal dan

Latar belakang ejen AI autonomi dapat melaksanakan tugas yang kompleks telah menyebabkan. kebimbangan besar teruja. Dengan berinteraksi dengan alatan dan ciri luaran, LLM boleh melengkapkan aliran kerja berbilang langkah tanpa campur tangan manusia.

Tetapi ternyata lebih mencabar dari jangkaan.

Papan pendahulu WebArena ialah persekitaran rangkaian yang sebenar dan boleh dihasilkan semula untuk menilai prestasi ejen praktikal. Menanda aras prestasi ejen LLM pada tugas dunia sebenar menunjukkan bahawa model berprestasi terbaik pun mempunyai kadar kejayaan hanya 35.8%.

Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%

WebArena menilai keputusan penanda aras prestasi ejen LLM dalam tugasan sebenar: model StepP menunjukkan prestasi terbaik dalam penunjuk kadar kejayaan, mencapai 35.8%, manakala kejayaan GPT-4 yang terkenal Kadarnya mencapai hanya 14.9%.

Apakah itu ejen AI?

Istilah "ejen AI" tidak ditakrifkan sebenarnya, dan terdapat banyak kontroversi tentang apa sebenarnya ejen.

Ejen AI boleh ditakrifkan sebagai "LLM yang diberi kebolehan untuk bertindak (biasanya membuat panggilan fungsi dalam persekitaran RAG) untuk membuat keputusan peringkat tinggi tentang cara melaksanakan tugas dalam persekitaran

Pada masa ini, terdapat dua kaedah seni bina utama untuk membina ejen AI:

  1. Ejen tunggal: Satu model besar mengendalikan keseluruhan tugas dan membuat semua keputusan dan tindakan berdasarkan pemahaman konteks komprehensifnya. Kaedah ini mengambil kesempatan daripada kuasa kemunculan model besar dan mengelakkan kehilangan maklumat yang disebabkan oleh tugas yang mereput.
  2. Sistem berbilang ejen: Pecahkan tugas kepada subtugas, setiap subtugas dikendalikan oleh ejen yang lebih kecil dan lebih khusus. Daripada cuba menggunakan satu ejen am besar yang sukar dikawal dan diuji, seseorang boleh menggunakan banyak ejen yang lebih kecil untuk memilih strategi yang betul untuk subtugas tertentu. Pendekatan ini kadangkala perlu disebabkan oleh kekangan praktikal seperti pengehadan panjang tetingkap konteks atau keperluan untuk set kemahiran yang berbeza.

Secara teori, ejen tunggal dengan panjang konteks tidak terhingga dan perhatian yang sempurna adalah ideal. Disebabkan konteks yang lebih pendek, sistem berbilang ejen akan sentiasa berprestasi lebih teruk daripada satu sistem pada masalah tertentu.

Cabaran dalam amalan

Selepas menyaksikan banyak percubaan pada ejen AI, penulis percaya bahawa mereka masih terlalu awal, terlalu mahal, terlalu lambat dan tidak cukup dipercayai. Banyak syarikat permulaan ejen AI nampaknya sedang menunggu kejayaan model untuk memulakan perlumbaan untuk menghasilkan ejen mereka.

Prestasi ejen AI dalam aplikasi sebenar tidak cukup matang, yang ditunjukkan dalam masalah seperti output yang tidak tepat, prestasi yang tidak memuaskan, kos yang lebih tinggi, risiko pampasan dan ketidakupayaan untuk mendapatkan kepercayaan pengguna:

  • Kebolehpercayaan: LLM diketahui terdedah kepada halusinasi dan ketidakkonsistenan. Menyambungkan berbilang langkah AI boleh memburukkan lagi masalah ini, terutamanya untuk tugasan yang memerlukan output yang tepat.
  • Prestasi dan Kos: GPT-4, Gemini-1.5, dan Claude Opus berprestasi baik dengan panggilan alat/fungsi, tetapi ia masih perlahan dan mahal, terutamanya jika gelung dan percubaan semula automatik diperlukan.
  • Isu Undang-undang: Syarikat mungkin bertanggungjawab atas kesilapan ejen mereka. Dalam contoh baru-baru ini, Air Canada telah diarahkan untuk membayar pampasan kepada pelanggan yang telah diperdayakan oleh chatbot syarikat penerbangan itu.
  • Kepercayaan pengguna: Sifat "kotak hitam" ejen AI dan contoh serupa menyukarkan pengguna untuk memahami dan mempercayai output mereka. Memenangi kepercayaan pengguna akan menjadi sukar semasa tugas sensitif yang melibatkan pembayaran atau maklumat peribadi (seperti membayar bil, membeli-belah, dsb.).

Percubaan dunia sebenar

Pada masa ini, syarikat pemula berikut terlibat dalam bidang ejen AI, tetapi kebanyakannya masih dalam peringkat percubaan atau jemputan sahaja:

  • $350 juta dikumpul, tetapi akses masih sangat terhad.
  • MultiOn - Status pembiayaan tidak diketahui, pendekatan yang mengutamakan API mereka kelihatan menjanjikan.
  • HypeWrite - Mendapat $2.8J, bermula sebagai pembantu penulisan AI dan kemudian berkembang menjadi ejen.
  • minion.ai - pada mulanya menarik perhatian tetapi kini tidak aktif dengan hanya senarai menunggu.

Di antaranya, hanya MultiOn nampaknya mengikuti kaedah "memberi arahan dan memerhati pelaksanaannya", yang lebih konsisten dengan janji ejen AI.

Setiap syarikat lain menggunakan laluan RPA (rekod dan main semula), yang mungkin diperlukan pada peringkat ini untuk memastikan kebolehpercayaan.

Pada masa yang sama, beberapa syarikat besar turut membawakan keupayaan AI ke desktop dan penyemak imbas, dan nampaknya mereka akan mendapat penyepaduan AI asli pada peringkat sistem.

OpenAI mengumumkan apl desktop Mac mereka yang berinteraksi dengan skrin sistem pengendalian.

Di Google I/O, Google menunjukkan Gemini untuk mengautomasikan pulangan beli-belah.

Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%

Microsoft mengumumkan Copilot Studio, yang akan membolehkan pembangun membina robot ejen AI.

Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%

Demonstrasi teknikal ini mengagumkan, dan seseorang boleh menunggu dan melihat prestasi keupayaan ejen ini apabila ia dikeluarkan secara terbuka dan diuji dalam senario sebenar, dan bukannya terhad kepada kes demonstrasi yang dipilih dengan teliti.

Di manakah cara ejen AI akan pergi?

Pengarang menekankan: "Ejen AI telah terlalu digembar-gemburkan, dan kebanyakannya tidak bersedia untuk kegunaan kritikal misi

Namun, dengan kemajuan pesat model dan seni bina asas, dia berkata orang ramai masih boleh." berharap untuk melihat aplikasi praktikal yang lebih berjaya. .

Kaedah kerjasama manusia-mesin membolehkan manusia mengambil bahagian dalam menyelia dan mengendalikan kes-kes tepi.
  • Tetapkan jangkaan realistik berdasarkan kebolehan dan batasan semasa anda.
  • Dengan menggabungkan LLM yang dikekang ketat, data penilaian yang baik, penyeliaan kerjasama manusia-mesin dan kaedah kejuruteraan tradisional, adalah mungkin untuk mencapai keputusan yang boleh dipercayai dan baik dalam tugas yang kompleks seperti automasi.
  • Adakah ejen AI akan mengautomasikan tugas yang membosankan dan berulang seperti mengikis web, mengisi borang dan kemasukan data?

Pengarang: "Ya, benar-benar."

Jadi adakah ejen AI akan menempah percutian secara automatik tanpa campur tangan manusia?

Pengarang: "Tidak mungkin sekurang-kurangnya dalam masa terdekat."

Atas ialah kandungan terperinci Gembar-gembur dan realiti ejen AI: GPT-4 tidak dapat menyokongnya, dan kadar kejayaan tugasan sebenar adalah kurang daripada 15%. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1655
14
Tutorial PHP
1252
29
Tutorial C#
1226
24
Berapa bernilai bitcoin Berapa bernilai bitcoin Apr 28, 2025 pm 07:42 PM

Harga Bitcoin berkisar antara $ 20,000 hingga $ 30,000. 1. Harga Bitcoin telah berubah secara dramatik sejak tahun 2009, mencapai hampir $ 20,000 pada tahun 2017 dan hampir $ 60,000 pada tahun 2021. Harga dipengaruhi oleh faktor -faktor seperti permintaan pasaran, bekalan, dan persekitaran makroekonomi. 3. Dapatkan harga masa nyata melalui pertukaran, aplikasi mudah alih dan laman web. 4. Harga Bitcoin sangat tidak menentu, didorong oleh sentimen pasaran dan faktor luaran. 5. Ia mempunyai hubungan tertentu dengan pasaran kewangan tradisional dan dipengaruhi oleh pasaran saham global, kekuatan dolar AS, dan sebagainya. 6. Trend jangka panjang adalah yakin, tetapi risiko perlu dinilai dengan berhati-hati.

Platform perdagangan mata wang teratas yang manakah di dunia adalah versi terbaru dari Platform Perdagangan Top Top Top Platform perdagangan mata wang teratas yang manakah di dunia adalah versi terbaru dari Platform Perdagangan Top Top Top Apr 28, 2025 pm 08:09 PM

Sepuluh platform perdagangan cryptocurrency teratas di dunia termasuk Binance, OKX, Gate.io, Coinbase, Kraken, Huobi Global, Bitfinex, Bittrex, Kucoin dan Poloniex, yang semuanya menyediakan pelbagai kaedah perdagangan dan langkah -langkah keselamatan yang kuat.

Apakah sepuluh aplikasi perdagangan mata wang maya teratas? Kedudukan pertukaran mata wang digital terkini Apakah sepuluh aplikasi perdagangan mata wang maya teratas? Kedudukan pertukaran mata wang digital terkini Apr 28, 2025 pm 08:03 PM

Sepuluh pertukaran mata wang digital teratas seperti Binance, OKX, Gate.io telah meningkatkan sistem mereka, urus niaga yang pelbagai dan langkah -langkah keselamatan yang ketat.

Platform perdagangan mata wang digital yang boleh dipercayai. 10 mata wang mata wang digital teratas di dunia. 2025 Platform perdagangan mata wang digital yang boleh dipercayai. 10 mata wang mata wang digital teratas di dunia. 2025 Apr 28, 2025 pm 04:30 PM

Platform perdagangan mata wang digital yang boleh dipercayai: 1. Okx, 2. Binance, 3. Coinbase, 4. Kraken, 5. Huobi, 6. Kucoin, 7.

Platform perdagangan mata wang teratas yang manakah di dunia adalah antara sepuluh platform perdagangan mata wang teratas pada tahun 2025 Platform perdagangan mata wang teratas yang manakah di dunia adalah antara sepuluh platform perdagangan mata wang teratas pada tahun 2025 Apr 28, 2025 pm 08:12 PM

Sepuluh pertukaran cryptocurrency teratas di dunia pada tahun 2025 termasuk Binance, OKX, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex dan Poloniex, yang semuanya dikenali dengan jumlah dan keselamatan perdagangan mereka yang tinggi.

Decryption Gate.IO Strategy Upgrade: Bagaimana untuk mentakrifkan semula Pengurusan Aset Crypto di Memebox 2.0? Decryption Gate.IO Strategy Upgrade: Bagaimana untuk mentakrifkan semula Pengurusan Aset Crypto di Memebox 2.0? Apr 28, 2025 pm 03:33 PM

Memebox 2.0 mentakrifkan semula pengurusan aset crypto melalui seni bina yang inovatif dan kejayaan prestasi. 1) Ia menyelesaikan tiga titik kesakitan utama: silo aset, kerosakan pendapatan dan paradoks keselamatan dan kemudahan. 2) Melalui hab aset pintar, pengurusan risiko dinamik dan enjin peningkatan pulangan, kelajuan pemindahan rantaian, kadar hasil purata dan kelajuan tindak balas insiden keselamatan diperbaiki. 3) Menyediakan pengguna dengan visualisasi aset, automasi dasar dan integrasi tadbir urus, merealisasikan pembinaan semula nilai pengguna. 4) Melalui kerjasama ekologi dan inovasi pematuhan, keberkesanan keseluruhan platform telah dipertingkatkan. 5) Pada masa akan datang, kolam insurans kontrak pintar, ramalan integrasi pasaran dan peruntukan aset yang didorong AI akan dilancarkan untuk terus memimpin pembangunan industri.

Apakah platform perdagangan mata wang teratas? 10 pertukaran mata wang maya terkini Apakah platform perdagangan mata wang teratas? 10 pertukaran mata wang maya terkini Apr 28, 2025 pm 08:06 PM

Saat ini disenaraikan di antara sepuluh mata wang mata wang maya yang teratas: 1. Binance, 2 Okx, 3. Gate.io, 4. Perpustakaan duit syiling, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9.

Bagaimana untuk mengukur prestasi benang di C? Bagaimana untuk mengukur prestasi benang di C? Apr 28, 2025 pm 10:21 PM

Mengukur prestasi thread di C boleh menggunakan alat masa, alat analisis prestasi, dan pemasa tersuai di perpustakaan standard. 1. Gunakan perpustakaan untuk mengukur masa pelaksanaan. 2. Gunakan GPROF untuk analisis prestasi. Langkah -langkah termasuk menambah pilihan -pg semasa penyusunan, menjalankan program untuk menghasilkan fail gmon.out, dan menghasilkan laporan prestasi. 3. Gunakan modul Callgrind Valgrind untuk melakukan analisis yang lebih terperinci. Langkah -langkah termasuk menjalankan program untuk menghasilkan fail callgrind.out dan melihat hasil menggunakan kcachegrind. 4. Pemasa tersuai secara fleksibel dapat mengukur masa pelaksanaan segmen kod tertentu. Kaedah ini membantu memahami sepenuhnya prestasi benang dan mengoptimumkan kod.

See all articles