可「自主進化」的Agent？首個端到端智能體符號化訓練框架開源了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

可「自主進化」的Agent？首個端到端智能體符號化訓練框架開源了

王林

Jul 22, 2024 pm 02:25 PM

工程 ai agent 波形智能

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文主要作者來自智慧、浙江大學、波形北京航空航太大學。共同一作中，周王春澍是波形智能的共同創辦人和 CTO，歐翌昕是浙江大學碩士二年級，丁盛為北京航空航天大學四年級本科生。文章的通訊作者為周王春澍和薑昱辰，姜昱辰是波形智能的共同創辦人和 CEO。

隨著各類大模型 API 的迭代以及各類 AI Agent 框架的開源，基於大模型的智能體在學術界和工業界收穫了廣泛的關注、研究、和應用。

儘管基於大模型的智能體(AI Agent) 在很多場景都取得了不錯的效果，並且在一些場景下已經能夠實際落地應用，AI Agent 的研究和開發的進展仍然局限於“expert -centric”，或說“engineering-centric” 的範式中。也就是說，現在的 Agent 的創建和調校過程幾乎完全依賴人類專家 (演算法工程師) 的人力和經驗來設計智能體的 promtps, tools，和 workflow。這樣的過程費時費力，並且注定了無法使用海量資料對智能體的這些符號化元素進行學習和訓練。而大部分智能體依賴閉源的API 調用，無法對大模型基座本身進行優化，即使使用開源大模型，對模型基座本身的優化也在大部分AI 智能體的應用場景中受到資源、算力、穩定性等原因而無法實際進行。因此現在的智能體仍處於「專家系統」的發展階段。

眾所周知，神經網路成為機器學習 / 人工智慧的基礎範式的重要原因正是因為可以有效地使用海量資料進行訓練和優化，而不需要手工設計複雜的結構和學習演算法。因此，來自波形智能的研究人員認為，AI Agent 從以專家經驗為核心(expert-centric) 到以資料為核心(data-centric) 的轉變，將會是基於大模型的智能體的一個重要發展方向。

為了實現這個目標，來自波形智能的研究團隊借鑒連接主義訓練神經網路(connectionist learning) 的基本方式，即反向傳播和梯度下降，將AI Agent 和神經網路進行類比，使用文字和大模型建模損失函數、梯度、和優化器，模擬反向傳播和梯度下降演算法，實現對Agent 的端到端的符號化訓練演算法，建構了一套可以對AI 智能體進行端到端訓練的演算法框架，程式碼已經開源在GitHub。

可「自主進化」的Agent？首個端到端智能體符號化訓練框架開源了

論文地址：https://arxiv.org/pdf/2406.18532
碼倉庫：https://githubcno/aiwaves說，團隊首先將基於大模型的智能體解構為三個主要元素，即prompts, tools, 和agent pipeline (workflow)。接著，框架中將一個Agent 系統看作是一個「符號化」神經網絡，將Agent workflow 中的每一個node 看作是網絡中的一個layer，而將每個節點中的prompts 和tools 看作是這個layer 的weights，智能體的workflow/pipeline 則可視為網路的計算圖。這樣下來，智能體系統可以看作是一個權重從數字/ 張量空間變成離散符號空間(文字，代碼都是符號化的表示) 的神經網絡，而這種網絡的訓練自然也就可以參考傳統神經網路的最佳化方式，即反向傳播和梯度下降。

^{Rajah 1: Rajah 1: Rajah 1: Gambar rajah kerangka Pembelajaran Ejen Kepada}

membolehkan perambatan belakang tradisional dan keturunan kecerunan untuk mengendalikan ruang berat simbolik, rangka kerja pembelajaran simbolik agen menggunakan teks dan model besar + perkataan segera Model pendekatan kehilangan, fungsi kehilangan, proses perambatan belakang, kecerunan, dan pengoptimum berasaskan kecerunan. Khususnya, semasa proses perambatan ke hadapan, rangka kerja menyimpan input, berat dan output setiap lapisan dalam graf pengiraan. Seterusnya, melalui kaedah model besar + perkataan gesaan, input, output dan perihalan tugas keseluruhan sampel semasa digabungkan dalam kata gesaan, dan kemudian model bahasa besar mengeluarkan penilaian dan ringkasan penyiapan tugas sampel semasa. Penilaian/ringkasan yang diperolehi dalam bentuk teks, sama seperti kehilangan dalam rangkaian saraf, digunakan untuk mengukur kualiti penyiapan tugasan Pasukan penyelidik memanggilnya "kehilangan bentuk teks", iaitu kehilangan berasaskan bahasa.

Selepas itu, penyelidikan menggunakan model bahasa yang besar dan direka bentuk dengan teliti kejuruteraan kata cepat untuk menjana "refleksi" pada nod terakhir dalam proses ejen. Refleksi termasuk cara output model harus berubah untuk memenuhi keperluan dengan lebih baik, dan cara perkataan serta panggilan alat yang cepat harus dioptimumkan untuk membuat output berubah ke arah sedemikian. Kandungan ini betul-betul sama dengan peranan kecerunan dalam pengoptimuman rangkaian saraf Kedua-duanya mengandungi maklumat tentang cara parameter harus dilaraskan untuk meminimumkan kehilangan keseluruhan model Oleh itu, pasukan penyelidik memanggil refleksi ini "kecerunan teks". , kecerunan berasaskan bahasa.

Perkara seterusnya yang perlu dilakukan ialah mendapatkan kecerunan setiap lapisan dari belakang ke hadapan, yang penting untuk pengoptimuman rangkaian saraf. Diilhamkan oleh perambatan belakang formula berasaskan peraturan rantai dalam rangkaian saraf, penyelidik di Waveform Intelligence mensimulasikan peraturan rantaian pengoptimuman rangkaian saraf tradisional dengan satu set gesaan yang direka dengan teliti melalui teks dan model besar. Khususnya, set gesaan ini membenarkan model besar berdasarkan maklumat kecerunan lapisan sebelumnya (iaitu refleksi pada tugas yang dilakukan oleh lapisan sebelumnya) dan input, output dan berat lapisan ini (input ini adalah selaras sepenuhnya dengan parameter dalam formula perambatan belakang Sepadan), keluarkan refleksi pada penggunaan segera/alatan nod semasa, iaitu, kecerunan berasaskan bahasa lapisan semasa. Skim perambatan balik berasaskan teks ini membolehkan penyelidikan ini mendapatkan kecerunan parameter setiap nod/lapisan dalam ejen yang mengandungi berbilang nod dan aliran kerja yang kompleks, supaya setiap gesaan dan alat boleh dioptimumkan secara langsung untuk keseluruhan ejen , dengan itu mencapai pengoptimuman bersama hujung ke hujung.

Akhir sekali, selepas memperoleh kecerunan berasaskan bahasa bagi setiap set parameter, rangka kerja menggunakan pengoptimum berdasarkan model besar, menggunakan gesaan yang direka dengan teliti, perkataan gesaan dan panggilan alat untuk setiap lapisan dan kecerunan berasaskan teks . Sebagai input, gesaan dan alat yang dioptimumkan adalah output untuk mengemas kini parameter ejen.

Selain itu, rangka kerja juga menyokong pengoptimuman struktur rangkaian, iaitu aliran kerja ejen. Secara khusus, rangka kerja menyatakan aliran kerja ejen dalam bahasa pengaturcaraan tertentu, supaya "graf pengiraan" rangkaian ejen juga diproses menjadi pemberat simbolik. Kemudian, melalui pengoptimum berasaskan model besar yang direka secara berasingan, aliran kerja ejen dikemas kini menggunakan aliran kerja ejen semasa dan kecerunan dalam bentuk teks setiap nod dalam aliran kerja sebagai input. Ini boleh dibandingkan dengan penyelidikan berkaitan carian struktur rangkaian automatik dalam latihan rangkaian saraf. ...

可「自主進化」的Agent？首個端到端智能體符號化訓練框架開源了

^{Rajah 4 Keputusan eksperimen ejen} tugasan peringkat

Penyelidik Perisikan Bentuk Gelombang menilai algoritma pada satu siri penanda aras untuk model dan ejen besar, seperti yang ditunjukkan dalam Rajah 3 dan 4 Ia menunjukkan bahawa ejen simbolik pembelajaran telah meningkat dengan ketara pada pelbagai tugas berbanding dengan DSpy dan rangka kerja ejen tradisional tanpa keupayaan pembelajaran Dalam sesetengah tugas, ia juga boleh menggunakan GPT-3.5 untuk bersaing dengan rangka kerja ejen lain. Walau bagaimanapun, hanya menggunakan algoritma pengoptimuman automatik perkataan gesaan tempatan (AutoPE) berdasarkan model bahasa yang besar untuk perkataan gesaan dalam setiap nod dalam ejen tidak boleh mencapai hasil yang jelas. Di samping itu, seperti yang ditunjukkan dalam Rajah 5, dalam tugasan penulisan kreatif, algoritma telah berkembang secara bebas daripada agen nod tunggal awal yang hanya menulis berdasarkan satu perkataan gesaan kepada aliran kerja yang menyokong penulisan + penyuntingan, dan perkataan gesaan bagi menulis nod Dikemas kini dan dioptimumkan. S Rajah 5 Rangka Kerja Pembelajaran Simbolik Agen Kesan Kesan Pembelajaran (ambil tugasan penulisan kreatif sebagai contoh)

可「自主進化」的Agent？首個端到端智能體符號化訓練框架開源了

Pasukan penyelidik kecerdasan bentuk gelombang memperkenalkan dua senario aplikasi Pembelajaran Simbolik Agen. Pertama, rangka kerja itu boleh digunakan oleh pembangun atau penyelidik untuk mencipta dan menala sistem ejen. Seperti latihan rangkaian saraf, pembangun dan penyelidik boleh mengumpul (atau menggunakan penjanaan automatik yang disediakan dalam rangka kerja) sejumlah besar sampel untuk tugasan tertentu, dan kemudian menggunakan rangka kerja untuk melengkapkan latihan ejen "berpusatkan data" secara besar-besaran. jumlah data selepas latihan dan pengoptimuman, sama seperti penggunaan ejen biasa, ejen yang dioptimumkan digunakan secara statik dalam persekitaran pengeluaran.

Selain itu, satu lagi senario aplikasi penting rangka kerja ini adalah untuk menyokong Ejen yang boleh berkembang secara autonomi dalam persekitaran/interaksi. Khususnya, kerana rangka kerja latihan itu sendiri hanya perlu memanggil keupayaan model besar tanpa latihan dan penggunaan berasaskan GPU yang kompleks, Ejen boleh menggunakan rangka kerja latihan sebagai alat yang boleh dipanggil dengan meneroka persekitaran Atau dalam proses berinteraksi dengan manusia, ia secara berterusan mengumpul sampel latihan baharu, secara kerap atau aktif memanggil alatan algoritma untuk latihan ejen, dan mengemas kini gesaan, alatan dan aliran kerjanya sendiri. Waveform Intelligence juga menyokong logik penggunaan sedemikian dalam pangkalan kod sumber terbuka Ejen AIWaves, merealisasikan sistem ejen pertama yang boleh terus berkembang dan berulang secara bebas selepas digunakan pada produk dan persekitaran pengeluaran sebenar.

Rangka kerja Pembelajaran Simbolik Ejen menganggap AI Ejen sebagai "rangkaian saraf" simbolik yang disambungkan oleh gesaan dan alatan dalam aliran kerja yang kompleks Dengan mensimulasikan perambatan balik dan turunan kecerunan berdasarkan bahasa semula jadi, ia membolehkan Ejen berasaskan model berskala besar. boleh mengoptimumkan "parameter rangkaian" sendiri secara bebas, iaitu gesaan dan alatan, dan "struktur rangkaian", iaitu aliran kerja ejen, dengan itu mencapai kecerdasan yang boleh menggunakan sejumlah besar data dan pengalaman dengan cekap serta menjalankan "pembelajaran berpusatkan data. " Rangka kerja ejen membolehkan sistem ejen pintar yang boleh terus berkembang secara autonomi. Pada masa ini, rangka kerja ini telah memainkan peranan dalam pelbagai produk dan aplikasi Waveform Intelligence, menyelesaikan masalah pengoptimuman manual yang sukar dan penilaian Ejen. Untuk mempromosikan pembangunan dan penyelidikan "Ejen Berpusatkan Data" dan "Pembelajaran Agen", pasukan penyelidik Waveform Intelligence juga telah membuka sumber semua kod algoritma Kami menantikan kalangan akademik dan industri di lapangan daripada ejen pintar meneroka algoritma dan aplikasi yang lebih menarik bersama-sama.

以上是可「自主進化」的Agent？首個端到端智能體符號化訓練框架開源了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1280

C# 教程

1257

Related knowledge

ControlNet作者又出爆款！一張圖生成繪畫全過程，兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻，PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了！這次瞄準繪畫領域。新項目PaintsUndo剛上線不久，就收穫1.4kstar（還在瘋狂漲）。項目地址：https://github.com/lllyasviel/Paints-UNDO透過這個項目，用戶輸入一張靜態圖像，PaintsUndo就能自動幫你生成整個繪畫的全過程視頻，從線稿到成品都有跡可循。繪製過程，線條變化多端甚是神奇，最終視頻結果和原始圖像非常相似：我們再來看一個完整的繪

arXiv論文可以發「彈幕」了，史丹佛alphaXiv討論平台上線，LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯！當論文討論細緻到詞句，是什麼體驗？最近，史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv，可以直接在任何arXiv論文之上發布問題和評論。網站連結：https://alphaxiv.org/其實不需要專門訪問這個網站，只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文：可以精準定位到論文中的段落、句子：右側討論區，使用者可以發表問題詢問作者論文想法、細節，例如：也可以針對論文內容發表評論，例如：「給出至

登頂開源AI軟體工程師榜首，UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校（UIUC）張令明老師團隊，包括：StevenXia，四年級博士生，研究方向是基於AI大模型的自動代碼修復；鄧茵琳，四年級博士生，研究方

從RLHF到DPO再到TDPO，大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中，對大語言模型（LLM）的控制與指導始終是核心挑戰之一，旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法（RL

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂，你敢用嗎？隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。對於大型語言模型來說，我們也可以採用類似的方法。不過，在採用這種方法時，確保語言模型生

黎曼猜想显著突破！陶哲轩强推MIT、牛津新论文，37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近，被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題，與素數分佈的精確性質有關（素數是那些只能被1和自身整除的數字，它們在數論中扮演著基礎性的角色）。在當今的數學文獻中，已有超過一千個數學命題以黎曼猜想（或其推廣形式）的成立為前提。也就是說，黎曼猜想及其推廣形式一旦被證明，這一千多個命題將被確立為定理，對數學領域產生深遠的影響；而如果黎曼猜想被證明是錯誤的，那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

LLM用於時序預測真的不行，連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎？根據貝特里奇頭條定律（任何以問號結尾的新聞標題，都能夠用「不」來回答），答案應該是否定的。事實似乎也果然如此：強大如斯的LLM並不能很好地處理時序資料。時序，即時間序列，顧名思義，是指一組依照時間發生先後順序排列的資料點序列。在許多領域，時序分析都很關鍵，包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域，近期不少研究者都在研究如何使用大型語言模型（LLM）來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

首個基於Mamba的MLLM來了！模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的MLLM由众所周知的Transformer网络构成，这种网

See all articles

可「自主進化」的Agent？首個端到端智能體符號化訓練框架開源了

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題