AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
這篇文章的作者團隊來自於史丹佛大學,共同第一作者團隊Mert Yuks.S,Fedkianman, Josephalian, Liu, Liuek,Ftekekgonsr, Josephrion, Liu, Liu, Squieks,Friques, Josepheks,Frokian's課
Mert Yuksekgonul,史丹佛大學博士生,師從James Zou 和Carlos Guestrin教授。研究方向包括 AI系統自我優化以及其安全性和可靠性。
Federico Bianchi,Xyla AI 工程師, 史丹佛大學博後,師從 Dan Jurafsky 和 James Zou教授。研究方向為機器學習和大語言模型的開發。
Joseph Boen,史丹佛大學博士生,師從James Zou,研究方向為AI在科學上的應用。
劉晟,美國史丹佛大學博後,師從 James Zou和 Lei Xing 教授,博士畢業於紐約大學資料科學和人工智慧。研究方向包括深度學習的安全性和可靠性,多模態大語言模型, 以及AI在生物醫療方向應用。
黃治,現賓州大學教授, 史丹佛大學博後。博士畢業於普渡大學。研究方向為生物醫學工程,AI在病理學的應用。
製作中梯度化? !最近,來自史丹佛大學的研究者,推出了全新的 TextGrad 框架, 來高效協調和優化由大語言模型 (LLM) 等組件構成的 AI 系統,自動優化端到端任務性能。
目前,用GPT-4o 作為引擎的TextGrad 優化後的AI 系統能實現:
TextGrad website:
- TextGrad paper: https://arxiv.org/abs/2406.07496
- TextGrad Github:https://github.com/zou-group/textgrad
-
在訓練向複雜系統優化的典範轉移中,開發合成AI 系統的原則化自動優化方法成為當下最重要的新挑戰之一。如何有效率地協調優化大語言模型 (LLM) 等 AI 元件,自動最佳化端對端任務效能,成為當前最迫切的挑戰之一。要說 AI 界有多卷,還要看史丹佛大學。這兩天,史丹佛大學的研究者又放大招了,推出了全新的 TextGrad 框架,為這個難題提供了一個全新的解決方案。借鑒了同是史丹佛發布的 DSPy,融合了 PyTorch 的強大梯度反向傳播功能,實現自動優化複雜 AI 系統。本文將深入剖析 TextGrad 的核心理念與最佳化機制,探討它的廣大應用前景,並展望語言驅動優化的未來圖景。
TextGrad 將 LLM 應用視為一個計算圖 (Computation Graph),以自然語言為梯度媒介之間實現不同組件之間的 "LM 傳遞。透過從語言模型的輸出反向傳播文字回饋到所有可能的早期元件,來優化各種系統中的各種變數。在 TextGrad 中,一切都是文本,這意味著我們使用語言模型來 1)評估輸出,2)批評輸出,3)更新輸入。這個過程有點類似 PyTorch 的反向傳播,只不過傳播的不再是數值梯度,而是文字形式的回饋。 這種統一的語言互動介面賦予了 TextGrad 極強的普適性,它將 prompt、question、output 等都視為 variable,不要求其可微,具有超強的兼容性。 TextGrad 能和任意支援自然語言 I/O 的 LLM 或其它 API 無縫協作,也不要求計算圖中的其他函數可微。這使得它非常適合整合 retrieval、tool calling 等 plug-and-play 能力,建構靈活多變的複合 AI pipeline。 TextGrad 也不需要手工設計 prompt,自動搜尋最憂的任務描述直接參與最佳化。這讓開發者從 prompt engineering 中解放出來,有望自動找到更棒的 in-context learning 範式。
1. 提示(prompt)工程 透過 TextGrad 優化的 prompt,能將 GPT-3.5-turbor 的 QA 準確率從 78% 提升到了 92%,而且只需進行少量幾次的優化迭代。如果你想復現這個成果並進一步探索 TextGrad,TextGrad 團隊已經為你準備好了一個簡單的教學。
2. 最佳化模型輸出 除了更新模型的 prompt,模型的答案(response)以及文字表示的輸出,也能夠得到 TextGrad 的最佳化。上圖, TextGrad 優化了 LLM 產生的 LeetCode 問題的程式碼。 使用TextGrad,我們可以優化化學結構的兩個關鍵屬性:藥物相似性(即藥物在體內吸收的親和力即藥物與標靶蛋白結合的緊密程度)。藥物相似性以 QED 評分來衡量,範圍是 0 到 1,1 表示最符合藥物特性;結合親和力透過 Vina 評分來衡量,評分越負越好。
左圖:在 TextGrad 優化 10 次迭代前後的分子藥物相似性和結合親和力分佈,與針對相同目標蛋白的臨床批准藥物進行比較。右圖:TextGrad 優化 10 次迭代的範例軌跡,比較臨床核准藥物的特性。 腫瘤放療治療計劃(Radiotherapy Treatment Planning)
TextGrad 也可以用精確計劃來優化放射治療的部位。特別是,治療計劃的目標是將規定的輻射劑量傳遞到腫瘤,同時保護關鍵的正常組織免受不安全劑量的影響。醫生通常透過不斷試錯,反覆調整優化治療計劃,直到計劃符合臨床要求。這使得整個過程效率低、耗時且成本高。 TextGrad 則自動向 AI 主導的規劃系統提供梯度,優化放射治療計劃,自動權衡腫瘤和附近健康組織。 🎜🎜🎜🎜TextGrad 用語言打通了不同認知模組之間的屏障。它讓 LLM 參與了自己的迭代優化中,透過內省、評判、創造等 high-level 的認知能力實現持續進化。從本質上看,TextGrad 的意義遠不止於優化 pipeline 的性能,它向我們展示了一種透過語言實現 AI 自我認知、自我修正的可能性。這條 「Language-Driven Optimization」 的道路,或許也是目前許多 「幻覺問題」 的一劑良藥。 TextGrad 已經被應用到解決許多科學和醫學方面的問題!更多的應用等著你來探索和發現! 🎜
以上是全新TextGrad框架:用GPT-4o作引擎,自動優化端對端任務的詳細內容。更多資訊請關注PHP中文網其他相關文章!