全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務-人工智慧-PHP中文網

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年，本站AIxiv專欄接收通報了2,000多篇內容，涵蓋全球各大專院校與企業的頂尖實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或聯絡報道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

這篇文章的作者團隊來自於史丹佛大學，共同第一作者團隊Mert Yuks.S，Fedkianman, Josephalian, Liu, Liuek，Ftekekgonsr, Josephrion, Liu, Liu, Squieks，Friques, Josepheks，Frokian's課

Mert Yuksekgonul，史丹佛大學博士生，師從James Zou 和Carlos Guestrin教授。研究方向包括 AI系統自我優化以及其安全性和可靠性。

Federico Bianchi，Xyla AI 工程師，史丹佛大學博後，師從 Dan Jurafsky 和 James Zou教授。研究方向為機器學習和大語言模型的開發。

Joseph Boen，史丹佛大學博士生，師從James Zou，研究方向為AI在科學上的應用。

劉晟，美國史丹佛大學博後，師從 James Zou和 Lei Xing 教授，博士畢業於紐約大學資料科學和人工智慧。研究方向包括深度學習的安全性和可靠性，多模態大語言模型，以及AI在生物醫療方向應用。

黃治，現賓州大學教授，史丹佛大學博後。博士畢業於普渡大學。研究方向為生物醫學工程，AI在病理學的應用。

全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務

^{製作中梯度化？！最近，來自史丹佛大學的研究者，推出了全新的 TextGrad 框架，來高效協調和優化由大語言模型 (LLM) 等組件構成的 AI 系統，自動優化端到端任務性能。}

目前，用GPT-4o 作為引擎的TextGrad 優化後的AI 系統能實現：

全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務

LeetCode-Hard 最好的結果

GPQA SoTA
發現新的分子同時兼顧藥效和毒性等多個最佳化目標
設計出超過人工的癌症放射治療計劃

全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務 TextGrad website:

TextGrad paper: https://arxiv.org/abs/2406.07496
TextGrad Github：https://github.com/zou-group/textgrad
在訓練向複雜系統優化的典範轉移中，開發合成AI 系統的原則化自動優化方法成為當下最重要的新挑戰之一。如何有效率地協調優化大語言模型 (LLM) 等 AI 元件，自動最佳化端對端任務效能，成為當前最迫切的挑戰之一。要說 AI 界有多卷，還要看史丹佛大學。這兩天，史丹佛大學的研究者又放大招了，推出了全新的 TextGrad 框架，為這個難題提供了一個全新的解決方案。借鑒了同是史丹佛發布的 DSPy，融合了 PyTorch 的強大梯度反向傳播功能，實現自動優化複雜 AI 系統。本文將深入剖析 TextGrad 的核心理念與最佳化機制，探討它的廣大應用前景，並展望語言驅動優化的未來圖景。

核心思想

TextGrad 將 LLM 應用視為一個計算圖 (Computation Graph)，以自然語言為梯度媒介之間實現不同組件之間的 "LM 傳遞。透過從語言模型的輸出反向傳播文字回饋到所有可能的早期元件，來優化各種系統中的各種變數。在 TextGrad 中，一切都是文本，這意味著我們使用語言模型來 1）評估輸出，2）批評輸出，3）更新輸入。這個過程有點類似 PyTorch 的反向傳播，只不過傳播的不再是數值梯度，而是文字形式的回饋。

這種統一的語言互動介面賦予了 TextGrad 極強的普適性，它將 prompt、question、output 等都視為 variable，不要求其可微，具有超強的兼容性。 TextGrad 能和任意支援自然語言 I/O 的 LLM 或其它 API 無縫協作，也不要求計算圖中的其他函數可微。這使得它非常適合整合 retrieval、tool calling 等 plug-and-play 能力，建構靈活多變的複合 AI pipeline。 TextGrad 也不需要手工設計 prompt，自動搜尋最憂的任務描述直接參與最佳化。這讓開發者從 prompt engineering 中解放出來，有望自動找到更棒的 in-context learning 範式。

TextGrad 能做什麼？

全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務

1. 提示（prompt）工程透過 TextGrad 優化的 prompt，能將 GPT-3.5-turbor 的 QA 準確率從 78% 提升到了 92%，而且只需進行少量幾次的優化迭代。如果你想復現這個成果並進一步探索 TextGrad，TextGrad 團隊已經為你準備好了一個簡單的教學。

全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務

^中使用

2. 最佳化模型輸出除了更新模型的 prompt，模型的答案（response）以及文字表示的輸出，也能夠得到 TextGrad 的最佳化。上圖， TextGrad 優化了 LLM 產生的 LeetCode 問題的程式碼。

還有更多 AI for science 的應用！

藥物探索（Drug Discovery）

使用TextGrad，我們可以優化化學結構的兩個關鍵屬性：藥物相似性（即藥物在體內吸收的親和力即藥物與標靶蛋白結合的緊密程度）。藥物相似性以 QED 評分來衡量，範圍是 0 到 1，1 表示最符合藥物特性；結合親和力透過 Vina 評分來衡量，評分越負越好。

全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務

^{左圖：在 TextGrad 優化 10 次迭代前後的分子藥物相似性和結合親和力分佈，與針對相同目標蛋白的臨床批准藥物進行比較。右圖：TextGrad 優化 10 次迭代的範例軌跡，比較臨床核准藥物的特性。}

腫瘤放療治療計劃（Radiotherapy Treatment Planning）

TextGrad 也可以用精確治療部位

全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務

TextGrad 也可以用精確計劃來優化放射治療的部位。特別是，治療計劃的目標是將規定的輻射劑量傳遞到腫瘤，同時保護關鍵的正常組織免受不安全劑量的影響。醫生通常透過不斷試錯，反覆調整優化治療計劃，直到計劃符合臨床要求。這使得整個過程效率低、耗時且成本高。 TextGrad 則自動向 AI 主導的規劃系統提供梯度，優化放射治療計劃，自動權衡腫瘤和附近健康組織。

🎜🎜🎜🎜TextGrad 用語言打通了不同認知模組之間的屏障。它讓 LLM 參與了自己的迭代優化中，透過內省、評判、創造等 high-level 的認知能力實現持續進化。從本質上看，TextGrad 的意義遠不止於優化 pipeline 的性能，它向我們展示了一種透過語言實現 AI 自我認知、自我修正的可能性。這條「Language-Driven Optimization」的道路，或許也是目前許多「幻覺問題」的一劑良藥。 TextGrad 已經被應用到解決許多科學和醫學方面的問題！更多的應用等著你來探索和發現！ 🎜

以上是全新TextGrad框架：用GPT-4o作引擎，自動優化端對端任務的詳細內容。更多資訊請關注PHP中文網其他相關文章！