全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务-人工智能-PHP中文网

首页

科技周边

人工智能

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 11, 2024 pm 03:46 PM

产业斯坦福大学

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该文章的作者团队来自于斯坦福大学，共同第一作者团队Mert Yuksekgonul，Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang

Mert Yuksekgonul，斯坦福大学博士生，师从James Zou 和 Carlos Guestrin教授。研究方向包括 AI系统自我优化以及其安全性和可靠性。

Federico Bianchi，Xyla AI 工程师，斯坦福大学博后，师从 Dan Jurafsky 和 James Zou教授。研究方向为机器学习和大语言模型的开发。

Joseph Boen，斯坦福大学博士生，师从James Zou，研究方向为AI在科学中的应用。

刘晟，美国斯坦福大学博后，师从 James Zou和 Lei Xing 教授，博士毕业于纽约大学数据科学和人工智能。研究方向包括深度学习的安全性和可靠性，多模态大语言模型，以及AI在生物医疗方向应用。

黄治，现宾夕法尼亚大学教授，斯坦福大学博后。博士毕业于普渡大学。研究方向为生物医学工程，AI在病理学的应用。

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

^{TextGrad 团队}

用文本做梯度下降？！最近，来自斯坦福大学的研究者，推出了全新的 TextGrad 框架，来高效协调和优化由大语言模型 (LLM) 等组件构成的 AI 系统，自动优化端到端任务性能。

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

目前，用 GPT-4o 作为引擎的 TextGrad 优化后的 AI 系统能实现：

LeetCode-Hard 最好的结果
GPQA SoTA
发现新的分子同时兼顾药效和毒性等多个优化目标
设计出超过人工的癌症放疗计划

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

TextGrad website: http://www.textgrad.com/
TextGrad paper: https://arxiv.org/abs/2406.07496
TextGrad Github：https://github.com/zou-group/textgrad

生成式人工智能正处于从单一模型训练向复杂系统优化的范式转变中，开发合成 AI 系统的原则化自动优化方法成为当下最重要的新挑战之一。如何高效协调优化大语言模型 (LLM) 等 AI 组件，自动优化端到端任务性能，成为当前最紧迫的挑战之一。要说 AI 界有多卷，还得看斯坦福大学。这两天，斯坦福大学的研究者们又放大招了，推出了全新的 TextGrad 框架，为这一难题提供了一种全新的解决方案。借鉴了同是斯坦福发布的 DSPy，融合了 PyTorch 的强大梯度反向传播功能，实现自动优化复杂 AI 系统。本文将深入剖析 TextGrad 的核心理念和优化机制，探讨它的广阔应用前景，展望语言驱动优化的未来图景。

核心思想

TextGrad 将 LLM 应用视为一个计算图 (Computation Graph)，以自然语言为媒介实现不同组件之间的 "梯度" 传递。通过从语言模型的输出中反向传播文本反馈到所有可能的早期组件，来优化各种系统中的各种变量。在 TextGrad 中，一切都是文本，这意味着我们使用语言模型来 1）评估输出，2）批评输出，3）更新输入。这一过程有点类似于 PyTorch 的反向传播，只不过传播的不再是数值梯度，而是文本形式的反馈。

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

这种统一的语言交互界面赋予了 TextGrad 极强的普适性，它将 prompt、question、output 等都视为 variable，不要求其可微，具有超强的兼容性。TextGrad 能和任意支持自然语言 I/O 的 LLM 或者其它 API 无缝协作，也不要求计算图中的其他函数可微。这使得它非常适合集成 retrieval、tool calling 等 plug-and-play 能力，构建灵活多变的复合 AI pipeline。TextGrad 也不需要手工设计 prompt，自动搜索最忧的任务描述直接参与优化。这让开发者从 prompt engineering 中解放出来，有望自动找到更棒的 in-context learning 范式。

TextGrad 能做什么？

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

1. 提示（prompt）工程通过 TextGrad 优化的 prompt，能将 GPT-3.5-turbor 的 QA 准确率从 78% 提升到了 92%，而且只需进行少量几次的优化迭代。如果你想复现这个成果并进一步探索 TextGrad，TextGrad 团队已经为你准备好了一个简单的教程。

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

^{TextGrad 能被非常简单方便地应用到 prompt engineer（提示工程）上。}

2. 优化模型输出除了更新模型的 prompt，模型的回答（response）以及文字表示的输出，也能够得到 TextGrad 的优化。上图， TextGrad 优化了 LLM 生成的 LeetCode 问题的代码。

还有更多 AI for science 的应用！

药物探索（Drug Discovery）

使用 TextGrad，我们可以优化化学结构的两个关键属性：药物相似性（即药物在体内吸收的难易程度）和结合亲和力（即药物与靶蛋白结合的紧密程度）。药物相似性通过 QED 评分来衡量，范围是 0 到 1，1 表示最符合药物特性；结合亲和力通过 Vina 评分来衡量，评分越负越好。

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

^{左图：在 TextGrad 优化 10 次迭代前后的分子药物相似性和结合亲和力分布，与针对相同靶蛋白的临床批准药物进行比较。右图：TextGrad 优化 10 次迭代的示例轨迹，比较临床批准药物的属性。}

肿瘤放疗治疗计划（Radiotherapy Treatment Planning）

TextGrad 也可以用来优化放射治疗计划，该计划确定放射治疗所需的剂量并精确定位需要治疗的部位。特别是，治疗计划的目标是将规定的辐射剂量传递到肿瘤，同时保护关键的正常组织免受不安全剂量的影响。医生通常通过不断试错，反复调整优化治疗计划，直到计划符合临床要求。这使得整个过程效率低下、耗时且成本高昂。TextGrad 则自动向 AI 主导的规划系统提供梯度，优化放射治疗计划，自动权衡肿瘤和附近健康组织。

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

TextGrad 用语言打通了不同认知模块之间的屏障。它让 LLM 参与到了自己的迭代优化中，通过内省、评判、创造等 high-level 的认知能力实现持续进化。从本质上看，TextGrad 的意义远不止于优化 pipeline 的性能，它向我们展示了一种通过语言实现 AI 自我认知、自我修正的可能性。这条 “Language-Driven Optimization” 的道路，或许也是目前很多 “幻觉问题” 的一剂良药。TextGrad 已经被应用到解决很多科学和医学方面的问题！更多的应用等着你来探索和发现！

以上是全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1670

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1274

C# 教程

1256

显示更多

Related knowledge

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷？巴黎奥运会正在如火如荼地进行中，乒乓球项目备受关注。与此同时，机器人打乒乓球也取得了新突破。刚刚，DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址：https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢？大概和人类业余选手不相上下：正手反手都会：对手采用多种打法，该机器人也能招架得住：接不同旋转的发球：不过，比赛激烈程度似乎不如公园老大爷对战。对机器人来说，乒乓球运动

首配机械爪！元萝卜亮相2024世界机器人大会，发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日，2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相，并最新发布元萝卜AI下棋机器人——国际象棋专业版（以下简称“元萝卜国象机器人”），成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品，全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新，首次在家用机器人上实现了通过机械爪拾取立体棋子，并进行人机对弈、人人对弈、记谱复盘等功能，

Claude也变懒了！网友：学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至，该收心的不止有即将开启新学期的同学，可能还有AI大模型。前段时间，Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多，经常停顿，甚至输出也变得很短。在发布的第一周，它可以一次性翻译整整4页文稿，现在连半页都输出不了了！」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」，满满地

世界机器人大会上，这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上，人形机器人的展示成为了现场绝对的焦点，在星尘智能的展台上，由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏，能文能武，吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏，让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道，公司创始人来杰解释到，丝滑动作的背后，是硬件侧追求最好力控和最仿人身体指标（速度、负载等），而是在AI侧则采集人的真实动作数据，让机器人遇强则强，快速学习进化。而敏捷

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会，投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议，由国际计算语言学协会组织，每年举办一次。一直以来，ACL在NLP领域的学术影响力都位列第一，它也是CCF-A类推荐会议。今年的ACL大会已是第62届，接收了400余篇NLP领域的前沿工作。昨天下午，大会公布了最佳论文等奖项。此次，最佳论文奖7篇（两篇未公开）、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖（ResourceAward）3篇、社会影响力奖（

李飞飞团队提出ReKep，让机器人具备空间智能，还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时，加上最近老上头条的1X人形机器人NEO，你可能会产生一种感觉：我们似乎开始进入机器人时代了。事实上，这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道，有用的机器人往往需要与环境进行复杂精妙的交互，而环境则可被表示成空间域和时间域上的约束。举个例子，如果要让机器人倒茶，那么机器人首先需要抓住茶壶手柄并使之保持直立，不泼洒出茶水，然后平稳移动，一直到让壶口与杯口对齐，之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿：Agent Day，强化学习之父Richard Sutton将出席！颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展，人工智能已经成为了推动社会进步的重要力量。在这个时代，我们有幸见证并参与到分布式人工智能（DistributedArtificialIntelligence，DAI）的创新与应用中。分布式人工智能是人工智能领域的重要分支，这几年引起了越来越多的关注。基于大型语言模型（LLM）的智能体（Agent）异军突起，通过结合大模型的强大语言理解和生成能力，展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型，成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会，多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午，鸿蒙智行正式迎来了新品牌与新车。 8月6日，华为举行鸿蒙智行享界S9及华为全场景新品发布会，带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品，从智慧出行、智慧办公到智能穿戴，华为全场景智慧生态持续构建，为消费者带来万物互联的智慧体验。鸿蒙智行：深度赋能，推动智能汽车产业升级华为联合中国汽车产业伙伴，为

See all articles

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题