使用 OpenAI JSON 模式和 JSON 模式简化数据提取
当我在 ChatGPT-3.5 发布后第一次尝试它时,我对它在各种应用程序中的潜力感到兴奋。然而,当我遇到一个主要障碍时,我的兴奋很快就消失了:尽管它返回的有价值的信息非常可读,但它并不是应用程序可以可靠摄取的形式。讽刺的是,法学硕士擅长从非结构化文本中提取信息,但只能以非结构化形式返回信息。尝试以编程方式从法学硕士中提取结果感觉就像是在一家令人难以置信的餐厅,提供最美味的食物,但没有任何器具 - 你可以看到它并闻到它,但你就是无法到达它。
我尝试了书中的每一个技巧来哄骗它给我一些类似的结构化数据。 “请用横线或新行分隔每个项目并跳过评论,”我恳求道。有时有效,有时无效。有时它会“有帮助地”对物品进行编号或重新排序,就像一个善意但有点困惑的助手。其他时候,它仍然会偷偷地加入一些评论,让人想起一个健谈的同事。我什至明确要求它只返回 JSON,但有时它会遗漏一个逗号——几乎就像是在进行被动攻击一样。最终,我放弃了,不情愿地回到了传统算法的不太令人兴奋但更可预测的范围。
幸运的是,几个月后,OpenAI 引入了 JSON 模式,该功能强制 LLM 返回有效的 JSON。我决定尝试此功能,发现它对于处理应用程序中的结果更加有效。以下是启用 JSON 模式的输出示例:
PROMPT: Parse the following sentence into words and then return the results as a list of the original word and the translation in English and return the results in JSON. -- sentence -- 早安 RESULTS: { "results": [ { "original": "早安", "translation": "Good morning" } ] }
这个输出无疑是一个进步。但是,虽然输出是有效的 JSON,但其结构可能会根据提示的内容而有所不同。更可预测的方法是指定所需的返回格式。实现这一目标的一种方法是提供一个示例 JSON 结构供 LLM 遵循。此方法涉及创建示例并编写代码来解析它。如果结构发生变化,两处都必须修改。
另一种方法是定义一个数据传输对象 (DTO) 来保存结果,并使用它来指示 LLM 并解析结果,从而避免同步问题。首先定义DTO,例如:
record Entries(List<Entry> entries) { record Entry(String originalWord, String wordInEnglish, String pronunciation) {} }
现在DTO可以在提示指令中使用,也可以在解析代码中使用:
// Construct the prompt with the output schema. var prompt = MessageFormat.format(""" Parse the following sentence into English and return the results in JSON according to the following JSON schema. 人工智慧將引領未來,以智慧之光照亮人類無限可能的前程。 --- output json schema --- {0} """, jsonSchemaOf(Entries.class)); var result = sendPrompt(prompt, Entries.class);
这是使用 Jackson JSON Schema 生成器的代码:
PROMPT: Parse the following sentence into words and then return the results as a list of the original word and the translation in English and return the results in JSON. -- sentence -- 早安 RESULTS: { "results": [ { "original": "早安", "translation": "Good morning" } ] }
注意:默认情况下,生成的模式将包含用于引用的 ID 字段,这可能会浪费令牌。请参阅存储库 OpenAI JSON 模式示例,了解删除这些未使用的 ID 的代码。
最后,这是使用 Azure OpenAI Java SDK 向 OpenAI 发送提示的代码:
record Entries(List<Entry> entries) { record Entry(String originalWord, String wordInEnglish, String pronunciation) {} }
该解决方案在大多数情况下都有效。 LLM 可以有效地理解 JSON 模式,但需要注意的是:我见过有时会出错的情况。例如,如果字段是字符串且其名称是复数(例如“exampleValues”),则 LLM 有时会坚持返回字符串数组。
法学硕士可以产生显着的成果,有时超出普通人的能力。然而,有趣的是,至少目前,他们正在努力完成可靠地格式化生成的输出的更平凡的任务。
以上是使用 OpenAI JSON 模式和 JSON 模式简化数据提取的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Python更适合初学者,学习曲线平缓,语法简洁;JavaScript适合前端开发,学习曲线较陡,语法灵活。1.Python语法直观,适用于数据科学和后端开发。2.JavaScript灵活,广泛用于前端和服务器端编程。

从C/C 转向JavaScript需要适应动态类型、垃圾回收和异步编程等特点。1)C/C 是静态类型语言,需手动管理内存,而JavaScript是动态类型,垃圾回收自动处理。2)C/C 需编译成机器码,JavaScript则为解释型语言。3)JavaScript引入闭包、原型链和Promise等概念,增强了灵活性和异步编程能力。

JavaScript在Web开发中的主要用途包括客户端交互、表单验证和异步通信。1)通过DOM操作实现动态内容更新和用户交互;2)在用户提交数据前进行客户端验证,提高用户体验;3)通过AJAX技术实现与服务器的无刷新通信。

JavaScript在现实世界中的应用包括前端和后端开发。1)通过构建TODO列表应用展示前端应用,涉及DOM操作和事件处理。2)通过Node.js和Express构建RESTfulAPI展示后端应用。

理解JavaScript引擎内部工作原理对开发者重要,因为它能帮助编写更高效的代码并理解性能瓶颈和优化策略。1)引擎的工作流程包括解析、编译和执行三个阶段;2)执行过程中,引擎会进行动态优化,如内联缓存和隐藏类;3)最佳实践包括避免全局变量、优化循环、使用const和let,以及避免过度使用闭包。

Python和JavaScript在社区、库和资源方面的对比各有优劣。1)Python社区友好,适合初学者,但前端开发资源不如JavaScript丰富。2)Python在数据科学和机器学习库方面强大,JavaScript则在前端开发库和框架上更胜一筹。3)两者的学习资源都丰富,但Python适合从官方文档开始,JavaScript则以MDNWebDocs为佳。选择应基于项目需求和个人兴趣。

Python和JavaScript在开发环境上的选择都很重要。1)Python的开发环境包括PyCharm、JupyterNotebook和Anaconda,适合数据科学和快速原型开发。2)JavaScript的开发环境包括Node.js、VSCode和Webpack,适用于前端和后端开发。根据项目需求选择合适的工具可以提高开发效率和项目成功率。

C和C 在JavaScript引擎中扮演了至关重要的角色,主要用于实现解释器和JIT编译器。 1)C 用于解析JavaScript源码并生成抽象语法树。 2)C 负责生成和执行字节码。 3)C 实现JIT编译器,在运行时优化和编译热点代码,显着提高JavaScript的执行效率。
