Microsoft的TNT-LLM:革命性的分类学生成和文本分类
Microsoft揭开了TNT-LLM的揭幕,这是一种开创性的系统自动化分类法创建和文本分类,以速度和准确性超过传统方法。 这种创新的方法利用大型语言模型(LLM)的力量简化和扩展分类法和分类器的产生,从而最大程度地减少手动干预。 这对于像Bing Copilot这样的应用程序特别有益,在该应用程序中,管理动态和多样化的文本数据至关重要。
本文使用GPT-4O和Langgraph来演示TNT-LLM的实现,以进行有效的新闻文章集群。 有关GPT-4O和Langgraph的更多信息,请咨询以下资源:>
什么是OpenAi的GPT-4O?
> tnt-llm(使用大语言模型的分类学和文本分类)是一个两阶段框架,旨在从文本数据中生成和分类分类法。
阶段1:分类学生成
>
这个初始阶段利用了文本文档的样本和特定的指令(例如,“生成分类法对新闻新闻文章产生分类法”)。 LLM总结了每个文档,提取关键信息。 通过迭代精致,LLM构建,修改和完善分类法,从而产生了有效新闻文章分类的标签和描述的结构化层次结构。来源:Mengting Wan等人。
阶段2:文本分类
>第二阶段采用生成的分类法来标记较大的数据集。 LLM应用了这些标签,为轻量级分类器(例如逻辑回归)创建培训数据。该训练有素的分类器有效地标记了整个数据集或执行实时分类。
来源:Mengting Wan等人。
> tnt-llm的适应性使其适用于各种文本分类任务,包括意图检测和主题分类。
>> TNT-LLM 的优势
安装必要的软件包:
设置API键和模型名称的环境变量:
pip install langgraph langchain langchain_openai
核心概念:
export AZURE_OPENAI_API_KEY='your_api_key_here' export AZURE_OPENAI_MODEL='your_deployment_name_here' export AZURE_OPENAI_ENDPOINT='deployment_endpoint'
>文档:
原始文本数据(文章,聊天日志),使用Doc
>类管理。TaxonomyGenerationState
>
步骤0:定义图形状态类,加载数据集,并初始化GPT-4O:
这涉及定义数据结构并加载新闻文章数据集。 初始化了GPT-4O模型在整个管道中使用。
>>>步骤1:总结文档:使用LLM提示。
总结了每个文档>>步骤2:创建MiniBatches:摘要的文档分为MINIBATCHES用于并行处理。
步骤3:生成初始分类法:
分类法已迭代更新,随后处理了随后的小匹配。
>>步骤6:使用状态图编排TNT-LLM管道:
显示了最终的分类法,显示了新闻文章的簇。
> TNT-LLM为大规模文本挖掘和分类提供了强大而有效的解决方案。它的自动化功能大大减少了分析非结构化文本数据所需的时间和资源,从而实现了跨各个领域的数据驱动决策。 跨行业进一步发展和应用的潜力是巨大的。 对于对进一步LLM应用程序开发感兴趣的人,建议使用有关“使用Langchain开发LLM申请”的课程。
以上是GPT-4O和Langgraph教程:构建TNT-LLM应用程序的详细内容。更多信息请关注PHP中文网其他相关文章!