Microsoft的TNT-LLM:革命性的分類學生成和文本分類
Microsoft揭開了TNT-LLM的揭幕,這是一種開創性的系統自動化分類法創建和文本分類,以速度和準確性超過傳統方法。 這種創新的方法利用大型語言模型(LLM)的力量簡化和擴展分類法和分類器的產生,從而最大程度地減少手動干預。 這對於像Bing Copilot這樣的應用程序特別有益,在該應用程序中,管理動態和多樣化的文本數據至關重要。
本文使用GPT-4O和Langgraph來演示TNT-LLM的實現,以進行有效的新聞文章集群。 有關GPT-4O和Langgraph的更多信息,請諮詢以下資源:>
什麼是OpenAi的GPT-4O?
> tnt-llm(使用大語言模型的分類學和文本分類)是一個兩階段框架,旨在從文本數據中生成和分類分類法。
階段1:分類學生成
>
這個初始階段利用了文本文檔的樣本和特定的指令(例如,“生成分類法對新聞新聞文章產生分類法”)。 LLM總結了每個文檔,提取關鍵信息。 通過迭代精緻,LLM構建,修改和完善分類法,從而產生了有效新聞文章分類的標籤和描述的結構化層次結構。來源:Mengting Wan等人。
階段2:文本分類
>第二階段採用生成的分類法來標記較大的數據集。 LLM應用了這些標籤,為輕量級分類器(例如邏輯回歸)創建培訓數據。該訓練有素的分類器有效地標記了整個數據集或執行實時分類。
來源:Mengting Wan等人。
> tnt-llm的適應性使其適用於各種文本分類任務,包括意圖檢測和主題分類。
>> TNT-LLM 的優勢
安裝必要的軟件包:
設置API鍵和模型名稱的環境變量:
pip install langgraph langchain langchain_openai
核心概念:
export AZURE_OPENAI_API_KEY='your_api_key_here' export AZURE_OPENAI_MODEL='your_deployment_name_here' export AZURE_OPENAI_ENDPOINT='deployment_endpoint'
>文檔:
原始文本數據(文章,聊天日誌),使用Doc
>類管理。 TaxonomyGenerationState
>
步驟0:定義圖形狀態類,加載數據集,並初始化GPT-4O:
這涉及定義數據結構並加載新聞文章數據集。 初始化了GPT-4O模型在整個管道中使用。
>>>步驟1:總結文檔:使用LLM提示。
總結了每個文檔>>步驟2:創建MiniBatches:摘要的文檔分為MINIBATCHES用於並行處理。
步驟3:生成初始分類法:
分類法已迭代更新,隨後處理了隨後的小匹配。
>>步驟6:使用狀態圖編排TNT-LLM管道:
顯示了最終的分類法,顯示了新聞文章的簇。
> TNT-LLM為大規模文本挖掘和分類提供了強大而有效的解決方案。它的自動化功能大大減少了分析非結構化文本數據所需的時間和資源,從而實現了跨各個領域的數據驅動決策。 跨行業進一步發展和應用的潛力是巨大的。 對於對進一步LLM應用程序開發感興趣的人,建議使用有關“使用Langchain開發LLM申請”的課程。
以上是GPT-4O和Langgraph教程:構建TNT-LLM應用程序的詳細內容。更多資訊請關注PHP中文網其他相關文章!