>本博客文章展示了一種使用大語言模型(LLM)而不是傳統數據科學技術來分析用戶論壇數據的更快,更有效的方法。 作者利用AI的力量提示實現語義聚類,從而大大減少了所需的時間和精力。
>該過程始於公開可用的Discord論壇數據,特別是技術支持線程。 此數據已預處理並格式化為PANDAS數據框架,包括基於用戶反饋的情感分數(例如,“謝謝”)。 創建儀表板是為了可視化消息量,用戶參與度和滿意度趨勢,從而揭示了初始見解。 此初始探索中的主要發現包括用戶轉彎和滿意度之間的一般相關性,但是響應時間和滿意度之間缺乏相關性。
該方法的核心涉及提示LLMS(特別是Google Gemini和Pelpolxity AI)執行數據分析。 作者提供了幾個關鍵提示:
>
摘要生成:
> llm生成了用戶消息的簡明摘要,並標識了高級對話主題。 -
>群集統計:
LLM計算聚類統計(Silhouette分數)以確定簇的最佳數量。
-
群集: LLM使用選定的方法執行實際聚類並提供群集標籤。
- 層次聚類: LLM執行層次聚類,識別高級和更顆粒狀的簇。
-
可視化代碼生成: LLM生成簡化的代碼以可視化生成的群集。
-
>用原始文本摘要和數值嵌入(使用OpenAI的嵌入API生成)作為LLM的輸入的作者實驗。 結果表明,使用LLM的內部嵌入生成會導致更準確和可靠的集群主題,突出顯示一個關鍵發現:讓LLM生成自己的嵌入者比提供外部生成的嵌入。
>擴展了分析以包括來自多個Discord服務器的數據,從而允許進行跨供應商的比較並揭示常見的用戶問題。 最終可視化有效地展示了這些常見問題。
>博客文章通過總結所涉及的步驟並提供對相關資源的參考,包括啟發這種方法的研究論文(CLIO),使用的LLMS和嵌入模型。 總體消息清楚地證明了LLM如何可以顯著簡化從大型數據集中提取有意義見解的過程,從而用更簡單,基於及時的方法替換更複雜的數據科學工作流程。

以上是教程:用LLM提示的用戶消息的語義聚類的詳細內容。更多資訊請關注PHP中文網其他相關文章!