Tutorial: Semantisches Clustering von Benutzernachrichten mit LLM -Eingabeaufforderungen-KI-php.cn

Tutorial: Semantisches Clustering von Benutzernachrichten mit LLM -Eingabeaufforderungen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2025-02-25 17:12:10

Original

373 Leute haben es durchsucht

Dieser Blog -Beitrag zeigt eine schnellere und effizientere Methode zur Analyse von User Forum -Daten mithilfe von großsprachigen Modellen (LLMs) anstelle herkömmlicher Datenwissenschaftstechniken. Der Autor nutzt die Macht der KI -Aufforderungen, semantisches Clustering zu erreichen, und verringert die erforderliche Zeit und den erforderlichen Aufwand erheblich.

Der Prozess beginnt mit öffentlich verfügbaren Discord -Forum -Daten, insbesondere technischen Support -Threads. Diese Daten werden in einem Pandas-Datenfreame vorverarbeitet und formatiert, einschließlich einer Stimmungsbewertung, die auf dem Benutzerfeedback basiert (z. B. "Danke"). Dashboards werden erstellt, um Nachrichtenvolumina, Benutzern und Zufriedenheitstrends zu visualisieren und anfängliche Erkenntnisse zu erkennen. Zu den wichtigsten Erkenntnissen dieser ersten Erkundung gehört eine allgemeine Korrelation zwischen Benutzerwendungen und Zufriedenheit, aber eine mangelnde Korrelation zwischen Reaktionszeit und Zufriedenheit.

Der Kern der Methode beinhaltet die Aufforderung von LLMs (insbesondere Google Gemini und Verwirrigkeit AI) zur Durchführung der Datenanalyse. Der Autor stellt mehrere wichtige Eingabeaufforderungen an:

Zusammenfassung Generierung: Das LLM generiert kurze Zusammenfassungen von Benutzernachrichten und identifiziert hochrangige Konversationsthemen.
Clustering -Statistiken: Das LLM berechnet Clustering -Statistiken (Silhouette -Score), um die optimale Anzahl von Clustern zu bestimmen.
clustering: Das LLM führt die tatsächliche Clusterbildung mithilfe der ausgewählten Methode aus und bietet Clusterbezeichnungen.
Hierarchisches Clustering: Das LLM führt hierarchische Clusterbildung aus und identifiziert sowohl hochgradige als auch körnigere Cluster.
Visualisierungscode Generierung: Der LLM generiert Streamlit -Code, um die resultierenden Cluster zu visualisieren.

Der Autor experimiert sowohl mit Rohtextzusammenfassungen als auch mit numerischen Einbettungen (erzeugt mit OpenAIs Einbettungs -API) als Eingabe für die LLM. Die Ergebnisse zeigen, dass die Verwendung der internen Einbettungserzeugung des LLM zu genaueren und zuverlässigeren Cluster -Themen führt, wodurch ein wichtiger Befund hervorgehoben wird: Das LLM -Erzeugen der eigenen Einbettungen ist vorzuziehen, extern erzeugte bereitzustellen.

Die Analyse wird erweitert, um Daten von mehreren Discord-Servern einzubeziehen, sodass Vergleiche mit Cross-Vendor und häufig vorkommende Benutzerprobleme aufgedeckt werden. Die endgültige Visualisierung zeigt diese häufigen Probleme effektiv.

Der Blog -Beitrag schließt mit der Zusammenfassung der beteiligten Schritte und der Bereitstellung von Verweise auf relevante Ressourcen, einschließlich des Forschungsarbeits, das diesen Ansatz (CLIO), die gebrauchten LLMs und das Einbettungsmodell inspiriert hat. Die Gesamtnachricht ist ein klarer Demonstration, wie LLMs den Prozess des Extrahierens sinnvoller Erkenntnisse aus großen Datensätzen erheblich rationalisieren und komplexere Datenwissenschafts-Workflows durch einfachere, prompt-basierte Methoden ersetzen können.

Tutorial: Semantic Clustering of User Messages with LLM Prompts

Das obige ist der detaillierte Inhalt vonTutorial: Semantisches Clustering von Benutzernachrichten mit LLM -Eingabeaufforderungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!