Ce billet de blog démontre une méthode plus rapide et plus efficace pour analyser les données du forum des utilisateurs à l'aide de modèles de langage grand (LLMS) au lieu de techniques de science des données traditionnelles. L'auteur tire parti de la puissance de l'IA invite à réaliser un regroupement sémantique, réduisant considérablement le temps et les efforts requis.
Le processus commence par les données du forum Discord accessibles au public, en particulier les threads de support technique. Ces données sont prétraitées et formatées dans un Pandas DataFrame, y compris un score de sentiment basé sur les commentaires des utilisateurs (par exemple, "merci"). Les tableaux de bord sont créés pour visualiser les volumes de messages, l'engagement des utilisateurs et les tendances de satisfaction, révélant les informations initiales. Les principales résultats de cette exploration initiale incluent une corrélation générale entre les virages et la satisfaction des utilisateurs, mais un manque de corrélation entre le temps de réponse et la satisfaction.
Le noyau de la méthode implique d'inciter les LLM (en particulier Google Gemini et Perplexity AI) pour effectuer l'analyse des données. L'auteur fournit plusieurs invites clés:
L'auteur expérimente à la fois des résumés de texte bruts et des incorporations numériques (générées à l'aide de l'API d'intégration d'OpenAI) comme entrée pour le LLM. Les résultats montrent que l'utilisation de la génération d'intégration interne de LLM conduit à des sujets de cluster plus précis et plus fiables, mettant en évidence une découverte clé: la permettant de générer le LLM de générer ses propres intérêts est préférable à la fourniture de celles générées en externe.
L'analyse est étendue pour inclure les données de plusieurs serveurs de discorde, permettant des comparaisons de vendeurs croisées et révélant des problèmes d'utilisateur communs. La visualisation finale met efficacement ces problèmes communs.
Le billet de blog conclut en résumant les étapes impliquées et en fournissant des références aux ressources pertinentes, y compris le document de recherche qui a inspiré cette approche (CLIO), les LLM utilisés et le modèle d'intégration. Le message global est une démonstration claire de la façon dont les LLM peuvent rationaliser considérablement le processus d'extraction des informations significatives à partir de grands ensembles de données, en remplacement des flux de travail de science des données plus complexes par des méthodes plus simples et basées sur des méthodes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!