Rumah > Peranti teknologi > AI > Tutorial: clustering semantik mesej pengguna dengan LLM meminta

Tutorial: clustering semantik mesej pengguna dengan LLM meminta

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
Lepaskan: 2025-02-25 17:12:10
asal
373 orang telah melayarinya

Jawatan blog ini menunjukkan kaedah yang lebih cepat dan lebih cekap untuk menganalisis data forum pengguna menggunakan model bahasa yang besar (LLMS) dan bukannya teknik sains data tradisional. Penulis memanfaatkan kuasa AI meminta untuk mencapai clustering semantik, dengan ketara mengurangkan masa dan usaha yang diperlukan.

Proses ini bermula dengan data forum Discord yang tersedia secara terbuka, khususnya benang sokongan teknologi. Data ini diproses sebelum diproses dan diformat ke dalam data data Pandas, termasuk skor sentimen berdasarkan maklum balas pengguna (mis., "Terima kasih"). Papan pemuka dicipta untuk menggambarkan jumlah mesej, penglibatan pengguna, dan trend kepuasan, mendedahkan pandangan awal. Penemuan utama dari penerokaan awal ini termasuk korelasi umum antara giliran dan kepuasan pengguna, tetapi kekurangan korelasi antara masa tindak balas dan kepuasan.

teras kaedah melibatkan mendorong LLMS (khususnya Google Gemini dan kebingungan AI) untuk melakukan analisis data. Penulis memberikan beberapa petunjuk utama:

  1. Ringkasan Generasi: LLM menghasilkan ringkasan ringkas mesej pengguna dan mengenal pasti topik perbualan peringkat tinggi.
  2. Statistik clustering: LLM mengira statistik clustering (skor siluet) untuk menentukan bilangan kluster optimum.
  3. clustering: LLM melakukan clustering sebenar menggunakan kaedah yang dipilih dan menyediakan label cluster.
  4. kluster hierarki: LLM melakukan kluster hierarki, mengenal pasti kedua-dua kelompok tinggi dan lebih berbutir.
  5. Generasi kod visualisasi: LLM menghasilkan kod streamlit untuk memvisualisasikan kluster yang dihasilkan.
Eksperimen pengarang dengan kedua -dua ringkasan teks mentah dan embeddings berangka (dihasilkan menggunakan API embedding OpenAI) sebagai input untuk LLM. Hasilnya menunjukkan bahawa menggunakan generasi pembasmian dalaman LLM membawa kepada topik kluster yang lebih tepat dan boleh dipercayai, yang menonjolkan penemuan utama: Membiarkan LLM menghasilkan embeddings sendiri lebih baik untuk menyediakan yang dihasilkan secara luaran.

Analisis diperluaskan untuk memasukkan data dari pelbagai pelayan Discord, yang membolehkan perbandingan silang vendor dan mendedahkan isu pengguna biasa. Visualisasi akhir dengan berkesan mempamerkan masalah biasa ini.

Pos blog menyimpulkan dengan meringkaskan langkah -langkah yang terlibat dan memberikan rujukan kepada sumber yang relevan, termasuk kertas penyelidikan yang mengilhami pendekatan ini (CLIO), LLM yang digunakan, dan model embedding. Mesej keseluruhan adalah demonstrasi yang jelas tentang bagaimana LLM dapat menyelaraskan proses pengekstrakan pandangan yang bermakna dari dataset yang besar, menggantikan aliran kerja sains data yang lebih kompleks dengan kaedah yang lebih mudah dan berasaskan.

Tutorial: Semantic Clustering of User Messages with LLM Prompts Tutorial: Semantic Clustering of User Messages with LLM Prompts Tutorial: Semantic Clustering of User Messages with LLM Prompts Tutorial: Semantic Clustering of User Messages with LLM Prompts Tutorial: Semantic Clustering of User Messages with LLM Prompts Tutorial: Semantic Clustering of User Messages with LLM Prompts

Atas ialah kandungan terperinci Tutorial: clustering semantik mesej pengguna dengan LLM meminta. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan