Ringkasan komen AI untuk memproses teks ultra-panjang: Pendekatan pelbagai saluran berdasarkan kluster hierarki
asalnya diterbitkan pada 28 Oktober 2024, Blog Pembangun Bazaarvoice
Pengenalan
Model Bahasa Besar (LLMS) adalah alat yang berkuasa untuk mengendalikan teks yang tidak berstruktur, tetapi bagaimana jika teks anda melebihi batasan tetingkap konteks? Bazaarvoice menghadapi cabaran ini apabila membina ciri ringkasan kajian AInya: Jutaan ulasan pengguna tidak dapat dimuatkan ke dalam tetingkap konteks walaupun LLM terkini, dan walaupun ia dapat ditampung, kosnya adalah larangan.Artikel ini akan berkongsi bagaimana bazaarvoice menyelesaikan masalah ini dengan memampatkan teks input (tanpa kehilangan semantik). Khususnya, kami menggunakan pendekatan kluster hierarki pelbagai saluran yang membolehkan kami menyesuaikan tahap terperinci yang kami ingin kehilangan dalam pertukaran untuk pemampatan tanpa mengira model embedding yang dipilih. Teknologi muktamad menjadikan fungsi ringkasan kajian kami secara ekonomi berdaya maju dan meletakkan asas untuk pengembangan perniagaan masa depan.
Soalan
Bazaarvoice telah mengumpul ulasan produk yang dihasilkan oleh pengguna selama hampir 20 tahun, jadi kami mempunyai sejumlah besar data. Tinjauan produk ini benar -benar tidak berstruktur, dengan pelbagai panjang dan kandungan. Model bahasa yang besar sangat sesuai untuk memproses teks yang tidak berstruktur: mereka boleh memproses data yang tidak berstruktur dan mengenal pasti maklumat yang relevan di kalangan gangguan.Walau bagaimanapun, LLM juga mempunyai batasannya, salah satunya ialah tetingkap konteks: bilangan tag (kira -kira bilangan perkataan) yang boleh dimasukkan pada satu masa. Model bahasa besar yang terkini, seperti Versi 3 Claude Anthropic, mempunyai tetingkap konteks yang besar dengan sehingga 200,000 penanda. Ini bermakna anda boleh meletakkan novel kecil di dalamnya, tetapi Internet masih merupakan koleksi data yang besar dan berkembang, dan ulasan produk yang dihasilkan oleh pengguna kami tidak terkecuali. Kami menghadapi batasan dalam tetingkap konteks apabila membina ciri ringkasan ulasan kami (meringkaskan semua ulasan untuk produk tertentu di laman web pelanggan). Walau bagaimanapun, sejak 20 tahun yang lalu, banyak produk telah mengumpulkan beribu -ribu ulasan yang dengan cepat melebihkan tetingkap konteks LLM. Sebenarnya, kami juga mempunyai beberapa produk dengan berjuta -juta ulasan yang memerlukan reka bentuk semula besar LLM untuk ditangani dalam satu proses.
Walaupun secara teknikal boleh dilaksanakan, kosnya boleh menjadi sangat tinggi. Semua pembekal LLM dikenakan berdasarkan bilangan penanda input dan output. Semasa anda mendekati had tetingkap konteks untuk setiap produk (kami mempunyai berjuta -juta produk), bil hosting awan kami dengan cepat melebihi enam angka.
Kaedah kami
Untuk mengatasi kekangan teknikal dan ekonomi ini untuk menerbitkan ringkasan semakan, kami memberi tumpuan kepada wawasan yang agak mudah ke dalam data kami: banyak komen menyatakan makna yang sama. Malah, keseluruhan konsep abstrak bergantung kepada ini: ringkasan kajian menangkap pandangan, tema, dan emosi berulang yang berulang. Kami menyedari bahawa kami boleh menggunakan duplikasi data ini untuk mengurangkan jumlah teks yang perlu dihantar ke LLM, dengan itu mengelakkan memenuhi had tetingkap konteks dan mengurangkan kos operasi sistem kami. Untuk melakukan ini, kita perlu mengenal pasti serpihan teks yang menyatakan makna yang sama. Tugas sedemikian lebih mudah dikatakan daripada dilakukan: orang sering menggunakan kata -kata atau frasa yang berbeza untuk menyatakan makna yang sama.
bernasib baik, mengiktiraf sama ada semantik teks yang sama selalu menjadi kawasan penyelidikan aktif dalam bidang pemprosesan bahasa semulajadi. Kerja Agirre et al. Dipanggil penanda aras STS. Di dalamnya, mereka meminta orang ramai untuk menunjukkan sama ada ayat teks secara semantik sama atau berbeza berdasarkan pangkat 1-5, seperti yang ditunjukkan dalam jadual berikut (dari Cer et al., dan penilaian tumpuan silang bahasa
):
dataset penanda aras STS biasanya digunakan untuk menilai keupayaan model penyembuhan teks untuk menghubungkan ayat-ayat yang sama semantik dalam ruang dimensi tinggi mereka. Khususnya, korelasi Pearson digunakan untuk mengukur sejauh mana model tertanam mewakili penghakiman manusia.
Oleh itu, kita boleh menggunakan model penyembuhan sedemikian untuk mengenal pasti frasa yang sama semantik dalam ulasan produk dan kemudian memadam frasa pendua sebelum menghantarnya ke LLM.
kaedah kami adalah seperti berikut:
Pertama, bahagikan semakan produk ke dalam ayat.
mengira vektor embedding untuk setiap ayat menggunakan rangkaian yang berfungsi dengan baik dalam penanda aras STS.
Gunakan clustering hierarki pemeluwapan untuk semua vektor embedding untuk setiap produk.
Jadual berikut menunjukkan korelasi Pearson dari model penyembuhan Titan yang berbeza pada penanda aras STS:
Oleh itu, model penyembuhan AWS sangat baik dalam memasukkan ayat -ayat dengan semantik yang sama. Ini adalah berita baik untuk kita - kita boleh menggunakan model ini secara langsung, dan mereka sangat murah.
kluster persamaan semantik
Cabaran seterusnya yang kita hadapi adalah: Bagaimana untuk menguatkuasakan persamaan semantik semasa clustering? Idealnya, tiada kelompok mempunyai persamaan semantik yang lebih rendah daripada manusia yang boleh menerima -skor dalam jadual di atas adalah 4. Walau bagaimanapun, pecahan ini tidak boleh ditukar secara langsung ke dalam jarak penyembuhan, yang diperlukan untuk ambang kluster hierarki agregasi.Untuk menyelesaikan masalah ini, kami beralih ke dataset penanda aras STS sekali lagi. Kami mengira jarak untuk semua pasangan dalam dataset latihan dan sesuai dengan polinomial ke ambang jarak mengikut pecahan.
Polinomial ini membolehkan kita mengira ambang jarak yang diperlukan untuk memenuhi sasaran persamaan semantik. Untuk ringkasan komen, kami memilih 3.5 mata, jadi hampir semua kelompok mengandungi ayat -ayat yang "kira -kira" kepada "paling" bersamaan atau lebih tinggi.
Perlu diperhatikan bahawa ini boleh dilakukan pada mana -mana rangkaian tertanam. Ini membolehkan kita untuk bereksperimen dengan kedatangan rangkaian terbenam baru dan dengan cepat menggantikannya apabila diperlukan tanpa bimbang bahawa kelompok itu akan mengandungi ayat -ayat dengan semantik yang berbeza.
clustering multi-channel
Setakat ini, kita tahu kita boleh mempercayai mampatan semantik kita, tetapi tidak jelas berapa banyak mampatan yang kita dapat dari data. Seperti yang dijangkakan, jumlah mampatan berbeza mengikut produk, pelanggan dan industri.
Dalam ketiadaan kehilangan maklumat semantik, iaitu ambang keras 4, kita hanya mencapai nisbah mampatan sebanyak 1.18 (iaitu penjimatan ruang 15%).
Jelas sekali, mampatan tanpa kehilangan tidak mencukupi untuk menjadikan fungsi ini boleh dilaksanakan secara ekonomi.
Walau bagaimanapun, kaedah pemilihan jarak yang dibincangkan di atas memberikan kemungkinan yang menarik di sini: kita secara beransur -ansur dapat meningkatkan jumlah kerugian maklumat dengan berulang kali menjalankan kluster pada baki data pada ambang yang lebih rendah.kaedahnya adalah seperti berikut:
Selain itu, pendekatan ini bukan sahaja sangat berguna untuk ringkasan komen (kami berharap untuk mendapatkan tahap persamaan semantik yang tinggi dengan perbelanjaan pemampatan yang kurang), tetapi juga untuk kes -kes penggunaan lain di mana kita mungkin tidak terlalu prihatin terhadapnya. Maklumat semantik hilang, tetapi diharapkan kosnya kurang pada input segera.
Dalam praktiknya, walaupun selepas beberapa pengurangan ambang skor, masih terdapat sejumlah besar kelompok dengan hanya satu vektor. Ini dianggap outliers dan secara rawak dicontohi untuk dimasukkan ke dalam proses akhir. Kami memilih saiz sampel untuk memastikan bahawa prompt akhir mempunyai 25,000 markah, tetapi tidak lebih daripada itu.
Pastikan kesahihan
clustering multi-saluran dan pensampelan luar rawak membolehkan pengorbanan maklumat semantik dengan mengorbankan tetingkap konteks yang lebih kecil (dihantar ke LLM). Ini menimbulkan persoalan: Seberapa baik ringkasan kita?Di Bazaarvoice, kita tahu bahawa keaslian adalah syarat yang diperlukan untuk kepercayaan pengguna dan ringkasan semakan kami mesti tetap benar untuk benar -benar mewakili semua bunyi yang ditangkap dalam komen. Mana -mana kaedah pemampatan yang lossy mempunyai risiko salah nyata atau tidak termasuk pengguna yang menghabiskan masa menulis ulasan.
Untuk memastikan teknologi mampatan kami berkesan, kami mengukur secara langsung. Khususnya, bagi setiap produk, kami mengambil beberapa ulasan dan kemudian menggunakan Evals LLM untuk menentukan sama ada ringkasan itu mewakili dan relevan dengan setiap ulasan. Ini memberikan kita metrik keras untuk menilai dan mengimbangi mampatan kita.
Hasil
Selama 20 tahun yang lalu, kami telah mengumpulkan hampir 1 bilion komen yang dihasilkan oleh pengguna dan perlu menghasilkan ringkasan untuk puluhan juta produk. Kebanyakan produk ini mempunyai beribu -ribu ulasan, beberapa walaupun berjuta -juta, yang boleh mengalirkan tetingkap konteks LLM dan meningkatkan harga dengan ketara.Walau bagaimanapun, dengan menggunakan kaedah di atas kami, kami mengurangkan saiz teks input dengan
97.7%(nisbah mampatan adalah 42 ), yang membolehkan kami dapat membuat semua produk dan sebarang kuantiti Pada masa akan datang bilangan komen memanjangkan penyelesaian ini. Di samping itu, kos menjana pencernaan untuk semua dataset peringkat bilion kami ialah 82.4%. Ini termasuk kos membenamkan data ayat dan menyimpannya dalam pangkalan data.
Atas ialah kandungan terperinci Teks memampatkan secara semantik untuk menjimatkan kos LLM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!