Isih perenggan ialah topik yang sangat penting dan mencabar dalam bidang pencarian maklumat, dan telah mendapat perhatian meluas daripada ahli akademik dan industri. Keberkesanan model pemeringkatan perenggan boleh meningkatkan kepuasan pengguna enjin carian dan membantu aplikasi berkaitan pencarian maklumat seperti sistem soal jawab, pemahaman bacaan, dsb. Dalam konteks ini, beberapa set data penanda aras seperti MS-MARCO, DuReader_retrieval, dsb. telah dibina untuk menyokong kerja penyelidikan yang berkaitan pada pengisihan perenggan. Walau bagaimanapun, kebanyakan set data yang biasa digunakan memfokuskan pada adegan bahasa Inggeris Untuk adegan bahasa Cina, set data sedia ada mempunyai had dalam skala data, anotasi pengguna yang terperinci dan penyelesaian kepada masalah contoh negatif palsu. Dalam konteks ini, kami membina set data penanda aras kedudukan perenggan bahasa Cina baharu berdasarkan log carian sebenar: T2Kedudukan.
T2Kedudukan terdiri daripada lebih daripada 300,000 pertanyaan sebenar dan 2 juta perenggan Internet, dan termasuk maklumat yang diberikan oleh juru anotasi profesional Tahap 4 denda -anotasi korelasi berbutir. Data semasa dan beberapa model asas telah diterbitkan di Github, dan kerja penyelidikan yang berkaitan telah diterima oleh SIGIR 2023 sebagai kertas Sumber.
Matlamat tugas pemeringkatan perenggan adalah untuk mengingat dan mengisih koleksi perenggan berskala besar berdasarkan pertanyaan yang diberikan Penggal perenggan calon, dapatkan senarai perenggan mengikut urutan dari perkaitan tinggi ke rendah. Pengisihan perenggan secara amnya terdiri daripada dua peringkat: ingat kembali perenggan dan penyusunan semula perenggan.
Untuk menyokong tugas pengisihan perenggan, beberapa set data dibina untuk latihan dan menguji algoritma pengisihan perenggan. Kebanyakan set data yang digunakan secara meluas memfokuskan pada adegan bahasa Inggeris Sebagai contoh, set data yang paling biasa digunakan ialah set data MS-MARCO, yang mengandungi lebih daripada 500,000 istilah pertanyaan dan lebih daripada 8 juta perenggan Setiap istilah pertanyaan mempunyai atribut soalan. Untuk setiap istilah pertanyaan, pasukan keluaran data MS-MARCO merekrut pencatat untuk memberikan jawapan standard Berdasarkan sama ada perenggan tertentu mengandungi jawapan standard yang disediakan secara manual, ia dinilai sama ada perenggan ini berkaitan dengan istilah pertanyaan.
Dalam senario Cina, terdapat juga beberapa set data yang dibina untuk menyokong tugas pengisihan perenggan. Sebagai contoh, mMarco-Chinese ialah versi terjemahan bahasa Cina bagi set data MS-MARCO dan set data DuReader_retrieval menggunakan paradigma yang sama seperti MS-MARCO untuk menjana label perenggan, iaitu, korelasi pasangan perkataan-perenggan pertanyaan ialah diberikan daripada jawapan standard yang disediakan oleh manusia. Model Multi-CPR mengandungi data perolehan perenggan daripada tiga domain berbeza (e-dagang, video hiburan dan perubatan). Berdasarkan data log carian Sogou, set data seperti Sogou-SRR, Sogou-QCL dan Tiangong-PDR juga telah dicadangkan.
Rajah 1: Statistik set data yang biasa digunakan dalam tugas pengisihan perenggan
Walaupun set data sedia ada telah menggalakkan pembangunan aplikasi pengisihan perenggan, kami juga perlu memberi perhatian kepada beberapa batasan:
1) Set data ini tidak besar -skala Label atau perkaitan tidak dianotasi secara manual, terutamanya dalam senario Cina. Sogou-SRR dan Tiangong-PDR hanya mengandungi sejumlah kecil data pertanyaan. Walaupun mMarco-Chinese dan Sogou-QCL lebih besar dalam skala, yang pertama adalah berdasarkan terjemahan mesin dan yang terakhir menggunakan label perkaitan sebagai data klik pengguna. Baru-baru ini, dua set data yang agak besar, Multi-CPR dan DuReader_retrieval, telah dibina dan dikeluarkan.
2) Set data sedia ada kekurangan maklumat anotasi korelasi yang terperinci. Kebanyakan set data menggunakan anotasi korelasi binari (berbutir kasar), iaitu, berkaitan atau tidak relevan. Kerja sedia ada telah menunjukkan bahawa maklumat anotasi korelasi yang terperinci boleh membantu melombong perhubungan antara entiti yang berbeza dan membina algoritma kedudukan yang lebih tepat. Kemudian terdapat set data sedia ada yang tidak menyediakan atau hanya menyediakan sejumlah kecil anotasi berbutir halus berbilang peringkat. Sebagai contoh, Sogou-SRR atau Tiangong-PDR hanya memberikan anotasi halus tidak lebih daripada 100,000.
3) Masalah contoh negatif palsu menjejaskan ketepatan penilaian. Set data sedia ada dipengaruhi oleh masalah contoh negatif palsu, di mana sejumlah besar dokumen berkaitan ditandakan sebagai tidak berkaitan. Masalah ini disebabkan oleh bilangan anotasi manual yang kecil dalam data berskala besar, yang akan menjejaskan ketepatan penilaian dengan ketara. Contohnya, dalam Multi-CPR, hanya satu perenggan akan ditandakan sebagai relevan untuk setiap istilah pertanyaan, manakala yang lain akan ditandakan sebagai tidak berkaitan. DuReader_retrieval cuba untuk mengurangkan masalah negatif palsu dengan membenarkan anotasi memeriksa secara manual dan menganotasi semula set perenggan teratas.
Untuk menyokong model pemeringkatan perenggan yang lebih baik untuk latihan dan penilaian berkualiti tinggi, kami membina dan mengeluarkan set data penanda aras perolehan perenggan bahasa Cina baharu - T2Kedudukan .
Proses pembinaan set data termasuk pensampelan perkataan pertanyaan, ingatan semula dokumen, pengekstrakan perenggan dan anotasi perkaitan yang terperinci. Pada masa yang sama, kami juga telah mereka bentuk pelbagai kaedah untuk meningkatkan kualiti set data, termasuk menggunakan kaedah segmentasi perenggan berasaskan model dan kaedah penduaan perenggan berasaskan kluster untuk memastikan integriti semantik dan kepelbagaian perenggan, dan menggunakan pembelajaran aktif- anotasi berasaskan Kaedah untuk meningkatkan kecekapan dan kualiti anotasi, dsb.
1) Proses keseluruhan
Rajah 2: Contoh halaman Wikipedia. Dokumen yang dibentangkan mengandungi perenggan yang jelas.
2) Kaedah pembahagian perenggan berasaskan model
Dalam set data sedia ada, Perenggan biasanya dipisahkan daripada dokumen berdasarkan perenggan semula jadi (pemutus baris) atau dengan tingkap gelongsor panjang tetap. Walau bagaimanapun, kedua-dua kaedah boleh mengakibatkan perenggan yang tidak lengkap secara semantik atau terlalu panjang dan mengandungi berbilang topik berbeza. Dalam kerja ini, kami menggunakan kaedah pembahagian perenggan berasaskan model Secara khusus, kami menggunakan Ensiklopedia Sogou, Ensiklopedia Baidu dan Wikipedia Bahasa Cina sebagai data latihan, kerana struktur bahagian dokumen ini agak jelas, dan perenggan semula jadi juga diperolehi. definisi yang lebih baik. Kami melatih model pembahagian untuk menentukan sama ada perkataan tertentu perlu menjadi titik pembahagian. Kami menggunakan idea tugas pelabelan urutan dan menggunakan perkataan terakhir setiap segmen semula jadi sebagai contoh positif untuk melatih model.
3) Kaedah deduplikasi perenggan berasaskan pengelompokan
Menganotasi perenggan yang sangat serupa adalah berlebihan dan tidak bermakna untuk perenggan model kedudukan, perolehan maklumat yang dibawa oleh kandungan perenggan yang sangat serupa adalah terhad, jadi kami mereka bentuk kaedah penyahduplikasi perenggan berasaskan kluster untuk meningkatkan kecekapan anotasi. Khususnya, kami menggunakan Ward, algoritma pengelompokan hierarki, untuk melaksanakan pengelompokan tanpa diawasi bagi dokumen serupa. Perenggan dalam kelas yang sama dianggap sangat serupa, dan kami mencuba satu perenggan daripada setiap kelas untuk anotasi perkaitan. Perlu diingatkan bahawa kami hanya melakukan operasi ini pada set latihan Untuk set ujian, kami akan menganotasi sepenuhnya semua perenggan yang diekstrak untuk mengurangkan kesan contoh negatif palsu.
Rajah 3: Proses anotasi pensampelan berdasarkan pembelajaran aktif
4) Kaedah pensampelan dan anotasi data berdasarkan pembelajaran aktif
Dalam amalan, kami mendapati bahawa tidak semua sampel latihan boleh dipertingkatkan lagi Prestasi daripada model ranking. Untuk sampel latihan yang boleh diramalkan dengan tepat oleh model, bantuan latihan untuk model seterusnya adalah terhad. Oleh itu, kami meminjam idea pembelajaran aktif untuk membolehkan model memilih sampel latihan yang lebih bermaklumat untuk anotasi selanjutnya. Khususnya, kami mula-mula melatih model penyusunan semula perkataan-perenggan berdasarkan rangka kerja pengekod silang berdasarkan data latihan sedia ada Kemudian kami menggunakan model ini untuk meramalkan data lain dan mengalih keluar skor keyakinan yang berlebihan (kandungan maklumat) dan juga skor keyakinan rendah (data bising), jelaskan lagi perenggan yang disimpan, dan ulangi proses ini.
T2Kedudukan terdiri daripada lebih 300,000 pertanyaan sebenar dan 2 juta perenggan Internet. Antaranya, set latihan mengandungi kira-kira 250,000 perkataan pertanyaan, dan set ujian mengandungi kira-kira 50,000 perkataan pertanyaan. Istilah pertanyaan boleh mencapai sehingga 40 aksara, dengan purata panjang sekitar 11 aksara. Pada masa yang sama, perkataan pertanyaan dalam set data meliputi berbilang medan, termasuk perubatan, pendidikan, e-dagang, dll. Kami juga mengira skor kepelbagaian (ILS) perkataan pertanyaan Berbanding dengan set data sedia ada, kepelbagaian pertanyaan kami adalah lebih tinggi. Lebih daripada 2.3 juta perenggan telah dijadikan sampel daripada 1.75 juta dokumen, dan setiap dokumen dibahagikan kepada 1.3 perenggan secara purata. Dalam set latihan, purata 6.25 perenggan bagi setiap istilah pertanyaan dianotasi secara manual, manakala dalam set ujian, purata 15.75 perenggan bagi setiap istilah pertanyaan dianotasi secara manual.
Rajah 4: Taburan domain perkataan pertanyaan dalam set data
Rajah 5: Taburan anotasi korelasi
Kami menguji prestasi beberapa model kedudukan perenggan yang biasa digunakan pada set data yang diperolehi Kami juga menilai kaedah sedia ada dalam ingatan perenggan dan penekanan perenggan kedua-dua peringkat pengisihan.
1) Percubaan ingat semula perenggan
Model ingat semula perenggan sedia ada boleh dibahagikan secara kasar kepada model ingat semula jarang dan padat ingat model.
Kami menguji prestasi model penarikan balik berikut:
Antara model ini, QL dan BM25 ialah model panggil semula jarang, dan model lain ialah model ingat semula padat. Kami menggunakan penunjuk biasa seperti MRR dan Recall untuk menilai prestasi model ini Keputusan percubaan ditunjukkan dalam jadual berikut:
Rajah 6: Prestasi Perenggan model panggil balik pada set ujian
Daripada keputusan eksperimen, dapat dilihat bahawa berbanding dengan model ranking jarang tradisional, perolehan padat model telah mencapai prestasi yang lebih baik. Pada masa yang sama, pengenalan contoh sukar-ke-negatif juga membantu untuk meningkatkan prestasi model. Perlu dinyatakan bahawa prestasi penarikan semula model eksperimen ini pada set data kami adalah lebih teruk daripada set data lain Sebagai contoh, Recall@50 BM25 pada set data kami ialah 0.492, manakala dalam MS-Marco dan Dureader_retrieval Di atas ialah 0.601 dan 0.700. . Ini mungkin disebabkan oleh fakta bahawa kami mempunyai lebih banyak perenggan yang telah diberi anotasi secara manual Dalam set ujian, kami mempunyai purata 4.74 dokumen yang berkaitan bagi setiap istilah pertanyaan, yang menjadikan tugas penarikan semula lebih mencabar dan mengurangkan negatif palsu pada tahap tertentu. masalah . Ini juga menunjukkan bahawa T2Ranking ialah set data penanda aras yang mencabar dan mempunyai ruang besar untuk penambahbaikan untuk model penarikan semula masa hadapan.
2) Percubaan penyusunan semula perenggan
Berbanding dengan peringkat ingat semula perenggan, peringkat penyusunan semula perlu dipertimbangkan Saiz perenggan adalah kecil, jadi kebanyakan kaedah cenderung menggunakan pengekod interaktif (Cross-Encoder) sebagai rangka kerja model Dalam kerja ini, kami menguji prestasi model pengekod interaktif pada tugas penyusunan semula perenggan indeks penilaian, keputusan eksperimen adalah seperti berikut:
Rajah 7: Pengekod interaktif pada tugas menyusun semula perenggan Prestasi
Hasil eksperimen menunjukkan penyusunan semula berdasarkan perenggan yang dipanggil semula oleh Dual-Encoder adalah lebih berkesan daripada penyusunan semula berdasarkan perenggan yang dipanggil semula oleh BM25 Ia boleh mencapai hasil yang lebih baik , yang konsisten dengan kesimpulan eksperimen kerja sedia ada. Sama seperti eksperimen penarikan balik, prestasi model penarafan semula pada set data kami adalah lebih teruk daripada set data lain, yang mungkin disebabkan oleh anotasi terperinci dan kepelbagaian kata pertanyaan yang lebih tinggi bagi set data kami, dan seterusnya Ia menggambarkan set data kami. adalah mencabar dan boleh mencerminkan prestasi model dengan lebih tepat.
Set data dikeluarkan bersama oleh Kumpulan Penyelidikan Pencarian Maklumat (THUIR) Jabatan Sains Komputer Universiti Tsinghua dan Pusat Teknologi Carian Pelayar QQ pasukan Tencent telah diluluskan oleh Universiti Tsinghua Tian Disokong oleh Institut Pengkomputeran Kecerdasan Buatan. Kumpulan penyelidikan THUIR memberi tumpuan kepada penyelidikan mengenai kaedah carian dan pengesyoran, dan telah mencapai keputusan tipikal dalam pemodelan tingkah laku pengguna dan kaedah pembelajaran yang boleh dijelaskan termasuk Anugerah Kertas Terbaik WSDM2022, Anugerah Pencalonan Kertas Terbaik SIGIR2020 dan Anugerah Kertas Terbaik CIKM2018 telah memenangi beberapa anugerah akademik termasuk 2020 Persatuan Maklumat Cina "Anugerah Sains dan Teknologi Pemprosesan Maklumat Cina Qian Weichang" hadiah pertama. Pasukan Pusat Teknologi Carian Pelayar QQ ialah pasukan yang bertanggungjawab untuk penyelidikan dan pembangunan teknologi carian dalam platform maklumat dan talian perkhidmatan PCG Tencent Bergantung pada ekosistem kandungan Tencent dan memacu inovasi produk melalui penyelidikan pengguna, ia menyediakan pengguna dengan grafik, maklumat, novel, panjang. dan video pendek, perkhidmatan, dsb. Keperluan maklumat orientasi dipenuhi.
Atas ialah kandungan terperinci Set data penanda aras pengisihan perenggan Cina yang dikeluarkan: berdasarkan 300,000 pertanyaan sebenar dan 2 juta perenggan Internet.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!