Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR-AI-php.cn

La rubrique AIxiv est une rubrique où des contenus académiques et techniques sont publiés sur ce site. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Ce travail a été parrainé par le membre IEEE du National Key Laboratory. d'intelligence cognitive réalisé par l'équipe de Chen Enhong et le laboratoire Arche de Noé de Huawei. L’équipe du professeur Chen Enhong est profondément engagée dans les domaines de l’exploration de données et de l’apprentissage automatique et a publié de nombreux articles dans des revues et conférences de premier plan. Les articles de Google Scholar ont été cités plus de 20 000 fois. Le Noah's Ark Laboratory est le laboratoire de Huawei engagé dans la recherche fondamentale sur l'intelligence artificielle. Il adhère au concept d'importance égale accordée à la recherche théorique et à l'innovation applicative, et s'engage à promouvoir l'innovation et le développement technologiques dans le domaine de l'intelligence artificielle.

Lors de la 30e Conférence ACM sur la découverte des connaissances et l'exploration de données (KDD2024) qui s'est tenue à Barcelone, en Espagne, du 25 au 29 août, le professeur Chen Enhong du Laboratoire national clé d'intelligence cognitive de l'Université de la science et de la technologie de Chine, membre de l'IEEE, l'article « Dataset Regeneration for Sequential Recommendation » publié conjointement avec Huawei Noah a remporté le seul prix du meilleur article étudiant dans le volet recherche de la conférence 2024. Les premiers auteurs de l'article sont le professeur Chen Enhong et le professeur Lian Defu du Laboratoire national clé d'intelligence cognitive de l'Université des sciences et technologies de Chine, ainsi que le doctorant Yin Mingjia, co-supervisé par Wang Haote en tant que chercheur associé. Huawei Noah Liu Yong et le chercheur Guo Wei ont également participé aux travaux connexes. C’est la deuxième fois que les étudiants de l’équipe du professeur Chen Enhong remportent ce prix depuis sa création en 2004.

Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Pautan kertas: https://arxiv.org/abs/2405.17795
Pautan kod: https://github.com/USTC -StarTeam/DR4SR

Motivasi penyelidikan

Cadangan urutan Sistem (Pengesyoran Berurutan, SR) ialah bahagian penting dalam sistem pengesyoran moden kerana ia bertujuan untuk menangkap pilihan pengguna yang berubah-ubah. Dalam tahun-tahun kebelakangan ini, penyelidik telah membuat banyak usaha untuk meningkatkan keupayaan sistem pengesyoran jujukan. Kaedah ini biasanya mengikut paradigma berpusatkan model, iaitu membangunkan model yang berkesan berdasarkan set data tetap. Walau bagaimanapun, pendekatan ini sering mengabaikan potensi isu kualiti dan kelemahan dalam data. Untuk menyelesaikan masalah ini, kalangan akademik telah mencadangkan paradigma berpusatkan data, yang memfokuskan pada menggunakan model tetap untuk menjana set data berkualiti tinggi. Kami merangka ini sebagai masalah "pembinaan semula set data".

Untuk mendapatkan data latihan terbaik, idea utama pasukan penyelidik adalah untuk mempelajari set data baharu yang secara eksplisit mengandungi corak pemindahan item. Secara khusus, mereka membahagikan proses pemodelan sistem pengesyor kepada dua peringkat: mengekstrak corak pemindahan 〈🎜〉 daripada set data asal dan mempelajari pilihan pengguna 〈🎜〉 berdasarkan 〈🎜〉. Proses ini mencabar kerana mempelajari pemetaan daripada Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

melibatkan dua pemetaan tersirat: Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

. Untuk tujuan ini, pasukan penyelidik meneroka kemungkinan membangunkan set data yang secara eksplisit mewakili corak pemindahan item dalam Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

, yang membolehkan kami memisahkan secara eksplisit proses pembelajaran kepada dua peringkat, di mana Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

lebih mudah dipelajari . Oleh itu, tumpuan utama mereka adalah untuk mempelajari fungsi pemetaan yang cekap untuk Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

, iaitu pemetaan satu-ke-banyak. Pasukan penyelidik mentakrifkan proses pembelajaran ini sebagai paradigma penjanaan semula dataset, seperti yang ditunjukkan dalam Rajah 1, di mana "penjanaan semula" bermaksud bahawa mereka tidak memperkenalkan sebarang maklumat tambahan dan hanya bergantung pada set data asal. Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

^{Paradigma utama, Penjanaan Semula Set Data untuk Pengesyoran Jujukan (DR4SR)}, bertujuan untuk membina semula set data asal menjadi set data yang bermaklumat dan boleh digeneralisasikan. Khususnya, pasukan penyelidik mula-mula membina tugas pra-latihan untuk membolehkan penjanaan semula set data. Seterusnya, mereka mencadangkan penjana semula yang dipertingkatkan kepelbagaian untuk memodelkan hubungan satu-ke-banyak antara jujukan dan corak semasa proses penjanaan semula. Akhirnya, mereka mencadangkan strategi inferens hibrid untuk mencapai keseimbangan antara penerokaan dan eksploitasi untuk menjana set data baharu.

Proses pembinaan semula set data adalah umum, tetapi mungkin tidak sesuai sepenuhnya untuk model sasaran tertentu. Untuk menyelesaikan masalah ini, pasukan penyelidik mencadangkan DR4SR+, proses penjanaan semula sedar model yang menyesuaikan set data mengikut ciri model sasaran. DR4SR+ memperibadikan pemarkahan dan mengoptimumkan corak dalam set data yang dibina semula melalui masalah pengoptimuman dua lapisan dan teknik pembezaan tersirat untuk meningkatkan kesan set data.

Kaedah Penyelidikan

Dalam kajian ini, pasukan penyelidik mencadangkan data A- rangka kerja sentrik yang dipanggil "Penjanaan Semula Data untuk Pengesyoran Urutan" (DR4SR) bertujuan untuk membina semula set data asal menjadi set data yang bermaklumat dan boleh digeneralisasikan, seperti yang ditunjukkan dalam Rajah 2. Memandangkan proses penjanaan semula data adalah bebas daripada model sasaran, set data yang dijana semula mungkin tidak semestinya memenuhi keperluan model sasaran. Oleh itu, pasukan penyelidik memperluaskan DR4SR ke dalam versi sedar model, iaitu DR4SR+, untuk menyesuaikan set data yang dijana semula kepada model sasaran tertentu.

Pembinaan semula set data model-agnostik

2 Penjana semula untuk memudahkan penjanaan semula set data secara automatik. Walau bagaimanapun, terdapat kekurangan maklumat penyeliaan dalam set data asal untuk mempelajari penjana semula set data. Oleh itu, mereka mesti mencapai ini dengan cara pembelajaran yang diselia sendiri. Untuk tujuan ini, mereka memperkenalkan tugas pra-latihan untuk membimbing pembelajaran penjana semula yang dipertingkatkan kepelbagaian. Selepas melengkapkan pra-latihan, pasukan penyelidik selanjutnya menggunakan strategi inferens hibrid untuk menjana semula set data baharu.

Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Pembinaan tugas pra-latihan pembinaan semula data:‍

^{Rajah 3 Kemudian, penjana semula} diperlukan untuk dapat menjana semula ke dalam corak yang sepadan

. Pasukan penyelidik menandakan keseluruhan set data pra-latihan sebagai

Penjana Semula yang menggalakkan kepelbagaian: Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Dengan tugas pra-latihan, pasukan penyelidik kini boleh pra-melatih penjana semula set data. Dalam makalah ini, mereka mengguna pakai model Transformer sebagai seni bina utama penjana semula, dan keupayaan penjanaannya telah disahkan secara meluas. Penjana semula set data terdiri daripada tiga modul: pengekod untuk mendapatkan perwakilan jujukan dalam set data asal, penyahkod untuk menjana semula corak dan modul peningkatan kepelbagaian untuk menangkap perhubungan pemetaan satu dengan banyak. Seterusnya, pasukan penyelidik akan memperkenalkan modul ini secara berasingan.

Pengekod terdiri daripada berbilang lapisan perhatian kendiri berbilang kepala (MHSA) dan rangkaian suapan ke hadapan (FFN). Bagi penyahkod, ia akan menghasilkan semula corak dalam set data X' sebagai input. Matlamat penyahkod adalah untuk membina semula corak

memandangkan perwakilan jujukan yang dijana oleh pengekod Walau bagaimanapun, berbilang corak boleh diekstrak daripada jujukan . mod, yang boleh mencipta cabaran semasa latihan. Untuk menyelesaikan masalah pemetaan satu-ke-banyak ini, pasukan penyelidik seterusnya mencadangkan modul peningkatan kepelbagaian.

Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Secara khusus, pasukan penyelidik menyesuaikan secara adaptif pengaruh jujukan asal dengan menyepadukan maklumat daripada corak sasaran ke dalam peringkat penyahkodan. Mula-mula, mereka menayangkan memori

yang dijana oleh pengekod ke dalam

ruang vektor yang berbeza, iaitu

. Sebaik-baiknya, corak sasaran yang berbeza harus sepadan dengan kenangan yang berbeza. Untuk tujuan ini, mereka juga memperkenalkan pengekod Transformer untuk mengekod corak sasaran dan mendapatkan
. Mereka memampatkan

menjadi vektor kebarangkalian:

dengan

ialah kebarangkalian untuk memilih memori ke-k. Untuk memastikan setiap ruang memori dilatih sepenuhnya, kami tidak melakukan pemilihan yang sukar, sebaliknya memperoleh memori akhir melalui jumlah wajaran:

Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Akhirnya, ingatan yang diperoleh boleh dimanfaatkan untuk memudahkan proses penyahkodan dan secara berkesan menangkap hubungan satu-ke-banyak yang kompleks antara jujukan dan corak.

Penjanaan set data sedar model

Disebabkan proses penjanaan semula dan model Sasaran sebelumnya agnostik, jadi set data yang dibina semula mungkin tidak optimum untuk model sasaran tertentu. Oleh itu, mereka memanjangkan proses penjanaan semula dataset bebas model kepada proses penjanaan semula model sedar. Untuk tujuan ini, berdasarkan penjana semula set data, mereka memperkenalkan pemperibadian set data yang menilai skor setiap sampel data dalam set data yang dijana semula. Pasukan penyelidik kemudiannya mengoptimumkan pemperibadian set data dengan lebih cekap melalui pembezaan tersirat.

Pemperibadian Set Data:

Matlamat pasukan penyelidik adalah untuk melatih parameter berdasarkan Peperibadian Set Data Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

dilaksanakan oleh MLP untuk menilai skor setiap sampel data Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

W untuk model sasaran. Untuk memastikan keluasan rangka kerja, pasukan penyelidik menggunakan skor yang dikira untuk melaraskan berat kerugian latihan, yang tidak memerlukan pengubahsuaian tambahan kepada model sasaran. Mereka bermula dengan mentakrifkan kehilangan ramalan item seterusnya yang asal:

Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Selepas itu, fungsi kehilangan latihan untuk set data diperibadikan boleh ditakrifkan sebagai:

Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Kesimpulan eksperimen

Eksperimen utama

Pasukan penyelidik membandingkan prestasi setiap model sasaran dengan varian “DR4SR” dan “DR4SR+” untuk mengesahkan keberkesanan rangka kerja yang dicadangkan. Rajah 4

Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR

Gambar keseluruhan yang ditunjukkan dalam Prestasi Rajah 4, kesimpulan berikut boleh dibuat:

DR4SR dapat membina semula set data yang bermaklumat dan boleh digunakan secara umum

Model sasaran yang berbeza memilih set data yang berbeza

Denoising hanyalah subset masalah pembinaan semula data

Atas ialah kandungan terperinci Tafsiran Kertas Pelajar Terbaik KDD2024, Universiti Sains dan Teknologi China, Huawei Noah: Pengesyoran Paradigma Urutan Baharu DR4SR. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!