


Untuk menggunakan niat pengguna berbilang peringkat dengan berkesan, Universiti Sains dan Teknologi Hong Kong, Universiti Peking, dll. mencadangkan model cadangan sesi baharu Atten-Mixer
Sebagai teknologi penapisan maklumat pintar, sistem pengesyoran telah digunakan secara meluas dalam senario sebenar. Walau bagaimanapun, kejayaan sistem pengesyoran selalunya berdasarkan sejumlah besar data pengguna, yang mungkin melibatkan maklumat peribadi dan sensitif pengguna. Dalam senario di mana maklumat pengguna dihadkan oleh perlindungan privasi atau tidak boleh diperolehi, sistem pengesyoran tradisional sering gagal berfungsi dengan baik. Oleh itu, bagaimana untuk membina sistem pengesyoran yang boleh dipercayai sambil memastikan privasi dan keselamatan adalah masalah yang mendesak untuk diselesaikan.
Dalam beberapa tahun kebelakangan ini, apabila pengguna memberi lebih perhatian kepada privasi mereka sendiri, semakin ramai pengguna cenderung menggunakan platform dalam talian tanpa Melakukan operasi log masuk , yang turut menjadikan pengesyoran berasaskan sesi tanpa nama sebagai hala tuju penyelidikan yang penting. Baru-baru ini, penyelidik dari Universiti Sains dan Teknologi Hong Kong, Universiti Peking, Microsoft Asia Research dan institusi lain telah mencadangkan model baharu Atten-Mixer yang menggunakan niat pengguna pelbagai peringkat dengan cekap. Kertas penyelidikan itu mendapat penghormatan untuk Kertas Terbaik di WSDM2023.
Pautan kertas : https://dl.acm.org/doi/abs/10.1145/3539597.3570445
Latar belakang penyelidikan
Pengesyoran berasaskan sesi (SBR) ialah kaedah membuat pengesyoran berdasarkan sesi pendek dan dinamik pengguna (iaitu, jujukan tingkah laku pengguna).
Berbanding dengan sistem pengesyoran berasaskan pengguna atau item tradisional, SBR lebih memfokuskan pada menangkap keperluan segera pengguna dalam sesi semasa dan boleh dengan lebih tepat Cabaran untuk menyesuaikan diri secara berkesan dengan evolusi pesat minat pengguna dan kesan ekor panjang.
Dalam evolusi model SBR, daripada model berdasarkan Recurrent Neural Network (RNN) kepada model berdasarkan rangkaian neural convolutional (Convolutional Model Rangkaian Neural, CNN), dan dalam penyelidikan SBR baru-baru ini, model berdasarkan Rangkaian Neural Graf (GNN) digunakan secara meluas untuk melombong perhubungan pemindahan kompleks antara item dengan lebih baik.
Walau bagaimanapun, prestasi model ini penambahbaikan pada set data penanda aras adalah terhad berbanding dengan peningkatan eksponen dalam kerumitan model. Menghadapi fenomena ini, kertas kerja ini menimbulkan persoalan berikut: Adakah model berasaskan GNN ini terlalu mudah atau terlalu kompleks untuk SBR?
Analisis awal
Untuk menjawab soalan ini , penulis Cuba menyahbina model SBR berasaskan GNN sedia ada dan menganalisis peranannya dalam tugasan SBR.
Secara umumnya, model SBR berasaskan GNN biasa boleh diuraikan kepada dua bahagian:
(1) Modul GNN. Parameter boleh dibahagikan kepada pemberat perambatan untuk lilitan graf dan pemberat GRU untuk menggabungkan pembenaman asal dan output lilitan graf.
(2) Modul Bacaan. Parameter termasuk pemberat pengumpulan perhatian untuk menjana perwakilan jangka panjang dan pemberat transformasi untuk menjana perwakilan sesi untuk ramalan.
Seterusnya, penulis membincangkan dua bahagian ini masing-masing Variational Dropout (SparseVD) digunakan, teknologi sparsifikasi rangkaian saraf yang biasa digunakan, dan nisbah ketumpatan parameter dikira semasa melatih model.
Nisbah ketumpatan parameter merujuk kepada nisbah bilangan elemen yang lebih besar daripada ambang tertentu kepada jumlah bilangan elemen dalam berat parameter parameter.
Modul GNN.
Memandangkan GNN mempunyai banyak parameter, dengan permulaan rawak, akan ada banyak pada permulaan Ilmu untuk dikemaskini. Oleh itu, kita dapat melihat bahawa nisbah ketumpatan berat perambatan lilitan graf akan turun naik dalam beberapa kelompok pertama data. Apabila latihan menjadi stabil, nisbah ketumpatan akan cenderung kepada 0. Modul bacaan.
Kita dapati bahawa semasa latihan berlangsung,
nisbah ketumpatan berat pengumpulan perhatian boleh dikekalkan pada tahap yang lebih tinggi.
Oleh itu, penulis mendapati bahawa banyak parameter modul GNN adalah berlebihan semasa proses latihan. Berdasarkan ini, penulis mencadangkan garis panduan reka bentuk model yang lebih mudah dan berkesan berikut untuk SBR:
(1) Jangan mengejar kerumitan yang berlebihan Dalam GNN reka bentuk, pengarang cenderung untuk memadamkan bahagian perambatan GNN dan hanya mengekalkan lapisan benam awal
;
(2) Pereka model hendaklah lagi
Fokus pada modul Bacaan berasaskan perhatian
.
Memandangkan parameter berat pengumpulan perhatian mengekalkan nisbah ketumpatan tinggi, penulis membuat spekulasi bahawa kaedah pembacaan berasaskan perhatian yang lebih maju Reka bentuk seni bina akan lebih bermanfaat .
Memandangkan artikel ini meninggalkan pergantungan pada bahagian penyebaran GNN, modul Readout harus memikul lebih tanggungjawab untuk penaakulan model.
Memandangkan modul Bacaan sedia ada berdasarkan paparan contoh mempunyai keupayaan penaakulan terhad, artikel ini perlu mereka bentuk Keupayaan penaakulan yang lebih kukuh bagi modul Bacaan .
Cara mereka bentuk modul Readout dengan keupayaan penaakulan yang lebih kukuh
Menurut penyelidikan psikopatologi, penaakulan manusia pada asasnya adalah proses pemprosesan maklumat pelbagai peringkat.
Sebagai contoh, dengan mempertimbangkan secara menyeluruh produk asas yang berinteraksi dengan Alice, manusia boleh memperoleh beberapa konsep peringkat lebih tinggi, seperti sama ada Alice merancang untuk merancang perkahwinan atau menghias Rumah baru. Selepas menentukan bahawa Alice berkemungkinan merancang perkahwinan, manusia kemudiannya mempertimbangkan barangan perkahwinan yang berkaitan dengan sejambak, seperti belon perkahwinan, dan bukannya barangan hiasan yang berkaitan dengan sejambak, seperti mural dinding.
Mengguna pakai strategi penaakulan pelbagai peringkat ini dalam sistem pengesyor boleh membantu memangkas sejumlah besar ruang carian dan mengelakkan penyelesaian optimum setempat, dengan mempertimbangkan pengguna Aliran tingkah laku keseluruhan menumpu kepada penyelesaian yang lebih memuaskan.
Oleh itu, artikel ini berharap dapat memperkenalkan mekanisme penaakulan pelbagai lapisan ini ke dalam reka bentuk modul Readout
.
Walau bagaimanapun, mendapatkan konsep peringkat tinggi ini bukanlah satu tugas yang mudah, kerana hanya menyenaraikan konsep peringkat tinggi ini adalah tidak realistik dan berkemungkinan memperkenalkan konsep yang tidak relevan dan mengganggu prestasi model.
Untuk menangani cabaran ini, artikel ini menggunakan dua bias induktif berkaitan SBR: invarian tempatan dan keutamaan yang wujud (keutamaan sedia ada), untuk mengurangkan ruang carian .
- Keutamaan intrinsik merujuk kepada beberapa perkara terakhir dalam sesi yang lebih mencerminkan minat semasa pengguna; bahawa susunan relatif beberapa item terakhir dalam sesi tidak menjejaskan minat pengguna Oleh itu, dalam amalan, kumpulan boleh dibentuk dengan bilangan item ekor yang berbeza, dan konsep peringkat tinggi yang berkaitan boleh dibina melalui kumpulan ini.
- Di sini item ekor sepadan dengan keutamaan yang wujud, kumpulan sepadan dengan invarian tempatan dan nombor yang berbeza mewakili konsep peringkat tinggi berbilang lapisan yang dipertimbangkan oleh artikel ini.
Model yang dicadangkan
di mana Q1 ialah pertanyaan perhatian paparan contoh, manakala yang lain ialah pertanyaan perhatian peringkat tinggi dengan medan penerimaan yang berbeza dan maklumat invarian tempatan. Seterusnya, model menggunakan pertanyaan perhatian yang dijana untuk menghadiri keadaan tersembunyi setiap item dalam sesi dan mendapatkan perwakilan sesi terakhir.
Percubaan dan keputusan
Keputusan percubaan luar talian
(1) Perbandingan keseluruhan
Pengarang membandingkan Atten-Mixer dengan empat kaedah asas berdasarkan CNN, berasaskan RNN, berasaskan GNN dan berasaskan bacaan.
Hasil eksperimen menunjukkan bahawa Atten-Mixer mengatasi kaedah garis dasar dari segi ketepatan dan kecekapan pada tiga set data.
(2) Analisis peningkatan prestasi
Selain itu, penulis juga membenamkan Atten-Mixer modul ke dalam SR-GNN dan SGNN-HN untuk mengesahkan kesan peningkatan prestasi kaedah ini pada model asal.
Hasil percubaan luar talian menunjukkan bahawa Atten-Mixer meningkatkan prestasi model dengan ketara pada semua set data, terutamanya apabila nilai K dalam indeks penilaian adalah kecil, menunjukkan bahawa Atten-Mixer boleh membantu The original model menjana pengesyoran yang lebih tepat dan mesra pengguna.
Pengarang juga menggunakan Atten-Mixer ke dalam perkhidmatan dalam talian e-dagang berskala besar pada April 2021. Percubaan dalam talian menunjukkan bahawa rangkaian pencampuran perhatian berbilang peringkat (Atten-Mixer) berprestasi baik pada pelbagai penunjuk perniagaan dalam talian Semua telah mencapai peningkatan yang ketara.
Kesimpulan eksperimen
Untuk meringkaskan, Atten-Mixer mempunyai keupayaan inferens berbilang peringkat dan menunjukkan prestasi dalam talian dan luar talian yang sangat baik dari segi ketepatan dan kecekapan. Berikut ialah beberapa sumbangan utama:
- Seni bina model yang kompleks bukanlah syarat yang diperlukan untuk SBR, dan reka bentuk seni bina yang inovatif bagi kaedah bacaan berasaskan perhatian ialah pelan penyelesaian yang berkesan .
- Korelasi konsep berbilang peringkat membantu menangkap minat pengguna, dan menggunakan kecenderungan induktif ialah cara yang berkesan untuk menemui konsep pesanan tinggi yang kaya dengan maklumat.
Proses penyelidikan
Akhir sekali, adalah wajar dinyatakan bahawa terdapat proses pembangunan yang berliku-liku di sebalik pencalonan kehormat artikel ini untuk kertas terbaik dalam Pengalaman WSDM2023, sebagai salah seorang penulis artikel, Haohan Wang dari UIUC, memperkenalkan, artikel ini sebenarnya ditolak berkali-kali semasa proses penyerahan kerana ia terlalu mudah, penulis artikel tidak pergi untuk artikel Cina citarasa pengulas, saya sebaliknya berpegang kepada pendekatan mudah saya sendiri dan akhirnya mendapat penghormatan artikel ini.
Atas ialah kandungan terperinci Untuk menggunakan niat pengguna berbilang peringkat dengan berkesan, Universiti Sains dan Teknologi Hong Kong, Universiti Peking, dll. mencadangkan model cadangan sesi baharu Atten-Mixer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.
