


Bagaimana untuk menggunakan pembelajaran pengukuhan untuk meningkatkan pengekalan pengguna Kuaishou?
Matlamat teras sistem pengesyoran video pendek adalah untuk memacu pertumbuhan DAU dengan meningkatkan pengekalan pengguna. Oleh itu, pengekalan ialah salah satu petunjuk pengoptimuman perniagaan teras bagi setiap APP. Walau bagaimanapun, pengekalan ialah maklum balas jangka panjang selepas berbilang interaksi antara pengguna dan sistem, dan sukar untuk menguraikannya menjadi satu item atau senarai tunggal Oleh itu, sukar untuk model tradisional dari segi titik dan senarai untuk secara langsung mengoptimumkan pengekalan.
Kaedah pembelajaran pengukuhan (RL) mengoptimumkan ganjaran jangka panjang dengan berinteraksi dengan persekitaran, dan sesuai untuk mengoptimumkan pengekalan pengguna secara langsung. Kerja ini memodelkan masalah pengoptimuman pengekalan sebagai proses keputusan Markov (MDP) dengan butiran permintaan ufuk tak terhingga Setiap kali pengguna meminta sistem pengesyoran untuk memutuskan tindakan, ia digunakan untuk mengagregatkan berbilang anggaran maklum balas jangka pendek yang berbeza (Tempoh tontonan. suka, ikut, komen, tweet semula, dsb.) pemarkahan model ranking. Matlamat kerja ini adalah untuk mempelajari dasar, meminimumkan selang masa terkumpul antara berbilang sesi pengguna, meningkatkan kekerapan pembukaan apl dan dengan itu meningkatkan pengekalan pengguna.
Walau bagaimanapun, disebabkan oleh ciri isyarat yang dikekalkan, aplikasi langsung algoritma RL sedia ada mempunyai cabaran berikut: 1) Ketidakpastian: isyarat yang dikekalkan bukan sahaja ditentukan oleh algoritma pengesyoran , tetapi juga diganggu oleh banyak faktor luaran; 2) Bias: Isyarat pengekalan mempunyai penyimpangan dalam tempoh masa yang berbeza dan kumpulan pengguna aktif yang berbeza 3) Ketidakstabilan: Tidak seperti persekitaran permainan yang mengembalikan ganjaran serta-merta, isyarat pengekalan biasanya kembali dalam beberapa jam hari, yang akan menyebabkan algoritma RL pergi dalam talian Masalah ketidakstabilan latihan.
Kerja ini mencadangkan algoritma Pembelajaran Pengukuhan untuk Pengekalan Pengguna (RLUR) untuk menyelesaikan cabaran di atas dan mengoptimumkan pengekalan secara langsung. Melalui pengesahan luar talian dan dalam talian, algoritma RLUR boleh meningkatkan indeks pengekalan sekunder dengan ketara berbanding garis dasar Negara Seni. Algoritma RLUR telah dilaksanakan sepenuhnya dalam Apl Kuaishou, dan boleh terus mencapai pengekalan sekunder yang ketara dan hasil DAU Ini adalah kali pertama dalam industri bahawa teknologi RL telah digunakan untuk meningkatkan pengekalan pengguna dalam persekitaran pengeluaran sebenar. Kerja ini telah diterima ke dalam Laluan Industri WWW 2023.
Pengarang: Cai Qingpeng, Liu Shuchang, Wang Xueliang, Zuo Tianyou, Xie Wentao, Yang Bin, Zheng Dong, Jiang Peng
Alamat kertas: https://arxiv.org/pdf/2302.01724.pdf
Pemodelan Masalah
Seperti yang ditunjukkan dalam Rajah 1(a), kerja ini memodelkan masalah pengoptimuman pengekalan sebagai Proses Keputusan Markov berasaskan permintaan ufuk tak terhingga, di mana sistem pengesyoran adalah ejen, pengguna ialah persekitaran. Setiap kali pengguna membuka Apl, sesi baharu i dibuka. Seperti yang ditunjukkan dalam Rajah 1(b), setiap kali pengguna meminta sistem pengesyoran menentukan vektor parameter
berdasarkan status pengguna
, manakala n Model kedudukan yang menganggarkan penunjuk jangka pendek yang berbeza (masa tontonan, suka, perhatian, dll.) menjaringkan setiap video calon j
. Kemudian fungsi pengisihan memasukkan tindakan dan vektor pemarkahan setiap video untuk mendapatkan skor akhir setiap video, dan memilih 6 video yang mendapat markah tertinggi untuk dipaparkan kepada pengguna. Pengguna mengembalikan maklum balas segera
. Apabila pengguna meninggalkan Apl, sesi ini tamat Pada kali seterusnya pengguna membuka Apl, sesi i+1 dibuka Selang masa antara akhir sesi sebelumnya dan permulaan sesi seterusnya dipanggil masa kembali (. Masa kembali),
. Matlamat penyelidikan ini adalah untuk melatih strategi yang meminimumkan jumlah masa panggil balik untuk berbilang sesi.
Algoritma RLUR
Kerja ini mula-mula membincangkan cara menganggarkan masa lawatan balik kumulatif, dan kemudian mencadangkan kaedah untuk menyelesaikan beberapa cabaran utama bagi isyarat yang dikekalkan. Kaedah ini diringkaskan ke dalam algoritma Pembelajaran Pengukuhan untuk Pengekalan Pengguna, disingkatkan sebagai RLUR.
Anggaran masa lawatan balik
Seperti yang ditunjukkan dalam Rajah 1(d), memandangkan tindakan itu berterusan, Kerja ini menggunakan kaedah pembelajaran perbezaan temporal (TD) algoritma DDPG untuk menganggarkan masa lawatan balik.
Memandangkan setiap sesi hanya mempunyai ganjaran masa lawatan balik untuk permintaan terakhir, dan ganjaran perantaraan ialah 0, pengarang menetapkan faktor diskaun Nilai permintaan terakhir dalam setiap sesi ialah
, dan nilai permintaan lain ialah 1. Tetapan ini boleh mengelakkan pereputan eksponen masa lawatan balik. Dan secara teori boleh dibuktikan bahawa apabila kerugian (1) ialah 0, Q sebenarnya menganggarkan masa pulangan kumulatif berbilang sesi,
.
Menyelesaikan masalah kelewatan ganjaran
Memandangkan masa lawatan balik hanya berlaku pada akhir setiap sesi , yang akan membawa masalah kecekapan pembelajaran yang rendah. Oleh itu, pengarang menggunakan ganjaran heuristik untuk meningkatkan pembelajaran dasar. Memandangkan maklum balas jangka pendek berkaitan secara positif dengan pengekalan, pengarang menggunakan maklum balas jangka pendek sebagai ganjaran heuristik pertama. Dan penulis menggunakan rangkaian Penyulingan Rangkaian Rawak (RND) untuk mengira ganjaran intrinsik setiap sampel sebagai ganjaran heuristik kedua. Secara khusus, rangkaian RND menggunakan dua struktur rangkaian yang sama Satu rangkaian dimulakan secara rawak kepada tetap, dan rangkaian lain sesuai dengan rangkaian tetap, dan kerugian pemasangan digunakan sebagai ganjaran intrinsik. Seperti yang ditunjukkan dalam Rajah 1(e), untuk mengurangkan gangguan ganjaran heuristik pada ganjaran pengekalan, kerja ini mempelajari rangkaian pengkritik yang berasingan untuk menganggarkan jumlah maklum balas jangka pendek dan ganjaran intrinsik. Iaitu .
Menyelesaikan isu ketidakpastian
Disebabkan oleh masa lawatan balik, ia telah disyorkan oleh banyak faktor dan ketidakpastian yang tinggi, yang akan menjejaskan kesan pembelajaran. Kerja ini mencadangkan kaedah regularisasi untuk mengurangkan varians: mula-mula menganggarkan model klasifikasi untuk menganggarkan kebarangkalian masa lawatan balik, iaitu sama ada anggaran masa lawatan balik adalah lebih pendek daripada
; Kemudian gunakan ketaksamaan Markov untuk mendapatkan batas bawah masa lawatan balik,
Akhir sekali, gunakan masa lawatan balik sebenar/anggaran masa lawatan balik yang terikat lebih rendah sebagai lawatan balik yang ditetapkan pahala.
Menyelesaikan masalah sisihan
Disebabkan perbezaan besar dalam tabiat tingkah laku kumpulan aktif yang berbeza, pengguna sangat aktif Kadar pengekalan adalah tinggi dan bilangan sampel latihan adalah jauh lebih besar daripada pengguna aktif rendah, yang akan menyebabkan pembelajaran model didominasi oleh pengguna aktif tinggi. Untuk menyelesaikan masalah ini, kerja ini mempelajari 2 strategi bebas untuk kumpulan yang berbeza dengan aktiviti tinggi dan aktiviti rendah, dan menggunakan aliran data yang berbeza untuk latihan The Actor meminimumkan masa lawatan balik sambil memaksimumkan ganjaran tambahan. Seperti yang ditunjukkan dalam Rajah 1(c), mengambil kumpulan aktiviti tinggi sebagai contoh, kerugian Pelakon ialah:
Menyelesaikan masalah ketidakstabilan
Disebabkan kelewatan isyarat dalam lawatan balas masa, Biasanya kembali dalam masa beberapa jam hingga beberapa hari, yang boleh menyebabkan ketidakstabilan dalam latihan dalam talian RL. Walau bagaimanapun, secara langsung menggunakan kaedah pengklonan tingkah laku sedia ada sama ada akan mengehadkan kelajuan pembelajaran atau gagal menjamin pembelajaran yang stabil. Oleh itu, kerja ini mencadangkan kaedah regularisasi lembut baharu, iaitu, mendarabkan kehilangan aktor dengan pekali regularisasi lembut:
Kaedah penyusunan semula ini pada asasnya adalah kesan brek: jika strategi pembelajaran semasa dan strategi sampel menyimpang dengan ketara, kerugian akan menjadi lebih kecil dan pembelajaran akan cenderung stabil jika kelajuan pembelajaran cenderung stabil, kerugian akan berlaku; semula- Semakin besar anda, semakin cepat anda belajar. Apabila , bermakna tiada sekatan terhadap proses pembelajaran.
Percubaan luar talian
Kerja ini menggabungkan RLUR dan algoritma pembelajaran pengukuhan TD3 Terkini, serta kaedah pengoptimuman kotak hitam Kaedah Cross Entropy ( CEM) dalam Set data awam KuaiRand digunakan untuk perbandingan. Kerja ini mula-mula membina simulator pengekalan berdasarkan set data KuaiRand: termasuk tiga modul: maklum balas segera pengguna, pengguna meninggalkan sesi dan lawatan balik pengguna ke apl, dan kemudian menggunakan kaedah penilaian simulator pengekalan ini.
Jadual 1 menggambarkan bahawa RLUR jauh lebih baik daripada CEM dan TD3 dalam masa lawatan balik dan penunjuk pengekalan sekunder. Kajian ini menjalankan eksperimen ablasi untuk membandingkan RLUR dengan hanya bahagian pembelajaran pengekalan (RLUR (naif)), yang boleh menggambarkan keberkesanan pendekatan kajian ini untuk menyelesaikan cabaran pengekalan. Dan melalui perbandingan dan
, ditunjukkan bahawa algoritma meminimumkan masa pulangan berbilang sesi adalah lebih baik daripada meminimumkan masa pulangan satu sesi .
Percubaan dalam talian
Kerja ini menjalankan ujian A/B pada sistem pengesyoran video pendek Kuaishou untuk membandingkan RLUR dan CEM kaedah . Rajah 2 menunjukkan peratusan peningkatan kekerapan pembukaan apl, DAU, pengekalan pertama dan pengekalan ke-7 masing-masing berbanding RLUR dan CEM. Ia boleh didapati bahawa kekerapan pembukaan apl meningkat secara beransur-ansur dan malah menumpu dari 0 hingga 100 hari. Dan ia juga memacu peningkatan pengekalan kedua, pengekalan ke-7 dan penunjuk DAU (0.1% DAU dan 0.01% peningkatan dalam pengekalan kedua dianggap signifikan secara statistik).
Ringkasan dan kerja akan datang
Kertas kerja ini mengkaji cara meningkatkan pengekalan pengguna sistem pengesyoran melalui teknologi RL Kerja ini memodelkan pengoptimuman pengekalan sebagai Marko dengan butiran permintaan ufuk tak terhingga Kerja ini mencadangkan algoritma RLUR untuk mengoptimumkan pengekalan secara langsung dan menangani beberapa cabaran utama isyarat pengekalan dengan berkesan. Algoritma RLUR telah dilaksanakan sepenuhnya dalam Apl Kuaishou dan boleh mencapai pengekalan sekunder yang ketara dan hasil DAU. Mengenai kerja masa depan, cara menggunakan pembelajaran pengukuhan luar talian, Pengubah Keputusan dan kaedah lain untuk meningkatkan pengekalan pengguna dengan lebih berkesan adalah arah yang menjanjikan.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan pembelajaran pengukuhan untuk meningkatkan pengekalan pengguna Kuaishou?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Pembelajaran pengukuhan (RL) ialah kaedah pembelajaran mesin yang membolehkan ejen mempelajari cara berkelakuan dalam persekitarannya melalui percubaan dan kesilapan. Ejen diberi ganjaran atau dihukum kerana mengambil tindakan yang membawa kepada hasil yang diingini. Dari masa ke masa, ejen belajar untuk mengambil tindakan yang memaksimumkan ganjaran yang dijangkakan. Ejen RL biasanya dilatih menggunakan proses keputusan Markov (MDP), rangka kerja matematik untuk memodelkan masalah keputusan berjujukan. MDP terdiri daripada empat bahagian: Nyatakan: satu set kemungkinan keadaan persekitaran. Tindakan: Satu set tindakan yang boleh diambil oleh ejen. Fungsi peralihan: Fungsi yang meramalkan kebarangkalian peralihan kepada keadaan baharu memandangkan keadaan dan tindakan semasa. Fungsi ganjaran: Fungsi yang memberikan ganjaran kepada ejen untuk setiap penukaran. Matlamat ejen adalah untuk mempelajari fungsi polisi,

Lapisan bawah fungsi C++ sort menggunakan isihan gabungan, kerumitannya ialah O(nlogn), dan menyediakan pilihan algoritma pengisihan yang berbeza, termasuk isihan pantas, isihan timbunan dan isihan stabil.

Konvergensi kecerdasan buatan (AI) dan penguatkuasaan undang-undang membuka kemungkinan baharu untuk pencegahan dan pengesanan jenayah. Keupayaan ramalan kecerdasan buatan digunakan secara meluas dalam sistem seperti CrimeGPT (Teknologi Ramalan Jenayah) untuk meramal aktiviti jenayah. Artikel ini meneroka potensi kecerdasan buatan dalam ramalan jenayah, aplikasi semasanya, cabaran yang dihadapinya dan kemungkinan implikasi etika teknologi tersebut. Kecerdasan Buatan dan Ramalan Jenayah: Asas CrimeGPT menggunakan algoritma pembelajaran mesin untuk menganalisis set data yang besar, mengenal pasti corak yang boleh meramalkan di mana dan bila jenayah mungkin berlaku. Set data ini termasuk statistik jenayah sejarah, maklumat demografi, penunjuk ekonomi, corak cuaca dan banyak lagi. Dengan mengenal pasti trend yang mungkin terlepas oleh penganalisis manusia, kecerdasan buatan boleh memperkasakan agensi penguatkuasaan undang-undang

01Garis prospek Pada masa ini, sukar untuk mencapai keseimbangan yang sesuai antara kecekapan pengesanan dan hasil pengesanan. Kami telah membangunkan algoritma YOLOv5 yang dipertingkatkan untuk pengesanan sasaran dalam imej penderiaan jauh optik resolusi tinggi, menggunakan piramid ciri berbilang lapisan, strategi kepala pengesanan berbilang dan modul perhatian hibrid untuk meningkatkan kesan rangkaian pengesanan sasaran dalam imej penderiaan jauh optik. Menurut set data SIMD, peta algoritma baharu adalah 2.2% lebih baik daripada YOLOv5 dan 8.48% lebih baik daripada YOLOX, mencapai keseimbangan yang lebih baik antara hasil pengesanan dan kelajuan. 02 Latar Belakang & Motivasi Dengan perkembangan pesat teknologi penderiaan jauh, imej penderiaan jauh optik resolusi tinggi telah digunakan untuk menggambarkan banyak objek di permukaan bumi, termasuk pesawat, kereta, bangunan, dll. Pengesanan objek dalam tafsiran imej penderiaan jauh

1. Latar Belakang Pembinaan 58 Portrait Platform Pertama sekali, saya ingin berkongsi dengan anda latar belakang pembinaan 58 Portrait Platform. 1. Pemikiran tradisional platform pemprofilan tradisional tidak lagi mencukupi Membina platform pemprofilan pengguna bergantung pada keupayaan pemodelan gudang data untuk menyepadukan data daripada pelbagai barisan perniagaan untuk membina potret pengguna yang tepat untuk memahami tingkah laku, minat pengguna dan keperluan, dan menyediakan keupayaan sampingan, akhirnya, ia juga perlu mempunyai keupayaan platform data untuk menyimpan, bertanya dan berkongsi data profil pengguna dan menyediakan perkhidmatan profil dengan cekap. Perbezaan utama antara platform pemprofilan perniagaan binaan sendiri dan platform pemprofilan pejabat pertengahan ialah platform pemprofilan binaan sendiri menyediakan satu barisan perniagaan dan boleh disesuaikan atas permintaan platform pertengahan pejabat berkhidmat berbilang barisan perniagaan, mempunyai kompleks pemodelan, dan menyediakan lebih banyak keupayaan umum. 2.58 Potret pengguna latar belakang pembinaan potret di platform tengah 58

Kini, robot boleh mempelajari tugas kawalan kilang ketepatan. Dalam tahun-tahun kebelakangan ini, kemajuan ketara telah dicapai dalam bidang teknologi pembelajaran pengukuhan robot, seperti berjalan berkaki empat, menggenggam, manipulasi ketangkasan, dan lain-lain, tetapi kebanyakannya terhad kepada peringkat demonstrasi makmal. Menggunakan teknologi pembelajaran pengukuhan robot secara meluas kepada persekitaran pengeluaran sebenar masih menghadapi banyak cabaran, yang pada tahap tertentu mengehadkan skop aplikasinya dalam senario sebenar. Dalam proses aplikasi praktikal teknologi pembelajaran pengukuhan, adalah perlu untuk mengatasi pelbagai masalah kompleks termasuk penetapan mekanisme ganjaran, penetapan semula persekitaran, peningkatan kecekapan sampel, dan jaminan keselamatan tindakan. Pakar industri menekankan bahawa menyelesaikan banyak masalah dalam pelaksanaan sebenar teknologi pembelajaran tetulang adalah sama pentingnya dengan inovasi berterusan algoritma itu sendiri. Menghadapi cabaran ini, penyelidik dari Universiti California, Berkeley, Universiti Stanford, Universiti Washington, dan
