Karya pertama dibangunkan sendiri oleh Kuaishou, terutamanya menyasarkan senario pelbagai tugas yang terhad.
Kerja ini ditujukan terutamanya kepada senario video pendek yang lebih profesional, terbahagi kepada tempoh tontonan dan interaksi, yang merupakan interaksi yang lebih biasa Termasuk suka, koleksi, ikuti dan komen, setiap maklum balas ini mempunyai ciri tersendiri. Melalui pemerhatian sistem dalam talian, kami mendapati bahawa isyarat tempoh sebenarnya sangat jarang, dan kerana ia adalah nilai berterusan, adalah sukar untuk mengukur tahap minat pengguna dengan tepat. Sebaliknya, isyarat interaktif lebih kaya, termasuk suka, kegemaran, ikutan dan ulasan ini boleh dibahagikan kepada dua kategori: pilihan khalayak dan maklum balas tingkah laku. Semasa proses pengoptimuman, kami menganggap isyarat ini sebagai matlamat utama, dan interaksi sebagai pengoptimuman tambahan Kami cuba memastikan bahawa isyarat interaktif tidak hilang sebagai matlamat keseluruhan pengoptimuman. Sebaliknya, nombor interaksi adalah lebih jarang, dan kerana tiada standard bersatu, adalah sukar untuk mengukur minat pengguna dengan tepat. Untuk meningkatkan kesan, kami perlu menjalankan pengoptimuman tertentu supaya ia boleh dioptimumkan sebagai matlamat utama dalam sistem kami, sambil memastikan integriti data interaktif sebagai tambahan kepada matlamat keseluruhan.
Dengan cara ini, masalah itu boleh digambarkan dengan sangat intuitif sebagai masalah pengoptimuman yang terhad. Terdapat matlamat utama untuk mengoptimumkan utiliti, dan matlamat tambahan adalah untuk memenuhi batas bawah. Berbeza dengan masalah pengoptimuman Pareto biasa, di sini kita perlu memberi keutamaan.
Cara biasa untuk menyelesaikan masalah ini ialah menukarnya kepada masalah dwi Lagrangian, supaya ia boleh disepadukan terus ke dalam fungsi objektif yang dioptimumkan sama ada pengoptimuman keseluruhan atau pengoptimuman berselang-seli, ia boleh Optimumkan matlamat keseluruhan. Sudah tentu, adalah perlu untuk mengawal korelasi dan faktor-faktor yang mempengaruhi matlamat yang berbeza.
Masih terdapat beberapa masalah dalam rumusan pemerhatian ini, kerana status pengguna berubah secara dinamik, menjadikannya berubah dengan cepat dalam senario video pendek. Di samping itu, kerana isyarat tidak seragam, terutamanya pengoptimuman sasaran utama dan pengoptimuman sasaran tambahan sianosis mempunyai masalah pengedaran yang sangat tidak konsisten, sukar untuk menangani penyelesaian sedia ada. Jika anda menyatukannya menjadi fungsi sasaran, salah satu isyarat mungkin menguasai isyarat lain.
Berdasarkan perkara pertama, memandangkan perubahan dinamik pengguna, masalah itu sering digambarkan sebagai MDP, iaitu urutan interaksi bergantian antara pengguna dan sistem, dan turutan ini Selepas menggambarkannya sebagai Proses Keputusan Markov, ia boleh diselesaikan menggunakan kaedah pembelajaran pengukuhan. Secara khusus, selepas menerangkan Proses Keputusan Markov, kerana ia juga perlu untuk membezakan matlamat utama dan matlamat tambahan, adalah perlu untuk membuat kenyataan tambahan bahawa apabila maklum balas pengguna diberikan, dua matlamat yang berbeza mesti dibezakan mungkin berbilang matlamat tambahan. Apabila pembelajaran peneguhan mentakrifkan matlamat pengoptimuman jangka panjang, ia mentakrifkan matlamat utama untuk dioptimumkan sebagai fungsi nilai jangka panjang, dipanggil fungsi nilai. Begitu juga, untuk sasaran tambahan, terdapat juga fungsi nilai yang sepadan. Setara dengan maklum balas setiap pengguna, akan ada penilaian nilai jangka panjang Berbanding dengan fungsi utiliti sebelumnya, ia kini telah menjadi fungsi nilai jangka panjang.
Begitu juga, beberapa masalah baharu akan timbul apabila digabungkan dengan pembelajaran peneguhan, seperti bagaimana pembelajaran peneguhan membezakan pekali diskaun yang berbeza. Di samping itu, apabila lebih banyak kekangan diperkenalkan, ruang carian untuk parameter menjadi lebih besar, menjadikan pembelajaran pengukuhan lebih sukar.
Penyelesaian untuk kerja ini adalah untuk membahagikan keseluruhan pengoptimuman kepada dua peringkat Peringkat pertama mengoptimumkan objektif tambahan, dan peringkat kedua mengoptimumkan objektif utama.
Dalam peringkat pertama pengoptimuman sasaran tambahan, kaedah pengoptimuman pengkritik pelakon biasa digunakan Untuk pengoptimuman sasaran tambahan seperti suka dan ikuti, seorang pengkritik dioptimumkan untuk menganggarkan kualiti keadaan semasa. Selepas anggaran nilai jangka panjang adalah tepat, anda boleh menggunakan fungsi nilai untuk membimbing pembelajarannya apabila mengoptimumkan pelakon. Formula (2) ialah pengoptimuman pengkritik, dan formula (3) ialah pengoptimuman pelakon Untuk pengoptimuman pengkritik, keadaan semasa, keadaan seterusnya dan pensampelan tindakan semasa akan digunakan semasa latihan. . Menurut persamaan Bellman, tindakan itu boleh diperolehi, dan ditambah dengan anggaran nilai keadaan masa hadapan, ia harus hampir dengan anggaran keadaan semasa Dengan cara ini, pengoptimuman boleh mendekati anggaran nilai jangka panjang yang tepat . Apabila membimbing pembelajaran aktor, iaitu mengesyorkan pembelajaran dasar, fungsi kelebihan digunakan. Fungsi kelebihan merujuk kepada sama ada kesan tindakan tertentu lebih kuat daripada anggaran purata ini dipanggil garis dasar. Lebih besar Kelebihan, lebih baik tindakan, dan lebih besar kebarangkalian untuk menggunakan strategi yang disyorkan ini. Ini adalah peringkat pertama, pengoptimuman matlamat tambahan.
Peringkat kedua adalah untuk mengoptimumkan matlamat utama, kami menggunakan tempoh. Sasaran tambahan menggunakan strategi anggaran apabila mengekang sasaran utama Kami berharap bahawa output pengedaran tindakan oleh sasaran utama adalah sedekat mungkin dengan sasaran tambahan yang berbeza Selagi kami terus mendekati sasaran tambahan, hasil daripada bantuan sasaran tidak boleh terlalu buruk. Selepas mendapat rumusan anggaran, penyelesaian bentuk tertutup boleh diperolehi melalui penyiapan segi empat sama, iaitu dengan cara berwajaran. Sebenarnya tidak banyak perbezaan antara kaedah pengoptimuman pengkritik pelakon keseluruhan matlamat utama pada peringkat pengkritik dan peringkat anggaran fungsi nilai. Tetapi dalam kes pelakon, kami memperkenalkan pemberat yang diperoleh daripada penyelesaian bentuk tertutup. Maksud berat ini ialah lebih besar faktor impak yang sepadan dengan strategi tambahan I tertentu, lebih besar impaknya terhadap berat keseluruhan. Kami berharap pengagihan keluaran dasar adalah sehampir mungkin dengan purata semua dasar sasaran tambahan Fenomena ini berlaku apabila tingkah laku penyelesaian bentuk tertutup diperolehi.
Kami menguji kesan pengoptimuman berbilang objektif pada set data luar talian. suka, komen dan benci dan penunjuk interaktif lain. Dapat dilihat bahawa pelakon-pengkritik dua peringkat yang kami cadangkan boleh mencapai hasil yang optimum.
Begitu juga, kami juga telah melakukan eksperimen perbandingan yang sepadan dalam sistem dalam talian Penetapan sistem dalam talian menggunakan model pengesyoran pelakon tambah kedudukan, dan kedudukan akhir ditentukan oleh setiap item dan Hasil darab dalam bagi pemberat. Ia juga boleh dilihat daripada percubaan dalam talian bahawa masa menonton boleh mengekang interaksi lain sambil bertambah baik Berbanding dengan strategi pengoptimuman sebelumnya, ia boleh mengekang penunjuk interaksi dengan lebih baik.
Di atas adalah pengenalan kepada karya pertama.
Kerja kedua juga adalah penerapan pembelajaran pengukuhan dalam pengoptimuman pelbagai tugas, tetapi ini adalah pengoptimuman yang lebih tradisional. Kerja ini adalah projek bersama antara Kuaishou dan City University of Hong Kong Pengarang pertama ialah Liu Ziru.
Masalah utama yang dibincangkan dalam kerja ini ialah latihan bersama berbilang tugasan biasa kaedah akan dipertimbangkan, dan dimensi sesi, iaitu perubahan dinamik jangka panjang, akan diabaikan. RMTL yang dicadangkan dalam kerja ini mengubah kaedah pemberat melalui ramalan jangka panjang.
Tetapan masalah adalah untuk menentukan pengoptimuman bersama anggaran CTR dan CVR. Kami juga mempunyai takrifan MDP (Proses Keputusan Markov), tetapi di sini tindakan itu bukan lagi senarai cadangan, tetapi anggaran CTR dan CVR yang sepadan. Jika anggaran adalah tepat, ganjaran hendaklah ditakrifkan sebagai BCE atau sebarang kerugian munasabah yang sepadan. Dari segi definisi matlamat keseluruhan, ia secara amnya ditakrifkan sebagai pemberat tugasan yang berbeza dan kemudian keseluruhan sesi dan semua sampel data dijumlahkan.
Anda boleh lihat selain diskaun Gamma, pekali beratnya juga akan dipengaruhi oleh pekali yang perlu dilaraskan.
Penyelesaian kami adalah untuk membuat pelarasan pekali ini berkaitan dengan anggaran dimensi sesi. Tulang belakang ESMM diberikan di sini Sudah tentu, penggunaan garis dasar lain juga biasa dan boleh diperbaiki menggunakan kaedah kami.
Mari perkenalkan ESMM secara terperinci Pertama, terdapat pelakon khusus tugasan Setiap tugas akan mempunyai sasaran dan pengoptimuman pelakon semasa, rangka kerja yang serupa dengan pengkritik pelakon yang disebutkan sebelum ini. Semasa proses pengoptimuman, kehilangan BCE perlu melaraskan berat khusus tugas apabila membimbing pembelajaran pelakon. Dalam penyelesaian kami, berat ini perlu diubah sewajarnya berdasarkan penilaian nilai masa hadapan. Maksud tetapan ini ialah jika nilai penilaian masa depan lebih tinggi, ini bermakna keadaan semasa dan tindakan semasa adalah lebih tepat, dan pembelajarannya boleh diperlahankan. Sebaliknya, jika ramalan masa depan adalah buruk, ini bermakna model itu tidak optimistik tentang masa depan keadaan dan tindakan, dan pembelajarannya harus ditingkatkan dengan cara ini. Penilaian masa depan di sini juga menggunakan rangkaian pengkritik yang disebutkan di atas untuk pembelajaran.
pengkritik juga menggunakan perbezaan antara keadaan masa depan dan keadaan semasa, tetapi ia berbeza daripada fungsi nilai Pembelajaran perbezaan di sini menggunakan fungsi Q, yang memerlukan penilaian bersama keadaan dan tindakan . Apabila mengemas kini pelakon, ia juga perlu menggunakan pembelajaran pelakon yang sepadan dengan tugas yang berbeza pada masa yang sama. Kemas kini lembut adalah helah umum, yang lebih berguna apabila meningkatkan kestabilan pembelajaran RL Ia biasanya mengoptimumkan sasaran dan pengkritik semasa pada masa yang sama.
Melalui eksperimen perbandingan pada dua set data awam, dapat dilihat bahawa kaedah kami boleh digabungkan dengan kaedah pengoptimuman sedia ada termasuk ESMM, MMoE dan PLE, dan keputusan yang diperolehi boleh Garis asas sebelumnya telah diperbaiki.
PLE ialah garis dasar terbaik dalam pemerhatian kami. Atribusi kami berdasarkan fenomena yang diperhatikan ialah PLE boleh mempelajari pembenaman dikongsi dengan lebih baik apabila mempelajari tugasan yang berbeza.
Sebaliknya, ESMM boleh mencapai penilaian CVR yang lebih baik pada tugas Kuairand. Kami membuat spekulasi bahawa ini berkaitan dengan korelasi yang lebih kukuh antara klik dan penukaran dalam set data ini.
Selain itu, kami juga melakukan ujian kebolehpindahan, kerana pengkritik kami boleh dicantumkan terus ke model lain. Sebagai contoh, anda boleh mempelajari pengkritik pelakon melalui RMTL yang paling asas, dan kemudian menggunakan pengkritik untuk meningkatkan prestasi model lain secara langsung. Kami mendapati bahawa kesannya boleh diperbaiki secara stabil semasa cantuman.
Akhir sekali, kami melakukan kajian ablasi untuk membandingkan kaedah pemberat yang berbeza Pada masa ini, hasil terbaik diperolehi oleh RMTL kami.
Akhir sekali, mari kita ringkaskan beberapa pengalaman RL dan MTL.
Kami mendapati bahawa pengoptimuman jangka panjang sistem pengesyoran, terutamanya pengoptimuman jangka panjang penunjuk kompleks, adalah senario yang sangat tipikal bagi pembelajaran pengukuhan dan pengoptimuman pelbagai tugas. Jika ia adalah pengoptimuman bersama matlamat utama dan sekunder, regularisasi lembut boleh digunakan untuk mengekang pembelajaran matlamat utama. Semasa pengoptimuman bersama berbilang objektif, jika perubahan dinamik objektif berbeza diambil kira, kesan pengoptimuman juga boleh dipertingkatkan.
Selain itu, terdapat juga beberapa cabaran Sebagai contoh, apabila menggabungkan modul pembelajaran pengukuhan yang berbeza, ia akan membawa banyak cabaran kepada kestabilan sistem. Pengalaman kami ialah mengawal kualiti data, mengawal ketepatan label dan menyelia ketepatan ramalan model adalah cara yang sangat penting. Selain itu, memandangkan sistem pengesyoran dan pengguna berinteraksi secara langsung, matlamat yang berbeza hanya boleh mencerminkan sebahagian pengalaman pengguna, jadi strategi pengesyoran yang terhasil akan menjadi sangat berbeza. Cara untuk bersama-sama mengoptimumkan dan meningkatkan pengalaman pengguna secara menyeluruh di bawah status pengguna yang sentiasa berubah akan menjadi topik yang sangat penting pada masa hadapan.
A1: Penunjuk tempoh ialah tugas regresi biasa. Tetapi kami juga mendapati bahawa anggaran tempoh sangat berkaitan dengan panjang video itu sendiri Contohnya, pengedaran video pendek dan video panjang akan sangat berbeza, jadi apabila menganggarkan, ia akan diklasifikasikan dahulu, dan kemudian regresi akan menjadi. selesai. Baru-baru ini, kami juga mempunyai artikel dalam KDD, yang bercakap tentang kaedah pembahagian anggaran isyarat tempoh menggunakan kaedah pokok Jika anda berminat, anda boleh memberi perhatian kepadanya. Maksud umum ialah, sebagai contoh, jika tempoh dibahagikan kepada video panjang dan video pendek, video panjang akan mempunyai julat anggaran, dan video pendek akan mempunyai julat anggaran untuk video pendek. Anda juga boleh menggunakan kaedah pokok untuk klasifikasi yang lebih terperinci Video panjang boleh dibahagikan kepada video sederhana dan video panjang, dan video pendek juga boleh dibahagikan kepada video ultra pendek dan video pendek. Sudah tentu, terdapat juga kaedah yang menggunakan kaedah pengelasan semata-mata untuk menyelesaikan anggaran tempoh, dan kami juga telah menjalankan ujian. Dari segi kesan keseluruhan, ia masih dalam kerangka klasifikasi Jika kita melakukan regresi semula, kesannya akan menjadi lebih baik sedikit. Anggaran penunjuk interaktif lain secara amnya serupa dengan kaedah anggaran sedia ada. Semasa penilaian luar talian, AUC dan GAUC secara amnya adalah isyarat yang agak kuat, dan pada masa ini kedua-dua isyarat ini agak tepat.
A2: Sistem kami terutamanya melihat penunjuk dalam talian, dan luar talian biasanya menggunakan MAE dan RMSE. Tetapi kami juga melihat bahawa terdapat perbezaan antara penilaian luar talian dan dalam talian Jika tiada peningkatan yang jelas dalam penilaian luar talian, maka kesan penambahbaikan yang sepadan mungkin tidak dapat dilihat secara dalam talian. perbezaannya tidak akan banyak.
A3: Menganalisis sebab pengguna menyiarkan semula dan melakukan beberapa pemerhatian mungkin mendapat hasil yang lebih baik. Pada masa ini, apabila kami melakukan anggaran pemajuan, perbezaan antara kaedah anggaran di bawah pautan kami dan sasaran interaktif lain tidak terlalu besar. Terdapat idea yang lebih umum bahawa definisi label, terutamanya definisi isyarat maklum balas negatif, akan sangat mempengaruhi ketepatan latihan model. Di samping itu, terdapat pengoptimuman sumber data Sama ada data dan pengedaran dalam talian adalah berat sebelah juga akan menjejaskan ketepatan ramalan, jadi banyak kerja kami juga pada debiasing. Kerana dalam senario pengesyoran, banyak penunjuk anggaran sebenarnya adalah isyarat tidak langsung, yang akan menjejaskan kesan pengesyoran dalam langkah seterusnya. Oleh itu, mengoptimumkan penunjuk berdasarkan kesan pengesyoran ialah senario aplikasi kami.
A4: Dalam gabungan pelbagai objektif, terdapat beberapa kaedah heuristik dan beberapa kaedah pengimbangan parameter manual pada permulaannya. Kemudian, saya secara beransur-ansur mula menggunakan kaedah pelarasan parameter, dan juga cuba melaraskan parameter untuk pembelajaran pengukuhan. Pengalaman semasa ialah pelarasan rujukan automatik adalah lebih baik daripada pelarasan manual, dan had atasnya lebih tinggi sedikit.
A5: Kami baru-baru ini mendapat beberapa isyarat di mana perbincangan kerja sangat jarang, dan maklum balas hanya mengambil masa beberapa hari. Salah satu isyarat yang paling tipikal ialah pengekalan pengguna, kerana pengguna mungkin pergi selama beberapa hari sebelum kembali, jadi apabila kami mendapat isyarat, model telah dikemas kini selama beberapa hari. Terdapat beberapa kompromi untuk menyelesaikan masalah ini Satu penyelesaian adalah untuk menganalisis isyarat maklum balas masa nyata yang mempunyai korelasi tertentu dengan isyarat yang sangat jarang ini. Dengan mengoptimumkan isyarat masa nyata ini, gabungan kaedah digunakan untuk mengoptimumkan isyarat jangka panjang secara tidak langsung. Mengambil pengekalan sebentar tadi sebagai contoh, dalam sistem kami, kami mendapati bahawa terdapat korelasi positif yang sangat kuat antara pengekalan pengguna dan masa tontonan masa nyata pengguna mewakili kelikatan pengguna kepada sistem, yang pada asasnya boleh menjamin sempadan bawah pengekalan pengguna. Apabila kami mengoptimumkan pengekalan, kami biasanya menggunakan tempoh pengoptimuman digabungkan dengan beberapa penunjuk lain yang berkaitan untuk mengoptimumkan pengekalan. Selagi analisis kami mendapati bahawa terdapat korelasi tertentu dengan pengekalan, kami boleh memperkenalkannya.
A6: Pengkritik pelakon adalah hasilnya selepas kami mengulangi beberapa kali Kami juga telah mencuba kaedah yang lebih intuitif seperti DQN dan Reinforce sebelum ini, sesetengah daripadanya memang berkesan dalam beberapa senario, tetapi pada masa ini pengkritik pelakon agak stabil satu. Dan cara yang baik untuk nyahpepijat. Sebagai contoh, menggunakan Reinforce memerlukan penggunaan isyarat jangka panjang, dan isyarat trajektori jangka panjang agak tidak menentu, jadi ia akan menjadi lebih sukar untuk meningkatkan kestabilannya. Tetapi satu kelebihan pengkritik pelakon ialah ia boleh mengoptimumkan berdasarkan isyarat satu langkah, yang merupakan ciri yang sangat konsisten dengan sistem pengesyoran. Kami berharap maklum balas setiap pengguna boleh digunakan sebagai sampel latihan untuk dipelajari, dan pengkritik pelakon yang sepadan serta kaedah DDPG akan sangat konsisten dengan tetapan sistem kami.
A7: Id pengguna sebenarnya tidak buruk, kerana ciri sisi pengguna kami masih menggunakan pelbagai ciri. Selain ciri id, pengguna juga mempunyai beberapa ciri statistik. Selain itu, pada pautan cadangan, kerana RL berada di peringkat yang agak lewat dalam modul yang kami gunakan, seperti penarafan dan penyusunan semula yang baik, anggaran dan isyarat kedudukan model juga akan diberikan pada peringkat sebelumnya di dalamnya. Oleh itu, pembelajaran pengukuhan masih memperoleh banyak isyarat sisi pengguna dalam senario yang disyorkan, dan pada asasnya tidak akan ada situasi di mana hanya satu ID pengguna digunakan.
A8: Ya, dan kami mendapati bahawa jika id pengguna tidak digunakan, kesan pada pemperibadian adalah agak besar. Jika anda hanya menggunakan beberapa ciri statistik pengguna, kadangkala kesan peningkatan tidak sehebat ID pengguna. Memang kesan id pengguna agak besar, tetapi jika kesannya terlalu besar, akan berlaku masalah turun naik.
A9: Masalah ini berat sebelah terhadap permulaan sejuk pengguna Dalam senario permulaan sejuk, pautan yang disyorkan biasanya diisi dengan ciri pelengkap atau automatik, dengan anggapan ia adalah pengguna lalai, masalah ini boleh diselesaikan pada tahap tertentu. Kemudian, apabila pengguna terus berinteraksi dengan sistem dan sesi terus diperkaya, kami sebenarnya boleh mendapatkan sejumlah maklum balas pengguna dan latihan secara beransur-ansur akan menjadi lebih tepat. Dari segi memastikan kestabilan, pada asasnya selagi anda mengawal dengan baik dan menghalang satu id pengguna daripada mendominasi latihan, anda masih boleh meningkatkan kesan sistem dengan baik.
A10: Kerja itu adalah untuk melakukan secara langsung baldi, dan kemudian menggunakan kebarangkalian ketibaan setiap baldi untuk bersama-sama menilai tempoh, bukannya melakukan regresi selepas baldi. Ia hanya menggunakan kebarangkalian timba, ditambah dengan nilai timba untuk membuat penilaian kebarangkalian keseluruhan. Regresi selepas baldi seharusnya tidak lagi tidak berat sebelah Lagipun, setiap baldi masih mempunyai corak pengedarannya sendiri.
A11: Ini sebenarnya bukan lagi pengoptimuman multi-objektif malah penunjuk CTR boleh digunakan secara langsung sebagai input untuk mengoptimumkan CPR, kerana CTR bukan lagi matlamat pengoptimuman. Tetapi ini mungkin tidak baik untuk pengguna, kerana CTR pengguna mewakili keutamaan dan kelekatan sistem pada tahap yang lebih besar. Walau bagaimanapun, sistem yang berbeza mungkin berbeza, bergantung pada sama ada sistem pengesyoran tertumpu terutamanya pada penjualan produk atau trafik. Memandangkan video pendek Kuaishou terutamanya berdasarkan trafik, CTR pengguna ialah penunjuk yang lebih intuitif dan penting, dan CVR hanyalah kesan selepas lencongan trafik.
Atas ialah kandungan terperinci Pembelajaran pengukuhan Kuaishou dan cadangan pelbagai tugas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!