Pengesyoran Suapan Baidu ialah platform pengesyoran aliran maklumat yang komprehensif dengan ratusan juta pengguna sebulan. Platform ini merangkumi pelbagai jenis kandungan seperti grafik, video, kemas kini, program mini, Soal Jawab, dsb. Ia bukan sahaja menyediakan pengesyoran klik dan klik yang serupa dengan lajur tunggal atau berganda, tetapi juga termasuk pelbagai borang pengesyoran seperti rendaman video. Pada masa yang sama, sistem pengesyoran ialah sistem berbilang pemegang kepentingan yang bukan sahaja merangkumi pengalaman pengguna sisi C. Pengeluar kandungan memainkan peranan penting dalam sistem pengesyoran Baidu Feed mempunyai sejumlah besar pengamal aktif, menghasilkan sejumlah besar kandungan setiap hari.
Intipati sistem pengesyoran platform kandungan adalah untuk mencapai situasi menang-menang untuk semua pihak Bagi pihak pengguna: platform perlu terus mengesyorkan kandungan berkualiti tinggi, segar dan pelbagai kepada pengguna, menarik lebih banyak lagi pengguna, dan menyumbang lebih banyak masa; Bagi pihak pengarang: Insentif positif daripada pengguna menggalakkan pengarang untuk menghasilkan lebih banyak kandungan yang berkualiti tinggi Sebaliknya, jika kandungan yang berkualiti tinggi dan segar yang diterbitkan oleh pengarang tidak mendapat pendedahan yang cepat dan mencukupi , penulis akan memilih untuk keluar dari platform, yang tidak sesuai dengan platform. Berdasarkan perbincangan di atas, beberapa kata kunci boleh diekstrak: kesegaran, kualiti tinggi, kepelbagaian, penerbitan pengarang, dan pengekalan. Ini berkait rapat dengan apa yang akan dibincangkan oleh artikel ini, permulaan yang sejuk. Pertama sekali, lebih banyak sumber seharusnya dapat memperoleh paparan yang mencukupi, dan dengan mengumpul lebih banyak maklum balas kandungan, jumlah kandungan yang boleh disyorkan oleh sistem boleh ditingkatkan, dengan itu meningkatkan kepelbagaian sumber penggunaan pengguna, kedua, sumber baharu boleh; cepat dihasilkan untuk meningkatkan bilangan pengguna Kesegaran kandungan seterusnya akan memacu tempoh pasaran, DAU, dan CTR di sisi pengarang, ia akan meningkatkan bilangan pengarang aktif dan jumlah kandungan yang diterbitkan dengan merangsang semangat penulis.
Terdapat beberapa perbezaan antara permulaan sejuk sumber baharu dan algoritma pengesyoran biasa. Cabaran yang dihadapi oleh permulaan sejuk boleh diringkaskan kepada tiga aspek utama: 1. Kekurangan data: Sumber baharu selalunya tidak mempunyai data gelagat pengguna yang mencukupi untuk menyokong pengesyoran diperibadikan pada peringkat awal. Ini menyebabkan algoritma pengesyoran menjadi tidak tepat
Yang pertama ialah cabaran pengesyoran yang tepat. Dengan pembangunan algoritma pengesyoran sepanjang dekad yang lalu atau lebih, daripada penguraian matriks awal kepada aplikasi pembelajaran mendalam yang meluas kemudian, peranan ciri jenis ID dalam model secara beransur-ansur menjadi lebih menonjol. Walau bagaimanapun, kerana bilangan sampel permulaan sejuk bagi sumber baharu jarang atau tiada, ciri jenis ID tidak dilatih secukupnya pada sampel mula sejuk, sekali gus menjejaskan ketepatan pengesyoran.
Kedua, kesan Matthew adalah perkara biasa dalam sistem pengesyoran, iaitu, sumber yang telah diiktiraf oleh pengguna lebih berkemungkinan disyorkan, dengan itu mendapat lebih banyak pendedahan dan klik, seterusnya menyatukan status mereka. Sebaliknya, sumber baharu bergelut untuk mendapatkan cadangan dan mungkin diabaikan sepenuhnya. Oleh itu, sistem pengesyoran perlu dioptimumkan secara berterusan untuk menjadikannya lebih adil dan objektif.
Akhir sekali, Kami perlu menyediakan sokongan permulaan dingin tertentu kepada sumber baharu, jadi bagaimana untuk menyokong sumber baharu dengan lebih cekap dan adil? Ini memperkenalkan dua konsep kesaksamaan dan kesaksamaan merujuk kepada: setiap produk kandungan boleh memperoleh peluang pendedahan tertentu pada peringkat awal permulaan dingin dan mempunyai peluang untuk bersaing secara adil. Keadilan bermaksud: kita mesti mencerminkan nilai kandungan berkualiti tinggi, dan kualiti kandungan mesti boleh mempengaruhi berat sokongan Lengqi. Oleh itu, apabila ia berkaitan dengan sumber baharu, ia juga merupakan satu cabaran besar untuk mencari keseimbangan yang betul antara keadilan dan keadilan supaya sumber berkualiti tinggi dapat menonjol dan memaksimumkan manfaat keseluruhan. . sumber dan pengguna baharu Bilangan kali adalah kecil, dan kaedah memanggil semula i-to-i (item-to-item) dan u-to-i (pengguna-ke-item) tradisional tidak boleh digunakan. Oleh itu, permulaan sejuk bergantung terutamanya pada kaedah pengesyoran kandungan. Sebagai contoh, kaedah ingat semula terus berdasarkan potret pengguna yang paling asas, tag kandungan dan klasifikasi mempunyai tahap pemperibadian yang rendah dan ketepatan ingatan yang agak lemah.
KeduaMemandangkan semakin ramai pengarang telah memperibadikan atribut pada platform kandungan utama, permulaan dingin berdasarkan hubungan perhatian telah menjadi kaedah yang berkesan. Walau bagaimanapun, perhatian agak jarang dan tidak dapat memuaskan siaran ramai pengarang dengan pengikut peminat yang rendah, jadi kami melangkah lebih jauh dan menggunakan algoritma untuk melombong peminat berpotensi pengarang untuk mengembangkan pengaruh permulaan dingin berdasarkan perhatian. Sebagai contoh, pengguna yang sering menggunakan pengarang tetapi tidak mengikutinya, dan berdasarkan komposisi perhubungan perhatian pengarang pengguna, mengira potensi perhubungan perhatian.
Selain itu, penarikan balik pelbagai modal juga merupakan kaedah yang berkesan. Dengan pembangunan teknologi rentas mod, berbilang model dan model besar, penyepaduan pelbagai maklumat mod kandungan dalam sistem pengesyoran mempunyai kesan yang ketara, terutamanya dalam sistem pengesyoran permulaan sejuk. CLIP ialah kaedah pra-latihan berdasarkan membandingkan teks dan imej Ia terutamanya merangkumi dua modul: pengekod teks dan pengekod imej Ia memetakan maklumat teks dan imej ke ruang yang sama, memberikan bantuan yang lebih baik untuk tugas hiliran. Akan ada masalah tertentu dalam menggunakan vektor ini secara langsung untuk mengingat semula Vektor ini mewakili maklumat terdahulu kandungan tidak semestinya bermakna pengguna akan menyukainya Sistem perwakilan posterior dikaitkan.
Kaedah pemetaan khusus adalah berdasarkan pengagihan pembenaman yang mencukupi dan sumber pembelajaran yang mencukupi Beberapa sampel boleh dikumpul dan digunakan sebagai label untuk melatih rangkaian unjuran. Rangkaian unjuran ini memetakan perwakilan terdahulu rentas mod kepada perwakilan tingkah laku posterior sistem pengesyor. Satu kelebihan pendekatan ini ialah model penarikan semula dan penarafan sedia ada dalam sistem pengesyoran boleh digunakan dengan lancar tanpa menambah sebarang model. Sebagai contoh, untuk model Menara Berkembar, kita hanya perlu menggunakan vektor sisi pengguna sedia ada tanpa membuat sebarang perubahan, dan kemudian menggunakan rangkaian unjuran untuk menayangkan sumber baharu ke dalam ruang perwakilan posterior model Menara Berkembar, supaya kita boleh dengan mudah dan cepat A Twin Towers recall ada dalam talian. Begitu juga, ingatan semula graf sedia ada dan ingat semula berasaskan pokok juga boleh dilaksanakan dengan kos yang rendah.Sudah tentu kaedah pemetaan ini mempunyai kelemahan kecil iaitu regresi lebih sukar. Dalam CB2CF, ini adalah masalah regresi, dan regresi biasanya sukar dipelajari. Oleh itu, kita juga boleh menggunakan pendekatan berpasangan untuk mempelajari hubungan pemetaan. Secara khusus, sampel positif boleh ditetapkan kepada pasangan item yang serupa yang dipelajari oleh item CF Sampel negatif boleh diperolehi melalui pensampelan negatif global, dsb. Input juga termasuk beberapa maklumat terdahulu dan dinamik item, dan kemudian pemetaan sedemikian.
Dengan menggunakan maklumat terdahulu kandungan, pada asasnya adalah mungkin untuk melaksanakan kaedah penarikan balik yang biasa digunakan di pasaran dengan berkesan pada permulaan yang dingin. Permulaan sejuk berdasarkan pengguna benih Bilangan benih maklum balas positif. Pada ketika ini, kita boleh ingat melalui kaedah yang serupa.
Kelebihan penting Lookalike ialah ia sangat masa nyata. Kaedah ini terutamanya datang dari bidang pengiklanan Internet Pada masa lalu, pengiklan akan memilih beberapa pengguna yang berpotensi berminat sebagai pengguna benih, dan kemudian sistem akan mencari pengguna yang serupa untuk pengguna benih ini. Dalam sistem pengesyoran, kami boleh melanggan log penstriman masa nyata dalam talian untuk mendapatkan maklum balas positif tentang sumber yang dikumpul semasa permulaan sejuk sebelumnya, seperti klik, mainan, interaksi, perhatian, dsb., dan juga maklum balas negatif, seperti pengguna yang meleret cepat. Kemudian berdasarkan pengguna benih ini, sistem boleh mendapatkan perwakilan item melalui pembenaman pengguna dan melalui pelbagai kaedah pengagregatan atau menambah beberapa mekanisme perhatian kendiri. Perwakilan ini boleh dikemas kini dengan cepat, dan kemudian tersebar ke luar berdasarkan perwakilan ini, yang mempunyai ketepatan masa yang sangat tinggi.
1. Pengoptimuman ciri ID ID
Dari segi model, titik pengoptimuman bagi permulaan sejuk dan ID yang dirumuskan boleh dirumuskan. . dan parameter dinamik model. Ketiga-tiga paradigma ini sebenarnya boleh digunakan dalam kombinasi antara satu sama lain.
Selain itu, beberapa kaedah pembelajaran perbandingan juga telah muncul sejak beberapa tahun kebelakangan ini. Pembelajaran kontrastif ialah kaedah pembelajaran penyeliaan sendiri yang tidak bergantung pada anotasi manual dan boleh membina sejumlah besar sampel, yang membantu mengoptimumkan masalah permulaan sejuk berbilang jalur kerana kami boleh membina sampel tambahan untuk mengukuhkan status data permulaan sejuk. . Sebagai contoh, dalam model dua menara, kehilangan kontras tambahan boleh ditambah pada bahagian item. Parameter dua menara dikongsi Penggunaan kehilangan pembelajaran kontras boleh menjejaskan parameter rangkaian dan ciri tertanam menara sumber Melalui kaedah penyamaran, sampel dengan ciri ID dan ciri permulaan sejuk yang lain disembunyikan dalam perkadaran yang berbeza mengambil kira Keupayaan generalisasi model dan kekhususan sumber permulaan sejuk.
Langkah seterusnya ialah pengoptimuman generatif Seperti yang dinyatakan sebelum ini, ciri ID yang tidak boleh dipercayai harus digunakan sesedikit mungkin, tetapi pada masa ini pendekatan yang lebih baik ialah menjadikannya lebih dipercayai. Idea konvensional adalah untuk memulakan pembenaman ID berdasarkan ciri-ciri terdahulu ID. Melalui pemulaan yang munasabah, ramalan sumber baharu boleh menjadi lebih tepat dan menumpu lebih cepat dengan mengambil model menara berkembar sebagai contoh, biasanya, ciri baharu akan dimulakan secara rawak atau dimulakan dengan semua sifar, yang akan membawa kepada ramalan sumber baharu. Tidak tepat dan lambat untuk menumpu. Oleh itu, anda boleh menggunakan beberapa ciri apriori kandungan, seperti teg, teg kandungan, teg pengarang, dsb., serta beberapa ID serupa (seperti ID popular), untuk memilih beberapa pembenaman ID dengan posterior dan tinggi yang cukup tinggi sumber pengedaran sebagai tag, Kemudian latih penjana untuk menjana pembenaman ID untuk menggantikan nilai awal. Sudah tentu, anda juga boleh secara langsung meratakan pembenaman ID sumber baharu dan sumber K teratas yang paling serupa sebagai permulaan pembenaman sumber baharu Kaedah ini agak stabil dan kosnya sangat rendah industri.
Untuk masalah ID popular mendominasi model dan model lebih bergantung pada ciri ID, kami boleh menggunakan idea berbilang tugas dan berbilang senario untuk mengoptimumkan. Masih mengambil model menara berkembar sebagai contoh, ramalan sumber permulaan sejuk dan permulaan bukan sejuk boleh dibahagikan kepada dua matlamat bebas. Melalui model berbilang objektif biasa, model ini memberi lebih perhatian kepada kandungan baharu. Pendekatan klasik ialah rangkaian CGC, ditunjukkan di sebelah kiri dalam rajah di atas. Dalam rangkaian jenis ini, semua tugas berkongsi lapisan pembenaman, dan kemudian rangkaian pakar bebas dipelajari melalui tugasan permulaan sejuk dan tugasan bukan permulaan sejuk masing-masing untuk meningkatkan keupayaan ramalan permulaan sejuk. Kaedah lain ialah melaraskan berat parameter jenis sumber yang berbeza dalam rangkaian melalui pemberat dinamik, seperti yang ditunjukkan di bahagian kanan rajah di atas. Dalam rangkaian ini, rangkaian paling kanan ialah penunjuk permulaan sejuk, yang menerima maklumat tentang sumber permulaan sejuk (seperti bilangan tera klik semasa dan jenis sumber), dan kemudian mengeluarkan berat setiap lapisan rangkaian untuk mengawal maklumat di bawah jenis sumber. Saluran penghantaran dalam rangkaian membolehkan model meramalkan dengan lebih tepat di bawah keadaan permulaan yang sejuk.
Sumber baharu perlu dilancarkan secepat mungkin untuk meningkatkan pengalaman pengeposan pengarang dan merealisasikan cadangan, tetapi disebabkan kesan Matthew, kami perlu memberi kecondongan tertentu kepada sumber baharu. Kecondongan permulaan sejuk am boleh dibahagikan kepada dua aliran: aliran asas dan aliran rangsangan. Trafik asas bermaksud keadilan dan kami perlu memberikan semua sumber trafik inklusif untuk ujian. Meningkatkan trafik menyediakan sokongan yang berbeza berdasarkan anggaran potensi sumber kualiti pengarang dan prestasi trafik utama.
Mekanisme sokongan permulaan sejuk mempunyai dua parameter pada tahap abstrak: masa dan volum pengagihan, iaitu, melalui sisipan paksa, pelarasan kuasa dan cara lain, sumber boleh mencapai sasaran volum pengedaran tertentu dalam masa tertentu. Untuk perniagaan yang berbeza, kami akan menetapkan volum pengedaran yang berbeza dan masa yang diperlukan. Contohnya, untuk sumber biasa, 100 tera mungkin cukup dalam masa 24 jam untuk sumber baharu dan panas, ia mungkin lebih pantas, seperti 3,000 tera dalam masa setengah jam. Pada masa yang sama, kuota permulaan sejuk yang lebih besar mungkin ditetapkan untuk pengarang baharu.
Secara khusus merujuk kepada formula, t dalam formula mewakili normalisasi masa keluaran semasa dibahagikan dengan masa yang diperlukan untuk sasaran, iaitu kemajuan masa semasa dan x mewakili kemajuan pengedaran semasa. Kami mahu t dan x sama, yang bermaksud taburan pada kemajuan normal. Jika x kurang daripada t, ia bermakna kelajuan permulaan sejuk semasa adalah perlahan dan perlu untuk meningkatkan berat atau memaksa pekali. θ dalam formula boleh mengawal tahap kecenderungan peruntukan sumber pada peringkat awal.
Walau bagaimanapun, premis formula ini ialah trafik produk dalam tempoh yang berbeza adalah seragam, tetapi keadaan sebenar tidak memenuhi andaian ini. Pengagihan trafik produk Internet umum mempunyai perbezaan puncak dan palung, jadi ia perlu diselaraskan mengikut situasi sebenar. Sebagai contoh, jika sekeping kandungan diterbitkan pada pukul 2 pagi, ia mungkin hanya memerlukan 25 penghantaran pada pukul 8 pagi kerana trafik yang kurang pada waktu awal pagi. Oleh itu, t dalam formula perlu disepadukan berdasarkan taburan aliran sebenar.
Satu lagi isu utama ialah kepada pengguna mana sumber harus dihantar pada peringkat awal pengagihan sumber? Pendekatan yang paling biasa ialah cuba mengesyorkan sumber baharu kepada pengguna lama berbanding pengguna baharu, kerana pengguna lama biasanya lebih bertolak ansur dan boleh mengelakkan pengesyoran sumber baharu yang tidak tepat yang akan membahayakan pengguna baharu. Di samping itu, jika penambahbaikan sumber permulaan sejuk dianggap sebagai campur tangan, berdasarkan idea Uplift, kesan intervensi terhadap tempoh dan pengekalan pengguna boleh dipelajari, dan pengguna yang tidak akan memberi kesan negatif terhadap intervensi boleh dipilih. untuk permulaan sejuk.
Dua perkara di atas adalah berdasarkan kesan pengguna C-side. Walau bagaimanapun, pemilihan khalayak yang mula dingin juga akan mempengaruhi pembangunan sumber komunikasi seterusnya. Dari perspektif penyebaran maklumat, teori komunikasi dua peringkat membahagikan penyebaran maklumat kepada dua langkah. Pertama sekali, antara jumlah besar maklumat yang dijana setiap hari, sesetengah kumpulan orang mempunyai keupayaan untuk menapis dan mempromosikan maklumat, yang kami panggil pemimpin pendapat. Kemudian, sumber yang diperkuat dan dipromosikan oleh pemimpin pendapat ini akan tersebar secara besar-besaran.
Dalam era sekarang, peranan pemimpin pendapat juga wujud di platform sosial, media terkenal, stesen TV, dll. Untuk sistem pengesyoran, terdapat juga konsep sumber pengguna nod utama Mereka menapis sumber berkualiti tinggi dan membuat pengesyoran, dengan itu menjejaskan tingkah laku penggunaan pengguna lain.
Jadi, bagaimana untuk mengetik pengguna utama ini? Melalui perbincangan di atas, pengguna utama mempunyai dua ciri: pertama, mereka mempunyai keupayaan tinggi untuk mengenal pasti kualiti sumber, dan kedua, kandungan yang disyorkan mereka mempunyai kebarangkalian tinggi untuk diterima oleh pengguna lain. Oleh itu, terdapat dua kaedah perlombongan:
Pertama, sumber dibahagikan kepada sumber berkualiti tinggi dan berkualiti rendah mengikut keadaan belakangnya dan digunakan sebagai label. Kemudian ID pengguna yang pada mulanya mengklik pada sumber ini digunakan sebagai ciri untuk meramalkan keadaan posterior sumber tersebut. Berat setiap ID pengguna yang dipelajari oleh model boleh dianggap sebagai indeks utama pengguna.
Kedua, melalui sistem pengesyoran penapisan kolaboratif pengguna dalam talian, terokai kadar kejayaan pengesyoran antara pengguna. Pengguna dengan kadar kejayaan pengesyoran yang lebih tinggi boleh dianggap sebagai pengguna utama dalam sistem pengesyoran. Melalui kedua-dua kaedah ini, pengguna utama dalam graf dilombong dan disyorkan kepada mereka terlebih dahulu apabila sumber mula sejuk.
Sistem percubaan untuk kandungan permulaan sejuk perlu memberi perhatian kepada beberapa ciri khas semasa mereka bentuk, kerana sampel sistem pengesyoran dikongsi, menghasilkan maklum balas yang dikumpul oleh kumpulan eksperimen juga akan dibandingkan dipelajari dalam kumpulan, menjadikannya sukar untuk mengukur dengan tepat kesan strategi permulaan sejuk. Oleh itu, kami perlu menjalankan eksperimen pengasingan kandungan untuk menilai kesan strategi permulaan sejuk ke atas keseluruhan sistem.
Reka bentuk percubaan yang biasa adalah untuk mengasingkan pengguna dan sumber sepenuhnya, seperti ditunjukkan di bahagian kiri bawah rajah di atas. Antaranya, 50% pengguna hanya boleh melihat 50% kandungan, dan kumpulan sumber yang berbeza menggunakan strategi permulaan sejuk yang berbeza. Ini membolehkan anda menilai kesan strategi permulaan sejuk pada keseluruhan sistem. Walau bagaimanapun, kaedah ini mungkin memberi impak yang lebih besar kepada pengalaman pengguna C-side kerana mereka hanya boleh melihat sebahagian daripada kandungan.
Satu lagi cara yang lembut ialah mengasingkan pengguna dan sumber sepenuhnya semasa fasa permulaan sejuk, seperti 3000 kali pertama, dan kemudian melaksanakan strategi permulaan sejuk yang berbeza untuk kumpulan yang berbeza. Selepas permulaan yang dingin, sumber boleh diedarkan kepada semua pengguna. Reka bentuk sedemikian boleh mengurangkan kesan pada pengalaman pengguna sisi C.
Melalui eksperimen, kita boleh menganalisis penunjuk berikut:
A1: Penghakiman menara panas dan sejuk biasanya berdasarkan pengagihan sumber. Secara umumnya, sumber dengan volum pengedaran yang lebih rendah dianggap sebagai menara sejuk, manakala sumber dengan volum pengedaran yang lebih tinggi dianggap sebagai menara panas. Sebagai contoh, sumber yang telah diedarkan kurang daripada 100 kali boleh dianggap sebagai sumber permulaan yang sejuk. Sudah tentu, adalah perlu untuk menganalisis berdasarkan ketepatan ramalan model dalam talian, dan menentukan piawaian pertimbangan khusus berdasarkan situasi sebenar.
A2: Peningkatan kualiti trafik permulaan sejuk biasanya melibatkan penilaian potensi sumber. Menilai potensi sumber boleh menggabungkan berbilang sumber isyarat. Sebagai contoh, untuk menentukan sama ada ia topik hangat baharu dalam bidang tersebut, anda boleh mempertimbangkan secara menyeluruh maklumat seluruh rangkaian, termasuk maklumat senarai hangat setiap produk, serta perbincangan topik dan perhatian dalam bidang berkaitan, dsb. Untuk penilaian nilai sumber, kualiti pengarang boleh dipertimbangkan, termasuk faktor seperti prestasinya pada peringkat awal dan interaksi. Dengan menggunakan maklumat ini secara menyeluruh, anggaran potensi sumber yang lebih komprehensif boleh dibuat.
A3: Apabila menyelesaikan t ideal dan t sebenar, ia boleh dicerminkan dengan memerhati keluk pendedahan. Keluk pendedahan menunjukkan pendedahan sumber dalam tempoh masa yang berbeza T ideal merujuk kepada kemajuan pendedahan teori yang dikira berdasarkan masa sasaran yang ditetapkan, manakala t sebenar ditentukan berdasarkan kemajuan pendedahan sebenar semasa. Untuk memastikan pendedahan sebenar adalah konsisten dengan aliran pasaran keseluruhan, bahagian trafik keseluruhan perlu dipantau secara stabil untuk memastikan bahawa kemajuan permulaan sejuk adalah konsisten dengan aliran trafik keseluruhan. Jika kemajuan permulaan sejuk adalah perlahan, anda mungkin perlu meningkatkan pendedahan atau melaraskan strategi lain yang disyorkan untuk mempercepatkan kemajuan Jika kemajuan terlalu pantas, anda mungkin perlu memperlahankan kelajuan pendedahan untuk mengelakkan pendedahan sumber yang berlebihan.
A4: Berkenaan masalah cold start, sebenarnya amat sukar untuk mengukur dengan tepat nilai kesannya. Pada masa kini, kami biasanya membandingkan kumpulan eksperimen dan kumpulan kawalan untuk melihat mana yang lebih baik.
Atas ialah kandungan terperinci Baidu mengesyorkan amalan permulaan dingin sumber. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!