Memahami evolusi komuniti berita dalam talian adalah penting untuk mereka bentuk sistem pengesyoran berita yang lebih berkesan, tetapi penyelidikan sedia ada terhad dalam memahami cara sistem pengesyoran mempengaruhi evolusi komuniti disebabkan kekurangan set data dan platform yang sesuai, yang membawa kepada sistem suboptimum reka bentuk yang boleh menjejaskan utiliti jangka panjang.
Untuk menangani masalah ini, pasukan penyelidik CISL Pusat Pengajian Sains Komputer di Universiti Fudan membangunkan SimuLine, platform simulasi evolusi ekosistem cadangan berita.
SimuLine membina ruang terpendam yang mencerminkan tingkah laku manusia daripada data sebenar berdasarkan model bahasa pralatihan (Model Bahasa Pralatihan) dan skor kecenderungan songsang (Skor Kecenderungan Songsang), dan kemudian menggunakan Model berasaskan agen simulasi (Pemodelan berasaskan Agen) mensimulasikan dinamik evolusi ekosistem cadangan berita.
SimuLine menyokong 100+ pusingan simulasi penciptaan-pengesyoran-interaksi untuk 10,000+ pembaca dan 1,000+ pencipta pada satu pelayan (memori 256G, kad grafik gred pengguna), Ia juga menyediakan rangka kerja analisis yang komprehensif termasuk penunjuk kuantitatif, visualisasi dan penjelasan teks.
Eksperimen simulasi yang meluas menunjukkan bahawa SimuLine mempunyai potensi besar dalam memahami proses evolusi komuniti dan menguji algoritma pengesyoran.
Pengarang: Zhang Guangping, Li Dongsheng, Gu Hansu, Lu Dong, Shang Li, Gu Ning
Alamat kertas: https://arxiv.org/abs/2305.14103
Dengan populariti media sosial (Media Sosial), orang ramai semakin bergantung pada komuniti berita dalam talian untuk menerbitkan dan mendapatkan berita Setiap hari, berjuta-juta berita diterbitkan oleh pencipta kandungan di pelbagai tapak web komuniti berita dalam talian diedarkan oleh sistem pengesyoran dan dibaca oleh sebilangan besar pengguna.
Dengan pengeluaran dan penggunaan kandungan berita, komuniti berita dalam talian berada dalam proses evolusi dinamik yang berterusan.
Sama seperti jenis komuniti dalam talian yang lain, pembangunan komuniti berita dalam talian juga mematuhi teori kitaran hayat yang terkenal, iaitu, ia melalui "permulaan" - "pertumbuhan" - peringkat "kematangan" - "penurunan".
Melalui perspektif teori kitaran hayat, sejumlah besar kerja penyelidikan telah meneroka model evolusi komuniti dalam talian dan membuat cadangan untuk operasi setiap peringkat dalam kitaran hayat.
Walau bagaimanapun, kesan sistem pengesyoran, salah satu infrastruktur teknikal terpenting komuniti berita dalam talian, terhadap evolusi komuniti berita dalam talian masih tidak jelas.
Untuk menyelesaikan misteri ini, pasukan penyelidik CISL dari Pusat Pengajian Sains Komputer di Universiti Fudan menumpukan perhatian kepada tiga soalan penyelidikan berikut dan cuba mencari jawapannya melalui eksperimen simulasi:
1) Apakah ciri-ciri setiap peringkat kitaran hayat Ekosistem Syor Berita (NRE)?
2) Apakah faktor utama yang mendorong evolusi NRE, dan bagaimanakah faktor ini berinteraksi antara satu sama lain untuk mempengaruhi proses evolusi?
3) Bagaimana untuk mencapai keberkesanan berbilang pihak jangka panjang yang lebih baik melalui strategi reka bentuk sistem pengesyoran, dengan itu mengelakkan komuniti daripada terjerumus ke dalam "penurunan"?
Untuk menjawab tiga soalan penyelidikan ini, pasukan penyelidik CISL membangunkan SimuLine, platform simulasi evolusi ekosistem cadangan berita.
SimuLine mula-mula menjana data sintetik berdasarkan set data dunia sebenar. Untuk menyelesaikan masalah bias pendedahan yang wujud bagi set data asal (Exposure Bias), SimuLine memperkenalkan skor kecenderungan songsang (Skor Kecenderungan Songsang) untuk menghapuskan bias.
Untuk membina ruang terpendam yang hampir dengan proses membuat keputusan manusia, SimuLine memperkenalkan model bahasa terlatih (Model Bahasa Pralatihan) berdasarkan korpora berskala besar untuk membina ruang terpendam Akhirnya, SimuLine menggunakan simulasi berdasarkan model ejen (Pemodelan Berasaskan Agen) meniru gelagat dan interaksi pengguna, pencipta kandungan dan sistem pengesyoran dalam ekosistem pengesyoran berita.
Apabila cuba membina simulator yang mewakili pengguna, soalan pertama yang terlintas di fikiran ialah "Apakah yang sepatutnya menjadi pelbagai gelagat pengguna?" Perwatakan? 》
Masalah ini sebenarnya mempunyai penyelesaian yang sangat langsung yang digunakan secara meluas dalam bidang sistem cadangan, iaitu membina ruang terpendam (Latent Space) dan kemudian meletakkan pengguna minat ke Semua kandungan berita dipetakan ke ruang ini.
Dengan cara ini, adalah sangat mudah untuk mengukur kecintaan pengguna terhadap berita melalui persamaan vektor dalam ruang terpendam, dan kemudian menentukan satu siri logik dan peraturan tingkah laku.
Bina
Jadi bagaimana untuk membina Bagaimana dengan ruang tersembunyi ini?
Sesetengah pelajar berkata: "Apa yang sukar tentang perkara ini!? Bukankah itu yang digunakan oleh algoritma pengesyoran! Bukankah lebih baik belajar satu sahaja menggunakan pengesyoran algoritma? ”
Ini sememangnya satu kaedah, tetapi ia juga mempunyai beberapa masalah yang jelas.
Perkara yang paling membingungkan bagi pasukan penyelidik CISC ialah kelemahan logik yang dipanggil "Algoritma Pengelirukan". dan berita sebagai asas sebenar mereka untuk membuat keputusan tingkah laku, maka tidakkah Algoritma B yang digunakan dalam proses simulasi seterusnya menjadi sesuai dengan Algoritma A (adakah ia kelihatan biasa kepada pelajar yang mengetahui beberapa pembelajaran penyulingan)?
Selain itu, kebanyakan algoritma pengesyoran semasa masih merupakan model kotak hitam Walaupun anda menutup mata dan mengabaikan Algoritma Confounding, apabila menganalisis data simulasi, Anda akan keliru (ini. dimensi semakin besar, tetapi apakah yang diwakili oleh dimensi ini???).
Hanya apabila pasukan penyelidik bingung, kilatan cahaya putih memancar: Saya nampaknya telah melihat artikel sebelum mengatakan bahawa model bahasa yang dilatih berdasarkan skala besar corpus (pada masa itu masih Bert's The world, ChatGPT belum lahir) boleh menunjukkan beberapa kognisi asas manusia (iaitu Raja yang terkenal – lelaki + Perempuan = Ratu).
Bukankah perkara ini sangat sesuai untuk membina ruang terpendam:
1. Ia boleh mengekod pengguna dan berita; 🎜>
2. Dengan mempelajari perwakilan teks global daripada korpus berskala besar, kognisi manusia yang terkandung haruslah asas dan universal, dengan itu mengelakkan masalah Pengelirukan Algoritma; >3 Walaupun tidak jelas apa yang diwakili oleh setiap dimensi dalam ruang terpendamnya, ini tidak menjejaskan kebolehfahaman ruang ini. Ia boleh disediakan untuk setiap titik dalam ruang melalui pengambilan semula vektor yang serupa teks.
Ini sangat bagus! Keputusan di tangan anda!
Peta
menyelesaikan ruang tersembunyi Langkah seterusnya ialah memetakan pengguna dan berita ke ruang ini.
Berita adalah mudah untuk diperkatakan. Berita mesti mempunyai maklumat teks yang kaya, dan ia boleh dikodkan secara langsung, tetapi bagaimanakah pengguna harus menanganinya? Adakah mungkin untuk mencari purata menggunakan berita yang disukai pengguna dalam sejarah?
Tidak!
Algoritma Confounding yang menjijikkan telah menukar namanya dan muncul lagi kali ini dipanggil Exposure Bias, yang bermaksud rekod suka pengguna tidak semestinya mencerminkan minat pengguna sepenuhnya, kerana berita yang disukai pengguna. pasti Ia adalah berita yang telah dilihat oleh pengguna, dan berita yang dilihat oleh pengguna itu sendiri telah ditapis oleh sistem pengesyoran Terdapat kemungkinan pengguna tidak menyukainya kerana dia tidak melihatnya.
Nasib baik, selepas bertahun-tahun kemajuan pesat, senjata dalam bidang sistem pengesyoran adalah mencukupi. Skor Kecenderungan Songsang (IPS).
Ringkasnya, ia adalah untuk menimbang sampel yang disyorkan dengan menganggar ketumpatan pendedahan mereka, dengan itu mengimbangi bias yang dibawanya dalam proses pembelajaran model, supaya pengguna Masalah pengekodan adalah diselesaikan.
Bagi pencipta kandungan terakhir, gelagat penerbitan kandungan mereka tidak diganggu oleh Pendedahan Bias dan rekod sejarah mereka ditimbang secara langsung. Sebenarnya, selepas operasi di atas, kerja penyediaan data pada asasnya telah selesai, tetapi masih terdapat dua kelemahan:
· Pertama, skala data belum diselaraskan, dan mungkin tidak sesuai untuk sumber pengiraan. (Keldai kecil menarik kilang besar/keldai besar mengisar pekerja asing); Oleh itu, pasukan penyelidik menambah lapisan model generatif berdasarkan pengekodan pengguna set data asal.
Memandangkan platform berita sentiasa direka bentuk dengan navigasi partition (kewangan, sukan, teknologi, dll.), dan pengumpulan pengguna dalam pelbagai partition juga jelas, pasukan penyelidik mempromosikan Gauss Model campuran (GMM) bertanggungjawab untuk tugas ini.
Pemodelan Ejen
Selepas menyelesaikan kerja penyediaan data awal, anda boleh mula memodelkan gelagat pengguna.Pasukan penyelidik menggunakan kaedah Pemodelan berasaskan Agen, iaitu memodelkan tingkah laku individu dan interaksi antara individu, dan kemudian mensimulasikan dinamik kumpulan dengan menggunakan sejumlah besar daripada Ejen.
Imbau secara ringkas proses pembacaan berita dalam talian pengguna (contohnya, semua orang membaca tajuk berita hari ini), pengguna mula-mula akan melihat satu siri berita yang disyorkan oleh sistem pengesyoran pada halaman tertentu, dan kemudian pengguna hanya menyemak imbas tajuk, gambar dan abstrak setiap berita Jika sesuatu berita membangkitkan minat pengguna, mereka akan Klik untuk melihat apa yang diperkatakan secara khusus Selepas membaca berita, jika pengguna merasakan berita itu bagus, berbaloi untuk dibaca, atau konsisten dengan pendapat mereka sendiri, pengguna akan menyatakan pendapatnya tentang berita itu melalui suka dan kaedah lain.
Definisi
Dalam proses ini, interaksi antara pengguna dan berita boleh dibahagikan kepada tiga peringkat (Pendedahan, klik dan suka), antaranya klik dan suka adalah tingkah laku aktif pengguna dan perlu ditakrifkan dalam Ejen Pengguna.
Di sini pasukan penyelidik merumuskan gelagat klik pengguna sebagai gelagat pemilihan kemungkinan, iaitu, berdasarkan tahap pemadanan antara pengguna dan berita (persamaan dalam ruang terpendam dua boleh digunakan ukuran darjah), pengguna mempunyai kebarangkalian tertentu untuk memilih beberapa berita yang menarik minat mereka daripada senarai dan klik untuk membacanya.
Takrifan ini lebih fleksibel daripada mengklik terus pada berita yang paling sepadan Maksudnya, ia tidak semestinya bermakna tahap padanan yang tinggi akan dibaca, dan ia lebih dalam. sesuai dengan keadaan sebenar.
Bagi gelagat suka, kita tidak boleh mempertimbangkan tahap padanan berita Lagipun, seperti yang kita sedia maklum, fenomena clickbait masih menjadi perkara biasa dalam berita.
Oleh itu, pasukan penyelidik memperkenalkan konsep abstrak "kualiti berita" untuk secara amnya mewakili nilai laporan berita Dengan cara ini, tingkah laku suka pengguna boleh menjadi Minat dan objektif secara subjektif kualiti dicirikan bersama.
Pasukan penyelidik menggunakan model jangkaan untuk mengawal tingkah laku suka Ejen Secara khusus, ia terlebih dahulu mengira utiliti (Utiliti) pengguna membaca berita tertentu berdasarkan tahap padanan minat dan kualiti berita utiliti Jika jangkaan pengguna melebihi (pasukan penyelidik menggunakan Ambang hiperparameter untuk mewakili nilai khusus jangkaan ini), maka tingkah laku serupa akan dicetuskan.
Penjelasan intuitif reka bentuk ini ialah jika sesuatu berita menggembirakan saya, sama ada kerana ia memenuhi keperluan saya atau laporan itu sendiri sangat objektif dan komprehensif, saya tidak akan kedekut macam dia.
Selain itu, semasa proses pembacaan berita, minat atau pendapat pengguna jelas tidak statik.
Sebagai contoh, jika pengguna melihat laporan berita yang sangat mereka sukai, ia mungkin merangsang keinginan pengguna untuk mendalami berita yang berkaitan Sebaliknya, jika laporan membuat rasa pengguna Ia benar-benar penuh dengan karut Jika pengguna melihat laporan yang serupa pada masa hadapan, mereka akan kurang berkemungkinan mengkliknya untuk melihat butiran laporan.
Fenomena ini telah dimodelkan oleh pasukan penyelidik sebagai Model Hanyutan Pengguna.
Pemodelan Tingkah Laku Kreatif
Pemodelan Seterusnya Tingkah laku kreatif daripada pencipta berita.
Penciptaan berita di dunia nyata akan dipengaruhi oleh pelbagai faktor Pasukan penyelidik memudahkannya di sini sebagai proses tamak, iaitu penulis sentiasa mengharapkan berita yang diciptanya. lebih Diluluskan oleh ramai pembaca.
Pasukan penyelidikan kawalan tingkah laku Ejen khusus menggunakan penyelesaian yang serupa dengan klik pengguna, membuat pensampelan kebarangkalian berdasarkan berita mereka sendiri pada pusingan sebelumnya dan memilih yang baharu topik kreatif, dan kemudian penciptaan berita mengenai topik tersebut. Proses penciptaan berita juga dimodelkan sebagai proses pensampelan daripada taburan Gaussian yang berpusatkan topik dalam ruang terpendam.
Selain kandungan berita (latent space representation), kualiti berita juga perlu dicontohi. Ini berdasarkan dua andaian asas yang selaras dengan hukum realiti:
1 Terdapat korelasi positif antara bilangan suka dan pendapatan penulis, yang bermaksud semakin banyak suka yang penulis terima, semakin banyak suka yang penulis terima Bacaan pendapatan, tetapi apabila jumlah suka meningkat, pendapatan dari satu suka akan beransur-ansur berkurangan
2 pendapatan akan mencipta kandungan yang lebih berkualiti kerana belanjawan mereka yang lebih mencukupi. Berdasarkan ini, fungsi pemetaan daripada jumlah suka pada pusingan sebelumnya kepada kualiti berita pada pusingan seterusnya boleh dibina untuk mengawal kualiti penciptaan berita.
Pemodelan sistem pengesyoran
Akhir sekali, sistem pengesyoran tingkah laku dimodelkan.
Pengesyoran algoritma dan pengesyoran permulaan sejuk ialah dua komponen asas sistem pengesyoran berita. Untuk menyediakan pengesyoran algoritma yang diperibadikan, sistem pengesyoran mula-mula menggunakan algoritma pengesyoran, seperti BPR, dsb., untuk mempelajari perwakilan pengguna dan berita dalam ruang benam daripada data interaksi sejarah (pasukan penyelidik menggunakan ruang terpendam untuk merujuk kepada pengekodan model bahasa berskala besar Ruang minat pengguna sebenar, menggunakan ruang benam untuk merujuk kepada ruang yang dipelajari oleh algoritma pengesyoran dan digunakan untuk menjana senarai pengesyoran).
Walau bagaimanapun, disebabkan ketidakpastian tingkah laku suka pengguna dan pengehadan tetingkap kesahihan berita, pengesyoran algoritma tidak dapat menjamin untuk merangkumi semua pengguna Untuk jurang ini, pengesyoran rawak mudah boleh dilakukan digunakan untuk mengisi jurang ini.
Disebabkan kekurangan rekod interaksi sejarah, berita yang baru dibuat tidak boleh mengambil bahagian dalam pengesyoran algoritma SimuLine menggunakan pengesyoran rawak dan algoritma pengesyoran heuristik (seperti laporan baharu daripada pencipta yang disukai secara sejarah ) dan lain-lain. strategi untuk mengesyorkan berita permulaan sejuk.
Selain itu, SimuLine turut menyokong strategi pengesyoran berita heuristik yang lain, seperti berita tergempar, promosi berasaskan pencipta kandungan dan promosi berasaskan topik, dsb.
Semua strategi pengesyoran mempunyai kuota tolak bebas Sistem pengesyoran menggabungkan pengesyoran berita daripada semua saluran untuk membentuk senarai pengesyoran akhir.
Data sudah tersedia! Model telah dibina! Apa yang berikut ialah percubaan yang menarik!
Pasukan penyelidik memilih set data Addressa, yang digunakan secara meluas dalam bidang pengesyoran berita ini menyediakan log web lengkap laman web berita Norway www.adressa.no dalam a minggu tertentu pada Februari 2017. , berbanding set data pengesyoran berita lain yang sangat baik (seperti MIND Microsoft), ia secara asalnya menyediakan maklumat pengarang berita yang sangat kritikal. Sejajar dengan itu, model bahasa menggunakan BPEmb, yang menyokong bahasa Norway secara asli. Untuk lebih banyak butiran penggunaan, anda boleh merujuk kepada bahagian pertama Bab 4 dalam kertas.
Jadi bagaimana untuk menganalisis hasil simulasi SimuLine? SimuLine menyediakan rangka kerja analisis komprehensif daripada pelbagai perspektif untuk rujukan anda.
Yang pertama ialah sistem penilaian penunjuk kuantitatif yang paling biasa digunakan.
Untuk mencerminkan sepenuhnya proses evolusi ekosistem cadangan berita, pasukan penyelidik merumuskan penunjuk kuantitatif yang telah muncul dalam literatur sedia ada dan membina satu set penilaian yang agak lengkap daripada berikut lima aspek Sistem:
1) Interaktiviti, termasuk bilangan suka dan indeks Gininya Indeks Gini yang lebih rendah mewakili keadilan yang lebih baik; >2) Liputan, termasuk bilangan pengguna dan berita yang diliputi oleh pengesyoran algoritma; Purata kualiti berita semasa had masa dan pekali korelasi Pearson antara kualiti berita dan bilangan suka; , semakin tinggi semakin tinggi pertindihan dalam bacaan berita antara pengguna;
1. Kitaran hayat
Tiga gambar berikut Hasil penilaian kuantitatif pengguna, pencipta dan sistem pengesyoran di bawah keadaan hiperparameter Ejen berbeza ditunjukkan masing-masing.
Dapat dilihat bahawa proses dan keputusan simulasi adalah agak stabil di bawah pelbagai parameter hiper, dan secara kasar dibahagikan kepada pusingan kesepuluh dan kedua puluh (penunjuk yang berbeza turun naik ke tahap tertentu), dan evolusi sistem menunjukkan peringkat yang jelas (garis menegak biru digunakan untuk melukis pusingan peralihan peringkat dalam gambar), yang konsisten dengan teori kitaran hayat yang terkenal.
Penemuan pertama dibuat daripada ini:Komuniti berita dalam talian yang didorong oleh sistem pengesyoran secara semula jadi menunjukkan "permulaan" - "pertumbuhan" - "kematangan" di bawah kumpulan pengguna yang berbeza. & merosot" kitaran hayat.
2. Pembezaan pengguna
Selain penunjuk kuantitatif, visualisasi juga penting untuk membantu dalam memahami alat proses evolusi komuniti.
Pasukan penyelidik memperoleh set syot kilat proses evolusi sistem berikut melalui visualisasi pengurangan dimensi PCA (berita ditandakan dengan warna biru, pengguna dengan rekod serupa ditandakan dengan warna hijau dan pengguna tanpa rekod seperti adalah pengguna ditandakan dengan warna merah Saiz nod mewakili bilangan suka/suka).
Adalah dapat dilihat bahawa walaupun penunjuk kuantitatif menunjukkan corak berbilang peringkat, trend evolusi perwakilan ruang terpendam adalah konsisten, iaitu, pengguna dibahagikan secara beransur-ansur kepada pengguna dalam gelung dan pengguna luar gelung. Pengguna dalam kalangan membentuk komuniti yang stabil dengan minat bertumpu, manakala pengguna di luar kalangan menunjukkan minat sporadis. Semasa proses evolusi antara pusingan ke-10 dan ke-20, pengguna pada asasnya telah menyelesaikan pembezaan, yang menunjukkan bahawa peringkat pertumbuhan memainkan peranan penting yang menentukan dalam penyertaan pengguna. Ini membawa kepada penemuan kedua: Komuniti berita dalam talian yang didorong oleh sistem pengesyoran sudah pasti akan menghasilkan penumpuan topik komuniti dan membawa kepada pembezaan pengguna, yang menentukan penyertaan pengguna Tempoh kritikal ialah peringkat pertumbuhan. 3. Asimilasi minat Pasukan penyelidik memilih 3 pengguna secara rawak daripada pengguna dalam kalangan dan pengguna luar kalangan Jadual berikut menunjukkan evolusi minat mereka.
Bagi pengguna dalam kalangan, minat mereka menjadi lebih abstrak, luas dan umum. , sebagai contoh, daripada "pelakon" kepada "pekerjaan", daripada "Oslo" kepada "Norway" kepada "Eropah". Kelajuan evolusi pengguna berbeza berbeza-beza, tetapi mereka semua berkumpul pada pusingan ke-50. Fenomena ini mencerminkan penghijrahan secara beransur-ansur keutamaan pengguna daripada topik khusus yang diperibadikan kepada topik arah aliran yang dibincangkan secara meluas di platform hasil daripada interaksi berterusan dengan sistem pengesyoran. Untuk pengguna di luar kalangan, minat mereka berubah sedikit, tetapi mereka sentiasa tertumpu pada topik khusus dan diperibadikan. Sebagai contoh, pengguna No. 4 dan No. 6 kekal berminat dengan "atlet", "teh" dan "bil" masing-masing sepanjang proses simulasi. Ini membawa kepada penemuan ketiga:
4. Fasa permulaanDengan bantuan daripada penunjuk kuantitatif di atas, visualisasi, Dengan tiga alat yang berkuasa untuk terjemahan teks, SimuLine boleh menjalankan pemeriksaan fizikal yang komprehensif terhadap proses evolusi sistem. Memandangkan proses evolusi komuniti berita dalam talian yang didorong oleh sistem pengesyoran mematuhi teori kitaran hayat, mari kita analisa cara komuniti itu berkembang pada setiap peringkat kehidupan dari perspektif kitaran hayat. Mula-mula, mari kita analisa fasa permulaan yang kira-kira sepadan dengan 10 pusingan pertama. Memandangkan sistem dibina dari awal, sistem pengesyoran kekurangan data untuk melatih algoritma pengesyoran pada peringkat awal. Sejajar dengan itu, pada peringkat ini, menggunakan pengesyoran rawak dan pengesyoran heuristik untuk menyelesaikan masalah permulaan dingin pengguna adalah tugas utama. Disebabkan ketidakupayaan untuk menggunakan pengesyoran algoritma yang lebih tepat, keputusan pengesyoran pada peringkat ini selalunya tidak memuaskan dari segi pemadanan minat Oleh itu, tingkah laku yang serupa pada peringkat ini didorong terutamanya oleh kualiti berita, mencerminkan Dari segi penunjuk kuantitatif, terdapat korelasi positif yang kuat antara kualiti dan populariti. Melangkah lebih jauh, kita boleh mengenal pasti dua daya penggerak utama evolusi komuniti dalam peringkat permulaan: 1) Gelung maklum balas yang berkualiti, iaitu kualiti dan populariti mempromosikan satu sama lain berdasarkan korelasi positif Iaitu, lebih baik perkara itu, lebih ramai orang akan menyukainya, dan lebih ramai orang akan menyukainya. Pengarang Semakin tinggi pendapatan, semakin bermotivasi penulis untuk menghasilkan laporan berita yang lebih berkualiti; minat Sebelum jumlah data, algoritma pengesyoran akan mengelirukan tingkah laku seperti dipacu kualiti kepada tingkah laku yang dicetuskan oleh minat pengguna. Kedua-dua kuasa penggerak ini mempromosikan satu sama lain, membolehkan pencipta kandungan popular memperoleh pendedahan berlebihan yang semakin meningkat secara beransur-ansur (dicerminkan dalam peningkatan pencipta dan indeks Gini berita), dan seterusnya memerah kepuasan minat peribadi pengguna (dicerminkan dalam pengguna Kurangkan dalam persamaan spatial terpendam antara berita yang disukainya). Tetapi kebanyakan pengguna masih boleh mendapat manfaat daripada kualiti berita yang dipertingkatkan (dicerminkan oleh penurunan indeks Gini bagi tingkah laku suka pengguna). Untuk meringkaskan, kita boleh mendapatkan penemuan keempat: Dalam fasa permulaan, sistem mengumpul data untuk menganggar minat pengguna daripada cadangan rawak dan berita berkualiti tinggi, dan kemudian menyelesaikan masalah soalan pengguna Mula sejuk. Gelung maklum balas yang berkualiti dan kekeliruan kualiti minat menyumbang kepada kemunculan pencipta kandungan yang sangat popular melalui pendedahan berlebihan. 5 Peringkat pertumbuhan Dalam peringkat pertumbuhan, ketumpatan berita dalam kawasan pengguna setiap kalangan adalah tidak sekata Ketumpatan lebih tinggi ke arah topik berita arus perdana, manakala ketumpatan ke arah lain adalah agak rendah. Hasilnya ialah berita yang disukai pengguna secara statistik lebih berkemungkinan lebih dekat dengan topik berita arus perdana ini, sisihan halus dalam gelagat suka ini terus muncul dan minat pengguna terus bertambah. Di bawah pengaruh, ia secara beransur-ansur menghampiri topik berita arus perdana. Sebaliknya, pengguna di luar kalangan terperangkap dalam kebuntuan "tiada suka - pengesyoran algoritma tidak dapat meliputi - ketepatan pengesyoran rendah - malah kurang suka". Mereka kadangkala akan menyukai berita itu kerana kualitinya, tetapi algoritma pengesyoran tidak dapat mengumpul data yang mencukupi dalam had masa data untuk menganggarkan minat mereka. Peningkatan dalam kualiti berita dirangsang oleh gelagat seperti yang lebih kerap dan seimbang, tetapi kualiti berita yang ditimbang dengan bilangan suka pada umumnya kekal stabil apabila populariti berita berkualiti tinggi merosot. Dengan penamatan gelung maklum balas kualiti, pencipta kandungan tidak lagi boleh menerima perhatian yang berlebihan, mengakibatkan penurunan dalam kualiti kewartawanan. Pengguna yang sensitif terhadap kualiti mungkin berhenti menyukainya, yang membawa kepada penurunan liputan pengguna. Ringkasnya, kita boleh mendapatkan penemuan kelima: Dalam peringkat pertumbuhan, pengguna dalam bulatan berkembang ke arah topik biasa di bawah pengaruh sisihan pengedaran, manakala pengguna di luar bulatan tersekat dalam kebuntuan , membawa kepada pembezaan pengguna. Pengesyoran algoritma yang lebih dan lebih tepat membawa kepada penghujung gelung maklum balas kualiti, dan komuniti kehilangan beberapa pengguna sensitif kualiti akibatnya. 6. Peringkat kematangan dan penurunan Pada peringkat ini, pengguna dalam kalangan secara dinamik kekal dalam gelembung topik biasa Walaupun minat mereka mungkin beralih ke tepi gelembung dengan mengklik beberapa berita yang berbeza, mereka akan melakukannya cepat kembali ke pusat kerana perbezaan ketumpatan. Indeks Gini suka untuk berita adalah lebih tinggi, manakala indeks Gini suka untuk pencipta kandungan adalah lebih rendah, yang menunjukkan bahawa walaupun berita itu dicipta oleh pencipta yang sama, popularitinya sangat berbeza. Selain mekanisme penciptaan yang tamak, proses penciptaan berita itu sendiri sangat rawak, jadi gelembung juga menunjukkan kecenderungan semula jadi untuk berkembang. Gelembung yang berkembang membawa lebih banyak calon berita yang pelbagai, dan juga menyebabkan sesetengah pengguna yang sensitif terhadap topik itu menarik diri secara beransur-ansur. Penemuan keenam boleh diperoleh daripada ini: Dalam peringkat kematangan dan penurunan, pengguna dalam kalangan berkongsi topik biasa dan pencipta kandungan menerbitkan pelbagai berita mengenai topik ini. Komuniti telah mengekalkan pengembangan yang stabil dan perlahan, tetapi pada masa yang sama ia juga telah kehilangan beberapa pengguna yang sensitif terhadap minat. 7. Bagaimanakah evolusi berlaku? Penemuan satu hingga penemuan enam menjawab soalan penyelidikan pertama yang ditumpukan oleh pasukan penyelidik: Ekosistem cadangan berita (News What adakah ciri-ciri setiap peringkat kitaran hidup Ecosystems Cadangan (NRE)? Seterusnya, mari kita kumpulkan semua pengetahuan dan cuba jawab soalan penyelidikan kedua: Apakah faktor utama yang mendorong evolusi NRE, dan bagaimana faktor ini berinteraksi antara satu sama lain untuk mempengaruhi proses evolusi? Angka berikut meringkaskan faktor utama dan mekanisme yang mempengaruhi dalam evolusi komuniti berita dalam talian, boleh didapati bahawa kemunculan semula bias pendedahan dan kebuntuan adalah puncanya pengguna dalaman dan luaran Punca langsung trend evolusi yang berbeza telah membawa kepada pembezaan pengguna dan penumpuan topik.
Dengan pengumpulan data, algoritma pengesyoran menjadi lebih dan lebih tepat dalam menganggarkan minat pengguna, tingkah laku suka berubah secara beransur-ansur daripada dipacu kualiti kepada didorong minat, dan korelasi antara kualiti dan populariti secara beransur-ansur menjadi lemah. Apabila bilangan pusingan simulasi meningkat, berita yang dibuat semasa tempoh permulaan akan tamat tempoh secara beransur-ansur dan menarik diri daripada calon pengesyoran.
Sekitar pusingan ke-20, komuniti memasuki peringkat kematangan dan penurunan, apabila kebanyakan penunjuk utama menjadi stabil.
Bidang pendedahan yang muncul semula disebabkan oleh gabungan faktor.
Pertama sekali, dari perspektif teori maklumat, algoritma pengesyoran boleh dijelaskan sebagai proses pemampatan maklumat, yang tidak dapat tidak membawa kepada kecenderungan populariti, di mana berita yang kerap muncul dalam set data ( Iaitu, berita dengan lebih suka) dikodkan dengan lebih berkesan untuk meningkatkan prestasi pengesyoran. Dicerminkan dalam proses evolusi komuniti, ia dicerminkan bahawa topik biasa yang dibincangkan secara meluas akan merebut sumber pendedahan topik yang diperibadikan pada saluran cadangan algoritma.
Kedua, disebabkan sifat pencipta kandungan yang mencari keuntungan, mereka lebih bermotivasi untuk mencipta berita mengenai topik yang menarik minat awam, yang secara semula jadi akan membawa kepada perubahan kepadatan berita keluaran daripada topik massa kepada topik yang diperibadikan. Dalam pengertian ini, walaupun pengesyoran rawak digunakan sepanjang proses, komuniti mungkin berkembang ke arah penumpuan topik disebabkan penyelewengan pengedaran.
Akhir sekali, buih penapis dan bias pendedahan mempromosikan satu sama lain, yang bersama-sama membawa kepada peralihan minat pengguna secara halus. Algoritma mengesyorkan laporan serupa berdasarkan berita yang disukai pengguna dalam sejarah Pendedahan berita yang terhad menjadikan kecenderungan pendedahan lebih sukar untuk dilihat oleh pengguna.
Selain itu, berat sebelah sistem pengesyoran terhadap berita popular menunjukkan kesan yang berbeza pada peringkat evolusi yang berbeza.
Di peringkat permulaan, terdapat kekeliruan kualiti minat, terdapat korelasi yang kuat antara kualiti berita dan populariti, dan kecenderungan populariti dicerminkan secara khusus dalam peningkatan pendedahan yang tinggi. -berita berkualiti.
Dengan pengumpulan data dan penambahbaikan prestasi pengesyoran algoritma, tingkah laku seperti menjadi lebih dan lebih dipacu minat daripada didorong kualiti, sekali gus melemahkan kekeliruan dan kualiti minat- Populariti korelasi. Bias populariti juga telah berkembang secara beransur-ansur daripada mengesyorkan berita berkualiti tinggi kepada hanya mengesyorkan berita yang sangat popular.
Dalam proses penukaran momentum lama dan baharu ini, memupuk beberapa topik berita yang sangat popular dan berkualiti tinggi memainkan peranan penting dalam menggalakkan penyertaan pengguna.
Ringkasnya, kita boleh mendapatkan penemuan ketujuh: Pincangan popular, berat sebelah pengedaran berita dan buih penapis secara bersama-sama membawa kepada berat sebelah pendedahan, yang menjejaskan pembezaan pengguna dan kunci penumpuan faktor. Berita berkualiti tinggi dengan populariti tinggi adalah penting untuk memecahkan kebuntuan dalam kalangan pengguna di luar kalangan.
8. Bagaimana untuk mengelakkan kemerosotan komuniti?
Akhir sekali, dengan bantuan keupayaan simulasi dan analisis kuat SimuLine, kami akan meneroka soalan penyelidikan ketiga: Bagaimana Melalui strategi reka bentuk sistem pengesyoran, bolehkah kita mencapai keberkesanan berbilang pihak jangka panjang yang lebih baik dan mengelakkan komuniti daripada terjerumus ke dalam "penurunan"?
Pasukan penyelidik menguji empat kaedah pengesyoran heuristik yang paling asas dan biasa: permulaan sejuk berita berasaskan langganan, senarai carian hangat, promosi topik dan promosi pencipta. Tiga angka berikut membentangkan hasil evolusi komuniti menggunakan empat kaedah di atas pada sistem pengesyoran asas.
(1) Permulaan dingin berita berasaskan langganan cuba membentuk hubungan pendedahan merentas pusingan yang stabil antara pengguna dan pencipta kandungan, dengan itu mempertingkatkan gelung maklum balas kualiti yang berlaku semasa fasa permulaan.
Walau bagaimanapun, pendekatan ini telah membawa kepada monopoli yang serius Pencipta kandungan yang tidak mencapai kelebihan penggerak pertama akan ditindas oleh gelung maklum balas yang berkualiti, memusnahkan liputan algoritma dan kualiti purata berita. Sebaliknya, kepelbagaian ekologi seluruh komuniti dicabar dengan serius.
(2) Senarai carian hangat ialah komponen komuniti dalam talian yang paling biasa, bergantung pada korelasi positif antara kualiti berita dan populariti. Pada masa yang sama, dari perspektif eksploitasi dan penerokaan, membaca berita tergempar juga boleh dianggap sebagai sejenis penerokaan pengguna yang menembusi batasan minat sedia ada pengguna, yang membantu mengurangkan kesan negatif buih penapis.
Walau bagaimanapun, pendekatan ini tidak dapat menghalang keruntuhan korelasi antara populariti dan kualiti yang dibincangkan sebelum ini, yang akan membawa kepada penurunan dalam keberkesanan mengesyorkan berita tergempar.
(3) Akhir sekali, terdapat promosi platform Dengan memberikan pendedahan tambahan untuk topik tertentu atau pengarang tertentu, platform juga boleh mengawal kandungan yang disyorkan secara aktif. Mempromosikan pencipta kandungan boleh membina hubungan pendedahan yang stabil, dan kemudian menggunakan gelung maklum balas yang berkualiti untuk memupuk berita berkualiti tinggi dengan populariti tinggi.
Tetapi tidak seperti strategi permulaan dingin berita berasaskan langganan, promosi boleh ditamatkan secara aktif sebelum gelung maklum balas kualiti semasa memupuk monopoli yang berbahaya, sekali gus memastikan pengalaman pengguna dan mencipta kreativiti orang itu . Sebagai saluran penyebaran berita yang bebas daripada padanan minat, ia juga boleh mengurangkan kesan negatif buih penapis. Tambahan pula, dengan membina semula gelung maklum balas yang berkualiti, ia juga mengarahkan kecenderungan sistem pengesyoran terhadap berita popular ke arah pengesyoran yang bermanfaat terhadap berita berkualiti tinggi.
SimuLine memilih topik secara rawak dalam eksperimen yang menyasarkan promosi topik tertentu, yang bermaksud topik popular dan topik diperibadikan mempunyai peluang yang sama untuk dinaikkan pangkat, jadi bagi personaliti dengan topik pendedahan yang agak rendah, kesannya promosi adalah agak besar.
Kaedah ini secara teorinya boleh digunakan untuk meningkatkan penyertaan pengguna di luar kalangan, tetapi kerana kualiti berita yang dipromosikan tidak dapat dijamin, sukar untuk menukar pendedahan kepada bilangan suka , yang membawa kepada kaedah ini Kesannya terhad.
Ringkasnya, kita boleh mendapat penemuan kelapan: Antara strategi reka bentuk sistem pengesyoran biasa, promosi berkala untuk pencipta kandungan adalah yang paling berkesan. Dengan membina gelung maklum balas yang berkualiti secara aktif, ia boleh mencipta gelombang topik berita yang popular dan berkualiti tinggi di seluruh komuniti, manakala platform boleh mengawal monopoli melalui tetapan semula biasa.
Dalam artikel ini, pasukan penyelidik CISL mereka bentuk dan membangunkan SimuLine, platform simulasi untuk menganalisis proses evolusi ekosistem pengesyoran berita, dan Analisis terperinci tentang proses evolusi komuniti berita dalam talian telah dijalankan berdasarkan SimuLine.
SimuLine membina ruang terpendam yang boleh difahami yang mencerminkan tingkah laku manusia dengan baik, dan berdasarkan ini, ia menjalankan simulasi terperinci ekosistem cadangan berita melalui pemodelan berasaskan ejen .
Pasukan penyelidik menganalisis keseluruhan kitaran hayat evolusi komuniti berita dalam talian, termasuk peringkat permulaan, pertumbuhan, kematangan dan penurunan, menganalisis ciri setiap peringkat dan mencadangkan gambar rajah perhubungan untuk menggambarkan proses evolusi. Faktor utama dan mekanisme yang mempengaruhi.
Akhir sekali, pasukan penyelidik meneroka kesan strategi reka bentuk sistem pengesyoran terhadap evolusi komuniti, termasuk penggunaan berita berasaskan langganan permulaan sejuk, berita hangat dan promosi platform.
Pada masa hadapan, pasukan penyelidik CISL akan mempertimbangkan penjanaan kandungan tekstual bagi berita dan pemodelan tingkah laku aktiviti rangkaian sosial untuk menjalankan simulasi yang lebih berkuasa dan realistik.
Pasukan penyelidik percaya bahawa SimuLine juga boleh digunakan sebagai alat yang hebat untuk penilaian sistem pengesyor, menyediakan pilihan ketiga selain percubaan pengguna dalam talian dan percubaan luar talian berdasarkan set data (ini juga apa yang memberikannya Sebab utama untuk nama SimuLine).
Pasukan penyelidik juga menyedari bahawa komuniti penyelidikan sistem pengesyoran baru-baru ini mencadangkan satu siri algoritma pengesyoran pembetulan berat sebelah, bertujuan untuk menangani masalah berat sebelah pendedahan dalam pengesyoran, yang juga merupakan asas untuk pembezaan pengguna dan penumpuan topik.
Memandangkan artikel ini memfokuskan pada membincangkan reka bentuk sistem sistem pengesyoran dan bukannya algoritma pengesyoran khusus, pasukan penyelidik meninggalkan isu ini sebagai topik terbuka dan berharap SimuLine dapat mempromosikan penyelidikan masa depan ke arah ini.
Atas ialah kandungan terperinci Fudan mengeluarkan 'Simulator Ekosistem Pengesyoran Berita' SimuLine: satu mesin menyokong 10,000 pembaca, 1,000 pencipta dan 100+ pusingan pengesyoran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!