Rumah Tutorial sistem LINUX Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.

Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.

Jan 05, 2024 pm 09:44 PM
linux tutorial linux Topi Merah sistem linux arahan linux pensijilan linux linux topi merah video linux

Pengenalan Sehingga 20 Ogos, hari ke-25 tayangannya, "Wolf Warrior II" telah mengutip lebih daripada 5 bilion yuan di box office, benar-benar menjadi satu-satunya filem Asia yang memasuki 100 box office terbaik dalam sejarah filem dunia. Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II".

Perangkak Python menganalisis ulasan filem Wolf Warrior.

Selain daripada box office yang meletup, filem ini turut membangkitkan pelbagai emosi penonton malah berkata dengan kasar: Sesiapa yang berani mengkritik "Wolf Warrior II" sama ada terencat akal atau musuh awam.
Semua orang mempunyai ulasan bercampur-campur mengenai "Wolf Warrior II" dan telah meninggalkan komen tentang Douban untuk menyatakan pendapat mereka tentang filem itu. Walaupun pelbagai pendapat disiarkan dan media membuat kecoh, penonton masih tidak dapat membezakan pendapat mana yang lebih dipercayai.

Setakat ini, terdapat lebih daripada 150,000 komen Apabila anda membaca ulasan, anda mungkin melihat sebahagian besar daripada mereka untuk satu tempoh masa, sama ada memuji atau memperlekehkan komen. Oleh itu, sukar untuk mengetahui dengan menyemak imbas ulasan tentang pendapat keseluruhan semua orang tentang filem ini. Sekarang mari kita gunakan analisis data untuk melihat perkara menarik yang berlaku dalam ulasan ini!

Artikel ini menggunakan perangkak Python untuk mendapatkan data, menganalisis ulasan filem Douban dan mencipta imej awan ulasan filem Douban. Sekarang, mari kita lihat subteks menarik yang tersembunyi dalam ulasan "Wolf Warrior II".

Pemerolehan data

Artikel ini menggunakan data yang diperolehi oleh perangkak Python terutamanya menggunakan pakej permintaan dan semula pakej biasa Program ini tidak memproses kod pengesahan. Saya telah merangkak halaman web Douban sebelum ini, kerana kandungan yang dirangkak adalah kecil, saya tidak menemui kod pengesahan. Semasa saya menulis perangkak ini, saya fikir tidak akan ada kod pengesahan, tetapi apabila kira-kira 15,000 ulasan dirangkak, kod pengesahan muncul.
Kemudian saya berfikir, bukankah hanya 120,000? Paling banyak, saya hanya memasukkan kod pengesahan kira-kira sedozen kali, jadi saya tidak perlu berurusan dengan kod pengesahan. Tetapi apa yang berlaku seterusnya agak mengelirukan saya Apabila saya merangkak kira-kira 15,000 ulasan dan memasukkan kod pengesahan, saya fikir ia akan merangkak kepada kira-kira 30,000, tetapi selepas merangkak kira-kira 3,000, saya masih perlu memasukkannya kod pengesahan.

Kemudian ia terus berjalan seperti ini, tersandung Kadang-kadang ia mengambil masa yang lama untuk merangkak sebelum kod pengesahan diperlukan, dan kadangkala tidak. Tetapi akhirnya, komen itu merangkak. Kandungan yang dirangkak terutamanya termasuk: nama pengguna, sama ada anda telah melihatnya, bilangan bintang ulasan, masa ulasan, bilangan orang yang mendapati ia berguna dan kandungan ulasan. Berikut ialah kod crawler Python:
permintaan import<br> import semula<br> import panda sebagai pd<br> url_first='https://movie.douban.com/subject/26363254/comments?start=0'<br> head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}<br> html=requests.get(url_first,headers=head,cookies=cookies)<br> cookies={'cookie':'your own cookie'} #Iaitu, cari kuki yang sepadan dengan akaun anda<br> reg=re.compile(r'') #Halaman seterusnya<br> ren=re.compile(r'<span>(.*?)</span>.*?comment">(.*?).*?.*?<span .>(.*?).*?<span>(.*?)</span>.* ?title="(.*?)"></span>.*?title="(.*?)">.*?class=""> (.*?)n',re.S) #Ulasan dan kandungan lain <br> manakala html.status_code==200:<br> url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]<br> zhanlang=re.findall(ren,html.text)<br> data=pd.DataFrame(zhanlang)<br> data.to_csv('/home/wajuejiprince/document/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #Tulis fail csv, 'a+' ialah mod tambahan<br> data=[]<br> zhanlang=[]<br> html=requests.get(url_next,cookies=cookies,headers=head)
Dalam kod di atas, sila tetapkan Ejen Pengguna, Kuki, laluan menyimpan CSV anda sendiri, dsb., dan simpan kandungan yang dirangkak ke dalam fail format CSV.

Pembersihan data

Artikel ini menggunakan bahasa R untuk memproses data Walaupun kami telah memberi perhatian yang besar kepada struktur kandungan yang dirangkak semasa merangkak, tidak dapat dielakkan bahawa terdapat beberapa nilai yang bukan yang kami inginkan. Contohnya, beberapa kandungan ulasan akan muncul dalam item pengulas, jadi masih perlu membersihkan data.

Muat pertama muat semua pakej yang anda ingin gunakan:
perpustakaan(data.jadual)<br> perpustakaan(plot)<br> perpustakaan(stringr)<br> perpustakaan(jiebaR)<br> perpustakaan(wordcloud2)<br> perpustakaan(magrittr)
Import data dan bersihkan:
dt

Analisis ringkas data

Mari kita lihat dahulu komen berdasarkan bilangan bintang:
plot_ly(my_dt[,.(.N),by=.(五星数)],type = 'bar',x=~五星数,y=~N)plot_ly(my_dt[,.(.N),by=.(nombor lima bintang)],type = 'bar',x=~nombor lima bintang,y=~N)
Perangkak Python menganalisis ulasan filem Wolf Warrior.

🎜

Bilangan bintang berbucu lima sepadan dengan 5 tahap, 5 bintang bermakna sangat disyorkan, 4 bintang bermakna disyorkan, 3 bintang bermakna okey, 2 bintang bermakna miskin, dan 1 bintang bermakna sangat miskin.
Jelas sekali daripada ulasan Pentagram bahawa kami mempunyai sebab untuk mempercayai bahawa sebahagian besar penonton akan berpuas hati dengan filem ini.

Pertama kita harus membahagikan komen:
wk <br> Paparan awan ulasan keseluruhan: <br> <code>perkataan%data.table()<br> nama set(perkataan,"N","pinshu")<br> perkataan[pinshu>1000] #Alih keluar perkataan frekuensi rendah (kurang daripada 1000)<br> wordcloud2(words[pinshu>1000], saiz = 2, fontFamily = "Microsoft Yahei", color = "random-light", backgroundColor = "grey")
Oleh kerana terdapat terlalu banyak data, komputer saya yang rosak membeku, jadi saya mengalih keluar perkataan dengan frekuensi lebih rendah daripada 1,000 semasa membuat carta awan. Keputusan imej awan adalah seperti berikut:
Perangkak Python menganalisis ulasan filem Wolf Warrior.

Secara keseluruhan, komen semua orang pada video ini cukup bagus! Topik seperti plot, aksi, dan patriotisme menjadi tumpuan perbincangan.

Kata kunci penilaian: Wu Jing, kepahlawanan peribadi, tema utama, China, halo protagonis, Setiausaha Dakang, sangat membakar.

Dapat dilihat bahawa "membakar" bukanlah sambutan yang paling popular selepas menontonnya.

Paparan imej awan dengan tahap komen yang berbeza

Tetapi bagaimana agaknya jika ulasan daripada orang yang mempunyai penilaian berbeza dipaparkan secara berasingan? Iaitu untuk mencipta carta awan untuk kandungan semakan lima tahap (sangat disyorkan, disyorkan, okey, lemah, sangat lemah), kodnya adalah seperti berikut (hanya tukar kod kepada "sangat disyorkan" kepada yang lain).

1. Awan ulasan pengulas yang sangat disyorkan

Perangkak Python menganalisis ulasan filem Wolf Warrior.

2. Awan ulasan pengulas yang disyorkan

Perangkak Python menganalisis ulasan filem Wolf Warrior.

3. Awan ulasan pengulas yang baik

Perangkak Python menganalisis ulasan filem Wolf Warrior.

4. Awan ulasan pengulas yang lemah

Perangkak Python menganalisis ulasan filem Wolf Warrior.

5. Awan ulasan pengulas buruk

Perangkak Python menganalisis ulasan filem Wolf Warrior.

Kesimpulan

Menilai daripada hasil segmentasi perkataan komen yang berbeza, semuanya mempunyai topik yang sama: patriotisme.

Bilangan topik patriotik dalam ulasan yang sangat disyorkan mungkin lebih tinggi daripada ulasan yang kurang disyorkan Dalam ulasan yang sangat disyorkan, orang lebih bersedia untuk membincangkan perkara selain daripada topik patriotik. Kebanyakan komen negatif adalah mengenai topik patriotik. Dan perkadaran mereka sangat menarik Daripada mereka yang sangat mengesyorkannya kepada mereka yang mengulas buruk, bahagian topik patriotik meningkat secara beransur-ansur.

Kita tidak boleh berfikir secara subjektif siapa yang betul atau salah Kita hanya boleh mengatakan bahawa mereka berdiri dari perspektif yang berbeza, jadi hasil yang mereka lihat juga berbeza. Apabila kita tidak bersetuju dengan orang lain, ia selalunya dari perspektif yang berbeza. Orang yang mempunyai komen yang tidak baik mungkin lebih memikirkan topik patriotik (ini hanya perbincangan tentang topik patriotik, bukan yang suka atau tidak suka negara)! !

Selepas analisis, sebab asas mengapa "Wolf Warrior 2" ini telah disokong oleh begitu ramai orang ialah ia telah mencapai adegan peringkat blockbuster Amerika dalam produksi yang tidak dimiliki oleh "Wolf Warrior 1", dan pada masa yang sama membangkitkan semangat patriotik dan membangkitkan hati rakyat.

Atas ialah kandungan terperinci Perangkak Python menganalisis ulasan filem 'Wolf Warrior'.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Perbezaan antara centos dan ubuntu Perbezaan antara centos dan ubuntu Apr 14, 2025 pm 09:09 PM

Perbezaan utama antara CentOS dan Ubuntu adalah: asal (CentOS berasal dari Red Hat, untuk perusahaan; Ubuntu berasal dari Debian, untuk individu), pengurusan pakej (CentOS menggunakan yum, yang memberi tumpuan kepada kestabilan; Ubuntu menggunakan APT, untuk kekerapan yang tinggi) Pelbagai tutorial dan dokumen), kegunaan (CentOS berat sebelah ke arah pelayan, Ubuntu sesuai untuk pelayan dan desktop), perbezaan lain termasuk kesederhanaan pemasangan (CentOS adalah nipis)

Cara memasang centos Cara memasang centos Apr 14, 2025 pm 09:03 PM

Langkah Pemasangan CentOS: Muat turun Imej ISO dan Burn Bootable Media; boot dan pilih sumber pemasangan; Pilih susun atur bahasa dan papan kekunci; Konfigurasikan rangkaian; memisahkan cakera keras; Tetapkan jam sistem; Buat pengguna root; pilih pakej perisian; Mulakan pemasangan; Mulakan semula dan boot dari cakera keras selepas pemasangan selesai.

Pilihan Centos setelah menghentikan penyelenggaraan Pilihan Centos setelah menghentikan penyelenggaraan Apr 14, 2025 pm 08:51 PM

CentOS telah dihentikan, alternatif termasuk: 1. Rocky Linux (keserasian terbaik); 2. Almalinux (serasi dengan CentOS); 3. Ubuntu Server (Konfigurasi diperlukan); 4. Red Hat Enterprise Linux (versi komersial, lesen berbayar); 5. Oracle Linux (serasi dengan CentOS dan RHEL). Apabila berhijrah, pertimbangan adalah: keserasian, ketersediaan, sokongan, kos, dan sokongan komuniti.

Penjelasan terperinci mengenai Prinsip Docker Penjelasan terperinci mengenai Prinsip Docker Apr 14, 2025 pm 11:57 PM

Docker menggunakan ciri -ciri kernel Linux untuk menyediakan persekitaran berjalan yang cekap dan terpencil. Prinsip kerjanya adalah seperti berikut: 1. Cermin digunakan sebagai templat baca sahaja, yang mengandungi semua yang anda perlukan untuk menjalankan aplikasi; 2. Sistem Fail Kesatuan (Unionfs) menyusun pelbagai sistem fail, hanya menyimpan perbezaan, menjimatkan ruang dan mempercepatkan; 3. Daemon menguruskan cermin dan bekas, dan pelanggan menggunakannya untuk interaksi; 4. Ruang nama dan cgroups melaksanakan pengasingan kontena dan batasan sumber; 5. Pelbagai mod rangkaian menyokong interkoneksi kontena. Hanya dengan memahami konsep -konsep teras ini, anda boleh menggunakan Docker dengan lebih baik.

Cara menggunakan desktop docker Cara menggunakan desktop docker Apr 15, 2025 am 11:45 AM

Bagaimana cara menggunakan desktop Docker? Docktop Docktop adalah alat untuk menjalankan bekas Docker pada mesin tempatan. Langkah -langkah untuk digunakan termasuk: 1. Pasang desktop Docker; 2. Mulakan desktop Docker; 3. Buat imej Docker (menggunakan Dockerfile); 4. Membina imej Docker (menggunakan Docker Build); 5. Jalankan bekas Docker (menggunakan Docker Run).

Apa yang Harus Dilakukan Setelah CentOs Berhenti Penyelenggaraan Apa yang Harus Dilakukan Setelah CentOs Berhenti Penyelenggaraan Apr 14, 2025 pm 08:48 PM

Selepas CentOS dihentikan, pengguna boleh mengambil langkah -langkah berikut untuk menanganinya: Pilih pengedaran yang serasi: seperti Almalinux, Rocky Linux, dan CentOS Stream. Berhijrah ke pengagihan komersial: seperti Red Hat Enterprise Linux, Oracle Linux. Menaik taraf ke CentOS 9 Stream: Pengagihan Rolling, menyediakan teknologi terkini. Pilih pengagihan Linux yang lain: seperti Ubuntu, Debian. Menilai pilihan lain seperti bekas, mesin maya, atau platform awan.

Konfigurasi komputer apa yang diperlukan untuk vscode Konfigurasi komputer apa yang diperlukan untuk vscode Apr 15, 2025 pm 09:48 PM

Keperluan Sistem Kod Vs: Sistem Operasi: Windows 10 dan ke atas, MACOS 10.12 dan ke atas, pemproses pengedaran Linux: minimum 1.6 GHz, disyorkan 2.0 GHz dan ke atas memori: minimum 512 MB, disyorkan 4 GB dan ke atas ruang penyimpanan: minimum 250 mb, disyorkan 1 GB dan di atas keperluan lain:

Apa yang perlu dilakukan sekiranya imej docker gagal Apa yang perlu dilakukan sekiranya imej docker gagal Apr 15, 2025 am 11:21 AM

Langkah Penyelesaian Masalah untuk Gagal Docker Image Build: Semak Sintaks Dockerfile dan Versi Ketergantungan. Semak jika konteks binaan mengandungi kod sumber dan kebergantungan yang diperlukan. Lihat log binaan untuk butiran ralat. Gunakan pilihan sasaran untuk membina fasa hierarki untuk mengenal pasti titik kegagalan. Pastikan anda menggunakan versi terkini Enjin Docker. Bina imej dengan --t [nama imej]: mod debug untuk debug masalah. Semak ruang cakera dan pastikan ia mencukupi. Lumpuhkan Selinux untuk mengelakkan gangguan dengan proses binaan. Tanya platform komuniti untuk mendapatkan bantuan, sediakan dockerfiles dan bina deskripsi log untuk cadangan yang lebih spesifik.

See all articles