Rumah pembangunan bahagian belakang Tutorial Python Amalan perangkak buruk: data ruang QQ merangkak untuk analisis rangkaian sosial

Amalan perangkak buruk: data ruang QQ merangkak untuk analisis rangkaian sosial

Jun 22, 2023 pm 02:37 PM
analisis rangkaian sosial scrapy ruang qq

Dalam beberapa tahun kebelakangan ini, permintaan orang ramai untuk analisis rangkaian sosial semakin tinggi. Zon QQ ialah salah satu rangkaian sosial terbesar di China, dan rangkak dan analisis datanya amat penting untuk penyelidikan rangkaian sosial. Artikel ini akan memperkenalkan cara menggunakan rangka kerja Scrapy untuk merangkak data QQ Space dan melakukan analisis rangkaian sosial.

1. Pengenalan kepada Scrapy

Scrapy ialah rangka kerja rangkak web sumber terbuka berdasarkan Python Ia boleh membantu kami mengumpul data tapak web dengan cepat dan cekap melalui mekanisme Spider, memproses dan menyimpannya. Rangka kerja Scrapy terdiri daripada lima komponen teras: Enjin, Penjadual, Pemuat Turun, Labah-labah dan Paip Projek ialah komponen teras logik perangkak, yang mentakrifkan cara mengakses tapak web dan cara menyimpan data yang diekstrak.

2. Proses operasi Scrapy

1 Cipta projek Scrapy

Gunakan baris arahan untuk memasuki direktori tempat anda ingin mencipta projek, dan kemudian masukkan yang berikut. arahan:

scrapy startproject qq_zone
Salin selepas log masuk

Perintah ini akan mencipta projek Scrapy bernama "qq_zone".

2. Cipta Labah-labah

Dalam projek Scrapy, kita perlu mencipta Labah-labah dahulu. Cipta folder bernama "labah-labah" dalam direktori projek dan buat fail Python bernama "qq_zone_spider.py" di bawah folder.

Dalam qq_zone_spider.py, kita perlu terlebih dahulu mentakrifkan maklumat asas Spider, seperti nama, URL permulaan dan nama domain yang dibenarkan. Kodnya adalah seperti berikut:

import scrapy

class QQZoneSpider(scrapy.Spider):
    name = "qq_zone"
    start_urls = ['http://user.qzone.qq.com/xxxxxx']
    allowed_domains = ['user.qzone.qq.com']
Salin selepas log masuk

Perlu diambil perhatian bahawa start_urls hendaklah digantikan dengan URL halaman utama ruang QQ untuk dirangkak dan "xxxxxx" hendaklah digantikan dengan ID berangka QQ sasaran nombor.

Kemudian, kita perlu menentukan peraturan pengekstrakan data. Memandangkan QQ Space ialah halaman yang dipaparkan melalui Javascript, kami perlu menggunakan Selenium + PhantomJS untuk mendapatkan data halaman. Kodnya adalah seperti berikut:

from scrapy.selector import Selector
from selenium import webdriver

class QQZoneSpider(scrapy.Spider):
    name = "qq_zone"
    start_urls = ['http://user.qzone.qq.com/xxxxxx']
    allowed_domains = ['user.qzone.qq.com']

    def __init__(self):
        self.driver = webdriver.PhantomJS()

    def parse(self, response):
        self.driver.get(response.url)
        sel = Selector(text=self.driver.page_source)
        # 爬取数据的代码
Salin selepas log masuk

Seterusnya, anda boleh menggunakan XPath atau CSS Selector untuk mengekstrak data daripada halaman mengikut struktur halaman.

3. Memproses data dan menyimpan

Dalam qq_zone_spider.py, kita perlu menentukan cara memproses data yang diekstrak. Scrapy menyediakan mekanisme saluran paip projek untuk pemprosesan dan penyimpanan data. Kami boleh menghidupkan mekanisme ini dan menentukan saluran paip projek dalam fail settings.py.

Tambah kod berikut dalam fail settings.py:

ITEM_PIPELINES = {
    'qq_zone.pipelines.QQZonePipeline': 300,
}

DOWNLOAD_DELAY = 3
Salin selepas log masuk

Antaranya, DOWNLOAD_DELAY ialah masa tunda semasa merangkak halaman, yang boleh dilaraskan mengikut keperluan.

Kemudian, cipta fail bernama "pipelines.py" dalam direktori akar projek dan tentukan cara memproses dan menyimpan data yang ditangkap.

import json

class QQZonePipeline(object):

    def __init__(self):
        self.file = open('qq_zone_data.json', 'w')

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "
"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.close()
Salin selepas log masuk

Dalam kod di atas, kami menggunakan modul json untuk menukar data ke dalam format json dan kemudian menyimpannya ke dalam fail "qq_zone_data.json".

3. Analisis rangkaian sosial

Selepas penangkapan data ruang QQ selesai, kami boleh menggunakan modul NetworkX dalam Python untuk menjalankan analisis rangkaian sosial.

NetworkX ialah perpustakaan Python untuk menganalisis rangkaian yang kompleks. Ia menyediakan banyak alat yang berkuasa, seperti visualisasi graf, tetapan atribut nod dan tepi, penemuan komuniti, dsb. Berikut menunjukkan kod untuk analisis rangkaian sosial yang mudah:

import json
import networkx as nx
import matplotlib.pyplot as plt

G = nx.Graph()

with open("qq_zone_data.json", "r") as f:
    for line in f:
        data = json.loads(line)
        uid = data["uid"]
        friends = data["friends"]
        for friend in friends:
            friend_name = friend["name"]
            friend_id = friend["id"]
            G.add_edge(uid, friend_id)

# 可视化
pos = nx.spring_layout(G)
nx.draw_networkx_nodes(G, pos, node_size=20)
nx.draw_networkx_edges(G, pos, alpha=0.4)
plt.axis('off')
plt.show()
Salin selepas log masuk

Dalam kod di atas, kami mula-mula membaca data yang ditangkap ke dalam ingatan dan menggunakan NetworkX untuk membina graf tidak terarah, di mana setiap nod mewakili akaun A QQ, setiap tepi mewakili hubungan rakan antara dua akaun QQ.

Kemudian, kami menggunakan algoritma reka letak musim bunga untuk susun atur grafik, dan akhirnya menggunakan matplotlib untuk visualisasi.

4. Ringkasan

Artikel ini memperkenalkan cara menggunakan rangka kerja Scrapy untuk menangkap data dan menggunakan NetworkX untuk melakukan analisis rangkaian sosial yang mudah. Saya percaya pembaca mempunyai pemahaman yang lebih mendalam tentang penggunaan Scrapy, Selenium dan NetworkX. Sudah tentu, data ruang QQ merangkak hanyalah sebahagian daripada analisis rangkaian sosial, dan penerokaan dan analisis data yang lebih mendalam diperlukan pada masa hadapan.

Atas ialah kandungan terperinci Amalan perangkak buruk: data ruang QQ merangkak untuk analisis rangkaian sosial. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Scrapy melaksanakan rangkak dan analisis artikel akaun awam WeChat Scrapy melaksanakan rangkak dan analisis artikel akaun awam WeChat Jun 22, 2023 am 09:41 AM

Scrapy melaksanakan rangkak artikel dan analisis akaun awam WeChat WeChat ialah aplikasi media sosial yang popular dalam beberapa tahun kebelakangan ini, dan akaun awam yang dikendalikan di dalamnya juga memainkan peranan yang sangat penting. Seperti yang kita sedia maklum, akaun awam WeChat adalah lautan maklumat dan pengetahuan, kerana setiap akaun awam boleh menerbitkan artikel, mesej grafik dan maklumat lain. Maklumat ini boleh digunakan secara meluas dalam banyak bidang, seperti laporan media, penyelidikan akademik, dsb. Jadi, artikel ini akan memperkenalkan cara menggunakan rangka kerja Scrapy untuk merangkak dan menganalisis artikel akaun awam WeChat. Scr

Bagaimana untuk menetapkan akses kebenaran dalam ruang QQ Bagaimana untuk menetapkan akses kebenaran dalam ruang QQ Feb 23, 2024 pm 02:22 PM

Bagaimana untuk menetapkan akses kebenaran dalam ruang QQ? Anda boleh menetapkan akses kebenaran dalam ruang QQ, tetapi kebanyakan rakan tidak tahu bagaimana untuk menetapkan akses kebenaran dalam ruang QQ Seterusnya ialah rajah cara menetapkan akses kebenaran dalam ruang QQ yang dibawa oleh editor untuk pengguna Teks tutorial, pengguna yang berminat datang dan lihat! Tutorial penggunaan QQ Bagaimana untuk menetapkan kebenaran untuk ruang QQ 1. Mula-mula buka aplikasi QQ, klik [Avatar] di sudut kiri atas halaman utama 2. Kemudian kembangkan kawasan maklumat peribadi di sebelah kiri dan klik fungsi [Tetapan]. di sudut kiri bawah; 3. Masukkan halaman tetapan Leret untuk mencari pilihan [Privasi] 4. Seterusnya dalam antara muka privasi, pilih perkhidmatan [Tetapan Kebenaran] 5. Kemudian cabar ke halaman terkini dan pilih [Space Dynamics ]; 6. Tetapkan dalam QQ Space sekali lagi

Kaedah pelaksanaan pemuatan asynchronous Scrapy berdasarkan Ajax Kaedah pelaksanaan pemuatan asynchronous Scrapy berdasarkan Ajax Jun 22, 2023 pm 11:09 PM

Scrapy ialah rangka kerja perangkak Python sumber terbuka yang boleh mendapatkan data daripada tapak web dengan cepat dan cekap. Walau bagaimanapun, banyak tapak web menggunakan teknologi pemuatan tak segerak Ajax, menjadikannya mustahil untuk Scrapy mendapatkan data secara langsung. Artikel ini akan memperkenalkan kaedah pelaksanaan Scrapy berdasarkan pemuatan tak segerak Ajax. 1. Prinsip pemuatan tak segerak Ajax Pemuatan tak segerak Ajax: Dalam kaedah pemuatan halaman tradisional, selepas pelayar menghantar permintaan kepada pelayan, ia mesti menunggu pelayan mengembalikan respons dan memuatkan keseluruhan halaman sebelum meneruskan ke langkah seterusnya.

Analisis kes buruk: Cara merangkak maklumat syarikat di LinkedIn Analisis kes buruk: Cara merangkak maklumat syarikat di LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy ialah rangka kerja perangkak berasaskan Python yang boleh mendapatkan maklumat berkaitan dengan cepat dan mudah di Internet. Dalam artikel ini, kami akan menggunakan kes Scrapy untuk menganalisis secara terperinci cara merangkak maklumat syarikat di LinkedIn. Tentukan URL sasaran Mula-mula, kita perlu menjelaskan dengan jelas bahawa sasaran kita ialah maklumat syarikat di LinkedIn. Oleh itu, kita perlu mencari URL halaman maklumat syarikat LinkedIn. Buka laman web LinkedIn, masukkan nama syarikat dalam kotak carian, dan

Petua pengoptimuman buruk: Cara mengurangkan rangkak URL pendua dan meningkatkan kecekapan Petua pengoptimuman buruk: Cara mengurangkan rangkak URL pendua dan meningkatkan kecekapan Jun 22, 2023 pm 01:57 PM

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh digunakan untuk mendapatkan sejumlah besar data daripada Internet. Walau bagaimanapun, apabila membangunkan Scrapy, kami sering menghadapi masalah merangkak URL pendua, yang membuang banyak masa dan sumber serta menjejaskan kecekapan. Artikel ini akan memperkenalkan beberapa teknik pengoptimuman Scrapy untuk mengurangkan rangkak URL pendua dan meningkatkan kecekapan perangkak Scrapy. 1. Gunakan atribut start_urls dan allowed_domains dalam perangkak Scrapy untuk

Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy Menggunakan Selenium dan PhantomJS dalam perangkak Scrapy Jun 22, 2023 pm 06:03 PM

Menggunakan Selenium dan PhantomJSScrapy dalam perangkak Scrapy Scrapy ialah rangka kerja perangkak web yang sangat baik di bawah Python dan telah digunakan secara meluas dalam pengumpulan dan pemprosesan data dalam pelbagai bidang. Dalam pelaksanaan perangkak, kadangkala perlu untuk mensimulasikan operasi penyemak imbas untuk mendapatkan kandungan yang dibentangkan oleh tapak web tertentu Dalam kes ini, Selenium dan PhantomJS diperlukan. Selenium mensimulasikan operasi manusia pada penyemak imbas, membolehkan kami mengautomasikan ujian aplikasi web

Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON? Penggunaan Scrapy yang mendalam: Bagaimana untuk merangkak data HTML, XML dan JSON? Jun 22, 2023 pm 05:58 PM

Scrapy ialah rangka kerja perangkak Python yang berkuasa yang boleh membantu kami mendapatkan data di Internet dengan cepat dan fleksibel. Dalam proses merangkak sebenar, kami sering menghadapi pelbagai format data seperti HTML, XML dan JSON. Dalam artikel ini, kami akan memperkenalkan cara menggunakan Scrapy untuk merangkak ketiga-tiga format data ini masing-masing. 1. Merangkak data HTML dan mencipta projek Scrapy Pertama, kita perlu membuat projek Scrapy. Buka baris arahan dan masukkan arahan berikut: scrapys

Pengenalan kepada teknologi analisis rangkaian sosial menggunakan Java Pengenalan kepada teknologi analisis rangkaian sosial menggunakan Java Jun 18, 2023 pm 09:57 PM

Dengan perkembangan rangkaian sosial, teknologi analisis rangkaian sosial (Analisis Rangkaian Sosial, SNA) telah menjadi semakin penting. SNA boleh mendedahkan fenomena sosial yang penting seperti perhubungan, kumpulan, dan penyebaran maklumat dalam rangkaian sosial Teknologi ini telah digunakan secara meluas dalam pelbagai bidang, termasuk sosiologi, psikologi, sains politik, ekonomi, dll. Di antara banyak alatan SNA, Java ialah bahasa pengaturcaraan yang biasa digunakan kerana keterbukaan, sifat merentas platform, keupayaan pemprosesan data yang berkuasa dan ciri yang mudah digunakan.

See all articles