Web mengikis dan menganalisis data bahasa asing-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Web mengikis dan menganalisis data bahasa asing

Susan Sarandon

Dec 24, 2024 am 11:40 AM

Baru-baru ini saya memutuskan bahawa saya ingin melakukan projek pengikisan web dan analisis data pantas. Kerana otak saya suka menghasilkan idea-idea besar yang akan mengambil banyak masa, saya memutuskan untuk mencabar diri saya untuk menghasilkan sesuatu yang mudah yang boleh dilakukan dalam beberapa jam.

Inilah yang saya dapat:

Memandangkan ijazah sarjana muda saya pada asalnya dalam Bahasa Asing (Perancis dan Sepanyol), saya fikir ia adalah menyeronokkan untuk mengikis beberapa data berkaitan bahasa di web. Saya mahu menggunakan pustaka BeautifulSoup, yang boleh menghuraikan html statik tetapi tidak dapat menangani halaman web dinamik yang memerlukan peristiwa onclick untuk mendedahkan keseluruhan set data (iaitu mengklik pada halaman data seterusnya jika halaman dinomborkan).

Saya memutuskan pada halaman Wikipedia ini bahasa yang paling biasa dituturkan.

Web scraping and analysing foreign languages data

Saya mahu melakukan perkara berikut:

Dapatkan html untuk halaman dan keluarkan ke fail .txt
Gunakan sup cantik untuk menghuraikan fail html dan mengekstrak data jadual
Tulis jadual pada fail .csv
Kemukakan 10 soalan yang ingin saya jawab untuk set data ini menggunakan analisis data
Jawab soalan tersebut menggunakan panda dan Buku Nota Jupyter

Saya memutuskan untuk membahagikan projek kepada langkah-langkah ini untuk mengasingkan kebimbangan, tetapi saya juga ingin mengelak daripada membuat beberapa permintaan yang tidak perlu untuk mendapatkan html daripada Wikipedia dengan menjalankan semula skrip. Menyimpan fail html dan kemudian bekerja dengannya dalam skrip berasingan bermakna anda tidak perlu terus meminta semula data, kerana anda sudah memilikinya.

Pautan Projek

Pautan ke repo github saya untuk projek ini ialah: https://github.com/gabrielrowan/Foreign-Languages-Analysis

Mendapatkan html

Mula-mula, saya mendapatkan semula dan mengeluarkan html. Selepas bekerja dengan C# dan C , ia sentiasa menjadi satu kebaharuan kepada saya betapa pendek dan ringkasnya kod Python ?

url = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'

response = requests.get(url)
html = response.text

with open("languages_html.txt", "w", encoding="utf-8") as file:
    file.write(html)

Salin selepas log masuk

Menghuraikan html

Untuk menghuraikan html dengan sup Cantik dan memilih jadual yang saya minati, saya lakukan:

with open("languages_html.txt", "r", encoding="utf-8") as file:
    soup = BeautifulSoup(file, 'html.parser')

# get table
top_languages_table = soup.select_one('.wikitable.sortable.static-row-numbers')

Salin selepas log masuk

Kemudian, saya mendapat teks pengepala jadual untuk mendapatkan nama lajur untuk bingkai data panda saya:

# get column names
columns = top_languages_table.find_all("th")
column_titles = [column.text.strip() for column in columns]

Salin selepas log masuk

Selepas itu, saya mencipta bingkai data, menetapkan nama lajur, mendapatkan semula setiap baris jadual dan menulis setiap baris pada bingkai data:

# get table rows
table_data = top_languages_table.find_all("tr")

# define dataframe
df = pd.DataFrame(columns=column_titles)

# get table data
for row in table_data[1:]:
    row_data = row.find_all('td')
    row_data_txt = [row.text.strip() for row in row_data]
    print(row_data_txt)
    df.loc[len(df)] = row_data_txt

Salin selepas log masuk

Nota - tanpa menggunakan strip() terdapat n aksara dalam teks yang tidak diperlukan.

Terakhir, saya menulis bingkai data ke .csv.

Menganalisis data

Sebelumnya, saya akan mengemukakan soalan ini yang ingin saya jawab daripada data:

Berapakah jumlah penutur asli merentas semua bahasa dalam set data?
Berapa banyak jenis keluarga bahasa yang berbeza?
Berapakah jumlah penutur asli bagi setiap keluarga bahasa?
Apakah 3 keluarga bahasa yang paling biasa?
Buat carta pai yang menunjukkan 3 keluarga bahasa paling biasa teratas
Apakah keluarga Bahasa yang paling biasa berlaku - pasangan cabang?
Bahasa Sino-Tibet yang manakah dalam jadual?
Paparkan carta bar penutur asli semua bahasa Romantik dan Jerman
Berapa peratusan jumlah penutur asli yang diwakili oleh 5 bahasa teratas?
Cawangan manakah yang mempunyai penutur asli paling banyak, dan yang manakah mempunyai paling sedikit?

Hasilnya

Walaupun saya tidak akan memasukkan kod untuk menjawab semua soalan ini, saya akan pergi ke 2 soalan yang melibatkan carta.

Paparkan carta bar penutur asli semua bahasa Romantik dan Jerman

Mula-mula, saya mencipta bingkai data yang hanya menyertakan baris dengan nama cawangan ialah 'Romance' atau 'Jerman'

url = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'

response = requests.get(url)
html = response.text

with open("languages_html.txt", "w", encoding="utf-8") as file:
    file.write(html)

Salin selepas log masuk

Kemudian saya menyatakan paksi x, paksi y dan warna bar yang saya inginkan untuk carta:

with open("languages_html.txt", "r", encoding="utf-8") as file:
    soup = BeautifulSoup(file, 'html.parser')

# get table
top_languages_table = soup.select_one('.wikitable.sortable.static-row-numbers')

Salin selepas log masuk

Ini dicipta:

Web scraping and analysing foreign languages data

Buat carta pai yang menunjukkan 3 keluarga bahasa yang paling biasa

Untuk membuat carta pai, saya mendapatkan semula 3 keluarga bahasa yang paling biasa dan meletakkannya dalam bingkai data.

Kumpulan kod ini mendapat jumlah keseluruhan penutur asli bagi setiap keluarga bahasa, mengisih mereka dalam tertib menurun dan mengekstrak 3 entri teratas.

# get column names
columns = top_languages_table.find_all("th")
column_titles = [column.text.strip() for column in columns]

Salin selepas log masuk

Kemudian saya meletakkan data dalam carta pai, menyatakan paksi y 'Penutur Asli' dan legenda, yang mencipta label berkod warna untuk setiap keluarga bahasa yang ditunjukkan dalam carta.

# get table rows
table_data = top_languages_table.find_all("tr")

# define dataframe
df = pd.DataFrame(columns=column_titles)

# get table data
for row in table_data[1:]:
    row_data = row.find_all('td')
    row_data_txt = [row.text.strip() for row in row_data]
    print(row_data_txt)
    df.loc[len(df)] = row_data_txt

Salin selepas log masuk

Web scraping and analysing foreign languages data

Kod dan jawapan untuk selebihnya soalan boleh didapati di sini. Saya menggunakan markdown dalam buku nota untuk menulis soalan dan jawapannya.

Kali Seterusnya:

Untuk lelaran seterusnya bagi projek pengikisan web & analisis data, saya ingin membuat perkara lebih rumit dengan:

Web mengikis halaman dinamik di mana lebih banyak data didedahkan pada klik/ tatal
Menganalisis set data yang jauh lebih besar, berpotensi memerlukan beberapa kerja pembersihan data sebelum analisis

Web scraping and analysing foreign languages data

Fikiran akhir

Walaupun ia cepat, saya seronok melakukan projek ini. Ia mengingatkan saya betapa bergunanya projek pendek dan terurus untuk mendapatkan wakil latihan? Selain itu, mengekstrak data daripada internet dan mencipta carta daripadanya, walaupun dengan set data yang kecil, menyeronokkan ?

Atas ialah kandungan terperinci Web mengikis dan menganalisis data bahasa asing. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang lalu By DDD

Roblox: Rails Dead - Cara Memanggil dan Mengalahkan Nikola Tesla

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7844

Tutorial Java

1649

Tutorial CakePHP

1403

Tutorial Laravel

1300

Tutorial PHP

1241

Tunjukkan Lagi

Related knowledge

Bagaimana untuk menyelesaikan masalah kebenaran yang dihadapi semasa melihat versi Python di Terminal Linux? Apr 01, 2025 pm 05:09 PM

Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Bagaimana untuk mengelakkan dikesan oleh penyemak imbas apabila menggunakan fiddler di mana-mana untuk membaca lelaki-dalam-tengah? Apr 02, 2025 am 07:15 AM

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...

Bagaimana cara menyalin seluruh lajur satu data ke dalam data data lain dengan struktur yang berbeza di Python? Apr 01, 2025 pm 11:15 PM

Apabila menggunakan Perpustakaan Pandas Python, bagaimana untuk menyalin seluruh lajur antara dua data data dengan struktur yang berbeza adalah masalah biasa. Katakan kita mempunyai dua DAT ...

Bagaimanakah uvicorn terus mendengar permintaan http tanpa serving_forever ()? Apr 01, 2025 pm 10:51 PM

Bagaimanakah Uvicorn terus mendengar permintaan HTTP? Uvicorn adalah pelayan web ringan berdasarkan ASGI. Salah satu fungsi terasnya ialah mendengar permintaan HTTP dan teruskan ...

Bagaimana untuk mengendalikan parameter pertanyaan senarai yang dipisahkan koma di FastAPI? Apr 02, 2025 am 06:51 AM

Fastapi ...

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam Kaedah Projek dan Masalah Dikemukakan Dalam masa 10 Jam? Apr 02, 2025 am 07:18 AM

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Bagaimana menyelesaikan masalah kebenaran apabila menggunakan perintah Python -version di Terminal Linux? Apr 02, 2025 am 06:36 AM

Menggunakan Python di Terminal Linux ...

Bagaimana untuk mendapatkan data berita yang melangkaui mekanisme anti-crawler Investing.com? Apr 02, 2025 am 07:03 AM

Memahami Strategi Anti-Crawling of Investing.com Ramai orang sering cuba merangkak data berita dari Investing.com (https://cn.investing.com/news/latest-news) ...

See all articles