Helo, hari ini kami akan mencipta projek pertama untuk anda, pemula dalam bidang data, untuk dapat mula mencipta portfolio yang hebat dan dengan semua alat yang diperlukan untuk digunakan data!
Projek ini menunjukkan bahawa, walaupun anda seorang pemula dalam Python, anda sentiasa boleh mencari perpustakaan untuk melaksanakan tugas yang lebih kompleks yang anda belum tahu bagaimana untuk melakukannya dari awal (sesetengah perkara tidak berbaloi untuk dilakukan dari awal sama ada). Pertama sekali, adalah penting anda mempunyai pengetahuan awal tentang Python dan SQL, serta sedikit pengetahuan tentang Tableau untuk mencipta papan pemuka. Anda tidak perlu menjadi pakar, tetapi mengetahui asas alat ini akan membantu anda mengikuti projek dengan lebih mudah, tetapi anda boleh membaca keseluruhan artikel dan cuba menghasilkan semulanya juga kerana saya akan cuba menerangkannya dalam cara paling mudah supaya Kini anda boleh mula mencipta papan pemuka pertama anda!
Bolehkah kita mulakan?
Langkah pertama ialah memastikan persekitaran pembangunan anda dikonfigurasikan pada mesin anda, keperluan untuk projek ini ialah:
Saya sedang membangunkan projek ini dalam persekitaran Windows 11, jadi beberapa perkara mungkin berbeza-beza bergantung pada OS atau versi Windows anda, tetapi tiada yang terlalu menyimpang daripada perkara yang akan saya bentangkan di sini.
Mari kita mulakan dengan Python. Pergi ke https://www.python.org/downloads/ dan muat turun versi terkini pemasang. Selepas pemasangan, mulakan semula PC anda untuk mengelakkan pepijat (seperti yang berlaku kepada saya hahah) dan boleh menggunakan bahasa tanpa masalah pada baris arahan.
Kemudian, dengan MySQL, pergi ke tapak web https://dev.mysql.com/downloads/mysql/ dan muat turun pemasang Pelayan Komuniti MySQL. Cuma ikut pemasangan standard dan semuanya akan berjalan dengan sempurna.
Sekarang, dengan Tableau Public, pergi ke https://www.tableau.com/pt-br/products/public/download dan buat akaun anda untuk memulakan muat turun. Penciptaan akaun juga diperlukan untuk menerbitkan papan pemuka pertama anda dan juga akan menjadi sangat penting untuk portfolio anda!
Alat lain yang tidak diperlukan, tetapi sangat bagus untuk dimiliki, ialah git dan akaun github. Saya meletakkan semua kod saya dengan komit dan ulasan di sini dan sangat bagus untuk menggunakan github sebagai portfolio kod anda, tetapi jika anda tidak tahu git tidak mengapa dan projek anda akan berfungsi dengan cara yang sama.
Apabila anda telah mengkonfigurasi semuanya, pergi ke direktori tempat anda akan meletakkan aplikasi anda, kemudian mari buat beberapa konfigurasi lagi. Anda memerlukan beberapa perpustakaan Python untuk digunakan dalam projek, saya akan menerangkan perkara yang dilakukan oleh setiap pustaka dan cara memasangnya.
Perpustakaan pertama yang akan kami gunakan ialah BeautifulSoup. Data yang kami perlukan untuk projek ini ada di internet dan kami perlu melakukan proses yang dipanggil Web Scraping untuk mengumpulnya, BeautifulSoup akan membantu kami dengan proses ini dengan membawakan kami alatan yang memudahkan pengumpulan ini.
Untuk memasangnya, hanya pergi ke terminal dan taip
pip install beautifulsoup4
dan... itu sahaja! Memasang kebergantungan dalam Python adalah sangat mudah!
Perpustakaan kedua yang akan kami gunakan ialah permintaan. Jika kami akan bekerja dengan halaman web, kami memerlukan sesuatu yang membantu kami melaksanakan tindakan CRUD dengan API, jadi ini akan menjadi pilihan kami. Sekali lagi, pasang sahaja di terminal dengan
pip install requests
Kami juga akan melaksanakan amalan baik dan menggunakan pembolehubah persekitaran (supaya tiada siapa yang menemui kata laluan, nama pengguna dan maklumat sensitif kami yang lain dalam kod kami), jadi kami memerlukan os dan dotenv. os mesti sudah dipasang secara lalai dalam python, manakala dotenv tidak, jadi ia adalah proses biasa
pip install dotenv
Dan akhir sekali, kami memerlukan perpustakaan untuk menyambung ke pangkalan data MySQL kami, jadi mari gunakan mysql.connector
pip install mysql-connector-python
Sebaik sahaja persekitaran pembangunan dikonfigurasikan, teruskan sahaja ke bahagian proses yang paling menyeronokkan, PENGATURCARAAN!!
Kami akan membuat projek yang akan dibahagikan kepada dua bahagian (dari segi kod), mengikis web dan manipulasi pangkalan data, jadi kami akan mulakan dengan mencipta fail pengikisan web, yang juga akan menjadi tempat kod utama akan pergi tinggal, dan kemudian kami akan mencipta fail untuk meletakkan fungsi manipulasi pangkalan data kami. Ini membantu kami bukan sahaja dalam mengekalkan kod tetapi juga dalam penggunaan semulanya.
Buat fail bernama web_scrapper.py dalam direktori aplikasi.
Seterusnya, kami akan mengimport kebergantungan kami yang kami pasang sebelum ini.
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
Dari dotenv kami hanya memerlukan fungsi load_dotenv dan oleh itu kami hanya akan mengimportnya.
Pertama, mari kita fikirkan tentang struktur kod kita dan tulis perkara yang kita mahu setiap perkara lakukan, langkah demi langkah, supaya ia lebih teratur. Kami mahu kod kami melakukan tindakan berikut:
Mari kita pergi ke bahagian-bahagian, bahagian pertama yang kita ingin buat dan uji ialah mencipta pengikis web, jadi cara terbaik ialah bermula dengan itu!
Kami akan menggunakan tapak web yang dibuat untuk jenis perkara ini, https://www.scrapethissite.com/, di sana anda akan menemui beberapa jenis halaman untuk berlatih mengikis web. Kami amat berminat dengan model pemula, jadi mari buat permintaan untuk halaman itu:
pip install beautifulsoup4
Di sini kami menggunakan kaedah dapatkan permintaan yang akan bersamaan dengan pembacaan CRUD, ia mengembalikan halaman web dan menyimpannya secara keseluruhan dalam pembolehubah yang kami buat page_countries_area_population.
Kemudian, kami memerlukan BeautifulSoup untuk menghuraikan HTML halaman supaya ia dapat mencari maklumat yang kami perlukan. Untuk melakukan ini, kami akan mencipta pembolehubah yang dipanggil sup dan memanggil BeaultifulSoup dan menghantar teks pembolehubah yang kami buat kepadanya
pip install requests
Ini akan mengembalikan halaman dengan parse dan kaedah BeautifulSoup yang dipautkan kepadanya dalam pembolehubah yang kami buat, sekali gus menjadikan kerja kami lebih mudah.
Sekarang kita perlu mengenal pasti maklumat yang ingin kita alih keluar dari halaman, untuk melakukan ini kita perlu memeriksa halaman web dan mengenal pasti elemen dan coraknya dalam dokumen html. Dalam kes ini kita melihat bahawa nama negara berada di dalam teg h3 dan dengan kelas nama negara, jadi mari kita gunakan ini untuk mendapatkan nama negara
pip install dotenv
Di sini kami memanggil sup yang kami buat sebelum ini dan memanggil fungsi findAll yang akan mengambil semua contoh nama negara untuk kami. Parameter pertama ialah elemen html yang kami cari dan yang kedua ialah atributnya, kerana mereka mungkin mempunyai tag h3 lain yang kami tidak mahu ia pilih, dalam kes ini kami lulus kelas nama negara untuk mengenal pasti elemen kami mahu.
Kami mengulangi proses untuk bilangan penduduk dan keluasan setiap negara
pip install mysql-connector-python
Sebelum menghantar data ini ke pangkalan data, kami akan membersihkannya dan membiarkannya dalam format yang menghalang perkara yang tidak diingini daripada masuk bersamanya. Untuk melakukan ini, saya akan membuat senarai tupel untuk menyimpan data sebelum menghantarnya ke pangkalan data, kerana ini akan menjadikan proses lebih mudah. Walau bagaimanapun, sebelum menambahkannya, kita perlu mengalih keluar tempat kosong daripada nama negara juga.
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
Dan dengan itu kami sudah mempunyai data yang kami perlukan! Kami boleh memotong tugas pertama itu daripada senarai kami!
Dalam bahagian dua artikel ini, saya akan mengajar anda cara memanipulasi pangkalan data menggunakan Python dan menyelesaikan projek kami?
Atas ialah kandungan terperinci Bagaimana untuk membuat projek pemula dalam analisis data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!