Maison > développement back-end > Tutoriel Python > Comment créer un projet débutant en analyse de données

Comment créer un projet débutant en analyse de données

DDD
Libérer: 2024-12-23 12:49:20
original
404 Les gens l'ont consulté

Como criar um projeto iniciante em análise de dados

Bonjour, aujourd'hui nous allons créer un premier projet pour vous, débutants dans le domaine des données, pour pouvoir commencer à créer un portfolio sympa et avec tous les outils nécessaires pour travailler avec données !

Ce projet montre que, même si vous débutez en Python, vous pouvez toujours trouver des bibliothèques pour effectuer des tâches plus complexes que vous ne savez pas encore faire à partir de zéro (certaines choses ne valent même pas la peine d'être faites à partir de zéro) soit) . Tout d’abord, il est important que vous ayez des connaissances initiales en Python et SQL, ainsi qu’une petite connaissance de Tableau pour créer le tableau de bord. Il n'est pas nécessaire que vous soyez un expert, mais connaître les bases de ces outils vous aidera à suivre le projet plus facilement, mais vous pouvez lire l'intégralité de l'article et essayer de le reproduire également car je vais essayer de l'expliquer dans le de la manière la plus simple possible pour que vous puissiez maintenant commencer à créer votre premier tableau de bord !

On commence ?

La première étape consiste à configurer votre environnement de développement sur votre machine, les exigences pour ce projet sont :

  • Python 3
  • MySQL 9.1 (dernière version sur le site)
  • Tableau Public

Je développe ce projet dans un environnement Windows 11, donc certaines choses peuvent varier selon votre OS ou version de Windows, mais rien qui s'écarte trop de ce que je vais présenter ici.

Commençons par Python. Accédez à https://www.python.org/downloads/ et téléchargez la dernière version du programme d'installation. Après l'installation, redémarrez votre PC pour éviter les bugs (comme cela m'est arrivé hahah) et pouvoir utiliser le langage sans problème en ligne de commande.

Ensuite, avec MySQL, rendez-vous sur le site https://dev.mysql.com/downloads/mysql/ et téléchargez le programme d'installation de MySQL Community Server. Suivez simplement l'installation standard et tout se passera parfaitement.

Maintenant, avec Tableau Public, rendez-vous sur https://www.tableau.com/pt-br/products/public/download et créez votre compte pour lancer le téléchargement. La création de compte sera également nécessaire pour publier votre premier tableau de bord et sera également très importante pour votre portfolio !

Un autre outil qui n'est pas nécessaire, mais qui est très utile, est git et un compte github. Je mets tout mon code avec les commits et les commentaires ici et c'est bien d'utiliser github comme portfolio de votre code, mais si vous ne connaissez pas git, ce n'est pas grave et votre projet fonctionnera de la même manière.

Lorsque vous avez tout configuré, allez dans le répertoire où vous placerez votre application, puis effectuons quelques configurations supplémentaires. Vous aurez besoin de quelques bibliothèques Python à utiliser dans le projet, je vais vous expliquer ce que chacune fait et comment les installer.

La première bibliothèque que nous utiliserons est BeautifulSoup. Les données dont nous aurons besoin pour ce projet sont sur internet et nous devrons faire une démarche appelée Web Scraping pour les collecter, BeautifulSoup nous aidera dans cette démarche en nous apportant des outils qui facilitent cette collecte.
Pour l'installer, allez simplement sur le terminal et tapez

pip install beautifulsoup4
Copier après la connexion
Copier après la connexion

et... c'est tout ! Installer des dépendances en Python est très simple !

La deuxième bibliothèque que nous utiliserons est celle des requêtes. Si nous devons travailler avec des pages Web, nous avons besoin de quelque chose qui nous aide à effectuer des actions CRUD avec des API, ce sera donc notre choix. Encore une fois, installez simplement dans le terminal avec

pip install requests
Copier après la connexion
Copier après la connexion

Nous mettrons également en œuvre de bonnes pratiques et utiliserons des variables d'environnement (afin que personne ne découvre nos mots de passe, noms d'utilisateur et autres informations sensibles dans notre code), nous aurons donc besoin d'os et de dotenv. os doit déjà être installé par défaut en python, alors que dotenv ne l'est pas, c'est donc le processus habituel

pip install dotenv
Copier après la connexion
Copier après la connexion

Et enfin, nous avons besoin d'une bibliothèque pour nous connecter à notre base de données MySQL, alors utilisons mysql.connector

pip install mysql-connector-python
Copier après la connexion
Copier après la connexion

Une fois l'environnement de développement configuré, passez simplement à la partie la plus amusante du processus, la PROGRAMMATION !!

Nous allons réaliser un projet qui sera divisé en deux parties (en termes de code), le web scraping et la manipulation de base de données, nous allons donc commencer par créer le fichier web scraping, qui sera également l'endroit où le code principal sera allez rester, puis nous créerons un fichier pour placer nos fonctions de manipulation de base de données. Cela nous aide non seulement à maintenir le code mais aussi à sa réutilisation.

Créez un fichier appelé web_scrapper.py dans le répertoire de l'application.
Ensuite, nous importerons nos dépendances que nous avons installées précédemment.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv
Copier après la connexion
Copier après la connexion

Depuis dotenv, nous n'aurons besoin que de la fonction load_dotenv et donc nous l'importerons uniquement.

Tout d'abord, réfléchissons à la structure de notre code et écrivons ce que nous voulons que chaque chose fasse, étape par étape, pour que ce soit plus organisé. Nous voulons que notre code effectue les actions suivantes :

  1. Créez le web scraper et enregistrez les données dans des variables
  2. Remplissez la base de données avec les données que nous avons obtenues
  3. Récupérez les données de la base de données et mettez-les dans un fichier csv afin que nous puissions les analyser dans Tableau Public

Allons-y par parties, la première partie que nous voulons créer et tester est la création du web scraper, donc la meilleure façon est de commencer par ça !
Nous allons utiliser un site internet fait pour ce genre de chose, https://www.scrapethissite.com/, vous y trouverez plusieurs types de pages pour pratiquer le web scraping. Nous sommes particulièrement intéressés par le modèle débutant, alors faisons une demande pour cette page :

pip install beautifulsoup4
Copier après la connexion
Copier après la connexion

Ici nous utilisons la méthode requêtes get qui serait équivalente à la lecture de CRUD, elle renvoie la page web et la stocke dans son intégralité dans la variable que nous avons créée page_countries_area_population.
Ensuite, nous avons besoin de BeautifulSoup pour analyser le code HTML de la page afin qu'elle puisse trouver les informations dont nous avons besoin. Pour ce faire, nous allons créer une variable appelée soupe et appeler BeaultifulSoup et lui transmettre le texte de la variable que nous avons créée

pip install requests
Copier après la connexion
Copier après la connexion

Cela renverra la page avec les méthodes parse et BeautifulSoup qui y sont liées dans la variable que nous avons créée, facilitant ainsi notre travail.
Nous devons maintenant identifier les informations que nous souhaitons supprimer de la page. Pour ce faire, nous devons inspecter la page Web et identifier les éléments et leurs modèles dans le document HTML. Dans ce cas, nous voyons que les noms de pays sont dans une balise h3 et avec la classe country-name, utilisons donc ceci pour obtenir les noms de pays

pip install dotenv
Copier après la connexion
Copier après la connexion

Ici, nous appelons la soupe que nous avons créée plus tôt et appelons la fonction findAll qui récupérera toutes les instances de noms de pays pour nous. Le premier paramètre est l'élément HTML que nous recherchons et le second serait ses attributs, car ils peuvent avoir d'autres balises h3 que nous ne voulons pas qu'il sélectionne, dans ce cas nous passons la classe country-name pour identifier les éléments. nous voulons.
On répète le processus pour le nombre d'habitants et la superficie de chaque pays

pip install mysql-connector-python
Copier après la connexion
Copier après la connexion

Avant de transmettre ces données à la base de données, nous les nettoierons et les laisserons dans un format qui empêche les éléments indésirables d'entrer avec elles. Pour ce faire, je vais créer une liste de tuples pour stocker les données avant de les transmettre à la base de données, car cela facilitera le processus. Cependant, avant de les ajouter, nous devons également supprimer les espaces dans les noms de pays.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv
Copier après la connexion
Copier après la connexion

Et avec ça, nous avons déjà les données dont nous avons besoin ! Nous pouvons rayer cette première tâche de notre liste !

Dans la deuxième partie de cet article, je vais vous apprendre à manipuler une base de données en utilisant Python et terminer notre projet ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:dev.to
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal