Comment créer un projet débutant en analyse de données-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Comment créer un projet débutant en analyse de données

DDD

Dec 23, 2024 pm 12:49 PM

Como criar um projeto iniciante em análise de dados

Bonjour, aujourd'hui nous allons créer un premier projet pour vous, débutants dans le domaine des données, pour pouvoir commencer à créer un portfolio sympa et avec tous les outils nécessaires pour travailler avec données !

Ce projet montre que, même si vous débutez en Python, vous pouvez toujours trouver des bibliothèques pour effectuer des tâches plus complexes que vous ne savez pas encore faire à partir de zéro (certaines choses ne valent même pas la peine d'être faites à partir de zéro) soit) . Tout d’abord, il est important que vous ayez des connaissances initiales en Python et SQL, ainsi qu’une petite connaissance de Tableau pour créer le tableau de bord. Il n'est pas nécessaire que vous soyez un expert, mais connaître les bases de ces outils vous aidera à suivre le projet plus facilement, mais vous pouvez lire l'intégralité de l'article et essayer de le reproduire également car je vais essayer de l'expliquer dans le de la manière la plus simple possible pour que vous puissiez maintenant commencer à créer votre premier tableau de bord !

On commence ?

La première étape consiste à configurer votre environnement de développement sur votre machine, les exigences pour ce projet sont :

Python 3
MySQL 9.1 (dernière version sur le site)
Tableau Public

Je développe ce projet dans un environnement Windows 11, donc certaines choses peuvent varier selon votre OS ou version de Windows, mais rien qui s'écarte trop de ce que je vais présenter ici.

Commençons par Python. Accédez à https://www.python.org/downloads/ et téléchargez la dernière version du programme d'installation. Après l'installation, redémarrez votre PC pour éviter les bugs (comme cela m'est arrivé hahah) et pouvoir utiliser le langage sans problème en ligne de commande.

Ensuite, avec MySQL, rendez-vous sur le site https://dev.mysql.com/downloads/mysql/ et téléchargez le programme d'installation de MySQL Community Server. Suivez simplement l'installation standard et tout se passera parfaitement.

Maintenant, avec Tableau Public, rendez-vous sur https://www.tableau.com/pt-br/products/public/download et créez votre compte pour lancer le téléchargement. La création de compte sera également nécessaire pour publier votre premier tableau de bord et sera également très importante pour votre portfolio !

Un autre outil qui n'est pas nécessaire, mais qui est très utile, est git et un compte github. Je mets tout mon code avec les commits et les commentaires ici et c'est bien d'utiliser github comme portfolio de votre code, mais si vous ne connaissez pas git, ce n'est pas grave et votre projet fonctionnera de la même manière.

Lorsque vous avez tout configuré, allez dans le répertoire où vous placerez votre application, puis effectuons quelques configurations supplémentaires. Vous aurez besoin de quelques bibliothèques Python à utiliser dans le projet, je vais vous expliquer ce que chacune fait et comment les installer.

La première bibliothèque que nous utiliserons est BeautifulSoup. Les données dont nous aurons besoin pour ce projet sont sur internet et nous devrons faire une démarche appelée Web Scraping pour les collecter, BeautifulSoup nous aidera dans cette démarche en nous apportant des outils qui facilitent cette collecte.
Pour l'installer, allez simplement sur le terminal et tapez

pip install beautifulsoup4

Copier après la connexion

et... c'est tout ! Installer des dépendances en Python est très simple !

La deuxième bibliothèque que nous utiliserons est celle des requêtes. Si nous devons travailler avec des pages Web, nous avons besoin de quelque chose qui nous aide à effectuer des actions CRUD avec des API, ce sera donc notre choix. Encore une fois, installez simplement dans le terminal avec

pip install requests

Copier après la connexion

Nous mettrons également en œuvre de bonnes pratiques et utiliserons des variables d'environnement (afin que personne ne découvre nos mots de passe, noms d'utilisateur et autres informations sensibles dans notre code), nous aurons donc besoin d'os et de dotenv. os doit déjà être installé par défaut en python, alors que dotenv ne l'est pas, c'est donc le processus habituel

pip install dotenv

Copier après la connexion

Et enfin, nous avons besoin d'une bibliothèque pour nous connecter à notre base de données MySQL, alors utilisons mysql.connector

pip install mysql-connector-python

Copier après la connexion

Une fois l'environnement de développement configuré, passez simplement à la partie la plus amusante du processus, la PROGRAMMATION !!

Nous allons réaliser un projet qui sera divisé en deux parties (en termes de code), le web scraping et la manipulation de base de données, nous allons donc commencer par créer le fichier web scraping, qui sera également l'endroit où le code principal sera allez rester, puis nous créerons un fichier pour placer nos fonctions de manipulation de base de données. Cela nous aide non seulement à maintenir le code mais aussi à sa réutilisation.

Créez un fichier appelé web_scrapper.py dans le répertoire de l'application.
Ensuite, nous importerons nos dépendances que nous avons installées précédemment.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

Copier après la connexion

Depuis dotenv, nous n'aurons besoin que de la fonction load_dotenv et donc nous l'importerons uniquement.

Tout d'abord, réfléchissons à la structure de notre code et écrivons ce que nous voulons que chaque chose fasse, étape par étape, pour que ce soit plus organisé. Nous voulons que notre code effectue les actions suivantes :

Créez le web scraper et enregistrez les données dans des variables
Remplissez la base de données avec les données que nous avons obtenues
Récupérez les données de la base de données et mettez-les dans un fichier csv afin que nous puissions les analyser dans Tableau Public

Allons-y par parties, la première partie que nous voulons créer et tester est la création du web scraper, donc la meilleure façon est de commencer par ça !
Nous allons utiliser un site internet fait pour ce genre de chose, https://www.scrapethissite.com/, vous y trouverez plusieurs types de pages pour pratiquer le web scraping. Nous sommes particulièrement intéressés par le modèle débutant, alors faisons une demande pour cette page :

pip install beautifulsoup4

Copier après la connexion

Ici nous utilisons la méthode requêtes get qui serait équivalente à la lecture de CRUD, elle renvoie la page web et la stocke dans son intégralité dans la variable que nous avons créée page_countries_area_population.
Ensuite, nous avons besoin de BeautifulSoup pour analyser le code HTML de la page afin qu'elle puisse trouver les informations dont nous avons besoin. Pour ce faire, nous allons créer une variable appelée soupe et appeler BeaultifulSoup et lui transmettre le texte de la variable que nous avons créée

pip install requests

Copier après la connexion

Cela renverra la page avec les méthodes parse et BeautifulSoup qui y sont liées dans la variable que nous avons créée, facilitant ainsi notre travail.
Nous devons maintenant identifier les informations que nous souhaitons supprimer de la page. Pour ce faire, nous devons inspecter la page Web et identifier les éléments et leurs modèles dans le document HTML. Dans ce cas, nous voyons que les noms de pays sont dans une balise h3 et avec la classe country-name, utilisons donc ceci pour obtenir les noms de pays

pip install dotenv

Copier après la connexion

Ici, nous appelons la soupe que nous avons créée plus tôt et appelons la fonction findAll qui récupérera toutes les instances de noms de pays pour nous. Le premier paramètre est l'élément HTML que nous recherchons et le second serait ses attributs, car ils peuvent avoir d'autres balises h3 que nous ne voulons pas qu'il sélectionne, dans ce cas nous passons la classe country-name pour identifier les éléments. nous voulons.
On répète le processus pour le nombre d'habitants et la superficie de chaque pays

pip install mysql-connector-python

Copier après la connexion

Avant de transmettre ces données à la base de données, nous les nettoierons et les laisserons dans un format qui empêche les éléments indésirables d'entrer avec elles. Pour ce faire, je vais créer une liste de tuples pour stocker les données avant de les transmettre à la base de données, car cela facilitera le processus. Cependant, avant de les ajouter, nous devons également supprimer les espaces dans les noms de pays.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

Copier après la connexion

Et avec ça, nous avons déjà les données dont nous avons besoin ! Nous pouvons rayer cette première tâche de notre liste !

Dans la deuxième partie de cet article, je vais vous apprendre à manipuler une base de données en utilisant Python et terminer notre projet ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

1 Il y a quelques mois By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1676

Tutoriel CakePHP

1429

Tutoriel Laravel

1333

Tutoriel PHP

1278

Tutoriel C#

1257

Afficher plus

Related knowledge

Python vs C: courbes d'apprentissage et facilité d'utilisation Apr 19, 2025 am 12:20 AM

Python est plus facile à apprendre et à utiliser, tandis que C est plus puissant mais complexe. 1. La syntaxe Python est concise et adaptée aux débutants. Le typage dynamique et la gestion automatique de la mémoire le rendent facile à utiliser, mais peuvent entraîner des erreurs d'exécution. 2.C fournit des fonctionnalités de contrôle de bas niveau et avancées, adaptées aux applications haute performance, mais a un seuil d'apprentissage élevé et nécessite une gestion manuelle de la mémoire et de la sécurité.

Apprendre Python: 2 heures d'étude quotidienne est-elle suffisante? Apr 18, 2025 am 12:22 AM

Est-ce suffisant pour apprendre Python pendant deux heures par jour? Cela dépend de vos objectifs et de vos méthodes d'apprentissage. 1) Élaborer un plan d'apprentissage clair, 2) Sélectionnez les ressources et méthodes d'apprentissage appropriées, 3) la pratique et l'examen et la consolidation de la pratique pratique et de l'examen et de la consolidation, et vous pouvez progressivement maîtriser les connaissances de base et les fonctions avancées de Python au cours de cette période.

Python vs. C: Explorer les performances et l'efficacité Apr 18, 2025 am 12:20 AM

Python est meilleur que C dans l'efficacité du développement, mais C est plus élevé dans les performances d'exécution. 1. La syntaxe concise de Python et les bibliothèques riches améliorent l'efficacité du développement. Les caractéristiques de type compilation et le contrôle du matériel de CC améliorent les performances d'exécution. Lorsque vous faites un choix, vous devez peser la vitesse de développement et l'efficacité de l'exécution en fonction des besoins du projet.

Python vs C: Comprendre les principales différences Apr 21, 2025 am 12:18 AM

Python et C ont chacun leurs propres avantages, et le choix doit être basé sur les exigences du projet. 1) Python convient au développement rapide et au traitement des données en raison de sa syntaxe concise et de son typage dynamique. 2) C convient à des performances élevées et à une programmation système en raison de son typage statique et de sa gestion de la mémoire manuelle.

Quelle partie fait partie de la bibliothèque standard Python: listes ou tableaux? Apr 27, 2025 am 12:03 AM

PythonlistSaReparmentofthestandardLibrary, tandis que les coloccules de colocède, tandis que les colocculations pour la base de la Parlementaire, des coloments de forage polyvalent, tandis que la fonctionnalité de la fonctionnalité nettement adressée.

Python: automatisation, script et gestion des tâches Apr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

Python pour l'informatique scientifique: un look détaillé Apr 19, 2025 am 12:15 AM

Les applications de Python en informatique scientifique comprennent l'analyse des données, l'apprentissage automatique, la simulation numérique et la visualisation. 1.Numpy fournit des tableaux multidimensionnels et des fonctions mathématiques efficaces. 2. Scipy étend la fonctionnalité Numpy et fournit des outils d'optimisation et d'algèbre linéaire. 3. Pandas est utilisé pour le traitement et l'analyse des données. 4.Matplotlib est utilisé pour générer divers graphiques et résultats visuels.

Python pour le développement Web: applications clés Apr 18, 2025 am 12:20 AM

Les applications clés de Python dans le développement Web incluent l'utilisation des cadres Django et Flask, le développement de l'API, l'analyse et la visualisation des données, l'apprentissage automatique et l'IA et l'optimisation des performances. 1. Framework Django et Flask: Django convient au développement rapide d'applications complexes, et Flask convient aux projets petits ou hautement personnalisés. 2. Développement de l'API: Utilisez Flask ou DjangorestFramework pour construire RestulAPI. 3. Analyse et visualisation des données: utilisez Python pour traiter les données et les afficher via l'interface Web. 4. Apprentissage automatique et AI: Python est utilisé pour créer des applications Web intelligentes. 5. Optimisation des performances: optimisée par la programmation, la mise en cache et le code asynchrones

See all articles