Cet article de blog vous guide dans la création d'un pipeline d'analyse de données météorologiques à l'aide de l'API OpenWeatherMap et des services AWS. Le pipeline récupère les données météorologiques, les stocke dans S3, les catalogue avec AWS Glue et permet d'interroger avec Amazon Athena.
Aperçu du projet
Ce projet crée un pipeline de données évolutif pour récupérer des données météorologiques de plusieurs villes, les stocker dans AWS S3, les cataloguer via AWS Glue et permettre les requêtes à l'aide d'Amazon Athena.
Architecture initiale et diagrammes d'architecture
Structure du projet et prérequis
Avant de commencer, assurez-vous d'avoir :
Guide de configuration
Cloner le référentiel :
<code class="language-bash">git clone https://github.com/Rene-Mayhrem/weather-insights.git cd weather-data-analytics</code>
Créez un .env
fichier : Créez un fichier .env
dans le répertoire racine avec vos informations d'identification AWS et votre clé API :
<code>AWS_ACCESS_KEY_ID=<your-access-key-id> AWS_SECRET_ACCESS_KEY=<your-secret-access-key> AWS_REGION=us-east-1 S3_BUCKET_NAME=<your-s3-bucket-name> OPENWEATHER_API_KEY=<your-openweather-api-key></code>
Créer cities.json
: Créer cities.json
listant les villes :
<code class="language-json">{ "cities": [ "London", "New York", "Tokyo", "Paris", "Berlin" ] }</code>
Docker Compose : Construire et exécuter :
<code class="language-bash">docker compose run terraform init docker compose run python</code>
Utilisation
Vérifier l'infrastructure : Vérifiez si Terraform a créé les ressources AWS (S3, base de données Glue, robot d'exploration Glue) dans la console AWS.
Vérifier le téléchargement des données : Confirmez les données météorologiques téléchargées par le script Python (fichiers JSON) dans votre compartiment S3 via la console AWS.
Exécuter Glue Crawler : Le robot Glue devrait s'exécuter automatiquement ; vérifier son exécution et le catalogage des données dans la console Glue.
Requête avec Athena : Utilisez AWS Management Console pour accéder à Athena et exécuter des requêtes SQL sur les données cataloguées.
Composants clés
Conclusion
Ce guide vous aide à créer un pipeline d'analyse de données météorologiques évolutif à l'aide d'AWS et d'OpenWeatherMap. Le pipeline peut être facilement étendu pour inclure davantage de villes ou de sources de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!