Jupyter Notebooks en tant que solution d'analyse de bout en bout

WBOY
Libérer: 2024-08-13 06:38:17
original
1271 Les gens l'ont consulté

Introduction

Vous vous réveillez. Vous regardez votre liste de tâches et il y a une tâche confiée à un membre de l'équipe. Ils veulent que vous fassiez une sorte d’analyse et que vous produisiez un rapport. La demande elle-même est relativement complexe, ce qui signifie que vous devrez peut-être la décomposer à l'aide d'un énoncé de problème, extraire des données d'une source de données, l'explorer, recueillir vos informations, puis raconter l'histoire de vos découvertes au membre de l'équipe.

Voici comment résoudre ce problème :

  • Créer un énoncé du problème dans une plateforme de suivi des tâches (par exemple Trello, Jira)
  • Extraire des données d'une source de données (par exemple, base de données SQL, en utilisant une interface comme SSMS, Power Query)
  • Effectuer des analyses exploratoires de données et des transformations complexes dans un outil analytique (Python, R, Excel)
  • Identifiez les informations puis présentez-les de manière compréhensible aux moldus (un PowerPoint, ou si vous êtes épicé, un outil de visualisation comme Tableau ou Power BI)

Cela ressemble à une journée standard dans la vie d’un professionnel des données, n’est-ce pas ? Cependant, je ne sais pas pour vous, mais déplacer des données entre autant d’outils peut être assez désorientant. Cela crée un flux de travail très inefficace. Mais et si je vous disais qu’il existe une meilleure solution ? Que vous puissiez préparer votre énoncé de problème, rédiger votre requête SQL, effectuer votre analyse ET présenter vos résultats en un seul endroit ? Si vous travaillez avec des données et Python, vous connaissez probablement déjà Jupyter Notebook en tant qu'excellent outil d'analyse ad hoc. L'environnement interactif du Notebook permet une analyse et une narration séquentielles. Mais la beauté du Notebook ne s’arrête pas seulement à son mariage avec IPython. Le Jupyter Notebook est essentiellement construit en utilisant HTML, CSS et JS ; ce qui signifie que nous pouvons utiliser ces technologies pour étendre les capacités du portable. Dans cet article, je vais vous montrer comment tirer parti de l'interface Web de Jupyter Notebook et des riches bibliothèques de données de Python pour créer une solution de reporting de bout en bout.

Pour suivre, vous aurez besoin des logiciels et/ou packages suivants pour être installés sur votre système :

SQL Server : C'est le dialecte SQL avec lequel nous allons interagir pour notre extraction de données
Base de données Aventure Works : Il s'agit de la collection de bases de données à partir desquelles nous allons interroger nos données. La base de données AW est généralement fournie par défaut avec l'installation de SQL Server. Mais si ce n'est pas le cas, cliquez sur le lien et suivez les instructions pour le charger dans votre installation SQL Server.
Python et Jupyter : Le moyen le plus simple d'installer Python et Jupyter en même temps consiste à utiliser la distribution anaconda. Si vous possédez déjà Python mais souhaitez installer uniquement Jupyter, utilisez ce lien.
Bibliothèques Python :

  • pyodbc
  • pandas
  • sqlalchimie
  • intrigue
  • mlxtend
  • réseaux

Maintenant que nous avons réglé cela, plongeons directement dans notre carnet Jupyter. Vous pouvez le trouver intégré ci-dessous :

NB : L'intégration ci-dessus provient d'un dépôt github, que vous pouvez cloner ici. Cependant, comme il est hébergé sur github, toute l'interactivité JS est désactivée, donc le « bouton bascule » ne sera pas rendu. Si vous clonez le dépôt sur votre machine et exécutez le notebook localement, vous verrez que le bouton ressemblera à ceci :

Jupyter Notebooks as an End-to-End Analytics Solution

Et en cliquant sur le « bouton bascule », les cellules de saisie sont masquées et vous vous retrouvez avec quelque chose comme ceci :

Jupyter Notebooks as an End-to-End Analytics Solution

Et c'est tout. En résumé, voici ce que nous avons pu faire dans un seul environnement (le Notebook) :
  • définir un énoncé du problème et développer les objectifs
  • se connecter et interroger des données directement à partir d'une base de données SQL
  • effectuer notre analyse
  • visualisations de tracé
  • formatez nos sections, mises en page et résultats en utilisant le markdown pour raconter une histoire et rendre notre rapport lisible par un public non technique
  • fournir des fonctionnalités qui masquent nos entrées techniques, ne laissant que notre histoire et nos informations

Un workflow d'analyse complet de bout en bout, le tout dans un seul environnement. La prochaine étape consisterait à créer un cadre, une technologie et/ou un pipeline qui nous permettraient de partager facilement nos rapports avec les parties prenantes. Si cet article reçoit suffisamment d’attention, j’écrirai là-dessus ensuite. ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:dev.to
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal