Maison > Périphériques technologiques > IA > Partage de la technologie des outils du moteur Volcano : utilisez l'IA pour terminer l'exploration de données et l'écriture SQL avec un seuil zéro

Partage de la technologie des outils du moteur Volcano : utilisez l'IA pour terminer l'exploration de données et l'écriture SQL avec un seuil zéro

PHPz
Libérer: 2023-05-18 20:19:04
avant
1365 Les gens l'ont consulté

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

Lorsque nous utilisons les outils BI, les questions que nous rencontrons souvent sont : "Comment pouvons-nous produire et traiter des données si nous ne connaissons pas SQL ? Pouvons-nous faire de l'analyse minière si nous ne connaissons pas les algorithmes ?" L'équipe d'algorithmes professionnels effectue l'exploration de données, l'analyse et la visualisation des données apparaîtront également relativement fragmentées. Réaliser les travaux de modélisation d’algorithmes et d’analyse de données de manière rationalisée est également un bon moyen d’améliorer l’efficacité.

Dans le même temps, pour les équipes professionnelles d'entrepôt de données, le contenu des données avec le même thème est confronté au problème de « construction répétée, utilisation et gestion relativement dispersées » : existe-t-il un moyen de produire des données avec le même thème et un contenu différent en même temps ? en même temps dans une tâche ? L’ensemble de données produit peut-il être utilisé comme entrée pour participer à nouveau à la construction des données ?

1. La capacité de modélisation visuelle de DataWind est là

La plate-forme BI DataWind d'analyse intelligente des données lancée par Volcano Engine a lancé une nouvelle modélisation visuelle avancée des fonctionnalités.

Les utilisateurs peuvent simplifier le processus complexe de traitement et de modélisation des données en un processus de canevas clair et facile à comprendre grâce à des opérations visuelles de glisser, d'extraire et de connexion. Tous les types d'utilisateurs peuvent effectuer la production et le traitement des données selon l'idée de. Ce qu'ils veulent, c'est ce qu'ils obtiennent, réduisant ainsi le seuil d'acquisition de données.

Canvas prend en charge la création de plusieurs ensembles de processus de canevas en même temps. Une image peut réaliser la construction de plusieurs tâches de modélisation de données, améliorer l'efficacité de la construction de données et réduire les coûts de gestion des tâches. De plus, Canvas intègre et encapsule plus de 40 ; types d'algorithmes de nettoyage de données et d'ingénierie de fonctionnalités. Il couvre les capacités de production de données de base à avancées et ne nécessite pas de codage pour compléter les capacités de données complexes.

2. Outils SQL à seuil zéro

La production et le traitement des données sont la première étape pour obtenir et analyser des données.

Pour les utilisateurs non techniques, il existe un certain seuil pour l'utilisation de la syntaxe SQL. Dans le même temps, les fichiers locaux ne peuvent pas être mis à jour régulièrement, ce qui nécessite de refaire manuellement le tableau de bord à chaque fois. La main-d'œuvre technique requise pour obtenir les données doit souvent être planifiée, et la rapidité et la satisfaction de l'acquisition des données sont considérablement réduites. Il est donc particulièrement important d'utiliser des outils de construction de données sans code.

Voici deux scénarios typiques sur la façon dont le traitement des données à seuil zéro est appliqué au travail.

2.1 [Scénario 1] Ce que vous pensez est ce que vous obtenez, le processus de traitement des données est terminé visuellement

Lorsque les itérations d'exploitation du produit nécessitent de toute urgence un retour d'information en temps opportun de différentes données, le processus de traitement des données peut être abstrait et le processus de traitement des données peut Être construit grâce à des opérateurs de glisser-déposer de modélisation visuelle.

Si vous souhaitez obtenir le nombre de commandes et le montant de la commande en fonction de la date et de la granularité de la ville, et obtenir les données de la ville des 10 principales données du montant de la consommation quotidienne, le fonctionnement est le suivant :

Processus général de traitement des données

Processus de modélisation visuelle

  1. Demandez aux étudiants techniques d'extraire les données détaillées de la commande, y compris l'identifiant de la commande/le montant de la commande/l'identifiant de l'utilisateur/la date de la commande, la ville, etc.
  2. Définissez les données sur la date et la ville de la commande via l'opération de perspective. L'indicateur est la somme du montant de la commande et la somme de l'identifiant de la commande
  3. Triez les résultats de la perspective par montant, puis écrivez le numéro de série
  4. Utilisez le filtre pour filtrez les données Top10
  1. Choisissez la source de données, sélectionnez une table de bibliothèque ou téléchargez un fichier CSV ou connectez-vous à LarkSheet
  2. Filtrez les informations de champ que vous devez utiliser, configurez vos propres noms de champs définis et formats
  3. Sélectionnez un opérateur d'agrégation et agrégez les calculs en fonction de la date et de la ville. Quantité et montant de la commande
  4. Sélectionnez l'opérateur de valeur supérieure et prenez le montant Top10
  5. pour afficher l'ensemble de données. L'ensemble de données peut être appliqué à Fengshen pour dessiner des graphiques

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

2.2 [Scénario 2] Combinez rapidement plusieurs tables pour résoudre facilement les calculs d'association multi-données

Dans le processus de traitement des données, plusieurs sources de données doivent être combinées et utilisées. Il est difficile de maîtriser un niveau élevé. Vlookup et d'autres algorithmes via Excel, et prend beaucoup de temps. Dans le même temps, lorsque la quantité de données est importante, les performances de l'ordinateur peuvent ne pas être en mesure de terminer le calcul combiné des données.

S'il existe deux données de commande avec une quantité de données relativement importante et un tableau d'informations sur les attributs du client, le montant du bénéfice doit être calculé en fonction du montant de la facture et du montant du coût, puis les 100 principales informations de commande des utilisateurs sont prises en fonction de la contribution aux bénéfices

Processus général de traitement des données

Processus de traitement de modélisation visuelle

  1. Vous devez ouvrir les deux données de commande et copiez les données dans un seul fichier
  2. Utilisez VloopUp pour trouver les données utilisateur dans la commande et les données utilisateur dans le client, puis combinez les deux données pour générer de nouvelles données
  3. Utilisez un tableau croisé dynamique pour calculez le montant de la facture de l'utilisateur et le montant du coût, puis calculez le montant du bénéfice
  4. Obtenez les informations client TopN triées par montant du bénéfice
  1. Vous pouvez télécharger des fichiers CSV/LaskSheet pour créer la saisie de données
  2. Ensuite, vous pouvez fusionner les données de commande de mars/avril en une seule donnée
  3. Connectez la table d'attributs des informations client et liez les informations d'attribut client
  4. Sélectionnez l'agrégation pour calculer le montant de la facture et le montant du coût en fonction du client spécifique
  5. Sélectionnez la colonne de calcul pour calculer le bénéfice en fonction du montant de la facture et du montant du coût Montant
  6. Trier par montant du bénéfice pour obtenir les informations client TopN

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

3. L'exploration de données par l'IA n'est plus hors de portée

Lorsque le nettoyage de base des données ne peut plus satisfaire la construction et l'analyse des données, la prise en charge de l'algorithme d'IA est nécessaire pour extraire davantage de valeurs cachées dans les données. Les étudiants de l'équipe d'algorithmes peuvent souffrir de l'incapacité de bien travailler avec des graphiques visuels et ne peuvent pas produire de bonnes données pouvant être appliquées rapidement, tandis que les utilisateurs ordinaires peuvent être directement supprimés par le seuil élevé du code de l'IA pour supprimer le développement de cet algorithme. augmenter la demande mais craindre la demande. C'est trop superficiel et la valeur ne peut pas être bien évaluée. À l'heure actuelle, l'extraction d'algorithmes devient un luxe.

La modélisation visuelle de DataWind encapsule plus de 30 types de capacités courantes d'opérateur d'IA. Les utilisateurs doivent uniquement comprendre le rôle de l'algorithme et configurer les cibles d'entrée et de formation de l'opérateur d'algorithme via la configuration pour terminer la formation du modèle en fonction de la prédiction Get configurée. résultats rapidement pour d’autres contenus de données.

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

Ce qui suit prendra deux scénarios typiques comme exemples pour vous montrer comment réaliser l'exploration de données en Python.

3.1 [Élémentaire] Vous pouvez faire de l'exploration de données même si vous ne connaissez pas Python

Le travail quotidien des utilisateurs n'implique fondamentalement pas l'écriture de Python, mais il existe des scénarios de demande pour l'exploration de données. Il doit effectuer une exploration des intentions des clients sur la base d'échantillons de clients existants à forte intention. À ce stade, le processus d'exploration de données peut être construit via une modélisation visuelle :

  1. Faites glisser les exemples de données et toutes les données comme entrée de données.
  2. Faites glisser dans l'algorithme de classification, tel que l'algorithme XGB pour la formation des modèles.
  3. Faites glisser l'opérateur de prédiction et construisez la relation entre le modèle et toutes les données de prédiction.
  4. Les données réelles et les résultats prédits sont combinés avec l'ensemble de données de sortie pour analyser la distribution d'intention de toutes les données utilisateur.


火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

3.2 [Avancé] Vous pouvez créer des modèles d'algorithmes complexes sans écrire Python

Les utilisateurs doivent créer un modèle de rachat d'utilisateurs basé sur les données existantes. Lors de la création du modèle, il est nécessaire d'utiliser un arbre d'amplification de gradient pour créer un modèle de prédiction après le nettoyage des données et la conversion du format. À ce stade, le processus de modèle de rachat peut être construit sur la base d'une modélisation visuelle :

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. Fusionner les lignes : n. Les tableaux de données de sortie (rectangulaires) des opérateurs (dans la figure) sont fusionnés en un seul tableau de données global basé sur des en-têtes cohérents. Si aucun nouvel attribut n'est ajouté ou supprimé dans les données de ventes des utilisateurs, aucune modification n'est nécessaire ici.
  2. Remplacement de valeur manquante : lorsqu'il y a une valeur nulle (nulle) dans la colonne d'attribut, cela affectera les calculs de modèle ultérieurs. Utilisez l'opérateur de remplacement de valeur manquante pour remplacer la valeur nulle par la valeur par défaut spécifiée. ajouté ou supprimé dans les données de ventes de l'utilisateur, aucune modification n'est nécessaire ici.
  3. encodage one-hot : les attributs de type texte ne peuvent pas être utilisés directement pour la formation du modèle et doivent être encodés dans un vecteur numérique par one_hot. Par exemple :

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. Arbre d'amélioration des dégradés : responsable de l'ajustement des données d'entraînement et de la sortie. une valeur qui peut être utilisée pour le modèle de prédiction (les paramètres non marqués dans la figure n'ont pas besoin d'être modifiés par les responsables) :


火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. Aggregation_1 : Supprimez les doublons dans les données de prédiction et prenez la probabilité maximale.
  2. Extraire les champs : extrayez l'étiquette nécessaire et la valeur de probabilité.


火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

4. Construction multi-scénarios et multi-tâches, la gestion n'est plus décentralisée

En tant qu'analyste de données, vous avez également beaucoup de travail quotidien pour construire des ensembles de données et construire des tableaux de bord de données. Mais généralement, le tableau du bas obtenu à partir de l'entrepôt de données sera un tableau large. Sur cette base, différentes tâches d'ensemble de données sont construites en fonction des différentes exigences du scénario.

Lors des utilisations ultérieures, nous rencontrons souvent de plus en plus d'ensembles de données similaires, mais la logique spécifique ne peut pas être bien comparée et confirmée. À l'heure actuelle, ce serait formidable si toute la logique de l'ensemble de données était configurée et générée dans un seul ensemble de données, et que chaque ensemble de données puisse être jugé et défini via le processus de tâche.

Pour ce scénario, les capacités de modélisation visuelle de DataWind peuvent également être très bien complétées. La fonction de modélisation visuelle prend en charge un seul ensemble de données devant être traité par plusieurs processus logiques en même temps pour générer plusieurs ensembles de données. Prenons l'exemple du traitement des données de commande et des données utilisateur :

  1. Si un utilisateur souhaite voir les statistiques de commande, alors le processus de traitement des données de Ensemble de données de statistiques de commande peut être construit.
  2. Certains utilisateurs souhaitent voir des données détaillées, mais les champs de détail doivent être traités et nettoyés. Dans ce cas, le flux de traitement de l'Ensemble de données de détails de commande peut être construit.
  3. Certains utilisateurs souhaitent combiner les attributs de l'utilisateur pour compter la distribution des commandes de l'utilisateur, puis créer une corrélation multi-tables combinée à une agrégation d'indicateurs pour générer un ensemble de données statistiques sur les commandes des utilisateurs.
  4. La même logique peut générer un ensemble de données de détails de commande utilisateur sous association multi-tables.
  5. Ainsi, la génération de 4 ensembles de données est complétée par une tâche et deux entrées de données. Les 4 ensembles de données peuvent construire un domaine de données, et l'utilisation ultérieure des données associées peut être utilisée à partir de l'ensemble de données généré par cette tâche.

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写5. À propos de nous

Volcano Engine Intelligent Data Insights DataWind

est une plate-forme ABI améliorée qui prend en charge l'analyse en libre-service au niveau détaillé du Big Data. De l'accès aux données, à l'intégration des données, en passant par les requêtes et l'analyse, elles sont enfin présentées aux utilisateurs professionnels sous la forme de portails de données visuels, de grands écrans numériques et de cockpits de gestion, permettant aux données d'exercer de la valeur.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal