Techniques d'analyse en composantes principales PCA (réduction de dimensionnalité) en Python-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Techniques d'analyse en composantes principales PCA (réduction de dimensionnalité) en Python

王林

Jun 09, 2023 pm 09:57 PM

python 降维 pca

Compétences en analyse en composantes principales PCA (réduction de dimensionnalité) en Python

PCA (analyse en composantes principales) L'analyse en composantes principales est une technique de réduction de dimensionnalité des données très couramment utilisée. Les données peuvent être traitées via l'algorithme PCA pour découvrir les caractéristiques inhérentes des données et fournir une collecte de données plus précise et plus efficace pour l'analyse et la modélisation ultérieures des données.

Ci-dessous, nous présenterons quelques techniques d'utilisation de l'analyse en composantes principales PCA en Python.

Comment normaliser les données

Avant d'effectuer une analyse de réduction de dimensionnalité PCA, vous devez d'abord normaliser les données. En effet, l'algorithme PCA calcule les composantes principales via la maximisation de la variance, plutôt que simplement la taille des valeurs des éléments, de sorte qu'il prend pleinement en compte l'impact de la variance correspondante de chaque élément.

Il existe de nombreuses méthodes de normalisation des données en Python. La méthode la plus basique consiste à standardiser les données dans une distribution normale standard avec une moyenne de 0 et une variance de 1 via la classe StandardScaler de la bibliothèque sklearn. Le code est le suivant :

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data_std = scaler.fit_transform(data)

Copier après la connexion

De cette façon, nous pouvons obtenir un. ensemble de données qui a été normalisé data_std.

Utiliser PCA pour réduire la dimensionnalité

Le code d'utilisation de PCA pour réduire la dimensionnalité des données est très simple. Le module PCA a été intégré dans la bibliothèque sklearn. Il suffit de définir le nombre de composants principaux conservés après réduction de dimensionnalité lors de l'appel de la classe PCA. Par exemple, le code suivant réduit les données à 2 composants principaux :

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
data_pca = pca.fit_transform(data_std)

Copier après la connexion

Parmi eux, data_pca renvoie les nouvelles données après le traitement de réduction de dimensionnalité PCA.

Comment choisir le nombre de composants principaux après la réduction de dimensionnalité

Lorsque nous utilisons réellement PCA pour la réduction de dimensionnalité des données, nous devons choisir le nombre approprié de composants principaux pour obtenir le meilleur effet de réduction de dimensionnalité. Habituellement, nous pouvons juger en traçant le graphique du taux de cotisation de la variance cumulative.

Le taux de cotisation de variance cumulée représente le pourcentage de la somme des variances des n premières composantes principales par rapport à la variance totale, par exemple :

import numpy as np

pca = PCA()
pca.fit(data_std)

cum_var_exp = np.cumsum(pca.explained_variance_ratio_)

Copier après la connexion

En traçant le graphique du taux de cotisation de variance cumulée, on peut observer que la variance cumulée augmente lorsque le nombre de composantes principales augmente progressivement à partir de 1. L'évolution du taux de cotisation peut être utilisée pour estimer le nombre approprié de composantes principales. Le code est le suivant :

import matplotlib.pyplot as plt

plt.bar(range(1, 6), pca.explained_variance_ratio_, alpha=0.5, align='center')
plt.step(range(1, 6), cum_var_exp, where='mid')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.show()

Copier après la connexion

La ligne rouge sur la figure représente le taux de cotisation de variance cumulé, l'axe des x représente le nombre de composantes principales et l'axe des y représente la proportion de variance expliquée. On peut constater que le taux de contribution à la variance des deux premières composantes principales est proche de 1, donc la sélection de deux composantes principales peut répondre aux besoins de la plupart des tâches d'analyse.

Comment visualiser les données après réduction de dimensionnalité PCA

Enfin, nous pouvons utiliser la fonction scatter de la bibliothèque matplotlib pour visualiser les données après réduction de dimensionnalité PCA. Par exemple, le code suivant réduit les données des 4 dimensions d'origine à 2 dimensions via PCA, puis les affiche visuellement :

import matplotlib.pyplot as plt

x = data_pca[:, 0]
y = data_pca[:, 1]
labels = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'pink', 'brown', 'orange']

for i, label in enumerate(np.unique(labels)):
    plt.scatter(x[labels == label], y[labels == label], c=colors[i], label=label, alpha=0.7)

plt.legend()
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.show()

Copier après la connexion

Les couleurs et les étiquettes de l'image correspondent respectivement aux étiquettes numériques des données d'origine. réduction, Données, nous pouvons mieux comprendre la structure et les caractéristiques des données.

En bref, l'utilisation de la technologie d'analyse en composantes principales PCA peut nous aider à réduire la dimensionnalité des données et ainsi à mieux comprendre la structure et les caractéristiques des données. Grâce aux bibliothèques sklearn et matplotlib de Python, nous pouvons implémenter et visualiser l'algorithme PCA de manière très pratique.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7529

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

PHP et Python: comparaison de deux langages de programmation populaires Apr 14, 2025 am 12:13 AM

PHP et Python ont chacun leurs propres avantages et choisissent en fonction des exigences du projet. 1.Php convient au développement Web, en particulier pour le développement rapide et la maintenance des sites Web. 2. Python convient à la science des données, à l'apprentissage automatique et à l'intelligence artificielle, avec syntaxe concise et adaptée aux débutants.

Comment Debian Readdir s'intègre à d'autres outils Apr 13, 2025 am 09:42 AM

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Python et temps: tirer le meilleur parti de votre temps d'étude Apr 14, 2025 am 12:02 AM

Pour maximiser l'efficacité de l'apprentissage de Python dans un temps limité, vous pouvez utiliser les modules DateTime, Time et Schedule de Python. 1. Le module DateTime est utilisé pour enregistrer et planifier le temps d'apprentissage. 2. Le module de temps aide à définir l'étude et le temps de repos. 3. Le module de planification organise automatiquement des tâches d'apprentissage hebdomadaires.

Comment configurer le serveur HTTPS dans Debian OpenSSL Apr 13, 2025 am 11:03 AM

La configuration d'un serveur HTTPS sur un système Debian implique plusieurs étapes, notamment l'installation du logiciel nécessaire, la génération d'un certificat SSL et la configuration d'un serveur Web (tel qu'Apache ou Nginx) pour utiliser un certificat SSL. Voici un guide de base, en supposant que vous utilisez un serveur Apacheweb. 1. Installez d'abord le logiciel nécessaire, assurez-vous que votre système est à jour et installez Apache et OpenSSL: SudoaptupDaSuDoaptupgradeSudoaptinsta

Certificat NGINX SSL Mise à jour du tutoriel Debian Apr 13, 2025 am 07:21 AM

Cet article vous guidera sur la façon de mettre à jour votre certificat NGINXSSL sur votre système Debian. Étape 1: Installez d'abord CERTBOT, assurez-vous que votre système a des packages CERTBOT et Python3-CERTBOT-NGINX installés. Si ce n'est pas installé, veuillez exécuter la commande suivante: Sudoapt-getUpDaSuDoapt-GetInstallCertBotpyThon3-Certerbot-Nginx Étape 2: Obtenez et configurez le certificat Utilisez la commande Certbot pour obtenir le certificat LETSCRYPT et configure

Guide de développement du plug-in de Gitlab sur Debian Apr 13, 2025 am 08:24 AM

Développer un plugin Gitlab sur Debian nécessite des étapes et des connaissances spécifiques. Voici un guide de base pour vous aider à démarrer avec ce processus. Installation de GitLab Tout d'abord, vous devez installer GitLab sur votre système Debian. Vous pouvez vous référer au manuel d'installation officiel de Gitlab. Obtenez un jeton d'accès API avant d'effectuer l'intégration de l'API, vous devez d'abord obtenir le jeton d'accès API de GitLab. Ouvrez le tableau de bord GitLab, recherchez l'option "AccessTokens" dans les paramètres utilisateur et générez un nouveau jeton d'accès. Sera généré

Quel service est Apache Apr 13, 2025 pm 12:06 PM

Apache est le héros derrière Internet. Ce n'est pas seulement un serveur Web, mais aussi une plate-forme puissante qui prend en charge un trafic énorme et fournit un contenu dynamique. Il offre une flexibilité extrêmement élevée grâce à une conception modulaire, permettant l'expansion de diverses fonctions au besoin. Cependant, la modularité présente également des défis de configuration et de performance qui nécessitent une gestion minutieuse. Apache convient aux scénarios de serveur qui nécessitent des besoins complexes hautement personnalisables.

Dans quelle langue Apache est-elle écrite? Apr 13, 2025 pm 12:42 PM

Apache est écrit en C. La langue offre la vitesse, la stabilité, la portabilité et l'accès direct au matériel, ce qui le rend idéal pour le développement du serveur Web.

See all articles