Explication détaillée du modèle de régression logistique en Python
La régression logistique est un algorithme d'apprentissage automatique largement utilisé dans les problèmes de classification. Il peut connecter les données d'entrée et les étiquettes correspondantes pour réaliser de nouvelles prédictions de classification sur les données. . En Python, la régression logistique est un algorithme de classification couramment utilisé. Cet article présentera en détail le principe et l'utilisation du modèle de régression logistique.
Le principe de la régression logistique
La régression logistique est un algorithme de classification binaire classique, qui est généralement utilisé pour prédire à quelle catégorie appartient une donnée. Le résultat de sortie est une valeur de probabilité, qui représente la probabilité que l'échantillon appartienne à une certaine classe, généralement un nombre réel compris entre 0 et 1. L'essence de la régression logistique est un classificateur linéaire, qui prédit les données et les paramètres d'entrée via une fonction linéaire et effectue une cartographie de probabilité via une fonction sigmoïde pour générer le résultat de la classification.
La fonction d'hypothèse du modèle de régression logistique est définie comme suit :
$$h_{ heta}(x)= rac{1}{1+e^{- heta^Tx} }$$
Où, $ heta$ est le vecteur de paramètres du modèle, $x$ est le vecteur de données d'entrée. Si $h_{ heta}(x)geq0.5$, l'échantillon devrait être une classe positive, sinon l'échantillon devrait être une classe négative.
La fonction de perte du modèle de régression logistique est une fonction de perte logarithmique, qui indique dans quelle mesure le modèle s'adapte aux données d'entraînement. Elle est définie comme suit :
$$J. ( heta)=- rac {1}{m}sum_{i=1}^{m}{[y^{(i)}log{h_{ heta}(x^{(i)})}+(1 -y^{(i )})log(1-h_{ heta}(x^{(i)}))]}$$
where, $y^{(i)}$ est la valeur de l'échantillon $i$ Étiquette réelle, $x^{(i)}$ est le vecteur caractéristique de l'échantillon $i$ et $m$ est le nombre total d'échantillons.
Le processus de formation du modèle de régression logistique est le processus de résolution des paramètres du modèle $ heta $ en minimisant la fonction de perte. Les algorithmes d'optimisation couramment utilisés incluent la méthode de descente de gradient, la méthode de Newton, etc.
Implémentation d'un modèle de régression logistique en Python
En Python, nous pouvons utiliser la bibliothèque Scikit-Learn pour construire un modèle de régression logistique. Scikit-Learn est une bibliothèque d'apprentissage automatique couramment utilisée en Python. Elle fournit une multitude d'algorithmes et d'outils pour faciliter les opérations des utilisateurs telles que le prétraitement des fonctionnalités, la sélection de modèles, l'évaluation et l'optimisation.
Tout d'abord, nous devons importer des bibliothèques et des ensembles de données pertinents, tels que :
import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn import metrics from sklearn.datasets import load_iris iris = load_iris() X = iris.data y = iris.target
Ensuite, nous divisons l'ensemble de données en un ensemble d'entraînement et un ensemble de test : #🎜 🎜#
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
lr = LogisticRegression() lr.fit(X_train, y_train) y_pred = lr.predict(X_test)
cnf_matrix = metrics.confusion_matrix(y_test, y_pred) print(cnf_matrix) print("Accuracy:",metrics.accuracy_score(y_test, y_pred))
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!