


Implémenter une méthode de régression linéaire simple dans R et expliquer ses concepts
La régression linéaire simple est une méthode statistique utilisée pour étudier la relation entre deux variables continues. Parmi elles, une variable est appelée variable indépendante (x) et l’autre variable est appelée variable dépendante (y). Nous supposons qu'il existe une relation linéaire entre ces deux variables et essayons de trouver une fonction linéaire qui prédit avec précision la valeur de réponse (y) de la variable dépendante en fonction des caractéristiques de la variable indépendante. En traçant une ligne droite, nous pouvons obtenir les résultats prédits. Ce modèle prédictif peut être utilisé pour comprendre et prédire comment la variable dépendante change à mesure que les variables indépendantes changent.
Afin de comprendre ce concept, nous pouvons utiliser un ensemble de données salariales, qui contient la valeur de la variable dépendante (salaire) correspondant à chaque variable indépendante (années d'expérience).
Ensemble de données salariales
Salaire annuel et expérience
1.1 39343.00
1.3 46205.00
1.5 37731.00
2.0 43525.00
2.2 91.0 0
2.9 56642.00
3.0 60150.00
3.2 54445.00
3.2 64445.00
3.7 57189.00
À des fins générales, nous définissons :
x comme vecteur de caractéristiques, soit x=[x_1,x_2,....,x_n],
y comme vecteur de réponse, soit y=[y_1,y_2, .. ..,y_n]
pour n observations (dans l'exemple ci-dessus, n=10).
Nuage de points de l'ensemble de données donné

Maintenant, nous devons trouver une ligne qui correspond au nuage de points ci-dessus à travers laquelle nous pouvons prédire la réponse pour n'importe quelle valeur y ou pour n'importe quelle valeur x.
La droite de meilleur ajustement est appelée droite de régression.
Le code R suivant est utilisé pour implémenter une régression linéaire simple
dataset=read.csv('salary.csv') install.packages('caTools') library(caTools) split=sample.split(dataset$Salary,SplitRatio=0.7) trainingset=subset(dataset,split==TRUE) testset=subset(dataset,split==FALSE) lm.r=lm(formula=Salary~YearsExperience, data=trainingset) coef(lm.r) ypred=predict(lm.r,newdata=testset) install.packages("ggplot2") library(ggplot2) ggplot()+geom_point(aes(x=trainingset$YearsExperience, y=trainingset$Salary),colour='red')+ geom_line(aes(x=trainingset$YearsExperience, y=predict(lm.r,newdata=trainingset)),colour='blue')+ ggtitle('Salary vs Experience(Training set)')+ xlab('Years of experience')+ ylab('Salary') ggplot()+ geom_point(aes(x=testset$YearsExperience,y=testset$Salary), colour='red')+ geom_line(aes(x=trainingset$YearsExperience, y=predict(lm.r,newdata=trainingset)), colour='blue')+ ggtitle('Salary vs Experience(Test set)')+ xlab('Years of experience')+ ylab('Salary')
Visualisez les résultats de l'ensemble d'entraînement

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



La régression linéaire multiple est la forme la plus courante de régression linéaire et est utilisée pour décrire comment une variable à réponse unique Y présente une relation linéaire avec plusieurs variables prédictives. Exemples d'applications où la régression multiple peut être utilisée : Le prix de vente d'une maison peut être affecté par des facteurs tels que l'emplacement, le nombre de chambres et de salles de bains, l'année de construction, la taille du terrain, etc. 2. La taille d'un enfant dépend de la taille de la mère, de la taille du père, de la nutrition et de facteurs environnementaux. Paramètres du modèle de régression linéaire multiple Considérons un modèle de régression linéaire multiple avec k variables prédictives indépendantes x1, x2..., xk et une variable de réponse y. Supposons que nous ayons n observations pour k+1 variables et que n variables soient supérieures à k. L'objectif fondamental de la régression des moindres carrés est d'ajuster l'hyperplan dans l'espace dimensionnel (k+1) afin de minimiser la somme des carrés résiduels. sur modèle

Explication détaillée du modèle de régression linéaire en Python La régression linéaire est un modèle statistique classique et un algorithme d'apprentissage automatique. Il est largement utilisé dans les domaines de la prévision et de la modélisation, tels que la prévision boursière, la prévision météorologique, la prévision des prix de l'immobilier, etc. En tant que langage de programmation efficace, Python fournit une riche bibliothèque d'apprentissage automatique, comprenant des modèles de régression linéaire. Cet article présentera en détail le modèle de régression linéaire en Python, y compris les principes du modèle, les scénarios d'application et l'implémentation du code. Principe de régression linéaire Le modèle de régression linéaire est basé sur la relation linéaire entre variables.

La régularisation de Tikhonov, également connue sous le nom de régression de crête ou régularisation L2, est une méthode de régularisation utilisée pour la régression linéaire. Il contrôle la complexité et la capacité de généralisation du modèle en ajoutant un terme de pénalité de norme L2 à la fonction objectif du modèle. Ce terme de pénalité pénalise le poids du modèle par la somme des carrés pour éviter un poids excessif, atténuant ainsi le problème de surajustement. Cette méthode introduit un terme de régularisation dans la fonction de perte et ajuste le coefficient de régularisation pour équilibrer la capacité d'ajustement et la capacité de généralisation du modèle. La régularisation de Tikhonov a un large éventail d'applications pratiques et peut améliorer efficacement les performances et la stabilité du modèle. Avant régularisation, la fonction objectif de la régression linéaire peut être exprimée comme suit : J(w)=\frac{1}{2m}\sum_{i=1}^{m}(h_

1. Régression linéaire La régression linéaire est probablement l'algorithme d'apprentissage automatique le plus populaire. La régression linéaire consiste à trouver une ligne droite et à faire en sorte que cette ligne droite s'adapte le plus étroitement possible aux points de données du nuage de points. Il tente de représenter les variables indépendantes (valeurs x) et les résultats numériques (valeurs y) en ajustant une équation en ligne droite à ces données. Cette ligne peut ensuite être utilisée pour prédire les valeurs futures ! La technique la plus couramment utilisée pour cet algorithme est la méthode des moindres carrés. Cette méthode calcule une ligne de meilleur ajustement qui minimise la distance perpendiculaire à partir de chaque point de données sur la ligne. La distance totale est la somme des carrés des distances verticales (ligne verte) de tous les points de données. L'idée est d'ajuster le modèle en minimisant cette erreur quadratique ou cette distance. Par exemple

La régression polynomiale est une méthode d'analyse de régression adaptée aux relations de données non linéaires. Contrairement aux modèles de régression linéaire simples qui ne peuvent s'adapter qu'à des relations en ligne droite, les modèles de régression polynomiale peuvent s'adapter avec plus de précision à des relations curvilignes complexes. Il introduit des fonctionnalités polynomiales et ajoute des termes de variables d'ordre élevé au modèle pour mieux s'adapter aux changements non linéaires des données. Cette approche améliore la flexibilité et l'ajustement du modèle, permettant des prédictions et une interprétation plus précises des données. La forme de base du modèle de régression polynomiale est la suivante : y=β0+β1x+β2x^2+…+βn*x^n+ε Dans ce modèle, y est la variable dépendante que nous voulons prédire et x est la variable indépendante. . β0~βn sont les coefficients du modèle qui déterminent le degré d'influence des variables indépendantes sur les variables dépendantes. ε représente le terme d'erreur du modèle, qui est déterminé par l'incapacité de

La régression logistique est un modèle linéaire utilisé pour les problèmes de classification, principalement utilisé pour prédire les valeurs de probabilité dans les problèmes de classification binaire. Il convertit les valeurs de prédiction linéaire en valeurs de probabilité en utilisant la fonction sigmoïde et prend des décisions de classification basées sur des seuils. Dans la régression logistique, la valeur OR est un indicateur important utilisé pour mesurer l'impact des différentes variables du modèle sur les résultats. La valeur OU représente le changement multiple de la probabilité que la variable dépendante se produise pour un changement unitaire de la variable indépendante. En calculant la valeur OR, nous pouvons déterminer la contribution d'une certaine variable au modèle. La méthode de calcul de la valeur OR consiste à prendre le coefficient du logarithme népérien (ln) de la fonction exponentielle (exp), c'est-à-dire OR=exp(β), où β est le coefficient de la variable indépendante dans la régression logistique modèle. Outil

Les modèles linéaires généralisés et les modèles linéaires généraux sont des méthodes d'analyse de régression couramment utilisées en statistique. Bien que les deux termes soient similaires, ils diffèrent sur certains points. Les modèles linéaires généralisés permettent à la variable dépendante de suivre une distribution non normale en liant les variables prédictives à la variable dépendante via une fonction de lien. Le modèle linéaire général suppose que la variable dépendante obéit à une distribution normale et utilise des relations linéaires pour la modélisation. Par conséquent, les modèles linéaires généralisés sont plus flexibles et ont une applicabilité plus large. 1. Définition et portée Le modèle linéaire général est une méthode d'analyse de régression adaptée aux situations où il existe une relation linéaire entre la variable dépendante et la variable indépendante. Cela suppose que la variable dépendante suit une distribution normale. Le modèle linéaire généralisé est une méthode d'analyse de régression adaptée aux variables dépendantes qui ne suivent pas nécessairement une distribution normale. Il peut décrire les variables dépendantes en introduisant des fonctions de lien et des familles de distribution

Les équations normales sont une méthode simple et intuitive de régression linéaire. La droite la mieux ajustée est calculée directement à l’aide de formules mathématiques sans utiliser d’algorithmes itératifs. Cette méthode est particulièrement adaptée aux petits ensembles de données. Tout d’abord, passons en revue les principes de base de la régression linéaire. La régression linéaire est une méthode utilisée pour prédire la relation entre une variable dépendante Y et une ou plusieurs variables indépendantes X. Il n'y a qu'une seule variable indépendante X dans la régression linéaire simple, tandis que deux ou plusieurs variables indépendantes sont incluses dans la régression linéaire multiple. En régression linéaire, nous utilisons la méthode des moindres carrés pour ajuster une ligne droite afin que la somme des distances entre les points de données et la ligne droite soit minimisée. L'équation de la droite est : Y=β0+β1X1+β2X2+…+βnXn Le but de l'équation est de trouver le meilleur coefficient d'origine et de régression afin qu'il puisse s'adapter au mieux aux données.
