Dans l'apprentissage automatique, l'étalonnage du modèle fait référence au processus d'ajustement de la probabilité ou de la confiance d'une sortie d'un modèle pour la rendre plus cohérente avec les observations réelles. Dans les tâches de classification, les modèles génèrent souvent la probabilité ou la confiance qu'un échantillon appartient à une certaine catégorie. Grâce au calage, nous espérons que ces probabilités ou niveaux de confiance refléteront avec précision la probabilité de la classe à laquelle appartient l'échantillon, améliorant ainsi la fiabilité prédictive du modèle.
L'étalonnage du modèle est très important dans les applications pratiques pour les raisons suivantes :
Pour améliorer la fiabilité des prédictions du modèle, l'étalonnage est nécessaire pour garantir que la probabilité de sortie ou la confiance correspond à la probabilité réelle.
2. Il est très important de garantir la cohérence des résultats du modèle. Pour les échantillons de la même catégorie, le modèle doit générer des probabilités ou des niveaux de confiance similaires pour garantir la stabilité des résultats de prédiction du modèle. S'il existe des incohérences dans les probabilités ou les niveaux de confiance produits par le modèle, les prédictions du modèle deviendront peu fiables. Par conséquent, lors de la formation du modèle, nous devons prendre les mesures correspondantes pour ajuster le modèle afin de garantir la cohérence des résultats. Ceci peut être réalisé en ajustant les paramètres du modèle ou en améliorant les données de formation.
3. Évitez d'être trop confiant ou trop prudent. Un modèle non calibré peut être trop confiant ou trop prudent, c'est-à-dire que pour certains échantillons, le modèle peut surestimer ou sous-estimer leur probabilité d'appartenir à une certaine classe. Cette situation peut conduire à des prédictions inexactes du modèle.
Les méthodes courantes d'étalonnage du modèle sont les suivantes :
1. L'étalonnage linéaire est une méthode d'étalonnage simple et efficace, qui fonctionne en ajustant un modèle de régression logique pour calibrer le probabilités de sortie du modèle. Plus précisément, l'étalonnage linéaire fait d'abord passer la sortie originale du modèle via une fonction sigmoïde pour obtenir la valeur de probabilité, puis utilise un modèle de régression logistique pour ajuster la relation entre la probabilité réelle et la probabilité de sortie du modèle, obtenant ainsi la valeur de probabilité calibrée. L’avantage du calibrage linéaire est qu’il est simple et facile à mettre en œuvre, mais l’inconvénient est qu’il nécessite une grande quantité de données étiquetées pour entraîner le modèle de régression logistique.
2. Calibrage non paramétrique : le calibrage non paramétrique est une méthode de calibrage basée sur le classement. Il n'est pas nécessaire de prendre une forme spécifique entre la probabilité de sortie du modèle et la probabilité réelle. Au lieu de cela, il utilise une méthode appelée monotone. régression pour adapter la relation entre eux. Plus précisément, l'étalonnage non paramétrique trie les probabilités de sortie du modèle de petite à grande, puis utilise une régression monotone pour ajuster la relation entre la probabilité réelle et la probabilité de sortie du modèle triée, obtenant ainsi la valeur de probabilité calibrée. L'avantage de l'étalonnage non paramétrique est qu'il n'est pas nécessaire de prendre une forme spécifique entre la probabilité de sortie du modèle et la probabilité réelle, mais l'inconvénient est qu'une grande quantité de données étiquetées est nécessaire pour entraîner le modèle.
3. Mise à l'échelle de la température : La mise à l'échelle de la température est une méthode d'étalonnage simple et efficace qui calibre la probabilité de sortie du modèle en ajustant la température de la probabilité de sortie du modèle. Plus précisément, la mise à l'échelle de la température divise la probabilité de sortie du modèle par un paramètre de température, puis transmet la probabilité mise à l'échelle via une fonction sigmoïde pour obtenir la valeur de probabilité calibrée. L'avantage de la mise à l'échelle de la température est qu'elle est simple et facile à mettre en œuvre et ne nécessite pas de données étiquetées supplémentaires, mais l'inconvénient est qu'elle nécessite une sélection manuelle des paramètres de température et peut ne pas être en mesure de gérer des problèmes d'étalonnage complexes.
4. Étalonnage de distribution : l'étalonnage de distribution est une méthode d'étalonnage basée sur l'appariement de distribution, qui calibre la probabilité de sortie du modèle en faisant correspondre la distribution de probabilité de sortie du modèle et la vraie distribution de probabilité. Plus précisément, l'étalonnage de la distribution transforme la distribution de probabilité de sortie du modèle pour la rendre plus similaire à la distribution de probabilité réelle, obtenant ainsi la distribution de probabilité calibrée. L’avantage de l’étalonnage de distribution est qu’il peut gérer des problèmes d’étalonnage complexes, mais l’inconvénient est qu’il nécessite des données étiquetées supplémentaires et présente une grande complexité de calcul.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!