L'apprentissage automatique multimodal a fait des progrès impressionnants dans divers scénarios. Cependant, la fiabilité des modèles d’apprentissage multimodaux manque de recherches approfondies. "L'information est l'élimination de l'incertitude." L'intention initiale de l'apprentissage automatique multimodal est cohérente avec cela : des modalités supplémentaires peuvent rendre les prédictions plus précises et plus fiables. Cependant, l'article « Calibrating Multimodal Learning » récemment publié à l'ICML2023 a révélé que les méthodes d'apprentissage multimodales actuelles violent cette hypothèse de fiabilité et a effectué une analyse et des corrections détaillées.
Photos
La méthode de classification multimodale actuelle a une confiance peu fiable, c'est-à-dire que lorsque certains modes sont supprimés, le modèle peut produire une confiance plus élevée, ce qui viole la théorie de l'information « l'information est éliminée ». le principe de base. Pour résoudre ce problème, cet article propose la méthode Calibrating Multimodal Learning. Cette méthode peut être déployée dans différents paradigmes d’apprentissage multimodal pour améliorer la rationalité et la crédibilité des modèles d’apprentissage multimodaux.
Pictures
Ce travail souligne que les méthodes d'apprentissage multimodal actuelles ont des problèmes de confiance de prédiction peu fiables, et que les modèles d'apprentissage automatique multimodaux existants ont tendance à s'appuyer sur des modalités partielles pour estimer la confiance. L’étude a notamment révélé que la confiance dans les estimations du modèle actuel augmente lorsque certains modes sont endommagés. Pour résoudre ce problème déraisonnable, les auteurs proposent un principe d’apprentissage multimodal intuitif : lorsque la modalité est supprimée, la confiance dans la prédiction du modèle ne devrait pas augmenter. Cependant, les modèles actuels ont tendance à croire et à se laisser influencer par un sous-ensemble de modalités, plutôt que de considérer toutes les modalités de manière équitable. Cela affecte encore davantage la robustesse du modèle, c'est-à-dire que le modèle est facilement affecté lorsque certains modes sont endommagés.
Pour résoudre les problèmes ci-dessus, certaines méthodes adoptent actuellement des méthodes d'étalonnage d'incertitude existantes, telles que l'échelle de température ou les méthodes d'apprentissage bayésien. Ces méthodes peuvent construire des estimations de confiance plus précises que les méthodes traditionnelles de formation/inférence. Cependant, ces méthodes ne font correspondre que l'estimation de la confiance du résultat final de la fusion avec la précision et ne prennent pas explicitement en compte la relation entre la quantité d'informations modales et la confiance. Par conséquent, elles ne peuvent pas essentiellement améliorer la crédibilité du modèle d'apprentissage multimodal.
L'auteur propose une nouvelle technique de régularisation appelée « Calibrating Multimodal Learning (CML) ». Cette technique renforce la relation de correspondance entre la confiance des prédictions du modèle et le contenu de l'information en ajoutant un terme de pénalité pour assurer la cohérence entre la confiance de la prédiction et le contenu de l'information. Cette technique est basée sur l’intuition naturelle selon laquelle lorsqu’une modalité est supprimée, la confiance dans la prédiction devrait diminuer (au moins elle ne devrait pas augmenter), ce qui peut intrinsèquement améliorer l’étalonnage de la confiance. Plus précisément, un terme de régularisation simple est proposé pour forcer le modèle à apprendre une relation d'ordre intuitive en ajoutant une pénalité aux échantillons dont la confiance de prédiction augmente lorsqu'une modalité est supprimée :
La contrainte ci-dessus est une perte régulière, qui apparaît comme une pénalité lorsque l'information modale est supprimée et que la confiance augmente.
Les résultats expérimentaux montrent que la régularisation CML peut améliorer considérablement la fiabilité de la confiance de prédiction des méthodes d'apprentissage multimodales existantes. De plus, CML peut améliorer la précision de la classification et la robustesse du modèle.
L'apprentissage automatique multimodal a fait des progrès significatifs dans divers scénarios, mais la fiabilité des modèles d'apprentissage automatique multimodal reste un problème qui doit être résolu. Grâce à des recherches empiriques approfondies, cet article révèle que les méthodes de classification multimodales actuelles présentent le problème d'une confiance de prédiction peu fiable et violent les principes de la théorie de l'information. Pour résoudre ce problème, les chercheurs ont proposé la technique de régularisation CML, qui peut être déployée de manière flexible sur les modèles existants et améliorer les performances en termes d'étalonnage de la confiance, d'exactitude de la classification et de robustesse du modèle. On pense que cette nouvelle technologie jouera un rôle important dans le futur apprentissage multimodal et améliorera la fiabilité et la praticité de l’apprentissage automatique.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!