La détection d'objets est une tâche en vision par ordinateur utilisée pour identifier et localiser des objets dans des images ou des vidéos. Il joue un rôle important dans des applications telles que la surveillance, la conduite autonome et la robotique. Les algorithmes de détection d'objets peuvent être globalement divisés en deux catégories en fonction du nombre de fois où le réseau utilise la même image d'entrée.
La détection d'objet unique prédit la présence et l'emplacement d'objets dans une image en un seul passage, améliorant ainsi l'efficacité informatique.
Cependant, la détection d'objets en un seul coup n'est généralement pas aussi précise que les autres méthodes, surtout lorsqu'il s'agit de détecter de petits objets. Néanmoins, ces algorithmes peuvent détecter des objets en temps réel dans des environnements aux ressources limitées.
La détection d'objets utilise généralement deux images d'entrée pour prédire la présence et l'emplacement d'un objet. La première détection génère un ensemble de suggestions pour les emplacements potentiels d'objets, tandis que la seconde détection affine et filtre davantage ces suggestions pour finalement produire la prédiction la plus précise. Bien que cette méthode soit plus précise que la détection d’une cible unique, elle augmente également le coût de calcul.
En général, le choix entre la détection d'objets simples et doubles dépend des exigences et contraintes spécifiques de l'application.
Généralement, la détection d'une seule cible est plus adaptée aux applications en temps réel, tandis que la détection à deux cibles est plus adaptée aux applications où la précision est plus importante.
Afin de déterminer et de comparer les performances prédictives de différents modèles de détection d'objets, nous avons besoin de métriques quantitatives standard.
Les deux mesures d'évaluation les plus courantes sont les mesures d'intersection sur union (IoU) et de précision moyenne (AP).
IoU (Intersection over Union) est une métrique populaire utilisée pour mesurer la précision du positionnement et calculer l'erreur de positionnement dans les modèles de détection d'objets.
Pour calculer l'IoU entre les boîtes englobantes prédites et de vérité terrain, nous obtenons d'abord la zone d'intersection entre deux boîtes englobantes correspondantes du même objet. Après cela, nous calculons la superficie totale couverte par les deux cadres de délimitation - également appelée "union", et la zone de chevauchement entre elles appelée "intersection".
L'intersection divisée par l'Union donne le rapport entre le chevauchement et la surface totale, ce qui peut être une bonne estimation de la proximité du cadre de délimitation prévu par rapport au cadre de délimitation d'origine.
La précision moyenne (AP) est calculée comme l'aire sous la courbe précision/rappel pour un ensemble de prédictions.
Le rappel est calculé comme le rapport entre les prédictions totales faites par le modèle dans une certaine catégorie et le nombre total d'étiquettes existantes pour cette catégorie. La précision est le rapport entre les vrais positifs et le total des prédictions faites par le modèle.
Rappel et précision offrent un compromis, représenté graphiquement sous forme de courbe en faisant varier le seuil de classification. L'aire sous cette courbe précision/rappel nous donne la précision moyenne du modèle pour chaque classe. La moyenne de cette valeur dans toutes les catégories est appelée précision moyenne (mAP).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!