La distance de Wasserstein, également connue sous le nom de distance de Earth Mover (EMD), est une méthode de mesure utilisée pour mesurer la différence entre deux distributions de probabilité. Par rapport à la divergence KL ou à la divergence JS traditionnelle, la distance de Wasserstein prend en compte les informations structurelles entre les distributions et présente donc de meilleures performances dans de nombreuses tâches de traitement d'image. En calculant le coût minimum de transport entre deux distributions, la distance de Wasserstein permet de mesurer la quantité minimale de travail nécessaire pour transformer une distribution en une autre. Cette métrique est capable de capturer les différences géométriques entre les distributions, jouant ainsi un rôle important dans des tâches telles que la génération d'images et le transfert de style. Par conséquent, la distance de Wasserstein est devenue l’un des outils largement utilisés dans les domaines de la comparaison des distributions de probabilité et du traitement d’images.
La distance de Wasserstein est utilisée dans le traitement d'images pour mesurer la différence entre deux images. Par rapport aux méthodes traditionnelles, telles que la distance euclidienne et la similarité cosinus, elle permet de mieux prendre en compte les informations structurelles de l'image. Lors de la récupération d’images, nous souhaitons généralement trouver l’image la plus similaire à l’image de requête. Les méthodes traditionnelles utilisent des vecteurs de caractéristiques pour représenter des images et les comparer à l'aide de mesures telles que la distance euclidienne ou la similarité cosinus. Cependant, ces méthodes de mesure ignorent la relation spatiale entre les images et peuvent donc ne pas convenir dans des situations telles que la déformation ou le bruit de l'image. En revanche, la distance de Wasserstein est capable de prendre en compte la relation spatiale entre les pixels, capturant ainsi mieux la similarité entre les images.
Vous trouverez ci-dessous un exemple de récupération d'image utilisant la distance de Wasserstein.
Supposons que nous ayons une base de données de 1 000 images et que nous souhaitions trouver l'image la plus similaire à l'image de requête. Pour mesurer la différence entre chaque paire d'images, nous pouvons utiliser la distance de Wasserstein et sélectionner l'image avec la plus petite distance comme résultat de la requête.
Tout d'abord, nous pouvons utiliser un histogramme pour représenter la distribution des niveaux de gris de chaque pixel, diviser la valeur du niveau de gris en plusieurs intervalles discrets et compter le nombre de pixels dans chaque intervalle. De cette façon, nous pouvons obtenir une distribution de probabilité représentant l’image.
En supposant que nous utilisons 10 intervalles de niveaux de gris pour représenter la distribution des niveaux de gris de chaque pixel, nous pouvons utiliser Python et la bibliothèque NumPy pour calculer la représentation histogramme de chaque image :
import numpy as np import cv2 # Load query image query_image = cv2.imread('query_image.png', cv2.IMREAD_GRAYSCALE) # Compute histogram hist, _ = np.histogram(query_image, bins=10, range=(0, 255), density=True)
Ensuite, nous pouvons calculer chaque paire Distance de Wasserstein entre les images et sélectionnez l'image avec la plus petite distance comme résultat de la requête :
# Load image database database = [] for i in range(1000): img = cv2.imread(f'image_{i}.png', cv2.IMREAD_GRAYSCALE) database.append(img) # Compute Wasserstein distance between query image and each database image distances = [] for img in database: hist2, _ = np.histogram(img, bins=10, range=(0, 255), density=True) distance = cv2.EMD(hist, hist2, cv2.DIST_L2) distances.append(distance) # Find index of image with minimum distance min_index = np.argmin(distances)
Dans cet exemple, nous utilisons la fonction cv2.EMD de la bibliothèque OpenCV pour calculer la distance de Wasserstein. Cette fonction prend deux distributions de probabilité en entrée et renvoie la distance qui les sépare. Nous utilisons le paramètre cv2.DIST_L2 pour spécifier l'utilisation de la distance euclidienne comme métrique de distance.
L'avantage d'utiliser la distance de Wasserstein pour la récupération d'images est qu'elle peut prendre en compte la relation spatiale entre les pixels, capturant ainsi mieux la similitude entre les images. L’inconvénient est que la complexité informatique est élevée, ce qui peut ne pas être pratique lorsqu’il s’agit de bases de données d’images à grande échelle.
En résumé, la distance de Wasserstein est une métrique utile qui peut être utilisée pour diverses tâches de traitement d'images, telles que la récupération d'images, la classification d'images et la génération d'images.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!