Masalah ketidakseimbangan data dalam pengelasan imej berbutir halus memerlukan contoh kod khusus
Klasifikasi imej berbutir halus merujuk kepada pasangan imej yang serupa ciri visual Objek dibahagikan dan dikenal pasti. Dalam tugasan ini, ketidakseimbangan data adalah masalah biasa, iaitu terdapat perbezaan besar dalam bilangan sampel kategori yang berbeza, yang membawa kepada berat sebelah model dalam pengedaran data semasa latihan dan ujian, menjejaskan ketepatan dan keteguhan. klasifikasi. Untuk menyelesaikan masalah ini, kami boleh mengambil beberapa kaedah untuk mengimbangi data dan meningkatkan prestasi model.
Kaedah biasa ialah pensampelan terkurang, iaitu, memadam secara rawak beberapa sampel yang lebih besar daripada set data, supaya Nombor sampel dalam setiap kategori adalah sama atau hampir sama. Kaedah ini mudah dan pantas, tetapi boleh menyebabkan kehilangan maklumat dan sampel yang tidak mencukupi.
Kaedah lain ialah oversampling, iaitu menyalin atau menjana bilangan sampel yang lebih kecil supaya bilangan sampel dalam setiap kategori adalah sama atau hampir sama. Persampelan berlebihan boleh dicapai dengan menyalin sampel, menghasilkan sampel baharu atau interpolasi. Pendekatan ini boleh meningkatkan kepelbagaian data, tetapi boleh menyebabkan model lampau.
Pembesaran data adalah untuk meningkatkan bilangan dan kepelbagaian sampel dengan melakukan satu siri transformasi rawak pada data asal. Teknik peningkatan data yang biasa digunakan termasuk putaran, penskalaan, terjemahan, selak cermin, penambahan bunyi, dsb. Melalui peningkatan data, bilangan sampel dalam set latihan dapat ditingkatkan dan masalah ketidakseimbangan data dapat dikurangkan.
Berikut ialah kod sampel yang menggunakan PyTorch untuk melaksanakan penambahan data dan pensampelan kurang:
import torch from torch.utils.data import Dataset from torch.utils.data import DataLoader from torchvision import transforms from imblearn.under_sampling import RandomUnderSampler class CustomDataset(Dataset): def __init__(self, data, targets, transform=None): self.data = data self.targets = targets self.transform = transform def __len__(self): return len(self.data) def __getitem__(self, index): x = self.data[index] y = self.targets[index] if self.transform: x = self.transform(x) return x, y # 定义数据增强的transform transform = transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.RandomRotation(20), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) # 创建自定义数据集 dataset = CustomDataset(data, targets, transform=transform) # 使用欠采样方法平衡数据 sampler = RandomUnderSampler() data_resampled, targets_resampled = sampler.fit_resample(dataset.data, dataset.targets) # 创建平衡数据的数据集 dataset_resampled = CustomDataset(data_resampled, targets_resampled, transform=transform) # 创建数据加载器 dataloader = DataLoader(dataset_resampled, batch_size=32, shuffle=True)
Dalam kod di atas, kami mentakrifkan kelas set data tersuai CustomDataset, di mana Mengandungi data peningkatan mengubah dan mentakrifkan berbilang operasi peningkatan data melalui transformasi.Compose(). Kemudian gunakan RandomUnderSampler dalam pustaka imbalanced-learn untuk melaksanakan pensampelan terkurang, mengimbangi bilangan sampel dan akhirnya mencipta set data set data seimbang_sampled dan pemuat data pemuat data.
Secara ringkasnya, masalah ketidakseimbangan data dalam pengelasan imej halus boleh diselesaikan melalui kaedah seperti pensampelan data dan peningkatan data. PyTorch dan perpustakaan pembelajaran seimbang digunakan dalam contoh kod untuk melaksanakan penambahan data dan pensampelan terkurang untuk meningkatkan prestasi dan keteguhan model. Dengan menggunakan kaedah ini secara rasional, masalah ketidakseimbangan data boleh diselesaikan dengan berkesan dan prestasi model dalam tugas pengelasan imej yang terperinci boleh dipertingkatkan.
Atas ialah kandungan terperinci Masalah ketidakseimbangan data dalam klasifikasi imej halus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!