Jadual Kandungan
Apakah itu pengubah penglihatan?
Apakah itu Induktif Bias?
Cara Pengubah Penglihatan Berfungsi
Demo Kod
Rumah pembangunan bahagian belakang Tutorial Python Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah

Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah

Jan 23, 2025 pm 01:37 PM

Sejak beberapa tahun lalu, transformer telah mengubah domain NLP dalam pembelajaran mesin. Model seperti GPT dan BERT telah menetapkan penanda aras baharu dalam memahami dan menjana bahasa manusia. Kini prinsip yang sama telah digunakan untuk domain penglihatan komputer. Perkembangan terkini dalam bidang penglihatan komputer ialah penglihatan transformer atau ViT. Seperti yang diperincikan dalam makalah "Imej Bernilai 16x16 Perkataan: Transformer untuk Pengecaman Imej pada Skala", ViT dan model berasaskan pengubah direka untuk menggantikan konvolusi rangkaian saraf (CNN). Vision Transformers adalah pandangan baru dalam menyelesaikan masalah dalam komputer penglihatan. Daripada bergantung pada rangkaian neural convolutional tradisional (CNN), yang telah menjadi tulang belakang tugas berkaitan imej selama beberapa dekad, ViT menggunakan seni bina transformer untuk memproses imej. Mereka merawat tampalan imej seperti perkataan dalam ayat, membolehkan model mempelajari perhubungan antara patch ini, sama seperti ia mempelajari konteks dalam a perenggan teks.

Tidak seperti CNN, ViT membahagikan imej input kepada tampalan, bersirikannya menjadi vektor, dan mengurangkan dimensinya menggunakan matriks pendaraban. Pengekod pengubah kemudian memproses vektor ini sebagai benam token. Dalam artikel ini, kami akan meneroka pengubah penglihatan dan perbezaan utama mereka daripada rangkaian neural convolutional. Apa yang membuat mereka amat menarik ialah keupayaan mereka untuk memahami global corak dalam imej, yang merupakan sesuatu yang boleh dihadapi oleh CNN.

Apakah itu pengubah penglihatan?

Pengubah penglihatan menggunakan konsep perhatian dan pengubah untuk proses imej—ini serupa dengan transformer dalam bahasa semula jadi konteks pemprosesan (NLP). Walau bagaimanapun, daripada menggunakan token, imej itu adalah berpecah kepada tompok dan disediakan sebagai urutan tertanam linear. Ini patch dilayan dengan cara yang sama token atau perkataan dirawat dalam NLP.

Daripada melihat keseluruhan gambar secara serentak, ViT memotong imej menjadi kepingan kecil seperti jigsaw puzzle. Setiap bahagian dipusing ke dalam senarai nombor (vektor) yang menerangkan ciri-cirinya, dan kemudian model melihat semua bahagian dan memikirkan bagaimana ia berkaitan satu sama lain menggunakan mekanisme pengubah.

Tidak seperti CNN, ViT berfungsi dengan menggunakan penapis atau kernel tertentu di atas imej untuk mengesan ciri tertentu, seperti corak tepi. Ini adalah proses lilitan yang hampir sama dengan pengimbasan pencetak an imej. Penapis ini meluncur ke seluruh imej dan menyerlahkan ciri penting. Rangkaian kemudian menyusun berbilang lapisan penapis ini, mengenal pasti corak yang lebih kompleks secara beransur-ansur.
Dengan CNN, lapisan pengumpulan mengurangkan saiz peta ciri. Ini lapisan menganalisis ciri yang diekstrak untuk membuat ramalan berguna untuk pengecaman imej, pengesanan objek, dll. Walau bagaimanapun, CNN mempunyai tetap medan penerimaan, dengan itu mengehadkan keupayaan untuk memodelkan jarak jauh kebergantungan.

Bagaimana CNN melihat imej?Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah

ViT, walaupun mempunyai lebih banyak parameter, gunakan mekanisme perhatian diri untuk perwakilan ciri yang lebih baik dan mengurangkan keperluan untuk lapisan yang lebih dalam. CNN memerlukan seni bina yang lebih mendalam untuk mencapai yang serupa kuasa perwakilan, yang membawa kepada peningkatan kos pengiraan.

Selain itu, CNN tidak boleh menangkap corak imej peringkat global kerana penapis mereka memfokuskan pada kawasan setempat imej. Untuk memahami keseluruhan imej atau hubungan jauh, CNN bergantung pada menyusun banyak lapisan dan penyatuan, meluaskan bidang pandangan. Walau bagaimanapun, proses ini boleh kehilangan maklumat global kerana ia mengagregatkan butiran langkah demi langkah.

ViT, sebaliknya, membahagikan imej kepada tompok yang dianggap sebagai token input individu. Menggunakan perhatian diri, ViT membandingkan semua tampalan serentak dan pelajari cara ia berkait. Ini membolehkan mereka untuk menangkap corak dan kebergantungan merentas keseluruhan imej tanpa membinanya selapis demi selapis.

Apakah itu Induktif Bias?

Sebelum melangkah lebih jauh, adalah penting untuk memahami konsep bias induktif. Bias induktif merujuk kepada andaian yang dibuat oleh model tentang data struktur; semasa latihan, ini membantu model menjadi lebih umum dan mengurangkan berat sebelah. Dalam CNN, bias induktif termasuk:

  1. Lokaliti: Ciri dalam imej (seperti tepi atau tekstur) disetempatkan dalam kawasan kecil.
  2. Struktur kejiranan dua dimensi: Piksel berdekatan berkemungkinan besar berkaitan, jadi penapis beroperasi pada kawasan bersebelahan ruang.
  3. Terjemahan kesetaraan: Ciri yang dikesan dalam satu bahagian imej, seperti tepi, mengekalkan makna yang sama jika ia muncul di bahagian lain.

Kecondongan ini menjadikan CNN sangat cekap untuk tugas imej, kerana ia adalah direka bentuk secara semula jadi untuk mengeksploitasi ruang dan struktur imej sifat.

Pengubah Penglihatan (ViT) mempunyai kecondongan induktif khusus imej yang kurang ketara berbanding CNN. Dalam ViT:

  • Pemprosesan global: Lapisan perhatian kendiri beroperasi pada keseluruhan imej, menjadikan model menangkap hubungan global dan kebergantungan tanpa dihadkan oleh kawasan setempat.
  • Struktur 2D minimum: Struktur 2D imej digunakan hanya pada permulaan (apabila imej dibahagikan kepada patch) dan semasa penalaan halus (untuk melaraskan benam kedudukan untuk berbeza resolusi). Tidak seperti CNN, ViT tidak menganggap bahawa piksel berdekatan adalah semestinya berkaitan.
  • Hubungan ruang yang dipelajari: Pembenaman kedudukan dalam ViT tidak mengekodkan perhubungan spatial 2D tertentu pada permulaan. Sebaliknya, model mempelajari semua perhubungan spatial daripada data semasa latihan.

Cara Pengubah Penglihatan Berfungsi

Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah

Pengubah Penglihatan menggunakan seni bina Transformer standard dibangunkan untuk urutan teks 1D. Untuk memproses imej 2D, ia adalah dibahagikan kepada tompok kecil saiz tetap, seperti piksel P P, yang diratakan menjadi vektor. Jika imej mempunyai dimensi H  W dengan C saluran, jumlah bilangan tampalan ialah N = H  W / P  P yang berkesan panjang jujukan input untuk Transformer. Tompok leper ini adalah kemudian diunjurkan secara linear ke dalam ruang berdimensi tetap D, dipanggil tampalan embeddings.

Token khas yang boleh dipelajari, serupa dengan token [CLS] dalam BERT, ialah ditambah kepada urutan pembenaman tampalan. Token ini mempelajari a perwakilan imej global yang kemudiannya digunakan untuk pengelasan. Selain itu, benam kedudukan ditambah pada benam tampalan ke mengekod maklumat kedudukan, membantu model memahami spatial struktur imej.

Jujukan benam dilalui melalui pengekod Transformer, yang berselang-seli antara dua operasi utama: Perhatian Diri Berbilang Kepala (MSA) dan rangkaian neural suapan, juga dipanggil blok MLP. Setiap lapisan termasuk Normalisasi Lapisan (LN) digunakan sebelum operasi ini dan sambungan baki ditambah selepas itu untuk menstabilkan latihan. Keluaran pengekod Transformer, khususnya keadaan token [CLS], digunakan sebagai imej perwakilan.

Kepala ringkas ditambahkan pada token [CLS] akhir untuk pengelasan tugasan. Semasa pralatihan, kepala ini ialah perceptron berbilang lapisan kecil (MLP), manakala dalam penalaan halus, ia biasanya satu lapisan linear. ini seni bina membolehkan ViT memodelkan hubungan global dengan berkesan antara tampalan dan gunakan kuasa penuh perhatian diri untuk imej pemahaman.

Dalam model Pengubah Penglihatan hibrid, bukannya membahagikan secara langsung imej mentah menjadi tampalan, urutan input diperoleh daripada peta ciri dihasilkan oleh CNN. CNN memproses imej terlebih dahulu, mengekstrak ciri spatial yang bermakna, yang kemudiannya digunakan untuk membuat tampalan. Tompok ini diratakan dan ditayangkan ke dalam ruang dimensi tetap menggunakan unjuran linear yang boleh dilatih yang sama seperti dalam Visi standard Transformers. Satu kes khas pendekatan ini adalah menggunakan tompok saiz 1×1, di mana setiap tampalan sepadan dengan satu lokasi spatial dalam Peta ciri CNN.

Dalam kes ini, dimensi spatial peta ciri ialah diratakan, dan urutan yang terhasil diunjurkan ke dalam Dimensi input Transformer. Seperti ViT standard, a token klasifikasi dan benam kedudukan ditambah untuk mengekalkan maklumat kedudukan dan untuk membolehkan pemahaman imej global. ini pendekatan hibrid memanfaatkan kekuatan pengekstrakan ciri tempatan CNN sambil menggabungkannya dengan keupayaan pemodelan global bagi Transformers.

Demo Kod

Berikut ialah blok kod tentang cara menggunakan pengubah penglihatan pada imej.

# Install the necessary libraries  pip install -q transformers
Salin selepas log masuk
from transformers import ViTForImageClassification  
from PIL import Image  
from transformers import ViTImageProcessor
Salin selepas log masuk
import requests  
import torch
Salin selepas log masuk
# Load the model and move it to ‘GPU’  device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')model = ViTForImageClassification.from_pretrained('google/vit-base-patch16-224')  model.to(device)
Salin selepas log masuk
# Load the Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah to perform predictions  url = 'link to your Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah'  Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah = Image.open(requests.get(url, stream=True).raw)processor = ViTImageProcessor.from_pretrained('google/vit-base-patch16-224')  inputs = processor(Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubahs=Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah, return_tensors="pt").to(device)  pixel_values = inputs.pixel_values  
# print(pixel_values.shape)
Salin selepas log masuk

Yang Model ViT memproses imej. Ia terdiri daripada pengekod seperti BERT dan a kepala pengelasan linear terletak di atas keadaan tersembunyi terakhir token [CLS].

with torch.no_grad():  
  outputs = model(pixel_values)  logits = outputs.logits# logits.shapeprediction = logits.argmax(-1)  print("Predicted class:", model.config.id2label[prediction.item()])
Salin selepas log masuk

Ini pelaksanaan asas Vision Transformer (ViT) menggunakan PyTorch. ini kod termasuk komponen teras: pembenaman tampalan, pengekodan kedudukan, dan pengekod Transformer. Ini boleh digunakan untuk pengelasan mudah tugasan.

import torchimport torch.nn as nnimport torch.nn.functional as Fclass VisionTransformer(nn.Module):
    def __init__(self, img_size=224, patch_size=16, num_classes=1000, dim=768, depth=12, heads=12, mlp_dim=3072, dropout=0.1):
        super(VisionTransformer, self).__init__()
        
        # Image and patch dimensions
        assert img_size % patch_size == 0, "Image size must be divisible by patch size"
        self.num_patches = (img_size // patch_size) ** 2
        self.patch_dim = (3 * patch_size ** 2)  # Assuming 3 channels (RGB)
        
        # Layers
        self.patch_embeddings = nn.Linear(self.patch_dim, dim)
        self.position_embeddings = nn.Parameter(torch.randn(1, self.num_patches   1, dim))
        self.cls_token = nn.Parameter(torch.randn(1, 1, dim))
        self.dropout = nn.Dropout(dropout)
        
        # Transformer Encoder
        self.transformer = nn.TransformerEncoder(
            nn.TransformerEncoderLayer(d_model=dim, nhead=heads, dim_feedforward=mlp_dim, dropout=dropout),
            num_layers=depth        )
        
        # MLP Head for classification
        self.mlp_head = nn.Sequential(
            nn.LayerNorm(dim),
            nn.Linear(dim, num_classes)
        )
    
    def forward(self, x):
        # Flatten patches and embed
        batch_size, channels, height, width = x.shape
        patch_size = height // int(self.num_patches ** 0.5)

        x = x.unfold(2, patch_size, patch_size).unfold(3, patch_size, patch_size)
        x = x.contiguous().view(batch_size, 3, patch_size, patch_size, -1)
        x = x.permute(0, 4, 1, 2, 3).flatten(2).permute(0, 2, 1)
        x = self.patch_embeddings(x)
        
        # Add positional embeddings
        cls_tokens = self.cls_token.expand(batch_size, -1, -1)
        x = torch.cat((cls_tokens, x), dim=1)
        x = x   self.position_embeddings
        x = self.dropout(x)
        
        # Transformer Encoder
        x = self.transformer(x)
        
        # Classification Head
        x = x[:, 0]  # CLS token
        return self.mlp_head(x)# Example usageif __name__ == "__main__":
    model = VisionTransformer(img_size=224, patch_size=16, num_classes=10, dim=768, depth=12, heads=12, mlp_dim=3072)
    print(model)
    
    dummy_img = torch.randn(8, 3, 224, 224)  # Batch of 8 Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubahs, 3 channels, 224x224 size
    preds = model(dummy_img)
    print(preds.shape)  # Output: [8, 10] (Batch size, Number of classes)
Salin selepas log masuk

Atas ialah kandungan terperinci Pengubah Penglihatan (ViTs): Penglihatan Komputer dengan Model Pengubah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1667
14
Tutorial PHP
1273
29
Tutorial C#
1255
24
Python: Permainan, GUI, dan banyak lagi Python: Permainan, GUI, dan banyak lagi Apr 13, 2025 am 12:14 AM

Python cemerlang dalam permainan dan pembangunan GUI. 1) Pembangunan permainan menggunakan pygame, menyediakan lukisan, audio dan fungsi lain, yang sesuai untuk membuat permainan 2D. 2) Pembangunan GUI boleh memilih tkinter atau pyqt. TKInter adalah mudah dan mudah digunakan, PYQT mempunyai fungsi yang kaya dan sesuai untuk pembangunan profesional.

Python vs C: Lengkung pembelajaran dan kemudahan penggunaan Python vs C: Lengkung pembelajaran dan kemudahan penggunaan Apr 19, 2025 am 12:20 AM

Python lebih mudah dipelajari dan digunakan, manakala C lebih kuat tetapi kompleks. 1. Sintaks Python adalah ringkas dan sesuai untuk pemula. Penaipan dinamik dan pengurusan memori automatik menjadikannya mudah digunakan, tetapi boleh menyebabkan kesilapan runtime. 2.C menyediakan kawalan peringkat rendah dan ciri-ciri canggih, sesuai untuk aplikasi berprestasi tinggi, tetapi mempunyai ambang pembelajaran yang tinggi dan memerlukan memori manual dan pengurusan keselamatan jenis.

Python dan Masa: Memanfaatkan masa belajar anda Python dan Masa: Memanfaatkan masa belajar anda Apr 14, 2025 am 12:02 AM

Untuk memaksimumkan kecekapan pembelajaran Python dalam masa yang terhad, anda boleh menggunakan modul, masa, dan modul Python. 1. Modul DateTime digunakan untuk merakam dan merancang masa pembelajaran. 2. Modul Masa membantu menetapkan kajian dan masa rehat. 3. Modul Jadual secara automatik mengatur tugas pembelajaran mingguan.

Python vs C: Meneroka Prestasi dan Kecekapan Python vs C: Meneroka Prestasi dan Kecekapan Apr 18, 2025 am 12:20 AM

Python lebih baik daripada C dalam kecekapan pembangunan, tetapi C lebih tinggi dalam prestasi pelaksanaan. 1. Sintaks ringkas Python dan perpustakaan yang kaya meningkatkan kecekapan pembangunan. 2. Ciri-ciri jenis kompilasi dan kawalan perkakasan meningkatkan prestasi pelaksanaan. Apabila membuat pilihan, anda perlu menimbang kelajuan pembangunan dan kecekapan pelaksanaan berdasarkan keperluan projek.

Yang merupakan sebahagian daripada Perpustakaan Standard Python: Senarai atau Array? Yang merupakan sebahagian daripada Perpustakaan Standard Python: Senarai atau Array? Apr 27, 2025 am 12:03 AM

Pythonlistsarepartofthestandardlibrary, sementara

Python: Automasi, skrip, dan pengurusan tugas Python: Automasi, skrip, dan pengurusan tugas Apr 16, 2025 am 12:14 AM

Python cemerlang dalam automasi, skrip, dan pengurusan tugas. 1) Automasi: Sandaran fail direalisasikan melalui perpustakaan standard seperti OS dan Shutil. 2) Penulisan Skrip: Gunakan Perpustakaan Psutil untuk memantau sumber sistem. 3) Pengurusan Tugas: Gunakan perpustakaan jadual untuk menjadualkan tugas. Kemudahan penggunaan Python dan sokongan perpustakaan yang kaya menjadikannya alat pilihan di kawasan ini.

Pembelajaran Python: Adakah 2 jam kajian harian mencukupi? Pembelajaran Python: Adakah 2 jam kajian harian mencukupi? Apr 18, 2025 am 12:22 AM

Adakah cukup untuk belajar Python selama dua jam sehari? Ia bergantung pada matlamat dan kaedah pembelajaran anda. 1) Membangunkan pelan pembelajaran yang jelas, 2) Pilih sumber dan kaedah pembelajaran yang sesuai, 3) mengamalkan dan mengkaji semula dan menyatukan amalan tangan dan mengkaji semula dan menyatukan, dan anda secara beransur-ansur boleh menguasai pengetahuan asas dan fungsi lanjutan Python dalam tempoh ini.

Python vs C: Memahami perbezaan utama Python vs C: Memahami perbezaan utama Apr 21, 2025 am 12:18 AM

Python dan C masing -masing mempunyai kelebihan sendiri, dan pilihannya harus berdasarkan keperluan projek. 1) Python sesuai untuk pembangunan pesat dan pemprosesan data kerana sintaks ringkas dan menaip dinamik. 2) C sesuai untuk prestasi tinggi dan pengaturcaraan sistem kerana menaip statik dan pengurusan memori manual.

See all articles