Rumah > Peranti teknologi > AI > teks badan

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

PHPz
Lepaskan: 2023-10-10 13:41:05
ke hadapan
614 orang telah melayarinya

1. Pengenalan Ringkas

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan grafKertas ini menunjukkan kaedah untuk mempelajari perwakilan imej yang sangat semantik tanpa bergantung pada penambahan data buatan tangan. Kertas kerja itu memperkenalkan Seni Bina Ramalan Penyertaan Bersama berasaskan Imej (I-JEPA), pendekatan bukan generatif untuk pembelajaran penyeliaan sendiri daripada imej. Idea di sebalik I-JEPA adalah mudah: ramalkan perwakilan tampung sasaran yang berbeza dalam imej yang sama daripada tampung konteks tunggal. Pilihan reka bentuk teras yang membimbing I-JEPA untuk menjana perwakilan semantik ialah strategi penyamaran secara khusus, (a) meramalkan beberapa tampalan sasaran dalam imej, (b) sampel tampung sasaran sampel pada skala yang cukup besar (15% daripada imej - 20; %), (c) menggunakan blok konteks yang cukup kaya (taburan ruang) adalah penting. Secara empirik, kertas itu mendapati bahawa I-JEPA sangat berskala apabila digabungkan dengan pengubah visual. Sebagai contoh, kertas kerja itu melatih ViT-Huge/16 pada ImageNet dalam masa 38 jam menggunakan 32 GPU A100 untuk mencapai prestasi hiliran yang kukuh merentas pelbagai tugas yang memerlukan tahap abstraksi yang berbeza, daripada pengelasan linear kepada pengiraan objek dan ramalan kedalaman.

2. Latar belakang penyelidikan

Dalam visi komputer, terdapat dua kaedah pembelajaran penyeliaan kendiri imej biasa.

Kaedah berasaskan invarian dan kaedah penjanaan. Dengan mengoptimumkan pengekod melalui pendekatan pra-latihan berasaskan invarian, pembenaman serupa boleh dijana untuk dua atau lebih paparan imej yang sama. Lazimnya, paparan imej dibina menggunakan satu set kaedah penambahan data buatan tangan, seperti penskalaan rawak, pemangkasan, pencelupan warna, dsb. Kaedah pra-latihan ini boleh menjana perwakilan peringkat semantik tinggi, tetapi pada masa yang sama ia juga memperkenalkan bias yang kuat yang mungkin memberi kesan negatif pada beberapa tugas hiliran atau bahkan tugas pra-latihan dengan pengagihan data yang berbeza

Teori pembelajaran kognitif percaya bahawa perwakilan dalam sistem biologi Satu mekanisme pendorong di sebalik pembelajaran ialah penyesuaian model dalaman untuk meramalkan tindak balas kepada input deria. Idea ini adalah teras kaedah generatif yang diselia sendiri, yang mengalih keluar atau merosakkan bahagian input dan belajar untuk meramalkan perkara yang rosak. Khususnya, kaedah denoising topeng mempelajari perwakilan dengan membina semula tompok topeng rawak daripada tahap piksel atau token input. Berbanding dengan kaedah pandangan-invarian, tugas pra-latihan topeng memerlukan kurang pengetahuan awal dan mudah digeneralisasikan di luar modaliti imej. Walau bagaimanapun, perwakilan yang terhasil selalunya mempunyai tahap semantik yang lebih rendah dan kekurangan pra-latihan berasaskan invarian dalam penilaian luar biasa seperti penelusuran linear dan tetapan pemindahan dengan penyeliaan terhad pada tugas klasifikasi semantik. Oleh itu, mekanisme penyesuaian yang lebih canggih (cth., penalaan halus hujung ke hujung) diperlukan untuk mendapatkan kelebihan penuh kaedah ini.

Dalam kerja ini, kertas kerja ini meneroka cara untuk meningkatkan tahap semantik perwakilan diselia sendiri tanpa menggunakan transformasi imej berkod pengetahuan sedia ada tambahan. Untuk tujuan ini, makalah itu memperkenalkan seni bina ramalan penyematan bersama imej (I-JEPA). Rajah 3 memberikan ilustrasi pendekatan ini. Idea di sebalik I-JEPA adalah untuk meramalkan maklumat yang hilang dalam ruang perwakilan abstrak sebagai contoh, diberikan tampung konteks, ramalkan perwakilan tampung sasaran yang berbeza dalam imej yang sama, di mana perwakilan sasaran dikira oleh rangkaian pengekod sasaran yang dipelajari.

Berbanding dengan kaedah generatif yang meramalkan dalam ruang piksel/penanda, I-JEPA menggunakan sasaran ramalan abstrak yang mungkin menghapuskan butiran tahap piksel yang tidak diperlukan, menyebabkan model mempelajari lebih banyak ciri semantik. Satu lagi pilihan reka bentuk teras yang membimbing I-JEPA untuk menghasilkan perwakilan semantik ialah strategi penyamaran berbilang blok yang dicadangkan. Secara khususnya, kertas kerja menunjukkan kepentingan menggunakan tampung konteks bermaklumat (teredar secara spatial) untuk meramalkan beberapa tampalan sasaran (skala yang cukup besar) dalam imej. Kandungan yang ditulis semula: Berbanding dengan kaedah generatif yang meramalkan dalam ruang piksel/penanda, I-JEPA menggunakan sasaran ramalan abstrak, yang berpotensi menghapuskan butiran tahap piksel yang tidak diperlukan, dengan itu membolehkan model mempelajari lebih banyak ciri semantik. Satu lagi pilihan reka bentuk teras I-JEPA ialah menggunakan strategi penyamaran berbilang blok untuk menjana perwakilan semantik. Secara khususnya, kertas kerja menunjukkan kepentingan menggunakan tampung konteks bermaklumat (teredar secara spatial) untuk meramalkan beberapa tampalan sasaran (skala yang cukup besar) dalam imej

Berdasarkan penilaian empirikal yang meluas, kajian menunjukkan:

I-JEPA belajar secara berkesan -perwakilan semantik rak tanpa menggunakan pembesaran pandangan buatan tangan (Rajah 1). I-JEPA mengatasi kaedah pembinaan semula piksel seperti MAE pada pengesanan linear ImageNet-1K, 1% ImageNet-1K separa penyeliaan dan tugas pemindahan semantik.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan grafI-JEPA berdaya saing dengan kaedah pra-latihan pandangan-invarian pada tugasan semantik dan mencapai prestasi yang lebih baik pada tugas penglihatan peringkat rendah seperti pengiraan objek dan ramalan kedalaman. Dengan menggunakan model yang lebih ringkas dan bias induktif yang kurang tegar, I-JEPA boleh digunakan untuk set tugasan yang lebih luas.

I-JEPA juga berskala dan cekap. Pra-latihan ViT-H/14 pada ImageNet mengambil masa kira-kira 2400 jam GPU, iaitu 50% lebih pantas daripada ViTB/16 pra-latihan dengan iBOT dan 140% lebih pantas daripada ViT-L/16 pra-latihan dengan MAE. Ramalan dalam ruang perwakilan dengan ketara mengurangkan jumlah pengiraan yang diperlukan untuk pra-latihan yang diselia sendiri.

Pembelajaran penyeliaan kendiri ialah kaedah pembelajaran perwakilan di mana sistem belajar untuk menangkap perhubungan antara inputnya. Matlamat ini boleh diterangkan dengan mudah menggunakan rangka kerja model berasaskan tenaga (EBM), di mana matlamat penyeliaan diri adalah untuk memperuntukkan tenaga tinggi kepada input yang tidak serasi dan tenaga rendah kepada input yang serasi. Banyak kaedah pembelajaran penyeliaan kendiri generatif dan bukan generatif yang sedia ada sememangnya boleh ditukar dalam rangka kerja ini, lihat Rajah 2

selepas menulis semula: Seni Bina Bersama-Benam ) ialah kaedah pra-latihan berdasarkan invarian, yang mana boleh digunakan untuk penukaran paksa dalam rangka kerja EBM, lihat Rajah 2a. Matlamat pembelajaran seni bina benam bersama adalah untuk menjadikan input x dan y yang serasi menghasilkan benam yang serupa, manakala input yang tidak serasi mengeluarkan benam yang berbeza. Dalam pralatihan berasaskan imej, pasangan x dan y yang serasi biasanya dibina dengan menggunakan penambahan data buatan tangan secara rawak pada imej input yang sama

Cabaran utama dalam JEA ialah perwakilan runtuh, di mana tenaga. landskap adalah rata (iaitu, pengekod menghasilkan output malar tanpa mengira input). Sejak beberapa tahun kebelakangan ini, beberapa kaedah telah dikaji untuk mengelakkan keruntuhan perwakilan, seperti kerugian kontrastif yang secara eksplisit menolak pembenaman contoh negatif, kerugian bukan kontrastif yang meminimumkan lebihan maklumat terbenam, dan kaedah berasaskan kelompok untuk memaksimumkan purata entropi Terbenam. Terdapat juga beberapa kaedah heuristik yang menggunakan reka bentuk seni bina tidak simetri antara pengekod x dan pengekod y untuk mengelakkan keruntuhan. Seni Bina Generatif. Kaedah pembelajaran penyeliaan kendiri berasaskan pembinaan semula juga boleh dilemparkan dalam rangka kerja EBM menggunakan seni bina generatif, lihat Rajah 2b

Seni bina generatif belajar membina semula isyarat y secara langsung daripada isyarat x yang serasi, menggunakan Tambahan (mungkin terpendam; ) rangkaian penyahkod untuk pembolehubah z untuk memudahkan pembinaan semula. Dalam pralatihan berasaskan imej, pendekatan biasa dalam penglihatan komputer ialah menggunakan topeng untuk menjana pasangan x,y yang serasi, dengan x ialah salinan imej y tetapi dengan beberapa tampung bertopeng. Pembolehubah pelaziman z kemudiannya sepadan dengan satu set topeng (mungkin boleh dipelajari) dan penanda kedudukan yang menentukan penyahkod tampung imej yang akan dibina semula. Selagi kapasiti maklumat z lebih rendah daripada isyarat y, seni bina ini tidak menumpukan pada keruntuhan perwakilan.

Seni Bina Ramalan Penyertaan Bersama. Seperti yang ditunjukkan dalam Rajah 2c, seni bina ramalan benam bersama secara konsepnya serupa dengan seni bina generatif namun, perbezaan utama ialah fungsi kehilangan digunakan pada ruang benam dan bukannya ruang input. JEPA belajar untuk meramalkan pembenaman isyarat y daripada isyarat x yang serasi, menggunakan rangkaian ramalan pembolehubah tambahan (mungkin terpendam) z untuk memudahkan ramalan. I-JEPA yang dicadangkan oleh kertas itu menyediakan instantiasi seni bina ini dalam konteks imej menggunakan topeng; lihat Rajah 3. Berbeza dengan seni bina benam bersama, JEPA tidak mencari perwakilan yang tidak berubah kepada set penambahan data buatan tangan, sebaliknya perwakilan yang meramalkan satu sama lain apabila maklumat tambahan syarat-z hadir. Walau bagaimanapun, seperti seni bina benam bersama, keruntuhan perwakilan juga menjadi kebimbangan JEPA. Makalah ini mengeksploitasi seni bina asimetri antara pengekod x dan y untuk mengelakkan keruntuhan perwakilan dalam I-JEPA.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

3. Pengenalan kaedah

Makalah kini menerangkan seni bina ramalan benam bersama berasaskan imej yang dicadangkan (I- JEPA) , seperti yang ditunjukkan dalam Rajah 3. Matlamat keseluruhan adalah seperti berikut: diberi tampung konteks, ramalkan perwakilan tampung sasaran yang berbeza dalam imej yang sama. Makalah ini menggunakan seni bina Visual Transformer (ViT) sebagai pengekod konteks, pengekod sasaran dan peramal. ViT terdiri daripada timbunan lapisan Transformer, setiap satunya terdiri daripada operasi perhatian kendiri dan MLP yang bersambung sepenuhnya. Seni bina pengekod/peramal kertas itu mengingatkan pendekatan pengekod auto topeng generatif (MAE). Walau bagaimanapun, perbezaan utama ialah kaedah I-JEPA adalah bukan generatif dan ramalan dibuat dalam ruang perwakilan.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf#🎜🎜🎜🎜#

#🎜🎜##🎜🎜🎜##🎜🎜 #🎜🎜#

Untuk menunjukkan bahawa I-JEPA mempelajari perwakilan peringkat tinggi tanpa bergantung pada penambahan data buatan tangan, kertas kerja melaporkan keputusan tentang pelbagai tugas pengelasan imej menggunakan pengesanan linear dan protokol penalaan halus separa. Dalam bahagian ini, kertas kerja mempertimbangkan model penyeliaan sendiri yang telah dilatih pada dataset ImageNet-1K. Lihat Lampiran A untuk butiran pelaksanaan pra-latihan dan penilaian. Semua model I-JEPA dilatih dalam resolusi 224×224 melainkan dinyatakan sebaliknya secara eksplisit.

ImageNet-1K Jadual 1 menunjukkan prestasi pada penanda aras penilaian linear ImageNet-1K. Selepas pralatihan diselia sendiri, pemberat model dibekukan dan pengelas linear dilatih di atas menggunakan set latihan ImageNet-1K penuh. Berbanding dengan kaedah pengekod auto bertopeng (MAE) dan data2vec yang popular, yang juga tidak bergantung pada penambahan data buatan tangan yang meluas sebelum latihan, kertas kerja itu melihat bahawa I-JEPA meningkatkan prestasi pengesanan linear dengan ketara sambil menggunakan jumlah pengiraan yang kurang. Selain itu, I-JEPA mendapat manfaat daripada skala. ViT-H/16 yang dilatih pada resolusi 448 sepadan dengan prestasi kaedah pandangan-invarian seperti iBOT tanpa memerlukan penambahan data manual tambahan.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

Saiz sampel rendah ImageNet-1K. Jadual 2 menunjukkan prestasi pada penanda aras ImageNet 1%. Kaedah ini menggunakan model pra-latihan untuk klasifikasi ImageNet, menggunakan hanya 1% daripada label ImageNet, dengan kira-kira 12 atau 13 imej bagi setiap kategori. Model ditala melalui penalaan halus atau probing linear, bergantung pada kaedah yang paling sesuai untuk setiap kaedah. Apabila menggunakan seni bina pengekod yang serupa, I-JEPA mengatasi MAE dan memerlukan lebih sedikit zaman pra-latihan. I-JEPA menggunakan seni bina ViTH/14 mempunyai prestasi yang setanding dengan ViT-L/16 pra-latihan menggunakan data 2vec, tetapi beban pengiraan adalah kurang ketara. Dengan meningkatkan resolusi input imej, I-JEPA berprestasi lebih baik daripada kaedah sebelumnya, termasuk kaedah pembenaman bersama dan memanfaatkan kaedah penambahan data buatan tangan tambahan sebelum latihan, seperti MSN, DINO dan iBOT

Pembelajaran pemindahan probe linear untuk pelbagai tugas pengelasan imej hiliran. I-JEPA dengan ketara mengatasi kaedah sebelumnya yang tidak menggunakan penambahan (MAE dan Data2vec) dan mengurangkan jurang dengan kaedah terbaik yang memanfaatkan sudut pandangan buatan tangan-invarian sebelum latihan, malah mengatasi kaedah popular pada CIFAR100 dan Place205 DINO.
[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

5. Tugas Ramalan Tempatan

I-JEPA mempelajari perwakilan imej semantik dan meningkatkan prestasi klasifikasi imej hiliran dengan ketara bagi kaedah sebelumnya, seperti MAE dan data2vec. Tambahan pula, I-JEPA mendapat manfaat daripada skala dan boleh merapatkan jurang dan juga seterusnya, memanfaatkan penambahan data buatan tangan tambahan bagi kaedah berasaskan invarian pandangan. Dalam bahagian ini, kami mendapati bahawa I-JEPA juga boleh mempelajari ciri imej tempatan dan mengatasi kaedah berasaskan invarian paparan dalam tugas ramalan tahap rendah dan intensif seperti pengiraan objek dan ramalan kedalaman.

Jadual 4 menunjukkan prestasi pada pelbagai tugasan peringkat rendah menggunakan probing linear. Khususnya, selepas pra-latihan, pemberat model dibekukan dan model linear dilatih di atas untuk mengira objek dan ramalan kedalaman pada dataset Clevr. Berbanding dengan kaedah invarian paparan seperti DINO dan iBOT, kaedah I-JEPA secara berkesan menangkap ciri imej peringkat rendah sebelum latihan dan mengatasi prestasi dalam pengiraan objek (Clevr/Count) dan (sebahagian besarnya) ramalan kedalaman (Clevr/Dist kepada mereka). . [Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf6. Kebolehskalaan

Kandungan yang ditulis semula adalah seperti berikut: Berdasarkan perbandingan dengan kaedah sebelumnya, I-JEPA sangat berskala dari segi kecekapan model. Rajah 5 menunjukkan keputusan separa seliaan bagi penilaian jam GPU pada 1% daripada ImageNet-1K. I-JEPA memerlukan kurang pengiraan berbanding kaedah sebelumnya dan mencapai prestasi yang kukuh tanpa bergantung pada penambahan data manual. Berbanding dengan kaedah berasaskan pembinaan semula seperti MAE, yang menggunakan piksel secara langsung sebagai sasaran, dsb., I-JEPA memperkenalkan overhed tambahan dengan mengira sasaran dalam ruang perwakilan (kira-kira 7% lebih perlahan setiap lelaran)

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan grafSkala Skala saiz data. Kertas kerja itu juga mendapati bahawa I-JEPA mendapat manfaat daripada pra-latihan pada set data yang lebih besar. Jadual 5 menunjukkan prestasi pembelajaran pemindahan pada tugasan semantik dan tugasan peringkat rendah apabila meningkatkan saiz set data pra-latihan (IN1K lwn IN22K). Memindahkan prestasi pembelajaran pada tugasan yang berbeza dari segi konsep ini bertambah baik apabila dilatih terlebih dahulu pada set data yang lebih besar dan lebih pelbagai. Menskala saiz model. Jadual 5 juga menunjukkan bahawa I-JEPA mendapat manfaat daripada saiz model yang lebih besar apabila pra-latihan pada IN22K. Berbanding dengan model ViT-H/14, pra-latihan pada ViT-G/16 dengan ketara meningkatkan prestasi hiliran pada tugas pengelasan imej seperti Place205 dan INat18. Model ViTG/16 tidak meningkatkan prestasi pada tugas hiliran peringkat rendah. ViT-G/16 menggunakan saiz tampung input yang lebih besar, yang mungkin memudaratkan tugas ramalan setempat.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

7. Visualisasi Peramal boleh ditulis semula

Peranan peramal dalam I-JEPA adalah untuk mengambil peranan Output pengekod konteks , dan bersyarat pada token topeng kedudukan, meramalkan perwakilan tampung sasaran pada kedudukan yang ditentukan oleh token topeng. Satu soalan ialah sama ada peramal yang dikondisikan pada token topeng kedudukan sedang belajar untuk menangkap ketidakpastian kedudukan dengan betul dalam sasaran. Untuk mengkaji soalan ini secara kualitatif, kami memvisualisasikan output peramal. Selepas pra-latihan, kertas itu membekukan pemberat pengekod konteks dan peramal, dan melatih penyahkod mengikut rangka kerja RCDM untuk memetakan kumpulan purata output peramal kembali ke ruang piksel. Rajah 6 menunjukkan keluaran penyahkod bagi pelbagai benih rawak. Ciri yang biasa merentas sampel mewakili maklumat yang terkandung dalam purata perwakilan peramal terkumpul. Peramal I-JEPA dengan betul menangkap ketidakpastian kedudukan dan menghasilkan bahagian objek aras tinggi dengan pose yang betul (cth., belakang burung dan bahagian atas kereta). Jisim yang berbeza dalam sampel yang berbeza mewakili maklumat yang tidak terkandung dalam perwakilan. Dalam kes ini, peramal I-JEPA membuang butiran peringkat rendah dan maklumat latar belakang yang tepat.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

8. Kepentingan Ablasi

Meramal dalam ruang perwakilan. Jadual 7 membandingkan prestasi tangkapan rendah apabila mengira 1% ImageNet-1K dalam ruang piksel dan ruang perwakilan. Kertas itu membuat spekulasi bahawa komponen utama I-JEPA ialah kerugian dikira sepenuhnya dalam ruang perwakilan, membolehkan pengekod sasaran menghasilkan sasaran ramalan abstrak yang menghapuskan butiran tahap piksel yang tidak relevan. Jelas daripada Jadual 7 bahawa ramalan dalam ruang piksel membawa kepada kemerosotan yang ketara dalam prestasi pengesanan linear.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

Kandungan yang ditulis semula: Strategi penyamaran diubah suai dalam Jadual 8. Kajian ini mengurangkan bilangan blok sasaran dalam strategi topeng berbilang blok yang dicadangkan dalam proses pra-latihan I-JEPA dan melaraskan skala konteks dan blok sasaran, seperti yang ditunjukkan dalam Rajah 4. Kami melatih I-JEPA selama 300 zaman menggunakan pelbagai tetapan berbilang blok dan melakukan perbandingan prestasi pada penanda aras 1% ImageNet-1K menggunakan probe linear. Untuk meringkaskan, kami mendapati bahawa adalah sangat penting untuk meramalkan beberapa tampung sasaran (semantik) yang agak besar, digabungkan dengan tampung konteks bermaklumat (teredar secara spatial) #

Jadual 6 juga melakukan ablasi yang serupa apabila membandingkan dengan strategi penyamaran yang lain. Makalah ini membandingkan dengan strategi masking rasterized, di mana imej dibahagikan kepada empat kuadran besar dan matlamatnya adalah untuk menggunakan satu kuadran sebagai konteks untuk meramalkan tiga kuadran yang lain. Makalah ini juga membandingkan blok tradisional dan strategi penyamaran rawak yang biasa digunakan untuk kaedah berasaskan pembinaan semula. Dalam penyamaran blok, sasaran ialah tampalan imej tunggal dan konteksnya ialah pelengkap imej. Dalam penyamaran rawak, sasaran ialah set tampalan imej rawak (mungkin tidak berterusan), dan konteksnya ialah pelengkap imej. Ambil perhatian bahawa dalam semua strategi penyamaran yang dipertimbangkan, tiada pertindihan antara konteks dan blok sasaran. Strategi penyamaran berbilang blok yang dicadangkan adalah kunci untuk I-JEPA mempelajari perwakilan semantik. Malah menukar kepada topeng blok tradisional mengurangkan prestasi ImageNet sebanyak lebih daripada 24%.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

9 Kertas kesimpulan

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf mencadangkan kaedah yang dipanggil I-JEPA untuk mempelajari perwakilan imej semantik. Kaedah ini tidak bergantung pada penambahan data buatan tangan. Kajian menunjukkan bahawa dengan membuat ramalan dalam ruang perwakilan, I-JEPA menumpu lebih cepat daripada kaedah pembinaan semula piksel dan dapat mempelajari perwakilan tahap semantik tinggi. Berbanding dengan kaedah berdasarkan invarian paparan, I-JEPA menekankan laluan pembelajaran perwakilan umum menggunakan seni bina benam bersama tanpa bergantung pada peningkatan paparan buatan tangan

Lampiran Lihat teks asal, pautan asal: https :/ /arxiv.org/abs/2301.08243

Atas ialah kandungan terperinci [Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan