[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf-AI-php.cn

Rumah

Peranti teknologi

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

PHPz

Oct 10, 2023 pm 01:41 PM

AI imej kertas teori Kaedah pembelajaran penyeliaan kendiri imej

1. Pengenalan Ringkas

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf Kertas ini menunjukkan kaedah untuk mempelajari perwakilan imej yang sangat semantik tanpa bergantung pada penambahan data buatan tangan. Kertas kerja itu memperkenalkan Seni Bina Ramalan Penyertaan Bersama berasaskan Imej (I-JEPA), pendekatan bukan generatif untuk pembelajaran penyeliaan sendiri daripada imej. Idea di sebalik I-JEPA adalah mudah: ramalkan perwakilan tampung sasaran yang berbeza dalam imej yang sama daripada tampung konteks tunggal. Pilihan reka bentuk teras yang membimbing I-JEPA untuk menjana perwakilan semantik ialah strategi penyamaran secara khusus, (a) meramalkan beberapa tampalan sasaran dalam imej, (b) sampel tampung sasaran sampel pada skala yang cukup besar (15% daripada imej - 20; %), (c) menggunakan blok konteks yang cukup kaya (taburan ruang) adalah penting. Secara empirik, kertas itu mendapati bahawa I-JEPA sangat berskala apabila digabungkan dengan pengubah visual. Sebagai contoh, kertas kerja itu melatih ViT-Huge/16 pada ImageNet dalam masa 38 jam menggunakan 32 GPU A100 untuk mencapai prestasi hiliran yang kukuh merentas pelbagai tugas yang memerlukan tahap abstraksi yang berbeza, daripada pengelasan linear kepada pengiraan objek dan ramalan kedalaman.

2. Latar belakang penyelidikan

Dalam visi komputer, terdapat dua kaedah pembelajaran penyeliaan kendiri imej biasa.

Kaedah berasaskan invarian dan kaedah penjanaan. Dengan mengoptimumkan pengekod melalui pendekatan pra-latihan berasaskan invarian, pembenaman serupa boleh dijana untuk dua atau lebih paparan imej yang sama. Lazimnya, paparan imej dibina menggunakan satu set kaedah penambahan data buatan tangan, seperti penskalaan rawak, pemangkasan, pencelupan warna, dsb. Kaedah pra-latihan ini boleh menjana perwakilan peringkat semantik tinggi, tetapi pada masa yang sama ia juga memperkenalkan bias yang kuat yang mungkin memberi kesan negatif pada beberapa tugas hiliran atau bahkan tugas pra-latihan dengan pengagihan data yang berbeza

Teori pembelajaran kognitif percaya bahawa perwakilan dalam sistem biologi Satu mekanisme pendorong di sebalik pembelajaran ialah penyesuaian model dalaman untuk meramalkan tindak balas kepada input deria. Idea ini adalah teras kaedah generatif yang diselia sendiri, yang mengalih keluar atau merosakkan bahagian input dan belajar untuk meramalkan perkara yang rosak. Khususnya, kaedah denoising topeng mempelajari perwakilan dengan membina semula tompok topeng rawak daripada tahap piksel atau token input. Berbanding dengan kaedah pandangan-invarian, tugas pra-latihan topeng memerlukan kurang pengetahuan awal dan mudah digeneralisasikan di luar modaliti imej. Walau bagaimanapun, perwakilan yang terhasil selalunya mempunyai tahap semantik yang lebih rendah dan kekurangan pra-latihan berasaskan invarian dalam penilaian luar biasa seperti penelusuran linear dan tetapan pemindahan dengan penyeliaan terhad pada tugas klasifikasi semantik. Oleh itu, mekanisme penyesuaian yang lebih canggih (cth., penalaan halus hujung ke hujung) diperlukan untuk mendapatkan kelebihan penuh kaedah ini.

Dalam kerja ini, kertas kerja ini meneroka cara untuk meningkatkan tahap semantik perwakilan diselia sendiri tanpa menggunakan transformasi imej berkod pengetahuan sedia ada tambahan. Untuk tujuan ini, makalah itu memperkenalkan seni bina ramalan penyematan bersama imej (I-JEPA). Rajah 3 memberikan ilustrasi pendekatan ini. Idea di sebalik I-JEPA adalah untuk meramalkan maklumat yang hilang dalam ruang perwakilan abstrak sebagai contoh, diberikan tampung konteks, ramalkan perwakilan tampung sasaran yang berbeza dalam imej yang sama, di mana perwakilan sasaran dikira oleh rangkaian pengekod sasaran yang dipelajari.

Berbanding dengan kaedah generatif yang meramalkan dalam ruang piksel/penanda, I-JEPA menggunakan sasaran ramalan abstrak yang mungkin menghapuskan butiran tahap piksel yang tidak diperlukan, menyebabkan model mempelajari lebih banyak ciri semantik. Satu lagi pilihan reka bentuk teras yang membimbing I-JEPA untuk menghasilkan perwakilan semantik ialah strategi penyamaran berbilang blok yang dicadangkan. Secara khususnya, kertas kerja menunjukkan kepentingan menggunakan tampung konteks bermaklumat (teredar secara spatial) untuk meramalkan beberapa tampalan sasaran (skala yang cukup besar) dalam imej. Kandungan yang ditulis semula: Berbanding dengan kaedah generatif yang meramalkan dalam ruang piksel/penanda, I-JEPA menggunakan sasaran ramalan abstrak, yang berpotensi menghapuskan butiran tahap piksel yang tidak diperlukan, dengan itu membolehkan model mempelajari lebih banyak ciri semantik. Satu lagi pilihan reka bentuk teras I-JEPA ialah menggunakan strategi penyamaran berbilang blok untuk menjana perwakilan semantik. Secara khususnya, kertas kerja menunjukkan kepentingan menggunakan tampung konteks bermaklumat (teredar secara spatial) untuk meramalkan beberapa tampalan sasaran (skala yang cukup besar) dalam imej

Berdasarkan penilaian empirikal yang meluas, kajian menunjukkan:

I-JEPA belajar secara berkesan -perwakilan semantik rak tanpa menggunakan pembesaran pandangan buatan tangan (Rajah 1). I-JEPA mengatasi kaedah pembinaan semula piksel seperti MAE pada pengesanan linear ImageNet-1K, 1% ImageNet-1K separa penyeliaan dan tugas pemindahan semantik.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf I-JEPA berdaya saing dengan kaedah pra-latihan pandangan-invarian pada tugasan semantik dan mencapai prestasi yang lebih baik pada tugas penglihatan peringkat rendah seperti pengiraan objek dan ramalan kedalaman. Dengan menggunakan model yang lebih ringkas dan bias induktif yang kurang tegar, I-JEPA boleh digunakan untuk set tugasan yang lebih luas.

I-JEPA juga berskala dan cekap. Pra-latihan ViT-H/14 pada ImageNet mengambil masa kira-kira 2400 jam GPU, iaitu 50% lebih pantas daripada ViTB/16 pra-latihan dengan iBOT dan 140% lebih pantas daripada ViT-L/16 pra-latihan dengan MAE. Ramalan dalam ruang perwakilan dengan ketara mengurangkan jumlah pengiraan yang diperlukan untuk pra-latihan yang diselia sendiri.

Pembelajaran penyeliaan kendiri ialah kaedah pembelajaran perwakilan di mana sistem belajar untuk menangkap perhubungan antara inputnya. Matlamat ini boleh diterangkan dengan mudah menggunakan rangka kerja model berasaskan tenaga (EBM), di mana matlamat penyeliaan diri adalah untuk memperuntukkan tenaga tinggi kepada input yang tidak serasi dan tenaga rendah kepada input yang serasi. Banyak kaedah pembelajaran penyeliaan kendiri generatif dan bukan generatif yang sedia ada sememangnya boleh ditukar dalam rangka kerja ini, lihat Rajah 2

selepas menulis semula: Seni Bina Bersama-Benam ) ialah kaedah pra-latihan berdasarkan invarian, yang mana boleh digunakan untuk penukaran paksa dalam rangka kerja EBM, lihat Rajah 2a. Matlamat pembelajaran seni bina benam bersama adalah untuk menjadikan input x dan y yang serasi menghasilkan benam yang serupa, manakala input yang tidak serasi mengeluarkan benam yang berbeza. Dalam pralatihan berasaskan imej, pasangan x dan y yang serasi biasanya dibina dengan menggunakan penambahan data buatan tangan secara rawak pada imej input yang sama

Cabaran utama dalam JEA ialah perwakilan runtuh, di mana tenaga. landskap adalah rata (iaitu, pengekod menghasilkan output malar tanpa mengira input). Sejak beberapa tahun kebelakangan ini, beberapa kaedah telah dikaji untuk mengelakkan keruntuhan perwakilan, seperti kerugian kontrastif yang secara eksplisit menolak pembenaman contoh negatif, kerugian bukan kontrastif yang meminimumkan lebihan maklumat terbenam, dan kaedah berasaskan kelompok untuk memaksimumkan purata entropi Terbenam. Terdapat juga beberapa kaedah heuristik yang menggunakan reka bentuk seni bina tidak simetri antara pengekod x dan pengekod y untuk mengelakkan keruntuhan. Seni Bina Generatif. Kaedah pembelajaran penyeliaan kendiri berasaskan pembinaan semula juga boleh dilemparkan dalam rangka kerja EBM menggunakan seni bina generatif, lihat Rajah 2b

Seni bina generatif belajar membina semula isyarat y secara langsung daripada isyarat x yang serasi, menggunakan Tambahan (mungkin terpendam; ) rangkaian penyahkod untuk pembolehubah z untuk memudahkan pembinaan semula. Dalam pralatihan berasaskan imej, pendekatan biasa dalam penglihatan komputer ialah menggunakan topeng untuk menjana pasangan x,y yang serasi, dengan x ialah salinan imej y tetapi dengan beberapa tampung bertopeng. Pembolehubah pelaziman z kemudiannya sepadan dengan satu set topeng (mungkin boleh dipelajari) dan penanda kedudukan yang menentukan penyahkod tampung imej yang akan dibina semula. Selagi kapasiti maklumat z lebih rendah daripada isyarat y, seni bina ini tidak menumpukan pada keruntuhan perwakilan.

Seni Bina Ramalan Penyertaan Bersama. Seperti yang ditunjukkan dalam Rajah 2c, seni bina ramalan benam bersama secara konsepnya serupa dengan seni bina generatif namun, perbezaan utama ialah fungsi kehilangan digunakan pada ruang benam dan bukannya ruang input. JEPA belajar untuk meramalkan pembenaman isyarat y daripada isyarat x yang serasi, menggunakan rangkaian ramalan pembolehubah tambahan (mungkin terpendam) z untuk memudahkan ramalan. I-JEPA yang dicadangkan oleh kertas itu menyediakan instantiasi seni bina ini dalam konteks imej menggunakan topeng; lihat Rajah 3. Berbeza dengan seni bina benam bersama, JEPA tidak mencari perwakilan yang tidak berubah kepada set penambahan data buatan tangan, sebaliknya perwakilan yang meramalkan satu sama lain apabila maklumat tambahan syarat-z hadir. Walau bagaimanapun, seperti seni bina benam bersama, keruntuhan perwakilan juga menjadi kebimbangan JEPA. Makalah ini mengeksploitasi seni bina asimetri antara pengekod x dan y untuk mengelakkan keruntuhan perwakilan dalam I-JEPA.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

3. Pengenalan kaedah

Makalah kini menerangkan seni bina ramalan benam bersama berasaskan imej yang dicadangkan (I- JEPA) , seperti yang ditunjukkan dalam Rajah 3. Matlamat keseluruhan adalah seperti berikut: diberi tampung konteks, ramalkan perwakilan tampung sasaran yang berbeza dalam imej yang sama. Makalah ini menggunakan seni bina Visual Transformer (ViT) sebagai pengekod konteks, pengekod sasaran dan peramal. ViT terdiri daripada timbunan lapisan Transformer, setiap satunya terdiri daripada operasi perhatian kendiri dan MLP yang bersambung sepenuhnya. Seni bina pengekod/peramal kertas itu mengingatkan pendekatan pengekod auto topeng generatif (MAE). Walau bagaimanapun, perbezaan utama ialah kaedah I-JEPA adalah bukan generatif dan ramalan dibuat dalam ruang perwakilan.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf #🎜🎜🎜🎜#

#🎜🎜##🎜🎜🎜##🎜🎜 #🎜🎜#

Untuk menunjukkan bahawa I-JEPA mempelajari perwakilan peringkat tinggi tanpa bergantung pada penambahan data buatan tangan, kertas kerja melaporkan keputusan tentang pelbagai tugas pengelasan imej menggunakan pengesanan linear dan protokol penalaan halus separa. Dalam bahagian ini, kertas kerja mempertimbangkan model penyeliaan sendiri yang telah dilatih pada dataset ImageNet-1K. Lihat Lampiran A untuk butiran pelaksanaan pra-latihan dan penilaian. Semua model I-JEPA dilatih dalam resolusi 224×224 melainkan dinyatakan sebaliknya secara eksplisit.

ImageNet-1K Jadual 1 menunjukkan prestasi pada penanda aras penilaian linear ImageNet-1K. Selepas pralatihan diselia sendiri, pemberat model dibekukan dan pengelas linear dilatih di atas menggunakan set latihan ImageNet-1K penuh. Berbanding dengan kaedah pengekod auto bertopeng (MAE) dan data2vec yang popular, yang juga tidak bergantung pada penambahan data buatan tangan yang meluas sebelum latihan, kertas kerja itu melihat bahawa I-JEPA meningkatkan prestasi pengesanan linear dengan ketara sambil menggunakan jumlah pengiraan yang kurang. Selain itu, I-JEPA mendapat manfaat daripada skala. ViT-H/16 yang dilatih pada resolusi 448 sepadan dengan prestasi kaedah pandangan-invarian seperti iBOT tanpa memerlukan penambahan data manual tambahan.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

Saiz sampel rendah ImageNet-1K. Jadual 2 menunjukkan prestasi pada penanda aras ImageNet 1%. Kaedah ini menggunakan model pra-latihan untuk klasifikasi ImageNet, menggunakan hanya 1% daripada label ImageNet, dengan kira-kira 12 atau 13 imej bagi setiap kategori. Model ditala melalui penalaan halus atau probing linear, bergantung pada kaedah yang paling sesuai untuk setiap kaedah. Apabila menggunakan seni bina pengekod yang serupa, I-JEPA mengatasi MAE dan memerlukan lebih sedikit zaman pra-latihan. I-JEPA menggunakan seni bina ViTH/14 mempunyai prestasi yang setanding dengan ViT-L/16 pra-latihan menggunakan data 2vec, tetapi beban pengiraan adalah kurang ketara. Dengan meningkatkan resolusi input imej, I-JEPA berprestasi lebih baik daripada kaedah sebelumnya, termasuk kaedah pembenaman bersama dan memanfaatkan kaedah penambahan data buatan tangan tambahan sebelum latihan, seperti MSN, DINO dan iBOT

Pembelajaran pemindahan probe linear untuk pelbagai tugas pengelasan imej hiliran. I-JEPA dengan ketara mengatasi kaedah sebelumnya yang tidak menggunakan penambahan (MAE dan Data2vec) dan mengurangkan jurang dengan kaedah terbaik yang memanfaatkan sudut pandangan buatan tangan-invarian sebelum latihan, malah mengatasi kaedah popular pada CIFAR100 dan Place205 DINO.
[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

5. Tugas Ramalan Tempatan

I-JEPA mempelajari perwakilan imej semantik dan meningkatkan prestasi klasifikasi imej hiliran dengan ketara bagi kaedah sebelumnya, seperti MAE dan data2vec. Tambahan pula, I-JEPA mendapat manfaat daripada skala dan boleh merapatkan jurang dan juga seterusnya, memanfaatkan penambahan data buatan tangan tambahan bagi kaedah berasaskan invarian pandangan. Dalam bahagian ini, kami mendapati bahawa I-JEPA juga boleh mempelajari ciri imej tempatan dan mengatasi kaedah berasaskan invarian paparan dalam tugas ramalan tahap rendah dan intensif seperti pengiraan objek dan ramalan kedalaman.

Jadual 4 menunjukkan prestasi pada pelbagai tugasan peringkat rendah menggunakan probing linear. Khususnya, selepas pra-latihan, pemberat model dibekukan dan model linear dilatih di atas untuk mengira objek dan ramalan kedalaman pada dataset Clevr. Berbanding dengan kaedah invarian paparan seperti DINO dan iBOT, kaedah I-JEPA secara berkesan menangkap ciri imej peringkat rendah sebelum latihan dan mengatasi prestasi dalam pengiraan objek (Clevr/Count) dan (sebahagian besarnya) ramalan kedalaman (Clevr/Dist kepada mereka). . [Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf 6. Kebolehskalaan

Kandungan yang ditulis semula adalah seperti berikut: Berdasarkan perbandingan dengan kaedah sebelumnya, I-JEPA sangat berskala dari segi kecekapan model. Rajah 5 menunjukkan keputusan separa seliaan bagi penilaian jam GPU pada 1% daripada ImageNet-1K. I-JEPA memerlukan kurang pengiraan berbanding kaedah sebelumnya dan mencapai prestasi yang kukuh tanpa bergantung pada penambahan data manual. Berbanding dengan kaedah berasaskan pembinaan semula seperti MAE, yang menggunakan piksel secara langsung sebagai sasaran, dsb., I-JEPA memperkenalkan overhed tambahan dengan mengira sasaran dalam ruang perwakilan (kira-kira 7% lebih perlahan setiap lelaran)

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf Skala Skala saiz data. Kertas kerja itu juga mendapati bahawa I-JEPA mendapat manfaat daripada pra-latihan pada set data yang lebih besar. Jadual 5 menunjukkan prestasi pembelajaran pemindahan pada tugasan semantik dan tugasan peringkat rendah apabila meningkatkan saiz set data pra-latihan (IN1K lwn IN22K). Memindahkan prestasi pembelajaran pada tugasan yang berbeza dari segi konsep ini bertambah baik apabila dilatih terlebih dahulu pada set data yang lebih besar dan lebih pelbagai. Menskala saiz model. Jadual 5 juga menunjukkan bahawa I-JEPA mendapat manfaat daripada saiz model yang lebih besar apabila pra-latihan pada IN22K. Berbanding dengan model ViT-H/14, pra-latihan pada ViT-G/16 dengan ketara meningkatkan prestasi hiliran pada tugas pengelasan imej seperti Place205 dan INat18. Model ViTG/16 tidak meningkatkan prestasi pada tugas hiliran peringkat rendah. ViT-G/16 menggunakan saiz tampung input yang lebih besar, yang mungkin memudaratkan tugas ramalan setempat.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

7. Visualisasi Peramal boleh ditulis semula

Peranan peramal dalam I-JEPA adalah untuk mengambil peranan Output pengekod konteks , dan bersyarat pada token topeng kedudukan, meramalkan perwakilan tampung sasaran pada kedudukan yang ditentukan oleh token topeng. Satu soalan ialah sama ada peramal yang dikondisikan pada token topeng kedudukan sedang belajar untuk menangkap ketidakpastian kedudukan dengan betul dalam sasaran. Untuk mengkaji soalan ini secara kualitatif, kami memvisualisasikan output peramal. Selepas pra-latihan, kertas itu membekukan pemberat pengekod konteks dan peramal, dan melatih penyahkod mengikut rangka kerja RCDM untuk memetakan kumpulan purata output peramal kembali ke ruang piksel. Rajah 6 menunjukkan keluaran penyahkod bagi pelbagai benih rawak. Ciri yang biasa merentas sampel mewakili maklumat yang terkandung dalam purata perwakilan peramal terkumpul. Peramal I-JEPA dengan betul menangkap ketidakpastian kedudukan dan menghasilkan bahagian objek aras tinggi dengan pose yang betul (cth., belakang burung dan bahagian atas kereta). Jisim yang berbeza dalam sampel yang berbeza mewakili maklumat yang tidak terkandung dalam perwakilan. Dalam kes ini, peramal I-JEPA membuang butiran peringkat rendah dan maklumat latar belakang yang tepat.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

8. Kepentingan Ablasi

Meramal dalam ruang perwakilan. Jadual 7 membandingkan prestasi tangkapan rendah apabila mengira 1% ImageNet-1K dalam ruang piksel dan ruang perwakilan. Kertas itu membuat spekulasi bahawa komponen utama I-JEPA ialah kerugian dikira sepenuhnya dalam ruang perwakilan, membolehkan pengekod sasaran menghasilkan sasaran ramalan abstrak yang menghapuskan butiran tahap piksel yang tidak relevan. Jelas daripada Jadual 7 bahawa ramalan dalam ruang piksel membawa kepada kemerosotan yang ketara dalam prestasi pengesanan linear.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

Kandungan yang ditulis semula: Strategi penyamaran diubah suai dalam Jadual 8. Kajian ini mengurangkan bilangan blok sasaran dalam strategi topeng berbilang blok yang dicadangkan dalam proses pra-latihan I-JEPA dan melaraskan skala konteks dan blok sasaran, seperti yang ditunjukkan dalam Rajah 4. Kami melatih I-JEPA selama 300 zaman menggunakan pelbagai tetapan berbilang blok dan melakukan perbandingan prestasi pada penanda aras 1% ImageNet-1K menggunakan probe linear. Untuk meringkaskan, kami mendapati bahawa adalah sangat penting untuk meramalkan beberapa tampung sasaran (semantik) yang agak besar, digabungkan dengan tampung konteks bermaklumat (teredar secara spatial) #

Jadual 6 juga melakukan ablasi yang serupa apabila membandingkan dengan strategi penyamaran yang lain. Makalah ini membandingkan dengan strategi masking rasterized, di mana imej dibahagikan kepada empat kuadran besar dan matlamatnya adalah untuk menggunakan satu kuadran sebagai konteks untuk meramalkan tiga kuadran yang lain. Makalah ini juga membandingkan blok tradisional dan strategi penyamaran rawak yang biasa digunakan untuk kaedah berasaskan pembinaan semula. Dalam penyamaran blok, sasaran ialah tampalan imej tunggal dan konteksnya ialah pelengkap imej. Dalam penyamaran rawak, sasaran ialah set tampalan imej rawak (mungkin tidak berterusan), dan konteksnya ialah pelengkap imej. Ambil perhatian bahawa dalam semua strategi penyamaran yang dipertimbangkan, tiada pertindihan antara konteks dan blok sasaran. Strategi penyamaran berbilang blok yang dicadangkan adalah kunci untuk I-JEPA mempelajari perwakilan semantik. Malah menukar kepada topeng blok tradisional mengurangkan prestasi ImageNet sebanyak lebih daripada 24%.

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf

9 Kertas kesimpulan

[Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf mencadangkan kaedah yang dipanggil I-JEPA untuk mempelajari perwakilan imej semantik. Kaedah ini tidak bergantung pada penambahan data buatan tangan. Kajian menunjukkan bahawa dengan membuat ramalan dalam ruang perwakilan, I-JEPA menumpu lebih cepat daripada kaedah pembinaan semula piksel dan dapat mempelajari perwakilan tahap semantik tinggi. Berbanding dengan kaedah berdasarkan invarian paparan, I-JEPA menekankan laluan pembelajaran perwakilan umum menggunakan seni bina benam bersama tanpa bergantung pada peningkatan paparan buatan tangan

Lampiran Lihat teks asal, pautan asal: https :/ /arxiv.org/abs/2301.08243

Atas ialah kandungan terperinci [Tafsiran Kertas] Seni bina ramalan pembenaman bersama pembelajaran penyeliaan kendiri berasaskan graf. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

3 minggu yang lalu By DDD

Penjimatan di R.E.P.O. Dijelaskan (dan simpan fail)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Cara Mencari Orang Panda

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7569

Tutorial CakePHP

1386

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

107

Tunjukkan Lagi

Related knowledge

Bytedance Cutting melancarkan keahlian super SVIP: 499 yuan untuk langganan tahunan berterusan, menyediakan pelbagai fungsi AI Jun 28, 2024 am 03:51 AM

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Jul 26, 2024 pm 05:38 PM

Dalam pembuatan moden, pengesanan kecacatan yang tepat bukan sahaja kunci untuk memastikan kualiti produk, tetapi juga teras untuk meningkatkan kecekapan pengeluaran. Walau bagaimanapun, set data pengesanan kecacatan sedia ada selalunya tidak mempunyai ketepatan dan kekayaan semantik yang diperlukan untuk aplikasi praktikal, menyebabkan model tidak dapat mengenal pasti kategori atau lokasi kecacatan tertentu. Untuk menyelesaikan masalah ini, pasukan penyelidik terkemuka yang terdiri daripada Universiti Sains dan Teknologi Hong Kong Guangzhou dan Teknologi Simou telah membangunkan set data "DefectSpectrum" secara inovatif, yang menyediakan anotasi berskala besar yang kaya dengan semantik bagi kecacatan industri. Seperti yang ditunjukkan dalam Jadual 1, berbanding set data industri lain, set data "DefectSpectrum" menyediakan anotasi kecacatan yang paling banyak (5438 sampel kecacatan) dan klasifikasi kecacatan yang paling terperinci (125 kategori kecacatan

Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Jul 26, 2024 am 08:40 AM

Komuniti LLM terbuka ialah era apabila seratus bunga mekar dan bersaing Anda boleh melihat Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 dan banyak lagi. model yang cemerlang. Walau bagaimanapun, berbanding dengan model besar proprietari yang diwakili oleh GPT-4-Turbo, model terbuka masih mempunyai jurang yang ketara dalam banyak bidang. Selain model umum, beberapa model terbuka yang mengkhusus dalam bidang utama telah dibangunkan, seperti DeepSeek-Coder-V2 untuk pengaturcaraan dan matematik, dan InternVL untuk tugasan bahasa visual.

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Aug 08, 2024 pm 09:22 PM

Editor |KX Sehingga hari ini, perincian dan ketepatan struktur yang ditentukan oleh kristalografi, daripada logam ringkas kepada protein membran yang besar, tidak dapat ditandingi oleh mana-mana kaedah lain. Walau bagaimanapun, cabaran terbesar, yang dipanggil masalah fasa, kekal mendapatkan maklumat fasa daripada amplitud yang ditentukan secara eksperimen. Penyelidik di Universiti Copenhagen di Denmark telah membangunkan kaedah pembelajaran mendalam yang dipanggil PhAI untuk menyelesaikan masalah fasa kristal Rangkaian saraf pembelajaran mendalam yang dilatih menggunakan berjuta-juta struktur kristal tiruan dan data pembelauan sintetik yang sepadan boleh menghasilkan peta ketumpatan elektron yang tepat. Kajian menunjukkan bahawa kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh menyelesaikan masalah fasa pada resolusi hanya 2 Angstrom, yang bersamaan dengan hanya 10% hingga 20% daripada data yang tersedia pada resolusi atom, manakala Pengiraan ab initio tradisional

Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Jul 26, 2024 pm 02:40 PM

Bagi AI, Olimpik Matematik tidak lagi menjadi masalah. Pada hari Khamis, kecerdasan buatan Google DeepMind menyelesaikan satu kejayaan: menggunakan AI untuk menyelesaikan soalan sebenar IMO Olimpik Matematik Antarabangsa tahun ini, dan ia hanya selangkah lagi untuk memenangi pingat emas. Pertandingan IMO yang baru berakhir minggu lalu mempunyai enam soalan melibatkan algebra, kombinatorik, geometri dan teori nombor. Sistem AI hibrid yang dicadangkan oleh Google mendapat empat soalan dengan betul dan memperoleh 28 mata, mencapai tahap pingat perak. Awal bulan ini, profesor UCLA, Terence Tao baru sahaja mempromosikan Olimpik Matematik AI (Anugerah Kemajuan AIMO) dengan hadiah berjuta-juta dolar Tanpa diduga, tahap penyelesaian masalah AI telah meningkat ke tahap ini sebelum Julai. Lakukan soalan secara serentak pada IMO Perkara yang paling sukar untuk dilakukan dengan betul ialah IMO, yang mempunyai sejarah terpanjang, skala terbesar dan paling negatif

Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Aug 22, 2024 pm 04:37 PM

Editor |. ScienceAI Berdasarkan data klinikal yang terhad, beratus-ratus algoritma perubatan telah diluluskan. Para saintis sedang membahaskan siapa yang harus menguji alat dan cara terbaik untuk melakukannya. Devin Singh menyaksikan seorang pesakit kanak-kanak di bilik kecemasan mengalami serangan jantung semasa menunggu rawatan untuk masa yang lama, yang mendorongnya untuk meneroka aplikasi AI untuk memendekkan masa menunggu. Menggunakan data triage daripada bilik kecemasan SickKids, Singh dan rakan sekerja membina satu siri model AI untuk menyediakan potensi diagnosis dan mengesyorkan ujian. Satu kajian menunjukkan bahawa model ini boleh mempercepatkan lawatan doktor sebanyak 22.3%, mempercepatkan pemprosesan keputusan hampir 3 jam bagi setiap pesakit yang memerlukan ujian perubatan. Walau bagaimanapun, kejayaan algoritma kecerdasan buatan dalam penyelidikan hanya mengesahkan perkara ini

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? Aug 07, 2024 pm 07:08 PM

Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini. Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah status Transformer sebagai seni bina arus perdana model besar AI akan digoncang? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang dari Week50 2023

See all articles