Pelajar beberapa pukulan universal: penyelesaian untuk pelbagai tugas ramalan intensif-AI-php.cn

Jadual Kandungan

VTM: Pelajar beberapa pukulan pertama disesuaikan dengan semua tugas ramalan padat

Rumah

Peranti teknologi

Pelajar beberapa pukulan universal: penyelesaian untuk pelbagai tugas ramalan intensif

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2023 pm 10:46 PM

komputer Model

ICLR (International Conference on Learning Representations) diiktiraf sebagai salah satu persidangan akademik antarabangsa yang paling berpengaruh dalam pembelajaran mesin.

Pada persidangan ICLR 2023 tahun ini, Microsoft Research Asia menerbitkan hasil penyelidikan terkini dalam bidang seperti keteguhan pembelajaran mesin dan kecerdasan buatan yang bertanggungjawab.

Antaranya, hasil kerjasama penyelidikan saintifik antara Microsoft Research Asia dan Korea Advanced Institute of Science and Technology (KAIST) di bawah rangka kerja kerjasama akademik antara kedua-dua pihak telah diiktiraf kerana kejelasan, wawasan, kreativiti dan potensi cemerlang mereka Impak yang berkekalan telah dianugerahkan Anugerah Kertas Cemerlang ICLR 2023.

ICLR 2023杰出论文奖得主分享：适配任意密集预测任务的通用小样本学习器

Alamat kertas: https://arxiv.org/abs/2303.14969

VTM: Pelajar beberapa pukulan pertama disesuaikan dengan semua tugas ramalan padat

Tugas ramalan padat ialah kelas tugas penting dalam bidang penglihatan komputer, seperti segmentasi semantik, anggaran kedalaman, pengesanan tepi dan tunggu pengesanan titik utama. Untuk tugasan sedemikian, anotasi manual bagi label tahap piksel menghadapi kos yang sangat tinggi. Oleh itu, bagaimana untuk belajar daripada sejumlah kecil data berlabel dan membuat ramalan yang tepat, iaitu, pembelajaran sampel kecil, adalah topik yang sangat membimbangkan dalam bidang ini. Dalam tahun-tahun kebelakangan ini, penyelidikan tentang pembelajaran sampel kecil terus membuat penemuan, terutamanya beberapa kaedah berdasarkan pembelajaran meta dan pembelajaran berlawanan, yang telah menarik banyak perhatian dan dialu-alukan daripada komuniti akademik.

Walau bagaimanapun, kaedah pembelajaran sampel kecil visi komputer sedia ada secara amnya ditujukan kepada jenis tugasan tertentu, seperti tugasan pengelasan atau tugasan segmentasi semantik. Mereka sering mengeksploitasi pengetahuan terdahulu dan andaian khusus untuk tugas-tugas ini dalam mereka bentuk seni bina model dan proses latihan, dan oleh itu tidak sesuai untuk generalisasi kepada tugas ramalan padat sewenang-wenangnya. Penyelidik di Microsoft Research Asia ingin meneroka soalan teras: sama ada terdapat pelajar beberapa pukulan umum yang boleh mempelajari tugas ramalan padat untuk segmen arbitrari imej ghaib daripada sebilangan kecil imej berlabel.

Matlamat tugas ramalan yang padat adalah untuk mempelajari pemetaan daripada imej input kepada label yang dianotasi dalam piksel, yang boleh ditakrifkan sebagai:

ICLR 2023杰出论文奖得主分享：适配任意密集预测任务的通用小样本学习器

di mana H dan W ialah ketinggian dan lebar imej masing-masing. Imej input biasanya mengandungi tiga saluran RGB, dan C_Τ mewakili bilangan saluran keluaran. Tugas ramalan padat yang berbeza mungkin melibatkan nombor saluran keluaran dan atribut saluran yang berbeza Contohnya, output tugasan segmentasi semantik ialah perduaan berbilang saluran, manakala output tugasan anggaran kedalaman ialah nilai berterusan satu saluran. Pelajar umum beberapa sampel F, untuk mana-mana tugas Τ, diberikan sebilangan kecil set sokongan sampel berlabel S_Τ (termasuk N kumpulan sampel X^i dan label Y^i), boleh belajar untuk imej Pertanyaan yang tidak kelihatan Jangkaan:

ICLR 2023杰出论文奖得主分享：适配任意密集预测任务的通用小样本学习器

Pertama, ia mesti mempunyai seni bina bersatu. Struktur ini mampu mengendalikan tugas ramalan yang padat secara sewenang-wenangnya dan berkongsi parameter yang diperlukan untuk kebanyakan tugasan untuk mendapatkan pengetahuan yang boleh digeneralisasikan, membolehkan pembelajaran sebarang tugas yang tidak kelihatan dengan bilangan sampel yang kecil.

Kedua, pelajar harus melaraskan mekanisme ramalannya secara fleksibel untuk menyelesaikan tugasan ghaib dengan pelbagai semantik sambil cukup cekap untuk mengelakkan overfitting.

pelajar sampel kecil pertama disesuaikan dengan semua tugas ramalan intensif VTM membuka cara pemikiran baharu untuk pemprosesan tugas ramalan intensif dan kaedah pembelajaran sampel kecil dalam penglihatan komputer . Karya ini memenangi

Reka bentuk VTM diilhamkan oleh analogi kepada proses pemikiran manusia: memandangkan sebilangan kecil contoh tugas baharu, manusia boleh dengan cepat menetapkan output yang serupa kepada input yang serupa berdasarkan persamaan antara contoh, dan boleh juga Fleksibel menyesuaikan tahap di mana input dan output adalah serupa berdasarkan konteks tertentu. Para penyelidik melaksanakan proses analogi untuk ramalan padat menggunakan padanan bukan parametrik berdasarkan tahap tampalan. Melalui latihan, model ini diilhamkan untuk menangkap persamaan dalam tampalan imej.

Memandangkan sebilangan kecil contoh berlabel untuk tugas baharu, VTM mula-mula melaraskan pemahamannya tentang persamaan berdasarkan contoh yang diberikan dan label contoh, mengunci tampung imej sampel dengan yang bakal- Ramalkan tampalan imej yang serupa dan ramalkan label tampalan imej yang tidak kelihatan dengan menggabungkan labelnya.

ICLR 2023杰出论文奖得主分享：适配任意密集预测任务的通用小样本学习器

Rajah 1: Keseluruhan seni bina VTM

VTM mengamalkan lapisan seni bina penyahkod pengekod melaksanakan padanan bukan parametrik berasaskan tampalan pada pelbagai peringkat. Ia terutamanya terdiri daripada empat modul, iaitu pengekod imej f_Τ, pengekod label g, modul pemadanan dan penyahkod label h. Memandangkan imej pertanyaan dan set sokongan, pengekod imej mula-mula mengekstrak perwakilan peringkat tampalan imej untuk setiap pertanyaan dan imej sokongan secara bebas. Pengekod teg juga akan mengekstrak setiap teg yang menyokong teg. Memandangkan label pada setiap peringkat, modul padanan melaksanakan padanan bukan parametrik dan penyahkod label akhirnya menyimpulkan label bagi imej pertanyaan.

Intipati VTM ialah kaedah meta-pembelajaran. Latihannya terdiri daripada berbilang episod, setiap episod mensimulasikan masalah pembelajaran sampel kecil. Latihan VTM menggunakan set data latihan meta D_train, yang mengandungi pelbagai contoh berlabel tugas ramalan padat. Setiap episod latihan mensimulasikan senario pembelajaran beberapa pukulan untuk tugasan tertentu T_train dalam set data, dengan matlamat untuk menghasilkan label yang betul untuk imej pertanyaan diberikan set sokongan. Melalui pengalaman belajar daripada berbilang sampel kecil, model boleh mempelajari pengetahuan am untuk menyesuaikan diri dengan tugasan baharu dengan cepat dan fleksibel. Pada masa ujian, model perlu melakukan pembelajaran beberapa pukulan pada sebarang ujian T_tugas yang tidak disertakan dalam set data latihan D_train.

Apabila berurusan dengan tugasan sewenang-wenangnya, memandangkan dimensi output C_Τ bagi setiap tugasan dalam meta-latihan dan ujian adalah berbeza, ia menjadi satu cabaran besar untuk mereka bentuk parameter model umum bersatu untuk semua tugas. Untuk menyediakan penyelesaian yang mudah dan umum, penyelidik mengubah tugasan kepada subtugas saluran tunggal C_Τ, mempelajari setiap saluran secara berasingan dan memodelkan setiap subtugas secara bebas menggunakan model F yang dikongsi.

Untuk menguji VTM, para penyelidik juga membina khas varian dataset Taskonomy untuk mensimulasikan pembelajaran kecil tugas ramalan padat yang tidak kelihatan. Taskonomy mengandungi pelbagai imej dalaman beranotasi, yang mana penyelidik memilih sepuluh tugas ramalan padat dengan semantik dan dimensi output yang berbeza dan membahagikannya kepada lima bahagian untuk pengesahan silang. Dalam setiap pembahagian, dua tugasan digunakan untuk penilaian pukulan kecil (T_test) dan baki lapan tugasan digunakan untuk latihan (T_train). Penyelidik membina sekatan dengan teliti supaya tugas latihan dan ujian cukup berbeza antara satu sama lain, seperti mengumpulkan tugas tepi (TE, OE) ke dalam tugas ujian untuk membolehkan penilaian tugasan dengan semantik baharu.

ICLR 2023杰出论文奖得主分享：适配任意密集预测任务的通用小样本学习器

Jadual 1: Perbandingan kuantitatif pada dataset Taskonomy (Beberapa pukulan garis dasar selepas tugasan latihan dari partition lain, pembelajaran 10 pukulan dilakukan pada tugasan yang dibahagikan untuk diuji, dengan garis dasar yang diselia sepenuhnya dilatih dan dinilai pada setiap lipatan (DPT) atau semua lipatan (InvPT)

Jadual 1 dan Rajah 2 secara kuantitatif dan kualitatif menunjukkan prestasi pembelajaran sampel kecil VTM dan dua jenis model garis dasar masing-masing pada sepuluh tugas ramalan intensif. Antaranya, DPT dan InvPT ialah dua kaedah pembelajaran terselia yang paling maju yang boleh dilatih secara bebas untuk setiap tugasan, manakala InvPT boleh bersama-sama melatih semua tugas. Memandangkan tiada kaedah sampel kecil khusus dibangunkan untuk tugas ramalan padat umum sebelum VTM, penyelidik membandingkan VTM dengan tiga kaedah pembahagian sampel kecil yang terkini, iaitu DGPNet, HSNet dan VAT, dan melanjutkannya untuk mengendalikan A ruang label umum untuk tugas ramalan padat. VTM tidak mempunyai akses kepada ujian T_test semasa latihan dan hanya menggunakan sebilangan kecil (10) imej berlabel pada masa ujian, tetapi ia menunjukkan prestasi terbaik dalam semua model garis dasar tangkapan kecil dan berprestasi baik pada banyak tugasan berbanding sepenuhnya model garis dasar yang diselia.

ICLR 2023杰出论文奖得主分享：适配任意密集预测任务的通用小样本学习器

Rajah 2: Satu sampel kecil hanya sepuluh imej berlabel dalam sepuluh tugas ramalan padat Taskonomy pada tugas baharu Perbandingan kualitatif pembelajaran kaedah. Apabila kaedah lain gagal, VTM berjaya mempelajari semua tugasan baharu dengan semantik yang berbeza dan perwakilan label yang berbeza.

Dalam Rajah 2, di atas garis putus-putus ialah label sebenar dan dua kaedah pembelajaran yang diselia DPT dan InvPT masing-masing. Di bawah garis putus-putus adalah kaedah pembelajaran sampel kecil. Terutamanya, garis dasar sampel kecil yang lain mengalami kekurangan bencana pada tugas baharu, manakala VTM berjaya mempelajari semua tugasan. Percubaan menunjukkan bahawa VTM kini boleh menunjukkan prestasi yang sama secara kompetitif dengan garis dasar yang diselia sepenuhnya pada bilangan contoh berlabel yang sangat kecil (

Ringkasnya, walaupun idea asas VTM adalah sangat mudah, ia mempunyai seni bina bersatu dan boleh digunakan untuk sebarang tugas ramalan yang padat, kerana algoritma pemadanan pada asasnya Mengandungi semua tugas dan struktur label (cth., berterusan atau diskret). Di samping itu, VTM hanya memperkenalkan sebilangan kecil parameter khusus tugasan, membolehkannya tahan terhadap terlalu pasang dan fleksibel. Pada masa hadapan, penyelidik berharap untuk meneroka lebih lanjut kesan jenis tugasan, volum data dan pengedaran data pada prestasi generalisasi model semasa proses pra-latihan, dengan itu membantu kami membina pelajar sampel kecil yang benar-benar universal.

Atas ialah kandungan terperinci Pelajar beberapa pukulan universal: penyelesaian untuk pelbagai tugas ramalan intensif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7478

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Kedudukan Sains Komputer Kebangsaan 2024 CSRankings Dikeluarkan! CMU mendominasi senarai, MIT terkeluar daripada 5 teratas Mar 25, 2024 pm 06:01 PM

Kedudukan Utama Sains Komputer Kebangsaan 2024CSRankings baru sahaja dikeluarkan! Tahun ini, dalam ranking universiti CS terbaik di Amerika Syarikat, Carnegie Mellon University (CMU) berada di antara yang terbaik di negara ini dan dalam bidang CS, manakala University of Illinois di Urbana-Champaign (UIUC) telah menduduki tempat kedua selama enam tahun berturut-turut. Georgia Tech menduduki tempat ketiga. Kemudian, Universiti Stanford, Universiti California di San Diego, Universiti Michigan, dan Universiti Washington terikat di tempat keempat di dunia. Perlu diingat bahawa kedudukan MIT jatuh dan jatuh daripada lima teratas. CSRankings ialah projek ranking universiti global dalam bidang sains komputer yang dimulakan oleh Profesor Emery Berger dari Pusat Pengajian Sains Komputer dan Maklumat di Universiti Massachusetts Amherst. Kedudukan adalah berdasarkan objektif

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles