


Pelajar beberapa pukulan universal: penyelesaian untuk pelbagai tugas ramalan intensif
ICLR (International Conference on Learning Representations) diiktiraf sebagai salah satu persidangan akademik antarabangsa yang paling berpengaruh dalam pembelajaran mesin.
Pada persidangan ICLR 2023 tahun ini, Microsoft Research Asia menerbitkan hasil penyelidikan terkini dalam bidang seperti keteguhan pembelajaran mesin dan kecerdasan buatan yang bertanggungjawab.
Antaranya, hasil kerjasama penyelidikan saintifik antara Microsoft Research Asia dan Korea Advanced Institute of Science and Technology (KAIST) di bawah rangka kerja kerjasama akademik antara kedua-dua pihak telah diiktiraf kerana kejelasan, wawasan, kreativiti dan potensi cemerlang mereka Impak yang berkekalan telah dianugerahkan Anugerah Kertas Cemerlang ICLR 2023.
Alamat kertas: https://arxiv.org/abs/2303.14969
VTM: Pelajar beberapa pukulan pertama disesuaikan dengan semua tugas ramalan padat
Tugas ramalan padat ialah kelas tugas penting dalam bidang penglihatan komputer, seperti segmentasi semantik, anggaran kedalaman, pengesanan tepi dan tunggu pengesanan titik utama. Untuk tugasan sedemikian, anotasi manual bagi label tahap piksel menghadapi kos yang sangat tinggi. Oleh itu, bagaimana untuk belajar daripada sejumlah kecil data berlabel dan membuat ramalan yang tepat, iaitu, pembelajaran sampel kecil, adalah topik yang sangat membimbangkan dalam bidang ini. Dalam tahun-tahun kebelakangan ini, penyelidikan tentang pembelajaran sampel kecil terus membuat penemuan, terutamanya beberapa kaedah berdasarkan pembelajaran meta dan pembelajaran berlawanan, yang telah menarik banyak perhatian dan dialu-alukan daripada komuniti akademik.
Walau bagaimanapun, kaedah pembelajaran sampel kecil visi komputer sedia ada secara amnya ditujukan kepada jenis tugasan tertentu, seperti tugasan pengelasan atau tugasan segmentasi semantik. Mereka sering mengeksploitasi pengetahuan terdahulu dan andaian khusus untuk tugas-tugas ini dalam mereka bentuk seni bina model dan proses latihan, dan oleh itu tidak sesuai untuk generalisasi kepada tugas ramalan padat sewenang-wenangnya. Penyelidik di Microsoft Research Asia ingin meneroka soalan teras: sama ada terdapat pelajar beberapa pukulan umum yang boleh mempelajari tugas ramalan padat untuk segmen arbitrari imej ghaib daripada sebilangan kecil imej berlabel.
Matlamat tugas ramalan yang padat adalah untuk mempelajari pemetaan daripada imej input kepada label yang dianotasi dalam piksel, yang boleh ditakrifkan sebagai:
di mana H dan W ialah ketinggian dan lebar imej masing-masing. Imej input biasanya mengandungi tiga saluran RGB, dan C_Τ mewakili bilangan saluran keluaran. Tugas ramalan padat yang berbeza mungkin melibatkan nombor saluran keluaran dan atribut saluran yang berbeza Contohnya, output tugasan segmentasi semantik ialah perduaan berbilang saluran, manakala output tugasan anggaran kedalaman ialah nilai berterusan satu saluran. Pelajar umum beberapa sampel F, untuk mana-mana tugas Τ, diberikan sebilangan kecil set sokongan sampel berlabel S_Τ (termasuk N kumpulan sampel X^i dan label Y^i), boleh belajar untuk imej Pertanyaan yang tidak kelihatan Jangkaan:
Kedua, pelajar harus melaraskan mekanisme ramalannya secara fleksibel untuk menyelesaikan tugasan ghaib dengan pelbagai semantik sambil cukup cekap untuk mengelakkan overfitting.
- Oleh itu, penyelidik dari Microsoft Research Asia mereka dan melaksanakan sampel kecil pelajar padanan token visual VTM (Visual Token Matching), yang boleh digunakan untuk sebarang tugas ramalan yang padat . Ini ialah
- pelajar sampel kecil pertama disesuaikan dengan semua tugas ramalan intensif VTM membuka cara pemikiran baharu untuk pemprosesan tugas ramalan intensif dan kaedah pembelajaran sampel kecil dalam penglihatan komputer . Karya ini memenangi Anugerah Kertas Cemerlang ICLR 2023
Reka bentuk VTM diilhamkan oleh analogi kepada proses pemikiran manusia: memandangkan sebilangan kecil contoh tugas baharu, manusia boleh dengan cepat menetapkan output yang serupa kepada input yang serupa berdasarkan persamaan antara contoh, dan boleh juga Fleksibel menyesuaikan tahap di mana input dan output adalah serupa berdasarkan konteks tertentu. Para penyelidik melaksanakan proses analogi untuk ramalan padat menggunakan padanan bukan parametrik berdasarkan tahap tampalan. Melalui latihan, model ini diilhamkan untuk menangkap persamaan dalam tampalan imej. Memandangkan sebilangan kecil contoh berlabel untuk tugas baharu, VTM mula-mula melaraskan pemahamannya tentang persamaan berdasarkan contoh yang diberikan dan label contoh, mengunci tampung imej sampel dengan yang bakal- Ramalkan tampalan imej yang serupa dan ramalkan label tampalan imej yang tidak kelihatan dengan menggabungkan labelnya. Rajah 1: Keseluruhan seni bina VTM VTM mengamalkan lapisan seni bina penyahkod pengekod melaksanakan padanan bukan parametrik berasaskan tampalan pada pelbagai peringkat. Ia terutamanya terdiri daripada empat modul, iaitu pengekod imej f_Τ, pengekod label g, modul pemadanan dan penyahkod label h. Memandangkan imej pertanyaan dan set sokongan, pengekod imej mula-mula mengekstrak perwakilan peringkat tampalan imej untuk setiap pertanyaan dan imej sokongan secara bebas. Pengekod teg juga akan mengekstrak setiap teg yang menyokong teg. Memandangkan label pada setiap peringkat, modul padanan melaksanakan padanan bukan parametrik dan penyahkod label akhirnya menyimpulkan label bagi imej pertanyaan. Intipati VTM ialah kaedah meta-pembelajaran. Latihannya terdiri daripada berbilang episod, setiap episod mensimulasikan masalah pembelajaran sampel kecil. Latihan VTM menggunakan set data latihan meta D_train, yang mengandungi pelbagai contoh berlabel tugas ramalan padat. Setiap episod latihan mensimulasikan senario pembelajaran beberapa pukulan untuk tugasan tertentu T_train dalam set data, dengan matlamat untuk menghasilkan label yang betul untuk imej pertanyaan diberikan set sokongan. Melalui pengalaman belajar daripada berbilang sampel kecil, model boleh mempelajari pengetahuan am untuk menyesuaikan diri dengan tugasan baharu dengan cepat dan fleksibel. Pada masa ujian, model perlu melakukan pembelajaran beberapa pukulan pada sebarang ujian T_tugas yang tidak disertakan dalam set data latihan D_train. Apabila berurusan dengan tugasan sewenang-wenangnya, memandangkan dimensi output C_Τ bagi setiap tugasan dalam meta-latihan dan ujian adalah berbeza, ia menjadi satu cabaran besar untuk mereka bentuk parameter model umum bersatu untuk semua tugas. Untuk menyediakan penyelesaian yang mudah dan umum, penyelidik mengubah tugasan kepada subtugas saluran tunggal C_Τ, mempelajari setiap saluran secara berasingan dan memodelkan setiap subtugas secara bebas menggunakan model F yang dikongsi. Untuk menguji VTM, para penyelidik juga membina khas varian dataset Taskonomy untuk mensimulasikan pembelajaran kecil tugas ramalan padat yang tidak kelihatan. Taskonomy mengandungi pelbagai imej dalaman beranotasi, yang mana penyelidik memilih sepuluh tugas ramalan padat dengan semantik dan dimensi output yang berbeza dan membahagikannya kepada lima bahagian untuk pengesahan silang. Dalam setiap pembahagian, dua tugasan digunakan untuk penilaian pukulan kecil (T_test) dan baki lapan tugasan digunakan untuk latihan (T_train). Penyelidik membina sekatan dengan teliti supaya tugas latihan dan ujian cukup berbeza antara satu sama lain, seperti mengumpulkan tugas tepi (TE, OE) ke dalam tugas ujian untuk membolehkan penilaian tugasan dengan semantik baharu. Jadual 1: Perbandingan kuantitatif pada dataset Taskonomy (Beberapa pukulan garis dasar selepas tugasan latihan dari partition lain, pembelajaran 10 pukulan dilakukan pada tugasan yang dibahagikan untuk diuji, dengan garis dasar yang diselia sepenuhnya dilatih dan dinilai pada setiap lipatan (DPT) atau semua lipatan (InvPT) Jadual 1 dan Rajah 2 secara kuantitatif dan kualitatif menunjukkan prestasi pembelajaran sampel kecil VTM dan dua jenis model garis dasar masing-masing pada sepuluh tugas ramalan intensif. Antaranya, DPT dan InvPT ialah dua kaedah pembelajaran terselia yang paling maju yang boleh dilatih secara bebas untuk setiap tugasan, manakala InvPT boleh bersama-sama melatih semua tugas. Memandangkan tiada kaedah sampel kecil khusus dibangunkan untuk tugas ramalan padat umum sebelum VTM, penyelidik membandingkan VTM dengan tiga kaedah pembahagian sampel kecil yang terkini, iaitu DGPNet, HSNet dan VAT, dan melanjutkannya untuk mengendalikan A ruang label umum untuk tugas ramalan padat. VTM tidak mempunyai akses kepada ujian T_test semasa latihan dan hanya menggunakan sebilangan kecil (10) imej berlabel pada masa ujian, tetapi ia menunjukkan prestasi terbaik dalam semua model garis dasar tangkapan kecil dan berprestasi baik pada banyak tugasan berbanding sepenuhnya model garis dasar yang diselia. Rajah 2: Satu sampel kecil hanya sepuluh imej berlabel dalam sepuluh tugas ramalan padat Taskonomy pada tugas baharu Perbandingan kualitatif pembelajaran kaedah. Apabila kaedah lain gagal, VTM berjaya mempelajari semua tugasan baharu dengan semantik yang berbeza dan perwakilan label yang berbeza. Dalam Rajah 2, di atas garis putus-putus ialah label sebenar dan dua kaedah pembelajaran yang diselia DPT dan InvPT masing-masing. Di bawah garis putus-putus adalah kaedah pembelajaran sampel kecil. Terutamanya, garis dasar sampel kecil yang lain mengalami kekurangan bencana pada tugas baharu, manakala VTM berjaya mempelajari semua tugasan. Percubaan menunjukkan bahawa VTM kini boleh menunjukkan prestasi yang sama secara kompetitif dengan garis dasar yang diselia sepenuhnya pada bilangan contoh berlabel yang sangat kecil ( Ringkasnya, walaupun idea asas VTM adalah sangat mudah, ia mempunyai seni bina bersatu dan boleh digunakan untuk sebarang tugas ramalan yang padat, kerana algoritma pemadanan pada asasnya Mengandungi semua tugas dan struktur label (cth., berterusan atau diskret). Di samping itu, VTM hanya memperkenalkan sebilangan kecil parameter khusus tugasan, membolehkannya tahan terhadap terlalu pasang dan fleksibel. Pada masa hadapan, penyelidik berharap untuk meneroka lebih lanjut kesan jenis tugasan, volum data dan pengedaran data pada prestasi generalisasi model semasa proses pra-latihan, dengan itu membantu kami membina pelajar sampel kecil yang benar-benar universal.
Atas ialah kandungan terperinci Pelajar beberapa pukulan universal: penyelesaian untuk pelbagai tugas ramalan intensif. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Kedudukan Utama Sains Komputer Kebangsaan 2024CSRankings baru sahaja dikeluarkan! Tahun ini, dalam ranking universiti CS terbaik di Amerika Syarikat, Carnegie Mellon University (CMU) berada di antara yang terbaik di negara ini dan dalam bidang CS, manakala University of Illinois di Urbana-Champaign (UIUC) telah menduduki tempat kedua selama enam tahun berturut-turut. Georgia Tech menduduki tempat ketiga. Kemudian, Universiti Stanford, Universiti California di San Diego, Universiti Michigan, dan Universiti Washington terikat di tempat keempat di dunia. Perlu diingat bahawa kedudukan MIT jatuh dan jatuh daripada lima teratas. CSRankings ialah projek ranking universiti global dalam bidang sains komputer yang dimulakan oleh Profesor Emery Berger dari Pusat Pengajian Sains Komputer dan Maklumat di Universiti Massachusetts Amherst. Kedudukan adalah berdasarkan objektif

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
