Jadual Kandungan
Gisting
Belajar Gisting melalui Topeng
Kecekapan pengiraan, ingatan dan storan
Rumah Peranti teknologi AI Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

May 09, 2023 pm 02:10 PM
Model kertas

Sebelum memasukkan teks, pertimbangkan gesaan model bahasa Transformer (LM) seperti ChatGPT:

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Dengan berjuta-juta pengguna dan pertanyaan yang dijana setiap hari, ChatGPT menggunakan mekanisme perhatian kendiri untuk mengekod gesaan secara berulang, dengan masa dan kerumitan memori berkembang secara kuadratik dengan panjang input. Caching pengaktifan transformer untuk gesaan menghalang pengiraan semula separa, tetapi strategi ini masih memerlukan kos ingatan dan penyimpanan yang ketara apabila bilangan gesaan cache meningkat. Pada skala, walaupun pengurangan kecil dalam panjang segera boleh mengakibatkan pengiraan, ingatan dan penjimatan storan sambil turut membenarkan pengguna memuatkan lebih banyak kandungan ke dalam tetingkap konteks terhad LM.

Kemudian. Bagaimana untuk mengurangkan kos segera? Pendekatan biasa adalah untuk memperhalusi atau menyaring model supaya ia berkelakuan sama dengan model asal tanpa gesaan, mungkin menggunakan kaedah penyesuaian yang cekap parameter. Walau bagaimanapun, kelemahan asas pendekatan ini ialah model perlu dilatih semula setiap kali untuk gesaan baharu (ditunjukkan di tengah-tengah Rajah 1 di bawah).

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Dalam artikel ini, penyelidik dari Universiti Stanford mencadangkan model gisting (bahagian bawah Rajah 1 di atas ), yang memampatkan sebarang gesaan ke dalam set token "Intisari" maya yang lebih kecil, serupa dengan penalaan halus awalan. Walau bagaimanapun, penalaan halus awalan memerlukan awalan pembelajaran untuk setiap tugasan melalui penurunan kecerunan, manakala Gisting menggunakan kaedah meta-pembelajaran untuk meramalkan awalan Gist hanya melalui gesaan tanpa mempelajari awalan untuk setiap tugas. Ini melunaskan kos pembelajaran awalan setiap tugas, membenarkan generalisasi kepada arahan yang tidak diketahui tanpa latihan tambahan.

Selain itu, memandangkan token "Gist" jauh lebih pendek daripada gesaan penuh, Gisting membenarkan gesaan dimampatkan, dicache dan digunakan semula untuk meningkatkan kecekapan pengiraan.

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Alamat kertas: https://arxiv.org/pdf/2304.08467 v1.pdf

Penyelidik mencadangkan kaedah yang sangat mudah untuk mempelajari model intipati yang mengikut arahan: hanya memperhalusi arahan, masukkan token gish selepas gesaan, dan modify Token perhatian selepas menghalang token selepas token inti daripada merujuk kepada token sebelum token inti. Ini membolehkan model mempelajari pemampatan dan arahan segera mengikut serentak tanpa kos latihan tambahan.

Pada penyahkodr sahaja (LLaMA-7B) dan penyahkod pengekod (FLAN-T5-XXL) LM, gisting mencapai sehingga 26x mampatan segera sambil mengekalkan prestasi yang sama seperti Model asal kualiti keluaran yang serupa. Ini menghasilkan pengurangan FLOP sebanyak 40% semasa inferens, pecutan kependaman 4.2% dan mengurangkan kos penyimpanan dengan ketara berbanding kaedah caching segera tradisional.

Gisting

Penyelidik mula-mula menerangkan intisari dalam konteks penalaan halus arahan. Untuk arahan berikut set data

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

, t mewakili tugas yang dikodkan dalam gesaan bahasa semula jadi (cth. terjemahkan ini ke bahasa Perancis), x mewakili input (pilihan) tugasan (cth. Kucing), dan y mewakili output yang Diingini (cth. Le chat). Tujuan penalaan halus arahan adalah untuk mempelajari taburan pLM(y | t,x) dengan menggabungkan t dan x dan kemudian membiarkan model bahasa yang biasanya pra-latihan meramalkan y secara autoregresif. Semasa inferens, tugasan baharu t dan input x boleh digunakan untuk gesaan dan dinyahkod daripada model untuk mendapatkan hasil ramalan.

Walau bagaimanapun, corak penyambungan t dan x ini mempunyai kelemahan: LM berasaskan Transformer mempunyai tetingkap konteks terhad, yang dihadkan oleh seni bina atau kuasa pengkomputeran. Yang terakhir ini amat sukar untuk diselesaikan kerana perhatian kendiri berskala kuadratik dengan panjang input. Oleh itu, gesaan yang sangat panjang, terutamanya yang digunakan semula berulang kali, adalah tidak cekap dari segi pengiraan. Apakah pilihan yang tersedia untuk mengurangkan kos segera?

Pendekatan mudah adalah dengan melakukan penalaan halus LM untuk tugas t tertentu, iaitu diberikan set data

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

yang mengandungi contoh input/output hanya di bawah tugas t, seseorang boleh mempelajari Khusus

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

, yang lebih pantas kerana tidak perlu mempertimbangkan t.

Kaedah penalaan halus cekap parameter seperti awalan/penalaan pantas atau penyesuai boleh mencapai matlamat yang sama pada kos yang jauh lebih rendah daripada penalaan halus skala penuh. Walau bagaimanapun, masalah kekal: sekurang-kurangnya sebahagian daripada berat model untuk setiap tugasan mesti disimpan, dan yang lebih penting, untuk setiap tugasan t, set data pasangan input/output D^t yang sepadan mesti dikumpulkan dan model dilatih semula.

Gisting ialah pendekatan berbeza yang melunaskan dua kos: (1) kos masa inferens untuk mensyaratkan p_LM pada t, (2) pembelajaran untuk setiap t Kos masa latihan p^t_LM baharu . Ideanya ialah untuk mempelajari versi mampat t G (t) semasa penalaan halus, supaya inferens daripada p_G (y | G (t),x) adalah lebih pantas daripada daripada p_LM (y|t,x).

Dalam istilah LM, G (t) akan menjadi satu set token Gist "maya", yang bilangannya lebih sedikit daripada token dalam t, tetapi masih akan menyebabkan masalah yang sama dalam LM Tingkah laku. Pengaktifan pengubah (cth. matriks kunci dan nilai) pada G (t) kemudiannya boleh dicache dan digunakan semula untuk meningkatkan kecekapan pengiraan. Yang penting, penyelidik berharap G dapat membuat generalisasi kepada tugas yang tidak kelihatan: dengan tugasan baharu t, pengaktifan Gist G(t) yang sepadan boleh diramal dan digunakan tanpa sebarang latihan tambahan.

Belajar Gisting melalui Topeng

Di atas menerangkan rangka kerja umum Gisting, dan seterusnya kita akan meneroka cara yang sangat mudah untuk mempelajari model sedemikian: menggunakan LM sendiri Digunakan sebagai peramal Gist G. Ini bukan sahaja memanfaatkan pengetahuan sedia ada dalam LM, tetapi juga membolehkan pembelajaran inti dengan hanya melakukan penalaan halus arahan standard dan mengubah suai topeng perhatian Transformer untuk meningkatkan pemampatan segera. Ini bermakna Gisting tidak menanggung kos latihan tambahan dan hanya perlu diperhalusi berdasarkan arahan standard!

Khususnya, tambahkan token inti khas pada perbendaharaan kata model dan matriks benam, serupa dengan token mula/akhir ayat yang biasa dalam model sedemikian. Kemudian untuk sesuatu (tugas, input) tuple (t, x), gabungkan t dan x bersama-sama menggunakan set k token inti berturut-turut dalam (t, g_1, . . . , g_k, x), cth >

. Urutan ini dimasukkan ke dalam model, dengan sekatan bahawa token input mengikut token inti tidak boleh merujuk token gesaan sebelumnya (tetapi mereka boleh merujuk token inti). Ini memaksa model untuk memampatkan maklumat dalam gesaan ke dalam token inti, kerana input x (output y) tidak boleh memproses gesaan t. Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Rajah 2 di bawah menunjukkan perubahan yang diperlukan. Untuk LM penyahkod sahaja seperti GPT-3 atau LLaMA, yang biasanya menggunakan topeng perhatian kausal autoregresif, seseorang hanya perlu menutup sudut kiri bawah segitiga yang ditunjukkan dalam Rajah 2a. Untuk LM penyahkod-pengekod dengan pengekod dwiarah dan penyahkod autoregresif, dua pengubahsuaian diperlukan (ditunjukkan dalam Rajah 2b).

Pertama, dalam pengekod yang biasanya tidak mempunyai topeng, halang token input x daripada merujuk kepada token gesaan t. Tetapi ia juga perlu untuk menghalang t segera dan token inti g_i daripada merujuk kepada token input x, jika tidak pengekod akan mempelajari perwakilan inti yang berbeza bergantung pada input. Akhirnya penyahkod beroperasi secara normal kecuali semasa tempoh perhatian silang, apabila penyahkod perlu dihalang daripada merujuk kepada token segera t.

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Hasil eksperimen

Untuk bilangan token inti yang berbeza, LLaMA- Keputusan penilaian ROUGE-L dan ChatGPT bagi 7B dan FLAN-T5-XXL ditunjukkan dalam Rajah 3 di bawah.

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Model secara amnya tidak sensitif terhadap bilangan k token inti: memampatkan gesaan ke dalam satu token tidak mengakibatkan penurunan prestasi yang ketara. Malah, dalam beberapa kes, terlalu banyak token inti akan menjejaskan prestasi (cth. LLaMA-7B, 10 token intipati), mungkin kerana kapasiti peningkatan mengatasi pengedaran latihan. Oleh itu, penyelidik memberikan nilai khusus model token tunggal dalam Jadual 1 di bawah, dan menggunakan model inti tunggal dalam eksperimen yang tinggal.

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Atas arahan yang dilihat, model intipati mencapai keputusan yang hampir sama dengan positif yang sepadan model kawalan Dengan prestasi ROUGE dan ChatGPT yang sama, kadar kemenangan pada LLaMA-7B FLANT5-XXL masing-masing ialah 48.6% dan 50.8%. Perkara yang paling diminati oleh penyelidik di sini ialah keupayaan generalisasi mereka pada tugas yang tidak kelihatan, yang perlu diukur melalui dua set data lain.

Dalam gesaan ghaib dalam set data latihan Alpaca+, kita dapat melihat bahawa model intisari mempunyai keupayaan generalisasi yang kuat pada gesaan ghaib: berbanding dengan kumpulan kawalan, terdapat 49.7% (LLaMA ) dan 46.2% (FLAN-T5) kadar kemenangan. Pada perpecahan OOD Human yang paling mencabar, kadar kemenangan model utama menurun sedikit kepada 45.8% (LLaMA) dan 42.5% (FLANT5).

Tujuan artikel ini adalah untuk memastikan model intisari meniru kefungsian model asal, jadi seseorang mungkin bertanya bila sebenarnya model intipati tidak dapat dibezakan daripada kumpulan kawalan. Rajah 4 di bawah menggambarkan kekerapan ini berlaku: untuk tugas yang dilihat (tetapi input yang tidak kelihatan), model inti adalah setanding dengan kumpulan kawalan hampir separuh masa. Untuk tugas yang tidak kelihatan, jumlah ini menurun kepada 20-25%. Untuk tugas OOD Human, nombor ini turun semula kepada 10%. Walau apa pun, kualiti keluaran model inti adalah sangat tinggi.

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Secara keseluruhan, keputusan ini menunjukkan bahawa model intipati boleh memampatkan gesaan dengan pasti, Ini boleh dilakukan walaupun atas gesaan tertentu di luar pengedaran latihan, terutamanya LM kausa penyahkod sahaja seperti LLaMA. Model penyahkod pengekod seperti FLAN-T5 berprestasi lebih teruk Satu sebab yang mungkin adalah kerana topeng inti menyekat aliran perhatian dua arah dalam pengekod, yang lebih mencabar daripada hanya menutup sebahagian daripada sejarah dalam penyahkod autoregresif. Kerja lanjut diperlukan untuk menyiasat hipotesis ini pada masa hadapan.

Kecekapan pengiraan, ingatan dan storan

Akhir sekali, kembali kepada salah satu motivasi teras kerja ini: Apakah jenis peningkatan kecekapan yang boleh dibawa oleh gisting?

Jadual 2 di bawah menunjukkan keputusan pas ke hadapan tunggal model menggunakan penganalisis PyTorch 2.0 (iaitu satu langkah penyahkodan autoregresif menggunakan token input tunggal), dan Human eval The 252 arahan dalam pemisahan dipuratakan. caching inti dengan ketara meningkatkan kecekapan berbanding model yang tidak dioptimumkan. Penjimatan dalam FLOP sebanyak 40% dan pengurangan masa jam sebanyak 4-7% telah dicapai untuk kedua-dua model.

Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT

Lebih penting lagi, walau bagaimanapun, berbanding cache arahan, cache intisari mempunyai lebih rendah kependaman Kelebihan utama selain: memampatkan 26 token menjadi 1 boleh mengosongkan lebih banyak ruang dalam tetingkap konteks input, yang dihadkan oleh pembenaman kedudukan mutlak atau GPU VRAM. Khusus untuk LLaMA-7B, setiap token dalam cache KV memerlukan 1.05MB ruang storan. Walaupun cache KV menyumbang sedikit berbanding jumlah memori yang diperlukan untuk inferens LLaMA-7B pada panjang gesaan yang diuji, senario yang semakin biasa adalah untuk pembangun menyimpan banyak gesaan merentas sebilangan besar pengguna, dan kos storan boleh meningkat dengan cepat. Dengan ruang storan yang sama, cache intipati boleh mengendalikan 26 kali lebih gesaan daripada cache arahan penuh.

Atas ialah kandungan terperinci Mampatkan 26 token ke dalam 1 kaedah baharu untuk menjimatkan ruang dalam kotak input ChatGPT. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! Mar 21, 2024 pm 05:21 PM

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.

See all articles