DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!
Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara beralih dari pandangan perspektif (PV) ke ruang pandangan mata burung (BEV) dengan berkesan Ciri transformasi, Transformasi ini dilaksanakan melalui modul Transformasi Visual,(VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian untuk korespondensi antara ciri 3D dan 2D melalui Transformer, yang meningkatkan kerumitan pengiraan dan penggunaan.
Makalah ini menunjukkan bahawa kaedah sedia ada seperti HeightFormer dan FB-BEV cuba menggabungkan kedua-dua strategi VT ini, tetapi kaedah ini biasanya menggunakan strategi dua peringkat Disebabkan oleh transformasi ciri yang berbeza dari dwi VT, ia adalah terhad oleh prestasi ciri awal Ini menghalang penyepaduan yang lancar antara dwi VT. Tambahan pula, kaedah ini masih menghadapi cabaran dalam mencapai penggunaan masa nyata pemanduan autonomi.
Sebagai tindak balas kepada masalah ini, kertas kerja mencadangkan kaedah penukaran ciri bersatu, sesuai untuk penukaran visual 2D kepada 3D dan 3D kepada 2D, dan menilai kesesuaian antara ciri 3D dan 2D melalui tiga ukuran kebarangkalian: kebarangkalian BEV, Kebarangkalian Unjuran dan imej kebarangkalian. Kaedah baharu ini bertujuan untuk mengurangkan kesan kawasan kosong dalam grid BEV pada pembinaan ciri, membezakan berbilang surat-menyurat dan mengecualikan ciri latar belakang semasa proses penukaran ciri.
Dengan menggunakan transformasi ciri bersatu ini, kertas kerja meneroka kaedah baharu transformasi visual 3D kepada 2D menggunakan rangkaian saraf konvolusi (CNN) dan memperkenalkan kaedah yang dipanggil HeightTrans. Selain menunjukkan prestasi unggulnya, ia juga menunjukkan potensi untuk pecutan melalui prapengiraan, menjadikannya sesuai untuk aplikasi pemanduan autonomi masa nyata. Pada masa yang sama, dengan menyepadukan transformasi ciri ini, proses LSS tradisional dipertingkatkan, menunjukkan kesejagatannya untuk pengesan semasa.
Menggabungkan HeightTrans dan Prob-LSS, kertas kerja itu memperkenalkan DualBEV, kaedah inovatif yang mempertimbangkan dan menggabungkan korespondensi daripada BEV dan pandangan perspektif dalam satu peringkat, menghapuskan pergantungan pada ciri awal. Selain itu, modul gabungan ciri BEV berkuasa yang dipanggil modul gabungan ciri ganda (DFF) dicadangkan untuk membantu memperhalusi ramalan kebarangkalian BEV dengan menggunakan modul perhatian saluran dan modul perhatian ruang. DualBEV mengikut prinsip "input meluas, keluaran ketat" dan memahami serta mewakili taburan kebarangkalian tempat kejadian dengan menggunakan surat-menyurat kebarangkalian dwi-pandangan yang tepat.
Sumbangan utama kertas kerja adalah seperti berikut:
- mendedahkan persamaan intrinsik antara transformasi visual 3D ke 2D dan 2D ke 3D, dan mencadangkan kaedah transformasi ciri bersatu yang tepat dari pandangan BEV dan perspektif Mewujudkan hubungan yang sepadan dengan ketara mengurangkan jurang antara kedua-dua strategi.
- Mencadangkan kaedah penukaran visual 3D kepada 2D berasaskan CNN baharu HeightTrans, yang secara berkesan dan cekap mewujudkan surat-menyurat 3D-2D yang tepat melalui pensampelan kebarangkalian dan pra-pengiraan jadual carian.
- DFF diperkenalkan untuk gabungan ciri dwi-pandangan Strategi gabungan ini menangkap maklumat kawasan dekat dan jauh dalam satu peringkat, dengan itu menjana ciri BEV yang komprehensif.
- Rangka kerja cekap mereka DualBEV mencapai 55.2% mAP dan 63.4% NDS pada set ujian nuScenes, walaupun tanpa menggunakan Transformer, menyerlahkan kepentingan menangkap surat-menyurat dwi-pandangan yang tepat untuk transformasi pandangan.
Melalui inovasi ini, kertas kerja mencadangkan strategi baharu untuk mengatasi batasan kaedah sedia ada dan mencapai pengesanan objek yang lebih cekap dan tepat dalam senario aplikasi masa nyata seperti pemanduan autonomi.
Penjelasan terperinci DualBEV
Kaedah yang dicadangkan dalam kertas kerja ini bertujuan untuk menyelesaikan masalah pengesanan objek BEV (pandangan mata burung) dalam pemanduan autonomi melalui rangka kerja penukaran ciri bersatu, DualBEV. Di bawah ialah kandungan utama bahagian Kaedah, menggariskan sub-bahagian yang berbeza dan inovasi utama.
Tinjauan Keseluruhan DualBEV
Aliran pemprosesan DualBEV bermula daripada ciri imej yang diperoleh daripada berbilang kamera, dan kemudian menggunakan SceneNet untuk menjana topeng contoh dan pemetaan kedalaman dan Pro.S saluran paip dan ciri transformasi, dan akhirnya ciri ini digabungkan dan digunakan untuk meramalkan taburan kebarangkalian ruang BEV untuk mendapatkan ciri BEV akhir untuk tugasan seterusnya.
HeightTrans
HeightTrans adalah berdasarkan prinsip penukaran visual 3D ke 2D, dengan memilih kedudukan 3D dan menayangkannya ke dalam ruang imej, dan menilai kesesuaian 3D-2D ini. Kaedah ini mula-mula mengambil sampel set titik 3D dalam peta BEV yang dipratentukan, dan kemudian mempertimbangkan dan menapis surat-menyurat ini dengan teliti untuk menjana ciri BEV. HeightTrans meningkatkan perhatian kepada objek kecil dan menyelesaikan masalah mengelirukan yang disebabkan oleh piksel latar belakang dengan menggunakan strategi pensampelan berbilang resolusi dan kaedah pensampelan kebarangkalian. Selain itu, masalah grid BEV kosong diselesaikan dengan memperkenalkan kebarangkalian BEV . Modul HeightTrans ialah salah satu teknologi utama yang dicadangkan dalam kertas kerja, memfokuskan pada pemprosesan dan mengubah ciri melalui transformasi visual 3D kepada 2D (VT). Ia adalah berdasarkan pemilihan lokasi 3D daripada peta Bird's Eye View (BEV) yang dipratakrifkan dan menayangkan lokasi ini ke dalam ruang imej, dengan itu menilai kesesuaian antara 3D dan 2D. Berikut ialah pengenalan terperinci tentang cara HeightTrans berfungsi:
BEV Height
Kaedah HeightTrans mengamalkan strategi pensampelan berbilang resolusi apabila memproses ketinggian, meliputi keseluruhan julat ketinggian (dari -5 meter hingga 3 meter), dalam kawasan kepentingan Resolusi dalam ROI (ditakrifkan sebagai -2 meter hingga 2 meter) ialah 0.5 meter, dan resolusi di luar julat ini ialah 1.0 meter. Strategi ini membantu meningkatkan fokus pada objek kecil yang mungkin terlepas dalam persampelan resolusi yang lebih kasar.
Prob-Sampling
HeightTrans mengamalkan langkah-langkah berikut dalam persampelan kebarangkalian:
- Takrifkan titik pensampelan 3D: Pratakrif set titik pensampelan 3D tentukan🜎d kedudukannya dalam dalam ruang Definisi.
- Unjuran ke ruang 2D: Menggunakan matriks parameter ekstrinsik kamera dan matriks parameter intrinsik , unjurkan titik 3D ke satu titik dalam ruang imej 2D , dengan titik kedalaman mewakili titik
- Pensampelan ciri: Gunakan pensampel grid dwilinear untuk sampel ciri imej pada kedudukan unjuran :
- Gunakan kedudukan topeng instance : Dalam urutan pembetulan imej latar belakang : Dalam susunan piksel latar belakang untuk menjana topeng Instance untuk mewakili kebarangkalian imej dan gunakannya pada ciri imej untuk mengurangkan kesan maklumat mengelirukan:
- Mengendalikan berbilang surat-menyurat : Gunakan pensampel grid trilinear dalam peta kedalaman situasi di mana berbilang mata 3D dipetakan ke kedudukan 2D yang sama, iaitu, kebarangkalian unjuran :
- Memperkenalkan kebarangkalian BEV: Untuk menyelesaikan masalah bahawa sel kosong dalam grid BEV tidak memberikan maklumat yang berguna, Kebarangkalian BEV diperkenalkan Mewakili kebarangkalian penghunian grid BEV, di mana ialah kedudukan dalam ruang BEV:
memecut
dengan mengira prakiraan indeks bagi ruang BEV3, D dan indeks peta kedalaman semasa inferens , HeightTrans boleh mempercepatkan proses penukaran visual. Ciri HeightTrans terakhir memanjangkan saluran paip LSS (Lift, Splat, Shoot) tradisional dengan meramalkan kebarangkalian kedalaman untuk setiap piksel dengan
Prob-LSS
Prob-LSS yang dipratakrifkan untuk setiap jejaring BEV. Kaedah ini menyepadukan lagi kebarangkalian BEV untuk membina ciri LSS melalui formula berikut:
Melakukannya boleh menangani ketidakpastian anggaran mendalam dengan lebih baik, sekali gus mengurangkan maklumat berlebihan dalam ruang BEV.
Dual Feature Fusion (DFF)
Modul DFF direka untuk menggabungkan ciri daripada HeightTrans dan Prob-LSS dan meramalkan kebarangkalian BEV dengan berkesan. Dengan menggabungkan modul perhatian saluran dan ProbNet yang ditambah perhatian spatial, DFF dapat mengoptimumkan pemilihan ciri dan ramalan kebarangkalian BEV untuk meningkatkan perwakilan objek dekat dan jauh. Strategi gabungan ini mengambil kira ciri-ciri yang saling melengkapi daripada kedua-dua aliran sambil juga meningkatkan ketepatan kebarangkalian BEV dengan mengira perhatian tempatan dan global.
Ringkasnya, rangka kerja DualBEV yang dicadangkan dalam kertas kerja ini mencapai penilaian dan penukaran yang cekap bagi kesesuaian antara ciri 3D dan 2D dengan menggabungkan HeightTrans dan Prob-LSS, serta modul gabungan dwi ciri yang inovatif. Ini bukan sahaja merapatkan jurang antara strategi penukaran 2D ke 3D dan 3D ke 2D, tetapi juga mempercepatkan proses penukaran ciri melalui pra-pengiraan dan pengukuran kebarangkalian, menjadikannya sesuai untuk aplikasi pemanduan autonomi masa nyata.
Kunci kepada kaedah ini ialah surat-menyurat yang tepat dan gabungan ciri yang cekap dari sudut tontonan yang berbeza, dengan itu mencapai prestasi cemerlang dalam pengesanan objek BEV.
Eksperimen
Varian kaedah DualBEV (DualBEV* dengan asterisk) berprestasi terbaik di bawah keadaan input bingkai tunggal, mencapai 35.2% mAP dan 42.5% NDS, yang menunjukkan bahawa ia adalah tepat. kaedah lain dari segi ketepatan dan prestasi menyeluruh. Terutama pada mAOE, DualBEV* mencapai skor 0.542, yang merupakan yang terbaik antara kaedah bingkai tunggal. Walau bagaimanapun, prestasinya pada mATE dan mASE tidak jauh lebih baik daripada kaedah lain.
Apabila bilangan bingkai input ditingkatkan kepada dua bingkai, prestasi DualBEV dipertingkatkan lagi, dengan mAP mencapai 38.0% dan NDS mencapai 50.4%. Ini adalah NDS tertinggi antara semua kaedah yang disenaraikan, menunjukkan bahawa DualBEV lebih komprehensif semasa memproses input yang lebih kompleks. Antara kaedah berbilang bingkai, ia juga menunjukkan prestasi kukuh dalam mATE, mASE dan mAAE, terutamanya peningkatan ketara dalam mAOE, menunjukkan kelebihannya dalam menganggar arah objek.
Dapat dianalisis daripada keputusan ini bahawa DualBEV dan variannya berprestasi baik pada berbilang penunjuk prestasi penting, terutamanya dalam tetapan berbilang bingkai, menunjukkan bahawa ia mempunyai ketepatan dan ketepatan yang baik untuk tugas pengesanan objek BEV. Tambahan pula, keputusan ini juga menyerlahkan kepentingan menggunakan data berbilang bingkai untuk meningkatkan prestasi keseluruhan dan ketepatan anggaran model.
Berikut adalah analisis keputusan setiap eksperimen ablasi:
- Menambah komponen seperti ProbNet, HeightTrans, CAF (Channel Attention Fusion), SAE (Spatial Attention Enhanced), dll. telah meningkatkan prestasi secara beransur-ansur daripada Baseline.
- Penambahan HeightTrans meningkatkan dengan ketara mAP dan NDS, yang menunjukkan bahawa memperkenalkan maklumat ketinggian ke dalam transformasi visual adalah berkesan.
- CAF menambah baik lagi mAP, tetapi sedikit meningkatkan kependaman.
- Pengenalan SAE meningkatkan NDS kepada maksimum 42.5%, dan juga meningkatkan mAP, menunjukkan bahawa mekanisme perhatian spatial telah meningkatkan prestasi model dengan berkesan.
- Langkah kebarangkalian yang berbeza (kebarangkalian unjuran , kebarangkalian imej , kebarangkalian BEV ) ditambah secara beransur-ansur pada eksperimen perbandingan.
- Model mencapai mAP dan NDS tertinggi apabila ketiga-tiga kebarangkalian digunakan secara serentak, menunjukkan bahawa gabungan kebarangkalian ini adalah penting untuk prestasi model.
- Prob-Sampling mempunyai NDS yang lebih tinggi (39.0%) berbanding operasi VT lain pada kelewatan yang sama (0.32ms), yang menekankan keunggulan prestasi pensampelan kebarangkalian.
- Strategi pensampelan berbilang resolusi (MR) boleh mencapai prestasi yang serupa atau lebih baik daripada strategi pensampelan seragam apabila menggunakan bilangan titik pensampelan yang sama.
- Dengan menambahkan kebarangkalian unjuran, kebarangkalian imej dan kebarangkalian BEV pada proses LSS, Prob-LSS mengatasi varian LSS lain, meningkatkan mAP dan NDS, menunjukkan keberkesanan menggabungkan kebarangkalian ini.
- Berbanding dengan strategi Perhalusi berbilang peringkat, kedua-dua strategi Tambah satu peringkat dan modul DFF boleh mencapai NDS yang lebih tinggi, dan DFF juga mempunyai sedikit peningkatan dalam mAP, yang menunjukkan bahawa DFF ialah Strategi gabungan satu peringkat adalah berfaedah dari segi kecekapan dan prestasi.
Eksperimen ablasi menunjukkan bahawa komponen dan strategi seperti HeightTrans, langkah kebarangkalian, Prob-Sampling dan DFF adalah penting untuk meningkatkan prestasi model. Selain itu, penggunaan strategi persampelan pelbagai resolusi pada maklumat ketinggian juga membuktikan keberkesanannya. Penemuan ini menyokong hujah penulis bahawa setiap teknik yang dibentangkan dalam bahagian kaedah menyumbang secara positif kepada prestasi model.
Perbincangan
Kertas ini menunjukkan prestasi kaedahnya melalui satu siri eksperimen ablasi. Dapat dilihat daripada keputusan eksperimen bahawa rangka kerja DualBEV yang dicadangkan dalam kertas kerja dan pelbagai komponennya mempunyai kesan positif ke atas meningkatkan ketepatan pengesanan objek pandangan mata burung (BEV).
Kaedah makalah secara beransur-ansur memperkenalkan modul ProbNet, HeightTrans, CAF (Channel Attention Fusion), dan SAE (Spatial Attention Enhanced) ke dalam model garis dasar, menunjukkan peningkatan ketara dalam kedua-dua penunjuk mAP dan NDS. Ini ditunjukkan bahawa setiap komponen memainkan peranan penting dalam keseluruhan seni bina. Terutama selepas pengenalan SAE, skor NDS meningkat kepada titik tertinggi 42.5%, manakala kelewatan hanya meningkat sedikit, yang menunjukkan bahawa kaedah itu mencapai keseimbangan yang baik antara ketepatan dan kelewatan.
Keputusan percubaan ablasi kebarangkalian mengesahkan lagi kepentingan kebarangkalian unjuran, kebarangkalian imej dan kebarangkalian BEV dalam meningkatkan prestasi pengesanan. Apabila kebarangkalian ini diperkenalkan satu demi satu, skor mAP dan NDS sistem bertambah baik, menunjukkan kepentingan untuk menyepadukan langkah-langkah kebarangkalian ini ke dalam tugas pengesanan objek BEV.
Dalam perbandingan operasi transformasi visual (VT), kaedah Prob-Sampling yang dicadangkan oleh kertas kerja menunjukkan kependaman yang lebih rendah dan skor NDS yang lebih tinggi berbanding dengan operasi lain seperti SCAda dan Bilinear-Sampling, yang menekankan prestasinya dalam Kecekapan dan kelebihan prestasi . Di samping itu, untuk strategi pensampelan ketinggian yang berbeza, menggunakan strategi berbilang resolusi (MR) dan bukannya pensampelan seragam boleh meningkatkan lagi skor NDS, yang menunjukkan kepentingan untuk mempertimbangkan maklumat pada ketinggian yang berbeza di tempat kejadian untuk meningkatkan prestasi pengesanan.
Selain itu, untuk strategi gabungan ciri yang berbeza, kertas kerja menunjukkan bahawa kaedah DFF masih boleh mengekalkan skor NDS yang tinggi sambil memudahkan model, yang bermakna menggabungkan ciri dwi-strim dalam aliran pemprosesan satu peringkat adalah berkesan.
Walau bagaimanapun, walaupun kaedah yang dicadangkan dalam kertas kerja menunjukkan prestasi yang baik dalam banyak aspek, setiap penambahbaikan juga akan membawa kepada peningkatan dalam kerumitan sistem dan kos pengiraan. Sebagai contoh, setiap kali komponen baharu diperkenalkan (seperti ProbNet, HeightTrans, dll.), kependaman sistem akan meningkat Walaupun peningkatan dalam kependaman adalah halus, dalam aplikasi dengan keperluan masa nyata atau kependaman rendah, ini boleh jadi pertimbangan. Tambahan pula, sementara langkah kebarangkalian menyumbang kepada peningkatan prestasi, ia juga memerlukan sumber pengkomputeran tambahan untuk menganggarkan kebarangkalian ini, yang berpotensi menghasilkan penggunaan sumber yang lebih tinggi.
Kaedah DualBEV yang dicadangkan dalam kertas kerja telah mencapai hasil yang luar biasa dalam meningkatkan ketepatan dan prestasi komprehensif pengesanan objek BEV, terutamanya dalam menggabungkan kemajuan terkini dalam pembelajaran mendalam dengan teknologi transformasi visual. Walau bagaimanapun, kemajuan ini datang dengan kos peningkatan sedikit kependaman pengiraan dan penggunaan sumber, dan aplikasi praktikal perlu menimbang faktor ini berdasarkan kes demi kes.
Kesimpulan
Kaedah ini berfungsi dengan baik dalam tugas pengesanan objek BEV, meningkatkan ketepatan dan prestasi keseluruhan dengan ketara. Dengan memperkenalkan pensampelan kebarangkalian, transformasi ketinggian, mekanisme perhatian dan rangkaian pembesaran perhatian spatial, DualBEV berjaya meningkatkan berbilang penunjuk prestasi utama, terutamanya dalam ketepatan pandangan mata burung (BEV) dan pemahaman pemandangan. Keputusan eksperimen menunjukkan bahawa kaedah kertas itu amat berkesan dalam memproses adegan dan data yang kompleks daripada perspektif yang berbeza, yang penting untuk pemanduan autonomi dan aplikasi pemantauan masa nyata yang lain.
Atas ialah kandungan terperinci DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu
