Jadual Kandungan
Ditulis di hadapan & pemahaman peribadi
Keadaan semasa bidang persepsi 3D
Struktur rangkaian UniVision
1) Transformasi Ex-Im View
2) Pengekstrakan dan gabungan ciri global tempatan
3) Fungsi kehilangan dan kepala pengesan
4) Peningkatan data spatial Occ-Det Gabungan
Perbandingan keputusan percubaan
1) Segmentasi Nuscenes LiDAR
2) Tugas Pengesanan Objek 3D NuScenes
3) Perbandingan keputusan OpenOccupancy
4) Keputusan Eksperimen Occ3D
5) Keberkesanan komponen dalam tugas pengesanan
6) Keberkesanan menduduki komponen dalam tugas; daripada
7) Lain-lain
Rumah Peranti teknologi AI UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

Jan 23, 2024 pm 12:36 PM
data Model

Ditulis di hadapan & pemahaman peribadi

Dalam beberapa tahun kebelakangan ini, persepsi 3D berpusatkan penglihatan dalam teknologi pemanduan autonomi telah berkembang pesat. Walaupun model persepsi 3D adalah sama dari segi struktur dan konsep, masih terdapat jurang dalam perwakilan ciri, format data dan objektif, yang menimbulkan cabaran untuk mereka bentuk rangka kerja persepsi 3D yang bersatu dan cekap. Oleh itu, penyelidik perlu bekerja keras untuk menangani jurang ini untuk mencapai sistem pemanduan autonomi yang lebih tepat dan boleh dipercayai. Melalui kerjasama dan inovasi, kami berharap dapat meningkatkan lagi keselamatan dan prestasi pemanduan autonomi.

Terutama untuk tugas pengesanan dan tugas Pendudukan di bawah BEV, sangat sukar untuk mencapai latihan bersama dan mencapai keputusan yang baik. Ini membawa masalah besar kepada banyak aplikasi kerana ketidakstabilan dan kesan yang sukar dikawal. Walau bagaimanapun, UniVision ialah rangka kerja yang mudah dan cekap yang menyatukan dua tugas utama persepsi 3D bertumpu penglihatan, iaitu ramalan penghunian dan pengesanan objek. Teras rangka kerja ialah modul transformasi paparan eksplisit-implisit untuk transformasi ciri 2D-3D pelengkap. Selain itu, UniVision juga mencadangkan modul pengekstrakan dan gabungan ciri global tempatan untuk pengekstrakan, peningkatan dan interaksi ciri voxel dan BEV yang cekap dan adaptif. Dengan mengguna pakai kaedah ini, UniVision dapat mencapai keputusan yang memuaskan dalam tugas pengesanan dan tugas Pendudukan di bawah BEV.

UniVision mencadangkan strategi peningkatan data pengesanan penghunian bersama dan strategi pelarasan berat kehilangan progresif untuk meningkatkan kecekapan dan kestabilan latihan rangka kerja pelbagai tugas. Percubaan meluas dijalankan pada empat penanda aras awam, termasuk segmentasi lidar bebas adegan, pengesanan bebas adegan, OpenOccupancy dan Occ3D. Keputusan eksperimen menunjukkan UniVision mencapai keuntungan sebanyak +1.5 mIoU, +1.8 NDS, +1.5 mIoU dan +1.8 mIoU masing-masing pada setiap penanda aras, mencapai tahap SOTA. Oleh itu, rangka kerja UniVision boleh berfungsi sebagai garis dasar berprestasi tinggi untuk tugas persepsi 3D berpusatkan penglihatan bersatu.

Keadaan semasa bidang persepsi 3D

Persepsi 3D ialah tugas utama sistem pemanduan autonomi Tujuannya adalah untuk menggunakan data yang diperoleh daripada satu siri penderia (seperti lidar, radar dan kamera) untuk memahami secara menyeluruh. adegan pemanduan untuk perancangan dan membuat keputusan penggunaan seterusnya. Pada masa lalu, bidang persepsi 3D telah didominasi oleh model berasaskan lidar disebabkan oleh maklumat 3D yang tepat yang diperoleh daripada data awan titik. Walau bagaimanapun, sistem berasaskan lidar adalah mahal, terdedah kepada cuaca buruk dan menyusahkan untuk digunakan. Sebaliknya, sistem berasaskan penglihatan mempunyai banyak kelebihan, seperti kos rendah, penggunaan mudah dan kebolehskalaan yang baik. Oleh itu, persepsi tiga dimensi yang berpusatkan penglihatan telah menarik perhatian yang meluas daripada penyelidik.

Baru-baru ini, pengesanan 3D berasaskan penglihatan telah mencapai kemajuan yang ketara melalui transformasi perwakilan ciri yang dipertingkatkan, gabungan temporal dan reka bentuk isyarat penyeliaan, dan jurang dengan model berasaskan LiDAR terus mengecil. Di samping itu, tugas penghunian berasaskan penglihatan juga telah berkembang pesat dalam beberapa tahun kebelakangan ini. Tidak seperti menggunakan kotak 3D untuk mewakili objek, penghunian boleh menerangkan ciri geometri dan semantik pemandangan pemanduan dengan lebih menyeluruh dan tidak dihadkan oleh bentuk dan kategori objek.

Walaupun kaedah pengesanan dan kaedah penghunian berkongsi persamaan struktur dan konsep, terdapat penyelidikan yang tidak mencukupi untuk mengendalikan kedua-dua tugas ini secara serentak dan meneroka perkaitan mereka. Model penghunian dan model pengesanan sering mengekstrak perwakilan ciri yang berbeza. Tugas ramalan penghunian memerlukan pertimbangan semantik dan geometri yang lengkap, jadi perwakilan voxel digunakan secara meluas untuk mengekalkan maklumat 3D yang terperinci. Walau bagaimanapun, dalam tugas pengesanan, perwakilan BEV adalah lebih disukai kerana kebanyakan objek terletak pada satah mendatar yang sama dengan pertindihan yang lebih kecil.

Berbanding dengan perwakilan BEV, perwakilan voxel lebih tinggi dalam kehalusan tetapi kurang cekap. Selain itu, banyak pengendali lanjutan terutamanya direka bentuk dan dioptimumkan untuk ciri 2D, menjadikan penyepaduan mereka dengan perwakilan voxel 3D tidak begitu mudah. Perwakilan BEV lebih berfaedah dari segi kecekapan masa dan kecekapan ingatan, tetapi ia adalah suboptimum untuk ramalan spatial padat kerana maklumat struktur hilang dalam dimensi ketinggian. Selain perwakilan ciri, tugas persepsi yang berbeza juga berbeza dalam format dan matlamat data. Oleh itu, memastikan keseragaman dan kecekapan melatih rangka kerja persepsi 3D berbilang tugas adalah satu cabaran besar.

Struktur rangkaian UniVision

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

Keseluruhan seni bina rangka kerja UniVision ditunjukkan dalam Rajah 1. Rangka kerja menerima imej berbilang paparan daripada kamera N sekeliling sebagai input dan mengekstrak ciri imej melalui rangkaian pengekstrakan ciri imej. Seterusnya, modul transformasi paparan Ex-Im digunakan untuk menukar ciri imej 2D kepada ciri voxel 3D. Modul ini menggabungkan peningkatan ciri eksplisit berpandukan kedalaman dan persampelan ciri tersirat berpandukan pertanyaan. Selepas transformasi paparan, ciri voxel dimasukkan ke dalam pengekstrakan ciri global tempatan dan blok gabungan untuk mengekstrak ciri voxel sedar konteks tempatan dan ciri BEV sedar konteks global masing-masing. Seterusnya, maklumat ditukar tentang ciri voxel dan ciri BEV untuk tugas persepsi hiliran yang berbeza melalui modul interaksi ciri perwakilan silang. Semasa proses latihan, rangka kerja UniVision menggunakan gabungan peningkatan data Occ-Det dan strategi pelarasan berat penurunan berat badan yang progresif untuk latihan yang berkesan. Strategi ini boleh meningkatkan kesan latihan dan keupayaan generalisasi rangka kerja. Ringkasnya, rangka kerja UniVision merealisasikan tugas untuk mengesan persekitaran sekitar melalui pemprosesan imej berbilang paparan dan ciri voxel 3D, serta aplikasi modul interaksi ciri. Pada masa yang sama, melalui aplikasi peningkatan data dan strategi pelarasan berat badan, kesan latihan rangka kerja dipertingkatkan dengan berkesan.

1) Transformasi Ex-Im View

Peningkatan ciri eksplisit berpandukan kedalaman. Pendekatan LSS diikuti di sini:

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

2) Pensampelan ciri tersirat berpandukan pertanyaan. Walau bagaimanapun, terdapat beberapa kelemahan dalam mewakili maklumat 3D. Ketepatan sangat berkorelasi dengan ketepatan anggaran taburan kedalaman. Tambahan pula, mata yang dijana oleh LSS tidak diagihkan secara seragam. Titik padat padat berhampiran kamera dan jarang pada jarak. Oleh itu, kami selanjutnya menggunakan pensampelan ciri berpandukan pertanyaan untuk mengimbangi kekurangan di atas.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

Berbanding dengan mata yang dijana daripada LSS, pertanyaan voxel diedarkan secara seragam dalam ruang 3D, dan ia dipelajari daripada sifat statistik semua sampel latihan, yang tidak bergantung pada kedalaman maklumat terdahulu yang digunakan dalam LSS. Oleh itu, dan melengkapi antara satu sama lain, ia disambungkan sebagai ciri keluaran modul transformasi pandangan:

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

2) Pengekstrakan dan gabungan ciri global tempatan

Memandangkan ciri voxel input, letakkan terlebih dahulu ciri pada Z -paksi , dan gunakan lapisan konvolusi untuk mengurangkan saluran untuk mendapatkan ciri BEV:

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

Kemudian, model dibahagikan kepada dua cabang selari untuk pengekstrakan dan peningkatan ciri. Pengekstrakan ciri tempatan + pengekstrakan ciri global, dan interaksi ciri perwakilan silang terakhir! Seperti yang ditunjukkan dalam Rajah 1(b).

3) Fungsi kehilangan dan kepala pengesan

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

Strategi pelarasan berat badan yang progresif. Dalam amalan, didapati bahawa menggabungkan kerugian di atas secara langsung sering menyebabkan proses latihan gagal dan rangkaian gagal untuk menumpu. Pada peringkat awal latihan, ciri voxel Fvoxel diedarkan secara rawak, dan penyeliaan dalam kepala penghunian dan kepala pengesan menyumbang kurang daripada kerugian lain dalam penumpuan. Pada masa yang sama, item kehilangan seperti Lcls kehilangan klasifikasi dalam tugas pengesanan adalah sangat besar dan mendominasi proses latihan, menjadikannya sukar untuk mengoptimumkan model. Untuk mengatasi masalah ini, strategi pelarasan berat badan progresif dicadangkan untuk melaraskan berat badan secara dinamik. Khususnya, parameter kawalan δ ditambah pada kerugian bukan peringkat imej (iaitu, kehilangan penghunian dan kehilangan pengesanan) untuk melaraskan berat kehilangan dalam zaman latihan yang berbeza. Berat kawalan δ ditetapkan kepada nilai Vmin yang kecil pada permulaan dan secara beransur-ansur meningkat kepada Vmax sepanjang N zaman latihan:

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

4) Peningkatan data spatial Occ-Det Gabungan

Dalam tugas pengesanan 3D, sebagai tambahan kepada peningkatan data peringkat imej biasa, peningkatan data peringkat ruang juga berkesan dalam meningkatkan prestasi model. Walau bagaimanapun, menggunakan peningkatan tahap spatial dalam tugas penghunian adalah tidak mudah. Apabila kami menggunakan penambahan data (seperti penskalaan rawak dan putaran) pada label penghunian diskret, adalah sukar untuk menentukan semantik voxel yang terhasil. Oleh itu, kaedah sedia ada hanya menggunakan pembesaran spatial mudah seperti flipping rawak dalam tugasan penghunian.

Untuk menyelesaikan masalah ini, UniVision mencadangkan penambahan data spatial Occ-Det bersama untuk membolehkan peningkatan serentak tugas pengesanan 3D dan tugas penghunian dalam rangka kerja. Memandangkan label kotak 3D adalah nilai berterusan dan kotak 3D yang dipertingkatkan boleh dikira terus untuk latihan, kaedah peningkatan dalam BEVDet diikuti untuk pengesanan. Walaupun label penghunian adalah diskret dan sukar untuk dimanipulasi, ciri voxel boleh dianggap sebagai berterusan dan boleh diproses melalui operasi seperti pensampelan dan interpolasi. Oleh itu, adalah disyorkan untuk mengubah ciri voxel dan bukannya beroperasi secara langsung pada label penghunian untuk penambahan data.

Secara khusus, penambahan data spatial pertama kali diambil dan matriks transformasi 3D yang sepadan dikira. Untuk label penghunian dan indeks voxelnya , kami mengira koordinat tiga dimensinya. Kemudian, ia akan digunakan dan dinormalkan untuk mendapatkan indeks voxel dalam ciri voxel yang dipertingkatkan:

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

Perbandingan keputusan percubaan

Menggunakan berbilang set data untuk pengesahan, NuScenes LiDAR Segmentation3D, NuScenes LiDAR Segmentation3D OpenOccupancy dan Occ3D.

Segmentasi LiDAR NuScenes: Menurut OccFormer dan TPVFormer baru-baru ini, imej kamera digunakan sebagai input untuk tugas pembahagian lidar, dan data lidar hanya digunakan untuk menyediakan lokasi 3D untuk menanyakan ciri output. Gunakan mIoU sebagai metrik penilaian.

Pengesanan Objek 3D NuScenes: Untuk tugas pengesanan, gunakan metrik rasmi nuScenes, Skor Pengesanan nuScene (NDS), iaitu jumlah wajaran purata mAP dan beberapa metrik, termasuk ralat terjemahan purata (ATE), ralat skala purata ( ASE) ), ralat orientasi purata (AOE), ralat halaju purata (AVE) dan ralat atribut purata (AAE).

OpenOccupancy: Penanda aras OpenOccupancy adalah berdasarkan set data nuScenes dan menyediakan label penghunian semantik pada resolusi 512×512×40. Kelas berlabel adalah sama seperti yang terdapat dalam tugas pembahagian lidar, menggunakan mIoU sebagai metrik penilaian!

Occ3D: Penanda aras Occ3D adalah berdasarkan set data nuScenes dan menyediakan label penghunian semantik pada resolusi 200×200×16. Occ3D seterusnya menyediakan topeng yang boleh dilihat untuk latihan dan penilaian. Kelas berlabel adalah sama seperti yang terdapat dalam tugas pembahagian lidar, menggunakan mIoU sebagai metrik penilaian!

1) Segmentasi Nuscenes LiDAR

Jadual 1 menunjukkan keputusan penanda aras segmentasi nuScenes LiDAR. UniVision dengan ketara mengatasi prestasi OccFormer kaedah berasaskan penglihatan terkini sebanyak 1.5% mIoU dan menetapkan rekod baharu untuk model berasaskan penglihatan pada papan pendahulu. Terutama, UniVision juga mengatasi beberapa model berasaskan lidar seperti PolarNe dan DB-UNet.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

2) Tugas Pengesanan Objek 3D NuScenes

Seperti yang ditunjukkan dalam Jadual 2, UniVision ditunjukkan untuk mengatasi kaedah lain apabila menggunakan tetapan latihan yang sama untuk perbandingan yang adil. Berbanding dengan BEVDepth pada resolusi imej 512×1408, UniVision masing-masing mencapai keuntungan sebanyak 2.4% dan 1.1% dalam mAP dan NDS. Apabila model ditingkatkan dan UniVision digabungkan dengan input temporal, ia terus mengatasi pengesan temporal berasaskan SOTA dengan margin yang ketara. UniVision mencapai ini dengan resolusi input yang lebih kecil, dan ia tidak menggunakan CBGS.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

3) Perbandingan keputusan OpenOccupancy

Keputusan ujian penanda aras OpenOccupancy ditunjukkan dalam Jadual 3. UniVision dengan ketara mengatasi kaedah penghunian berasaskan penglihatan terkini termasuk MonoScene, TPVFormer dan C-CONet dari segi mIoU masing-masing sebanyak 7.3%, 6.5% dan 1.5%. Tambahan pula, UniVision mengatasi beberapa kaedah berasaskan lidar seperti LMSCNet dan JS3C-Net.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

4) Keputusan Eksperimen Occ3D

Jadual 4 menyenaraikan keputusan penanda aras Occ3D. UniVision dengan ketara mengatasi kaedah berasaskan penglihatan terkini dari segi mIoU di bawah resolusi imej input yang berbeza, masing-masing lebih daripada 2.7% dan 1.8%. Perlu diingat bahawa BEVFormer dan BEVDet-stereo memuatkan pemberat pra-latihan dan menggunakan input temporal dalam inferens, manakala UniVision tidak menggunakannya tetapi masih mencapai prestasi yang lebih baik.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

5) Keberkesanan komponen dalam tugas pengesanan

Kajian ablasi tugas pengesanan ditunjukkan dalam Jadual 5. Apabila cawangan pengekstrakan ciri global berasaskan BEV dimasukkan ke dalam model garis dasar, prestasi meningkat sebanyak 1.7% mAP dan 3.0% NDS. Apabila tugas penghunian berasaskan voxel ditambahkan pada pengesan sebagai tugas tambahan, keuntungan mAP model meningkat sebanyak 1.6%. Apabila interaksi perwakilan silang diperkenalkan secara eksplisit daripada ciri voxel, model mencapai prestasi terbaik, meningkatkan mAP dan NDS masing-masing sebanyak 3.5% dan 4.2% berbanding garis dasar

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

6) Keberkesanan menduduki komponen dalam tugas; daripada

ditunjukkan dalam Jadual 6 untuk kajian ablasi mengenai tugas penghunian. Rangkaian pengekstrakan ciri tempatan berasaskan voxel membawa peningkatan 1.96% keuntungan mIoU kepada model garis dasar. Apabila tugas pengesanan diperkenalkan sebagai isyarat penyeliaan tambahan, prestasi model bertambah baik sebanyak 0.4% mIoU.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

7) Lain-lain

Jadual 5 dan Jadual 6 menunjukkan bahawa dalam rangka kerja UniVision, tugas pengesanan dan tugasan penghunian adalah pelengkap antara satu sama lain. Untuk tugas pengesanan, penyeliaan penghunian boleh meningkatkan metrik mAP dan mATE, menunjukkan bahawa pembelajaran semantik voxel secara berkesan meningkatkan persepsi pengesan terhadap geometri objek, iaitu, kepusatan dan skala. Untuk tugasan penghunian, penyeliaan pengesanan meningkatkan prestasi kategori latar depan dengan ketara (iaitu, kategori pengesanan), menghasilkan peningkatan keseluruhan.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

menunjukkan keberkesanan gabungan peningkatan spatial Occ-Det, modul penukaran paparan Ex-Im dan strategi pelarasan berat badan progresif dalam Jadual 7. Dengan cadangan penambahan ruang dan modul transformasi paparan yang dicadangkan, ia menunjukkan peningkatan yang ketara dalam tugas pengesanan dan tugasan penghunian pada metrik mIoU, mAP dan NDS. Strategi pelarasan berat badan boleh melatih rangka kerja pelbagai tugas dengan berkesan. Tanpa ini, latihan rangka kerja bersatu tidak dapat bersatu dan prestasinya sangat rendah.

UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!

Pautan asal: https://mp.weixin.qq.com/s/8jpS_I-wn1-svR3UlCF7KQ


Atas ialah kandungan terperinci UniVision memperkenalkan generasi baharu rangka kerja bersatu: pengesanan BEV dan Pendudukan dwi tugas mencapai tahap paling maju!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles