Baru-baru ini, keputusan pelbagai pertandingan CVPR2022 telah diumumkan Pasukan platform AI ciptaan pintar ByteDance "Byte-IC-AutoML" memenangi Cabaran Segmentasi Instance berdasarkan data sintetik (Cabaran Kebolehcapaian dan Autonomi, selepas ini dirujuk. kepada sebagai AVA) ), dengan rangka kerja Parallel Pra-trained Transformers (PPT) yang dibangunkan sendiri, dia menyerlah dan menjadi pemenang satu-satunya trek dalam pertandingan itu.
Alamat kertas: https:/ /www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12
Pertandingan AVA ini dianjurkan bersama oleh Boston University dan Carnegie Mellon University .
Pertandingan memperoleh set data segmentasi kejadian sintetik melalui enjin pemaparan yang mengandungi sampel data sistem autonomi yang berinteraksi dengan pejalan kaki yang kurang upaya. Matlamat pertandingan adalah untuk menyediakan penanda aras dan kaedah untuk pengesanan objek dan pembahagian contoh untuk orang dan objek yang berkaitan dengan kebolehaksesan.
Visualisasi set data
Pasukan Byte-IC-AutoML mencadangkan rangka kerja Transformer Pra-latihan Selari (PPT) kepada mencapai ini. Rangka kerja ini terutamanya terdiri daripada tiga modul: 1) Transformer pra-latihan berskala besar selari; 2) Peningkatan data Salin-Tampal Imbangan 3) Penindasan bukan maksimum tahap piksel
Transformers pra-latihan berskala besar selariBanyak artikel pra-latihan baru-baru ini telah menunjukkan bahawa model pra-latihan pada set data berskala besar boleh digeneralisasikan dengan baik kepada senario hiliran yang berbeza. Oleh itu, pasukan menggunakan set data COCO dan BigDetection untuk melatih model terlebih dahulu, yang boleh mengurangkan sisihan medan antara data semula jadi dan data sintetik ke tahap yang lebih besar, supaya ia boleh digunakan latihan Pantas hiliran dengan sampel yang lebih sedikit dalam senario data sintetik. Pada peringkat model, memandangkan Vision Transformers tidak mempunyai kecenderungan induktif CNN dan boleh menikmati faedah pra-latihan, pasukan menggunakan UniFormer dan CBNetV2. UniFormer menyatukan lilitan dan perhatian diri, pada masa yang sama menyelesaikan dua masalah utama redundansi tempatan dan pergantungan global, dan mencapai pembelajaran ciri yang cekap. Seni bina CBNetV2 menggabungkan beberapa paket tulang belakang yang serupa yang disambungkan komposit untuk membina pengesan berprestasi tinggi. Pengekstrak ciri tulang belakang model ini semuanya Pengubah Swin. Berbilang Transformer pra-latihan berskala besar disusun secara selari, dan hasil keluaran disepadukan dan dipelajari untuk menghasilkan hasil akhir.
mAP kaedah berbeza pada set data pengesahan
Peningkatan data Salin-Tampal BakiTeknik Salin-Tampal memberikan hasil yang mengagumkan contohnya model pembahagian dengan menampal objek secara rawak, terutamanya untuk set data di bawah pengedaran long-tail. Walau bagaimanapun, kaedah ini meningkatkan sampel semua kategori secara sama rata dan gagal secara asasnya mengurangkan masalah ekor panjang bagi pengedaran kategori. Oleh itu, pasukan mencadangkan kaedah peningkatan data Salin-Tampal Baki. Baki Salin-Tampal menyesuaikan kategori sampel mengikut bilangan kategori yang berkesan, meningkatkan kualiti sampel keseluruhan, mengurangkan masalah bilangan sampel yang kecil dan pengedaran ekor panjang, dan akhirnya mempertingkatkan peta model dalam pembahagian contoh.
Peningkatan yang dibawa oleh teknologi peningkatan data Salin-Tampal Baki
Eksperimen ablasi gabungan model pada set pengesahan
Gaburan Model Ujian percubaan ablasi pada set
Pada masa ini, set data bandar dan pengangkutan adalah adegan yang lebih umum, termasuk hanya pengangkutan biasa dan pejalan kaki Set data kekurangan maklumat tentang orang kurang upaya dan mobiliti Orang yang tidak selesa dan jenis peranti bantuan mereka tidak dapat dikesan oleh model pengesanan menggunakan set data sedia ada pada masa ini.
Penyelesaian teknikal pasukan Byte-IC-AutoML ByteDance ini digunakan secara meluas dalam pemanduan autonomi semasa dan pemahaman pemandangan jalanan: model yang diperoleh melalui data sintetik ini boleh mengenal pasti " Kategori jarang seperti " kerusi roda", "orang berkerusi roda", "orang bertongkat", dsb. bukan sahaja boleh mengklasifikasikan orang/objek dengan lebih tepat, tetapi juga mengelakkan salah penilaian dan salah sangka yang membawa kepada salah faham tentang tempat kejadian. Di samping itu, melalui kaedah mensintesis data ini, data kategori yang agak jarang berlaku dalam dunia nyata boleh dibina, dengan itu melatih model pengesanan sasaran yang lebih serba boleh dan lengkap.
Penciptaan Pintar ialah institut penyelidikan teknologi inovasi multimedia dan penyedia perkhidmatan komprehensif ByteDance. Meliputi penglihatan komputer, grafik, suara, penangkapan dan penyuntingan, kesan khas, pelanggan, platform AI, kejuruteraan pelayan dan bidang teknikal lain, gelung tertutup algoritma canggih-sistem kejuruteraan-produk telah dilaksanakan dalam jabatan, bertujuan untuk menggunakan berbilang Dengan cara ini, kami menyediakan barisan perniagaan dalaman syarikat dan pelanggan koperasi luaran dengan pemahaman kandungan yang paling canggih dalam industri, penciptaan kandungan, pengalaman interaktif dan keupayaan penggunaan serta penyelesaian industri. Keupayaan teknikal pasukan disediakan kepada orang ramai melalui Enjin Gunung Berapi.
Volcano Engine ialah platform perkhidmatan awan yang dimiliki oleh Bytedance Ia membuka kaedah pertumbuhan, keupayaan teknikal dan alatan yang terkumpul semasa pembangunan pesat Bytedance kepada syarikat luar, menyediakan asas awan, Perkhidmatan seperti video. dan pengedaran kandungan, data besar, kecerdasan buatan, pembangunan dan operasi serta penyelenggaraan membantu perusahaan mencapai pertumbuhan yang mampan semasa peningkatan digital.
Atas ialah kandungan terperinci Perjalanan tanpa halangan adalah lebih selamat! Hasil penyelidikan ByteDance memenangi kejohanan pertandingan CVPR2022 AVA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!