


Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.
Sudah pun 2022, tetapi kebanyakan tugas penglihatan komputer semasa masih hanya tertumpu pada persepsi imej. Sebagai contoh, tugas pengelasan imej hanya memerlukan model untuk mengenal pasti kategori objek dalam imej. Walaupun tugas seperti pengesanan sasaran dan pembahagian imej selanjutnya memerlukan mencari lokasi objek, tugasan tersebut masih tidak mencukupi untuk menunjukkan bahawa model itu telah memperoleh pemahaman yang menyeluruh dan mendalam tentang tempat kejadian.
Sebagai contoh dalam Rajah 1 di bawah, jika model penglihatan komputer hanya mengesan orang, gajah, pagar, pokok dan lain-lain dalam gambar, biasanya kita tidak menyangka model tersebut mempunyai memahami gambar, tetapi Model ini juga tidak dapat membuat keputusan yang lebih maju berdasarkan pemahaman, seperti mengeluarkan amaran "tidak memberi makan".
Rajah 1: Contoh rajah asal
Sebenarnya, dalam kebijaksanaan Dalam banyak senario AI dunia sebenar seperti bandar, pemanduan autonomi dan pembuatan pintar, selain daripada mengesan sasaran di tempat kejadian, kami biasanya juga mengharapkan model untuk membuat alasan dan meramalkan hubungan antara pelbagai subjek dalam imej. Contohnya, dalam aplikasi pemanduan autonomi, kenderaan autonomi perlu menganalisis sama ada pejalan kaki di tepi jalan menolak kereta atau menunggang basikal. Bergantung pada keadaan, keputusan berikutnya yang sepadan mungkin berbeza.
Dalam senario kilang pintar, menilai sama ada pengendali beroperasi dengan selamat dan betul juga memerlukan model sisi pemantauan mempunyai keupayaan untuk memahami hubungan antara subjek. Kebanyakan kaedah sedia ada secara manual menetapkan beberapa peraturan berkod keras. Ini menjadikan model kekurangan generalisasi dan sukar untuk menyesuaikan diri dengan situasi khusus lain.
Tugas penjanaan graf pemandangan (penjanaan graf adegan, atau SGG) bertujuan untuk menyelesaikan masalah di atas. Sebagai tambahan kepada keperluan untuk mengelaskan dan mengesan objek sasaran, tugas SGG juga memerlukan model untuk meramalkan hubungan antara objek (lihat Rajah 2).
Rajah 2: Penjanaan graf adegan
Tugas penjanaan graf adegan tradisional Set data biasanya mempunyai anotasi kotak sempadan objek dan anotasi hubungan antara kotak sempadan. Walau bagaimanapun, tetapan ini mempunyai beberapa kelemahan yang wujud:
(1) Kotak sempadan tidak dapat mengesan objek dengan tepat: Seperti yang ditunjukkan dalam Rajah 2, kotak sempadan pasti gagal apabila menganotasi orang.
(2) Latar belakang tidak boleh diberi anotasi: Seperti yang ditunjukkan dalam Rajah 2, pokok-pokok di belakang gajah diberi anotasi dengan kotak sempadan, yang hampir meliputi keseluruhan imej, jadi ia melibatkan perhubungan antara latar belakang tidak boleh ditanda dengan tepat, yang juga menjadikan graf adegan tidak dapat menutup imej sepenuhnya dan mencapai pemahaman pemandangan menyeluruh.
Oleh itu, penulis mencadangkan tugasan penjanaan graf adegan penuh (PSG) dengan set data PSG beranotasi besar-besaran.
Rajah 3: Penjanaan graf pemandangan penuh Seperti yang ditunjukkan dalam Rajah 3, tugas ini menggunakan pensegmenan panorama untuk mencapai komprehensif dan tepat meletakkan objek dan latar belakang, sekali gus menangani kelemahan yang wujud dalam tugas penjanaan graf pemandangan, dengan itu memajukan bidang ke arah pemahaman pemandangan yang komprehensif dan mendalam.
Maklumat kertas
Pautan kertas: https://arxiv.org/abs/2207.11247Halaman Projek: https ://psgdataset.org/OpenPSG Codebase: https://github.com/Jingkang50/OpenPSGCompetition Link: https://www.cvmart.net/race/10349/baseECCV'22 SenseHuman Workshop Pautan: https://sense- human.github.io/HuggingFace Demo Pautan: https://huggingface.co/spaces/ECCV2022/PSG
Set data PSG yang dicadangkan oleh pengarang mengandungi hampir 50,000 imej coco, dan berdasarkan anotasi pensegmenan panoramik sedia ada coco, menandakan hubungan antara blok tersegmen. Penulis dengan teliti mentakrifkan 56 jenis hubungan, termasuk hubungan kedudukan (di atas, di hadapan, dll.), hubungan biasa antara objek (bergantung dari, dll.), tindakan biologi biasa (berjalan, berdiri, dll.), manusia tingkah laku (memasak, dll.), hubungan dalam adegan lalu lintas (memandu, menunggang, dll.), hubungan dalam adegan sukan (menendang, dll.), dan hubungan antara latar belakang (melampirkan, dll.). Pengarang memerlukan anotasi untuk menggunakan ungkapan kata kerja yang lebih tepat daripada ungkapan yang lebih samar-samar, dan untuk menganotasi perhubungan dalam rajah selengkap mungkin.
Paparan kesan model PSG
Kelebihan tugas
Penulis sekali lagi memahami kelebihan tugasan Full Scene Graph Generation (PSG) melalui contoh di bawah:
Gambar kiri datang dari data tradisional tugasan SGG Set Genom Visual (VG-150). Dapat dilihat bahawa anotasi berdasarkan kotak pengesanan biasanya tidak tepat, dan piksel yang diliputi oleh kotak pengesanan tidak dapat mengesan objek dengan tepat, terutamanya latar belakang seperti kerusi dan pokok. Pada masa yang sama, anotasi perhubungan berdasarkan bingkai pengesanan biasanya cenderung untuk melabelkan beberapa perhubungan yang membosankan, seperti "orang ada kepala" dan "orang pakai baju".
Sebaliknya, tugas PSG yang dicadangkan dalam imej yang betul menyediakan lebih komprehensif (termasuk interaksi latar depan dan latar belakang), lebih jelas (butiran objek yang sesuai) dan lebih tepat (tahap ketepatan piksel) perwakilan graf adegan untuk memajukan bidang pemahaman adegan.
Dua jenis utama model PSG
Untuk menyokong cadangan tugas PSG, penulis membina platform kod sumber terbuka OpenPSG, yang melaksanakan empat kaedah dua peringkat dan dua Kaedah satu peringkat mudah untuk dibangunkan, digunakan dan dianalisis oleh semua orang.
Kaedah dua peringkat menggunakan Panoptic-FPN untuk melakukan segmentasi panorama imej pada peringkat pertama.
Seterusnya, pengarang mengekstrak ciri objek yang diperoleh melalui segmentasi panorama dan ciri perhubungan setiap pasangan gabungan objek, dan menghantarnya ke peringkat ramalan perhubungan seterusnya. Rangka kerja telah menyepadukan dan menghasilkan semula kaedah klasik penjanaan graf pemandangan tradisional IMP, VCTree, Motif dan GPSNet.
PSGFormer ialah kaedah satu peringkat berdasarkan dwi dekoder DETR. Model ini mula-mula mengekstrak ciri imej melalui tulang belakang rangkaian saraf konvolusi dalam a) dan menambah maklumat pengekodan kedudukan sebagai input pengekod Pada masa yang sama, ia memulakan set pertanyaan untuk mewakili tiga kali ganda. Sama seperti DETR, dalam b) model memasukkan output pengekod sebagai kunci dan nilai bersama-sama dengan pertanyaan yang mewakili tiga kali ganda ke dalam penyahkod untuk operasi perhatian silang. Kemudian model memasukkan setiap pertanyaan yang dinyahkodkan ke dalam modul ramalan yang sepadan dengan triplet subjek-kata kerja-objek dalam c), dan akhirnya memperoleh hasil ramalan triplet yang sepadan.
PSGFormer ialah kaedah satu peringkat DETR berdasarkan penyahkod berganda. Model a) mengekstrak ciri imej melalui CNN, memasukkan maklumat pengekodan kedudukan ke dalam pengekod, dan memulakan dua set pertanyaan untuk mewakili objek dan perhubungan masing-masing. Kemudian dalam langkah b), berdasarkan maklumat imej yang dikodkan oleh pengekod, model mempelajari pertanyaan objek dan pertanyaan hubungan melalui penyahkodan perhatian silang masing-masing dalam penyahkod objek dan pengekod hubungan.
Selepas kedua-dua jenis pertanyaan dipelajari, pertanyaan tiga kali ganda diperoleh melalui pemetaan dan pemadanan dalam c). Akhir sekali, dalam d), ramalan tentang pertanyaan objek dan pertanyaan perhubungan diselesaikan melalui kepala ramalan, dan keputusan ramalan tiga kali terakhir diperoleh berdasarkan keputusan padanan dalam c).
PSGTR dan PSGFormer kedua-duanya adalah model yang diperluaskan dan dipertingkatkan berdasarkan DETR Perbezaannya ialah PSGTR menggunakan set pertanyaan untuk memodelkan tiga kali ganda secara langsung, manakala PSGFormer menggunakan dua set pertanyaan untuk memodelkan objek dan Mengenai pemodelan hubungan, kedua-duanya. kaedah mempunyai kebaikan dan keburukan mereka sendiri Untuk butiran, sila rujuk keputusan eksperimen dalam kertas.
Perkongsian kesimpulan
Kebanyakan kaedah yang berkesan pada tugas SGG masih berkesan pada tugas PSG. Walau bagaimanapun, beberapa kaedah yang menggunakan keutamaan statistik yang kukuh pada set data atau keutamaan pada arah predikat dalam subjek, predikat dan objek mungkin tidak begitu berkesan. Ini mungkin disebabkan oleh fakta bahawa berat sebelah set data PSG tidak begitu serius berbanding set data VG tradisional, dan takrifan kata kerja predikat adalah lebih jelas dan boleh dipelajari. Oleh itu, penulis berharap kaedah seterusnya akan memberi tumpuan kepada pengekstrakan maklumat visual dan pemahaman imej itu sendiri. Pendahuluan statistik mungkin berkesan dalam membersihkan set data, tetapi ia tidak penting.
Berbanding dengan model dua peringkat, model satu peringkat pada masa ini boleh mencapai hasil yang lebih baik. Ini mungkin disebabkan oleh fakta bahawa isyarat penyeliaan tentang perhubungan dalam model satu peringkat boleh dipindahkan terus ke bahagian peta ciri, supaya isyarat perhubungan mengambil bahagian dalam pembelajaran model yang lebih banyak, yang bermanfaat untuk menangkap perhubungan. Walau bagaimanapun, oleh kerana artikel ini hanya mencadangkan beberapa model asas dan tidak mengoptimumkan model satu peringkat atau dwi peringkat, tidak boleh dikatakan bahawa model satu peringkat semestinya lebih kuat daripada model dua peringkat. Ini juga berharap para peserta akan terus meneroka.
Berbanding dengan tugasan SGG tradisional, tugas PSG melakukan pemadanan perhubungan berdasarkan peta pensegmenan panorama dan memerlukan pengesahan ID subjek dan objek objek dalam setiap perhubungan. Berbanding dengan ramalan langsung dua peringkat peta segmentasi panorama untuk melengkapkan pembahagian ID objek, model satu peringkat perlu melengkapkan langkah ini melalui satu siri pasca pemprosesan. Jika model satu peringkat sedia ada ditambah baik dan dinaik taraf, cara untuk melengkapkan pengesahan ID objek dengan lebih berkesan dalam model satu peringkat dan menjana imej pensegmenan panorama yang lebih baik masih menjadi topik yang patut diterokai.
Akhir sekali, semua orang dialu-alukan untuk mencuba HuggingFace:
Demo: https:/ /huggingface .co/spaces/ECCV2022/PSG
Perspektif penjanaan imej
Model generatif popular baru-baru ini berdasarkan input teks (seperti DALL-E 2 ) Sungguh menakjubkan, tetapi beberapa kajian menunjukkan bahawa model generatif ini mungkin hanya melekatkan beberapa entiti dalam teks, tanpa memahami hubungan ruang yang dinyatakan dalam teks. Seperti yang ditunjukkan di bawah, walaupun input adalah "cawan pada sudu", gambar yang dihasilkan masih "sudu pada cawan".
Secara kebetulan, set data PSG ditandakan dengan perhubungan graf adegan berasaskan topeng. Penulis boleh menggunakan graf pemandangan dan topeng segmentasi panoramik sebagai pasangan latihan untuk mendapatkan model text2mask dan menghasilkan gambar yang lebih terperinci berdasarkan topeng. Oleh itu, ada kemungkinan bahawa set data PSG juga menyediakan penyelesaian yang berpotensi untuk penjanaan imej tertumpu hubungan.
P.S. "Cabaran PSG", yang bertujuan untuk menggalakkan bidang untuk bersama-sama menerokai pengiktirafan pemandangan yang komprehensif, berjuta-juta hadiah sedang menanti anda! Pautan Pertandingan: https://www.cvmart.net/race/10349/base
Atas ialah kandungan terperinci Politeknik Nanyang mencadangkan tugas menjana PSG daripada graf pemandangan penuh, mengesan objek pada tahap piksel, dan meramalkan 56 perhubungan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

1. Pengenalan Sejak beberapa tahun kebelakangan ini, YOLO telah menjadi paradigma dominan dalam bidang pengesanan objek masa nyata kerana keseimbangannya yang berkesan antara kos pengiraan dan prestasi pengesanan. Penyelidik telah meneroka reka bentuk seni bina YOLO, matlamat pengoptimuman, strategi pengembangan data, dsb., dan telah mencapai kemajuan yang ketara. Pada masa yang sama, bergantung pada penindasan bukan maksimum (NMS) untuk pemprosesan pasca menghalang penggunaan YOLO dari hujung ke hujung dan memberi kesan buruk kepada kependaman inferens. Dalam YOLO, reka bentuk pelbagai komponen tidak mempunyai pemeriksaan yang komprehensif dan teliti, mengakibatkan lebihan pengiraan yang ketara dan mengehadkan keupayaan model. Ia menawarkan kecekapan suboptimum, dan potensi yang agak besar untuk peningkatan prestasi. Dalam kerja ini, matlamatnya adalah untuk meningkatkan lagi sempadan kecekapan prestasi YOLO daripada kedua-dua pasca pemprosesan dan seni bina model. sampai habis

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

Di barisan hadapan teknologi perisian, kumpulan UIUC Zhang Lingming, bersama penyelidik dari organisasi BigCode, baru-baru ini mengumumkan model kod besar StarCoder2-15B-Instruct. Pencapaian inovatif ini mencapai kejayaan ketara dalam tugas penjanaan kod, berjaya mengatasi CodeLlama-70B-Instruct dan mencapai bahagian atas senarai prestasi penjanaan kod. Keunikan StarCoder2-15B-Instruct terletak pada strategi penjajaran diri yang tulen Keseluruhan proses latihan adalah terbuka, telus, dan sepenuhnya autonomi dan boleh dikawal. Model ini menjana beribu-ribu arahan melalui StarCoder2-15B sebagai tindak balas kepada penalaan halus model asas StarCoder-15B tanpa bergantung pada anotasi manual yang mahal.

Dalam dunia pembangunan bahagian hadapan, VSCode telah menjadi alat pilihan untuk banyak pembangun dengan fungsi yang berkuasa dan ekosistem pemalam yang kaya. Dalam beberapa tahun kebelakangan ini, dengan perkembangan pesat teknologi kecerdasan buatan, pembantu kod AI pada VSCode telah muncul, meningkatkan kecekapan pengekodan pembangun. Pembantu kod AI pada VSCode telah muncul seperti cendawan selepas hujan, meningkatkan kecekapan pengekodan pembangun. Ia menggunakan teknologi kecerdasan buatan untuk menganalisis kod secara bijak dan menyediakan penyiapan kod yang tepat, pembetulan ralat automatik, semakan tatabahasa dan fungsi lain, yang mengurangkan kesilapan pembangun dan kerja manual yang membosankan semasa proses pengekodan. Hari ini, saya akan mengesyorkan 12 pembantu kod AI pembangunan bahagian hadapan VSCode untuk membantu anda dalam perjalanan pengaturcaraan anda.
