Jadual Kandungan
Menempatkan klip video dalam satu ayat
△Rajah 1
△Jadual 2: Eksperimen Ablasi pada Charades-STA
Rumah Peranti teknologi AI Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka

Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka

Jan 09, 2024 pm 03:26 PM
video ai

Dengan hanya satu ayat penerangan, anda boleh mencari klip yang sepadan dalam video besar!

Sebagai contoh, menerangkan "seseorang minum air semasa menuruni tangga", melalui pemadanan imej video dan jejak langkah, kaedah baharu boleh mencari cap masa mula dan tamat yang sepadan dengan serta-merta:

Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka

Malah Semantik "ketawa" yang sukar difahami juga boleh diletakkan dengan tepat:

Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka

Kaedah ini dipanggil Adaptive Dual Branch Promotion Network (ADPN), yang dicadangkan oleh pasukan penyelidik Universiti Tsinghua.

Secara khusus, ADPN digunakan untuk menyelesaikan tugasan silang mod visual-linguistik yang dipanggil penentududukan klip video (Temporal Sentence Grounding, TSG), iaitu untuk mencari klip yang berkaitan daripada video berdasarkan teks pertanyaan.

ADPN dicirikan oleh keupayaannya untuk menggunakan secara cekap konsisten dan pelengkap modaliti visual dan audio dalam video untuk meningkatkan prestasi kedudukan klip video.

Berbanding dengan kerja TSG PMI-LOC dan UMT lain yang menggunakan audio, kaedah ADPN telah mencapai peningkatan prestasi yang lebih ketara daripada mod audio, dan telah memenangi SOTA baharu dalam berbilang ujian.

Pada masa ini, karya ini telah diterima oleh ACM Multimedia 2023 dan merupakan sumber terbuka sepenuhnya.

Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka

Mari kita lihat apa itu ADPN~

Menempatkan klip video dalam satu ayat

Penempatan klip video (Pengasasan Ayat Temporal, TSG) ialah tugas silang mod visual-linguistik yang penting

Tujuannya adalah untuk mencari cap masa mula dan tamat segmen yang sepadan secara semantik dalam video yang tidak diedit berdasarkan pertanyaan bahasa semula jadi. Kaedah ini memerlukan keupayaan penaakulan rentas mod temporal yang kuat.

Walau bagaimanapun, kebanyakan kaedah TSG sedia ada hanya mempertimbangkan maklumat visual dalam video, seperti RGB, aliran optik(aliran optik), kedalaman(depth), dsb., sambil mengabaikan maklumat audio yang secara semula jadi mengiringi video. .

Maklumat audio selalunya mengandungi semantik yang kaya dan konsisten serta pelengkap dengan maklumat visual Seperti yang ditunjukkan dalam rajah di bawah, sifat ini akan membantu tugasan TSG.

Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka
△Rajah 1

(a) Ketekalan: Imej video dan jejak kaki secara konsisten sepadan dengan semantik "turun tangga" dalam pertanyaan; (b) Pelengkap: Imej video sukar dikenal pasti tingkah laku untuk mencari makna semantik "ketawa" dalam pertanyaan, tetapi kehadiran ketawa memberikan petunjuk kedudukan pelengkap yang kuat.

Jadi penyelidik telah mengkaji dengan mendalam tugas penyetempatan klip video yang dipertingkatkan audio(Pengasasan Ayat Temporal Dipertingkatkan Audio, ATSG), bertujuan untuk menangkap petunjuk penyetempatan dengan lebih baik daripada modaliti visual dan audio Walau bagaimanapun, pengenalan mod audio modaliti juga membawa cabaran berikut:

  • Ketekalan dan pelengkap modaliti audio dan visual dikaitkan dengan teks pertanyaan, jadi menangkap ketekalan dan pelengkap audiovisual memerlukan pemodelan teks-visual-audio tiga mod interaksi nyata.
  • Terdapat perbezaan modal yang ketara antara audio dan penglihatan Ketumpatan maklumat dan keamatan bunyi kedua-duanya adalah berbeza, yang akan menjejaskan prestasi pembelajaran audio-visual.

Untuk menyelesaikan cabaran di atas, penyelidik mencadangkan kaedah ATSG novel "Rangkaian Digesa Dwi-cawangan Adaptif" (Rangkaian Digesa Dwi-cawangan Adaptif, ADPN).

Melalui reka bentuk struktur model dwi-cawangan, kaedah ini secara adaptif boleh memodelkan ketekalan dan pelengkap antara audio dan penglihatan, dan seterusnya menghapuskan hingar mod audio menggunakan strategi pengoptimuman denoising berdasarkan gangguan pembelajaran kursus, mendedahkan kepentingan isyarat audio untuk video mendapatkan semula.

Struktur keseluruhan ADPN ditunjukkan dalam rajah di bawah:

Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka

△ Rajah 2: Gambar rajah skema keseluruhan Rangkaian Promosi Dua Cawangan Adaptive (ADPN)

Ia merangkumi tiga reka bentuk:

.1

reka bentuk struktur rangkaian

Memandangkan bunyi audio lebih jelas, dan untuk tugasan TSG, audio biasanya mempunyai lebih banyak maklumat berlebihan, jadi proses pembelajaran modaliti audio dan visual perlu diberi kepentingan yang berbeza, jadi artikel ini melibatkan dua cawangan Struktur rangkaian menggunakan audio dan penglihatan untuk pembelajaran pelbagai mod sambil meningkatkan maklumat visual.

Secara khusus, merujuk kepada Rajah 2(a), ADPN secara serentak melatih cawangan (cawangan visual) yang hanya menggunakan maklumat visual dan cawangan (cawangan bersama) yang menggunakan kedua-dua maklumat visual dan maklumat audio.

Kedua-dua cawangan mempunyai struktur yang serupa, di mana cawangan bersama menambah unit perlombongan petunjuk teks (TGCM) untuk memodelkan interaksi mod teks-visual-audio. Semasa proses latihan, kedua-dua cawangan mengemas kini parameter pada masa yang sama, dan fasa inferens menggunakan hasil cawangan bersama sebagai hasil ramalan model. Pelombong Berpandukan Teks untuk memodelkan interaksi antara tiga modaliti teks-visual-audio.

Rujuk Rajah 2(b), TGCM terbahagi kepada dua langkah: "extraction" dan "propagation". Pertama, teks digunakan sebagai syarat pertanyaan, dan maklumat yang berkaitan diekstrak dan disepadukan daripada modaliti visual dan audio, kemudian modaliti visual dan audio digunakan sebagai syarat pertanyaan, dan maklumat bersepadu disebarkan ke visual dan mod audio melalui perhatian Modaliti masing-masing akhirnya digabungkan melalui FFN.

3. Strategi Pengoptimuman Pembelajaran Kurikulum

Penyelidik mendapati bahawa audio mengandungi hingar, yang akan menjejaskan kesan pembelajaran pelbagai mod, jadi mereka menggunakan intensiti hingar sebagai rujukan untuk kesukaran sampel dan memperkenalkan pembelajaran kurikulum

(Curriculum Learning , CL)

Denoise the optimization process, rujuk Rajah 2(c).

Mereka menilai kesukaran sampel berdasarkan perbezaan output yang diramalkan bagi kedua-dua cabang Mereka percaya bahawa sampel yang terlalu sukar mempunyai kebarangkalian yang tinggi untuk menunjukkan bahawa audionya mengandungi terlalu banyak hingar dan tidak sesuai untuk. Tugas TSG, jadi kerugian kepada proses latihan adalah berdasarkan skor penilaian kesukaran sampel Istilah fungsi ditimbang semula untuk membuang kecerunan buruk yang disebabkan oleh hingar dalam audio. . tugasan, dan dibandingkan dengan kaedah garis dasar Perbandingan ditunjukkan dalam Jadual 1. Kaedah ADPN boleh mencapai prestasi SOTA, khususnya, berbanding PMI-LOC dan UMT kerja TSG lain yang menggunakan audio, kaedah ADPN memperoleh peningkatan prestasi yang lebih ketara daripada modaliti audio, menunjukkan bahawa kaedah ADPN menggunakan modaliti audio untuk menggalakkan keunggulan TSG.

△Jadual 1: Keputusan eksperimen pada Charades-STA dan ActivityNet Captions

Para penyelidik seterusnya menunjukkan keberkesanan unit reka bentuk yang berbeza dalam ADPN melalui eksperimen ablasi, seperti yang ditunjukkan dalam Jadual 2.

△Jadual 2: Eksperimen Ablasi pada Charades-STA

Para penyelidik memilih keputusan ramalan beberapa sampel untuk visualisasi, dan melukis "teks kepada penglihatan" (T→V) dalam langkah "pengekstrakan" dalam TGCM ) dan "teks ke audio" (T→A) taburan berat perhatian, seperti yang ditunjukkan dalam Rajah 3.

Dapat diperhatikan bahawa pengenalan modaliti audio meningkatkan hasil ramalan. Daripada kes "Orang mentertawakannya", kita dapat melihat bahawa taburan berat perhatian T→A adalah lebih dekat dengan Ground Truth, yang membetulkan panduan sesat ramalan model oleh taburan berat T→V. .

Mereka mereka bentuk struktur model dwi-cawangan untuk bersama-sama melatih cawangan visual dan cabang gabungan audiovisual untuk menyelesaikan perbezaan maklumat antara modaliti audio dan visual. Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka
Mereka juga mencadangkan unit perlombongan petunjuk teks

(TGCM)

yang menggunakan semantik teks sebagai panduan untuk memodelkan interaksi teks-audio-visual.

Akhir sekali, para penyelidik mereka bentuk strategi pengoptimuman berasaskan pembelajaran kursus untuk menghapuskan lagi hingar audio, menilai kesukaran sampel sebagai ukuran keamatan hingar dengan cara yang sedar diri dan menyesuaikan proses pengoptimuman secara adaptif.
Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbukaMereka mula-mula menjalankan kajian mendalam tentang ciri-ciri audio dalam ATSG untuk meningkatkan kesan peningkatan prestasi mod audio dengan lebih baik.

Pada masa hadapan, mereka berharap dapat membina penanda aras penilaian yang lebih sesuai untuk ATSG bagi menggalakkan penyelidikan yang lebih mendalam dalam bidang ini.

Pautan kertas: https://dl.acm.org/doi/pdf/10.1145/3581783.3612504

Pautan repositori: https://github.com/hlchen23/ADPN-MMKaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka

Atas ialah kandungan terperinci Kaedah baharu Universiti Tsinghua berjaya mengesan klip video yang tepat! SOTA telah diatasi dan sumber terbuka. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Apr 07, 2025 pm 09:39 PM

Apabila menukar rentetan ke objek dalam vue.js, json.parse () lebih disukai untuk rentetan json standard. Untuk rentetan JSON yang tidak standard, rentetan boleh diproses dengan menggunakan ungkapan biasa dan mengurangkan kaedah mengikut format atau url yang dikodkan. Pilih kaedah yang sesuai mengikut format rentetan dan perhatikan isu keselamatan dan pengekodan untuk mengelakkan pepijat.

Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Cara mengoptimumkan prestasi pangkalan data selepas pemasangan MySQL Apr 08, 2025 am 11:36 AM

Pengoptimuman prestasi MySQL perlu bermula dari tiga aspek: konfigurasi pemasangan, pengindeksan dan pengoptimuman pertanyaan, pemantauan dan penalaan. 1. Selepas pemasangan, anda perlu menyesuaikan fail my.cnf mengikut konfigurasi pelayan, seperti parameter innodb_buffer_pool_size, dan tutup query_cache_size; 2. Buat indeks yang sesuai untuk mengelakkan indeks yang berlebihan, dan mengoptimumkan pernyataan pertanyaan, seperti menggunakan perintah menjelaskan untuk menganalisis pelan pelaksanaan; 3. Gunakan alat pemantauan MySQL sendiri (ShowProcessList, ShowStatus) untuk memantau kesihatan pangkalan data, dan kerap membuat semula dan mengatur pangkalan data. Hanya dengan terus mengoptimumkan langkah -langkah ini, prestasi pangkalan data MySQL diperbaiki.

Cara menyelesaikan MySQL tidak dapat dimulakan Cara menyelesaikan MySQL tidak dapat dimulakan Apr 08, 2025 pm 02:21 PM

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Cara Menggunakan MySQL Selepas Pemasangan Cara Menggunakan MySQL Selepas Pemasangan Apr 08, 2025 am 11:48 AM

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Geospatial Laravel: Pengoptimuman peta interaktif dan sejumlah besar data Apr 08, 2025 pm 12:24 PM

Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Kunci utama MySQL boleh menjadi batal Kunci utama MySQL boleh menjadi batal Apr 08, 2025 pm 03:03 PM

Kunci utama MySQL tidak boleh kosong kerana kunci utama adalah atribut utama yang secara unik mengenal pasti setiap baris dalam pangkalan data. Jika kunci utama boleh kosong, rekod tidak dapat dikenal pasti secara unik, yang akan membawa kepada kekeliruan data. Apabila menggunakan lajur integer sendiri atau UUIDs sebagai kunci utama, anda harus mempertimbangkan faktor-faktor seperti kecekapan dan penghunian ruang dan memilih penyelesaian yang sesuai.

Jurutera Backend Senior Remote (Platform) memerlukan kalangan Jurutera Backend Senior Remote (Platform) memerlukan kalangan Apr 08, 2025 pm 12:27 PM

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

Penyelesaian kepada perkhidmatan yang tidak dapat dimulakan selepas pemasangan MySQL Penyelesaian kepada perkhidmatan yang tidak dapat dimulakan selepas pemasangan MySQL Apr 08, 2025 am 11:18 AM

MySQL enggan memulakan? Jangan panik, mari kita periksa! Ramai kawan mendapati bahawa perkhidmatan itu tidak dapat dimulakan selepas memasang MySQL, dan mereka sangat cemas! Jangan risau, artikel ini akan membawa anda untuk menangani dengan tenang dan mengetahui dalang di belakangnya! Selepas membacanya, anda bukan sahaja dapat menyelesaikan masalah ini, tetapi juga meningkatkan pemahaman anda tentang perkhidmatan MySQL dan idea anda untuk masalah penyelesaian masalah, dan menjadi pentadbir pangkalan data yang lebih kuat! Perkhidmatan MySQL gagal bermula, dan terdapat banyak sebab, mulai dari kesilapan konfigurasi mudah kepada masalah sistem yang kompleks. Mari kita mulakan dengan aspek yang paling biasa. Pengetahuan asas: Penerangan ringkas mengenai proses permulaan perkhidmatan MySQL Startup. Ringkasnya, sistem operasi memuatkan fail yang berkaitan dengan MySQL dan kemudian memulakan daemon MySQL. Ini melibatkan konfigurasi

See all articles