Rumah Peranti teknologi AI Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023

Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023

Jan 11, 2024 pm 10:18 PM
Saham pertandingan kertas persidangan teratas syarikat Telekom ai

Dalam beberapa tahun kebelakangan ini, China Telecom terus bekerja keras ke arah teknologi kecerdasan buatan. Pada 28 November 2023, Cawangan Teknologi Perisikan Digital Telecom China secara rasmi menukar namanya kepada China Telecom Artificial Intelligence Technology Co., Ltd. (selepas ini dirujuk sebagai "Syarikat AI Telekom"). Pada tahun 2023, Syarikat AI Telecom memenangi anugerah berturut-turut dalam 21 pertandingan AI domestik dan asing yang terkemuka, memohon lebih daripada 100 paten, dan menerbitkan lebih daripada 30 kertas kerja dalam persidangan dan jurnal teratas seperti CVPR, ACM MM, dan ICCV, yang menunjukkan prestasi perusahaan pusat milik negara. Keputusan awal dalam bidang teknologi kecerdasan buatan

Sebagai sebuah syarikat profesional untuk China Telecom untuk menjalankan perniagaan kecerdasan buatan, Syarikat AI Telecom ialah perusahaan berasaskan teknologi, berasaskan keupayaan dan berasaskan platform. Syarikat itu komited untuk menakluki teknologi kecerdasan buatan teras, menyelidik teknologi termaju dan mempromosikan pengembangan ruang industri, bertujuan untuk menjadi penyedia perkhidmatan kecerdasan buatan peringkat puluhan bilion. Dalam dua tahun yang lalu, Syarikat AI Telecom telah berjaya membangunkan satu siri hasil aplikasi inovatif secara bebas, seperti Platform Pemerkasaan Gudang Algoritma AI Galaxy, Platform Kuasa Pengkomputeran Nebula AI Level 4 dan Model Besar Asas Universal Star. Kini, syarikat itu mempunyai lebih daripada 800 pekerja dengan purata umur 31 tahun, 80% daripadanya adalah kakitangan R&D, dan 70% daripada syarikat Internet utama dalam dan luar negara serta syarikat AI terkemuka. Untuk mempercepatkan kemajuan R&D dalam era model besar, syarikat itu mempunyai lebih daripada 2,500 kad latihan dengan kuasa pengkomputeran setara A100 dan lebih daripada 300 kakitangan anotasi data sepenuh masa. Pada masa yang sama, syarikat itu juga bekerjasama dengan institusi penyelidikan saintifik seperti Makmal Kepintaran Buatan Shanghai, Universiti Xi'an Jiaotong, Universiti Pos dan Telekomunikasi Beijing, dan Institut Penyelidikan Zhiyuan untuk bersama-sama mencipta teknologi dan teknologi kecerdasan buatan bertaraf dunia untuk China. 60 juta rangkaian video Telecom dan ratusan juta senario pengguna

Seterusnya, kami akan menyemak dan berkongsi beberapa hasil penyelidikan saintifik penting yang dicapai oleh syarikat AI telekomunikasi pada tahun 2023. Perkongsian ini akan memperkenalkan pencapaian teknikal pasukan algoritma CV Pusat R&D AI yang memenangi kejuaraan trek Penyetempatan Tindakan Temporal dalam acara ICCV 2023. ICCV adalah salah satu daripada tiga persidangan teratas dalam bidang visi komputer antarabangsa Ia diadakan setiap dua tahun dan mempunyai reputasi tinggi dalam industri. Artikel ini akan berkongsi idea dan penyelesaian algoritma yang diterima pakai oleh pasukan dalam cabaran ini

ICCV 2023 Ujian Persepsi Challenge-Time Action Juara Kedudukan Juara Perkongsian Teknologi

Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023

Gambaran keseluruhan pertandingan dan latar belakang pasukan

Cabaran ujian persepsi pertama ICCV 2023 yang dilancarkan oleh DeepMind bertujuan untuk menilai keupayaan model dalam mod video, audio dan teks. Pertandingan ini merangkumi empat bidang kemahiran, empat jenis penaakulan, dan enam tugas pengiraan untuk menilai secara menyeluruh keupayaan model persepsi pelbagai mod. Antaranya, tugas teras trek Penyetempatan Tindakan Temporal adalah untuk menjalankan pemahaman yang mendalam dan kedudukan tindakan yang tepat bagi kandungan video yang tidak diedit Teknologi ini sangat penting kepada pelbagai senario aplikasi seperti sistem pemanduan autonomi dan analisis pengawasan video

.

Dalam pertandingan ini, pasukan yang mengambil bahagian adalah terdiri daripada ahli dari arah algoritma trafik syarikat AI telekomunikasi tersebut dipanggil CTCV. Syarikat AI Telekom telah menjalankan penyelidikan mendalam dalam bidang teknologi penglihatan komputer dan mengumpul pengalaman yang kaya. Pencapaian teknologinya telah digunakan secara meluas dalam banyak bidang perniagaan seperti tadbir urus bandar dan keselamatan lalu lintas, dan terus memberi perkhidmatan kepada sejumlah besar pengguna

Pengenalan adalah permulaan artikel dan bertujuan untuk menarik minat pembaca dan memberikan maklumat latar belakang. Pengenalan yang baik menarik perhatian pembaca, meringkaskan topik artikel, dan memberi inspirasi kepada pembaca untuk terus membaca. Semasa menulis pengenalan, anda perlu memberi perhatian kepada bahasa yang ringkas dan jelas serta kandungan yang tepat dan berkuasa. Tujuan pengenalan adalah untuk membimbing pembaca ke dalam topik artikel, jadi adalah perlu untuk memetik fakta, data atau soalan yang menimbulkan pemikiran yang relevan. Pendek kata, pengenalan adalah pintu masuk kepada artikel dan boleh memutuskan sama ada pembaca akan terus membaca

Masalah yang mencabar dalam pemahaman video ialah tugas menyetempatkan dan mengklasifikasikan tindakan dalam video, iaitu Temporal Action Localization (TAL)

Teknologi TAL telah mencapai kemajuan yang ketara baru-baru ini. Contohnya, TadTR dan ReAct mengguna pakai penyahkod berasaskan Transformer yang serupa dengan DETR untuk pengesanan tindakan, memodelkan contoh tindakan sebagai set yang boleh dipelajari. TallFormer menggunakan pengekod berasaskan Transformer untuk mengekstrak perwakilan video

Walaupun kaedah di atas telah mencapai hasil yang baik dalam penyetempatan tindakan temporal, terdapat beberapa batasan dalam keupayaan persepsi video. Untuk menyetempatkan contoh tindakan dengan lebih baik, perwakilan ciri video yang boleh dipercayai adalah penting. Pasukan kami mula-mula menggunakan rangka kerja VideoMAE-v2, menambahkan lapisan penyesuai+linear, melatih model ramalan kategori tindakan dengan dua rangkaian tulang belakang yang berbeza dan menggunakan lapisan sebelumnya lapisan klasifikasi model untuk mengekstrak ciri untuk tugas TAL. Seterusnya, kami melatih tugasan TAL menggunakan rangka kerja ActionFormer yang dipertingkatkan dan mengubah suai kaedah WBF untuk menyesuaikan diri dengan tugasan TAL. Pada akhirnya, kaedah kami mencapai peta 0.50 pada set penilaian, kedudukan pertama, 3 mata peratusan di hadapan pasukan tempat kedua dan 34 mata peratusan lebih tinggi daripada model garis dasar yang disediakan oleh Google DeepMind

2 Penyelesaian Pertandingan

Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023

Gambaran keseluruhan algoritma ditunjukkan dalam rajah di bawah:

2.1 Peningkatan Data

Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023

Dalam runut Penyetempatan Tindakan Temporal, set data yang digunakan oleh pasukan CTCV ialah video yang tidak dipangkas untuk penyetempatan tindakan, mempunyai peleraian tinggi dan mengandungi ciri berbilang tika tindakan. Dengan menganalisis set data, didapati set latihan kekurangan tiga label kategori berbanding set pengesahan. Untuk memastikan kecukupan pengesahan model dan memenuhi keperluan pertandingan, pasukan mengumpul sejumlah kecil data video dan menambahkannya pada set data latihan untuk memperkayakan sampel latihan. Pada masa yang sama, untuk memudahkan proses anotasi, setiap pratetap video hanya mengandungi satu tindakan

Sila rujuk sampel video yang dikumpul sendiri dalam Rajah 2

2.2 Pengecaman tindakan dan pengekstrakan ciri

Dalam beberapa tahun kebelakangan ini, banyak model asas berdasarkan latihan data berskala besar telah muncul Model ini menggunakan keupayaan generalisasi yang berkuasa bagi model asas kepada pelbagai tugas hiliran melalui pengecaman sampel sifar, pengesanan linear, penalaan halus segera, penalaan halus. dan kaedah lain, dengan berkesan Menggalakkan kemajuan dalam banyak aspek bidang kecerdasan buatan

Penyetempatan gerakan dan pengecaman dalam trek TAL sangat mencabar. Sebagai contoh, dua tindakan "berpura-pura mengoyakkan sesuatu" dan "mengoyakkan sesuatu" adalah sangat serupa, yang sudah pasti membawa cabaran yang lebih besar kepada tahap ciri. Oleh itu, kesan penggunaan terus model sedia ada yang terlatih untuk mengekstrak ciri adalah tidak ideal

Oleh itu, pasukan kami menukar set data TAL kepada set data pengecaman tindakan dengan menghuraikan fail anotasi JSON. Kemudian, kami menggunakan Vit-B dan Vit-L sebagai rangkaian tulang belakang, menambah lapisan penyesuai dan lapisan linear untuk pengelasan selepas rangkaian VideoMAE-v2 dan melatih pengelas tindakan dalam domain data yang sama. Kami juga mengalih keluar lapisan linear daripada model klasifikasi tindakan dan menggunakannya untuk pengekstrakan ciri video. Dimensi ciri model VitB ialah 768, manakala dimensi ciri model ViTL ialah 1024. Apabila kami menggabungkan kedua-dua ciri ini pada masa yang sama, kami menjana ciri baharu dengan dimensi 1792, yang akan digunakan sebagai alternatif untuk melatih model penyetempatan tindakan temporal. Pada peringkat awal latihan, kami mencuba ciri audio, tetapi keputusan percubaan mendapati bahawa indeks mAP merosot. Oleh itu, dalam percubaan seterusnya, kami tidak mengambil kira ciri audio

2.3 Kedudukan tindakan berurutan

Actionformer ialah model bebas sauh yang direka dengan kedudukan tindakan mengikut masa. Ia menggabungkan ciri berbilang skala dan perhatian kendiri tempatan dalam dimensi temporal. Dalam pertandingan ini, pasukan CTCV memilih Actionformer sebagai model penanda aras untuk kedudukan tindakan, yang digunakan untuk meramalkan sempadan (masa mula dan tamat) dan kategori kejadian tindakan

Pasukan CTCV pemprosesan bersatu regresi sempadan tindakan dan tugas klasifikasi tindakan. Berbanding dengan struktur latihan asas, ciri video mula-mula dikodkan ke dalam Transformer berskala. Kemudian lapisan piramid ciri diperkenalkan dalam cabang utama regresi dan klasifikasi model untuk meningkatkan keupayaan ekspresi ciri rangkaian Cawangan kepala setiap langkah masa menjana calon tindakan. Pada masa yang sama, dengan menambah bilangan kepala kepada 32 dan memperkenalkan struktur fpn1D, kedudukan dan keupayaan pengecaman model dipertingkatkan lagi

1-D's 2.4 WBF

Weighted Boxes Fusion (WBF) ialah kaedah gabungan bingkai pengesanan yang inovatif. Kaedah ini menggunakan keyakinan semua bingkai pengesanan untuk membina bingkai ramalan akhir dan menunjukkan hasil yang baik dalam pengesanan sasaran imej. Tidak seperti kaedah NMS dan soft-NMS, gabungan kotak berwajaran tidak membuang sebarang ramalan, tetapi menggunakan skor keyakinan semua kotak sempadan yang dicadangkan untuk membina kotak purata. Kaedah ini meningkatkan ketepatan meramal segi empat tepat

Diinspirasikan oleh WBF, pasukan CTCV menganalogikan kotak sempadan satu dimensi tindakan kepada segmen garisan satu dimensi dan mengubah suai kaedah WBF untuk menjadikannya sesuai untuk tugasan TAL. Keputusan eksperimen menunjukkan keberkesanan kaedah ini, seperti yang ditunjukkan dalam Rajah 3

Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023

Rajah WBF satu dimensi yang dipertingkatkan ditunjukkan dalam Rajah 3

3 hasil percubaan

3.1 Penunjuk penilaian. Kriteria penilaian

Metrik penilaian ialah mAP, yang digunakan untuk cabaran ini. mAP ditentukan dengan mengira ketepatan purata merentas kategori tindakan yang berbeza dan ambang IoU. Pasukan CTCV menilai ambang IoU dalam kenaikan 0.1, antara 0.1 hingga 0.5

3.2 Butiran eksperimen ditulis semula seperti berikut:

Untuk mendapatkan model yang pelbagai, pasukan CTCV menyampel semula 80% set data latihan, sebanyak 5 kali. Ciri-ciri Vit-B, Vit-L dan concat telah digunakan untuk latihan model, dan 15 model pelbagai telah berjaya diperolehi. Akhir sekali, keputusan penilaian model ini adalah input kepada modul WBF, dan berat gabungan yang sama diberikan kepada setiap hasil model

Hasil eksperimen adalah seperti berikut:

Perbandingan prestasi ciri yang berbeza ditunjukkan dalam Jadual 1. Baris pertama dan kedua menunjukkan keputusan menggunakan ciri ViT-B dan ViT-L. Baris ketiga menunjukkan hasil lata ciri ViT-B dan ViT-L

Semasa percubaan, pasukan CTCV mendapati bahawa purata ketepatan (mAP) ciri lata adalah lebih rendah sedikit daripada ViT-L, tetapi masih lebih baik daripada ViT-B. Namun begitu, melalui prestasi pelbagai kaedah pada set pengesahan, kami menggabungkan hasil ramalan ciri yang berbeza dalam set penilaian dengan bantuan WBF, dan akhirnya mAP yang diserahkan kepada sistem ialah 0.50

Isi kandungan yang perlu ditulis semula ialah: 4 Kesimpulan

Pasukan CTCV menggunakan beberapa strategi untuk meningkatkan prestasi dalam pertandingan ini. Pertama, mereka menambah data latihan dengan kelas yang hilang dalam set pengesahan melalui pengumpulan data. Kedua, mereka menggunakan rangka kerja VideoMAE-v2 untuk menambah lapisan penyesuai untuk melatih pengekstrak ciri video, dan melatih tugas TAL melalui rangka kerja ActionFormer yang dipertingkatkan. Tambahan pula, mereka mengubah suai kaedah WBF untuk menggabungkan keputusan ujian dengan cekap. Pada akhirnya, pasukan CTCV mencapai peta 0.50 pada set penilaian, kedudukan pertama. Syarikat AI Telekom sentiasa berpegang kepada falsafah pembangunan "teknologi datang daripada perniagaan dan pergi ke perniagaan". Mereka menganggap pertandingan sebagai platform penting untuk menguji dan meningkatkan keupayaan teknikal, dan terus mengoptimumkan dan menambah baik penyelesaian teknikal melalui penyertaan dalam pertandingan untuk menyediakan pelanggan dengan perkhidmatan berkualiti tinggi. Pada masa yang sama, menyertai pertandingan itu juga menyediakan peluang pembelajaran dan pertumbuhan yang berharga untuk ahli pasukan

Atas ialah kandungan terperinci Kertas Persidangan Terbaik dan Perkongsian Pertandingan Syarikat Telekom AI 2023. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Mar 20, 2025 pm 03:34 PM

Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Cara Menggunakan Dall-E 3: Contoh, Contoh, dan Ciri Cara Menggunakan Dall-E 3: Contoh, Contoh, dan Ciri Mar 09, 2025 pm 01:00 PM

Dall-E 3: Alat Penciptaan Imej AI Generatif AI Generatif merevolusi penciptaan kandungan, dan Dall-E 3, model penjanaan imej terbaru OpenAI, berada di barisan hadapan. Dikeluarkan pada bulan Oktober 2023, ia dibina pada pendahulunya, Dall-E dan Dall-E 2

Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Mar 22, 2025 am 11:07 AM

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

Sora vs Veo 2: Mana yang mencipta video yang lebih realistik? Sora vs Veo 2: Mana yang mencipta video yang lebih realistik? Mar 10, 2025 pm 12:22 PM

Google's Veo 2 dan Openai's Sora: Generator Video AI Mana yang memerintah Supreme? Kedua -dua platform menghasilkan video AI yang mengagumkan, tetapi kekuatan mereka terletak di kawasan yang berbeza. Perbandingan ini, menggunakan pelbagai arahan, mendedahkan alat yang paling sesuai dengan keperluan anda. T

Google ' s Gencast: Peramalan Cuaca dengan Demo Mini Gencast Google ' s Gencast: Peramalan Cuaca dengan Demo Mini Gencast Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast: AI Revolusioner untuk Peramalan Cuaca Peramalan cuaca telah menjalani transformasi dramatik, bergerak dari pemerhatian asas kepada ramalan berkuasa AI yang canggih. Google Deepmind's Gencast, tanah air

AI mana yang lebih baik daripada chatgpt? AI mana yang lebih baik daripada chatgpt? Mar 18, 2025 pm 06:05 PM

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)

Adakah chatgpt 4 o tersedia? Adakah chatgpt 4 o tersedia? Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

See all articles