iFLYTEK ICDAR 2023: Pengiktirafan imej dan teks mencapai kegemilangan yang lebih besar sekali lagi, memenangi empat kejuaraan-AI-php.cn

Rumah

iFLYTEK ICDAR 2023: Pengiktirafan imej dan teks mencapai kegemilangan yang lebih besar sekali lagi, memenangi empat kejuaraan

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 08, 2023 am 08:17 AM

industri iFlytek

ICDAR 2023 (International Conference on Document Analysis and Recognition) Sebagai salah satu persidangan antarabangsa terpenting dalam bidang analisis dan pengiktirafan imej dokumen, berita menarik datang baru-baru ini:

iFlytek Research The institute dan Pusat Penyelidikan Kejuruteraan Kebangsaan bagi Pemprosesan Maklumat Pertuturan dan Bahasa (selepas ini dirujuk sebagai Pusat Penyelidikan) Universiti Sains dan Teknologi China (selepas ini dirujuk sebagai Pusat Penyelidikan) memenangi empat kejohanan dalam tiga pertandingan: formula berbilang baris pengecaman, lokasi dan pengekstrakan maklumat dokumen, dan pengekstrakan maklumat teks berstruktur.

MLHME之冠: Fokus pada "tulisan berbilang baris" dan terobos dalam kerumitan

#🎜🎜🎜##🎜 ( Pertandingan pengecaman formula berbilang baris) menguji ketepatan output algoritma yang sepadan dengan rentetan LaTex selepas memasukkan imej yang mengandungi formula matematik tulisan tangan. Perlu dinyatakan bahawa berbanding dengan pertandingan pengecaman formula matematik sebelum ini, pertandingan ini telah menetapkan "penulisan berbilang baris" sebagai cabaran utama buat kali pertama dalam industri Berbeza daripada formula sebelum ini untuk mengenali tulisan tangan yang diimbas dan dalam talian, kali ini akan mengenali tulisan tangan bergambar Terutamanya formula berbilang baris.

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

Pasukan pengiktirafan imej dan teks Institut Penyelidikan iFlytek memenangi kejuaraan dengan markah 67.9%, dan jauh mendahului penunjuk penilaian utama- kadar panggil balik formula Lebih daripada pasukan lain yang mengambil bahagian

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

Kadar panggil balik formula sepadan dengan Keputusan Hantar dalam senarai

Formula berbilang baris berbanding dengan struktur satu baris Kerumitan adalah lebih tinggi, dan saiz akan berubah apabila watak yang sama muncul berbilang kali dalam formula pada masa yang sama, set data yang digunakan dalam pertandingan berasal dari adegan sebenar, dan gambar formula tulisan tangan yang diambil mempunyai kualiti rendah, gangguan latar belakang, gangguan teks, Isu seperti calitan dan gangguan anotasi. Faktor-faktor ini menjadikan permainan lebih sukar.

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

Struktur formula adalah kompleks dan mengambil beberapa baris

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 #🎜 Kualiti gambar tidak bagus Tinggi, gangguan pembetulan

Sebagai tindak balas kepada masalah bahawa struktur formula adalah kompleks dan menduduki berbilang baris, pasukan menggunakan Conv2former dengan kernel lilitan besar sebagai struktur pengekod, yang mengembang bidang pandangan model dan lebih baik menangkap struktur formula berbilang baris. Ciri-ciri inovatif mencadangkan SSD penyahkod jujukan berstruktur berasaskan pengubah, yang secara eksplisit memodelkan perhubungan hierarki dalam formula berbilang baris dengan cara yang diperhalusi, meningkatkan generalisasi dengan lebih baik. struktur kompleks dan pemodelan struktur yang lebih baik.

Sebagai tindak balas kepada masalah kekaburan watak yang disebabkan oleh masalah kualiti gambar, pasukan secara inovatif mencadangkan algoritma latihan penyahkod yang dipertingkatkan secara semantik Melalui latihan bersama semantik dan penglihatan, penyahkod mempunyai pengetahuan domain intrinsik. Apabila aksara sukar dikenal pasti, model boleh menyesuaikan diri menggunakan pengetahuan domain untuk membuat inferens dan memberikan hasil pengiktirafan yang paling munasabah.

Untuk menangani masalah perubahan saiz aksara yang besar, pasukan mencadangkan algoritma anggaran skala aksara adaptif dan strategi penyahkodan gabungan berbilang skala, yang telah meningkatkan keteguhan model kepada perubahan dalam saiz aksara.

DocILE

Mahkota: "Pilih satu dalam barisan", pertandingan berkembar kedudukan maklumat dan pengekstrakan maklumat mendahului senarai# 🎜🎜 #DocILE (Lokasi Maklumat Dokumen dan Pertandingan Pengekstrakan) menilai prestasi kaedah pembelajaran mesin dalam mencari, mengekstrak dan mengenal pasti item baris maklumat utama dalam dokumen perniagaan separa berstruktur.

Permainan ini dibahagikan kepada dua tugasan trek: KILE dan LIR. Tugas KILE perlu mencari lokasi maklumat utama bagi kategori yang dipratentukan dalam dokumen Atas dasar ini, tugasan LIR selanjutnya mengumpulkan setiap maklumat utama ke dalam item baris yang berbeza (Item Baris), seperti objek tunggal (kuantiti, harga) dalam satu. baris dalam meja )tunggu. iFlytek dan Pusat Penyelidikan akhirnya memenangi kejuaraan dalam dua trek

senarai trek KILE

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

ranking trek LIR 科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

Kiri adalah penerangan trek KILE, kanan adalah penerangan trek LIR 科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

Daripada rasmi acara Boleh dilihat daripada gambarajah tugasan bahawa jenis maklumat yang akan diekstrak daripada dokumen adalah sangat kompleks. Antaranya, tugas KILE bukan sahaja perlu mengekstrak maklumat utama bagi kategori yang telah ditetapkan, tetapi juga mendapatkan lokasi khusus maklumat utama dalam tugasan LIR, item baris mungkin mempunyai berbilang baris teks dalam satu jadual. Di samping itu, terdapat banyak jenis maklumat dan format dokumen yang kompleks dan pelbagai dalam set data pertandingan ini, yang sangat meningkatkan cabaran.

Pasukan bersama mencadangkan dua penyelesaian inovasi teknikal di peringkat algoritma:

Dalam peringkat pra-latihan, kami mereka bentuk penapis dokumen berdasarkan kualiti OCR dengan mengekstrak 2.74 juta halaman imej dokumen daripada dokumen tanpa nota yang disediakan oleh penganjur. Kemudian, kami menggunakan model bahasa pra-latihan untuk mendapatkan perwakilan semantik setiap baris teks dalam dokumen, dan menggunakan tugas pemulihan perwakilan ayat bertopeng, pra-latihan di bawah konfigurasi Top-K yang berbeza (jangka perhatian dokumen dalam GraphDoc model (hiperparameter)

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

Dalam peringkat penalaan halus set data, pasukan menggunakan GraphDoc terlatih untuk mengekstrak perwakilan berbilang mod kotak teks dan melaksanakan operasi pengelasan. Berdasarkan keputusan pengelasan, perwakilan berbilang mod dihantar ke modul gabungan perhatian peringkat rendah untuk pengagregatan contoh Berdasarkan pengagregatan contoh, modul gabungan perhatian peringkat tinggi digunakan untuk merealisasikan pengagregatan kejadian item baris. Gabungan perhatian yang dicadangkan Modul mempunyai struktur yang sama tetapi tidak berkongsi parameter antara satu sama lain Ia boleh digunakan untuk kedua-dua tugas KILE dan LIR dengan hasil yang baik. . tugasan, iFlytek Memenangi tempat pertama dalam subtrek pengekstrakan maklumat berstruktur sifar sampel yang sangat sukar (Tugas3: E2E pengekstrakan teks berstruktur sifar sampel) dengan pusat penyelidikan

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

tertib kedudukan dalam jenis berlainan yang ditetapkan secara rasmi invois yang perlu diekstrak Dalam konteks elemen utama, trek memerlukan pasukan yang mengambil bahagian untuk menggunakan model untuk mengeluarkan kandungan yang sepadan bagi elemen utama ini dalam gambar "Sampel sifar" bermakna tiada pertindihan antara jenis invois set latihan dan set ujian; trek meneliti ramalan hujung ke hujung model Untuk ketepatan, ambil purata wajaran skor1 dan skor2 sebagai indeks penilaian akhir. Untuk model pra-latihan, sampel sifar mengemukakan keperluan yang lebih tinggi. Pada masa yang sama, terdapat pelbagai format invois yang digunakan dalam pertandingan, dan nama perhentian perjalanan, masa berlepas dan elemen lain dalam setiap format adalah berbeza. Selain itu, foto invois mempunyai masalah seperti gangguan latar belakang, pantulan dan pertindihan teks, yang meningkatkan lagi kesukaran pengenalan dan pengekstrakan

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 Invois dalam format berbeza

Invois diganggu oleh latar belakang berjalur. Pasukan pada mulanya menerima pakai Strategi penyahkodan dwi-cawangan jana salinan digunakan untuk melaksanakan model pengekstrakan ciri Apabila keyakinan hasil OCR bahagian hadapan adalah tinggi, hasil OCR disalin secara langsung apabila keyakinan hasil OCR adalah rendah , hasil ramalan baharu dijana untuk mengurangkan ralat Pengecaman bahagian hadapan yang diperkenalkan oleh model OCR

Selain itu, pasukan itu juga mengekstrak ciri graf graf peringkat ayat berdasarkan hasil OCR sebagai input kepada model pengekstrakan ciri ini menyepadukan ciri berbilang modal imej, teks, lokasi dan reka letak Berbanding dengan mod tunggal Input teks biasa mempunyai perwakilan ciri yang lebih kukuh.

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军 Atas dasar ini, pasukan juga menggabungkan model pengekstrakan berbilang elemen seperti UniLM, LiLT dan DocPrompt untuk meningkatkan lagi kesan pengekstrakan elemen akhir, membolehkannya menunjukkan kelebihan prestasi yang lebih baik dalam senario dan bahasa yang berbeza

Pendidikan, kewangan, penjagaan perubatan, dsb. telah dilaksanakan untuk membantu model besar meningkatkan keupayaan pelbagai mod

科大讯飞ICDAR 2023：图文识别再创辉煌，收获四项冠军

Pemilihan acara yang berkaitan ICDAR 2023 untuk cabaran datang daripada keperluan senario sebenar iFlytek dalam perniagaan sebenar yang berkaitan dengan teknologi; juga telah menembusi bidang seperti pendidikan, kewangan, penjagaan perubatan, keadilan, dan perkakasan pintar, memperkasakan pelbagai perniagaan dan produk.

Dalam bidang pendidikan, keupayaan teknikal pengecaman formula tulisan tangan kerap digunakan, dan mesin boleh memberikan pengenalan, pertimbangan dan pembetulan yang tepat. Contohnya, pembelajaran ketepatan yang diperibadikan dan diagnosis AI dalam mesin pembelajaran AI iFlytek; skrin pengajaran "iFlytek Smart Window" yang digunakan oleh guru di dalam kelas, dan manual pembelajaran peribadi pelajar, dsb., semuanya telah mencapai hasil yang hebat

Tidak lama dahulu, Pembantu Penyelidik Saintifik Spark telah dikeluarkan di forum utama Festival Pembangun iFlytek Global 1024 Salah satu daripada tiga fungsi teras pembacaan kertas boleh merealisasikan tafsiran pintar kertas dan menjawab soalan berkaitan dengan pantas. Selepas itu, berdasarkan pengecaman formula berketepatan tinggi, kesan formula struktur kimia organik, grafik, ikon, carta alir, jadual dan pengecaman pemandangan berstruktur lain akan dimajukan dengan lebih baik

Teknologi penentududukan dan pengekstrakan maklumat dokumen digunakan secara meluas dalam bidang kewangan, seperti pengekstrakan dan semakan elemen kontrak, pengekstrakan elemen bil bank, semakan perlindungan pengguna kandungan pemasaran dan senario lain. Teknologi ini boleh merealisasikan fungsi seperti analisis data, pengekstrakan maklumat dan semakan perbandingan dokumen atau fail, dan membantu data perniagaan dimasukkan, diekstrak dan dibandingkan dengan cepat, seterusnya meningkatkan kecekapan proses semakan dan mengurangkan kos

Dalam ini 1024 utama Pembantu kesihatan AI peribadi yang disiarkan di forum ialah iFlytek Xiaoyi. Ia bukan sahaja boleh mengimbas senarai semak dan pesanan ujian dan memberikan analisis dan cadangan, tetapi ia juga boleh mengimbas kotak pil dan membuat pertanyaan lanjut dan memberikan cadangan ubat tambahan. Untuk laporan pemeriksaan fizikal, pengguna boleh mengambil gambar dan memuat naiknya, dan iFlytek Xiaoyi boleh mengenal pasti maklumat penting, mentafsir petunjuk abnormal secara menyeluruh, bertanya secara proaktif dan memberikan lebih banyak bantuan. Fungsi ini bergantung pada sokongan kedudukan maklumat dokumen dan teknologi pengekstrakan

teknologi pengecaman imej dan teks iFlytek terus membuat penemuan dalam algoritma, daripada pengecaman perkataan tunggal dan pengecaman baris teks kepada pengecaman struktur dua dimensi dan pengecaman bab yang lebih kompleks . Teknologi pengecaman imej dan teks yang lebih berkuasa boleh meningkatkan kesan dan potensi model besar berbilang modal dalam penerangan imej, soalan dan jawapan imej, penciptaan pengecaman imej, pemahaman dan pemprosesan dokumen, dll. Pada masa yang sama, teknologi pengecaman imej dan teks juga menggabungkan pengecaman pertuturan, Sintesis pertuturan, terjemahan mesin dan teknologi lain telah membentuk inovasi yang sistematik, dan produk yang diperkasakan telah menunjukkan fungsi yang lebih berkuasa dan kelebihan nilai yang lebih jelas selepas permohonan juga memenangi hadiah pertama Anugerah Kemajuan Teknologi Kecerdasan Buatan Wu Wenjun 2022. . Dalam perjalanan baharu itu, "lebih mekar" dalam beberapa pertandingan ICDAR 2023 bukan sahaja maklum balas daripada kemajuan berterusan iFlytek dalam kedalaman teknologi pengecaman dan pemahaman imej dan teks, tetapi juga pengesahan pengembangan berterusannya secara meluas.

Atas ialah kandungan terperinci iFLYTEK ICDAR 2023: Pengiktirafan imej dan teks mencapai kegemilangan yang lebih besar sekali lagi, memenangi empat kejuaraan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7555

Tutorial CakePHP

1383

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Aug 22, 2024 pm 08:02 PM

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

See all articles