Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.-AI-php.cn

Rumah

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

王林

Jun 24, 2024 pm 02:03 PM

projek ByteDance TiTok

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Dalam perkembangan pesat model generatif, Image Tokenization memainkan peranan yang sangat penting, seperti VAE yang Diffusion bergantung atau VQGAN yang Transformer bergantung pada . Tokenizers ini mengekod imej ke dalam ruang terpendam yang lebih padat, menjadikannya lebih cekap untuk menjana imej resolusi tinggi.

Walau bagaimanapun, Tokenizer sedia ada biasanya memetakan imej input ke dalam matriks 2D yang dikurangkan dalam ruang terpendam Reka bentuk ini secara tersirat mengehadkan hubungan pemetaan antara token dan imej, menjadikannya sukar untuk menggunakan maklumat berlebihan dalam imej dengan berkesan (contohnya. , kawasan bersebelahan selalunya mempunyai ciri yang serupa) untuk mendapatkan pengekodan imej yang lebih berkesan.

Untuk menyelesaikan masalah ini, Pasukan Model Besar ByteDance Beanbao dan Universiti Teknikal Munich mencadangkan Tokenizer imej 1D baharu: TiTok ini melanggar batasan reka bentuk Tokenizer 2D dan boleh memampatkan keseluruhan imej kepada a turutan Token yang lebih padat.

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

Pautan kertas: https://arxiv.org/abs/2406.07550
Pautan projek: https://yucornetto.github.io/projects/titok.html
https://github.com/bytedance/1d-tokenizer

Untuk imej resolusi 256 x 256, TiTok hanya memerlukan sekurang-kurangnya 32 Token untuk menyatakannya, iaitu 256 atau 1024 Token daripada 2D biasa Tokenizer berkurangan dengan ketara. Untuk imej resolusi 512 x 512, TiTok memerlukan sekurang-kurangnya 64 Token, iaitu 64 kali lebih kecil daripada Stable Diffusion's VAE Tokenizer. Di samping itu, atas tugas penjanaan imej ImageNet, menggunakan TiTok sebagai penjana Tokenizer telah meningkatkan kualiti penjanaan dan kelajuan penjanaan dengan ketara.

Pada resolusi 256, TiTok mencapai FID 1.97, dengan ketara melebihi 4.21 MaskGIT menggunakan penjana yang sama. Pada resolusi 512 TiTok boleh mencapai FID 2.74, yang bukan sahaja melebihi DiT (3.04), tetapi juga mempercepatkan penjanaan imej sebanyak 410 kali ganda berbanding DiT! Varian terbaik TiTok mencapai FID 2.13, dengan ketara melebihi DiT sementara masih mencapai pecutan 74x.

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

Dengan token yang diperlukan untuk imej untuk menghasilkan kelajuan generasi yang lebih cepat, tetapi sambil mengekalkan penjanaan imej yang berkualiti tinggi.

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda. Struktur model

Struktur TiTok adalah sangat mudah Bahagian pengekod dan penyahkod masing-masing adalah ViT Semasa proses pengekodan, satu set pengekodan tampalan imej Selepas melalui pengekod, hanya token terpendam dikekalkan dan proses pengkuantitian dilakukan. Token terpendam terkuantisasi yang diperolehi akan disambungkan bersama-sama dengan satu set token topeng dan dihantar kepada penyahkod untuk membina semula imej daripada jujukan token topeng.

Kajian tentang sifat Tokenisasi 1D

Para penyelidik menjalankan satu siri kajian eksperimen ke atas bilangan token berbeza yang digunakan untuk mewakili imej, saiz tokenizer yang berbeza, prestasi pembinaan semula, prestasi penjanaan, ketepatan probing linear, dan latihan dan Perbandingan kelajuan penaakulan. Semasa proses ini, penyelidik mendapati bahawa (1) hanya 32 Token boleh mencapai pembinaan semula dan kesan penjanaan yang baik (2) Dengan meningkatkan saiz model Tokenizer, penyelidik boleh menggunakan lebih sedikit Token untuk mewakili imej ( 3) Apabila gambar diwakili oleh Token yang lebih sedikit , Tokenizer akan mempelajari maklumat semantik yang lebih kukuh (4) Apabila Token yang lebih sedikit digunakan untuk mewakili gambar, kelajuan latihan dan inferens dipertingkatkan dengan ketara.

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

Selain itu, video tersebut menunjukkan imej yang dibina semula menggunakan saiz Tokenizer yang berbeza dan bilangan Token Dapat dilihat bahawa Tokenizer yang lebih besar boleh membina semula imej yang lebih berkualiti dengan Token terhad. Di samping itu, apabila terdapat hanya token terhad, model ini lebih cenderung untuk mengekalkan kawasan yang menonjol dan mencapai hasil pembinaan semula yang lebih baik.

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

Pengesahan eksperimen

Para penyelidik terutamanya membandingkan dengan kaedah lain pada resolusi 256 x 256 dan resolusi 512 x 512 ImageNet-1k. Dapat dilihat bahawa walaupun TiTok menggunakan bilangan Token yang terhad, ia boleh mencapai hasil pembinaan semula yang setanding (rFID) dengan kaedah lain yang menggunakan lebih banyak Token Menggunakan bilangan Token yang lebih kecil membolehkan TiTok mengekalkan kualiti imej terjana (gFID) yang lebih tinggi pada masa yang sama, ia mempunyai kelajuan penjanaan yang jauh lebih pantas daripada kaedah lain.

Sebagai contoh, TiTok-L-32 mencapai skor gFID 2.77 dan boleh menjana imej pada kelajuan 101.6 imej sesaat, yang jauh lebih pantas daripada Model Resapan lain (169 kali lebih pantas daripada DiT) atau Model Transformer (339 kali lebih pantas daripada ViT-VQGAN).

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

Kelebihan TiTok menggunakan lebih sedikit token adalah lebih jelas dalam penjanaan imej resolusi lebih tinggi, di mana TiTok-L-64 boleh melengkapkannya menggunakan hanya 64 token Pembinaan semula dan penjanaan tinggi- imej resolusi 512 berkualiti Kualiti imej yang dihasilkan bukan sahaja lebih tinggi daripada DiT (2.74 lwn. 3.04), tetapi kelajuan penjanaan meningkat hampir 410 kali.

Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.

Kesimpulan

Dalam artikel ini, penyelidik memfokuskan pada Tokenizer Imej 1D baharu dan mencadangkan Tokenizer baharu untuk mematahkan batasan penggunaan Token 2D yang lebih maju dan menjadikannya lebih maju. maklumat berlebihan dalam imej. TiTok hanya memerlukan sebilangan kecil Token (seperti 32) untuk mewakili imej, sementara masih dapat melakukan pembinaan semula dan penjanaan imej berkualiti tinggi. Dalam eksperimen penjanaan resolusi 256 dan 512 ImageNet, TiTok bukan sahaja mencapai kualiti penjanaan yang melebihi Model Penyebaran, tetapi juga mencapai kelajuan penjanaan seratus kali lebih pantas. . Menyumbang kepada pembangunan teknologi dan sosial.

Pasukan Doubao Big Model mempunyai visi dan keazaman jangka panjang dalam bidang AI Arah penyelidikannya meliputi NLP, CV, ucapan, dsb., dan ia mempunyai makmal dan jawatan penyelidikan di China, Singapura, United. Negeri dan tempat lain. Bergantung pada data yang mencukupi, pengkomputeran dan sumber lain, pasukan itu terus melabur dalam bidang yang berkaitan telah melancarkan model besar umum yang dibangunkan sendiri untuk menyediakan keupayaan berbilang modal Ia menyokong 50+ perniagaan seperti Doubao, Buttons, dan Jimeng di hilir, dan terbuka kepada orang ramai melalui pelanggan Korporat. Pada masa ini, Doubao APP telah menjadi aplikasi AIGC dengan bilangan pengguna terbesar di pasaran China.

Selamat datang ke Pasukan Model Besar Bytedance Beanbao, klik pautan di bawah untuk memasuki pelan Bytedance Top Seed:

https://mp.weixin.qq.com/s/ZjQ-v6reZXhBP6G27cbmlQ

Atas ialah kandungan terperinci Tokenizer imej baharu ByteDouBao: hanya 32 token diperlukan untuk menjana imej, dan kelajuan ditingkatkan sehingga 410 kali ganda.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang lalu By DDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7862

Tutorial Java

1649

Tutorial CakePHP

1404

Tutorial Laravel

1300

Tutorial PHP

1242

Tunjukkan Lagi

Related knowledge

Pengarang ControlNet mendapat satu lagi kejayaan! Seluruh proses menghasilkan lukisan daripada gambar, memperoleh 1.4k bintang dalam masa dua hari Jul 17, 2024 am 01:56 AM

Ia juga merupakan video Tusheng, tetapi PaintsUndo telah mengambil laluan yang berbeza. Pengarang ControlNet LvminZhang mula hidup semula! Kali ini saya menyasarkan bidang lukisan. Projek baharu PaintsUndo telah menerima 1.4kstar (masih meningkat secara menggila) tidak lama selepas ia dilancarkan. Alamat projek: https://github.com/lllyasviel/Paints-UNDO Melalui projek ini, pengguna memasukkan imej statik, dan PaintsUndo secara automatik boleh membantu anda menjana video keseluruhan proses mengecat, daripada draf baris hingga produk siap . Semasa proses lukisan, perubahan garisan adalah menakjubkan Hasil akhir video sangat serupa dengan imej asal: Mari kita lihat lukisan lengkap.

Mendahului senarai jurutera perisian AI sumber terbuka, penyelesaian tanpa ejen UIUC dengan mudah menyelesaikan masalah pengaturcaraan sebenar SWE-bench Jul 17, 2024 pm 10:02 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Semua pengarang kertas kerja ini adalah daripada pasukan guru Zhang Lingming di Universiti Illinois di Urbana-Champaign (UIUC), termasuk: Steven Code repair; pelajar kedoktoran tahun empat, penyelidik

Daripada RLHF kepada DPO kepada TDPO, algoritma penjajaran model besar sudah pun 'peringkat token' Jun 24, 2024 pm 03:04 PM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Dalam proses pembangunan kecerdasan buatan, kawalan dan bimbingan model bahasa besar (LLM) sentiasa menjadi salah satu cabaran utama, bertujuan untuk memastikan model ini adalah kedua-duanya. berkuasa dan selamat untuk masyarakat manusia. Usaha awal tertumpu kepada kaedah pembelajaran pengukuhan melalui maklum balas manusia (RL

Kerja selepas kematian Pasukan Penyelarasan Super OpenAI: Dua model besar bermain permainan, dan output menjadi lebih mudah difahami Jul 19, 2024 am 01:29 AM

Jika jawapan yang diberikan oleh model AI tidak dapat difahami sama sekali, adakah anda berani menggunakannya? Memandangkan sistem pembelajaran mesin digunakan dalam bidang yang lebih penting, menjadi semakin penting untuk menunjukkan sebab kita boleh mempercayai output mereka, dan bila tidak mempercayainya. Satu cara yang mungkin untuk mendapatkan kepercayaan dalam output sistem yang kompleks adalah dengan menghendaki sistem menghasilkan tafsiran outputnya yang boleh dibaca oleh manusia atau sistem lain yang dipercayai, iaitu, difahami sepenuhnya sehingga apa-apa ralat yang mungkin boleh dilakukan. dijumpai. Contohnya, untuk membina kepercayaan dalam sistem kehakiman, kami memerlukan mahkamah memberikan pendapat bertulis yang jelas dan boleh dibaca yang menjelaskan dan menyokong keputusan mereka. Untuk model bahasa yang besar, kita juga boleh menggunakan pendekatan yang sama. Walau bagaimanapun, apabila mengambil pendekatan ini, pastikan model bahasa menjana

Satu kejayaan ketara dalam Hipotesis Riemann! Tao Zhexuan amat mengesyorkan kertas kerja baharu daripada MIT dan Oxford, dan pemenang Fields Medal berusia 37 tahun mengambil bahagian Aug 05, 2024 pm 03:32 PM

Baru-baru ini, Hipotesis Riemann, yang dikenali sebagai salah satu daripada tujuh masalah utama milenium, telah mencapai kejayaan baharu. Hipotesis Riemann ialah masalah yang tidak dapat diselesaikan yang sangat penting dalam matematik, berkaitan dengan sifat tepat taburan nombor perdana (nombor perdana ialah nombor yang hanya boleh dibahagikan dengan 1 dan dirinya sendiri, dan ia memainkan peranan asas dalam teori nombor). Dalam kesusasteraan matematik hari ini, terdapat lebih daripada seribu proposisi matematik berdasarkan penubuhan Hipotesis Riemann (atau bentuk umumnya). Dalam erti kata lain, sebaik sahaja Hipotesis Riemann dan bentuk umumnya dibuktikan, lebih daripada seribu proposisi ini akan ditetapkan sebagai teorem, yang akan memberi kesan yang mendalam terhadap bidang matematik dan jika Hipotesis Riemann terbukti salah, maka antara cadangan ini sebahagian daripadanya juga akan kehilangan keberkesanannya. Kejayaan baharu datang daripada profesor matematik MIT Larry Guth dan Universiti Oxford

Kertas arXiv boleh disiarkan sebagai 'bertubi-tubi', platform perbincangan Stanford alphaXiv dalam talian, LeCun menyukainya Aug 01, 2024 pm 05:18 PM

sorakan! Bagaimana rasanya apabila perbincangan kertas adalah perkataan? Baru-baru ini, pelajar di Universiti Stanford mencipta alphaXiv, forum perbincangan terbuka untuk kertas arXiv yang membenarkan soalan dan ulasan disiarkan terus pada mana-mana kertas arXiv. Pautan laman web: https://alphaxiv.org/ Malah, tidak perlu melawati tapak web ini secara khusus. Hanya tukar arXiv dalam mana-mana URL kepada alphaXiv untuk terus membuka kertas yang sepadan di forum alphaXiv: anda boleh mencari perenggan dengan tepat dalam. kertas itu, Ayat: Dalam ruang perbincangan di sebelah kanan, pengguna boleh menyiarkan soalan untuk bertanya kepada pengarang tentang idea dan butiran kertas tersebut Sebagai contoh, mereka juga boleh mengulas kandungan kertas tersebut, seperti: "Diberikan kepada

MLLM berasaskan Mamba yang pertama ada di sini! Berat model, kod latihan, dsb. semuanya telah menjadi sumber terbuka Jul 17, 2024 am 02:46 AM

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Pengenalan Dalam beberapa tahun kebelakangan ini, aplikasi model bahasa besar multimodal (MLLM) dalam pelbagai bidang telah mencapai kejayaan yang luar biasa. Walau bagaimanapun, sebagai model asas untuk banyak tugas hiliran, MLLM semasa terdiri daripada rangkaian Transformer yang terkenal, yang

Latihan aksiomatik membolehkan LLM mempelajari penaakulan kausal: model 67 juta parameter adalah setanding dengan trilion tahap parameter GPT-4 Jul 17, 2024 am 10:14 AM

Tunjukkan rantai sebab kepada LLM dan ia mempelajari aksiom. AI sudah pun membantu ahli matematik dan saintis menjalankan penyelidikan Contohnya, ahli matematik terkenal Terence Tao telah berulang kali berkongsi pengalaman penyelidikan dan penerokaannya dengan bantuan alatan AI seperti GPT. Untuk AI bersaing dalam bidang ini, keupayaan penaakulan sebab yang kukuh dan boleh dipercayai adalah penting. Penyelidikan yang akan diperkenalkan dalam artikel ini mendapati bahawa model Transformer yang dilatih mengenai demonstrasi aksiom transitiviti sebab pada graf kecil boleh digeneralisasikan kepada aksiom transitiviti pada graf besar. Dalam erti kata lain, jika Transformer belajar untuk melakukan penaakulan sebab yang mudah, ia boleh digunakan untuk penaakulan sebab yang lebih kompleks. Rangka kerja latihan aksiomatik yang dicadangkan oleh pasukan adalah paradigma baharu untuk pembelajaran penaakulan sebab berdasarkan data pasif, dengan hanya demonstrasi

See all articles