


Melalui 8 bilion parameter OtterHD, pasukan China Politeknik Nanyang membawakan anda pengalaman mengira unta dalam 'Sepanjang Sungai Semasa Festival Qingming'
Nak tahu berapa ekor unta dalam "Sepanjang Sungai Semasa Perayaan Qingming"? Mari lihat model berbilang modal ini yang menyokong input UHD.
Baru-baru ini, pasukan China dari Politeknik Nanyang telah membina 8 bilion parameter multi-modal model besar OtterHD berdasarkan Fuyu-8B.
Alamat kertas: https://arxiv.org/abs/2311.04219
Tidak seperti model tradisional yang terhad kepada pengekod visual saiz tetap, OtterHD-8B mempunyai saiz input yang fleksibel untuk mengendalikan Ini memastikan serba boleh di bawah pelbagai keperluan penaakulan.
Pada masa yang sama, pasukan itu juga mencadangkan ujian penanda aras baharu MagnifierBench, yang boleh menilai dengan teliti keupayaan LLM untuk membezakan butiran minit dan hubungan ruang objek dalam imej bersaiz besar.
Hasil eksperimen menunjukkan bahawa prestasi OtterHD-8B jauh lebih baik daripada model serupa dalam memproses terus input resolusi tinggi
Pertunjukan kesan
yang ditunjukkan dalam gambar di bawah Festival Qingming ( Berapakah bilangan unta di bahagian tersebut), input imej mencapai 2446x1766 piksel, dan model juga boleh menjawab soalan dengan jayanya.
Menghadapi masalah mengira epal yang pernah dikelirukan oleh GPT4-V, model berjaya mengira ia mengandungi 11 epal
sebagai tambahan kepada input tinggi
dalam kertas Sebagai contoh, kami juga telah menjalankan beberapa ujian Dalam rajah berikut, kami membiarkan model menganggap bahawa pengguna adalah PhD dari Universiti Cambridge dan menerangkan maksud angka ini.
Jawapan model mengenal pasti dengan tepat maklumat Black Hole dan White Hole dalam gambar, dan mengenal pasti ia sebagai struktur seperti terowong, dan kemudian memberikan penjelasan terperinci.
Dalam carta di bawah, model diminta menerangkan situasi berkenaan perkongsian tenaga. Model berjaya mengenal pasti beberapa jenis tenaga yang ditunjukkan dalam gambar dan mempersembahkan perkadarannya dengan tepat dari semasa ke semasa arahan demi langkah.
8 bilion arahan parameter penalaan halus OtterHD-8B
Selain itu, ia boleh diperluaskan lagi kepada resolusi yang lebih besar (seperti 1440×1440) semasa inferens.
Butiran latihan
Dalam percubaan awal, pasukan mendapati Fuyu berprestasi lemah dalam bertindak balas kepada arahan khusus pada beberapa penanda aras, yang mengakibatkan prestasi model yang sangat lemah pada MMEInggris pada MME dan MMBench Untuk menyelesaikan masalah ini, pasukan menjalankan penalaan halus arahan, melaraskan model Fuyu berdasarkan data campuran 370K, dan merujuk kepada templat arahan serupa LLaVA-1.5 untuk menyeragamkan format jawapan model
Dalam fasa latihan , Semua set data disusun ke dalam pasangan arahan/tindak balas, diagregatkan menjadi pemuat data bersatu, dan sampel seragam untuk memastikan integriti perwakilan.
Untuk meningkatkan prestasi kod pemodelan, pasukan menggunakan FlashAttention-2 dan teknologi gabungan operator dalam perpustakaan sumber FlashAttention
Dengan bantuan seni bina mudah Fuyu, seperti yang ditunjukkan dalam Rajah 2, pengubahsuaian ini dengan ketara. dipertingkatkan Penggunaan dan pemprosesan GPU yang lebih baik
Secara khusus, kaedah yang dicadangkan oleh pasukan boleh melengkapkan latihan parameter penuh pada kelajuan 3 jam/zaman pada GPU 8×A100, manakala setiap zaman hanya memerlukan 1 jam.
Apabila melatih model menggunakan pengoptimum AdamW, saiz kelompok ialah 64, kadar pembelajaran ditetapkan kepada 1×10^-5, dan pereputan berat ialah 0.1. .
Dengan kemunculan model Fuyu dan OtterHD, kami memperluaskan resolusi imej input kepada julat yang lebih besar buat kali pertama.
Untuk tujuan ini, pasukan mencipta tanda aras ujian baharu MagnifierBench meliputi 166 imej dan sejumlah 283 set soalan berdasarkan set data Penjanaan Graf Pemandangan Panotik (PVSG).
Dataset PVSG terdiri daripada data video, yang mengandungi sejumlah besar adegan yang tidak kemas dan kompleks, terutamanya video kerja rumah orang pertama.
Semasa fasa anotasi, pasukan memeriksa dengan teliti setiap pasangan soalan-jawapan dalam set data, menghapuskan pasangan yang melibatkan objek besar atau yang mudah dijawab dengan pengetahuan akal. Sebagai contoh, kebanyakan alat kawalan jauh berwarna hitam, yang mudah diteka, tetapi warna seperti merah dan kuning tidak termasuk dalam senarai ini.
Seperti yang ditunjukkan dalam Rajah 3, jenis soalan yang direka oleh MagnifierBench termasuk pengecaman, nombor, soalan berkaitan warna, dsb. Kriteria penting untuk set data ini ialah soalan mestilah cukup kompleks sehinggakan anotasi mesti berada dalam mod skrin penuh dan juga zum masuk pada imej untuk menjawab dengan tepat
LMM lebih baik dalam jawapan perbualan berbanding pendek persekitaran jawapan untuk menjana jawapan lanjutan.
- Soalan aneka pilihan
Masalah yang dihadapi oleh model ini ialah terdapat pelbagai pilihan untuk dipilih. Untuk membimbing model memilih huruf (seperti A, B, C) sebagai jawapan, pasukan mendahului soalan dengan surat daripada pilihan yang diberikan sebagai gesaan. Dalam kes ini, hanya jawapan yang betul-betul sepadan dengan pilihan yang betul dianggap sebagai jawapan yang betul
- Soalan terbuka
Berbilang pilihan akan memudahkan tugas kerana tekaan rawak mempunyai peluang 25% untuk menjadi betul . Tambahan pula, ini tidak menggambarkan senario dunia sebenar yang dihadapi oleh pembantu sembang, kerana pengguna biasanya tidak memberikan pilihan yang dipratentukan kepada model. Untuk menghapuskan kecenderungan berat sebelah ini, pasukan itu juga menanyakan soalan model dengan cara yang mudah dan terbuka tanpa pilihan segera. Analisis Eksperimen
Hasil penyelidikan menunjukkan bahawa walaupun banyak model mencapai skor tinggi pada penanda aras yang ditetapkan seperti MME dan POPE, prestasi mereka di MagnifierBench selalunya tidak memuaskan. OtterHD-8B, sebaliknya, menunjukkan prestasi yang baik pada MagnifierBench.
Untuk meneroka lebih lanjut kesan peningkatan resolusi dan menguji keupayaan generalisasi OtterHD pada resolusi yang berbeza, mungkin lebih tinggi, pasukan melatih Otter8B menggunakan resolusi tetap atau dinamik
x-axis Ia menunjukkan bahawa apabila resolusi meningkat, lebih banyak token imej dihantar ke penyahkod bahasa, dengan itu memberikan lebih banyak butiran imej.
Hasil eksperimen menunjukkan bahawa apabila resolusi meningkat, prestasi MagnifierBench juga meningkat dengan sewajarnya
Apabila resolusi meningkat, nisbah imej kepada teks meningkat secara beransur-ansur. Ini kerana purata bilangan token teks kekal tidak berubah
Perubahan ini menyerlahkan kepentingan resolusi LMM, terutamanya untuk tugas yang memerlukan perkaitan visual yang kompleks.
Tambahan pula, perbezaan prestasi antara kaedah latihan tetap dan dinamik menyerlahkan kelebihan saiz semula dinamik, terutamanya dalam mencegah overfitting pada resolusi tertentu.
Satu lagi kelebihan strategi dinamik ialah ia membolehkan model menyesuaikan diri dengan resolusi yang lebih tinggi (1440), walaupun ia tidak dilihat semasa latihan
Beberapa perbandingan
Kesimpulan
Berdasarkan seni bina inovatif Fuyu-8B, pasukan penyelidik mencadangkan model resolusi OtterHD-8B yang paling berkesan, yang boleh mengendalikan kebanyakan imej resolusi OtterHD-8B dengan berkesan Masalah LMM Had input resolusi tetap
Sementara itu, OtterHD-8B cemerlang dalam mengendalikan imej resolusi tinggi
🎜🎜 Ini menjadi jelas terutamanya dalam penanda aras MagnifierBench baharu. Tujuan penanda aras ini adalah untuk menilai keupayaan LMM untuk mengenali butiran dalam adegan yang kompleks, menyerlahkan kepentingan sokongan yang lebih fleksibel untuk resolusi yang berbeza 🎜🎜Atas ialah kandungan terperinci Melalui 8 bilion parameter OtterHD, pasukan China Politeknik Nanyang membawakan anda pengalaman mengira unta dalam 'Sepanjang Sungai Semasa Festival Qingming'. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
