


Bina semula LLaVA secara modular Untuk menggantikan komponen, cuma tambah 1-2 fail Kilang TinyLLaVA sumber terbuka ada di sini.
Projek TinyLLaVA+ dicipta bersama oleh pasukan Profesor Wu Ji dari Makmal Pemprosesan Isyarat Multimedia dan Maklumat Pintar (MSIIP) Jabatan Elektronik Universiti Tsinghua dan pasukan Profesor Huang Lei dari Sekolah Kepintaran Buatan dari Universiti Beihang. Makmal MSIIP Universiti Tsinghua telah lama komited dalam bidang penyelidikan seperti penjagaan perubatan pintar, pemprosesan bahasa semula jadi dan penemuan pengetahuan, dan pelbagai mod. Pasukan Beijing Airlines telah lama komited dalam bidang penyelidikan seperti pembelajaran mendalam, pelbagai mod dan penglihatan komputer. Matlamat projek TinyLLaVA+ adalah untuk membangunkan pembantu pintar merentas bahasa kecil dengan keupayaan pelbagai mod seperti pemahaman bahasa, soal jawab dan dialog. Pasukan projek akan memberikan permainan penuh untuk kelebihan masing-masing, bersama-sama mengatasi masalah teknikal, dan merealisasikan reka bentuk dan pembangunan pembantu pintar. Ini akan membawa penemuan baharu dalam bidang penyelidikan seperti penjagaan perubatan pintar, pemprosesan bahasa semula jadi dan penemuan pengetahuan, dan pelbagai mod. Pada masa yang sama, makmal MSIIP Universiti Tsinghua telah lama komited untuk perisikan
Baru-baru ini, Tsinghua University dan Universiti Beihang bersama-sama melancarkan TinyLLaVA Factory, sebuah perpustakaan kod yang menyokong penyesuaian, latihan dan penilaian model besar pelbagai mod . Kod dan model semuanya adalah sumber terbuka . Pangkalan kod ini menggunakan model kilang kejuruteraan perisian sebagai konsep reka bentuk, membina semula asas kod LLaVA secara modular, memfokuskan pada kebolehbacaan kod, kebolehskalaan fungsi dan kebolehulangan hasil percubaan. Ia memudahkan penyelidik dan pengamal meneroka ruang latihan dan reka bentuk model besar berbilang modal.
- Projek Github: https://github.com/TinyLLaVA/TinyLLaVA_Factory
- Alamat kertas: https://518
- Berpeluk Alamat model muka: https://huggingface.co/tinyllava/TinyLLaVA-Phi-2-SigLIP-3.1B atau https://huggingface.co/bczhou/TinyLLaVA-3.1B-SigLIP
- Jantung hati Alamat model SOTA mesin: https://sota.jiqizhixin.com/project/tinyllava
LLaVA ialah projek sumber terbuka berkualiti tinggi bagi komuniti berbilang modal dan digemari oleh penyelidik dan pembangun. Pemula yang baru mengenali model besar berbilang modal juga sudah biasa menggunakan projek LLaVA sebagai titik permulaan untuk mempelajari dan melatih model besar berbilang modal. Walau bagaimanapun, kod projek LLaVA agak kabur dan sukar difahami Apabila ralat ditukar secara tidak sengaja, ia boleh menjejaskan kesan latihan Bagi orang baru, mereka sering tidak berani mengubah suai butiran, yang menghalang pemahaman dan meneroka butiran penting. model besar berbilang modal menghadapi kesukaran tertentu.
Baru-baru ini, Universiti Tsinghua dan Universiti Beihang bersama-sama melancarkan Kilang TinyLLaVA, yang memodulasi dan membina semula kod LLaVA asal, memfokuskan pada pelaksanaan kod mudah, kebolehskalaan fungsi baharu dan kebolehulangan hasil latihan, membolehkan anda menyesuaikan dan melatih anda sendiri model besar berbilang modal dengan jumlah kod terkecil, sambil mengurangkan kadar ralat kod! Di bawah konfigurasi model yang sama, data latihan dan strategi latihan, menggunakan Kilang TinyLLaVA boleh melatih model dengan prestasi yang lebih baik sedikit daripada menggunakan kod LLaVA. Bagi memudahkan pengguna memahami kod dan menggunakan model, projek Kilang TinyLLaVA juga dilengkapi dengan dokumentasi kod dan tapak web Demo. Keseluruhan seni binanya ditunjukkan dalam rajah di bawah: [Rajah Senibina].
Dalam bahagian prapemprosesan data, Kilang TinyLLaVA meninggalkan pemprosesan imej yang membakar otak dan proses pemprosesan segera dalam kod LLaVA, dan menyediakan proses prapemprosesan imej dan teks yang standard, berskala, yang jelas dan ringkas. Antaranya, prapemprosesan imej boleh disesuaikan dengan Pemproses, atau anda boleh menggunakan Pemproses beberapa pengekod visual rasmi, seperti Pemproses Imej yang disertakan dengan CLIP ViT dan SigCLIP ViT. Untuk prapemprosesan teks, Templat kelas asas ditakrifkan, yang menyediakan fungsi asas dan biasa, seperti fungsi untuk menambah Mesej Sistem (Prompt), Tokenize dan menjana label Ground Truth Pengguna boleh dengan mudah melanjutkan ke LLM yang berbeza dengan mewarisi kelas asas. Templat Sembang.
Dalam bahagian model, Kilang TinyLLaVA secara semula jadi memodulasi model berbilang modal yang besar kepada tiga komponen - komponen model bahasa besar, komponen pengekod visual dan komponen penyambung perantaraan. Setiap komponen dikawal oleh objek kilang, yang bertanggungjawab untuk pendaftaran dan penggantian model baharu Pengguna boleh menggantikan mana-mana satu komponen dengan lebih mudah tanpa melibatkan bahagian lain.
Kilang TinyLLaVA menyediakan model arus perdana semasa untuk setiap komponen, seperti ditunjukkan dalam jadual di bawah.
Jurulatih masih dimodelkan selepas LLaVA, menggunakan Jurulatih yang disertakan dengan Muka Memeluk, menyepadukan Pengumpulan Kecerunan, pengelogan Wandb dan ciri lain, dan juga menyokong latihan selari DeepSpeed ZeRO2/ZeRO3. Untuk bahagian penilaian, Kilang TinyLLaVA menyediakan penilaian 8 Penanda Aras SQA/GQA/TextVQA/VQAv2/POPE/MME/MM-Vet/MMMU.
Seterusnya, mari kita serlahkan perkara utama! Projek Github Kilang TinyLLaVA juga mengajar anda cara menyesuaikan model besar berbilang modal anda sendiri. Komponen LLM, komponen pengekod penglihatan, komponen penyambung boleh diganti dengan mudah dengan hanya menambah 1-2 fail.
Ambil model LLM gantian sebagai contoh. Menurut maklum balas daripada pelajar yang telah menggunakan asas kod LLaVA, kod LLaVA terdedah kepada ralat apabila cuba menggantikan model bahasa bukan siri Llama. Kilang TinyLLaVA boleh menggantikan model bahasa dengan mudah dengan menambahkan 2 fail py, satu ialah fail Templat Sembang dan satu lagi ialah fail model. Apabila menggantikan pengekod visual, anda hanya perlu menambah 1 fail py dan mewarisi kelas asas pengekod visual.
Kilang TinyLLaVA juga menyokong penyesuaian strategi latihan Pengguna hanya perlu mengubah suai fail konfigurasi untuk menyesuaikan 3 komponen modul (LLM / pengekod visual / Penyambung) untuk mencapai sebarang kombinasi pembekuan/pemangkasan penuh/pemangkasan separa/. pemangkasan lora. Ia adalah tutorial yang mudah digunakan untuk pemula!
Seawal Februari tahun ini, projek TinyLLaVA telah menangkap potensi LLM di bawah 3B dalam model besar berbilang modal, dan menggunakan LLM berskala kecil arus perdana di pasaran untuk melatih satu siri pelbagai- model besar modal, jumlah parameter adalah antara 0.89B-3.1B. Keputusan eksperimen menunjukkan bahawa melalui pemilihan data berkualiti tinggi dan strategi latihan yang lebih terperinci, LLM berskala kecil juga boleh mencapai prestasi tugas yang serupa atau bahkan unggul kepada model besar. (Lihat laporan teknikal https://arxiv.org/abs/2402.14289 untuk butiran)
Atas ialah kandungan terperinci Bina semula LLaVA secara modular Untuk menggantikan komponen, cuma tambah 1-2 fail Kilang TinyLLaVA sumber terbuka ada di sini.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik
