Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.-AI-php.cn

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pi Renjie: pelajar PhD tahun ketiga di Universiti Sains dan Teknologi Hong Kong, belajar di bawah Profesor Zhang Tong dan Profesor Zhou Xiaofang. Menerima Biasiswa Apple pada 2024. Arah penyelidikan utama semasa ialah model bahasa besar berbilang modal dan AI berpusatkan data.

Zhang Jianshu: Seorang pelajar sarjana tahun ketiga di Universiti Wuhan kini bekerja sebagai pelatih penyelidikan di bawah bimbingan Profesor Zhang Tong Arah penyelidikan utamanya ialah model bahasa besar, model bahasa besar berbilang modal dan pembelajaran berterusan. Sedang mencari peluang kemasukan PhD untuk musim gugur 2025.

Dalam pembangunan model besar berbilang modal hari ini, prestasi model berkait rapat dengan kualiti data latihan Boleh dikatakan bahawa "data memberikan model sebahagian besar keupayaannya."

Dalam hal ini, set data teks imej memainkan peranan penting dalam banyak bidang seperti pemahaman imej, penjanaan teks dan perolehan semula imej.

Walau bagaimanapun, set data perihalan imej sedia ada kebanyakannya diperoleh daripada rangkak rangkaian dan anotasi manual, dan terdapat masalah seperti kualiti tidak sekata, kekurangan butiran dan hingar perihalan tinggi. Walaupun manusia boleh memberikan penerangan terperinci untuk imej, kos anotasi yang tinggi mengehadkan skala dan kebolehlaksanaannya. Oleh itu, terdapat keperluan mendesak untuk kaedah yang cekap dan berskala untuk menjana penerangan imej yang tepat dan terperinci.

Untuk menangani cabaran di atas, penyelidik dari Universiti Sains dan Teknologi Hong Kong, Universiti Wuhan, Universiti Zhejiang dan UIUC bersama-sama mencadangkan rangka kerja automasi yang inovatif - Image-Textualization (IT), yang mengintegrasikan model bahasa besar berbilang mod (MLLM) dan pelbagai model pakar visual bekerjasama untuk mentekstualkan maklumat imej, dan akhirnya menggunakan model bahasa besar teks tulen dengan keupayaan penaakulan yang kuat untuk mengubah maklumat berteks ini kepada penerangan imej berkualiti tinggi. . //github.com/sterzhang/image-textualisasi/

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

menggunakan gambar model berbilang model untuk menerangkan secara umum , sumbangan artikel ini termasuk:

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

Rangka kerja inovatif: Kami mencadangkan rangka kerja tekstualisasi imej, yang menggunakan keupayaan pemahaman imej berbutir kasar model besar berbilang mod, keupayaan persepsi halus model pakar visual dan keupayaan penaakulan model bahasa besar teks biasa untuk menjana penerangan Imej secara automatik yang kaya dengan terperinci dan dinyatakan dengan jelas. Tanda aras dan eksperimen penilaian: Berbilang tanda aras untuk menilai penerangan imej terperinci dicadangkan, dan keberkesanan rangka kerja itu disahkan melalui eksperimen yang meluas.

Rangka kerja Tekstualisasi Imej (IT) merangkumi tiga peringkat berikut:

1. Tekstualisasi gambar berbutir kasar (Tekstualisasi Holistik): Pertama, gunakan model bahasa besar berbilang modal untuk menjana penerangan rujukan untuk gambar Walaupun penerangan ini mungkin tidak mempunyai butiran dan ilusi, ia mewakili maklumat visual dan ekspresi bahasa struktur asas disediakan. Struktur visual di sini tercermin terutamanya dalam fakta bahawa huraian rujukan selalunya mengandungi beberapa objek teras yang besar, yang boleh memberikan kesan "sauh" untuk butiran berikutnya, menjadikan kapsyen semula teks akhir yang lebih baik daripada butiran tambahan. Selain itu, struktur ungkapan bahasa dicerminkan terutamanya dalam model bahasa teks biasa yang besar yang disertakan dalam model besar berbilang modal, yang menjadikannya mempunyai keupayaan bahasa yang kuat Ini membolehkan penerangan rujukan yang dihasilkan di sini disusun dengan baik dalam bahasa Sebagai contoh, mula-mula Beritahu apa yang digambarkan secara kasar oleh gambar, kemudian kembangkan butirannya, dan akhirnya ringkaskan Gaya penerangan ini lebih berat sebelah kepada keutamaan manusia. Ini juga membolehkan kapsyen semula teks akhir diproses pada templat dengan keupayaan bahasa yang lebih baik.

2. Tekstualisasi Perincian Visual: Pada peringkat ini, kami mengekstrak butiran dari bahagian gambar dan bahagian teks pada masa yang sama.

Yang pertama ialah bahagian teks Memandangkan penerangan rujukan yang kami hasilkan menggunakan model besar berbilang modal pada peringkat sebelumnya mungkin mengandungi halusinasi, perkara pertama yang kami lakukan di sini ialah "pengesan halusinasi". Kami mula-mula menggunakan LLM untuk menangkap entiti yang terkandung dalam perihalan rujukan, dan kemudian menggunakan pengesan set terbuka untuk memadankan entiti dalam gambar Jika ia tidak dikesan, entiti itu dinilai sebagai ilusi. Di sini kami juga mentekstualkan halusinasi yang dikesan dan memadamkannya dalam kapsyen semula teks yang terakhir.

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

Di bahagian visual, kami menggunakan model pakar visual pada pelbagai tugas yang dilatih pada imej resolusi tinggi untuk mengekstrak maklumat terperinci dalam imej. Jika anda ingin menyatakan maklumat terperinci objek dalam gambar menggunakan teks, tidak cukup dengan hanya menggunakan kapsyen objek Kami mula-mula menggunakan kotak sempadan objek ini untuk mengekstrak hubungan kiri-kanan objek ini dalam bentuk daripada teks. Tetapi objek dalam gambar bukan sahaja mempunyai maklumat kiri dan kanan, tetapi juga maklumat depan dan belakang. Dalam hal ini, kami mula-mula menggunakan model segmentasi untuk mengekstrak topeng objek ini, kemudian menukar gambar asal kepada peta kedalaman, dan mencerminkan maklumat kedalaman dalam teks dengan mengira skor kedalaman sepadan dengan topeng objek tertentu dalam kedalaman. peta. Pada ketika ini, kita boleh menggunakan teks untuk memulihkan maklumat terperinci seperti saiz, kedudukan kiri dan kanan serta konteks setiap objek dalam gambar.

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

3. Kapsyen Semula Bertekstur: Menggabungkan hasil tekstualisasi maklumat imej dalam dua peringkat pertama, ditambah dengan gesaan kami yang direka bentuk semula dengan teliti, model bahasa besar teks biasa boleh menjadi sangat baik Ia memulihkan maklumat imej melalui tulen teks dan menjana penerangan imej yang terperinci dan tepat melalui keupayaan pemahaman dan penaakulan yang kuat.

Penilaian komprehensif dan pengesahan eksperimen

Untuk mengesahkan keberkesanan rangka kerja kami, kami membina tiga penanda aras penilaian, iaitu JPS-Bench (Penanda Aras Penerangan Terperinci), D2I-Bench (Penerangan-ke-Imej Penanda) dan LIN - Bangku (Tanda Aras Bahasa). Kami menjalankan percubaan yang meluas dan menunjukkan bahawa penerangan imej yang dijana oleh rangka kerja IT dengan ketara mengatasi kaedah sedia ada dari segi kekayaan dan ketepatan butiran. Khususnya, MLLM yang dilatih pada set data yang dijana oleh rangka kerja IT kami, seperti LLaVA-7B, mempamerkan keupayaan perihalan imej yang lebih kukuh dan mengurangkan fenomena halusinasi.

DID-Bench (Penanda Aras Perihalan Imej Terperinci): digunakan untuk menilai persamaan antara perihalan imej dan perihalan imej terperinci berlabel manusia secara manual. Dapat dilihat bahawa perihalan imej IT-{LLaVA} dan IT-{GPT4-V} kami yang diubah suai adalah lebih terperinci dan tepat berbanding sebelum pengubahsuaian, dan lebih konsisten dengan perihalan yang ditandakan oleh manusia.

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

D2I-Bench (Penerangan kepada Penanda Aras Imej): Gunakan model graf Vincentian untuk menukar penerangan yang dijana kepada gambar, dan bandingkan persamaan dengan imej asal Di sini kami memilih skor CLIP dan skor DINO untuk penilaian boleh mencapai markah yang lebih tinggi.

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

Selain itu, kami juga mengesahkan pada POPE dan LIN-Bench bahawa LLaVA-7B, yang dilatih menggunakan data yang dihasilkan oleh rangka kerja kami, boleh menjana penerangan yang lebih terperinci dan kompleks (LIN-Bench di sebelah kanan meja), dan juga boleh mengurangkan halusinasi (penanda aras POPE di sebelah kiri meja).

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

Akhir sekali, kami membandingkan data yang dijana secara statistik dan kami dapat melihat bahawa bilangan setiap bahagian pertuturan dalam perihalan diubah suai kami telah dipertingkatkan dengan banyak.

Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.

Pandangan Masa Depan

Kerja kami bukan sahaja menangani had set data perihalan imej sedia ada, tetapi juga memberikan inspirasi untuk mereka bentuk kaedah yang lebih cekap dan berskala. Kami menantikan rangka kerja IT yang menunjukkan potensinya dalam lebih banyak bidang aplikasi dan mempromosikan pembangunan selanjutnya pemahaman imej dan teknologi penjanaan.

Atas ialah kandungan terperinci Tukar imej kepada teks secara automatik dan penerangan imej adalah berkualiti tinggi dan lebih tepat.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!