Dalam bidang pemahaman imej, model besar berbilang modal telah menunjukkan prestasi cemerlang mereka sepenuhnya. Walau bagaimanapun, masih terdapat ruang untuk penambahbaikan dalam model multimodal sedia ada untuk pemahaman rajah dan tugas penjanaan yang sering dikendalikan dalam kerja.
Walaupun model terkini dalam bidang pemahaman graf berprestasi baik pada set ujian mudah, mereka tidak dapat mengendalikan tugasan soal jawab yang lebih kompleks kerana kekurangan pemahaman bahasa dan keupayaan output. Sebaliknya, prestasi model besar multimodal yang dilatih berdasarkan model bahasa besar juga tidak memuaskan, terutamanya disebabkan kekurangan sampel latihan untuk graf. Masalah ini telah menyekat kemajuan berterusan model pelbagai mod dalam pemahaman carta dan tugas penjanaan
Baru-baru ini, Tencent, Universiti Teknologi Nanyang dan Universiti Tenggara mencadangkan ChartLlama. Pasukan penyelidik mencipta set data graf berkualiti tinggi dan melatih model bahasa berskala besar berbilang modal yang memfokuskan pada pemahaman graf dan tugas penjanaan. ChartLlama menggabungkan pelbagai fungsi seperti pemprosesan bahasa dan penjanaan carta untuk menyediakan alat penyelidikan yang berkuasa untuk penyelidik saintifik dan profesional yang berkaitan.
Alamat kertas: https://arxiv.org/abs/2311.16483
Alamat halaman utama: https://tingxueronghua.github.io/ChartLlama/The team design
Strategi pengumpulan data terpelbagai yang bijak yang menggunakan GPT-4 untuk menjana data dengan tema, pengedaran dan aliran tertentu untuk memastikan kepelbagaian set data. Pasukan itu menggabungkan perpustakaan plot sumber terbuka dengan keupayaan pengaturcaraan GPT-4 untuk menulis kod carta yang tepat untuk menghasilkan perwakilan data grafik yang tepat. Di samping itu, pasukan juga menggunakan GPT-4 untuk menerangkan kandungan carta dan menjana pasangan soalan dan jawapan, menjana sampel latihan yang kaya dan pelbagai untuk setiap carta bagi memastikan model terlatih dapat memahami carta sepenuhnyaDalam bidang pemahaman carta, Model tradisional hanya boleh menyelesaikan beberapa soalan mudah, seperti tugasan soalan dan jawapan mudah seperti membaca nombor, dan tidak boleh menjawab soalan yang lebih kompleks. Model ini mengalami kesukaran mengikut arahan yang panjang dan sering membuat kesilapan dalam soalan dan jawapan yang melibatkan operasi matematik. Sebaliknya, ChartLlama boleh mengelakkan masalah ini dengan berkesan. Perbandingan khusus adalah seperti berikut:
Selain tugas tradisional, pasukan penyelidik juga menentukan beberapa tugas baharu, termasuk tiga tugas yang melibatkan penjanaan carta. Kertas kerja menyediakan contoh yang relevan:
Diberikan carta dan arahan, contoh pembinaan semula carta dan penyuntingan carta
Proses penjanaan contoh carta adalah berdasarkan arahan dan data mentahbaik pada pelbagai set data penanda aras, mencapai prestasi terkini sambil memerlukan kurang jumlah data latihan. Ia mengguna pakai kaedah penjanaan dan pengumpulan data yang fleksibel, meluaskan jenis carta dan jenis tugasan dalam pemahaman carta dan tugas penjanaan, serta menggalakkan pembangunan bidang
Tinjauan keseluruhan kaedah
Pengumpulan data ChartLlama terdiri daripada tiga peringkat utama:
Menggunakan langkah di atas, ChartLlama telah membina set data yang mengandungi berbilang tugas dan berbilang jenis carta. Perkadaran pelbagai jenis tugasan dan graf dalam jumlah set data adalah seperti berikut: Sila rujuk teks asal kertas untuk arahan dan arahan yang lebih terperinci
Para penyelidik juga menilai keupayaan tugas unik ChartLlama, termasuk menjana kod carta, meringkaskan carta dan menyunting carta. Mereka juga mencipta set ujian untuk tugasan yang sepadan dan membandingkannya dengan LLaVA-1.5, model grafik dan teks sumber terbuka paling berkuasa pada masa ini. Berikut ialah keputusannya:
Pasukan penyelidik menguji ketepatan soal jawab ChartLlama dalam pelbagai jenis carta yang berbeza dan membandingkannya dengan model SOTA Unichart yang sebelumnya dan model garis dasar yang dicadangkan adalah seperti berikut:
Secara keseluruhan, ChartLlama bukan sahaja menolak sempadan pembelajaran pelbagai mod, tetapi juga menyediakan alat yang lebih tepat dan cekap untuk pemahaman dan penjanaan carta. Sama ada dalam penulisan akademik atau pembentangan korporat, ChartLlama akan menjadikan pemahaman dan mencipta carta lebih intuitif dan cekap, mengambil langkah penting ke hadapan dalam menjana dan mentafsir data visual yang kompleks. Pembaca yang berminat boleh pergi ke teks asal kertas kerja untuk lebih banyak kandungan penyelidikan
Hasil eksperimen
Sama ada tradisional Sama ada tugasan itu baharu atau baharu, ChartLlama menunjukkan prestasi terbaik. Tugas tradisional termasuk soal jawab carta, ringkasan carta dan pengekstrakan data berstruktur carta. Membandingkan ChartLlama dengan model terkini yang terkini, hasilnya ditunjukkan dalam rajah di bawah:
Atas ialah kandungan terperinci Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!