Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang-AI-php.cn

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

王林

Lepaskan： 2023-12-03 11:22:48

ke hadapan

1625 orang telah melayarinya

Dalam bidang pemahaman imej, model besar berbilang modal telah menunjukkan prestasi cemerlang mereka sepenuhnya. Walau bagaimanapun, masih terdapat ruang untuk penambahbaikan dalam model multimodal sedia ada untuk pemahaman rajah dan tugas penjanaan yang sering dikendalikan dalam kerja.

Walaupun model terkini dalam bidang pemahaman graf berprestasi baik pada set ujian mudah, mereka tidak dapat mengendalikan tugasan soal jawab yang lebih kompleks kerana kekurangan pemahaman bahasa dan keupayaan output. Sebaliknya, prestasi model besar multimodal yang dilatih berdasarkan model bahasa besar juga tidak memuaskan, terutamanya disebabkan kekurangan sampel latihan untuk graf. Masalah ini telah menyekat kemajuan berterusan model pelbagai mod dalam pemahaman carta dan tugas penjanaan

Baru-baru ini, Tencent, Universiti Teknologi Nanyang dan Universiti Tenggara mencadangkan ChartLlama. Pasukan penyelidik mencipta set data graf berkualiti tinggi dan melatih model bahasa berskala besar berbilang modal yang memfokuskan pada pemahaman graf dan tugas penjanaan. ChartLlama menggabungkan pelbagai fungsi seperti pemprosesan bahasa dan penjanaan carta untuk menyediakan alat penyelidikan yang berkuasa untuk penyelidik saintifik dan profesional yang berkaitan.

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Alamat kertas: https://arxiv.org/abs/2311.16483

Alamat halaman utama: https://tingxueronghua.github.io/ChartLlama/The team design

Strategi pengumpulan data terpelbagai yang bijak yang menggunakan GPT-4 untuk menjana data dengan tema, pengedaran dan aliran tertentu untuk memastikan kepelbagaian set data. Pasukan itu menggabungkan perpustakaan plot sumber terbuka dengan keupayaan pengaturcaraan GPT-4 untuk menulis kod carta yang tepat untuk menghasilkan perwakilan data grafik yang tepat. Di samping itu, pasukan juga menggunakan GPT-4 untuk menerangkan kandungan carta dan menjana pasangan soalan dan jawapan, menjana sampel latihan yang kaya dan pelbagai untuk setiap carta bagi memastikan model terlatih dapat memahami carta sepenuhnya

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Dalam bidang pemahaman carta, Model tradisional hanya boleh menyelesaikan beberapa soalan mudah, seperti tugasan soalan dan jawapan mudah seperti membaca nombor, dan tidak boleh menjawab soalan yang lebih kompleks. Model ini mengalami kesukaran mengikut arahan yang panjang dan sering membuat kesilapan dalam soalan dan jawapan yang melibatkan operasi matematik. Sebaliknya, ChartLlama boleh mengelakkan masalah ini dengan berkesan. Perbandingan khusus adalah seperti berikut:

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Selain tugas tradisional, pasukan penyelidik juga menentukan beberapa tugas baharu, termasuk tiga tugas yang melibatkan penjanaan carta. Kertas kerja menyediakan contoh yang relevan:

Diberikan carta dan arahan, contoh pembinaan semula carta dan penyuntingan carta Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Proses penjanaan contoh carta adalah berdasarkan arahan dan data mentah

baik pada pelbagai set data penanda aras, mencapai prestasi terkini sambil memerlukan kurang jumlah data latihan. Ia mengguna pakai kaedah penjanaan dan pengumpulan data yang fleksibel, meluaskan jenis carta dan jenis tugasan dalam pemahaman carta dan tugas penjanaan, serta menggalakkan pembangunan bidang

Tinjauan keseluruhan kaedah

ChartLlama mereka bentuk pengumpulan data yang Fleksibel kaedah, memanfaatkan bahasa berkuasa dan keupayaan pengaturcaraan GPT-4 untuk mencipta set data carta berbilang modal yang kaya.

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Pengumpulan data ChartLlama terdiri daripada tiga peringkat utama:

Penjanaan data carta: ChartLlama bukan sahaja mengumpul data daripada sumber data tradisional, tetapi juga memanfaatkan kuasa GPT-4 untuk menjana data sintetik. GPT-4 dibimbing untuk menghasilkan data carta yang pelbagai dan seimbang dengan menyediakan ciri khusus seperti topik, pengedaran dan arah aliran. Memandangkan data yang dihasilkan mengandungi ciri pengedaran data yang diketahui, ini menjadikan pembinaan data arahan lebih fleksibel dan pelbagai.
Penjanaan carta: Seterusnya, menggunakan keupayaan pengaturcaraan berkuasa GPT-4, gunakan perpustakaan sumber terbuka (seperti Matplotlib) untuk menulis skrip lukisan carta berdasarkan data yang dijana dan dokumen fungsi, dan menjana satu siri dengan teliti carta yang diberikan. Memandangkan lukisan carta adalah berdasarkan sepenuhnya pada alatan sumber terbuka, algoritma ini boleh menjana lebih banyak jenis carta untuk latihan. Berbanding dengan set data sedia ada, seperti ChatQA, yang hanya menyokong tiga jenis carta, set data yang dibina oleh ChartLlama menyokong sehingga 10 jenis carta dan boleh dikembangkan sewenang-wenangnya.
Penjanaan data arahan: Selain pemaparan carta, ChartLlama selanjutnya menggunakan GPT-4 untuk menerangkan kandungan carta dan membina pelbagai data soal jawab untuk memastikan model terlatih dapat memahami carta sepenuhnya. Korpus disesuaikan arahan komprehensif ini menggabungkan teks naratif, pasangan soalan-jawapan dan sumber atau kod yang diubah suai untuk gambar rajah. Set data sebelumnya hanya menyokong 1-3 tugas pemahaman carta, manakala ChartLlama menyokong sehingga 10 tugas pemahaman carta dan penjanaan, yang boleh membantu melatih model grafik dan teks yang besar untuk memahami maklumat dalam ikon

Menggunakan langkah di atas, ChartLlama telah membina set data yang mengandungi berbilang tugas dan berbilang jenis carta. Perkadaran pelbagai jenis tugasan dan graf dalam jumlah set data adalah seperti berikut:

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Sila rujuk teks asal kertas untuk arahan dan arahan yang lebih terperinci

Hasil eksperimen

Sama ada tradisional Sama ada tugasan itu baharu atau baharu, ChartLlama menunjukkan prestasi terbaik. Tugas tradisional termasuk soal jawab carta, ringkasan carta dan pengekstrakan data berstruktur carta. Membandingkan ChartLlama dengan model terkini yang terkini, hasilnya ditunjukkan dalam rajah di bawah:

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Para penyelidik juga menilai keupayaan tugas unik ChartLlama, termasuk menjana kod carta, meringkaskan carta dan menyunting carta. Mereka juga mencipta set ujian untuk tugasan yang sepadan dan membandingkannya dengan LLaVA-1.5, model grafik dan teks sumber terbuka paling berkuasa pada masa ini. Berikut ialah keputusannya:

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Pasukan penyelidik menguji ketepatan soal jawab ChartLlama dalam pelbagai jenis carta yang berbeza dan membandingkannya dengan model SOTA Unichart yang sebelumnya dan model garis dasar yang dicadangkan adalah seperti berikut:

Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang

Secara keseluruhan, ChartLlama bukan sahaja menolak sempadan pembelajaran pelbagai mod, tetapi juga menyediakan alat yang lebih tepat dan cekap untuk pemahaman dan penjanaan carta. Sama ada dalam penulisan akademik atau pembentangan korporat, ChartLlama akan menjadikan pemahaman dan mencipta carta lebih intuitif dan cekap, mengambil langkah penting ke hadapan dalam menjana dan mentafsir data visual yang kompleks.

Pembaca yang berminat boleh pergi ke teks asal kertas kerja untuk lebih banyak kandungan penyelidikan

Atas ialah kandungan terperinci Pemahaman mendalam tentang carta: ChartLlama, raksasa carta sumber terbuka seperti Tencent dan Politeknik Nanyang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!