Rumah > Peranti teknologi > AI > teks badan

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data 'Soalan dan Jawapan Penaakulan Grafik' GITQA: Graf visual boleh meningkatkan keupayaan penaakulan

PHPz
Lepaskan: 2024-03-04 17:43:33
ke hadapan
570 orang telah melayarinya

Rangkaian saraf graf (GNN) pandai memanfaatkan maklumat struktur graf untuk inferens, tetapi selalunya memerlukan penalaan khusus domain untuk mencapai prestasi optimum, yang mengehadkan keupayaan mereka untuk membuat generalisasi merentas tugasan yang berbeza.

Model Bahasa Besar (LLM) mempunyai keupayaan silang tugas dan generalisasi yang lebih kukuh untuk penaakulan graf, tetapi selalunya tidak berfungsi sebaik model rangkaian saraf graf khusus pada tugasan tertentu.

Penyelidikan semasa tentang penaakulan graf sering mengabaikan kepentingan maklumat visual dalam penaakulan graf, sama ada rangkaian neural graf tradisional atau kaedah penaakulan graf berdasarkan model bahasa yang besar.

Walau bagaimanapun, manusia menggunakan ciri visual untuk menyelesaikan tugas graf dengan cekap dan tepat, seperti menentukan sama ada terdapat gelang dalam graf.

Oleh itu, adalah amat penting untuk meneroka peranan maklumat graf morfologi visual dalam penaakulan graf.

Secara lebih khusus, bolehkah melukis graf (Graf) sebagai gambar (Imej) memberi model keupayaan penaakulan yang istimewa? Bolehkah imej ini (dipanggil Graf Visual) meningkatkan model penaakulan graf sedia ada berdasarkan modaliti lain?

Untuk menjawab soalan ini, pasukan penyelidik dari Universiti Sains dan Teknologi Hong Kong dan Universiti Sains dan Teknologi Selatan membina set data soalan dan jawapan inferens pertama GITQA yang mengandungi graf visual, dan menggunakannya pada model sumber terbuka seperti GPT-4 turbo, GPT-4V dan Vicuna, LLaVA, dsb. Eksperimen meluas telah dijalankan pada model sumber tertutup, mengesahkan peranan Graf Visual dalam penaakulan graf dan pengukuhan bersamanya dengan modaliti teks.

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanPictures

paper Alamat: https://arxiv.org/abs/2402.02130

project homepage: https://v-graph.github.io/

di Gitqa Dalam penanda aras ujian, model berbilang mod GITA-7B/13B, yang diperhalusi berdasarkan LLaVA-7B/13B, menunjukkan prestasi penaakulan graf yang mengatasi GPT-4V.

Set Data Soalan dan Jawapan Penaakulan Graf Multimodal GITQA

Pasukan penyelidik menubuhkan set data GITQA dan tanda aras ujian yang sepadan dengan melukis struktur graf ke dalam imej visual gaya yang berbeza Set data GITQA mengandungi lebih daripada 423K contoh soal jawab , setiap kejadian mengandungi maklumat struktur-teks-visual graf yang saling sepadan dan pasangan soalan dan jawapan yang sepadan.

Set data GITQA mengandungi dua versi: GITQA-Base dan GITQA-Aug, antaranya GITQA-Base hanya mengandungi imej visual gaya tunggal. .

Gambar

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanSeperti yang ditunjukkan dalam Rajah 1, penanda aras ujian GITQA mengandungi 8 tugas penaakulan graf perwakilan: Ketersambungan (menentukan sama ada dua titik dalam graf disambungkan), Kitaran (menentukan sama ada terdapat kitaran graf), TS (Mencari susunan topologi graf), SP (Mencari laluan terpendek antara dua titik dalam graf), MaxFlow (Mengira aliran maksimum antara dua titik dalam graf), BGM (Mengira padanan maksimum bagi graf dwipartit), HP (Mencari padanan maksimum dalam graf) Laluan Hamiltonian) dan GNN (mensimulasikan penghantaran mesej GNN).

Gambar

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanSet data yang sepadan dengan setiap tugasan dibahagikan kepada subset tahap kesukaran yang berbeza mengikut kerumitan struktur graf (statistik yang berkaitan ditunjukkan dalam Jadual 1).

Eksperimen dan keputusan

Eksperimen 1: Perbandingan keupayaan penaakulan graf model berdasarkan maklumat graf modal yang berbeza

Pasukan penyelidik menggunakan set data GITQA-termasuk data mengikut jenis input graf modal yang berbeza sahaja (dalam jenis input graf modal yang berbeza) (T-Sahaja), penglihatan sahaja (V-Sahaja), dan teks tambah penglihatan (V+T)), menilai model bahasa berskala besar sumber tertutup dan sumber terbuka yang popular (seperti GPT-4 turbo dan Vicuna-7B /13B) dan prestasi model bahasa berbilang modal yang besar seperti GPT-4V dan LLaVA-7B/13B. seperti yang ditunjukkan dalam gambar 2.

Gambar

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulan Secara khusus, model sumber tertutup GPT-4 dan GPT-4V melakukan inferens sampel sifar, manakala untuk model sumber terbuka Vicuna dan LLaVA, dengan mengekalkan parameter model tulang belakang sahaja bahagian Projektor dan LoRA telah diperhalusi (khususnya, model LLaVA selepas penalaan halus dwi-modal visual + teks dinamakan GITA oleh penyelidik).

Jadual 2 meringkaskan keputusan ujian untuk kesemua lapan tugas penaakulan graf.

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanPictures

Visual modaliti V.S. Text modality

Seperti yang dapat dilihat dari Jadual 2, modaliti visual berprestasi lebih baik daripada modaliti teks pada Cycle dan tugasan BGM, manakala pada lima tugasan lain Ia bukan sebagai baik sebagai modal teks. Ini mendedahkan bahawa visi dan teks masing-masing mempunyai kelebihan dalam mengendalikan jenis tugas penaakulan graf tertentu. Peningkatan bersama modaliti visual dan teks

Untuk model sumber tertutup, GPT-4V (V+T) mempunyai ketepatan purata yang lebih tinggi pada lapan tugasan daripada GPT-4 Turbo (T-sahaja) dan GPT-4V (V -sahaja ).

Untuk model sumber terbuka (7B, 13B), begitu juga, model GITA yang dilatih menggunakan data bimodal menunjukkan prestasi terbaik secara purata. Pemerhatian ini mengesahkan bahawa menggunakan maklumat visual dan teks secara serentak boleh meningkatkan keupayaan penaakulan graf model dan mencapai prestasi yang lebih baik daripada model mod tunggal.

Secara lebih khusus, GITA-7B (V+T) mengatasi LLaVA-7B (V-sahaja) dan Vicuna-7B (T-sahaja) dalam hampir semua tugas. Untuk model sumber tertutup, menggunakan bimodaliti mencapai ketepatan tertinggi pada lima daripada lapan tugasan. Model LLaVA yang ditala halus boleh mengatasi GPT-4V

Seperti yang ditunjukkan dalam Jadual 2 dan Rajah 3, model GITA-7B dan GITA-13B, iaitu model LLaVA-7B/13B yang ditala halus dwi-modal, tunjukkan prestasi yang lebih baik daripada GPT -4V Peningkatan prestasi yang ketara melebihi 13%. Peningkatan besar ini menunjukkan bahawa model GITA yang diperhalusi boleh mempelajari keupayaan penaakulan graf yang sangat baik daripada set data GITQA.

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanGambar

Percubaan 2: Kesan tahap kesukaran pada tugasan graf

Jadual 3 seterusnya memberikan ketepatan ujian model pada tahap kesukaran yang berbeza (tugas GNN telah ditinggalkan kerana ia terlalu mencabar untuk semua model) .

Prestasi menggunakan modaliti visual sahaja mengatasi modaliti teks dan setanding dengan menggunakan kedua-dua modaliti dalam tugasan Kitaran dan BGM pada semua tahap kesukaran.

Namun, untuk tugasan lain, prestasi model hanya menggunakan modaliti visual menurun dengan ketara apabila kesukaran meningkat daripada mudah kepada sederhana atau sukar.

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanGambar

Begitu juga, apabila kesukaran meningkat, model yang hanya menggunakan modaliti teks dan visual + teks modaliti juga akan mengalami penurunan prestasi yang besar pada tugasan ini.

Untuk tugas Ketersambungan, GITA-7B (Visual + Teks) dan GITA-13B (Visual + Teks) menunjukkan prestasi yang setanding pada ketiga-tiga tahap cabaran.

Walau bagaimanapun, corak konsisten ini tidak diperhatikan dalam GPT-4V (Visual + Teks), kerana prestasinya menurun dengan peningkatan tahap kesukaran.

Eksperimen 3: Strategi peningkatan graf visual dan pilihan gaya

Pasukan penyelidik juga meneroka kesan strategi penambahan data khas dalam memperhalusi model.

Berdasarkan strategi peningkatan yang berbeza, para penyelidik membahagikan set data GITQA-Aug kepada empat subset peningkatan: set data peningkatan reka letak, set data peningkatan bentuk nod, set data peningkatan lebar tepi dan set data peningkatan gaya nod.

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanPictures

Penyelidik memperhalusi kesemua empat subset dipertingkatkan secara berasingan pada model LLaVA-7B yang hanya menggunakan maklumat peta visual Perbandingan prestasi inferensnya sebelum peningkatan data ditunjukkan dalam Jadual 4 Paparan .

Ia boleh dilihat dengan jelas bahawa keupayaan penaakulan model untuk tugasan mencabar pada set data yang dipertingkatkan susun atur telah bertambah baik secara mendadak (SP meningkat sebanyak 64.8%, HP meningkat sebanyak 69.63%).

Tiga strategi penambahan data yang lain sebenarnya membawa kepada kemerosotan prestasi.

Secara khusus, model ini mencapai hasil yang sangat baik pada set yang ditambah susun atur, iaitu lebih daripada 11% lebih tinggi daripada set GITQA-Base. Sebagai perbandingan, keputusan purata untuk lapan tugasan dalam set tambahan yang lain adalah kira-kira 5% lebih rendah daripada set asas

Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data Soalan dan Jawapan Penaakulan Grafik GITQA: Graf visual boleh meningkatkan keupayaan penaakulanGambar

Penemuan ini mencadangkan bahawa penambahan data berasaskan reka letak menyediakan perspektif visual yang lebih berkesan untuk penaakulan graf. Tambahan pula, penyelidik juga menguji prestasi penaakulan Graf Visual berdasarkan setiap gaya dalam kumpulan yang sama di bawah setiap strategi peningkatan Seperti yang ditunjukkan dalam Jadual 5, ia menunjukkan bahawa model tidak mempunyai keutamaan gaya yang jelas.

Atas ialah kandungan terperinci Model 7B mengatasi GPT4-V! Universiti Sains dan Teknologi Hong Kong dan lain-lain mengeluarkan set data 'Soalan dan Jawapan Penaakulan Grafik' GITQA: Graf visual boleh meningkatkan keupayaan penaakulan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!