Jadual Kandungan
Rajah 1 menunjukkan seni bina model ScreenAI. Para penyelidik telah diilhamkan oleh seni bina keluarga model PaLI, yang terdiri daripada blok pengekod multimodal.
Rumah Peranti teknologi AI Google mengeluarkan AI 'bacaan skrin' terkini! PaLM 2-S menjana data secara automatik, dan pelbagai tugas pemahaman menyegarkan SOTA

Google mengeluarkan AI 'bacaan skrin' terkini! PaLM 2-S menjana data secara automatik, dan pelbagai tugas pemahaman menyegarkan SOTA

Mar 06, 2024 pm 06:30 PM
Google ai

Model besar yang diingini semua orang ialah jenis yang benar-benar pintar...

Tidak, pasukan Google telah mencipta AI "bacaan skrin" yang berkuasa.

Para penyelidik memanggilnya ScreenAI, model bahasa visual baharu untuk memahami antara muka pengguna dan maklumat grafik.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Alamat kertas: https://arxiv.org/pdf/2402.04615.pdf Teras ScreenAI ialah kaedah perwakilan teks tangkapan skrin baharu yang boleh mengenal pasti jenis dan kedudukan elemen UI.

Para penyelidik menggunakan model bahasa Google PaLM 2-S untuk menjana data latihan sintetik, yang digunakan untuk melatih model menjawab soalan yang berkaitan dengan maklumat skrin, navigasi skrin dan ringkasan kandungan skrin. Perlu dinyatakan bahawa kaedah ini memberikan idea baharu untuk meningkatkan prestasi model apabila mengendalikan tugas berkaitan skrin.

Sebagai contoh, jika anda membuka halaman APP muzik, anda boleh bertanya "Berapa banyak lagu yang panjangnya kurang daripada 30 saat"? 谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

ScreenAI memberikan jawapan mudah: 1.

Contoh lain ialah mengarahkan ScreenAI untuk membuka menu dan anda boleh memilihnya. 谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTASumber inspirasi seni bina - PaLI

Rajah 1 menunjukkan seni bina model ScreenAI. Para penyelidik telah diilhamkan oleh seni bina keluarga model PaLI, yang terdiri daripada blok pengekod multimodal.

Blok pengekod mengandungi pengekod visual seperti ViT dan pengekod bahasa mT5 yang menggunakan input imej dan teks, diikuti dengan penyahkod autoregresif.

Imej input diubah oleh pengekod visual kepada satu siri pembenaman, yang digabungkan dengan pembenaman teks input dan dimasukkan ke dalam pengekod bahasa mT5.

Output pengekod dihantar ke penyahkod, yang menjana output teks.

Rumusan umum ini boleh menggunakan seni bina model yang sama untuk menyelesaikan pelbagai tugas visual dan pelbagai mod. Tugasan ini boleh dirumuskan semula sebagai masalah teks+imej (input) kepada teks (output).

Berbanding dengan input teks, benam imej membentuk sebahagian besar panjang input kepada pengekod berbilang modal.

Ringkasnya, model ini menggunakan pengekod imej dan pengekod bahasa untuk mengekstrak ciri imej dan teks, menggabungkan kedua-duanya dan kemudian memasukkannya ke dalam penyahkod untuk menghasilkan teks.

Kaedah pembinaan ini boleh digunakan secara meluas untuk tugasan pelbagai modal seperti pemahaman imej.

Di samping itu, para penyelidik melanjutkan lagi seni bina pengekod-penyahkod PaLI untuk menerima pelbagai mod penyekatan imej. 谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Seni bina PaLI asal hanya menerima tampalan imej dalam corak grid tetap untuk memproses imej input. Walau bagaimanapun, penyelidik dalam bidang berkaitan skrin menemui data yang merangkumi pelbagai jenis resolusi dan nisbah bidang.

Untuk membolehkan model tunggal menyesuaikan diri dengan semua bentuk skrin, perlu menggunakan strategi jubin yang berfungsi untuk imej pelbagai bentuk.

Untuk tujuan ini, pasukan Google meminjam teknologi yang diperkenalkan dalam Pix2Struct, yang membolehkan penjanaan blok imej berbentuk grid sewenang-wenangnya berdasarkan bentuk imej input dan bilangan maksimum blok yang telah ditetapkan, seperti yang ditunjukkan dalam Rajah 1.

Ini dapat menyesuaikan diri dengan memasukkan imej pelbagai format dan nisbah bidang tanpa perlu melapik atau meregangkan imej untuk membetulkan bentuknya, menjadikan model lebih serba boleh dan mampu mengendalikan kedua-dua mudah alih (iaitu potret) dan desktop (cth. landskap) format imej.

Tatarajah Model

Para penyelidik melatih 3 model saiz berbeza, mengandungi parameter 670M, 2B dan 5B.

Untuk model parameter 670M dan 2B, para penyelidik bermula dengan pusat pemeriksaan unimodal pra-latihan bagi model bahasa pengekod visual dan pengekod-penyahkod.

Untuk model parameter 5B, mulakan dari pusat pemeriksaan pra-latihan pelbagai mod PaLI-3, di mana ViT dilatih dengan model bahasa penyahkod-pengekod berasaskan UL2.

Taburan parameter antara penglihatan dan model bahasa boleh dilihat dalam Jadual 1.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Penjanaan data automatik

Penyelidik mengatakan bahawa fasa pra-latihan pembangunan model sebahagian besarnya bergantung pada akses kepada set data yang besar dan pelbagai.

Walau bagaimanapun, pelabelan set data yang luas secara manual adalah tidak praktikal, jadi strategi pasukan Google ialah - penjanaan data automatik.

Pendekatan ini memanfaatkan model kecil khusus, yang setiap satunya pandai menjana dan melabel data dengan cekap dan dengan ketepatan yang tinggi.

Berbanding dengan anotasi manual, pendekatan automatik ini bukan sahaja cekap dan berskala, tetapi juga memastikan tahap kepelbagaian dan kerumitan data tertentu.

Langkah pertama ialah memberikan model pemahaman yang menyeluruh tentang elemen teks, pelbagai komponen skrin dan struktur dan hierarki keseluruhannya. Pemahaman asas ini penting kepada keupayaan model untuk mentafsir dan berinteraksi dengan tepat dengan pelbagai antara muka pengguna.

Di sini, penyelidik mengumpul sejumlah besar tangkapan skrin daripada pelbagai peranti termasuk desktop, peranti mudah alih dan tablet melalui aplikasi merangkak dan halaman web.

Tangkapan skrin ini kemudian diberi anotasi dengan teg terperinci yang menerangkan elemen UI, hubungan ruangnya dan maklumat deskriptif lain.

Di samping itu, untuk menyuntik kepelbagaian yang lebih besar ke dalam data pra-latihan, para penyelidik juga memanfaatkan kuasa model bahasa, khususnya PaLM 2-S untuk menjana pasangan QA dalam dua peringkat.

Mulakan dengan menjana corak skrin yang diterangkan sebelum ini. Penulis kemudiannya mereka bentuk gesaan yang mengandungi corak skrin untuk membimbing model bahasa untuk menjana data sintetik.

Selepas beberapa lelaran, petua boleh dikenal pasti yang berkesan menjana tugasan yang diperlukan, seperti yang ditunjukkan dalam Lampiran C.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Untuk menilai kualiti respons yang dijana ini, penyelidik melakukan pengesahan manual pada subset data untuk memastikan keperluan kualiti yang telah ditetapkan dipenuhi.

Kaedah ini diterangkan dalam Rajah 2, yang sangat meningkatkan kedalaman dan keluasan set data pra-latihan.

Dengan memanfaatkan keupayaan pemprosesan bahasa semula jadi model ini, digabungkan dengan corak skrin berstruktur, pelbagai interaksi dan senario pengguna boleh disimulasikan.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Dua set tugasan berbeza

Seterusnya, penyelidik mentakrifkan dua set tugas yang berbeza untuk model: set awal tugasan pra-latihan dan satu set tugasan halus seterusnya.

Kedua-dua kumpulan berbeza terutamanya dalam dua aspek:

- Sumber data sebenar: Untuk tugas penalaan halus, label disediakan atau disahkan oleh penilai manusia. Untuk tugasan pra-latihan, label disimpulkan menggunakan kaedah pembelajaran yang diselia sendiri atau dijana menggunakan model lain.

- Saiz set data: Biasanya tugas pralatihan mengandungi sejumlah besar sampel, oleh itu, tugasan ini digunakan untuk melatih model melalui siri langkah yang lebih lanjutan.

Jadual 2 menunjukkan ringkasan semua tugasan pra-latihan.

Dalam data bercampur, set data ditimbang secara berkadar dengan saiznya, dengan berat maksimum yang dibenarkan untuk setiap tugasan.

🎜

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Menggabungkan sumber berbilang modal ke dalam latihan berbilang tugas, daripada pemprosesan bahasa kepada pemahaman visual dan analisis kandungan web, membolehkan model mengendalikan senario berbeza dengan berkesan dan meningkatkan fleksibiliti dan prestasi keseluruhannya.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Penyelidik menggunakan pelbagai tugas dan penanda aras untuk menganggar kualiti model semasa penalaan halus. Jadual 3 meringkaskan penanda aras ini, termasuk penanda aras skrin utama, maklumat grafik dan pemahaman dokumen sedia ada.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Keputusan eksperimen

Rajah 4 menunjukkan prestasi model ScreenAI dan membandingkannya dengan keputusan SOT terkini pada pelbagai tugasan berkaitan grafik dan skrin maklumat.

Anda boleh melihat prestasi terkemuka yang dicapai oleh ScreenAI pada tugasan yang berbeza.

Dalam Jadual 4, penyelidik membentangkan hasil penalaan halus tugas tunggal menggunakan data OCR.

Untuk tugasan QA, menambah OCR boleh meningkatkan prestasi (cth. sehingga 4.5% pada Complex ScreenQA, MPDocVQA dan InfoVQA).

Walau bagaimanapun, menggunakan OCR sedikit meningkatkan panjang input, menyebabkan latihan yang lebih perlahan secara keseluruhan. Ia juga memerlukan mendapatkan keputusan OCR pada masa inferens.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Di samping itu, penyelidik menjalankan eksperimen tugasan tunggal menggunakan saiz model berikut: 670 juta parameter, 2 bilion parameter dan 5 bilion parameter.

Seperti yang boleh diperhatikan dalam Rajah 4, untuk semua tugasan, peningkatan saiz model meningkatkan prestasi, dan peningkatan pada skala terbesar masih belum tepu.

Untuk tugasan yang memerlukan teks visual dan penaakulan aritmetik yang lebih kompleks (seperti InfoVQA, ChartQA dan Complex ScreenQA), peningkatan antara model 2 bilion parameter dan model 5 bilion parameter adalah jauh lebih besar daripada model 670 juta parameter. dan model parameter 2 bilion.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Akhirnya, Rajah 5 menunjukkan bahawa untuk imej dengan nisbah bidang >1.0 (imej mod landskap), strategi pembahagian pix2struct adalah jauh lebih baik daripada pembahagian grid tetap.

Untuk imej mod potret, arah aliran adalah bertentangan, tetapi pembahagian grid tetap hanya lebih baik sedikit.

Memandangkan penyelidik mahu model ScreenAI berfungsi pada imej dengan nisbah aspek yang berbeza, mereka memilih untuk menggunakan strategi pembahagian pix2struct.

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

Penyelidik Google berkata bahawa model ScreenAI juga memerlukan lebih banyak kajian tentang beberapa tugas untuk merapatkan jurang dengan model yang lebih besar seperti GPT-4 dan Gemini.

Atas ialah kandungan terperinci Google mengeluarkan AI 'bacaan skrin' terkini! PaLM 2-S menjana data secara automatik, dan pelbagai tugas pemahaman menyegarkan SOTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana menggunakan bulu PS untuk menghasilkan kesan telus? Bagaimana menggunakan bulu PS untuk menghasilkan kesan telus? Apr 06, 2025 pm 07:03 PM

Kaedah Pengeluaran Kesan Telus: Gunakan alat pemilihan dan bulu untuk bekerjasama: Pilih kawasan telus dan bulu untuk melembutkan tepi; Tukar mod pengadunan lapisan dan kelegapan untuk mengawal ketelusan. Gunakan topeng dan bulu: Kawasan pilih dan bulu; Tambah topeng lapisan, dan ketelusan kawalan kecerunan skala kelabu.

Bagaimana keserasian imej bootstrap berpusat Bagaimana keserasian imej bootstrap berpusat Apr 07, 2025 am 07:51 AM

Pusat Imej Bootstrap menghadapi masalah keserasian. Penyelesaiannya adalah seperti berikut: Gunakan MX-AUTO untuk memusatkan imej secara mendatar untuk paparan: blok. Pusat menegak menggunakan flexbox atau susun atur grid untuk memastikan bahawa elemen induk secara menegak berpusat untuk menyelaraskan unsur -unsur kanak -kanak. Untuk keserasian pelayar IE, gunakan alat seperti autoprefixer untuk menambah awalan pelayar secara automatik. Mengoptimumkan saiz imej, format dan pemuatan pesanan untuk meningkatkan prestasi halaman.

Bagaimana cara menambah ikon ke senarai bootstrap? Bagaimana cara menambah ikon ke senarai bootstrap? Apr 07, 2025 am 10:42 AM

Cara Menambah Ikon ke Senarai Bootstrap: Secara langsung barangan ikon ke dalam item senarai & lt; li & gt;, menggunakan nama kelas yang disediakan oleh Perpustakaan Ikon (seperti Font Awesome). Gunakan kelas Bootstrap untuk menyelaraskan ikon dan teks (contohnya, D-Flex, Justify-Content-Between, Align-Items-Center). Gunakan komponen tag bootstrap (lencana) untuk memaparkan nombor atau status. Laraskan kedudukan ikon (arah flex: row-reverse;), mengawal gaya (gaya CSS). Ralat biasa: ikon tidak dipaparkan (tidak

Bagaimana cara menukar saiz senarai bootstrap? Bagaimana cara menukar saiz senarai bootstrap? Apr 07, 2025 am 10:45 AM

Saiz senarai bootstrap bergantung kepada saiz bekas yang mengandungi senarai, bukan senarai itu sendiri. Menggunakan sistem grid Bootstrap atau Flexbox boleh mengawal saiz bekas, dengan itu secara tidak langsung mengubah saiz item senarai.

Apa yang perlu saya lakukan jika kad PS berada di antara muka pemuatan? Apa yang perlu saya lakukan jika kad PS berada di antara muka pemuatan? Apr 06, 2025 pm 06:54 PM

Antara muka pemuatan kad PS mungkin disebabkan oleh perisian itu sendiri (fail rasuah atau konflik plug-in), persekitaran sistem (pemacu yang wajar atau fail sistem rasuah), atau perkakasan (rasuah cakera keras atau kegagalan tongkat memori). Pertama semak sama ada sumber komputer mencukupi, tutup program latar belakang dan lepaskan memori dan sumber CPU. Betulkan pemasangan PS atau periksa isu keserasian untuk pemalam. Mengemas kini atau menewaskan versi PS. Semak pemacu kad grafik dan kemas kini, dan jalankan semak fail sistem. Jika anda menyelesaikan masalah di atas, anda boleh mencuba pengesanan cakera keras dan ujian memori.

Bagaimana untuk melaksanakan penyiaran senarai bootstrap? Bagaimana untuk melaksanakan penyiaran senarai bootstrap? Apr 07, 2025 am 10:27 AM

Senarai bersarang di Bootstrap memerlukan penggunaan sistem grid Bootstrap untuk mengawal gaya. Pertama, gunakan lapisan luar & lt; ul & gt; dan & lt; li & gt; Untuk membuat senarai, kemudian bungkus senarai lapisan dalaman dalam & lt; div class = & quot; row & gt; dan tambah & lt; kelas div = & quot; col-md-6 & quot; & gt; ke senarai lapisan dalaman untuk menentukan bahawa senarai lapisan dalaman menduduki separuh lebar baris. Dengan cara ini, senarai dalaman boleh mempunyai yang betul

Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Kaedah apa yang digunakan untuk menukar rentetan ke dalam objek dalam vue.js? Apr 07, 2025 pm 09:39 PM

Apabila menukar rentetan ke objek dalam vue.js, json.parse () lebih disukai untuk rentetan json standard. Untuk rentetan JSON yang tidak standard, rentetan boleh diproses dengan menggunakan ungkapan biasa dan mengurangkan kaedah mengikut format atau url yang dikodkan. Pilih kaedah yang sesuai mengikut format rentetan dan perhatikan isu keselamatan dan pengekodan untuk mengelakkan pepijat.

Apakah perbezaan antara bulu PS dan kabur? Apakah perbezaan antara bulu PS dan kabur? Apr 06, 2025 pm 07:18 PM

Terdapat perbezaan dalam dua teknologi pemprosesan imej utama: bulu dan kabur. Feathering terutamanya melembutkan tepi keras imej, dan mewujudkan kesan kecerunan semulajadi dengan mengubah ketelusan atau kelegapan, yang sesuai untuk adegan seperti potongan dan sintesis. Blur akan mengurangkan ketajaman keseluruhan imej dan membuat butiran kurang jelas. Ia sering digunakan untuk membuat konsep artistik yang kabur, mengaburkan latar belakang atau mengurangkan bunyi imej.

See all articles