Jadual Kandungan
Penaakulan Ruang
Rumah Peranti teknologi AI Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Apr 11, 2024 pm 03:10 PM
model bahasa yang besar llms robotik

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Model Bahasa Besar (LLM) menunjukkan prestasi yang mengagumkan dalam pemahaman bahasa dan pelbagai tugas penaakulan. Walau bagaimanapun, mereka masih kurang dikaji tentang aspek utama kognisi manusia: penaakulan spatial. Manusia mempunyai keupayaan untuk mencipta imej mental objek ghaib dan tindakan melalui proses yang dikenali sebagai Mind's Eye, membolehkan untuk membayangkan dunia ghaib. Diilhamkan oleh keupayaan kognitif ini, penyelidik mencadangkan Visualization of Thought (VoT). VoT bertujuan untuk membimbing penaakulan spatial LLM dengan menggambarkan tanda penaakulan mereka, dengan itu membimbing langkah penaakulan seterusnya. Para penyelidik menggunakan VoT untuk tugas penaakulan spatial berbilang hop, termasuk navigasi bahasa semula jadi, navigasi visual dan penurapan visual dalam dunia grid dua dimensi. Hasil eksperimen menunjukkan bahawa VoT meningkatkan keupayaan penaakulan spatial LLM dengan ketara. Terutama, VoT mengatasi model bahasa besar berbilang modal (MLLM) sedia ada dalam tugasan ini.

Pengenalan

Dalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah mencapai prestasi yang luar biasa dalam pelbagai tugas berkaitan bahasa. Walaupun kejayaan mereka dalam penaakulan matematik, penaakulan akal, dan tugas penaakulan lain seperti penaakulan simbolik atau logik, keupayaan mereka dalam penaakulan spatial masih kurang diterokai.

Penaakulan ruang ialah fungsi asas kognisi manusia, membolehkan kita berinteraksi dengan persekitaran kita. Ia memudahkan tugas yang memerlukan pemahaman dan penaakulan tentang hubungan ruang antara objek dan gerakannya. Penaakulan spatial model bahasa sangat bergantung pada bahasa untuk menaakul tentang maklumat spatial, dan kebolehan kognitif manusia jauh melebihi penaakulan linguistik. Manusia bukan sahaja boleh mencipta representasi abstrak yang berkaitan dengan tugas daripada persepsi visual, tetapi juga membayangkan adegan yang tidak kelihatan melalui mata minda. Ini ialah topik penyelidikan yang dikenali sebagai imej mental dalam bidang neurosains, falsafah minda dan sains kognitif. Berdasarkan fungsi kognitif ini, manusia memudahkan penaakulan spatial melalui manipulasi imej mental, seperti navigasi, putaran mental, lipatan kertas mental, dan simulasi mental. Rajah 1 menggambarkan proses manusia yang terlibat dalam tugas navigasi. Manusia meningkatkan kesedaran spatial mereka dan membimbing mereka membuat keputusan dengan mencipta imej mental laluan, menggunakan pelbagai input deria seperti arahan navigasi atau imej peta. Mereka kemudian mensimulasikan perancangan laluan melalui mata minda.

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Rajah 1: Manusia boleh meningkatkan kesedaran spatial mereka dan membimbing membuat keputusan dengan mencipta imej mental semasa penaakulan spatial. Begitu juga, model bahasa besar (LLM) boleh membina imej mental dalaman. Para penyelidik mencadangkan VoT untuk menimbulkan "mata minda" LLM dengan menggambarkan pemikiran mereka pada setiap langkah perantaraan, dengan itu mempromosikan penaakulan spatial.

Diinspirasikan oleh mekanisme kognitif ini, penyelidik membuat spekulasi bahawa LLM mempunyai keupayaan untuk mencipta dan memanipulasi imej mental dalam mata minda untuk penaakulan spatial. Seperti yang ditunjukkan dalam Rajah 1, LLM mungkin memproses dan memahami maklumat spatial dalam pelbagai format. Mereka mungkin dapat menggambarkan keadaan dalaman dan memanipulasi imej mental ini melalui mata minda untuk membimbing langkah penaakulan seterusnya untuk meningkatkan penaakulan spatial. Oleh itu, penyelidik mencadangkan

Visualization of Thought (VoT) menggesa untuk mendapatkan keupayaan ini. Kaedah ini menambahkan pad lakar visual-ruang pada LLM untuk menggambarkan langkah penaakulan mereka dan membimbing langkah seterusnya. VoT menggunakan gesaan demonstrasi sifar, dan bukannya bergantung pada beberapa demonstrasi atau menggunakan CLIP untuk visualisasi teks-ke-imej. Pilihan ini berpunca daripada keupayaan LLM untuk mendapatkan pelbagai imej mental daripada seni visual berasaskan teks.

Untuk menilai keberkesanan VoT dalam penaakulan spatial, penyelidik memilih tiga tugasan yang memerlukan kesedaran ruang LLM, termasuk

navigasi bahasa semula jadi, navigasi visual dan turapan visual. Tugasan ini memerlukan pemahaman penaakulan bentuk spatial, arah dan geometri. Untuk mensimulasikan persepsi berbilang deria seperti manusia, para penyelidik mereka bentuk dunia grid 2D yang menggunakan aksara khas sebagai format input yang kaya dalam navigasi visual dan tugas meletakkan visual LLM. Model yang berbeza (GPT-4, GPT-4V) dan teknik gesaan telah dibandingkan pada ketiga-tiga tugasan ini. Hasil penyelidikan menunjukkan bahawa VoT menggesa secara konsisten LLM untuk menggambarkan langkah penaakulan mereka dan membimbing langkah seterusnya. Oleh itu, kaedah ini mencapai peningkatan prestasi yang ketara pada tugasan yang sepadan.

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Rajah 2: Contoh peta navigasi dalam tetapan berbeza, dengan emoji rumah mewakili titik permulaan dan emoji pejabat mewakili destinasi.

Penaakulan Ruang

Penaakulan spatial merujuk kepada keupayaan untuk memahami dan menaakul tentang hubungan ruang antara objek, pergerakan dan interaksinya. Kemahiran ini penting untuk pelbagai aplikasi dunia sebenar, seperti navigasi, robotik dan pemanduan autonomi. Bidang-bidang ini memerlukan perancangan tindakan berdasarkan persepsi visual dan pemahaman terperinci tentang dimensi spatial. Walaupun beberapa tugasan dan set data telah dibangunkan untuk meneroka semantik spatial yang tertanam dalam teks, usaha penyelidikan secara amnya tertumpu pada cara istilah spatial distrukturkan secara linguistik. Baru-baru ini, pencapaian penting dan hasil yang mengagumkan telah dicapai pada penanda aras ini dengan menukar istilah spatial ke dalam bentuk logik dan menggunakan pengaturcaraan logik. Ini bermakna bahawa melaksanakan tugas ini dengan baik tidak semestinya bermakna model bahasa besar (LLM) benar-benar memahami maklumat spatial, dan ia juga tidak memberikan ukuran yang tepat bagi kesedaran spatial mereka. Kesedaran ruang melibatkan pemahaman hubungan ruang, arah, jarak dan geometri, yang penting untuk merancang tindakan dalam dunia fizikal. Untuk menilai kesedaran spatial dan kebolehan penaakulan spatial LLM, penyelidik memilih beberapa tugas yang menguji navigasi dan kemahiran penaakulan geometri, termasuk navigasi bahasa semula jadi, navigasi visual dan penurapan visual. . Konsep ini diilhamkan oleh penyelidikan terdahulu mengenai kognisi manusia, menggunakan pendekatan yang serupa dengan berjalan rawak di sepanjang struktur graf. Proses ini memerlukan pemahaman tentang penutupan gelung, yang penting untuk navigasi spatial.

Navigasi Visual

Tugas navigasi visual mempersembahkan LLM dengan dunia grid 2D sintetik dan mencabar mereka untuk menavigasi menggunakan isyarat visual. Model mesti menjana arahan navigasi untuk bergerak dalam empat arah (kiri, kanan, atas dan bawah) dari titik permulaan ke destinasi sambil mengelakkan halangan. Ini melibatkan dua subtugas: perancangan laluan dan ramalan langkah seterusnya, yang memerlukan penaakulan spatial berbilang hop, yang mana yang pertama adalah lebih kompleks.

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Pemasangan Visual

Pemasangan Visual ialah cabaran penaakulan spatial klasik. Memperluas konsep ini untuk menguji keupayaan LLM untuk memahami, menyusun dan menaakul tentang bentuk dalam kawasan terhad meningkatkan penilaian kemahiran penaakulan spatial. Tugas itu melibatkan segi empat tepat dengan sel yang tidak terisi dan pelbagai blok domino, seperti blok I-domino yang terdiri daripada empat petak sejajar. Model mesti memilih variasi blok domino yang sesuai, seperti memilih arah blok I-domino, untuk menyelesaikan teka-teki soal jawab.

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir Rajah 3: Contoh peletakan visual dengan blok domino bertopeng. Imej tidak menunjukkan variasi diputar dan dicerminkan bagi blok domino.

BerfikirRangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikirIsyarat Visual

Memandangkan cara manusia memproses maklumat spatial dalam tugas seperti navigasi, imej mental, seperti peta, sering dicipta untuk meningkatkan kesedaran spatial atau mensimulasikan pergerakan untuk membimbing membuat keputusan. Matlamat penyelidikan adalah untuk membangkitkan kesedaran spatial LLM dan membolehkan penaakulan berdasarkan situasi sebenar dengan menggambarkan langkah penaakulan pertengahan mereka. Penyelidik memperkenalkan gesaan Visualisasi Pemikiran (VoT): "Visualkan keadaan selepas setiap langkah penaakulan". Paradigma penaakulan spatial baharu ini bertujuan untuk menjana tanda penaakulan dan hasil visualisasi dalam cara bersilang.

Rajah 4: Contoh gesaan VoT dalam tiga tugasan, di mana LLM menjana tanda inferens dan visualisasi secara bersilang untuk menjejak keadaan berubah dari semasa ke semasa.

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir

Kertas: https://arxiv.org/pdf/2404.03622.pdf

Atas ialah kandungan terperinci Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Panduan langkah demi langkah untuk menggunakan Groq Llama 3 70B secara tempatan Panduan langkah demi langkah untuk menggunakan Groq Llama 3 70B secara tempatan Jun 10, 2024 am 09:16 AM

Penterjemah |. Tinjauan Bugatti |. Chonglou Artikel ini menerangkan cara menggunakan enjin inferens GroqLPU untuk menjana respons sangat pantas dalam JanAI dan VSCode. Semua orang sedang berusaha membina model bahasa besar (LLM) yang lebih baik, seperti Groq yang memfokuskan pada bahagian infrastruktur AI. Sambutan pantas daripada model besar ini adalah kunci untuk memastikan model besar ini bertindak balas dengan lebih cepat. Tutorial ini akan memperkenalkan enjin parsing GroqLPU dan cara mengaksesnya secara setempat pada komputer riba anda menggunakan API dan JanAI. Artikel ini juga akan menyepadukannya ke dalam VSCode untuk membantu kami menjana kod, kod refactor, memasukkan dokumentasi dan menjana unit ujian. Artikel ini akan mencipta pembantu pengaturcaraan kecerdasan buatan kami sendiri secara percuma. Pengenalan kepada enjin inferens GroqLPU Groq

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Evolusi kecerdasan buatan dalam penerokaan angkasa lepas dan kejuruteraan penempatan manusia Evolusi kecerdasan buatan dalam penerokaan angkasa lepas dan kejuruteraan penempatan manusia Apr 29, 2024 pm 03:25 PM

Pada tahun 1950-an, kecerdasan buatan (AI) dilahirkan. Ketika itulah penyelidik mendapati bahawa mesin boleh melakukan tugas seperti manusia, seperti berfikir. Kemudian, pada tahun 1960-an, Jabatan Pertahanan A.S. membiayai kecerdasan buatan dan menubuhkan makmal untuk pembangunan selanjutnya. Penyelidik sedang mencari aplikasi untuk kecerdasan buatan dalam banyak bidang, seperti penerokaan angkasa lepas dan kelangsungan hidup dalam persekitaran yang melampau. Penerokaan angkasa lepas ialah kajian tentang alam semesta, yang meliputi seluruh alam semesta di luar bumi. Angkasa lepas diklasifikasikan sebagai persekitaran yang melampau kerana keadaannya berbeza daripada di Bumi. Untuk terus hidup di angkasa, banyak faktor mesti dipertimbangkan dan langkah berjaga-jaga mesti diambil. Para saintis dan penyelidik percaya bahawa meneroka ruang dan memahami keadaan semasa segala-galanya boleh membantu memahami cara alam semesta berfungsi dan bersedia untuk menghadapi kemungkinan krisis alam sekitar

Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Jun 07, 2024 am 10:06 AM

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Model besar juga sangat berkuasa dalam ramalan siri masa! Pasukan China mengaktifkan keupayaan baharu LLM dan mencapai SOTA melebihi model tradisional Model besar juga sangat berkuasa dalam ramalan siri masa! Pasukan China mengaktifkan keupayaan baharu LLM dan mencapai SOTA melebihi model tradisional Apr 11, 2024 am 09:43 AM

Potensi model bahasa besar dirangsang - ramalan siri masa berketepatan tinggi boleh dicapai tanpa melatih model bahasa besar, mengatasi semua model siri masa tradisional. Monash University, Ant dan IBM Research bersama-sama membangunkan rangka kerja umum yang berjaya mempromosikan keupayaan model bahasa besar untuk memproses data jujukan merentas modaliti. Rangka kerja telah menjadi inovasi teknologi yang penting. Ramalan siri masa bermanfaat untuk membuat keputusan dalam sistem kompleks biasa seperti bandar, tenaga, pengangkutan, penderiaan jauh, dsb. Sejak itu, model besar dijangka merevolusikan perlombongan data siri masa/spatiotemporal. Pasukan penyelidikan rangka kerja pengaturcaraan semula model bahasa besar am mencadangkan rangka kerja umum untuk menggunakan model bahasa besar dengan mudah untuk ramalan siri masa umum tanpa sebarang latihan. Dua teknologi utama dicadangkan terutamanya: pengaturcaraan semula input masa; Masa-

Sebarkan model bahasa besar secara setempat dalam OpenHarmony Sebarkan model bahasa besar secara setempat dalam OpenHarmony Jun 07, 2024 am 10:02 AM

Artikel ini akan membuka sumber hasil "Pengedaran Tempatan Model Bahasa Besar dalam OpenHarmony" yang ditunjukkan pada Persidangan Teknologi OpenHarmony ke-2 alamat sumber terbuka: https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty/. InferLLM/docs/ hap_integrate.md. Idea dan langkah pelaksanaan adalah untuk memindahkan rangka kerja inferens model LLM ringan InferLLM kepada sistem standard OpenHarmony dan menyusun produk binari yang boleh dijalankan pada OpenHarmony. InferLLM ialah L yang mudah dan cekap

Sepuluh robot humanoid membentuk masa depan Sepuluh robot humanoid membentuk masa depan Mar 22, 2024 pm 08:51 PM

10 robot humanoid berikut sedang membentuk masa depan kita: 1. ASIMO: Dibangunkan oleh Honda, ASIMO ialah salah satu robot humanoid yang paling terkenal. Berdiri setinggi 4 kaki dan seberat 119 paun, ASIMO dilengkapi dengan penderia termaju dan keupayaan kecerdasan buatan yang membolehkannya menavigasi persekitaran yang kompleks dan berinteraksi dengan manusia. Fleksibiliti ASIMO menjadikannya sesuai untuk pelbagai tugas, daripada membantu orang kurang upaya kepada menyampaikan pembentangan di acara. 2. Pepper: Dicipta oleh Softbank Robotics, Pepper bertujuan untuk menjadi teman sosial bagi manusia. Dengan wajah ekspresif dan keupayaan untuk mengenali emosi, Pepper boleh mengambil bahagian dalam perbualan, membantu dalam tetapan runcit, dan juga memberikan sokongan pendidikan. Lada punya

Mempromosikan peningkatan digital industri, Robot Qianjiang membina ekosistem pembuatan pintar Mempromosikan peningkatan digital industri, Robot Qianjiang membina ekosistem pembuatan pintar Sep 24, 2023 am 10:13 AM

Automasi, kecerdasan dan kecerdasan digital ialah hala tuju pembangunan pembuatan tradisional. Sebagai salah satu peralatan utama untuk barisan pengeluaran automatik, logistik pintar, kerjasama manusia-mesin dan pengeluaran tersuai, robot memainkan peranan penting dalam perubahan daripada pembuatan tradisional kepada pembuatan pintar. Robot Aistar Qianjiang telah merangkumi empat segmen perniagaan utama: komponen teras robot perindustrian, robot lengkap, perisian industri dan integrasi sistem pembuatan pintar Pada Ekspo Perindustrian Antarabangsa China ke-23 yang diadakan dari 19 hingga 23 September, Aistar Qianjiang Robot Jiang Robot berganding bahu dengan. beberapa syarikat gabungan untuk menumpukan pada automasi industri, robot industri dan pembuatan pintar, menyediakan pengguna dengan penyelesaian lengkap industri yang canggih, pintar dan tanpa pemandu. Chen Helin, Pengerusi ASD Co., Ltd. dan Pengarah Zhejiang Qianjiang Robot Co., Ltd. berkata,

See all articles