


Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir
PengenalanDalam beberapa tahun kebelakangan ini, model bahasa besar (LLM) telah mencapai prestasi yang luar biasa dalam pelbagai tugas berkaitan bahasa. Walaupun kejayaan mereka dalam penaakulan matematik, penaakulan akal, dan tugas penaakulan lain seperti penaakulan simbolik atau logik, keupayaan mereka dalam penaakulan spatial masih kurang diterokai.Model Bahasa Besar (LLM) menunjukkan prestasi yang mengagumkan dalam pemahaman bahasa dan pelbagai tugas penaakulan. Walau bagaimanapun, mereka masih kurang dikaji tentang aspek utama kognisi manusia: penaakulan spatial. Manusia mempunyai keupayaan untuk mencipta imej mental objek ghaib dan tindakan melalui proses yang dikenali sebagai Mind's Eye, membolehkan untuk membayangkan dunia ghaib. Diilhamkan oleh keupayaan kognitif ini, penyelidik mencadangkan Visualization of Thought (VoT). VoT bertujuan untuk membimbing penaakulan spatial LLM dengan menggambarkan tanda penaakulan mereka, dengan itu membimbing langkah penaakulan seterusnya. Para penyelidik menggunakan VoT untuk tugas penaakulan spatial berbilang hop, termasuk navigasi bahasa semula jadi, navigasi visual dan penurapan visual dalam dunia grid dua dimensi. Hasil eksperimen menunjukkan bahawa VoT meningkatkan keupayaan penaakulan spatial LLM dengan ketara. Terutama, VoT mengatasi model bahasa besar berbilang modal (MLLM) sedia ada dalam tugasan ini.
Penaakulan ruang ialah fungsi asas kognisi manusia, membolehkan kita berinteraksi dengan persekitaran kita. Ia memudahkan tugas yang memerlukan pemahaman dan penaakulan tentang hubungan ruang antara objek dan gerakannya. Penaakulan spatial model bahasa sangat bergantung pada bahasa untuk menaakul tentang maklumat spatial, dan kebolehan kognitif manusia jauh melebihi penaakulan linguistik. Manusia bukan sahaja boleh mencipta representasi abstrak yang berkaitan dengan tugas daripada persepsi visual, tetapi juga membayangkan adegan yang tidak kelihatan melalui mata minda. Ini ialah topik penyelidikan yang dikenali sebagai imej mental dalam bidang neurosains, falsafah minda dan sains kognitif. Berdasarkan fungsi kognitif ini, manusia memudahkan penaakulan spatial melalui manipulasi imej mental, seperti navigasi, putaran mental, lipatan kertas mental, dan simulasi mental. Rajah 1 menggambarkan proses manusia yang terlibat dalam tugas navigasi. Manusia meningkatkan kesedaran spatial mereka dan membimbing mereka membuat keputusan dengan mencipta imej mental laluan, menggunakan pelbagai input deria seperti arahan navigasi atau imej peta. Mereka kemudian mensimulasikan perancangan laluan melalui mata minda.
Visualization of Thought (VoT) menggesa untuk mendapatkan keupayaan ini. Kaedah ini menambahkan pad lakar visual-ruang pada LLM untuk menggambarkan langkah penaakulan mereka dan membimbing langkah seterusnya. VoT menggunakan gesaan demonstrasi sifar, dan bukannya bergantung pada beberapa demonstrasi atau menggunakan CLIP untuk visualisasi teks-ke-imej. Pilihan ini berpunca daripada keupayaan LLM untuk mendapatkan pelbagai imej mental daripada seni visual berasaskan teks.
Untuk menilai keberkesanan VoT dalam penaakulan spatial, penyelidik memilih tiga tugasan yang memerlukan kesedaran ruang LLM, termasuknavigasi bahasa semula jadi, navigasi visual dan turapan visual. Tugasan ini memerlukan pemahaman penaakulan bentuk spatial, arah dan geometri. Untuk mensimulasikan persepsi berbilang deria seperti manusia, para penyelidik mereka bentuk dunia grid 2D yang menggunakan aksara khas sebagai format input yang kaya dalam navigasi visual dan tugas meletakkan visual LLM. Model yang berbeza (GPT-4, GPT-4V) dan teknik gesaan telah dibandingkan pada ketiga-tiga tugasan ini. Hasil penyelidikan menunjukkan bahawa VoT menggesa secara konsisten LLM untuk menggambarkan langkah penaakulan mereka dan membimbing langkah seterusnya. Oleh itu, kaedah ini mencapai peningkatan prestasi yang ketara pada tugasan yang sepadan.
Penaakulan Ruang
Penaakulan spatial merujuk kepada keupayaan untuk memahami dan menaakul tentang hubungan ruang antara objek, pergerakan dan interaksinya. Kemahiran ini penting untuk pelbagai aplikasi dunia sebenar, seperti navigasi, robotik dan pemanduan autonomi. Bidang-bidang ini memerlukan perancangan tindakan berdasarkan persepsi visual dan pemahaman terperinci tentang dimensi spatial. Walaupun beberapa tugasan dan set data telah dibangunkan untuk meneroka semantik spatial yang tertanam dalam teks, usaha penyelidikan secara amnya tertumpu pada cara istilah spatial distrukturkan secara linguistik. Baru-baru ini, pencapaian penting dan hasil yang mengagumkan telah dicapai pada penanda aras ini dengan menukar istilah spatial ke dalam bentuk logik dan menggunakan pengaturcaraan logik. Ini bermakna bahawa melaksanakan tugas ini dengan baik tidak semestinya bermakna model bahasa besar (LLM) benar-benar memahami maklumat spatial, dan ia juga tidak memberikan ukuran yang tepat bagi kesedaran spatial mereka. Kesedaran ruang melibatkan pemahaman hubungan ruang, arah, jarak dan geometri, yang penting untuk merancang tindakan dalam dunia fizikal. Untuk menilai kesedaran spatial dan kebolehan penaakulan spatial LLM, penyelidik memilih beberapa tugas yang menguji navigasi dan kemahiran penaakulan geometri, termasuk navigasi bahasa semula jadi, navigasi visual dan penurapan visual. . Konsep ini diilhamkan oleh penyelidikan terdahulu mengenai kognisi manusia, menggunakan pendekatan yang serupa dengan berjalan rawak di sepanjang struktur graf. Proses ini memerlukan pemahaman tentang penutupan gelung, yang penting untuk navigasi spatial.
Navigasi Visual
Tugas navigasi visual mempersembahkan LLM dengan dunia grid 2D sintetik dan mencabar mereka untuk menavigasi menggunakan isyarat visual. Model mesti menjana arahan navigasi untuk bergerak dalam empat arah (kiri, kanan, atas dan bawah) dari titik permulaan ke destinasi sambil mengelakkan halangan. Ini melibatkan dua subtugas: perancangan laluan dan ramalan langkah seterusnya, yang memerlukan penaakulan spatial berbilang hop, yang mana yang pertama adalah lebih kompleks.Pemasangan Visual
Pemasangan Visual ialah cabaran penaakulan spatial klasik. Memperluas konsep ini untuk menguji keupayaan LLM untuk memahami, menyusun dan menaakul tentang bentuk dalam kawasan terhad meningkatkan penilaian kemahiran penaakulan spatial. Tugas itu melibatkan segi empat tepat dengan sel yang tidak terisi dan pelbagai blok domino, seperti blok I-domino yang terdiri daripada empat petak sejajar. Model mesti memilih variasi blok domino yang sesuai, seperti memilih arah blok I-domino, untuk menyelesaikan teka-teki soal jawab. Rajah 3: Contoh peletakan visual dengan blok domino bertopeng. Imej tidak menunjukkan variasi diputar dan dicerminkan bagi blok domino.
BerfikirIsyarat Visual
Memandangkan cara manusia memproses maklumat spatial dalam tugas seperti navigasi, imej mental, seperti peta, sering dicipta untuk meningkatkan kesedaran spatial atau mensimulasikan pergerakan untuk membimbing membuat keputusan. Matlamat penyelidikan adalah untuk membangkitkan kesedaran spatial LLM dan membolehkan penaakulan berdasarkan situasi sebenar dengan menggambarkan langkah penaakulan pertengahan mereka. Penyelidik memperkenalkan gesaan Visualisasi Pemikiran (VoT): "Visualkan keadaan selepas setiap langkah penaakulan". Paradigma penaakulan spatial baharu ini bertujuan untuk menjana tanda penaakulan dan hasil visualisasi dalam cara bersilang.
Rajah 4: Contoh gesaan VoT dalam tiga tugasan, di mana LLM menjana tanda inferens dan visualisasi secara bersilang untuk menjejak keadaan berubah dari semasa ke semasa.
Kertas: https://arxiv.org/pdf/2404.03622.pdf
Atas ialah kandungan terperinci Rangsang keupayaan penaakulan spatial model bahasa besar: petua visualisasi berfikir. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Penterjemah |. Tinjauan Bugatti |. Chonglou Artikel ini menerangkan cara menggunakan enjin inferens GroqLPU untuk menjana respons sangat pantas dalam JanAI dan VSCode. Semua orang sedang berusaha membina model bahasa besar (LLM) yang lebih baik, seperti Groq yang memfokuskan pada bahagian infrastruktur AI. Sambutan pantas daripada model besar ini adalah kunci untuk memastikan model besar ini bertindak balas dengan lebih cepat. Tutorial ini akan memperkenalkan enjin parsing GroqLPU dan cara mengaksesnya secara setempat pada komputer riba anda menggunakan API dan JanAI. Artikel ini juga akan menyepadukannya ke dalam VSCode untuk membantu kami menjana kod, kod refactor, memasukkan dokumentasi dan menjana unit ujian. Artikel ini akan mencipta pembantu pengaturcaraan kecerdasan buatan kami sendiri secara percuma. Pengenalan kepada enjin inferens GroqLPU Groq

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Pada tahun 1950-an, kecerdasan buatan (AI) dilahirkan. Ketika itulah penyelidik mendapati bahawa mesin boleh melakukan tugas seperti manusia, seperti berfikir. Kemudian, pada tahun 1960-an, Jabatan Pertahanan A.S. membiayai kecerdasan buatan dan menubuhkan makmal untuk pembangunan selanjutnya. Penyelidik sedang mencari aplikasi untuk kecerdasan buatan dalam banyak bidang, seperti penerokaan angkasa lepas dan kelangsungan hidup dalam persekitaran yang melampau. Penerokaan angkasa lepas ialah kajian tentang alam semesta, yang meliputi seluruh alam semesta di luar bumi. Angkasa lepas diklasifikasikan sebagai persekitaran yang melampau kerana keadaannya berbeza daripada di Bumi. Untuk terus hidup di angkasa, banyak faktor mesti dipertimbangkan dan langkah berjaga-jaga mesti diambil. Para saintis dan penyelidik percaya bahawa meneroka ruang dan memahami keadaan semasa segala-galanya boleh membantu memahami cara alam semesta berfungsi dan bersedia untuk menghadapi kemungkinan krisis alam sekitar

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Potensi model bahasa besar dirangsang - ramalan siri masa berketepatan tinggi boleh dicapai tanpa melatih model bahasa besar, mengatasi semua model siri masa tradisional. Monash University, Ant dan IBM Research bersama-sama membangunkan rangka kerja umum yang berjaya mempromosikan keupayaan model bahasa besar untuk memproses data jujukan merentas modaliti. Rangka kerja telah menjadi inovasi teknologi yang penting. Ramalan siri masa bermanfaat untuk membuat keputusan dalam sistem kompleks biasa seperti bandar, tenaga, pengangkutan, penderiaan jauh, dsb. Sejak itu, model besar dijangka merevolusikan perlombongan data siri masa/spatiotemporal. Pasukan penyelidikan rangka kerja pengaturcaraan semula model bahasa besar am mencadangkan rangka kerja umum untuk menggunakan model bahasa besar dengan mudah untuk ramalan siri masa umum tanpa sebarang latihan. Dua teknologi utama dicadangkan terutamanya: pengaturcaraan semula input masa; Masa-

Artikel ini akan membuka sumber hasil "Pengedaran Tempatan Model Bahasa Besar dalam OpenHarmony" yang ditunjukkan pada Persidangan Teknologi OpenHarmony ke-2 alamat sumber terbuka: https://gitee.com/openharmony-sig/tpc_c_cplusplus/blob/master/thirdparty/. InferLLM/docs/ hap_integrate.md. Idea dan langkah pelaksanaan adalah untuk memindahkan rangka kerja inferens model LLM ringan InferLLM kepada sistem standard OpenHarmony dan menyusun produk binari yang boleh dijalankan pada OpenHarmony. InferLLM ialah L yang mudah dan cekap

10 robot humanoid berikut sedang membentuk masa depan kita: 1. ASIMO: Dibangunkan oleh Honda, ASIMO ialah salah satu robot humanoid yang paling terkenal. Berdiri setinggi 4 kaki dan seberat 119 paun, ASIMO dilengkapi dengan penderia termaju dan keupayaan kecerdasan buatan yang membolehkannya menavigasi persekitaran yang kompleks dan berinteraksi dengan manusia. Fleksibiliti ASIMO menjadikannya sesuai untuk pelbagai tugas, daripada membantu orang kurang upaya kepada menyampaikan pembentangan di acara. 2. Pepper: Dicipta oleh Softbank Robotics, Pepper bertujuan untuk menjadi teman sosial bagi manusia. Dengan wajah ekspresif dan keupayaan untuk mengenali emosi, Pepper boleh mengambil bahagian dalam perbualan, membantu dalam tetapan runcit, dan juga memberikan sokongan pendidikan. Lada punya

Automasi, kecerdasan dan kecerdasan digital ialah hala tuju pembangunan pembuatan tradisional. Sebagai salah satu peralatan utama untuk barisan pengeluaran automatik, logistik pintar, kerjasama manusia-mesin dan pengeluaran tersuai, robot memainkan peranan penting dalam perubahan daripada pembuatan tradisional kepada pembuatan pintar. Robot Aistar Qianjiang telah merangkumi empat segmen perniagaan utama: komponen teras robot perindustrian, robot lengkap, perisian industri dan integrasi sistem pembuatan pintar Pada Ekspo Perindustrian Antarabangsa China ke-23 yang diadakan dari 19 hingga 23 September, Aistar Qianjiang Robot Jiang Robot berganding bahu dengan. beberapa syarikat gabungan untuk menumpukan pada automasi industri, robot industri dan pembuatan pintar, menyediakan pengguna dengan penyelesaian lengkap industri yang canggih, pintar dan tanpa pemandu. Chen Helin, Pengerusi ASD Co., Ltd. dan Pengarah Zhejiang Qianjiang Robot Co., Ltd. berkata,
