Rumah Peranti teknologi AI Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah

Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah

Jan 16, 2024 am 11:24 AM
robot berkaki empat teori sistem interaktif

Interaksi yang mudah dan berkesan antara manusia dan robot berkaki empat ialah cara untuk mencipta robot pembantu pintar yang berkebolehan, menunjukkan masa depan di mana teknologi meningkatkan kehidupan kita dengan cara yang di luar imaginasi kita. Untuk sistem interaksi manusia-robot sedemikian, kuncinya adalah untuk memberikan robot berkaki empat keupayaan untuk bertindak balas kepada arahan bahasa semula jadi.

Model bahasa berskala besar (LLM) telah berkembang pesat baru-baru ini dan telah menunjukkan potensi untuk melaksanakan perancangan peringkat tinggi. Walau bagaimanapun, masih sukar untuk LLM memahami arahan peringkat rendah, seperti sasaran sudut bersama atau tork motor, terutamanya untuk robot berkaki yang sememangnya tidak stabil dan memerlukan isyarat kawalan frekuensi tinggi. Oleh itu, kebanyakan kerja sedia ada menganggap bahawa LLM telah disediakan dengan API peringkat tinggi yang menentukan tingkah laku robot, yang pada asasnya mengehadkan keupayaan ekspresif sistem.

Dalam kertas CoRL 2023 "SayTap: Language to Quadrupedal Locomotion", Google DeepMind dan Universiti Tokyo mencadangkan kaedah baharu yang menggunakan corak sentuhan kaki sebagai pautan antara arahan bahasa semula jadi manusia dan mengeluarkan arahan peringkat rendah. Jambatan pengawal gerakan.

Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah

  • Alamat kertas: https://arxiv.org/abs/2306.07580
  • Tapak web projek: https://saytap.github.io/


corak sentuhan) merujuk kepada susunan dan cara agen berkaki empat meletakkan kakinya di atas tanah apabila bergerak. Berdasarkan ini, mereka membangunkan sistem robot berkaki empat interaktif yang membolehkan pengguna mengembangkan tingkah laku pergerakan yang berbeza secara fleksibel Contohnya, pengguna boleh menggunakan bahasa mudah untuk mengarahkan robot berjalan, berlari, melompat atau melakukan tindakan lain.

Sumbangan mereka termasuk reka bentuk gesaan LLM, fungsi ganjaran dan kaedah yang membolehkan pengawal SayTap menggunakan pengedaran corak hubungan yang boleh dilaksanakan.

Penyelidikan menunjukkan bahawa pengawal SayTap boleh mencapai berbilang mod gerakan, dan keupayaan ini juga boleh dipindahkan ke perkakasan robot sebenar.

Kaedah SayTap

Kaedah SayTap menggunakan templat mod kenalan, iaitu 4 Kaki mencecah tanah. Dari atas ke bawah, setiap baris matriks memberikan corak sentuhan kaki bagi kaki depan kiri (FL), kaki depan kanan (FR), kaki belakang kiri (RL) dan kaki belakang kanan (RR) masing-masing. Kekerapan kawalan SayTap ialah 50 Hz, yang bermaksud setiap 0 atau 1 berlangsung selama 0.02 saat. Kajian ini mentakrifkan corak sentuhan kaki yang dikehendaki sebagai tingkap gelongsor kitaran bersaiz L_w dan bentuk 4 X L_w. Tetingkap gelongsor ini mengekstrak bendera pembumian berempat daripada templat corak kenalan, yang menunjukkan sama ada kaki robot berada di atas tanah atau di udara antara masa t + 1 dan t + L_w. Rajah di bawah memberikan gambaran keseluruhan kaedah SayTap. Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah


Gambaran Keseluruhan Kaedah SayTap

SayTap memperkenalkan corak sentuhan kaki yang diingini sebagai antara muka baharu antara arahan pengguna bahasa semula jadi dan pengawal gerakan. Pengawal gerakan digunakan untuk melaksanakan tugas utama (seperti mengikut kelajuan yang ditentukan) dan meletakkan kaki robot di atas tanah pada masa tertentu supaya corak sentuhan kaki yang dicapai sedekat mungkin dengan corak sentuhan yang diingini.

Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah

🎜Untuk melakukan ini, pada setiap langkah masa, pengawal gerakan mengambil sebagai input corak sentuhan kaki yang diingini, ditambah data proprioseptif (seperti kedudukan dan halaju bersama) dan input berkaitan tugas (seperti arahan kelajuan khusus pengguna ). DeepMind menggunakan pembelajaran pengukuhan untuk melatih pengawal gerakan dan mewakilinya sebagai rangkaian saraf yang mendalam. Semasa latihan pengawal, penyelidik menggunakan penjana rawak untuk mencuba corak sentuhan kaki yang diingini dan kemudian mengoptimumkan dasar untuk mengeluarkan tindakan robot peringkat rendah yang mencapai corak sentuhan kaki yang diingini. Pada masa ujian, LLM digunakan untuk menterjemah arahan pengguna ke dalam corak sentuhan kaki. 🎜🎜🎜🎜
SayTap menggunakan corak sentuhan kaki sebagai jambatan antara arahan pengguna bahasa semula jadi dan arahan kawalan peringkat rendah. SayTap menyokong kedua-dua arahan mudah dan langsung (seperti "Laju perlahan ke hadapan") dan arahan pengguna yang samar-samar (seperti "Berita baik, kami akan berkelah pada hujung minggu ini!" Melalui pengawal gerakan berdasarkan pembelajaran pengukuhan, empat The robot kaki bertindak balas mengikut arahan

Penyelidikan menunjukkan bahawa menggunakan gesaan yang direka dengan betul, LLM mempunyai keupayaan untuk memetakan arahan pengguna dengan tepat ke dalam format khusus templat corak sentuhan kaki, walaupun arahan pengguna tidak berstruktur atau kabur Dalam latihan, penyelidik menggunakan penjana corak rawak untuk menjana templat corak hubungan berbilang, yang mempunyai panjang corak berbeza T dan berdasarkan nisbah sentuhan kaki ke tanah bagi jenis gait yang diberikan dalam kitaran, supaya The motion pengawal dapat mempelajari pelbagai pengedaran corak gerakan dan mencapai keupayaan generalisasi yang lebih baik Lihat kertas untuk mendapatkan butiran lanjut

Dengan gesaan mudah sampel konteks mod kenalan separa, LLM boleh menterjemah pelbagai arahan manusia dengan tepat. ke dalam mod kenalan, malah membuat generalisasi kepada situasi di mana tiada spesifikasi yang jelas tentang cara robot harus berkelakuan

Gesaan SayTap adalah mudah dan padat:

(1) Penerangan umum untuk diterangkan. tugasan yang perlu diselesaikan oleh LLM; Contoh demonstrasi untuk membolehkan LLM mempelajari situasi dalam konteks

Para penyelidik juga menetapkan lima kelajuan supaya robot boleh maju atau mundur, pantas atau perlahan, atau kekal diam
Ikuti arahan mudah dan terus.

Animasi di bawah menunjukkan contoh SayTap berjaya melaksanakan arahan langsung dan jelas Perintah itu tidak disertakan dalam tiga contoh konteks, tetapi ia masih boleh membimbing LLM untuk menyatakan pengetahuan dalaman yang dipelajari dalam pra-. peringkat latihan ini akan menggunakan "modul definisi gait" dalam gesaan, yang merupakan gesaan kedua dalam modul di atas.

Ikut arahan tidak berstruktur atau samar-samar

Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah Tetapi yang lebih menarik ialah keupayaan SayTap untuk mengendalikan arahan tidak berstruktur dan samar-samar. Ia hanya memerlukan beberapa petunjuk untuk memautkan gaya berjalan tertentu kepada tanggapan emosi umum, seperti robot melompat ke atas dan ke bawah selepas mendengar sesuatu yang menggembirakannya (seperti "Jom pergi berkelah!"). Di samping itu, ia boleh mewakili adegan dengan tepat Sebagai contoh, apabila diberitahu bahawa tanah sangat panas, robot akan bergerak dengan cepat untuk mengelakkan kakinya daripada menyentuh tanah sesedikit mungkin.

Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah



Ringkasan dan kerja masa hadapan

SayTap ialah sistem interaktif untuk robot berkaki empat yang membolehkan pengguna merumuskan tingkah laku pergerakan yang berbeza secara fleksibel. SayTap memperkenalkan corak sentuhan kaki yang diingini sebagai antara muka antara bahasa semula jadi dan pengawal peringkat rendah. Antara muka baharu adalah mudah dan fleksibel, dan ia membolehkan robot mengikut kedua-dua arahan dan arahan langsung yang tidak menyatakan secara eksplisit cara robot harus berkelakuan.

Penyelidik DeepMind berkata bahawa hala tuju utama penyelidikan masa depan adalah untuk menguji sama ada arahan yang membayangkan perasaan tertentu boleh membolehkan LLM mengeluarkan gaya berjalan yang diingini. Dalam modul definisi gait keputusan di atas, penyelidik menyediakan ayat yang mengaitkan emosi gembira dengan gaya melompat. Menyediakan lebih banyak maklumat mungkin meningkatkan keupayaan LLM untuk mentafsir arahan, seperti menyahkod perasaan tersirat. Dalam penilaian eksperimen, kaitan antara emosi gembira dan gaya berjalan yang melantun membolehkan robot berkelakuan bertenaga sambil mengikut arahan manusia yang samar-samar. Satu lagi hala tuju penyelidikan masa depan yang menarik ialah pengenalan input multimodal, seperti video dan audio. Secara teorinya, corak sentuhan kaki yang diterjemahkan daripada isyarat ini juga sesuai untuk aliran kerja yang baru dicadangkan di sini dan dijangka membuka lebih banyak kes penggunaan yang menarik.

Pautan asal: https://blog.research.google/2023/08/saytap-language-to-quadrupedal.html

Atas ialah kandungan terperinci Google menggunakan model besar untuk melatih anjing robot memahami arahan yang tidak jelas dan teruja untuk pergi berkelah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Jul 26, 2024 pm 05:38 PM

Dalam pembuatan moden, pengesanan kecacatan yang tepat bukan sahaja kunci untuk memastikan kualiti produk, tetapi juga teras untuk meningkatkan kecekapan pengeluaran. Walau bagaimanapun, set data pengesanan kecacatan sedia ada selalunya tidak mempunyai ketepatan dan kekayaan semantik yang diperlukan untuk aplikasi praktikal, menyebabkan model tidak dapat mengenal pasti kategori atau lokasi kecacatan tertentu. Untuk menyelesaikan masalah ini, pasukan penyelidik terkemuka yang terdiri daripada Universiti Sains dan Teknologi Hong Kong Guangzhou dan Teknologi Simou telah membangunkan set data "DefectSpectrum" secara inovatif, yang menyediakan anotasi berskala besar yang kaya dengan semantik bagi kecacatan industri. Seperti yang ditunjukkan dalam Jadual 1, berbanding set data industri lain, set data "DefectSpectrum" menyediakan anotasi kecacatan yang paling banyak (5438 sampel kecacatan) dan klasifikasi kecacatan yang paling terperinci (125 kategori kecacatan

Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Jul 26, 2024 am 08:40 AM

Komuniti LLM terbuka ialah era apabila seratus bunga mekar dan bersaing Anda boleh melihat Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 dan banyak lagi. model yang cemerlang. Walau bagaimanapun, berbanding dengan model besar proprietari yang diwakili oleh GPT-4-Turbo, model terbuka masih mempunyai jurang yang ketara dalam banyak bidang. Selain model umum, beberapa model terbuka yang mengkhusus dalam bidang utama telah dibangunkan, seperti DeepSeek-Coder-V2 untuk pengaturcaraan dan matematik, dan InternVL untuk tugasan bahasa visual.

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Aug 08, 2024 pm 09:22 PM

Editor |KX Sehingga hari ini, perincian dan ketepatan struktur yang ditentukan oleh kristalografi, daripada logam ringkas kepada protein membran yang besar, tidak dapat ditandingi oleh mana-mana kaedah lain. Walau bagaimanapun, cabaran terbesar, yang dipanggil masalah fasa, kekal mendapatkan maklumat fasa daripada amplitud yang ditentukan secara eksperimen. Penyelidik di Universiti Copenhagen di Denmark telah membangunkan kaedah pembelajaran mendalam yang dipanggil PhAI untuk menyelesaikan masalah fasa kristal Rangkaian saraf pembelajaran mendalam yang dilatih menggunakan berjuta-juta struktur kristal tiruan dan data pembelauan sintetik yang sepadan boleh menghasilkan peta ketumpatan elektron yang tepat. Kajian menunjukkan bahawa kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh menyelesaikan masalah fasa pada resolusi hanya 2 Angstrom, yang bersamaan dengan hanya 10% hingga 20% daripada data yang tersedia pada resolusi atom, manakala Pengiraan ab initio tradisional

Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Jul 26, 2024 pm 02:40 PM

Bagi AI, Olimpik Matematik tidak lagi menjadi masalah. Pada hari Khamis, kecerdasan buatan Google DeepMind menyelesaikan satu kejayaan: menggunakan AI untuk menyelesaikan soalan sebenar IMO Olimpik Matematik Antarabangsa tahun ini, dan ia hanya selangkah lagi untuk memenangi pingat emas. Pertandingan IMO yang baru berakhir minggu lalu mempunyai enam soalan melibatkan algebra, kombinatorik, geometri dan teori nombor. Sistem AI hibrid yang dicadangkan oleh Google mendapat empat soalan dengan betul dan memperoleh 28 mata, mencapai tahap pingat perak. Awal bulan ini, profesor UCLA, Terence Tao baru sahaja mempromosikan Olimpik Matematik AI (Anugerah Kemajuan AIMO) dengan hadiah berjuta-juta dolar Tanpa diduga, tahap penyelesaian masalah AI telah meningkat ke tahap ini sebelum Julai. Lakukan soalan secara serentak pada IMO Perkara yang paling sukar untuk dilakukan dengan betul ialah IMO, yang mempunyai sejarah terpanjang, skala terbesar dan paling negatif

Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Aug 22, 2024 pm 04:37 PM

Editor |. ScienceAI Berdasarkan data klinikal yang terhad, beratus-ratus algoritma perubatan telah diluluskan. Para saintis sedang membahaskan siapa yang harus menguji alat dan cara terbaik untuk melakukannya. Devin Singh menyaksikan seorang pesakit kanak-kanak di bilik kecemasan mengalami serangan jantung semasa menunggu rawatan untuk masa yang lama, yang mendorongnya untuk meneroka aplikasi AI untuk memendekkan masa menunggu. Menggunakan data triage daripada bilik kecemasan SickKids, Singh dan rakan sekerja membina satu siri model AI untuk menyediakan potensi diagnosis dan mengesyorkan ujian. Satu kajian menunjukkan bahawa model ini boleh mempercepatkan lawatan doktor sebanyak 22.3%, mempercepatkan pemprosesan keputusan hampir 3 jam bagi setiap pesakit yang memerlukan ujian perubatan. Walau bagaimanapun, kejayaan algoritma kecerdasan buatan dalam penyelidikan hanya mengesahkan perkara ini

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? Aug 07, 2024 pm 07:08 PM

Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini. Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah status Transformer sebagai seni bina arus perdana model besar AI akan digoncang? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang dari Week50 2023

Kadar ketepatan mencapai 60.8%. Model ramalan retrosintesis kimia Universiti Zhejiang berdasarkan Transformer diterbitkan dalam sub-jurnal Nature Kadar ketepatan mencapai 60.8%. Model ramalan retrosintesis kimia Universiti Zhejiang berdasarkan Transformer diterbitkan dalam sub-jurnal Nature Aug 06, 2024 pm 07:34 PM

Editor |. KX Retrosynthesis ialah tugas kritikal dalam penemuan ubat dan sintesis organik, dan AI semakin digunakan untuk mempercepatkan proses. Kaedah AI sedia ada mempunyai prestasi yang tidak memuaskan dan kepelbagaian terhad. Dalam amalan, tindak balas kimia sering menyebabkan perubahan molekul tempatan, dengan pertindihan yang besar antara bahan tindak balas dan produk. Diilhamkan oleh ini, pasukan Hou Tingjun di Universiti Zhejiang mencadangkan untuk mentakrifkan semula ramalan retrosintetik satu langkah sebagai tugas penyuntingan rentetan molekul, secara berulang menapis rentetan molekul sasaran untuk menghasilkan sebatian prekursor. Dan model retrosintetik berasaskan penyuntingan EditRetro dicadangkan, yang boleh mencapai ramalan berkualiti tinggi dan pelbagai. Eksperimen yang meluas menunjukkan bahawa model itu mencapai prestasi cemerlang pada set data penanda aras standard USPTO-50 K, dengan ketepatan 1 teratas 60.8%.

See all articles