Pada 14 Jun, keupayaan Tencent Robotics membuat Keputusan telah dipertingkatkan dengan banyaknya.
Menjadikan anjing robot sebagai fleksibel dan stabil seperti manusia dan haiwan telah menjadi matlamat jangka panjang dalam bidang penyelidikan robotik Kemajuan berterusan teknologi pembelajaran mendalam membolehkan mesin menguasai kebolehan yang berkaitan melalui "pembelajaran" dan belajar menangani perubahan yang kompleks menjadi boleh dilaksanakan.
Memperkenalkan pra-latihan dan pembelajaran pengukuhan: menjadikan anjing robot lebih tangkas
Tencent Robotics Daripada belajar semula, anda boleh menggunakan semula pengetahuan pelbagai peringkat postur, persepsi alam sekitar dan perancangan strategik yang telah anda pelajari, dan membuat inferens tentang kes lain dari satu contoh untuk menghadapi persekitaran yang kompleks secara fleksibel
Siri pembelajaran ini dibahagikan kepada tiga peringkat:
Pada peringkat pertama, melalui sistem tangkapan gerakan yang biasa digunakan dalam teknologi permainan, penyelidik mengumpul data postur pergerakan anjing sebenar, termasuk berjalan, berlari, melompat, berdiri dan tindakan lain, dan menggunakan data ini untuk membina tiruan tugasan pembelajaran dalam simulator , dan kemudian abstrak dan mampatkan maklumat dalam data ini ke dalam model rangkaian saraf yang mendalam. Model-model ini bukan sahaja boleh merangkumi maklumat postur pergerakan haiwan dengan tepat, tetapi juga mempunyai kebolehtafsiran yang tinggi.
Tencent Robotik Teknologi dan data ini memainkan peranan tambahan tertentu dalam latihan ejen berasaskan simulasi fizikal dan penggunaan strategi robot dunia sebenar.
Model rangkaian saraf hanya menerima maklumat proprioseptif anjing robot (seperti status motor) sebagai input dan dilatih dalam cara pembelajaran tiruan. Dalam langkah seterusnya, model ini menggabungkan data deria dari persekitaran sekeliling, seperti menggunakan sensor lain untuk mengesan halangan di bawah kaki.
Pada peringkat kedua, parameter rangkaian tambahan digunakan untuk menyambung postur pintar anjing robot yang dikuasai pada peringkat pertama dengan persepsi luaran, supaya anjing robot boleh bertindak balas terhadap persekitaran luaran melalui postur pintar yang telah dipelajarinya. Apabila anjing robot menyesuaikan diri dengan pelbagai persekitaran yang kompleks, pengetahuan yang menghubungkan postur pintar dengan persepsi luaran juga akan diperkukuh dan disimpan dalam struktur rangkaian saraf.
Pada peringkat ketiga, menggunakan rangkaian saraf yang diperolehi dalam dua peringkat pra-latihan di atas, anjing robot mempunyai prasyarat dan peluang untuk menumpukan pada menyelesaikan masalah pembelajaran dasar peringkat atas, dan akhirnya mempunyai keupayaan untuk menyelesaikan kompleks tugas hujung ke hujung. Dalam fasa ketiga, rangkaian tambahan akan ditambah untuk mengumpul data yang berkaitan dengan tugas yang kompleks, seperti mendapatkan maklumat tentang lawan dan bendera dalam permainan. Di samping itu, dengan menganalisis semua maklumat secara komprehensif, rangkaian saraf yang bertanggungjawab untuk pembelajaran strategi akan mempelajari strategi peringkat tinggi untuk tugas itu, seperti arah mana untuk dijalankan, meramalkan tingkah laku lawan untuk memutuskan sama ada untuk meneruskan mengejar, dsb.
Ilmu yang dipelajari pada setiap peringkat di atas boleh dikembangkan dan diselaraskan tanpa pembelajaran semula, jadi ia boleh terus terkumpul dan dipelajari secara berterusan.
Pertandingan Mengejar Halangan Anjing Robot: Memiliki keupayaan autonomi membuat keputusan dan mengawal
Untuk menguji kemahiran baharu yang diperoleh oleh Max ini, penyelidik telah diilhamkan oleh permainan mengejar halangan "World Chase Tag" dan mereka bentuk permainan mengejar halangan dua anjing. World Chase Tag ialah organisasi mengejar halangan kompetitif yang diasaskan di United Kingdom pada 2014. Ia diseragamkan daripada permainan mengejar kanak-kanak rakyat. Secara umumnya, setiap pusingan pertandingan mengejar halangan melibatkan dua orang atlet bersaing antara satu sama lain Seorang pengejar (dipanggil penyerang) dan seorang lagi pengelak (dipanggil pemain pertahanan apabila atlet bertanding sepanjang keseluruhan pasukan akan menerima satu mata apabila mereka berjaya mengelak lawan mereka (iaitu tiada sentuhan berlaku) semasa pusingan mengejar (iaitu 20 saat). Pasukan yang mendapat mata terbanyak dalam bilangan pusingan mengejar yang telah ditetapkan memenangi permainan.
Saiz padang pertandingan mengejar halangan anjing robot ialah 4.5 meter x 4.5 meter, dengan beberapa halangan bertaburan di atasnya. Pada permulaan permainan, dua anjing robot MAX akan diletakkan di lokasi rawak di lapangan, dan seekor anjing robot akan secara rawak diberikan peranan sebagai pengejar dan yang lain sebagai pengelak Pada masa yang sama, bendera akan diletakkan di lokasi rawak di lapangan.
Matlamat pengelak adalah untuk mendekati bendera yang mungkin tanpa ditangkap oleh pengejar. Tugas pengejar adalah untuk menangkap pengelak. Jika pengelak berjaya menyentuh bendera sebelum ditangkap, peranan kedua-dua anjing robot akan bertukar serta-merta, dan bendera akan muncul semula di lokasi rawak yang lain. Permainan berakhir apabila pengelak ditangkap oleh pengejar semasa dan anjing robot yang memainkan peranan pengejar menang. Dalam semua permainan, purata kelajuan hadapan dua anjing robot dihadkan kepada 0.5m/s.
Daripada permainan ini, berdasarkan model pra-latihan, anjing robot itu sudah mempunyai keupayaan penaakulan dan membuat keputusan tertentu melalui pembelajaran pengukuhan yang mendalam:
Sebagai contoh, apabila pengejar menyedari bahawa ia tidak lagi dapat mengejar pengelak sebelum ia menyentuh bendera, pengejar akan melepaskan pengejaran dan sebaliknya mengembara jauh dari pengelak untuk menunggu langkah penting seterusnya. Bendera set muncul.
Selain itu, apabila pengejar hendak menangkap pengelak pada saat akhir, ia suka melompat dan membuat aksi "menerkam" ke arah pengelak, yang hampir sama dengan tingkah laku haiwan ketika menangkap mangsa, atau apabila pengelak hendak menyentuh bendera akan mempamerkan tingkah laku yang sama pada masa-masa tertentu. Ini semua adalah langkah pecutan proaktif yang diambil oleh anjing robot untuk memastikan kemenangannya.
Menurut laporan, semua strategi kawalan anjing robot dalam permainan adalah strategi rangkaian saraf Ia dipelajari dalam simulasi dan melalui pemindahan pukulan sifar (pemindahan pelarasan sifar), membolehkan rangkaian saraf mensimulasikan kaedah penaakulan manusia untuk mengenal pasti. jangan sekali-kali Lihat perkara baharu dan gunakan pengetahuan ini kepada anjing robot sebenar. Sebagai contoh, seperti yang ditunjukkan dalam rajah di bawah, pengetahuan untuk mengelakkan halangan yang dipelajari oleh anjing robot dalam model pra-latihan digunakan dalam permainan, walaupun adegan dengan halangan tidak dilatih dalam dunia maya Chase Tag Game ( hanya di dunia maya Selepas latihan dalam adegan permainan di atas tanah rata), anjing robot itu juga boleh berjaya menyelesaikan tugas itu.
Teknologi Pembelajaran Robotik Tencent diperkenalkan ke dalam bidang robot untuk meningkatkan keupayaan kawalan robot dan menjadikannya lebih fleksibel Ini juga meletakkan asas yang kukuh untuk robot memasuki kehidupan sebenar dan berkhidmat kepada manusia.
Atas ialah kandungan terperinci Anjing robot Tencent berkembang: menguasai keupayaan membuat keputusan autonomi melalui pembelajaran mendalam. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!