


Pembelajaran pengukuhan Q-pembelajaran mendalam menggunakan simulasi lengan robot Panda-Gym
Pembelajaran Pengukuhan (RL) ialah kaedah pembelajaran mesin yang membolehkan ejen mempelajari cara berkelakuan dalam persekitarannya melalui percubaan dan kesilapan. Ejen diberi ganjaran atau dihukum kerana mengambil tindakan yang membawa kepada hasil yang diingini. Lama kelamaan, ejen belajar untuk mengambil tindakan yang memaksimumkan ganjaran yang diharapkan
Ejen RL biasanya dilatih menggunakan Proses Keputusan Markov (MDP), yang memodelkan rangka kerja matematik masalah keputusan berurutan. MDP terdiri daripada empat bahagian:
- Keadaan: satu set kemungkinan keadaan persekitaran.
- Tindakan: Satu set tindakan yang boleh diambil oleh ejen.
- Fungsi peralihan: Fungsi yang meramalkan kebarangkalian peralihan kepada keadaan baharu memandangkan keadaan dan tindakan semasa.
- Fungsi ganjaran: Fungsi yang memberikan ganjaran kepada ejen untuk setiap penukaran.
Matlamat ejen adalah untuk mempelajari fungsi dasar yang memetakan keadaan kepada tindakan. Maksimumkan pulangan jangkaan ejen dari semasa ke semasa melalui fungsi polisi.
Pembelajaran Q mendalam ialah algoritma pembelajaran pengukuhan yang menggunakan rangkaian saraf dalam untuk mempelajari fungsi dasar. Rangkaian saraf dalam mengambil keadaan semasa sebagai input dan output vektor nilai, di mana setiap nilai mewakili tindakan yang mungkin. Ejen kemudiannya mengambil tindakan berdasarkan nilai tertinggi
Pembelajaran Q mendalam ialah algoritma pembelajaran pengukuhan berasaskan nilai, bermakna ia mempelajari nilai setiap pasangan tindakan keadaan. Nilai pasangan tindakan keadaan ialah ganjaran yang dijangkakan untuk ejen mengambil tindakan tersebut dalam keadaan tersebut.
Actor-Critic ialah algoritma RL yang menggabungkan berasaskan nilai dan berasaskan dasar. Terdapat dua komponen:
Pelakon: Pelakon bertanggungjawab untuk memilih operasi.
Pengkritik: Bertanggungjawab untuk menilai tingkah laku Pelakon.
Pelakon dan pengkritik dilatih pada masa yang sama. Pelakon dilatih untuk memaksimumkan ganjaran yang dijangkakan dan pengkritik dilatih untuk meramalkan ganjaran yang dijangkakan dengan tepat untuk setiap pasangan tindakan keadaan
Algoritma Actor-Critic mempunyai beberapa kelebihan berbanding algoritma pembelajaran pengukuhan yang lain. Pertama, ia adalah lebih stabil, yang bermaksud bahawa berat sebelah kurang berkemungkinan berlaku semasa latihan. Kedua, ia lebih cekap, yang bermaksud ia boleh belajar lebih cepat. Ketiga, ia lebih berskala dan boleh digunakan untuk masalah dengan keadaan dan ruang tindakan yang besar
Jadual di bawah meringkaskan perbezaan utama antara Deep Q-learning dan Actor-Critic:
Kelebihan Actor Critic (A2C)
Actor-Critic ialah seni bina pembelajaran pengukuhan popular yang menggabungkan pendekatan berasaskan dasar dan berasaskan nilai. Ia mempunyai banyak kelebihan yang menjadikannya pilihan yang kukuh untuk menyelesaikan pelbagai tugasan pembelajaran pengukuhan:
1 varians rendah
Berbanding kaedah kecerunan dasar tradisional, A2C biasanya mempunyai prestasi yang lebih rendah semasa melatih varians. Ini kerana A2C menggunakan kedua-dua kecerunan dasar dan fungsi nilai, dan menggunakan fungsi nilai untuk mengurangkan varians dalam pengiraan kecerunan. Varians yang rendah bermakna proses latihan adalah lebih stabil dan boleh menumpu kepada dasar yang lebih baik dengan lebih cepat
2 Kelajuan pembelajaran yang lebih pantas
Disebabkan ciri-ciri varians yang rendah, A2C biasanya boleh mempelajari polisi pada kelajuan yang lebih cepat Baik. strategi. Ini amat penting untuk tugasan yang memerlukan simulasi yang meluas, kerana kelajuan pembelajaran yang lebih pantas menjimatkan masa dan sumber pengkomputeran yang berharga.
3. Menggabungkan fungsi dasar dan nilai
Ciri ketara A2C ialah ia mempelajari dasar dan fungsi nilai secara serentak. Gabungan ini membolehkan ejen memahami dengan lebih baik kaitan antara persekitaran dan tindakan, dengan itu membimbing penambahbaikan dasar dengan lebih baik. Kewujudan fungsi nilai juga membantu mengurangkan ralat dalam pengoptimuman dasar dan meningkatkan kecekapan latihan.
4. Menyokong ruang tindakan berterusan dan diskret
A2C boleh menyesuaikan diri dengan pelbagai jenis ruang tindakan, termasuk tindakan berterusan dan diskret, dan sangat serba boleh. Ini menjadikan A2C sebagai algoritma pembelajaran pengukuhan yang boleh digunakan secara meluas yang boleh digunakan untuk pelbagai tugas, daripada kawalan robot kepada pengoptimuman permainan
5. Latihan selari
A2C boleh diselaraskan dengan mudah untuk memanfaatkan sepenuhnya pelbagai teras pelayan pemprosesan dan sumber pengkomputeran yang diedarkan. Ini bermakna lebih banyak data empirikal boleh dikumpul dalam masa yang lebih singkat, sekali gus meningkatkan kecekapan latihan.
Walaupun kaedah Pelakon-Pengkritik mempunyai beberapa kelebihan, mereka juga menghadapi beberapa cabaran, seperti penalaan hiperparameter dan potensi ketidakstabilan dalam latihan. Walau bagaimanapun, dengan penalaan dan teknik yang sesuai seperti main semula pengalaman dan rangkaian sasaran, cabaran ini boleh dikurangkan sebahagian besarnya, menjadikan Actor-Critic kaedah yang berharga dalam pembelajaran pengukuhan
🎜panda-gym
panda-gym dibangunkan berdasarkan enjin PyBullet dan merangkumi 6 tugasan seperti capaian, tolak, gelongsor, pilih&letak, susun, dan selak di sekeliling lengan robot panda. Ia diilhamkan terutamanya oleh OpenAI Fetch.
Kami akan menggunakan panda-gym sebagai contoh untuk menunjukkan kod di bawah
1. Pasang perpustakaan
Pertama, kita perlu mengukuhkan persekitaran untuk pembelajaran.
!apt-get install -y \libgl1-mesa-dev \libgl1-mesa-glx \libglew-dev \xvfb \libosmesa6-dev \software-properties-common \patchelf !pip install \free-mujoco-py \pytorch-lightning \optuna \pyvirtualdisplay \PyOpenGL \PyOpenGL-accelerate\stable-baselines3[extra] \gymnasium \huggingface_sb3 \huggingface_hub \ panda_gym
2. Import perpustakaanimport os import gymnasium as gym import panda_gym from huggingface_sb3 import load_from_hub, package_to_hub from stable_baselines3 import A2C from stable_baselines3.common.evaluation import evaluate_policy from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize from stable_baselines3.common.env_util import make_vec_env
Salin selepas log masuk
import os import gymnasium as gym import panda_gym from huggingface_sb3 import load_from_hub, package_to_hub from stable_baselines3 import A2C from stable_baselines3.common.evaluation import evaluate_policy from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize from stable_baselines3.common.env_util import make_vec_env
3. Wujudkan persekitaran berjalanenv_id = "PandaReachDense-v3" # Create the env env = gym.make(env_id) # Get the state space and action space s_size = env.observation_space.shape a_size = env.action_space print("\n _____ACTION SPACE_____ \n") print("The Action Space is: ", a_size) print("Action Space Sample", env.action_space.sample()) # Take a random action
Salin selepas log masuk
env_id = "PandaReachDense-v3" # Create the env env = gym.make(env_id) # Get the state space and action space s_size = env.observation_space.shape a_size = env.action_space print("\n _____ACTION SPACE_____ \n") print("The Action Space is: ", a_size) print("Action Space Sample", env.action_space.sample()) # Take a random action
4. Kami mengira min berjalan dan sisihan piawai bagi ciri input melalui pembalut. Normalkan ganjaran dengan menambah norm_reward = Trueenv = make_vec_env(env_id, n_envs=4) env = VecNormalize(env, norm_obs=True, norm_reward=True, clip_obs=10.)
Salin selepas log masuk
env = make_vec_env(env_id, n_envs=4) env = VecNormalize(env, norm_obs=True, norm_reward=True, clip_obs=10.)
5 Cipta model A2C
Kami menggunakan ejen rasmi yang dilatih oleh pasukan Stable-Baselines3rreee
, Penilaian Ejenmodel = A2C(policy = "MultiInputPolicy",env = env,verbose=1)
Salin selepas log masuk
model = A2C(policy = "MultiInputPolicy",env = env,verbose=1)
Ringkasan
Dalam "panda-gym", gabungan berkesan lengan robotik Panda dan persekitaran GYM membolehkan kami melakukan pembelajaran pengukuhan lengan robotik secara tempatan dengan mudah,
Seni bina Aktor-Critik di mana ejen belajar membuat penambahbaikan tambahan pada setiap kali langkah berbeza dengan fungsi ganjaran yang jarang (yang hasilnya adalah binari), menjadikan kaedah Actor-Critic amat sesuai untuk jenis tugasan ini.
Dengan menggabungkan pembelajaran dasar dan anggaran nilai dengan lancar, ejen robot dapat memanipulasi pengesan hujung lengan robotik dengan mahir dan mencapai kedudukan sasaran yang ditentukan dengan tepat. Ini bukan sahaja menyediakan penyelesaian praktikal untuk tugas seperti kawalan robot, tetapi juga berpotensi untuk mengubah pelbagai bidang yang memerlukan pembuatan keputusan yang tangkas dan bermaklumat
Atas ialah kandungan terperinci Pembelajaran pengukuhan Q-pembelajaran mendalam menggunakan simulasi lengan robot Panda-Gym. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Anotasi imej ialah proses mengaitkan label atau maklumat deskriptif dengan imej untuk memberi makna dan penjelasan yang lebih mendalam kepada kandungan imej. Proses ini penting untuk pembelajaran mesin, yang membantu melatih model penglihatan untuk mengenal pasti elemen individu dalam imej dengan lebih tepat. Dengan menambahkan anotasi pada imej, komputer boleh memahami semantik dan konteks di sebalik imej, dengan itu meningkatkan keupayaan untuk memahami dan menganalisis kandungan imej. Anotasi imej mempunyai pelbagai aplikasi, meliputi banyak bidang, seperti penglihatan komputer, pemprosesan bahasa semula jadi dan model penglihatan graf Ia mempunyai pelbagai aplikasi, seperti membantu kenderaan dalam mengenal pasti halangan di jalan raya, dan membantu dalam proses. pengesanan dan diagnosis penyakit melalui pengecaman imej perubatan. Artikel ini terutamanya mengesyorkan beberapa alat anotasi imej sumber terbuka dan percuma yang lebih baik. 1.Makesen

Dalam bidang pembelajaran mesin dan sains data, kebolehtafsiran model sentiasa menjadi tumpuan penyelidik dan pengamal. Dengan aplikasi meluas model yang kompleks seperti kaedah pembelajaran mendalam dan ensemble, memahami proses membuat keputusan model menjadi sangat penting. AI|XAI yang boleh dijelaskan membantu membina kepercayaan dan keyakinan dalam model pembelajaran mesin dengan meningkatkan ketelusan model. Meningkatkan ketelusan model boleh dicapai melalui kaedah seperti penggunaan meluas pelbagai model yang kompleks, serta proses membuat keputusan yang digunakan untuk menerangkan model. Kaedah ini termasuk analisis kepentingan ciri, anggaran selang ramalan model, algoritma kebolehtafsiran tempatan, dsb. Analisis kepentingan ciri boleh menerangkan proses membuat keputusan model dengan menilai tahap pengaruh model ke atas ciri input. Anggaran selang ramalan model

Dalam istilah orang awam, model pembelajaran mesin ialah fungsi matematik yang memetakan data input kepada output yang diramalkan. Secara lebih khusus, model pembelajaran mesin ialah fungsi matematik yang melaraskan parameter model dengan belajar daripada data latihan untuk meminimumkan ralat antara output yang diramalkan dan label sebenar. Terdapat banyak model dalam pembelajaran mesin, seperti model regresi logistik, model pepohon keputusan, model mesin vektor sokongan, dll. Setiap model mempunyai jenis data dan jenis masalah yang berkenaan. Pada masa yang sama, terdapat banyak persamaan antara model yang berbeza, atau terdapat laluan tersembunyi untuk evolusi model. Mengambil perceptron penyambung sebagai contoh, dengan meningkatkan bilangan lapisan tersembunyi perceptron, kita boleh mengubahnya menjadi rangkaian neural yang mendalam. Jika fungsi kernel ditambah pada perceptron, ia boleh ditukar menjadi SVM. yang ini

Artikel ini akan memperkenalkan cara mengenal pasti pemasangan lampau dan kekurangan dalam model pembelajaran mesin secara berkesan melalui keluk pembelajaran. Underfitting dan overfitting 1. Overfitting Jika model terlampau latihan pada data sehingga ia mempelajari bunyi daripadanya, maka model tersebut dikatakan overfitting. Model yang dipasang terlebih dahulu mempelajari setiap contoh dengan sempurna sehingga ia akan salah mengklasifikasikan contoh yang tidak kelihatan/baharu. Untuk model terlampau, kami akan mendapat skor set latihan yang sempurna/hampir sempurna dan set pengesahan/skor ujian yang teruk. Diubah suai sedikit: "Punca overfitting: Gunakan model yang kompleks untuk menyelesaikan masalah mudah dan mengekstrak bunyi daripada data. Kerana set data kecil sebagai set latihan mungkin tidak mewakili perwakilan yang betul bagi semua data. 2. Underfitting Heru

Pada tahun 1950-an, kecerdasan buatan (AI) dilahirkan. Ketika itulah penyelidik mendapati bahawa mesin boleh melakukan tugas seperti manusia, seperti berfikir. Kemudian, pada tahun 1960-an, Jabatan Pertahanan A.S. membiayai kecerdasan buatan dan menubuhkan makmal untuk pembangunan selanjutnya. Penyelidik sedang mencari aplikasi untuk kecerdasan buatan dalam banyak bidang, seperti penerokaan angkasa lepas dan kelangsungan hidup dalam persekitaran yang melampau. Penerokaan angkasa lepas ialah kajian tentang alam semesta, yang meliputi seluruh alam semesta di luar bumi. Angkasa lepas diklasifikasikan sebagai persekitaran yang melampau kerana keadaannya berbeza daripada di Bumi. Untuk terus hidup di angkasa, banyak faktor mesti dipertimbangkan dan langkah berjaga-jaga mesti diambil. Para saintis dan penyelidik percaya bahawa meneroka ruang dan memahami keadaan semasa segala-galanya boleh membantu memahami cara alam semesta berfungsi dan bersedia untuk menghadapi kemungkinan krisis alam sekitar

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Penterjemah |. Disemak oleh Li Rui |. Chonglou Model kecerdasan buatan (AI) dan pembelajaran mesin (ML) semakin kompleks hari ini, dan output yang dihasilkan oleh model ini adalah kotak hitam – tidak dapat dijelaskan kepada pihak berkepentingan. AI Boleh Dijelaskan (XAI) bertujuan untuk menyelesaikan masalah ini dengan membolehkan pihak berkepentingan memahami cara model ini berfungsi, memastikan mereka memahami cara model ini sebenarnya membuat keputusan, dan memastikan ketelusan dalam sistem AI, Amanah dan akauntabiliti untuk menyelesaikan masalah ini. Artikel ini meneroka pelbagai teknik kecerdasan buatan (XAI) yang boleh dijelaskan untuk menggambarkan prinsip asasnya. Beberapa sebab mengapa AI boleh dijelaskan adalah penting Kepercayaan dan ketelusan: Untuk sistem AI diterima secara meluas dan dipercayai, pengguna perlu memahami cara keputusan dibuat

MetaFAIR bekerjasama dengan Harvard untuk menyediakan rangka kerja penyelidikan baharu untuk mengoptimumkan bias data yang dijana apabila pembelajaran mesin berskala besar dilakukan. Adalah diketahui bahawa latihan model bahasa besar sering mengambil masa berbulan-bulan dan menggunakan ratusan atau bahkan ribuan GPU. Mengambil model LLaMA270B sebagai contoh, latihannya memerlukan sejumlah 1,720,320 jam GPU. Melatih model besar memberikan cabaran sistemik yang unik disebabkan oleh skala dan kerumitan beban kerja ini. Baru-baru ini, banyak institusi telah melaporkan ketidakstabilan dalam proses latihan apabila melatih model AI generatif SOTA Mereka biasanya muncul dalam bentuk lonjakan kerugian Contohnya, model PaLM Google mengalami sehingga 20 lonjakan kerugian semasa proses latihan. Bias berangka adalah punca ketidaktepatan latihan ini,
