Q-Learning是强化学习中一种至关重要的无模型算法,专注于学习特定状态下动作的价值或“Q 值”。这种方法在具有不可预测性的环境中表现出色,因为它不需要周围环境的预定义模型。它有效地适应随机转换和各种奖励,使其适用于结果不确定的场景。这种灵活性使 Q-Learning 成为需要自适应决策的强大工具,而无需事先了解环境动态。
Q-Learning 是强化学习中一种至关重要的无模型算法,专注于学习特定状态下动作的价值或“Q 值”。这种方法在具有不可预测性的环境中表现出色,因为它不需要周围环境的预定义模型。它有效地适应随机转换和各种奖励,使其适用于结果不确定的场景。这种灵活性使 Q-Learning 成为需要自适应决策的强大工具,而无需事先了解环境动态。
Q-learning 的工作原理是更新每个状态下每个动作的 Q 值表。它使用贝尔曼方程,根据观察到的奖励及其对未来奖励的估计,迭代更新这些值。策略 - 选择行动的策略 - 是从这些Q值中得出的。
提供的代码用作 Q-Learner 的训练功能。它利用贝尔曼方程来确定状态之间最有效的转换。
def train_Q(self,s_prime,r): self.QTable[self.s,self.action] = (1-self.alpha)*self.QTable[self.s, self.action] + \ self.alpha * (r + self.gamma * (self.QTable[s_prime, np.argmax(self.QTable[s_prime])])) self.experiences.append((self.s, self.action, s_prime, r)) self.num_experiences = self.num_experiences + 1 self.s = s_prime self.action = action return action
Q-learning的一个关键方面是平衡探索(尝试新的行动来发现他们的奖励)和利用(使用已知信息来最大化奖励)。算法通常使用ε贪婪等策略来维持这种平衡。
首先设置随机操作的速率,以平衡探索和开发。实现衰减率,以随着 Q 表积累更多数据而逐渐降低随机性。这种方法保证了随着时间的推移,随着更多证据的积累,算法越来越多地转向利用。
if rand.random() >= self.random_action_rate: action = np.argmax(self.QTable[s_prime,:]) #Exploit: Select Action that leads to a State with the Best Reward else: action = rand.randint(0,self.num_actions - 1) #Explore: Randomly select an Action. # Use a decay rate to reduce the randomness (Exploration) as the Q-Table gets more evidence self.random_action_rate = self.random_action_rate * self.random_action_decay_rate
Dyna-Q 是传统 Q-Learning 算法的创新扩展,处于将真实体验与模拟规划相结合的最前沿。这种方法通过整合实际交互和模拟体验,显著增强了学习过程,使智能体能够在复杂的环境中快速适应并做出明智的决策。通过利用从环境反馈中直接学习和通过仿真获得的见解,Dyna-Q提供了一种全面而有效的策略,以应对真实世界数据稀缺或获取成本高昂的挑战。
def train_DynaQ(self,s_prime,r): self.QTable[self.s,self.action] = (1-self.alpha)*self.QTable[self.s, self.action] + \ self.alpha * (r + self.gamma * (self.QTable[s_prime, np.argmax(self.QTable[s_prime])])) self.experiences.append((self.s, self.action, s_prime, r)) self.num_experiences = self.num_experiences + 1 # Dyna-Q Planning - Start if self.dyna_planning_steps > 0: # Number of simulations to perform idx_array = np.random.randint(0, self.num_experiences, self.dyna) for exp in range(0, self.dyna): # Pick random experiences and update QTable idx = idx_array[exp] self.QTable[self.experiences[idx][0],self.experiences[idx][1]] = (1-self.alpha)*self.QTable[self.experiences[idx][0], self.experiences[idx][1]] + \ self.alpha * (self.experiences[idx][3] + self.gamma * (self.QTable[self.experiences[idx][2], np.argmax(self.QTable[self.experiences[idx][2],:])])) # Dyna-Q Planning - End if rand.random() >= self.random_action_rate: action = np.argmax(self.QTable[s_prime,:]) #Exploit: Select Action that leads to a State with the Best Reward else: action = rand.randint(0,self.num_actions - 1) #Explore: Randomly select an Action. # Use a decay rate to reduce the randomness (Exploration) as the Q-Table gets more evidence self.random_action_rate = self.random_action_rate * self.random_action_decay_rate self.s = s_prime self.action = action return action
Dyna Q 代表了一种进步,我们追求设计能够在复杂和不确定的环境中学习和适应的代理。通过理解和实施 Dyna Q,人工智能和机器学习领域的专家和爱好者可以为各种实际问题设计出有弹性的解决方案。本教程的目的不是介绍概念和算法,而是在这个引人入胜的研究领域激发创造性应用和未来进展的创造力。
以上是使用Dyna-Q扩展Q-Learning以增强决策能力的详细内容。更多信息请关注PHP中文网其他相关文章!