RL
字数: 0
🧙‍♀️
Reinforcement Learning,强化学习,一种通过构建「智能体」(Agent) 来解决控制任务的框架 → Policy-Based
智能体的目标是学会一个「策略」(Policy),即在每个「状态」 (State)下应该选择什么动作 (Action),以便最大化其未来的累计「奖励」 (Reward)
智能体通过与环境交互Exploration Exploitation 的平衡),优化其「策略」。
智能体需要根据当前的状态 选择一个动作 ,从环境中获得奖励 ,并转移到新的状态
notion image

状态

所有可能的环境状态集合。
The RL Loop
The RL Loop

动作空间

所有可能的智能体行动集合。

奖励函数

即时奖励

延迟奖励

策略

notion image

折扣因子

用于平衡即时奖励与延迟奖励

QRL

notion image
2023 - 2026