Reinforcement Learning,强化学习,一种通过构建「智能体」(Agent) 来解决控制任务的框架 → Policy-Based
智能体的目标是学会一个「策略」(Policy),即在每个「状态」 (State)下应该选择什么动作 (Action),以便最大化其未来的累计「奖励」 (Reward)。
智能体通过与环境交互(Exploration 和 Exploitation 的平衡),优化其「策略」。
智能体需要根据当前的状态 选择一个动作 ,从环境中获得奖励 ,并转移到新的状态

状态
所有可能的环境状态集合。

动作空间
所有可能的智能体行动集合。
奖励函数
即时奖励
延迟奖励
策略

折扣因子
用于平衡即时奖励与延迟奖励
QRL
