强化学习让机器人自己通过试错学习最优策略,不再需要手工编写控制规则。

基本框架

智能体(Agent)环境(Env)动作a →← 状态s← 奖励r

PPO核心思想

每次更新策略限制幅度,避免大步翻车。目前最流行的RL算法,OpenAI用它训练了ChatGPT。

# PPO伪代码
ratio = π_new(a|s) / π_old(a|s)
clip_ratio = clip(ratio, 1-ε, 1+ε)
loss = -min(ratio×A, clip_ratio×A)

机器人避障示例

agent = PPO(lr=3e-4, clip=0.2, gamma=0.99)
for ep in range(10000):
    state = env.reset()
    while not done:
        action = agent.act(state)
        state, reward, done = env.step(action)
    agent.update()

💡 奖励设计是关键

前进+1 / 到达目标+100 / 碰撞-50 / 能耗-0.01×力。奖励函数决定了机器人学到什么行为。

← 神经网络直觉理解 大模型API实战 →