实验说明

在这个游戏中,小猫需要学习按哪个按钮才能获得鱼的奖励。

通过Q-learning算法,小猫会:

  • 尝试按不同的按钮
  • 获得奖励(鱼)或没有奖励
  • 记住哪些行为会带来奖励
  • 逐渐学会总是选择能获得奖励的按钮

工具用途说明

  • 开始学习:启动小猫的学习过程,观察其行为。
  • 单步学习:让小猫执行一步学习,便于观察每一步的变化。
  • 自动学习:让小猫连续学习100步,快速查看学习效果。
  • 重置:清空学习记录,重新开始实验。
  • 奖励按钮:选择哪个按钮会给小猫奖励。
  • 学习率 (α):控制小猫对新信息的学习速度。
  • 探索率 (ε):控制小猫尝试新按钮的概率。
  • Q值表:显示小猫对每个按钮的价值判断。

游戏区域

小猫
1
2
3
准备开始学习...

控制选项

0.1 0.5 1.0
0 (纯利用) 0.3 1 (纯探索)

Q值表

Q值表示小猫对每个按钮的"价值"判断,值越高表示越可能带来奖励

状态 按按钮 1 按按钮 2 按按钮 3
当前状态 0.00 0.00 0.00
学习步数: 0