实验说明
在这个游戏中,小猫需要学习按哪个按钮才能获得鱼的奖励。
通过Q-learning算法,小猫会:
- 尝试按不同的按钮
- 获得奖励(鱼)或没有奖励
- 记住哪些行为会带来奖励
- 逐渐学会总是选择能获得奖励的按钮
工具用途说明
- 开始学习:启动小猫的学习过程,观察其行为。
- 单步学习:让小猫执行一步学习,便于观察每一步的变化。
- 自动学习:让小猫连续学习100步,快速查看学习效果。
- 重置:清空学习记录,重新开始实验。
- 奖励按钮:选择哪个按钮会给小猫奖励。
- 学习率 (α):控制小猫对新信息的学习速度。
- 探索率 (ε):控制小猫尝试新按钮的概率。
- Q值表:显示小猫对每个按钮的价值判断。
游戏区域

准备开始学习...
控制选项
0.1
0.5
1.0
0 (纯利用)
0.3
1 (纯探索)
Q值表
Q值表示小猫对每个按钮的"价值"判断,值越高表示越可能带来奖励
状态 | 按按钮 1 | 按按钮 2 | 按按钮 3 |
---|---|---|---|
当前状态 | 0.00 | 0.00 | 0.00 |
学习步数:
0