小猫学按按钮

实验说明

在这个游戏中，小猫需要学习按哪个按钮才能获得鱼的奖励。

通过Q-learning算法，小猫会：

尝试按不同的按钮
获得奖励（鱼）或没有奖励
记住哪些行为会带来奖励
逐渐学会总是选择能获得奖励的按钮

工具用途说明

开始学习：启动小猫的学习过程，观察其行为。
单步学习：让小猫执行一步学习，便于观察每一步的变化。
自动学习：让小猫连续学习100步，快速查看学习效果。
重置：清空学习记录，重新开始实验。
奖励按钮：选择哪个按钮会给小猫奖励。
学习率 (α)：控制小猫对新信息的学习速度。
探索率 (ε)：控制小猫尝试新按钮的概率。
Q值表：显示小猫对每个按钮的价值判断。

游戏区域

1

2

3

准备开始学习...

控制选项

学习率 (α)

0.1 0.5 1.0

探索率 (ε)

0 (纯利用) 0.3 1 (纯探索)

奖励按钮

Q值表

Q值表示小猫对每个按钮的"价值"判断，值越高表示越可能带来奖励

状态	按按钮 1	按按钮 2	按按钮 3
当前状态	0.00	0.00	0.00

学习步数: 0