Algorithms - optimal control

p(s) = argmaxa{Qp(s,a) }

p(s) = argmaxa{Qp(s,a) } with probability 1-e, and

p(s) = a with probability e/|A|

Previous slide Next slide Back to first slide View graphic version