Learning - Model Based

(Both transition probability and rewards.)

and find optimal policy (using dynamic programming).

have a “good” estimation.

Previous slide Next slide Back to first slide View graphic version