Dubbio Slide/Libro - Iterative Policy Evaluation
Posted by zacguyot on 19-11-2009 00:47
Raga forse il prof lo avrà detto a lezione ma nn c'ero... Vi spiego il mio dubbio:

non riesco a capire perchè nell'esempio della 4x4 gridworld fatto sia sulle slides(L07) e presente anche sul libro(chap 4.1) c'è differenza se i dati di inizializzazione sono gli stessi: gamma=1, R=-1 per tutti gli stati tranne il TS(R=0) e policy equiprobabile=1/4

In particolare mi riferisco a quando k = 1, sul libro i V(s) sono tutti a -1 (tranne ovviamente i TS), mentre sulle slide i V(s) delle celle 1,4,10,14 sono 0,75 mentre gli altri sono -1(tranne i TS)

Applicando l'equazione di bellman mi trovo come fa il prof ma non capisco perchè con il libro no...

cosa mi sfugge???

qualcuno mi sa rispondere?
Powered by: vbHome (lite) v3.8 and vBulletin v2.3.1
Copyright © 2000 - 2002 Jelsoft Enterprises Limited