You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
안녕하세요, 책 유익하게 읽었습니다. 즉각적인 보상term에 관련하여 질문이 있어 issue에 게재합니다. r = memory_reward[-1] - reward로 정의가 되어있는데,
episode 마지막시점에서의 PL - 현재시점에서의 PL로서 정의가 되어있는데, 이 경우에 즉각적인 보상이 아니라, r이 현재시점으로부터 미래의 행동에 대해 받는 미래의보상으로 정의가 되어있는것이 아닌지 의문이 들어 질문드립니다.
괜찮으시다면 이렇게 정의하신 연유를 여쭈어도 될까요?
또한, 즉각적인 보상term에 관련하여 r = 이전시점pl - 행동에 대해 변화된 현재시점pl 으로서 정의하는것에대해 혹여나 의견을 받을 수 있으면 정말 감사할 것 같습니다.
The text was updated successfully, but these errors were encountered:
안녕하세요, 책 유익하게 읽었습니다. 즉각적인 보상term에 관련하여 질문이 있어 issue에 게재합니다.
r = memory_reward[-1] - reward
로 정의가 되어있는데,episode 마지막시점에서의 PL - 현재시점에서의 PL로서 정의가 되어있는데, 이 경우에 즉각적인 보상이 아니라, r이 현재시점으로부터 미래의 행동에 대해 받는 미래의보상으로 정의가 되어있는것이 아닌지 의문이 들어 질문드립니다.
괜찮으시다면 이렇게 정의하신 연유를 여쭈어도 될까요?
또한, 즉각적인 보상term에 관련하여
r = 이전시점pl - 행동에 대해 변화된 현재시점pl
으로서 정의하는것에대해 혹여나 의견을 받을 수 있으면 정말 감사할 것 같습니다.The text was updated successfully, but these errors were encountered: