즉각적인 보상 term에 관련하여 #147

yanagi7393 · 2022-12-04T08:14:05Z

안녕하세요, 책 유익하게 읽었습니다. 즉각적인 보상term에 관련하여 질문이 있어 issue에 게재합니다.
r = memory_reward[-1] - reward로 정의가 되어있는데,
episode 마지막시점에서의 PL - 현재시점에서의 PL로서 정의가 되어있는데, 이 경우에 즉각적인 보상이 아니라, r이 현재시점으로부터 미래의 행동에 대해 받는 미래의보상으로 정의가 되어있는것이 아닌지 의문이 들어 질문드립니다.
괜찮으시다면 이렇게 정의하신 연유를 여쭈어도 될까요?

또한, 즉각적인 보상term에 관련하여 r = 이전시점pl - 행동에 대해 변화된 현재시점pl 으로서 정의하는것에대해 혹여나 의견을 받을 수 있으면 정말 감사할 것 같습니다.

The text was updated successfully, but these errors were encountered:

quantylab · 2023-10-26T08:27:31Z

즉시 보상을 r = memory_reward[-1] - reward 정의한 부분이 있었나요? 책의 페이지 번호를 알려주시면 감사하겠습니다.

말씀하신 것처럼 즉시보상을 이전 시점에서 현재 시점의 손익으로 정할 수 있겠습니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

즉각적인 보상 term에 관련하여 #147

즉각적인 보상 term에 관련하여 #147

yanagi7393 commented Dec 4, 2022 •

edited

Loading

quantylab commented Oct 26, 2023

즉각적인 보상 term에 관련하여 #147

즉각적인 보상 term에 관련하여 #147

Comments

yanagi7393 commented Dec 4, 2022 • edited Loading

quantylab commented Oct 26, 2023

yanagi7393 commented Dec 4, 2022 •

edited

Loading