Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

즉각적인 보상 term에 관련하여 #147

Open
yanagi7393 opened this issue Dec 4, 2022 · 1 comment
Open

즉각적인 보상 term에 관련하여 #147

yanagi7393 opened this issue Dec 4, 2022 · 1 comment

Comments

@yanagi7393
Copy link

yanagi7393 commented Dec 4, 2022

안녕하세요, 책 유익하게 읽었습니다. 즉각적인 보상term에 관련하여 질문이 있어 issue에 게재합니다.
r = memory_reward[-1] - reward로 정의가 되어있는데,
episode 마지막시점에서의 PL - 현재시점에서의 PL로서 정의가 되어있는데, 이 경우에 즉각적인 보상이 아니라, r이 현재시점으로부터 미래의 행동에 대해 받는 미래의보상으로 정의가 되어있는것이 아닌지 의문이 들어 질문드립니다.
괜찮으시다면 이렇게 정의하신 연유를 여쭈어도 될까요?

또한, 즉각적인 보상term에 관련하여 r = 이전시점pl - 행동에 대해 변화된 현재시점pl 으로서 정의하는것에대해 혹여나 의견을 받을 수 있으면 정말 감사할 것 같습니다.

@quantylab
Copy link
Owner

즉시 보상을 r = memory_reward[-1] - reward 정의한 부분이 있었나요? 책의 페이지 번호를 알려주시면 감사하겠습니다.

말씀하신 것처럼 즉시보상을 이전 시점에서 현재 시점의 손익으로 정할 수 있겠습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants