debug off policy, prep v1.0.4

fhswf · Dec 4, 2024 · 1c32245 · 1c32245
1 parent eb751ee
commit 1c32245
Show file tree

Hide file tree

Showing 4 changed files with 15 additions and 5 deletions.
diff --git a/doc/rtd/conf.py b/doc/rtd/conf.py
@@ -22,7 +22,7 @@
 author = 'Detlef Arend, Steve Yuwono, Laxmikant Shrikant Baheti et al'
 
 # The full version, including alpha/beta/rc tags
-release = '1.0.3'
+release = '1.0.4'
 
 
 # -- General configuration ---------------------------------------------------

diff --git a/setup.cfg b/setup.cfg
@@ -1,6 +1,6 @@
 [metadata]
 name = mlpro-int-sb3
-version = 1.0.3
+version = 1.0.4
 author = MLPro Team
 author_email = [email protected]
 description = MLPro: Integration StableBaselines3

diff --git a/src/mlpro_int_sb3/wrappers/basics.py b/src/mlpro_int_sb3/wrappers/basics.py
@@ -481,20 +481,30 @@ def _add_buffer_off_policy(self, p_buffer_element: SARSElement):
             data_next_obs['achieved_goal'] = np.array(datas["state_new"].get_values())
             data_next_obs['desired_goal'] = np.array(self.desired_goals)
             data_next_obs['observation'] = np.array(datas["state_new"].get_values())
+
+            try:        
+                rewards = datas["reward"].get_overall_reward()
+            except:
+                rewards = datas["reward"].get_agent_reward(self._id)
 
             self.sb3.replay_buffer.add(
                 obs=data_obs,
                 next_obs=data_next_obs,
                 action=datas["action"].get_sorted_values(),
-                reward=datas["reward"].get_overall_reward(),
+                reward=rewards,
                 done=datas["state_new"].get_terminal(),
                 infos=[info])
         else:
+            try:        
+                rewards = datas["reward"].get_overall_reward()
+            except:
+                rewards = datas["reward"].get_agent_reward(self._id)
+
             self.sb3.replay_buffer.add(
                 datas["state"].get_values(),
                 datas["state_new"].get_values(),
                 datas["action"].get_sorted_values(),
-                datas["reward"].get_overall_reward(),
+                rewards,
                 datas["state_new"].get_terminal(),
                 [info])
 

diff --git a/src/setup.py b/src/setup.py
@@ -2,7 +2,7 @@
 
 
 setup(name='mlpro-int-sb3',
-version='1.0.3',
+version='1.0.4',
 description='MLPro: Integration StableBaselines3',
 author='MLPro Team',
 author_mail='[email protected]',