SAC works

2025-01-14 11:34:52 +01:00 · 2025-01-14 11:34:52 +01:00 · c1d4bf4b63
parent 86df8a433d
commit c1d4bf4b63
2 changed files with 6 additions and 0 deletions
--- a/lerobot/common/policies/sac/modeling_sac.py
+++ b/lerobot/common/policies/sac/modeling_sac.py
@ -271,6 +271,9 @@ class SACPolicy(
            q_targets = self.critic_forward(
                observations=next_observations, actions=next_action_preds, use_target=True
            )
            q_targets = self.critic_forward(
                observations=next_observations, actions=next_action_preds, use_target=True
            )
            # subsample critics to prevent overfitting if use high UTD (update to date)
            if self.config.num_subsample_critics is not None:
--- a/lerobot/scripts/train_sac.py
+++ b/lerobot/scripts/train_sac.py
@ -265,6 +265,9 @@ class ReplayBuffer:
        batch_dones = torch.tensor([t["done"] for t in list_of_transitions], dtype=torch.float32).to(
            self.device
        )
        batch_dones = torch.tensor([t["done"] for t in list_of_transitions], dtype=torch.float32).to(
            self.device
        )
        # Return a BatchTransition typed dict
        return BatchTransition(