fix the bug of nan gradient

2422980a · liangrz · zhuqi · c2c24b42 · 2422980a · 2422980a
Commit 2422980a authored Jun 10, 2020 by liangrz Committed by zhuqi Jun 10, 2020
--- a/convlab2/policy/gdpl/gdpl.py
+++ b/convlab2/policy/gdpl/gdpl.py
@@ -176,6 +176,9 @@ class GDPL(Policy):
                # backprop
                surrogate.backward()
+                for p in self.policy.parameters():
+                    p.grad[p.grad != p.grad] = 0.0
                # gradient clipping, for stability
                torch.nn.utils.clip_grad_norm(self.policy.parameters(), 10)
                # self.lock.acquire() # retain lock to update weights

--- a/convlab2/policy/mle/loader.py
+++ b/convlab2/policy/mle/loader.py
@@ -17,7 +17,7 @@ class ActMLEPolicyDataLoader():
        data_loader = ActPolicyDataloader(dataset_dataloader=MultiWOZDataloader())
        for part in ['train', 'val', 'test']:
            self.data[part] = []
-            raw_data = data_loader.load_data(data_key=part, role='system')[part]
+            raw_data = data_loader.load_data(data_key=part, role='sys')[part]
            for belief_state, context_dialog_act, terminated, dialog_act in \
                zip(raw_data['belief_state'], raw_data['context_dialog_act'], raw_data['terminated'], raw_data['dialog_act']):

--- a/convlab2/policy/pg/pg.py
+++ b/convlab2/policy/pg/pg.py
@@ -126,6 +126,9 @@ class PG(Policy):
                # backprop
                surrogate.backward()
+                for p in self.policy.parameters():
+                    p.grad[p.grad != p.grad] = 0.0
                # gradient clipping, for stability
                torch.nn.utils.clip_grad_norm(self.policy.parameters(), 10)
                # self.lock.acquire() # retain lock to update weights