diff --git a/convlab/policy/emoTUS/evaluate.py b/convlab/policy/emoTUS/evaluate.py
index 3fbd348a7386ac1565589a113dc6f3fd857d81e4..ef71889def18d2de891937a63f6c0658f27f061e 100644
--- a/convlab/policy/emoTUS/evaluate.py
+++ b/convlab/policy/emoTUS/evaluate.py
@@ -247,11 +247,11 @@ class Evaluator:
         # full action
         for gen_act, golden_act in zip(gen_acts, golden_acts):
             s = f1_measure(preds=gen_act, labels=golden_act)
-            for metric in scores:
+            for metric in scores["complete"]:
                 scores["complete"][metric].append(s[metric])
             s = f1_measure(preds=self._intent_domain(gen_act),
                            labels=self._intent_domain(golden_act))
-            for metric in scores:
+            for metric in scores["intent_domain"]:
                 scores["intent_domain"][metric].append(s[metric])
 
         result = {}