diff --git a/quacc/baseline.py b/quacc/baseline.py
index 9a53db7..7393d01 100644
--- a/quacc/baseline.py
+++ b/quacc/baseline.py
@@ -72,7 +72,7 @@ def atc_mc(
     cols = [
         ("base", "F"),
         ("base", "T"),
-        ("atc_mc", "accuracy"),
+        ("atc mc", "accuracy"),
     ]
     results = []
     for test in protocol():
@@ -112,7 +112,7 @@ def atc_ne(
     cols = [
         ("base", "F"),
         ("base", "T"),
-        ("atc_ne", "accuracy"),
+        ("atc ne", "accuracy"),
     ]
     results = []
     for test in protocol():
@@ -165,7 +165,7 @@ def doc_feat(
     cols = [
         ("base", "F"),
         ("base", "T"),
-        ("doc_feat", "score"),
+        ("doc feat", "score"),
     ]
     results = []
     for test in protocol():
diff --git a/quacc/evaluation.py b/quacc/evaluation.py
index a58f86c..deae980 100644
--- a/quacc/evaluation.py
+++ b/quacc/evaluation.py
@@ -101,11 +101,11 @@ def evaluation_report(
     error_cols = []
     for err in error_names:
         if err == "mae":
-            error_cols.extend(["mae_estim", "mae_true"])
+            error_cols.extend(["mae estim", "mae true"])
         elif err == "f1":
-            error_cols.extend(["f1_estim", "f1_true"])
+            error_cols.extend(["f1 estim", "f1 true"])
         elif err == "f1e":
-            error_cols.extend(["f1e_estim", "f1e_true"])
+            error_cols.extend(["f1e estim", "f1e true"])
         else:
             error_cols.append(err)
 
@@ -129,12 +129,12 @@ def evaluation_report(
 
         for err in error_cols:
             error_funcs = {
-                "mae_true": lambda: error.mae(true_prev),
-                "mae_estim": lambda: error.mae(estim_prev),
-                "f1_true": lambda: error.f1(true_prev),
-                "f1_estim": lambda: error.f1(estim_prev),
-                "f1e_true": lambda: error.f1e(true_prev),
-                "f1e_estim": lambda: error.f1e(estim_prev),
+                "mae true": lambda: error.mae(true_prev),
+                "mae estim": lambda: error.mae(estim_prev),
+                "f1 true": lambda: error.f1(true_prev),
+                "f1 estim": lambda: error.f1(estim_prev),
+                "f1e true": lambda: error.f1e(true_prev),
+                "f1e estim": lambda: error.f1e(estim_prev),
             }
             series[("errors", err)] = error_funcs[err]()