Por ahora tengo dos sets de experimentos:
a) unos mejores que los de Ruder donde hay un layer más de clasificación (o sea, está phi(x) y luego dos layers)
b) unos "simplified" que son peores que los de Ruder porque he quitado ese layer adicional
También vi que se mejoraba con l2(phi(x)) así que lo he dejado así
Ahora voy a probar a añadir ese layer adicional como último step in phi(x) <-- ejecutando
Luego quiero probar a imponer la regularización en todos los layers antes de la clasificación...