Por ahora tengo dos sets de experimentos: a) unos mejores que los de Ruder donde hay un layer más de clasificación (o sea, está phi(x) y luego dos layers) b) unos "simplified" que son peores que los de Ruder porque he quitado ese layer adicional También vi que se mejoraba con l2(phi(x)) así que lo he dejado así Ahora voy a probar a añadir ese layer adicional como último step in phi(x) <-- ejecutando Luego quiero probar a imponer la regularización en todos los layers antes de la clasificación...