From 1387ef2c59acd1d95c5887202b221bd1b155cd73 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Alejandro=20Moreo=20Fern=C3=A1ndez?=
 <alejandro.moreo@isti.cnr.it>
Date: Tue, 22 Jan 2019 19:06:16 +0100
Subject: [PATCH] identification vs attribution, macro-f1 and micro-f1

---
 src/author_identification.py                  |  78 ++++++++++++++++++
 src/{dante_eval.py => author_verification.py} |  22 +++--
 .../__pycache__/dante_loader.cpython-36.pyc   | Bin 1850 -> 0 bytes
 src/data/__pycache__/features.cpython-36.pyc  | Bin 17280 -> 0 bytes
 src/data/features.py                          |  25 +++---
 src/model.py                                  |  29 +++++--
 src/pan2015_eval.py                           |   1 +
 7 files changed, 127 insertions(+), 28 deletions(-)
 create mode 100644 src/author_identification.py
 rename src/{dante_eval.py => author_verification.py} (72%)
 delete mode 100644 src/data/__pycache__/dante_loader.cpython-36.pyc
 delete mode 100644 src/data/__pycache__/features.cpython-36.pyc

diff --git a/src/author_identification.py b/src/author_identification.py
new file mode 100644
index 0000000..3df2892
--- /dev/null
+++ b/src/author_identification.py
@@ -0,0 +1,78 @@
+from sklearn.linear_model import LogisticRegression
+from data.dante_loader import load_texts
+from data.features import *
+from model import AuthorshipVerificator, f1_from_counters
+from sklearn.svm import LinearSVC, SVC
+from util.color_visualization import color
+
+# DONE: ngrams should contain punctuation marks according to Sapkota et al. [39] in the PAN 2015 overview
+# (More recently, it was shown that character
+# n-grams corresponding to word affixes and including punctuation marks are the most
+# significant features in cross-topic authorship attribution [57].)  #we have cancelled the
+# TODO: inspect the impact of chi-squared correlations against positive-only (or positive and negative) correlations for feature selection
+# TODO: sentence length (Mendenhall-style) ?
+
+
+for epistola in [2]:
+    if epistola==1:
+        authors = ['Dante','GiovanniBoccaccio','PierDellaVigna']
+    else:
+        authors = ['Dante', 'BenvenutoDaImola', 'FilippoVillani','GiovanniBoccaccio','GiovanniDelVirgilio',
+                   'GrazioloBambaglioli','GuidoDaPisa','PietroAlighieri','ZonoDeMagnalis']
+
+    discarded = 0
+    f1_scores = []
+    counters = []
+    for i,author in enumerate(authors):
+        print('='*80)
+        print('Authorship Identification for {} (complete {}/{})'.format(author, i, len(authors)))
+        print('Corpus of Epistola {}'.format(epistola))
+        print('='*80)
+        path = '../testi_{}'.format(epistola)
+        if epistola==2:
+            path+='_with_GuidoDaPisa'
+
+        positive, negative, ep_text = load_texts(path, positive_author=author, unknown_target='EpistolaXIII_{}.txt'.format(epistola))
+        if len(positive) < 2:
+            discarded+=1
+            continue
+
+        n_full_docs = len(positive) + len(negative)
+
+        feature_extractor = FeatureExtractor(function_words_freq='latin',
+                                             conjugations_freq='latin',
+                                             features_Mendenhall=True,
+                                             tfidf_feat_selection_ratio=0.1,
+                                             wordngrams=False, n_wordngrams=(1, 2),
+                                             charngrams=True, n_charngrams=(3, 4, 5), preserve_punctuation=False,
+                                             split_documents=True, split_policy=split_by_sentences, window_size=3,
+                                             normalize_features=True)
+
+        Xtr,ytr,groups = feature_extractor.fit_transform(positive, negative)
+        print(ytr)
+
+        ep, ep_fragments = feature_extractor.transform(ep_text, return_fragments=True, window_size=3)
+
+        print('Fitting the Verificator')
+        av = AuthorshipVerificator(nfolds=10, estimator=LogisticRegression)
+        av.fit(Xtr,ytr,groups)
+
+        score_ave, score_std, tp, fp, fn, tn = av.leave_one_out(Xtr, ytr, groups, test_lowest_index_only=True, counters=True)
+        # print('LOO[full-docs]={:.3f} +-{:.5f}'.format(score_ave, score_std))
+        f1_scores.append(f1_from_counters(tp, fp, fn, tn))
+        counters.append((tp, fp, fn, tn))
+        print('F1 for {} = {:.3f}'.format(author,f1_scores[-1]))
+
+
+    print('Computing macro- and micro-averages (discarded {}/{})'.format(discarded,len(authors)))
+    f1_scores = np.array(f1_scores)
+    counters = np.array(counters)
+
+    macro_f1 = f1_scores.mean()
+    micro_f1 = f1_from_counters(*counters.sum(axis=0).tolist())
+
+    print('Macro-F1 = {:.3f}'.format(macro_f1))
+    print('Micro-F1 = {:.3f}'.format(micro_f1))
+    print()
+
+
diff --git a/src/dante_eval.py b/src/author_verification.py
similarity index 72%
rename from src/dante_eval.py
rename to src/author_verification.py
index c2d2b52..53218be 100644
--- a/src/dante_eval.py
+++ b/src/author_verification.py
@@ -1,7 +1,7 @@
 from sklearn.linear_model import LogisticRegression
 from data.dante_loader import load_texts
 from data.features import *
-from model import AuthorshipVerificator
+from model import AuthorshipVerificator, f1_from_counters
 from sklearn.svm import LinearSVC, SVC
 from util.color_visualization import color
 
@@ -12,14 +12,16 @@ from util.color_visualization import color
 # TODO: inspect the impact of chi-squared correlations against positive-only (or positive and negative) correlations for feature selection
 # TODO: sentence length (Mendenhall-style) ?
 
+
 for epistola in [1, 2]:
+
     print('Epistola {}'.format(epistola))
     print('='*80)
     path = '../testi_{}'.format(epistola)
     if epistola==2:
         path+='_with_GuidoDaPisa'
 
-    positive, negative, ep_text = load_texts(path, unknown_target='EpistolaXIII_{}.txt'.format(epistola))
+    positive, negative, ep_text = load_texts(path, positive_author='Dante', unknown_target='EpistolaXIII_{}.txt'.format(epistola))
     n_full_docs = len(positive) + len(negative)
 
     feature_extractor = FeatureExtractor(function_words_freq='latin',
@@ -27,7 +29,7 @@ for epistola in [1, 2]:
                                          features_Mendenhall=True,
                                          tfidf_feat_selection_ratio=0.1,
                                          wordngrams=False, n_wordngrams=(1, 2),
-                                         charngrams=True, n_charngrams=(3, 4, 5), preserve_punctuation=False,
+                                         charngrams=True, n_charngrams=(2, 3, 4), preserve_punctuation=False,
                                          split_documents=True, split_policy=split_by_sentences, window_size=3,
                                          normalize_features=True)
 
@@ -46,12 +48,14 @@ for epistola in [1, 2]:
     fulldoc_prob, fragment_probs = av.predict_proba(ep, title)
     # color(path='../dante_color/epistola{}.html'.format(epistola), texts=ep_fragments, probabilities=fragment_probs, title=title)
 
-    score_ave, score_std = av.leave_one_out(Xtr, ytr, groups, test_lowest_index_only=False)
-    print('LOO[full-and-fragments]={:.3f} +-{:.5f}'.format(score_ave, score_std))
+    # score_ave, score_std = av.leave_one_out(Xtr, ytr, groups, test_lowest_index_only=False)
+    # print('LOO[full-and-fragments]={:.3f} +-{:.5f}'.format(score_ave, score_std))
 
-    score_ave, score_std = av.leave_one_out(Xtr, ytr, groups, test_lowest_index_only=True)
-    print('LOO[full-docs]={:.3f} +-{:.5f}'.format(score_ave, score_std))
+    score_ave, score_std, tp, fp, fn, tn = av.leave_one_out(Xtr, ytr, groups, test_lowest_index_only=True, counters=True)
+    # print('LOO[full-docs]={:.3f} +-{:.5f}'.format(score_ave, score_std))
+    f1_ = f1_from_counters(tp, fp, fn, tn)
+    print('F1 = {:.3f}'.format(f1_))
 
-    score_ave, score_std = av.leave_one_out(Xtr, ytr, None)
-    print('LOO[w/o groups]={:.3f} +-{:.5f}'.format(score_ave, score_std))
+    # score_ave, score_std = av.leave_one_out(Xtr, ytr, None)
+    # print('LOO[w/o groups]={:.3f} +-{:.5f}'.format(score_ave, score_std))
 
diff --git a/src/data/__pycache__/dante_loader.cpython-36.pyc b/src/data/__pycache__/dante_loader.cpython-36.pyc
deleted file mode 100644
index a7b3e6873f5393a921228e671c5bd1b627ebf1a9..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 1850
zcmZXU&u<$=6vt;~XMcF@q@fa&6cG#(5pGK)g!rMVLZG%t<&aB2MOKit^^Bdh*SpT_
zq;-?s9&nKmQm_04T)6SqaF`o#>c7wneBU~*0<1O9Z)V>7dhhezhZ`I5;<xLEf3z6;
zi(U9U=%1sNUqL9Qc*gqlFETz8eZf~_Uf*lxWM3*z$)~LED_;fp4^&4*s`ZrjLlvtw
zMk2)zSa0Jw_G9}!?&PFM^P!|Jz7UP{+i2xeh{~(@Hc7F~rlRax++o5iUWuhx^6$A4
zwOsToX`WPUA}YS*wO`@%sWgj<LG!NQjz3^EX0f6UD)cL#M%MFH0GpR~S6I!Cca^N=
z@$P-t;I_g3>D5Q3$j9CMWcEOtZZYbf)n|2gRGj4M>*pL7{qp(W_<Ek({Gu$iv1yUt
zHKs5w7!_ugSSLqmu6m*KR55g&(k8|Z%Ez+@Mdo6itF;~uv8UBoSL(zJkDT9_IuAC#
zGII$>z4-X{&BJeSNO^dWW)IWk@QyC0wwNEP1WOM~GlXW7Rd<jTiPC0o{@86AJu4pS
z!91}zA&<$)mmwJMa>)Z8^N7F3cSXd_D;OQpyXX^W0a_E4Jt&qT1`OWhR=}TJAtFjV
zlQnDlU|`*E{O9jGey!&j(8Ua$YT6Jl_}L3y!(;7Xk!5;FE-PJld-eY220dY-wR!XO
zmDs|V+d6;DFttgubQ_~3nKL|O3qNy(?EE|Alp&E!-v*kG*1Y9UC}aEttG!x|S?wzj
zviN!ZzB}x@AM3CRCqjW8vv<4$-6O`AqK>L)B9*_y>%r1m54LHyRvla4g0(7K3Kgp8
znV5u2R<~_bwc)pR)vEYZn4c<d(xMU0^0<;~z4D>8XtWAc@CmDf;~lUl%<t#Bg8mD;
zcCc#)yLON#vg(Yy1IidV5(i)%{I>QDh0<-@ou{QOvgF%)_wEf&<(^$w#~dFR@{W@y
zcJwJyGSd05P-#By#ZD9mNrqJ_H7;&YEFY!z$c0AFvt+2j=R8Y+cQMzwAyS+)I#Da<
z2gw}6s<+`JpgZbcnipkiQ!tpE*dt`e=1D%yi%0nY`7qYjMQZ~W<$8?3KGZH;*_M4j
zNA8rANtt#r$-ywwN$!I4-6E?OHcw{SNzz<+zWaaKi76)rWKzC`8<+1vFcBjOB)Ey0
z;2pk$REUrY9gN4k<4NlC*fSr%_GM~N!J^jS^b3@f)qF9!0MNHJ3J(B6X)@j8E$E&S
z$^$?if-iv*S3Z@vbA1JnL>WU8O+(WkGn6}dtC1*UC~pMD@z#9?z&K$=Wo@xr1;BNu
zmNrr$@R2H-#I$l7^HeOc=E?n+Kv1@<2ryTnnm0%gB@GLw!C8H?bylB>8{J;p?9e!Q
z%5+J*P2wFA??Rwb6~=1i<WxT{oj*5eZVlCo28Ui~c1gcR;yQ^NB;F@MwWQx!1#eIo
zl&Swm3hb>SbqmJj>k#Z;QHl_i%c6rAnU64sl0i26y;gH;7Z&9np|?U)7;Rp~bW>d#
oM4NCnD=!>PRn|0BCb~5%)Jdj4BiEFh5Fi34MnQBb3gS2a0W__-?*IS*

diff --git a/src/data/__pycache__/features.cpython-36.pyc b/src/data/__pycache__/features.cpython-36.pyc
deleted file mode 100644
index e47739ad4ecb9caff219c39a26be95fd753b208e..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 17280
zcmd6P349#adEd_LiNyj0L5R1g5k*T_nTAN(ksX?*Ws{<#i?&RfqSusHgZ&1;E*HDY
zH?trCEqp=NVOu_OIQJntX)MQb5<6|<+^yPNZPPYw({y?yZQ3+U(>6U)w`!Z@|Nmxo
zcCmyM|C0QYfWPm(H}8Jm``&lGw|woyM6omV`b%GVIF<UX)X?8ok-i7u-=0mSBqdfe
zRf%G&V&mIxrk697jK#ckGrOFt<TRZ@I$z0aI@>HPk5$Groog1C$1CH@rAldeqB5a*
zR&%m4iT3&Cw&khH6!Ho(CPf*Sl1#{?Y?CS3F4M9@X5=Q>DZ6C1?2)~)Pxi~razJho
zM{bpaa+@5ISIO;ihs;V@?vz){VR?<r$z5_pj><84t-MaYPVSc1%NykD<+!|2PRN_&
zq`X<~k+;ZO<&>P3d*zJ0O};_yll$cXc~Bmbv+{O%hdjJ^e`UM8Q_ek+s!Ypyd6!&}
zN93ZsTPm3Cd*qTlD({u5JSMKpOHD*PS&&6plDahHvNUB`TGEz|ToEI_1k#lixhmIW
zRo3Kj>B+jhPu?#dkPpg-WJ8{i56hGClsqlZ$VcR(@-cZ<J}#e-Ps*p{8|9nio8?>N
z)AFtIZSw8%9rB&>UGm-XJ@UO+>G#QV@)`N8e82pF{5APO%<FUVynJ4MNWLI1$QR{@
z<wxX4<xBEq`7!zH@;Bsf%8$!e<R|1O<)`GQ<!9t)<>%yY$={Y2v8wmV-;uv7KQF%^
zzbL;Xzbt=G{=WPJ`4#zx@{i;n%dg5mk$)=xOny!Nx%|5P3kl_4%D<9-E&oP-Lw-~K
zt^7OrE&2EIALO^?Kg#dOb@^TSPx5>6pXI;Ef0f_Ip8hxN#DACnA^%hUK>n9}RsOg9
zA9+dsulzsx|MG|ON1wDL1+V}%APvX>vVa^Q4=4b}07bw!pahrzOait6rU2Uk(|{d-
z8Nf||oq%0{-GDuSy?}jy{c;iE&42@dTL2E=R=`2PZGc07R{?GZ+#wBwvw$+-PQa@H
zhXJnv%mMBK9042!90R--@H)WP0qzF89`FXh*8`3N-Uv7WcoX0x;LU)00B>3RYGntg
z?h#$lTaj}La2oW-9_|I40lW?H4S@Rq_X8dPJczyiRm2Yg&H~;Jcn9ENz&iow0OtYk
z0$cz*0=OtWgzpAa0Pg`@0z3+MFQ5u|4B!Ih0X2XCJir2A5wNs)SB1E)0~$Cn#Q9}F
z6KUdp8PGzSd(Z}Sklrnp$L}i(+-U>wpRg+2odD294ertk;40GGt!sc)r1v9!7VtQr
zhc?{5PXN{d@549u^8J7hEZRy<A4K{?3#6qDz!Rv!osMg08R_lAfG1H#3U~_eG)5vN
zJOlU$(g)v`Lh7S{k3GTE$2RQBZDO5Efgn<;>*S$l%T~DU{6bw8E_k(|ZR%^DLDu*=
zuZiym-s<@QJ~OqY`Z2^~t+rWqo2XPyhq)y`aBG*tV$C<zWj8SOYhj`8`yJQ#9xMAn
zyK}V-RubA?5Zd)tXp0xxu2j;kHa=E@O1ieP9Hu*-2`#sh_B|9`S@9~FD=T#ut*#-j
zUJGr%Udehv-CeF^>w+nv1Ee!6E$wf<l3wwel`N{V%X;8eGG42`Tq*dqdb3{hSl_Ev
z(jC*TWZjj(TSl$<dL=C@?8Ret;4XVDbl(a*Q^{bIb|sJc9e(C&?N(qo!Ik++{>n;w
zxh-uBiY~JL3TBV)FrPH~sHB&?TA1myG0E(e6&EwlcxJJUE;(5XYYSFdHB2MmLTwk7
z{dx=8tvc(rSeQdYaN^KLes;xIjQDj_Ph;|xTz#<~te8r+RyQ@5l`&gj1~b7NGcHzu
z?qz8OEB3t=<aAb~l4&=AksP)xK%DgvVPD$OdRm-*j+6G>N*;5-1eR-{5&dJF2Al%;
zM-cQNWG~yM6r|2EoxPkh2Lh{M_fi`mt{^R$MuzDP>qB6W=Tha|*)ZG0h^;X1wHBLo
ze<{p^PO#*qwW-I~omM+=>Mh5wwL9LeW!vn<AZ8zeayFdNhSh~`s}|JTt*TO#8AD;1
zji{@5!EJWEdyQ$EFt<PoRhn(Ot;Oe4=2p~v>DZ~`m)_-j#=mr~-UMx3I_>$FL7ta{
z=(^;a8d8CKX~A=YuJQc2&T2Tl=mjIg-h{sVB7&4vurh$6ZEnL?XkoKFKpo(c-T}m~
zOS%uR1<NZw2tmWThQvQ|G^{gBV<utRYk^o-5M=5Iu|c3M59><Tk;=G68);bA&?P0H
z8-_|19Ev#_VkppwyIgPa07X$fiZB|>Fdid}g($}{5og?a9xsn!wyqJgIA4aEg%4z5
zp2z~Jvld8`4YAT3+aS(sV`i`}=FS4fTEIjW1z2qs`G|6?&&4B`i(sf-V{Xifdtj_R
zXa>9H<k>aisB31Rfa{MY6BjTe&jO+(k0zQZ=sYzGWr_oqX+q01m3HTG>b-gHG0@}A
zV;Yzv!gSqJd~mCgK_&#Ig9+$fV*(muC5jwm$GFfK*)b-#@4y73Or4Z~F}Up*(qK$w
zGrBG>#)QUbALBs@fTIx)>^8!JQb9Bc&5m&p5dzj3C4l<~DJ~~KH0ey(1?RE?77hMX
z_XCg;L+qVrI8~eM)B{Ek5ETq?jF{qbln}CDFdzebX+xAK?sTu~3~e$|kK2uaeb=K1
z4RkG0#Ll>ccweK<%i)t-m-C_x!?#X1Z9K>p9A*ZX2|hUmq&c?HlV&h1a&$x#uya<!
znh|NItcPzfak5Q_H?mqroFk$D1jkIJc7CJt9CNU!v<p_8_88O|xQ3q$>I~d~<iwzk
zAd63OZe%b*79w(U$PRRd5XeR~o>6?DHfN<F>XIxlVaA*|V{R+rEW1F&J`k}r3!@lQ
zf*8cwI3;W^#7-1)J}rtzjY!-SU*J(#Haa8*8R-Wxf)8LM$2>I3GoB~5nV>iZLPCg7
zYzW0SWK~2CN=F$VlOcwc=@{iRhTMcX=!7vx1ihg<PM0V#IA$n`PZ++U8W7+Z2z!M9
zgy^Fd6ayU%Y0ewsmUPKYiz4>Sodd-)lRK&3sGMVhV=k<Kzz~r9Gl(%ZLaiI+qR|30
ziD)H|qg*rg2^~cH$u)A@mfL<e1CjCKb1ENNsF!3t&n##mnL4v5a$kG_6JG4rApjP6
zLKcy->*fz^mOYQ|FjDmKWgs6PT%c>(ttj&aJ+Pj3ReupxFn?Ad%V@Vif%9%Ruaf~I
zY_lntUOccHP4flU@8)zSI(3-Xn3P+O7x6;B`g49X;&V~!=b%b)<*V8jsTZH~yKJjT
z;upFS*2uv%3mtM4O}92_9$czw9=nkk);t0jU5SQ~K5O=%eC;hz)f(MJ&`Z1JJ5UB3
zssUYh(es^lu;dvhSaMs)gfimbJgVxk>IIJ9?R45E@T6>q(~-(C+?6?i-piJ85UENL
z1qbmNPEk=9u6!K1K9{3vf^FW4)TT9YYjsUCNC?*P1Xk97dt$>ntvXaWb2e!}1hBz5
zfWIHXA}T*Rvu^dQMrtEvGEw{~`%30qG&d;USs(g%2WzqCj)Yb)GUb<wC!mA{wf1u7
z<QaC$F><N3Lw=`O532L4Rj(yYsHJl!n(dm~^iLwuZxC8V9e`Dl$OPWC(f-4!(T?uz
zkCL*?{YWRPBbrDUijFTK5uqbUHDZO52wAtTeL6_@pirJpJ^GPL_PV{E)*6`}P_~|t
zw4yMhb+bXXm)(FRemP~Fo{cZGlkDykzCX~jdiI`_<aVW)lI*V3p41?HBGq!D{N2d!
z*BaE=ojQSbja(0eXQi$<kKhaHZT`=;S%zze)_WR}A)-ch%W#W`wEi~To?w^E$!pc1
zux_zY368nD#IaJ)K_rxd_O4rj`pH0iN_HC-X(^(kvc0J_d+-T65rFz8`_y+K1w6pZ
z1}s>#B_RymW@pKbmqW|ZH6!bJY3#(J*Yd7)%*nU2Pj;S3tsVK=RyCJ2#&8fwtNo#}
zLHn}T8W~G*myD82T`yp;>$GTIvYc{0%(R-p<*=YlVb)eAh|y~QGaU0;-DQd&FPxyU
zF(^qly%sFjcBh;(_o2JWSh5%9D8CE+@37Qu!C;J<`eAX99+_)6eIo|gwNEaQvUaAY
zt&%kfn6eJqjx}kU_aMJU^zn};iTqSg(mWE2sdYQRZf$^5>`n2+MCqM0-!f*lhg0)<
z<X?MTVDTK`Y|XA`dZ2-s)OxmOH*85a(!Ep<=c#AyN_`k7hejQC{1_<T#-3-+8sgHx
zCz~?wL{QF{M-YWsi0VZz%(<NoSV@>^wCk;ME}SH@s4f_H5!QC#hvQda7PqffeZ_st
zyE-VV6k1T|YfGN5_zZLHg#`%dQJm$Y9{hJ>RDTLV3Wga`RIn#upgEQyDs+N1%3c1^
zf=hVL$MFG7WdK<~?%G0xCt#xjPLp3R^z2>%TxJYd8UxO(XYKW|UIymw7;(|dA(daW
zz@P9v0}LS#X7A-Ov$K~)nbphhNo_8_vXh)c>pTg3XM4GYG)(CXVq(?CNivUNUclzN
z5a|-a98d>bDt^nwa7@}Y&?d2%ce}w-+xTHABA^az{o1PbP#GH_dwX1Mfa5T?XxiOQ
zgkdFPQ{{NHnWNw!Qei>6g(pPt<<mGPlKF2MC@xt=YX<RtTkYXGN^jsDN|O}e<l3ad
zb$CscXDjEyn$w$kXu_^;M<Zod2exKc4QnIyXJT3A0gTY+z7HZjvU>9n@~#2;eCqZ-
zci4*O4sj>joJA`*KH68|Q;XR<S<&bKWberUkiz?4X#jLYHf}B;K$`r)koHGAJ&(K<
zfUiW4Ei%kWm<1UHOVX@z2|>&(aJ<0~PWMtE{}byOkbDL?*}w)PfKYuV6@Xk3TTi8)
zvKDOJ#6mBvf)`@30a8{5G5ts?$Tjj5l-yhwS0<^VgTH&BEV#A6>3don*M~~xISa<S
z(uF8nb!M*}J#yqo*=a9C1+nADQD=|Sg_DrJBDP6RfcAVGjz@QSka^s39V#u(Rj7TQ
z<GHmZ2VPAc8K)i%N^a!LQdMd#>VR(2Jn9lQVb`?SQ>!xvLFTS<TK<yT@toPyhtHJb
z&QG&PNQBvBN@WKYlXIq@zuA3N*4{Ur5)%9lZpN^NC#k2wC-$UfQcqj^`ebe`q8hHe
zK5>ukc}!WAiA_U5^UD&Yewb@T9y2}DJkBZ-KZ-<Ooj6+UZ^nqb3yi|MvK5t=3+nb#
zl2URE3ujREG_bAg$vleg;lAvISw&houdKs3%r5jtt4wa1vL6w11$8P@S`zvCbQb-k
zUPh^DGEmNR^D9pMeW>S8BS_`oth0-B*a2oJI<Fu%ISo__C_eQxJc-1n)6mk>urN3c
zDkct*>L1<zj0%9KQVS77EA+BF3wj1-aR$=xgyKXzV?|2oGxk%~Q#Q^G71sW_!6|`C
znNQA5z5$V==VrtTNND6vog(zGgOMKgG=?-htQa`3_yzf%c{-+;7<XX-(!;-650)Yk
zGQ^RfNsSK~FcB|FXyw~6TAx<#8X$bAf&a3U^5;t9hAJrNeLw`8iTb++6D^Oa)fG`_
z4fzq*TxN<2ic+X)G1W!@f~IU!0yQ0^Dy8A&4N>OwP=2h^Ri=jXcxEDur**zVvsIGa
z_X-&N6h`(bCMjPdg3W+r_YcT6K-u+O2ol;QCr@aX#iZS9qBMIcGLvE>DH6DSBgu~V
zcx*Z;)vo6fdWCw|$i_TALs|`TLPN?<sJjU29#AU0Pk(9-ul(r_vd_g}$={m8A6AaJ
z&~8GSf>|s3$F+y+%zH~vA)SXn+g@wQZ8q=lol~$mAY<Shg1e^Xoa&ktk9_+S?A<oK
zK<(CFeTkt8G-ut%3y93ek_}uGTZ@l#*nIzXr2w#ozf^tci=2v$0CwH60l^P;X)CF6
zgYIM+=pmMG=H)b}WGHA(vtR2_o7fWdAjRDb5~^#KsB4m$ZgQ&Jz&0a3xtRz3DEf$*
z<)%Rr-u<VP?`i~5s@K|GTt=!0+&uD+4MtXT2P}}QQcY2(P9ERnwJv>QVg3|5@=U}D
zsR9nM!$@9NGTjcm#pH)Wilz$aqUxxA6~q~f7ej4xNHouEwHKd3ok$`VGLXkbn6t3c
zkUC_WRg@(r8qq~K#RkU^z+AE}7vR3bgB}=UX-PkuR^g}S1WhiOS~M)wfK@Xp<39L`
zJc+m7PIPhYKoL}yAy7oy%YWh8Wzg+3J?Ejr7Y@e?<wH~);i!BWwG-7K$DPw)e|>Ja
zrS?fJ86J#z_&wVT$~A;M5m%{^I{ik~QZMxN;gN>`j@vYzE33{zJ<!Hy&zIAclHZ-D
zZ_qW>U?I%mmZ2&OmGRahwC}2Nt#aD%?1yQz3&()imd|V1a#n?GI291{)s^JIfmvhi
zoc7>H<ff#Z(090PKup^BD<lh=@u_?PG*q;45&M38UFTW8PQtm)((^SY`9}$v&=W0K
z8u>8IGaG4GHx^8A(v<Zq%y63Dwpm9VofppBR5Y_{OeAfiW5Mx5odIgDA8wCpjIL>>
zgZn4k3V78H&6uwGrNbhuglfFnk%dkT78+IfB@7YUa3#w;jjtNDRQ_>2l>Vx<eg_id
zSpj6UKh?7qVPXfi%5(6sMs|Z|1EvG4yI7xv<_h}__xNW7`e%@*+DHozbu!oPrc3bA
zxo3c(Mj_S%aIX(NU@R!I=F`@0-2CrCD$xku0jEZ~G0xs-HL5;)n0dfy?(7-$4{hR!
z+>{*v{}2LYy!+Roy<%I?edKR~Qyku^4ZCmRYbT*qrK{0+ou*s!`U2u8I>Bb8fn4lK
zeME`<b&f--q?>zmKev)b5f3eeMZC*s;kp7|)-XeRGR*mUQK0NH%ynCJ7_MP1fYSx$
z&wDY%kk+YuHBmU@6JVZTr6&<o#@VP(3r{hd1c4>dKr<g>aFD?Uf?ol|+F>!3v!-q8
zh9rN+bM}m_wG#3mc6l6>h2D*XUNOL$gi;9KcP~v}6^t4XNe?O>yjt+{@!<y5ymcOr
ztg=yDtvrm@z_@i8?=iA!{f24Wq8U=2;TYirj(T-)(sQA8F|=00z0pyp#aH$9NfDoL
z@H($uv0G;<V_;57@jgsGRKnYfxE>DK$kCYYAB{mzzk#9S_ZUU^q4>|xT1lwP!Us29
zaX|4N`Swhy2Z;|X00SUSc&=?j8_@7L!T0uQrbmX)LEFbmr{6}A(h)8)c;;$=<ZlwG
zdjS4L1YW8F7ayLWs$~d0JA((JX~{_*kGx<3dawZ{FZRMDACux4SB4Kt@oX!LN2GXG
zikuvumLez5=cR}Xe7se@DV#bJ;VO2fw9VP`XBIIe{(k?>x?AQ0NShBLsBJ^QKgJ0z
zI6<7VR257BA^g7xZFnG4RXBPO!fZvD?d1{XdIf}ect2CsLa&H$tT&FZ*aIG`<Gl%l
zrQRgM37w$ro&fQw#GuRP!L}=rza{aGI8bH-7eYjRIUN_W44&fVDuo$*Eq#gA_Y(ER
zGl<7g=O*4;%sJ=j0>Vu?->t2xy!3r|M8yf($=LBYkYG*R0OHjcirrcbu6&i7ZRbSf
z6g^ozp{{AxI5`)<E!1gtG3l#q$M1Nxy4#GqxVM7?+itoS@4N55>QSu;M^7@|rs88-
zj49MS)9TA<b~(Vq)up!YIk97Qsorti0N$wiE_F1O%58{vNAQNgK+t+Jmy8s<yNJ8v
zs;?*(<Mk$kL1g)dBi~oNc>iUWJlgeU?~I!G@PrBQ3&hjRjr?^mQTjDwA01qJeIL&a
zeMW@qR|lrRjeTNwY4~uM5!>(;dS=atuMav@?n4jb%S|WpmnYkCoZ1(Lg__BI#|5XO
zE<*4+eB<R~6GcgF2e-?7xi(wt8a@+QJsj<Wdf(&Ci#nNKb?zwMQ66j_Oj5RJ#!V6*
zy#sZj+k}F)IM73*E_hcB+$(j*!?c^k(qKBX^*L`&=dg-gomwm+*&x}8g>JJsXhnsy
z4$r9e-&(y24=0?SdNhaT8xvcEuIPG!PElM9H{E$?uDDc(Q*{|iEZwWoVUO{r1kA%-
z$J}S@i+GcQL>*pKy=zXU|E4pzXZ9k~mRutqa_E96B6D69CDfs}M|20*TpS}{!*AC0
zWXHEc5w}=P)*g3?hZ^%ZcgNw$ZC^$6=+PjL9CpeNq}>hT%^kGtyMp@~IY`tvgQu^~
zta!ZY;?|*`gpSn6pe_%yYX$d+5_ep7E*^HU{rA4(D1&2t#s6Zgizfre1`1DEe0KC%
z0}lt}E#4?$K-`O|BEPEJ$Rccu*Yus){%p%{OghAfS{Z{T)n8!{FJ^eoQD=6cZs1Qh
z?W>V@dqB3cYBiz2IR<A84oee{QOelmWYp2!K5x2S)XOn=;PF<e>6*djpDj;@JNjH@
z$PFBB2ZKxAcPL9jy&HK-nAM|iz71k7EDl(Mp-Xt6eudjcrezk`U>Y<UJ#+4>9KLys
z1^Jk8%G>a2*J~~qdK}GnGx#0`-^W15EJY7hBZh=0((p*dX_O4UR0%ZCu^C4;pJDJA
zgU>P;Q9%mTD)u|5R(}tLdQp%%n6qB)-`butBU-{-zkQ-3QYWC!bBY~)3EBa40(%!U
zM1cVjxj<%MaBCVa=^4D0fW`=wUN41UV9<$(G<1bV+I$3;L(nCWh6d5d!9>qoO7jL4
z_oZoE2C0i121TCtsd{q?okCNoMgfn8$IvtCM5aSfY>eyWQ&CfJqQgB|Y~ax`M~B*k
z`K&_=X-t^kL^#<S54KT@X-sU`&|g_nkZc2*N@Gf(^+vrS7r(YJ({YPwZLxi*MQ)20
z_+5s%CvGvr(Ubo3Thzuc3CvFfJGJLsQh3(JEplmnLbasb=w*+LUB+vC^UX-(_X4ID
z?2{s~5bTFO1?{S_XCtj`CRL}pnIi`WdgHjqFC`<7Z!z*MpR~;z0!K%_6|D|R>Dj2K
zX!P6Iw~lTr1~~dlf5Pa8wj6z8i_!OD^v|KUNt9t106PFT0k|vK#;Z0!D_G?|*@hZQ
zH~KXd^%d{>KG}}%V&nD=>gvD?(syj6WE$2AFwYhncyj{%vl!i)mv=<=i9SSt9<S%<
zG0^kct$Mgsm?l!@xP#~B$=BMeAyQS?ZoXvfa}=%J|5%%iD-W@tgePyV`I@-qK*@<U
zqkdnTs>9$QTS^r8we4{=@b%bTmy8{0G^!PCJvKUfl8f(8A>uj?S&q8Iw{Ep|xd|n`
znjq$QqS6g9-!}nu{RIr^Z_L(dA#wNysXoYy)CN>qyJMi>Cn9W?YDsypHN?=`!HfO7
z*4vV)9lotUhqBh$x9Y&jvf{%3Rf9x-eElxW=keon#}?LKbzOjp@@#bD^Kqn&+T+S^
z`A%U#ET)FfFjwv1DmXB=u&l+P&1^iK?*yyL?88zOd)uFZ-XfZBVnr1Kyncx!0iBuV
zdl}Fz6$u7)DN#Boa}Tr8ShQEeN%ly)7A`gT#?-QmWEDL=1A%2e%-Y+M+ObT5V4!wi
zt>WoxcR9=~dv2?|&3r#9SH_|%j}<)69cy`f8Hr?c+vTx*TdRtn{Vdj7Zj<}(n<eH>
zAPMmrztb_K&B|2tSY#;sTam5Ca;11N5tWtVzzbH<%U&*QM3$LvLDK^kqz=){car-7
zC7Z%5gV#Is4dYo!8ew`mox`2&PCPG(!YMq3D&Xl!&MsMnRFpy<%IORl$wf_Dd*st8
zJe)%L+JQ5pf^n1gB5^{~C6GwRoJvQ!)!-<cgxhQeTn&;Ep#`qXcRu8FFzS`(X5dY+
z;7x%e3_L4K2OBRGB&~9b^0Hvo5RUaA)wFFvr4UQTAqz`*R|IQ%NN!D<&&Tz*Y5mEe
z`q?e&Pnlnf>u=}CkQ`Cpxh?8WLlT?_c4)sd8<bdi%pcra@+zx#B8^|gnPLEm#uedv
zcViEw^*THRklcHD&5iH=C}UfUf?vd$FF?u>Q<Q240JlgHTEggfPojk5tqqOmyyAG{
zTa3pZeg{32PzHPhrT~=vx>t=`V~Mm&CW!3~8#}d2r3-#tXZ{c#5V~&k-5Wh&z1%r?
zBjJGA7JI~ogpEp{zZ&A?&q<Eh%4;HFQjX<WEKFWO{QSiVlI?wW3yc$WOCG=eNBAor
zjCAM`K2H`OarGZ!O1-kGz<+_CR~USrfpY(^fvIoi=jH{r{UU=N13CvsSva|Or1JkT
zQ$K<LFAvD3`HUK_<*CTZ9AdGLu`tU*-#mkKC3F7XbLT51uQPbIGs;^zex1Da0um{3
z)B?C3dFX(bMjSN<j!0fQ6?4*(9r01{%Hf<L9$M0#rtG!7H}KHJ`<qx7X^hTG3bihd
zBY~5bGBfl(^Whk;@NnXAorl*evwYv(v&kLdnazNcCSQ8y@Y3{Q^l%0q{)~GKKa|Me
z$AYVHsH@4uQ6dj+jw#9%TtX4CDxN~?%qWhy=RZgs=`9i@%p~MT$zHqphII`K{N&XI
zgu%d>$|pv;v`H)ttd{>}K;NzWS<Zo^0o7DDI=$>Kj!uST_hn8dg9JBhZP$&{P;~*l
z5DiiAWu(gX8Kd!-l2cf$R`I~N+oUp3s#dRb-Dad3=(BtCIX0&3jfhk!Uy1%!<_&^_
z{QOP?zYEa&nL^rzBpv+A4W&zm3J(-d7E0Oz8fX`do*$YiUUx<_{%I7H4@FPLvd{uM
ztGZW}Tl~vSTqw5Y79z>qziNX^W{w^>y-%#{8LgG*$Ag=Q%1!-B&<gPbUc8OR{mr5w
zh2VW`t=?Iki+-YPlvF6+Bg(mo6s|Gx9()e|;ZE1rADNo{tZ*BHx3I!Y{JYgnKlq5=
z8r{!Ie3BhKIaUSpJU^ASsBWlgp=yMx*KM$r3Sh)7i0`32(B0rhgoP8)o}RSu<r@Ul
zb)pN863#W!nf=yoYbStV!7hyLxAr2n6Q$GCn=}=bvesVfuyw?mv+hKE*uER-J1xg9
fjh8Z|snYn)=~AJzqqKc$*VNR(?EdYgd@1wCLcyMu

diff --git a/src/data/features.py b/src/data/features.py
index 29a549f..576753f 100644
--- a/src/data/features.py
+++ b/src/data/features.py
@@ -9,7 +9,6 @@ import collections
 from nltk.corpus import stopwords
 
 
-
 latin_function_words = ['et',  'in',  'de',  'ad',  'non',  'vt', 'cvm', 'per', 'a', 'sed', 'qve', 'qvia', 'ex', 'sic',
                         'si', 'etiam', 'idest', 'nam', 'vnde', 'ab', 'vel', 'sicvt', 'ita', 'enim', 'scilicet', 'nec',
                         'pro', 'avtem', 'ibi',  'dvm', 'vero', 'tamen', 'inter', 'ideo', 'propter', 'contra', 'svb',
@@ -18,15 +17,6 @@ latin_function_words = ['et',  'in',  'de',  'ad',  'non',  'vt', 'cvm', 'per',
                         'qvidem', 'svpra', 'ante', 'adhvc', 'sev' , 'apvd', 'olim', 'statim', 'satis', 'ob', 'qvoniam',
                         'postea', 'nvnqvam']
 
-def get_function_words(lang):
-    if lang=='latin':
-        return latin_function_words
-    elif lang in ['english','spanish']:
-        return stopwords.words(lang)
-    else:
-        raise ValueError('{} not in scope!'.format(lang))
-
-
 latin_conjugations = ['o', 'eo', 'io', 'as', 'es', 'is', 'at', 'et', 'it', 'amvs', 'emvs', 'imvs', 'atis', 'etis',
                       'itis', 'ant', 'ent', 'vnt', 'ivnt', 'or', 'eor', 'ior', 'aris', 'eris', 'iris', 'atvr', 'etvr',
                       'itvr', 'amvr', 'emvr', 'imvr', 'amini', 'emini', 'imini', 'antvr', 'entvr', 'vntvr', 'ivntvr',
@@ -55,11 +45,22 @@ spanish_conjugations = ['o','as','a','amos','áis','an','es','e','emos','éis','
                         'aba', 'abas', 'ábamos', 'aban', 'ía', 'ías', 'íamos', 'íais', 'ían', 'ás','á',
                         'án','estoy','estás','está','estamos','estáis','están']
 
+
+def get_function_words(lang):
+    if lang=='latin':
+        return latin_function_words
+    elif lang in ['english','spanish']:
+        return stopwords.words(lang)
+    else:
+        raise ValueError('{} not in scope!'.format(lang))
+
 def get_conjugations(lang):
     if lang == 'latin':
         return latin_conjugations
+    elif lang == 'spanish':
+        return spanish_conjugations
     else:
-        raise ValueError('conjugations for languages other than latin are not yet supported')
+        raise ValueError('conjugations for languages other than Latin and Spanish are not yet supported')
 
 
 # ------------------------------------------------------------------------
@@ -411,7 +412,7 @@ class FeatureExtractor:
                 'load_documents: function_words_freq={} features_Mendenhall={} tfidf={}, split_documents={}, split_policy={}'
                 .format(self.function_words_freq, self.features_Mendenhall, self.tfidf, self.split_documents,
                         self.split_policy.__name__))
-            print('Epistola 1 shape:', TEST.shape)
+            print('test shape:', TEST.shape)
             print()
 
         if return_fragments:
diff --git a/src/model.py b/src/model.py
index a6b06a1..38ae9a1 100644
--- a/src/model.py
+++ b/src/model.py
@@ -14,23 +14,31 @@ class RandomVerificator:
     def predict(self,test):
         return np.random.rand()
 
-def f1(true_labels, predicted_labels):
-    assert len(true_labels)==len(predicted_labels), "Format not consistent between true and predicted labels."
+def get_counters(true_labels, predicted_labels):
+    assert len(true_labels) == len(predicted_labels), "Format not consistent between true and predicted labels."
     nd = len(true_labels)
-    tp = np.sum(predicted_labels[true_labels==1])
+    tp = np.sum(predicted_labels[true_labels == 1])
     fp = np.sum(predicted_labels[true_labels == 0])
     fn = np.sum(true_labels[predicted_labels == 0])
+    tn = nd - (tp+fp+fn)
+    return tp,fp,fn,tn
+
+def f1_from_counters(tp,fp,fn,tn):
     num = 2.0 * tp
     den = 2.0 * tp + fp + fn
     if den > 0: return num / den
     # we define f1 to be 1 if den==0 since the classifier has correctly classified all instances as negative
     return 1.0
 
+def f1(true_labels, predicted_labels):
+    tp, fp, fn, tn = get_counters(true_labels,predicted_labels)
+    return f1_from_counters(tp, fp, fn, tn )
+
 
 class AuthorshipVerificator:
 
     def __init__(self, nfolds=10,
-                 params = {'C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000], 'class_weight':['balanced']},
+                 params = {'C': np.logspace(-4,+4,9), 'class_weight':['balanced',None]},
                  estimator=SVC):
         self.nfolds = nfolds
         self.params = params
@@ -70,7 +78,7 @@ class AuthorshipVerificator:
 
         return self
 
-    def leave_one_out(self, X, y, groups=None, test_lowest_index_only=True):
+    def leave_one_out(self, X, y, groups=None, test_lowest_index_only=True, counters=False):
 
         if groups is None:
             print('Computing LOO without groups')
@@ -85,8 +93,15 @@ class AuthorshipVerificator:
 
         scores = cross_val_score(self.estimator, X, y, cv=folds, scoring=make_scorer(f1), n_jobs=-1)
         print(scores)
-
-        return scores.mean(), scores.std()
+        if counters and test_lowest_index_only:
+            yfull_true = y[:len(folds)]
+            yfull_predict = np.zeros_like(yfull_true)
+            yfull_predict[scores == 1] = yfull_true[scores == 1]
+            yfull_predict[scores != 1] = 1-yfull_true[scores != 1]
+            tp, fp, fn, tn = get_counters(yfull_true, yfull_predict)
+            return scores.mean(), scores.std(), tp, fp, fn, tn
+        else:
+            return scores.mean(), scores.std()
 
     def predict(self, test, epistola_name=''):
         pred = self.estimator.predict(test)
diff --git a/src/pan2015_eval.py b/src/pan2015_eval.py
index d22c672..7c3b9da 100644
--- a/src/pan2015_eval.py
+++ b/src/pan2015_eval.py
@@ -32,6 +32,7 @@ def evaluation(y_pred, y_prob, y_true):
 def doall(problem,pos,neg,test,truth):
     print('[Start]{}'.format(problem))
     feature_extractor = FeatureExtractor(function_words_freq=lang,
+                                         conjugations_freq=lang,
                                          features_Mendenhall=True,
                                          wordngrams=False, tfidf_feat_selection_ratio=0.1,
                                          charngrams=True, n_charngrams=[3, 4, 5],