QuAcc/quacc/main.py

import pandas as pd
import quapy as qp
from quapy.protocol import APP
from sklearn.linear_model import LogisticRegression

import quacc.evaluation as eval
import quacc.baseline as baseline
from quacc.estimator import (
    BinaryQuantifierAccuracyEstimator,
    MulticlassAccuracyEstimator,
)

from quacc.dataset import get_imdb, get_spambase

qp.environ["SAMPLE_SIZE"] = 100

pd.set_option("display.float_format", "{:.4f}".format)

dataset_name = "imdb"


def estimate_multiclass():
    print(dataset_name)
    train, validation, test = get_imdb()

    model = LogisticRegression()

    print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)
    model.fit(*train.Xy)
    print("fit")

    estimator = MulticlassAccuracyEstimator(model)

    print(
        f"fitting qmodel {estimator.q_model.__class__.__name__}...", end=" ", flush=True
    )
    estimator.fit(train)
    print("fit")

    n_prevalences = 21
    repreats = 1000
    protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)
    print(
        f"Tests:\n\
        protocol={protocol.__class__.__name__}\n\
        n_prevalences={n_prevalences}\n\
        repreats={repreats}\n\
        executing...\n"
    )
    df = eval.evaluation_report(
        estimator,
        protocol,
        aggregate=True,
    )
    # print(df.to_latex())
    print(df.to_string())
    # print(df.to_html())
    print()


def estimate_binary():
    print(dataset_name)
    train, validation, test = get_imdb()

    model = LogisticRegression()

    print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)
    model.fit(*train.Xy)
    print("fit")

    estimator = BinaryQuantifierAccuracyEstimator(model)

    print(
        f"fitting qmodel {estimator.q_model_0.__class__.__name__}...",
        end=" ",
        flush=True,
    )
    estimator.fit(train)
    print("fit")

    n_prevalences = 21
    repreats = 1000
    protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)
    print(
        f"Tests:\n\
        protocol={protocol.__class__.__name__}\n\
        n_prevalences={n_prevalences}\n\
        repreats={repreats}\n\
        executing...\n"
    )
    df = eval.evaluation_report(
        estimator,
        protocol,
        aggregate=True,
    )
    # print(df.to_latex(float_format="{:.4f}".format))
    print(df.to_string())
    # print(df.to_html())
    print()

def estimate_comparison():
    train, validation, test = get_spambase()
    model = LogisticRegression()
    model.fit(*train.Xy)

    n_prevalences = 21
    repreats = 1000
    protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)

    estimator = BinaryQuantifierAccuracyEstimator(model)
    estimator.fit(validation)
    df = eval.evaluation_report(estimator, protocol)
    
    df_index = [("base", "F"), ("base", "T")]

    atc_mc_df = baseline.atc_mc(model, validation, protocol)
    atc_ne_df = baseline.atc_ne(model, validation, protocol)
    doc_feat_df = baseline.doc_feat(model, validation, protocol)
    rca_df = baseline.rca_score(model, validation, protocol)
    rca_star_df = baseline.rca_star_score(model, validation, protocol)
    bbse_df = baseline.bbse_score(model, validation, protocol)

    df = df.join(atc_mc_df.set_index(df_index), on=df_index)
    df = df.join(atc_ne_df.set_index(df_index), on=df_index)
    df = df.join(doc_feat_df.set_index(df_index), on=df_index)
    df = df.join(rca_df.set_index(df_index), on=df_index)
    df = df.join(rca_star_df.set_index(df_index), on=df_index)
    df = df.join(bbse_df.set_index(df_index), on=df_index)

    print(df.to_string())

def main():
    estimate_comparison()

if __name__ == "__main__":
    main()
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`import pandas as pd`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00			`import quapy as qp`
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`from quapy.protocol import APP`
Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`from sklearn.linear_model import LogisticRegression`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
Refactoring completed 2023-05-20 20:23:17 +02:00			`import quacc.evaluation as eval`
baseline testing 2023-09-24 02:21:18 +02:00			`import quacc.baseline as baseline`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`from quacc.estimator import (`
			`BinaryQuantifierAccuracyEstimator,`
			`MulticlassAccuracyEstimator,`
			`)`
Refactoring completed 2023-05-20 20:23:17 +02:00
baseline testing 2023-09-24 02:21:18 +02:00			`from quacc.dataset import get_imdb, get_spambase`
Refactoring completed 2023-05-20 20:23:17 +02:00
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`qp.environ["SAMPLE_SIZE"] = 100`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`pd.set_option("display.float_format", "{:.4f}".format)`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`dataset_name = "imdb"`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00
			`def estimate_multiclass():`
			`print(dataset_name)`
baseline testing 2023-09-24 02:21:18 +02:00			`train, validation, test = get_imdb()`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00
Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`model = LogisticRegression()`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00
main updated 2023-06-08 15:20:11 +02:00			`print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)`
Refactoring completed 2023-05-20 20:23:17 +02:00			`model.fit(*train.Xy)`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00			`print("fit")`

Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`estimator = MulticlassAccuracyEstimator(model)`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00
Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`print(`
			`f"fitting qmodel {estimator.q_model.__class__.__name__}...", end=" ", flush=True`
			`)`
Refactoring completed 2023-05-20 20:23:17 +02:00			`estimator.fit(train)`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00			`print("fit")`

			`n_prevalences = 21`
			`repreats = 1000`
			`protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)`
main updated 2023-06-08 15:20:11 +02:00			`print(`
			`f"Tests:\n\`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00			`protocol={protocol.__class__.__name__}\n\`
			`n_prevalences={n_prevalences}\n\`
			`repreats={repreats}\n\`
			`executing...\n"`
			`)`
			`df = eval.evaluation_report(`
			`estimator,`
			`protocol,`
			`aggregate=True,`
			`)`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`# print(df.to_latex())`
Refactoring completed 2023-05-20 20:23:17 +02:00			`print(df.to_string())`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`# print(df.to_html())`
			`print()`


			`def estimate_binary():`
			`print(dataset_name)`
baseline testing 2023-09-24 02:21:18 +02:00			`train, validation, test = get_imdb()`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00
			`model = LogisticRegression()`

			`print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)`
			`model.fit(*train.Xy)`
			`print("fit")`
Refactoring completed 2023-05-20 20:23:17 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`estimator = BinaryQuantifierAccuracyEstimator(model)`

			`print(`
			`f"fitting qmodel {estimator.q_model_0.__class__.__name__}...",`
			`end=" ",`
			`flush=True,`
			`)`
			`estimator.fit(train)`
			`print("fit")`
Refactoring completed 2023-05-20 20:23:17 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`n_prevalences = 21`
			`repreats = 1000`
			`protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)`
			`print(`
			`f"Tests:\n\`
			`protocol={protocol.__class__.__name__}\n\`
			`n_prevalences={n_prevalences}\n\`
			`repreats={repreats}\n\`
			`executing...\n"`
			`)`
			`df = eval.evaluation_report(`
			`estimator,`
			`protocol,`
			`aggregate=True,`
			`)`
			`# print(df.to_latex(float_format="{:.4f}".format))`
			`print(df.to_string())`
			`# print(df.to_html())`
			`print()`
added project structure 2023-05-17 14:02:29 +02:00
baseline testing 2023-09-24 02:21:18 +02:00			`def estimate_comparison():`
			`train, validation, test = get_spambase()`
			`model = LogisticRegression()`
			`model.fit(*train.Xy)`

			`n_prevalences = 21`
			`repreats = 1000`
			`protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)`

			`estimator = BinaryQuantifierAccuracyEstimator(model)`
			`estimator.fit(validation)`
			`df = eval.evaluation_report(estimator, protocol)`

			`df_index = [("base", "F"), ("base", "T")]`

			`atc_mc_df = baseline.atc_mc(model, validation, protocol)`
			`atc_ne_df = baseline.atc_ne(model, validation, protocol)`
			`doc_feat_df = baseline.doc_feat(model, validation, protocol)`
			`rca_df = baseline.rca_score(model, validation, protocol)`
			`rca_star_df = baseline.rca_star_score(model, validation, protocol)`
			`bbse_df = baseline.bbse_score(model, validation, protocol)`

			`df = df.join(atc_mc_df.set_index(df_index), on=df_index)`
			`df = df.join(atc_ne_df.set_index(df_index), on=df_index)`
			`df = df.join(doc_feat_df.set_index(df_index), on=df_index)`
			`df = df.join(rca_df.set_index(df_index), on=df_index)`
			`df = df.join(rca_star_df.set_index(df_index), on=df_index)`
			`df = df.join(bbse_df.set_index(df_index), on=df_index)`

			`print(df.to_string())`

			`def main():`
			`estimate_comparison()`
added project structure 2023-05-17 14:02:29 +02:00
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00			`if __name__ == "__main__":`
baseline testing 2023-09-24 02:21:18 +02:00			`main()`