QuAcc/quacc/main.py

import pandas as pd
import quapy as qp
from quapy.protocol import APP
from sklearn.linear_model import LogisticRegression

import quacc.evaluation as eval
from quacc.estimator import (
    BinaryQuantifierAccuracyEstimator,
    MulticlassAccuracyEstimator,
)

from quacc.dataset import get_imdb

qp.environ["SAMPLE_SIZE"] = 100

pd.set_option("display.float_format", "{:.4f}".format)

dataset_name = "imdb"


def estimate_multiclass():
    print(dataset_name)
    train, validation, test = get_imdb(dataset_name)

    model = LogisticRegression()

    print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)
    model.fit(*train.Xy)
    print("fit")

    estimator = MulticlassAccuracyEstimator(model)

    print(
        f"fitting qmodel {estimator.q_model.__class__.__name__}...", end=" ", flush=True
    )
    estimator.fit(train)
    print("fit")

    n_prevalences = 21
    repreats = 1000
    protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)
    print(
        f"Tests:\n\
        protocol={protocol.__class__.__name__}\n\
        n_prevalences={n_prevalences}\n\
        repreats={repreats}\n\
        executing...\n"
    )
    df = eval.evaluation_report(
        estimator,
        protocol,
        aggregate=True,
    )
    # print(df.to_latex())
    print(df.to_string())
    # print(df.to_html())
    print()


def estimate_binary():
    print(dataset_name)
    train, validation, test = get_imdb(dataset_name)

    model = LogisticRegression()

    print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)
    model.fit(*train.Xy)
    print("fit")

    estimator = BinaryQuantifierAccuracyEstimator(model)

    print(
        f"fitting qmodel {estimator.q_model_0.__class__.__name__}...",
        end=" ",
        flush=True,
    )
    estimator.fit(train)
    print("fit")

    n_prevalences = 21
    repreats = 1000
    protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)
    print(
        f"Tests:\n\
        protocol={protocol.__class__.__name__}\n\
        n_prevalences={n_prevalences}\n\
        repreats={repreats}\n\
        executing...\n"
    )
    df = eval.evaluation_report(
        estimator,
        protocol,
        aggregate=True,
    )
    # print(df.to_latex(float_format="{:.4f}".format))
    print(df.to_string())
    # print(df.to_html())
    print()


if __name__ == "__main__":
    estimate_binary()
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`import pandas as pd`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00			`import quapy as qp`
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`from quapy.protocol import APP`
Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`from sklearn.linear_model import LogisticRegression`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
Refactoring completed 2023-05-20 20:23:17 +02:00			`import quacc.evaluation as eval`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`from quacc.estimator import (`
			`BinaryQuantifierAccuracyEstimator,`
			`MulticlassAccuracyEstimator,`
			`)`
Refactoring completed 2023-05-20 20:23:17 +02:00
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`from quacc.dataset import get_imdb`
Refactoring completed 2023-05-20 20:23:17 +02:00
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`qp.environ["SAMPLE_SIZE"] = 100`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
fixed evaluation_report and dataframe visualization 2023-06-02 19:36:54 +02:00			`pd.set_option("display.float_format", "{:.4f}".format)`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`dataset_name = "imdb"`
first test on quantification for accuracy 2023-05-11 21:43:59 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00
			`def estimate_multiclass():`
			`print(dataset_name)`
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`train, validation, test = get_imdb(dataset_name)`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00
Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`model = LogisticRegression()`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00
main updated 2023-06-08 15:20:11 +02:00			`print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)`
Refactoring completed 2023-05-20 20:23:17 +02:00			`model.fit(*train.Xy)`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00			`print("fit")`

Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`estimator = MulticlassAccuracyEstimator(model)`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00
Binary quantifier added, support added and tested. 2023-07-26 00:38:23 +02:00			`print(`
			`f"fitting qmodel {estimator.q_model.__class__.__name__}...", end=" ", flush=True`
			`)`
Refactoring completed 2023-05-20 20:23:17 +02:00			`estimator.fit(train)`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00			`print("fit")`

			`n_prevalences = 21`
			`repreats = 1000`
			`protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)`
main updated 2023-06-08 15:20:11 +02:00			`print(`
			`f"Tests:\n\`
added aggregation on evaluation report 2023-06-05 21:54:22 +02:00			`protocol={protocol.__class__.__name__}\n\`
			`n_prevalences={n_prevalences}\n\`
			`repreats={repreats}\n\`
			`executing...\n"`
			`)`
			`df = eval.evaluation_report(`
			`estimator,`
			`protocol,`
			`aggregate=True,`
			`)`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`# print(df.to_latex())`
Refactoring completed 2023-05-20 20:23:17 +02:00			`print(df.to_string())`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`# print(df.to_html())`
			`print()`


			`def estimate_binary():`
			`print(dataset_name)`
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`train, validation, test = get_imdb(dataset_name)`
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00
			`model = LogisticRegression()`

			`print(f"fitting model {model.__class__.__name__}...", end=" ", flush=True)`
			`model.fit(*train.Xy)`
			`print("fit")`
Refactoring completed 2023-05-20 20:23:17 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`estimator = BinaryQuantifierAccuracyEstimator(model)`

			`print(`
			`f"fitting qmodel {estimator.q_model_0.__class__.__name__}...",`
			`end=" ",`
			`flush=True,`
			`)`
			`estimator.fit(train)`
			`print("fit")`
Refactoring completed 2023-05-20 20:23:17 +02:00
binary quantifier completed, tests added. errors updated. 2023-07-27 03:16:41 +02:00			`n_prevalences = 21`
			`repreats = 1000`
			`protocol = APP(test, n_prevalences=n_prevalences, repeats=repreats)`
			`print(`
			`f"Tests:\n\`
			`protocol={protocol.__class__.__name__}\n\`
			`n_prevalences={n_prevalences}\n\`
			`repreats={repreats}\n\`
			`executing...\n"`
			`)`
			`df = eval.evaluation_report(`
			`estimator,`
			`protocol,`
			`aggregate=True,`
			`)`
			`# print(df.to_latex(float_format="{:.4f}".format))`
			`print(df.to_string())`
			`# print(df.to_html())`
			`print()`
added project structure 2023-05-17 14:02:29 +02:00

first test on quantification for accuracy 2023-05-11 21:43:59 +02:00			`if __name__ == "__main__":`
trust score imported 2023-09-16 01:59:49 +02:00			`estimate_binary()`