added MedianEstimator quantifier

2023-11-09 14:20:41 +01:00 · 2023-11-09 14:20:41 +01:00 · daca2bd1cb
parent 66ad7295df
commit daca2bd1cb
5 changed files with 159 additions and 17 deletions
--- a/quapy/CHANGE_LOG.txt
+++ b/quapy/CHANGE_LOG.txt
@ -1,13 +1,18 @@
 Change Log 0.1.8
 ----------------
 - Added HDx and DistributionMatchingX to non-aggregative quantifiers (see also the new example "comparing_HDy_HDx.py")
 - New UCI multiclass datasets added (thanks to Pablo González). The 5 UCI multiclass datasets are those corresponding
    to the following criteria:
        - >1000 instances
        - >2 classes
        - classification datasets
        - Python API available
- Added NAE, NRAE
+- New IFCB (plankton) dataset added. See fetch_IFCB.
 - Added new evaluation measures NAE, NRAE
 - Added new meta method "MedianEstimator"; an ensemble of binary base quantifiers that receives as input a dictionary
    of hyperparameters that will explore exhaustively, fitting and generating predictions for each combination of
    hyperparameters, and that returns, as the prevalence estimates, the median across all predictions.
 Change Log 0.1.7
 ----------------
--- a/quapy/init.py
+++ b/quapy/init.py
@ -11,7 +11,7 @@ from . import util
 from . import model_selection
 from . import classification
-__version__ = '0.1.7'
+__version__ = '0.1.8'
 environ = {
    'SAMPLE_SIZE': None,
--- a/quapy/method/init.py
+++ b/quapy/method/init.py
@ -1,7 +1,7 @@
 from . import aggregative
 from . import base
-from . import meta
+from . import aggregative
 from . import non_aggregative
 from . import meta
 AGGREGATIVE_METHODS = {
    aggregative.CC,
--- a/quapy/method/meta.py
+++ b/quapy/method/meta.py
@ -1,3 +1,4 @@
 import itertools
 from copy import deepcopy
 from typing import Union
 import numpy as np
@ -10,13 +11,14 @@ import quapy as qp
 from quapy import functional as F
 from quapy.data import LabelledCollection
 from quapy.model_selection import GridSearchQ
 from quapy.method.base import BaseQuantifier, BinaryQuantifier
 from quapy.method.aggregative import CC, ACC, PACC, HDy, EMQ
 try:
    from . import neural
 except ModuleNotFoundError:
    neural = None
-from .base import BaseQuantifier
+
 from quapy.method.aggregative import CC, ACC, PACC, HDy, EMQ
 if neural:
    QuaNet = neural.QuaNetTrainer
@ -24,6 +26,67 @@ else:
    QuaNet = "QuaNet is not available due to missing torch package"
 class MedianEstimator(BinaryQuantifier):
    """
    This method is a meta-quantifier that returns, as the estimated class prevalence values, the median of the
    estimation returned by differently (hyper)parameterized base quantifiers.
    The median of unit-vectors is only guaranteed to be a unit-vector for n=2 dimensions,
    i.e., in cases of binary quantification.
    :param base_quantifier: the base, binary quantifier
    :param random_state: a seed to be set before fitting any base quantifier (default None)
    :param param_grid: the grid or parameters towards which the median will be computed
    :param n_jobs: number of parllel workes
    """
    def __init__(self, base_quantifier: BinaryQuantifier, param_grid: dict, random_state=None, n_jobs=None):
        self.base_quantifier = base_quantifier
        self.param_grid = param_grid
        self.random_state = random_state
        self.n_jobs = qp._get_njobs(n_jobs)
    def get_params(self, deep=True):
        return self.base_quantifier.get_params(deep)
    def set_params(self, **params):
        self.base_quantifier.set_params(**params)
    def _delayed_fit(self, args):
        with qp.util.temp_seed(self.random_state):
            params, training = args
            model = deepcopy(self.base_quantifier)
            model.set_params(**params)
            model.fit(training)
            return model
    def fit(self, training: LabelledCollection):
        self._check_binary(training, self.__class__.__name__)
        params_keys = list(self.param_grid.keys())
        params_values = list(self.param_grid.values())
        hyper = [dict({k: val[i] for i, k in enumerate(params_keys)}) for val in itertools.product(*params_values)]
        self.models = qp.util.parallel(
            self._delayed_fit,
            ((params, training) for params in hyper),
            seed=qp.environ.get('_R_SEED', None),
            n_jobs=self.n_jobs
        )
        return self
    def _delayed_predict(self, args):
        model, instances = args
        return model.quantify(instances)
    def quantify(self, instances):
        prev_preds = qp.util.parallel(
            self._delayed_predict,
            ((model, instances) for model in self.models),
            seed=qp.environ.get('_R_SEED', None),
            n_jobs=self.n_jobs
        )
        prev_preds = np.asarray(prev_preds)
        return np.median(prev_preds, axis=0)
 class Ensemble(BaseQuantifier):
    VALID_POLICIES = {'ave', 'ptr', 'ds'} | qp.error.QUANTIFICATION_ERROR_NAMES
--- a/quapy/tests/test_methods.py
+++ b/quapy/tests/test_methods.py
@ -1,14 +1,17 @@
-import numpy
+import numpy as np
 import pytest
 from sklearn.linear_model import LogisticRegression
 from sklearn.svm import LinearSVC
 import quapy as qp
 from quapy.model_selection import GridSearchQ
 from quapy.method.base import BinaryQuantifier
 from quapy.data import Dataset, LabelledCollection
 from quapy.method import AGGREGATIVE_METHODS, NON_AGGREGATIVE_METHODS
 from quapy.method.aggregative import ACC, PACC, HDy
 from quapy.method.meta import Ensemble
 from quapy.protocol import APP
 from quapy.method.aggregative import DistributionMatching
 from quapy.method.meta import MedianEstimator
 datasets = [pytest.param(qp.datasets.fetch_twitter('hcr', pickle=True), id='hcr'),
            pytest.param(qp.datasets.fetch_UCIDataset('ionosphere'), id='ionosphere')]
@ -36,7 +39,7 @@ def test_aggregative_methods(dataset: Dataset, aggregative_method, learner):
    true_prevalences = dataset.test.prevalence()
    error = qp.error.mae(true_prevalences, estim_prevalences)
-    assert type(error) == numpy.float64
+    assert type(error) == np.float64
@pytest.mark.parametrize('dataset', datasets)
@ -55,7 +58,7 @@ def test_non_aggregative_methods(dataset: Dataset, non_aggregative_method):
    true_prevalences = dataset.test.prevalence()
    error = qp.error.mae(true_prevalences, estim_prevalences)
-    assert type(error) == numpy.float64
+    assert type(error) == np.float64
@pytest.mark.parametrize('base_method', AGGREGATIVE_METHODS)
@ -80,7 +83,7 @@ def test_ensemble_method(base_method, learner, dataset: Dataset, policy):
    true_prevalences = dataset.test.prevalence()
    error = qp.error.mae(true_prevalences, estim_prevalences)
-    assert type(error) == numpy.float64
+    assert type(error) == np.float64
 def test_quanet_method():
@ -119,7 +122,7 @@ def test_quanet_method():
    true_prevalences = dataset.test.prevalence()
    error = qp.error.mae(true_prevalences, estim_prevalences)
-    assert type(error) == numpy.float64
+    assert type(error) == np.float64
 def test_str_label_names():
@ -130,32 +133,103 @@ def test_str_label_names():
                      dataset.test.sampling(1000, 0.25, 0.75))
    qp.data.preprocessing.text2tfidf(dataset, min_df=5, inplace=True)
-    numpy.random.seed(0)
+    np.random.seed(0)
    model.fit(dataset.training)
    int_estim_prevalences = model.quantify(dataset.test.instances)
    true_prevalences = dataset.test.prevalence()
    error = qp.error.mae(true_prevalences, int_estim_prevalences)
-    assert type(error) == numpy.float64
+    assert type(error) == np.float64
    dataset_str = Dataset(LabelledCollection(dataset.training.instances,
                                             ['one' if label == 1 else 'zero' for label in dataset.training.labels]),
                          LabelledCollection(dataset.test.instances,
                                             ['one' if label == 1 else 'zero' for label in dataset.test.labels]))
    assert all(dataset_str.training.classes_ == dataset_str.test.classes_), 'wrong indexation'
-    numpy.random.seed(0)
+    np.random.seed(0)
    model.fit(dataset_str.training)
    str_estim_prevalences = model.quantify(dataset_str.test.instances)
    true_prevalences = dataset_str.test.prevalence()
    error = qp.error.mae(true_prevalences, str_estim_prevalences)
-    assert type(error) == numpy.float64
+    assert type(error) == np.float64
    print(true_prevalences)
    print(int_estim_prevalences)
    print(str_estim_prevalences)
-    numpy.testing.assert_almost_equal(int_estim_prevalences[1],
+    np.testing.assert_almost_equal(int_estim_prevalences[1],
                                      str_estim_prevalences[list(model.classes_).index('one')])
 # helper
 def __fit_test(quantifier, train, test):
    quantifier.fit(train)
    test_samples = APP(test)
    true_prevs, estim_prevs = qp.evaluation.prediction(quantifier, test_samples)
    return qp.error.mae(true_prevs, estim_prevs), estim_prevs
 def test_median_meta():
    """
    This test compares the performance of the MedianQuantifier with respect to computing the median of the predictions
    of a differently parameterized quantifier. We use the DistributionMatching base quantifier and the median is
    computed across different values of nbins
    """
    qp.environ['SAMPLE_SIZE'] = 100
    # grid of values
    nbins_grid = list(range(2, 11))
    dataset = 'kindle'
    train, test = qp.datasets.fetch_reviews(dataset, tfidf=True, min_df=10).train_test
    prevs = []
    errors = []
    for nbins in nbins_grid:
        with qp.util.temp_seed(0):
            q = DistributionMatching(LogisticRegression(), nbins=nbins)
            mae, estim_prevs = __fit_test(q, train, test)
            prevs.append(estim_prevs)
            errors.append(mae)
            print(f'{dataset} DistributionMatching(nbins={nbins}) got MAE {mae:.4f}')
    prevs = np.asarray(prevs)
    mae = np.mean(errors)
    print(f'\tMAE={mae:.4f}')
    q = DistributionMatching(LogisticRegression())
    q = MedianEstimator(q, param_grid={'nbins': nbins_grid}, random_state=0, n_jobs=-1)
    median_mae, prev = __fit_test(q, train, test)
    print(f'\tMAE={median_mae:.4f}')
    np.testing.assert_almost_equal(np.median(prevs, axis=0), prev)
    assert median_mae < mae, 'the median-based quantifier provided a higher error...'
 def test_median_meta_modsel():
    """
    This test checks the median-meta quantifier with model selection
    """
    qp.environ['SAMPLE_SIZE'] = 100
    dataset = 'kindle'
    train, test = qp.datasets.fetch_reviews(dataset, tfidf=True, min_df=10).train_test
    train, val = train.split_stratified(random_state=0)
    nbins_grid = [2, 4, 5, 10, 15]
    q = DistributionMatching(LogisticRegression())
    q = MedianEstimator(q, param_grid={'nbins': nbins_grid}, random_state=0, n_jobs=-1)
    median_mae, _ = __fit_test(q, train, test)
    print(f'\tMAE={median_mae:.4f}')
    q = DistributionMatching(LogisticRegression())
    lr_params = {'classifier__C': np.logspace(-1, 1, 3)}
    q = MedianEstimator(q, param_grid={'nbins': nbins_grid}, random_state=0, n_jobs=-1)
    q = GridSearchQ(q, param_grid=lr_params, protocol=APP(val), n_jobs=-1)
    optimized_median_ave, _ = __fit_test(q, train, test)
    print(f'\tMAE={optimized_median_ave:.4f}')
    assert optimized_median_ave < median_mae, "the optimized method yielded worse performance..."