QuAcc/quacc/dataset.py

from typing import Tuple
import numpy as np
from quapy.data.base import LabelledCollection
import quapy as qp
from sklearn.conftest import fetch_rcv1

TRAIN_VAL_PROP = 0.5


def get_imdb() -> Tuple[LabelledCollection]:
    train, test = qp.datasets.fetch_reviews("imdb", tfidf=True).train_test
    train, validation = train.split_stratified(train_prop=TRAIN_VAL_PROP)
    return train, validation, test


def get_spambase() -> Tuple[LabelledCollection]:
    train, test = qp.datasets.fetch_UCIDataset("spambase", verbose=False).train_test
    train, validation = train.split_stratified(train_prop=TRAIN_VAL_PROP)
    return train, validation, test


def get_rcv1(sample_size=100):
    n_train = 23149
    dataset = fetch_rcv1()

    def dataset_split(data, labels, classes=[0, 1]) -> Tuple[LabelledCollection]:
        all_train_d, test_d = data[:n_train, :], data[n_train:, :]
        all_train_l, test_l = labels[:n_train], labels[n_train:]
        all_train = LabelledCollection(all_train_d, all_train_l, classes=classes)
        test = LabelledCollection(test_d, test_l, classes=classes)
        train, validation = all_train.split_stratified(train_prop=TRAIN_VAL_PROP)
        return train, validation, test

    target_labels = [
        (target, dataset.target[:, ind].toarray().flatten())
        for (ind, target) in enumerate(dataset.target_names)
    ]
    filtered_target_labels = filter(
        lambda _, labels: np.sum(labels[n_train:]) >= sample_size, target_labels
    )
    return {
        target: dataset_split(dataset.data, labels, classes=[0, 1])
        for (target, labels) in filtered_target_labels
    }
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`from typing import Tuple`
			`import numpy as np`
			`from quapy.data.base import LabelledCollection`
Dataset updated, evaluation updated, tests updated 2023-09-12 17:38:49 +02:00			`import quapy as qp`
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`from sklearn.conftest import fetch_rcv1`
Dataset updated, evaluation updated, tests updated 2023-09-12 17:38:49 +02:00
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`TRAIN_VAL_PROP = 0.5`
kfcv baseline implemented 2023-09-13 00:11:20 +02:00
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00
			`def get_imdb() -> Tuple[LabelledCollection]:`
			`train, test = qp.datasets.fetch_reviews("imdb", tfidf=True).train_test`
			`train, validation = train.split_stratified(train_prop=TRAIN_VAL_PROP)`
			`return train, validation, test`


rcv1 updated 2023-09-15 02:20:47 +02:00			`def get_spambase() -> Tuple[LabelledCollection]:`
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`train, test = qp.datasets.fetch_UCIDataset("spambase", verbose=False).train_test`
			`train, validation = train.split_stratified(train_prop=TRAIN_VAL_PROP)`
			`return train, validation, test`


			`def get_rcv1(sample_size=100):`
rcv1 updated 2023-09-15 02:20:47 +02:00			`n_train = 23149`
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`dataset = fetch_rcv1()`

rcv1 updated 2023-09-15 02:20:47 +02:00			`def dataset_split(data, labels, classes=[0, 1]) -> Tuple[LabelledCollection]:`
			`all_train_d, test_d = data[:n_train, :], data[n_train:, :]`
			`all_train_l, test_l = labels[:n_train], labels[n_train:]`
			`all_train = LabelledCollection(all_train_d, all_train_l, classes=classes)`
			`test = LabelledCollection(test_d, test_l, classes=classes)`
			`train, validation = all_train.split_stratified(train_prop=TRAIN_VAL_PROP)`
			`return train, validation, test`

ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`target_labels = [`
			`(target, dataset.target[:, ind].toarray().flatten())`
			`for (ind, target) in enumerate(dataset.target_names)`
			`]`
			`filtered_target_labels = filter(`
rcv1 updated 2023-09-15 02:20:47 +02:00			`lambda _, labels: np.sum(labels[n_train:]) >= sample_size, target_labels`
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`)`
			`return {`
rcv1 updated 2023-09-15 02:20:47 +02:00			`target: dataset_split(dataset.data, labels, classes=[0, 1])`
ATC baseline added, rcv1 dataset added 2023-09-14 01:52:19 +02:00			`for (target, labels) in filtered_target_labels`
			`}`