gfun_multimodal/main.py

import pickle
from argparse import ArgumentParser
from os.path import expanduser
from time import time

from dataManager.amazonDataset import AmazonDataset
from dataManager.multilingualDatset import MultilingualDataset
from dataManager.multiNewsDataset import MultiNewsDataset
from dataManager.glamiDataset import GlamiDataset
from evaluation.evaluate import evaluate, log_eval
from gfun.generalizedFunnelling import GeneralizedFunnelling

""" 
TODO: 
    - add documentations sphinx
    - zero-shot setup
    - load pre-trained VGFs while retaining ability to train new ones (self.fitted = True in loaded? or smt like that)
    - test split in MultiNews dataset
    - when we load a model and change its config (eg change the agg func, re-train meta), we should store this model as  a new one (save it)
"""


def get_dataset(datasetname):
    assert datasetname in [
        "multinews",
        "amazon",
        "rcv1-2",
        "glami",
    ], "dataset not supported"

    RCV_DATAPATH = expanduser(
        "~/datasets/rcv1-2/rcv1-2_doclist_trByLang1000_teByLang1000_processed_run0.pickle"
    )
    JRC_DATAPATH = expanduser(
        "~/datasets/jrc/jrc_doclist_1958-2005vs2006_all_top300_noparallel_processed_run0.pickle"
    )
    MULTINEWS_DATAPATH = expanduser("~/datasets/MultiNews/20110730/")

    GLAMI_DATAPATH = expanduser("~/datasets/GLAMI-1M-dataset")

    if datasetname == "multinews":
        dataset = MultiNewsDataset(
            expanduser(MULTINEWS_DATAPATH),
            excluded_langs=["ar", "pe", "pl", "tr", "ua"],
        )
    elif datasetname == "amazon":
        dataset = AmazonDataset(
            domains=args.domains,
            nrows=args.nrows,
            min_count=args.min_count,
            max_labels=args.max_labels,
        )
    elif datasetname == "rcv1-2":
        dataset = MultilingualDataset(dataset_name="rcv1-2").load(RCV_DATAPATH)
        if args.nrows is not None:
            dataset.reduce_data(langs=["en", "it", "fr"], maxn=args.nrows)
    elif datasetname == "glami":
        dataset = GlamiDataset(dataset_dir=GLAMI_DATAPATH, nrows=args.nrows)
        dataset.build_dataset()
    else:
        raise NotImplementedError
    return dataset


def main(args):
    dataset = get_dataset(args.dataset)
    if (
        isinstance(dataset, MultilingualDataset)
        or isinstance(dataset, MultiNewsDataset)
        or isinstance(dataset, GlamiDataset)
    ):
        lX, lY = dataset.training()
        lX_te, lY_te = dataset.test()
    else:
        lX = dataset.dX
        lY = dataset.dY

    tinit = time()

    if args.load_trained is None:
        assert any(
            [
                args.posteriors,
                args.wce,
                args.multilingual,
                args.multilingual,
                args.transformer,
            ]
        ), "At least one of VGF must be True"

    gfun = GeneralizedFunnelling(
        # dataset params ----------------------
        dataset_name=args.dataset,
        langs=dataset.langs(),
        num_labels=dataset.num_labels(),
        # Posterior VGF params ----------------
        posterior=args.posteriors,
        # Multilingual VGF params -------------
        multilingual=args.multilingual,
        embed_dir="~/resources/muse_embeddings",
        # WCE VGF params ----------------------
        wce=args.wce,
        # Transformer VGF params --------------
        transformer=args.transformer,
        transformer_name=args.transformer_name,
        batch_size=args.batch_size,
        epochs=args.epochs,
        lr=args.lr,
        max_length=args.max_length,
        patience=args.patience,
        evaluate_step=args.evaluate_step,
        device="cuda",
        # General params ----------------------
        probabilistic=args.features,
        aggfunc=args.aggfunc,
        optimc=args.optimc,
        load_trained=args.load_trained,
        load_meta=args.meta,
        n_jobs=args.n_jobs,
    )

    # gfun.get_config()
    gfun.fit(lX, lY)

    if args.load_trained is None and not args.nosave:
        gfun.save(save_first_tier=True, save_meta=True)

    preds = gfun.transform(lX)

    # train_eval = evaluate(lY, preds)
    # log_eval(train_eval, phase="train")

    timetr = time()
    print(f"- training completed in {timetr - tinit:.2f} seconds")

    test_eval = evaluate(lY_te, gfun.transform(lX_te))
    log_eval(test_eval, phase="test")

    timeval = time()
    print(f"- testing completed in {timeval - timetr:.2f} seconds")


if __name__ == "__main__":
    parser = ArgumentParser()
    parser.add_argument("-l", "--load_trained", type=str, default=None)
    parser.add_argument("--meta", action="store_true")
    parser.add_argument("--nosave", action="store_true")
    # Dataset parameters -------------------
    parser.add_argument("-d", "--dataset", type=str, default="multinews")
    parser.add_argument("--domains", type=str, default="all")
    parser.add_argument("--nrows", type=int, default=None)
    parser.add_argument("--min_count", type=int, default=10)
    parser.add_argument("--max_labels", type=int, default=50)
    # gFUN parameters ----------------------
    parser.add_argument("-p", "--posteriors", action="store_true")
    parser.add_argument("-m", "--multilingual", action="store_true")
    parser.add_argument("-w", "--wce", action="store_true")
    parser.add_argument("-t", "--transformer", action="store_true")
    parser.add_argument("--n_jobs", type=int, default=1)
    parser.add_argument("--optimc", action="store_true")
    parser.add_argument("--features", action="store_false")
    parser.add_argument("--aggfunc", type=str, default="mean")
    # transformer parameters ---------------
    parser.add_argument("--transformer_name", type=str, default="mbert")
    parser.add_argument("--batch_size", type=int, default=32)
    parser.add_argument("--epochs", type=int, default=1000)
    parser.add_argument("--lr", type=float, default=1e-5)
    parser.add_argument("--max_length", type=int, default=512)
    parser.add_argument("--patience", type=int, default=5)
    parser.add_argument("--evaluate_step", type=int, default=10)

    args = parser.parse_args()

    main(args)
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`import pickle`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`from argparse import ArgumentParser`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`from os.path import expanduser`
			`from time import time`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
			`from dataManager.amazonDataset import AmazonDataset`
			`from dataManager.multilingualDatset import MultilingualDataset`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`from dataManager.multiNewsDataset import MultiNewsDataset`
Data Classes for GLAMI-1M Dataset 2023-02-13 18:29:54 +01:00			`from dataManager.glamiDataset import GlamiDataset`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`from evaluation.evaluate import evaluate, log_eval`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`from gfun.generalizedFunnelling import GeneralizedFunnelling`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`"""`
			`TODO:`
			`- add documentations sphinx`
			`- zero-shot setup`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`- load pre-trained VGFs while retaining ability to train new ones (self.fitted = True in loaded? or smt like that)`
model checkpoint during training. Restore best model if earlystop is triggered 2023-02-10 11:37:32 +01:00			`- test split in MultiNews dataset`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`- when we load a model and change its config (eg change the agg func, re-train meta), we should store this model as a new one (save it)`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`"""`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00

Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`def get_dataset(datasetname):`
Data Classes for GLAMI-1M Dataset 2023-02-13 18:29:54 +01:00			`assert datasetname in [`
			`"multinews",`
			`"amazon",`
			`"rcv1-2",`
			`"glami",`
			`], "dataset not supported"`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`RCV_DATAPATH = expanduser(`
			`"~/datasets/rcv1-2/rcv1-2_doclist_trByLang1000_teByLang1000_processed_run0.pickle"`
			`)`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`JRC_DATAPATH = expanduser(`
			`"~/datasets/jrc/jrc_doclist_1958-2005vs2006_all_top300_noparallel_processed_run0.pickle"`
			`)`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`MULTINEWS_DATAPATH = expanduser("~/datasets/MultiNews/20110730/")`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00
Data Classes for GLAMI-1M Dataset 2023-02-13 18:29:54 +01:00			`GLAMI_DATAPATH = expanduser("~/datasets/GLAMI-1M-dataset")`

Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`if datasetname == "multinews":`
			`dataset = MultiNewsDataset(`
			`expanduser(MULTINEWS_DATAPATH),`
			`excluded_langs=["ar", "pe", "pl", "tr", "ua"],`
			`)`
			`elif datasetname == "amazon":`
			`dataset = AmazonDataset(`
			`domains=args.domains,`
			`nrows=args.nrows,`
			`min_count=args.min_count,`
			`max_labels=args.max_labels,`
			`)`
			`elif datasetname == "rcv1-2":`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`dataset = MultilingualDataset(dataset_name="rcv1-2").load(RCV_DATAPATH)`
			`if args.nrows is not None:`
			`dataset.reduce_data(langs=["en", "it", "fr"], maxn=args.nrows)`
Data Classes for GLAMI-1M Dataset 2023-02-13 18:29:54 +01:00			`elif datasetname == "glami":`
			`dataset = GlamiDataset(dataset_dir=GLAMI_DATAPATH, nrows=args.nrows)`
			`dataset.build_dataset()`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`else:`
			`raise NotImplementedError`
			`return dataset`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00
			`def main(args):`
			`dataset = get_dataset(args.dataset)`
Data Classes for GLAMI-1M Dataset 2023-02-13 18:29:54 +01:00			`if (`
			`isinstance(dataset, MultilingualDataset)`
			`or isinstance(dataset, MultiNewsDataset)`
			`or isinstance(dataset, GlamiDataset)`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`):`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`lX, lY = dataset.training()`
concat aggfunc 2023-02-10 12:58:26 +01:00			`lX_te, lY_te = dataset.test()`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`else:`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`lX = dataset.dX`
			`lY = dataset.dY`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
			`tinit = time()`

better way to save/load model via id ({config}_{date}); Implemented __str__ for each VGFs + get_config in GeneralizedFunnelling 2023-02-08 16:06:24 +01:00			`if args.load_trained is None:`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`assert any(`
			`[`
			`args.posteriors,`
			`args.wce,`
			`args.multilingual,`
			`args.multilingual,`
			`args.transformer,`
			`]`
			`), "At least one of VGF must be True"`

implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`gfun = GeneralizedFunnelling(`
concat aggfunc 2023-02-10 12:58:26 +01:00			`# dataset params ----------------------`
model checkpoint during training. Restore best model if earlystop is triggered 2023-02-10 11:37:32 +01:00			`dataset_name=args.dataset,`
concat aggfunc 2023-02-10 12:58:26 +01:00			`langs=dataset.langs(),`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`num_labels=dataset.num_labels(),`
concat aggfunc 2023-02-10 12:58:26 +01:00			`# Posterior VGF params ----------------`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`posterior=args.posteriors,`
concat aggfunc 2023-02-10 12:58:26 +01:00			`# Multilingual VGF params -------------`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`multilingual=args.multilingual,`
concat aggfunc 2023-02-10 12:58:26 +01:00			`embed_dir="~/resources/muse_embeddings",`
			`# WCE VGF params ----------------------`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`wce=args.wce,`
concat aggfunc 2023-02-10 12:58:26 +01:00			`# Transformer VGF params --------------`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`transformer=args.transformer,`
concat aggfunc 2023-02-10 12:58:26 +01:00			`transformer_name=args.transformer_name,`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`batch_size=args.batch_size,`
			`epochs=args.epochs,`
			`lr=args.lr,`
concat aggfunc 2023-02-10 12:58:26 +01:00			`max_length=args.max_length,`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`patience=args.patience,`
			`evaluate_step=args.evaluate_step,`
			`device="cuda",`
concat aggfunc 2023-02-10 12:58:26 +01:00			`# General params ----------------------`
			`probabilistic=args.features,`
			`aggfunc=args.aggfunc,`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`optimc=args.optimc,`
			`load_trained=args.load_trained,`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`load_meta=args.meta,`
concat aggfunc 2023-02-10 12:58:26 +01:00			`n_jobs=args.n_jobs,`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`)`

better way to save/load model via id ({config}_{date}); Implemented __str__ for each VGFs + get_config in GeneralizedFunnelling 2023-02-08 16:06:24 +01:00			`# gfun.get_config()`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`gfun.fit(lX, lY)`

Data Classes for GLAMI-1M Dataset 2023-02-13 18:29:54 +01:00			`if args.load_trained is None and not args.nosave:`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`gfun.save(save_first_tier=True, save_meta=True)`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00
			`preds = gfun.transform(lX)`

fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`# train_eval = evaluate(lY, preds)`
			`# log_eval(train_eval, phase="train")`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00
			`timetr = time()`
			`print(f"- training completed in {timetr - tinit:.2f} seconds")`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
			`test_eval = evaluate(lY_te, gfun.transform(lX_te))`
			`log_eval(test_eval, phase="test")`

			`timeval = time()`
			`print(f"- testing completed in {timeval - timetr:.2f} seconds")`


			`if __name__ == "__main__":`
			`parser = ArgumentParser()`
better way to save/load model via id ({config}_{date}); Implemented __str__ for each VGFs + get_config in GeneralizedFunnelling 2023-02-08 16:06:24 +01:00			`parser.add_argument("-l", "--load_trained", type=str, default=None)`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`parser.add_argument("--meta", action="store_true")`
Data Classes for GLAMI-1M Dataset 2023-02-13 18:29:54 +01:00			`parser.add_argument("--nosave", action="store_true")`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`# Dataset parameters -------------------`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`parser.add_argument("-d", "--dataset", type=str, default="multinews")`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`parser.add_argument("--domains", type=str, default="all")`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`parser.add_argument("--nrows", type=int, default=None)`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`parser.add_argument("--min_count", type=int, default=10)`
			`parser.add_argument("--max_labels", type=int, default=50)`
			`# gFUN parameters ----------------------`
			`parser.add_argument("-p", "--posteriors", action="store_true")`
			`parser.add_argument("-m", "--multilingual", action="store_true")`
			`parser.add_argument("-w", "--wce", action="store_true")`
			`parser.add_argument("-t", "--transformer", action="store_true")`
			`parser.add_argument("--n_jobs", type=int, default=1)`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`parser.add_argument("--optimc", action="store_true")`
concat aggfunc 2023-02-10 12:58:26 +01:00			`parser.add_argument("--features", action="store_false")`
			`parser.add_argument("--aggfunc", type=str, default="mean")`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`# transformer parameters ---------------`
			`parser.add_argument("--transformer_name", type=str, default="mbert")`
			`parser.add_argument("--batch_size", type=int, default=32)`
fixed loading function for Attention-based aggregating function when triggered by EarlyStopper 2023-02-13 15:01:50 +01:00			`parser.add_argument("--epochs", type=int, default=1000)`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`parser.add_argument("--lr", type=float, default=1e-5)`
			`parser.add_argument("--max_length", type=int, default=512)`
			`parser.add_argument("--patience", type=int, default=5)`
			`parser.add_argument("--evaluate_step", type=int, default=10)`

			`args = parser.parse_args()`

			`main(args)`