gfun_multimodal/main.py

import pickle
from argparse import ArgumentParser
from os.path import expanduser
from time import time

from dataManager.amazonDataset import AmazonDataset
from dataManager.multilingualDatset import MultilingualDataset
from dataManager.multiNewsDataset import MultiNewsDataset
from evaluation.evaluate import evaluate, log_eval
from gfun.generalizedFunnelling import GeneralizedFunnelling

""" 
TODO: 
    - add documentations sphinx
    - zero-shot setup
    - set probabilistic behaviour in Transformer parent-class
    - pooling / attention aggregation
    - test split in MultiNews dataset
"""


def get_dataset(datasetname):
    assert datasetname in ["multinews", "amazon", "rcv1-2"], "dataset not supported"
    RCV_DATAPATH = expanduser(
        "~/datasets/rcv1-2/rcv1-2_doclist_trByLang1000_teByLang1000_processed_run0.pickle"
    )
    MULTINEWS_DATAPATH = expanduser("~/datasets/MultiNews/20110730/")
    if datasetname == "multinews":
        dataset = MultiNewsDataset(
            expanduser(MULTINEWS_DATAPATH),
            excluded_langs=["ar", "pe", "pl", "tr", "ua"],
        )
    elif datasetname == "amazon":
        dataset = AmazonDataset(
            domains=args.domains,
            nrows=args.nrows,
            min_count=args.min_count,
            max_labels=args.max_labels,
        )
    elif datasetname == "rcv1-2":
        dataset = (
            MultilingualDataset(dataset_name="rcv1-2")
            .load(RCV_DATAPATH)
            .reduce_data(langs=["en", "it", "fr"], maxn=500)
        )
    else:
        raise NotImplementedError
    return dataset


def main(args):
    dataset = get_dataset(args.dataset)
    if isinstance(dataset, MultilingualDataset) or isinstance(
        dataset, MultiNewsDataset
    ):
        lX, lY = dataset.training()
        # lX_te, lY_te = dataset.test()
        print("[NB: for debug purposes, training set is also used as test set]\n")
        lX_te, lY_te = dataset.training()
    else:
        _lX = dataset.dX
        _lY = dataset.dY

    tinit = time()

    if args.load_trained is None:
        assert any(
            [
                args.posteriors,
                args.wce,
                args.multilingual,
                args.multilingual,
                args.transformer,
            ]
        ), "At least one of VGF must be True"

    gfun = GeneralizedFunnelling(
        dataset_name=args.dataset,
        posterior=args.posteriors,
        multilingual=args.multilingual,
        wce=args.wce,
        transformer=args.transformer,
        langs=dataset.langs(),
        embed_dir="~/resources/muse_embeddings",
        n_jobs=args.n_jobs,
        max_length=args.max_length,
        batch_size=args.batch_size,
        epochs=args.epochs,
        lr=args.lr,
        patience=args.patience,
        evaluate_step=args.evaluate_step,
        transformer_name=args.transformer_name,
        device="cuda",
        optimc=args.optimc,
        load_trained=args.load_trained,
    )

    # gfun.get_config()
    gfun.fit(lX, lY)

    if args.load_trained is not None:
        gfun.save()

    # if not args.load_model:
    #     gfun.save()

    preds = gfun.transform(lX)

    train_eval = evaluate(lY, preds)
    log_eval(train_eval, phase="train")

    timetr = time()
    print(f"- training completed in {timetr - tinit:.2f} seconds")

    test_eval = evaluate(lY_te, gfun.transform(lX_te))
    log_eval(test_eval, phase="test")

    timeval = time()
    print(f"- testing completed in {timeval - timetr:.2f} seconds")


if __name__ == "__main__":
    parser = ArgumentParser()
    parser.add_argument("-l", "--load_trained", type=str, default=None)
    # Dataset parameters -------------------
    parser.add_argument("-d", "--dataset", type=str, default="multinews")
    parser.add_argument("--domains", type=str, default="all")
    parser.add_argument("--nrows", type=int, default=10000)
    parser.add_argument("--min_count", type=int, default=10)
    parser.add_argument("--max_labels", type=int, default=50)
    # gFUN parameters ----------------------
    parser.add_argument("-p", "--posteriors", action="store_true")
    parser.add_argument("-m", "--multilingual", action="store_true")
    parser.add_argument("-w", "--wce", action="store_true")
    parser.add_argument("-t", "--transformer", action="store_true")
    parser.add_argument("--n_jobs", type=int, default=1)
    parser.add_argument("--optimc", action="store_true")
    # transformer parameters ---------------
    parser.add_argument("--transformer_name", type=str, default="mbert")
    parser.add_argument("--batch_size", type=int, default=32)
    parser.add_argument("--epochs", type=int, default=10)
    parser.add_argument("--lr", type=float, default=1e-5)
    parser.add_argument("--max_length", type=int, default=512)
    parser.add_argument("--patience", type=int, default=5)
    parser.add_argument("--evaluate_step", type=int, default=10)

    args = parser.parse_args()

    main(args)
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`import pickle`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`from argparse import ArgumentParser`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`from os.path import expanduser`
			`from time import time`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
			`from dataManager.amazonDataset import AmazonDataset`
			`from dataManager.multilingualDatset import MultilingualDataset`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`from dataManager.multiNewsDataset import MultiNewsDataset`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`from evaluation.evaluate import evaluate, log_eval`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`from gfun.generalizedFunnelling import GeneralizedFunnelling`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`"""`
			`TODO:`
			`- add documentations sphinx`
			`- zero-shot setup`
model checkpoint during training. Restore best model if earlystop is triggered 2023-02-10 11:37:32 +01:00			`- set probabilistic behaviour in Transformer parent-class`
			`- pooling / attention aggregation`
			`- test split in MultiNews dataset`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`"""`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00

Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`def get_dataset(datasetname):`
			`assert datasetname in ["multinews", "amazon", "rcv1-2"], "dataset not supported"`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`RCV_DATAPATH = expanduser(`
			`"~/datasets/rcv1-2/rcv1-2_doclist_trByLang1000_teByLang1000_processed_run0.pickle"`
			`)`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`MULTINEWS_DATAPATH = expanduser("~/datasets/MultiNews/20110730/")`
			`if datasetname == "multinews":`
			`dataset = MultiNewsDataset(`
			`expanduser(MULTINEWS_DATAPATH),`
			`excluded_langs=["ar", "pe", "pl", "tr", "ua"],`
			`)`
			`elif datasetname == "amazon":`
			`dataset = AmazonDataset(`
			`domains=args.domains,`
			`nrows=args.nrows,`
			`min_count=args.min_count,`
			`max_labels=args.max_labels,`
			`)`
			`elif datasetname == "rcv1-2":`
			`dataset = (`
			`MultilingualDataset(dataset_name="rcv1-2")`
			`.load(RCV_DATAPATH)`
model checkpoint during training. Restore best model if earlystop is triggered 2023-02-10 11:37:32 +01:00			`.reduce_data(langs=["en", "it", "fr"], maxn=500)`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`)`
			`else:`
			`raise NotImplementedError`
			`return dataset`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00
			`def main(args):`
			`dataset = get_dataset(args.dataset)`
			`if isinstance(dataset, MultilingualDataset) or isinstance(`
			`dataset, MultiNewsDataset`
			`):`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`lX, lY = dataset.training()`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`# lX_te, lY_te = dataset.test()`
model checkpoint during training. Restore best model if earlystop is triggered 2023-02-10 11:37:32 +01:00			`print("[NB: for debug purposes, training set is also used as test set]\n")`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`lX_te, lY_te = dataset.training()`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`else:`
			`_lX = dataset.dX`
			`_lY = dataset.dY`

			`tinit = time()`

better way to save/load model via id ({config}_{date}); Implemented __str__ for each VGFs + get_config in GeneralizedFunnelling 2023-02-08 16:06:24 +01:00			`if args.load_trained is None:`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`assert any(`
			`[`
			`args.posteriors,`
			`args.wce,`
			`args.multilingual,`
			`args.multilingual,`
			`args.transformer,`
			`]`
			`), "At least one of VGF must be True"`

implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`gfun = GeneralizedFunnelling(`
model checkpoint during training. Restore best model if earlystop is triggered 2023-02-10 11:37:32 +01:00			`dataset_name=args.dataset,`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`posterior=args.posteriors,`
			`multilingual=args.multilingual,`
			`wce=args.wce,`
			`transformer=args.transformer,`
			`langs=dataset.langs(),`
			`embed_dir="~/resources/muse_embeddings",`
			`n_jobs=args.n_jobs,`
			`max_length=args.max_length,`
			`batch_size=args.batch_size,`
			`epochs=args.epochs,`
			`lr=args.lr,`
			`patience=args.patience,`
			`evaluate_step=args.evaluate_step,`
			`transformer_name=args.transformer_name,`
			`device="cuda",`
			`optimc=args.optimc,`
			`load_trained=args.load_trained,`
			`)`

better way to save/load model via id ({config}_{date}); Implemented __str__ for each VGFs + get_config in GeneralizedFunnelling 2023-02-08 16:06:24 +01:00			`# gfun.get_config()`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`gfun.fit(lX, lY)`

model checkpoint during training. Restore best model if earlystop is triggered 2023-02-10 11:37:32 +01:00			`if args.load_trained is not None:`
better way to save/load model via id ({config}_{date}); Implemented __str__ for each VGFs + get_config in GeneralizedFunnelling 2023-02-08 16:06:24 +01:00			`gfun.save()`

implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`# if not args.load_model:`
			`# gfun.save()`

			`preds = gfun.transform(lX)`

			`train_eval = evaluate(lY, preds)`
			`log_eval(train_eval, phase="train")`

			`timetr = time()`
			`print(f"- training completed in {timetr - tinit:.2f} seconds")`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00
			`test_eval = evaluate(lY_te, gfun.transform(lX_te))`
			`log_eval(test_eval, phase="test")`

			`timeval = time()`
			`print(f"- testing completed in {timeval - timetr:.2f} seconds")`


			`if __name__ == "__main__":`
			`parser = ArgumentParser()`
better way to save/load model via id ({config}_{date}); Implemented __str__ for each VGFs + get_config in GeneralizedFunnelling 2023-02-08 16:06:24 +01:00			`parser.add_argument("-l", "--load_trained", type=str, default=None)`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`# Dataset parameters -------------------`
Visual VGF + MultiNewsDataset, working from data loading to testing 2023-02-09 18:42:27 +01:00			`parser.add_argument("-d", "--dataset", type=str, default="multinews")`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`parser.add_argument("--domains", type=str, default="all")`
			`parser.add_argument("--nrows", type=int, default=10000)`
			`parser.add_argument("--min_count", type=int, default=10)`
			`parser.add_argument("--max_labels", type=int, default=50)`
			`# gFUN parameters ----------------------`
			`parser.add_argument("-p", "--posteriors", action="store_true")`
			`parser.add_argument("-m", "--multilingual", action="store_true")`
			`parser.add_argument("-w", "--wce", action="store_true")`
			`parser.add_argument("-t", "--transformer", action="store_true")`
			`parser.add_argument("--n_jobs", type=int, default=1)`
implemented fn to save/load trained gfun 2023-02-08 14:51:56 +01:00			`parser.add_argument("--optimc", action="store_true")`
bulk upload after refactoring 2023-02-07 18:40:17 +01:00			`# transformer parameters ---------------`
			`parser.add_argument("--transformer_name", type=str, default="mbert")`
			`parser.add_argument("--batch_size", type=int, default=32)`
			`parser.add_argument("--epochs", type=int, default=10)`
			`parser.add_argument("--lr", type=float, default=1e-5)`
			`parser.add_argument("--max_length", type=int, default=512)`
			`parser.add_argument("--patience", type=int, default=5)`
			`parser.add_argument("--evaluate_step", type=int, default=10)`

			`args = parser.parse_args()`

			`main(args)`