Split Datasets class from Experiments

2025-08-16 16:05:54 +00:00 · 2022-10-24 18:21:08 +02:00
parent 12024df4d8
commit e15ab3dcab
15 changed files with 127 additions and 94 deletions
--- a/benchmark/Arguments.py
+++ b/benchmark/Arguments.py
@@ -1,6 +1,6 @@
 import sys
 import argparse
-from .Experiments import Models
+from .Models import Models
 from .Utils import Files, NO_ENV
 ALL_METRICS = (
--- a/benchmark/Datasets.py
+++ b/benchmark/Datasets.py
@@ -0,0 +1,103 @@
 import os
 import pandas as pd
 from scipy.io import arff
 from .Utils import Files
 from .Arguments import EnvData
 class Diterator:
    def __init__(self, data):
        self._stack = data.copy()
    def __next__(self):
        if len(self._stack) == 0:
            raise StopIteration()
        return self._stack.pop(0)
 class DatasetsArff:
    @staticmethod
    def dataset_names(name):
        return f"{name}.arff"
    @staticmethod
    def folder():
        return "datasets"
    def load(self, name, class_name="class"):
        file_name = os.path.join(self.folder(), self.dataset_names(name))
        data = arff.loadarff(file_name)
        df = pd.DataFrame(data[0])
        y = df[class_name]
        X = data.drop(class_name, axis=1).to_numpy()
        y = data[class_name].to_numpy()
        return X, y
 class DatasetsTanveer:
    @staticmethod
    def dataset_names(name):
        return f"{name}_R.dat"
    @staticmethod
    def folder():
        return "data"
    def load(self, name):
        file_name = os.path.join(self.folder(), self.dataset_names(name))
        data = pd.read_csv(
            file_name,
            sep="\t",
            index_col=0,
        )
        X = data.drop("clase", axis=1).to_numpy()
        y = data["clase"].to_numpy()
        return X, y
 class DatasetsSurcov:
    @staticmethod
    def dataset_names(name):
        return f"{name}.csv"
    @staticmethod
    def folder():
        return "datasets"
    def load(self, name):
        file_name = os.path.join(self.folder(), self.dataset_names(name))
        data = pd.read_csv(
            file_name,
            index_col=0,
        )
        data.dropna(axis=0, how="any", inplace=True)
        self.columns = data.columns
        col_list = ["class"]
        X = data.drop(col_list, axis=1).to_numpy()
        y = data["class"].to_numpy()
        return X, y
 class Datasets:
    def __init__(self, dataset_name=None):
        envData = EnvData.load()
        class_name = getattr(
            __import__(__name__),
            f"Datasets{envData['source_data']}",
        )
        self.dataset = class_name()
        if dataset_name is None:
            file_name = os.path.join(self.dataset.folder(), Files.index)
            with open(file_name) as f:
                self.data_sets = f.read().splitlines()
        else:
            self.data_sets = [dataset_name]
    def load(self, name):
        try:
            return self.dataset.load(name)
        except FileNotFoundError:
            raise ValueError(f"Unknown dataset: {name}")
    def __iter__(self) -> Diterator:
        return Diterator(self.data_sets)
--- a/benchmark/Experiments.py
+++ b/benchmark/Experiments.py
@@ -6,7 +6,6 @@ import time
 from datetime import datetime
 from tqdm import tqdm
 import numpy as np
 import pandas as pd
 from sklearn.model_selection import (
    StratifiedKFold,
    KFold,
@@ -14,93 +13,14 @@ from sklearn.model_selection import (
    cross_validate,
 )
 from .Utils import Folders, Files, NO_RESULTS
 from .Datasets import Datasets
 from .Models import Models
 from .Arguments import EnvData
 class Randomized:
    seeds = [57, 31, 1714, 17, 23, 79, 83, 97, 7, 1]
 class Diterator:
    def __init__(self, data):
        self._stack = data.copy()
    def __next__(self):
        if len(self._stack) == 0:
            raise StopIteration()
        return self._stack.pop(0)
 class DatasetsTanveer:
    @staticmethod
    def dataset_names(name):
        return f"{name}_R.dat"
    @staticmethod
    def folder():
        return "data"
    def load(self, name):
        file_name = os.path.join(self.folder(), self.dataset_names(name))
        data = pd.read_csv(
            file_name,
            sep="\t",
            index_col=0,
        )
        X = data.drop("clase", axis=1).to_numpy()
        y = data["clase"].to_numpy()
        return X, y
 class DatasetsSurcov:
    @staticmethod
    def dataset_names(name):
        return f"{name}.csv"
    @staticmethod
    def folder():
        return "datasets"
    def load(self, name):
        file_name = os.path.join(self.folder(), self.dataset_names(name))
        data = pd.read_csv(
            file_name,
            index_col=0,
        )
        data.dropna(axis=0, how="any", inplace=True)
        self.columns = data.columns
        col_list = ["class"]
        X = data.drop(col_list, axis=1).to_numpy()
        y = data["class"].to_numpy()
        return X, y
 class Datasets:
    def __init__(self, dataset_name=None):
        envData = EnvData.load()
        class_name = getattr(
            __import__(__name__),
            f"Datasets{envData['source_data']}",
        )
        self.dataset = class_name()
        if dataset_name is None:
            file_name = os.path.join(self.dataset.folder(), Files.index)
            with open(file_name) as f:
                self.data_sets = f.read().splitlines()
        else:
            self.data_sets = [dataset_name]
    def load(self, name):
        try:
            return self.dataset.load(name)
        except FileNotFoundError:
            raise ValueError(f"Unknown dataset: {name}")
    def __iter__(self) -> Diterator:
        return Diterator(self.data_sets)
 class BestResults:
    def __init__(self, score, model, datasets, quiet=False):
        self.score_name = score
--- a/benchmark/Results.py
+++ b/benchmark/Results.py
@@ -7,7 +7,8 @@ import shutil
 import subprocess
 import xlsxwriter
 import numpy as np
-from .Experiments import Datasets, BestResults
+from .Experiments import BestResults
 from .Datasets import Datasets
 from .Utils import (
    Folders,
    Files,
--- a/benchmark/init.py
+++ b/benchmark/init.py
@@ -1,4 +1,5 @@
-from .Experiments import Experiment, Datasets, DatasetsSurcov, DatasetsTanveer
+from .Datasets import Datasets, DatasetsSurcov, DatasetsTanveer
 from .Experiments import Experiment
 from .Results import Report, Summary
 __author__ = "Ricardo Montañana Gómez"
--- a/benchmark/scripts/be_build_best.py
+++ b/benchmark/scripts/be_build_best.py
@@ -1,6 +1,7 @@
 #!/usr/bin/env python
 from benchmark.Results import ReportBest
-from benchmark.Experiments import Datasets, BestResults
+from benchmark.Experiments import BestResults
 from benchmark.Datasets import Datasets
 from benchmark.Arguments import Arguments
 """Build a json file with the best results of a model and its hyperparameters
--- a/benchmark/scripts/be_grid.py
+++ b/benchmark/scripts/be_grid.py
@@ -1,5 +1,6 @@
 #!/usr/bin/env python
-from benchmark.Experiments import GridSearch, Datasets
+from benchmark.Experiments import GridSearch
 from benchmark.Datasets import Datasets
 from benchmark.Arguments import Arguments
 """Do experiment and build result file, optionally print report with results
--- a/benchmark/scripts/be_main.py
+++ b/benchmark/scripts/be_main.py
@@ -1,6 +1,7 @@
 #!/usr/bin/env python
 import os
-from benchmark.Experiments import Experiment, Datasets
+from benchmark.Experiments import Experiment
 from benchmark.Datasets import Datasets
 from benchmark.Results import Report
 from benchmark.Arguments import Arguments
--- a/benchmark/scripts/be_print_strees.py
+++ b/benchmark/scripts/be_print_strees.py
@@ -3,7 +3,7 @@ import os
 import json
 from stree import Stree
 from graphviz import Source
-from benchmark.Experiments import Datasets
+from benchmark.Datasets import Datasets
 from benchmark.Utils import Files, Folders
 from benchmark.Arguments import Arguments
--- a/benchmark/tests/BestResults_test.py
+++ b/benchmark/tests/BestResults_test.py
@@ -1,6 +1,7 @@
 import os
 from .TestBase import TestBase
-from ..Experiments import BestResults, Datasets
+from ..Experiments import BestResults
 from ..Datasets import Datasets
 class BestResultTest(TestBase):
--- a/benchmark/tests/Dataset_test.py
+++ b/benchmark/tests/Dataset_test.py
@@ -1,6 +1,7 @@
 import shutil
 from .TestBase import TestBase
-from ..Experiments import Randomized, Datasets
+from ..Experiments import Randomized
 from ..Datasets import Datasets
 class DatasetTest(TestBase):
--- a/benchmark/tests/Experiment_test.py
+++ b/benchmark/tests/Experiment_test.py
@@ -1,6 +1,7 @@
 import json
 from .TestBase import TestBase
-from ..Experiments import Experiment, Datasets
+from ..Experiments import Experiment
 from ..Datasets import Datasets
 class ExperimentTest(TestBase):
--- a/benchmark/tests/GridSearch_test.py
+++ b/benchmark/tests/GridSearch_test.py
@@ -1,6 +1,7 @@
 import json
 from .TestBase import TestBase
-from ..Experiments import GridSearch, Datasets
+from ..Experiments import GridSearch
 from ..Datasets import Datasets
 class GridSearchTest(TestBase):
--- a/benchmark/tests/results/grid_output_accuracy_STree.json
+++ b/benchmark/tests/results/grid_output_accuracy_STree.json
@@ -6,7 +6,7 @@
            "kernel": "liblinear",
            "multiclass_strategy": "ovr"
        },
-        "v. 1.2.4, Computed on Test on 2022-02-22 at 12:00:00 took 1s"
+        "v. 1.3.0, Computed on Test on 2022-02-22 at 12:00:00 took 1s"
    ],
    "balloons": [
        0.625,
@@ -15,6 +15,6 @@
            "kernel": "linear",
            "multiclass_strategy": "ovr"
        },
-        "v. 1.2.4, Computed on Test on 2022-02-22 at 12:00:00 took 1s"
+        "v. 1.3.0, Computed on Test on 2022-02-22 at 12:00:00 took 1s"
    ]
 }
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,5 +1,6 @@
 pandas
 scikit-learn
 scipy
 odte
 mufs
 xlsxwriter