Cleaning

Sommaire

Cleaning
- Sommaire
- Classe Cleaning

Classe `Cleaning`

Classe de nettoyage et de prétraitement d'un dataset de vins. Lit un fichier CSV, nettoie les valeurs manquantes, encode les appellations et exporte le résultat.

Source code in src/cleaning.py

class Cleaning:
    """
    Classe de nettoyage et de prétraitement d'un dataset de vins.
    Lit un fichier CSV, nettoie les valeurs manquantes, encode les
    appellations et exporte le résultat.
    """

    def __init__(self, filename) -> None:
        """
        Initialise la classe en lisant le fichier CSV et en convertissant
        les colonnes de scores en valeurs numériques.

        Args:
            filename (str): Chemin vers le fichier CSV à lire.
        """
        self._vins: DataFrame = read_csv(filename)
        # créer la liste de tout les scores
        self.SCORE_COLS: list[str] = [
            c for c in self._vins.columns if c not in ["Appellation", "Prix"]
        ]
        # transforme tout les colonnes score en numérique
        for col in self.SCORE_COLS:
            self._vins[col] = to_numeric(self._vins[col], errors="coerce")

    def getVins(self) -> DataFrame:
        """
        Retourne une copie du DataFrame nettoyé.

        Returns:
            DataFrame: Une copie indépendante des données des vins après
            nettoyage et prétraitement.
        """
        return self._vins.copy(deep=True)

    def __str__(self) -> str:
        """
        Affiche un résumé du DataFrame
            - la taille
            - types des colonnes
            - valeurs manquantes
            - statistiques numériques
        """
        return (
            f"Shape : {self._vins.shape[0]} lignes x {self._vins.shape[1]} colonnes\n\n"
            f"Types des colonnes :\n{self._vins.dtypes}\n\n"
            f"Valeurs manquantes :\n{self._vins.isna().sum()}\n\n"
            f"Statistiques numériques :\n{self._vins.describe().round(2)}\n\n"
        )

    def drop_empty_appellation(self) -> "Cleaning":
        """
        Supprime les lignes dont l'appellation est manquante.

        Returns:
            Cleaning: Instance courante pour chaînage des méthodes.
        """
        self._vins = self._vins.dropna(subset=["Appellation"])
        return self

    def _mean_score(self, col: str) -> DataFrame:
        """
        Calcule la moyenne d'une colonne de score par appellation.

        Étapes :
            - Convertit les valeurs en numériques (les erreurs deviennent NaN)
            - Regroupe les données par appellation
            - Calcule la moyenne des scores pour chaque appellation
            - Remplace les valeurs manquantes par 0

        Args:
            col (str): Nom de la colonne de score.

        Returns:
            DataFrame: DataFrame contenant les moyennes par appellation.
        """
        means = self._vins.groupby("Appellation", as_index=False)[col].mean()
        means = means.rename(columns={col: f"mean_{col}"})
        return cast(DataFrame, means.fillna(0))

    def _mean_robert(self) -> DataFrame:
        return self._mean_score("Robert")

    def _mean_robinson(self) -> DataFrame:
        return self._mean_score("Robinson")

    def _mean_suckling(self) -> DataFrame:
        return self._mean_score("Suckling")

    def fill_missing_scores(self) -> "Cleaning":
        """
        Remplace les valeurs manquantes des colonnes de scores par la
        moyenne des vins appartenant à la même appellation.

        Returns:
            Cleaning: Instance courante pour chaînage des méthodes.
        """
        for element in self.SCORE_COLS:
            means = self._mean_score(element)
            self._vins = self._vins.merge(means, on="Appellation", how="left")

            mean_col = f"mean_{element}"
            self._vins[element] = self._vins[element].fillna(self._vins[mean_col])

            self._vins = self._vins.drop(columns=["mean_" + element])
        return self

    def encode_appellation(self, column: str = "Appellation") -> "Cleaning":
        """
        Encode la colonne d'appellation en variables indicatrices (one-hot encoding).

        Args:
            column (str): Nom de la colonne à encoder (par défaut "Appellation").

        Returns:
            Cleaning: Instance courante pour chaînage des méthodes.
        """
        appellations = self._vins[column].astype(str).str.strip()
        appellation_dummies = get_dummies(appellations, prefix="App")
        self._vins = self._vins.drop(columns=[column])
        self._vins = self._vins.join(appellation_dummies)
        return self

    def drop_empty_price(self) -> "Cleaning":
        """
        Supprime les lignes dont le prix est manquant.

        Returns:
            Cleaning: Instance courante pour chaînage des méthodes.
        """
        self._vins = self._vins.dropna(subset=["Prix"])
        return self

`init(filename)`

Initialise la classe en lisant le fichier CSV et en convertissant les colonnes de scores en valeurs numériques.

Parameters:

Name	Type	Description	Default
`filename`	`str`	Chemin vers le fichier CSV à lire.	required

Source code in src/cleaning.py

def __init__(self, filename) -> None:
    """
    Initialise la classe en lisant le fichier CSV et en convertissant
    les colonnes de scores en valeurs numériques.

    Args:
        filename (str): Chemin vers le fichier CSV à lire.
    """
    self._vins: DataFrame = read_csv(filename)
    # créer la liste de tout les scores
    self.SCORE_COLS: list[str] = [
        c for c in self._vins.columns if c not in ["Appellation", "Prix"]
    ]
    # transforme tout les colonnes score en numérique
    for col in self.SCORE_COLS:
        self._vins[col] = to_numeric(self._vins[col], errors="coerce")

`getVins()`

Retourne une copie du DataFrame nettoyé.

Returns:

Name	Type	Description
`DataFrame`	`DataFrame`	Une copie indépendante des données des vins après
	`DataFrame`	nettoyage et prétraitement.

Source code in src/cleaning.py

def getVins(self) -> DataFrame:
    """
    Retourne une copie du DataFrame nettoyé.

    Returns:
        DataFrame: Une copie indépendante des données des vins après
        nettoyage et prétraitement.
    """
    return self._vins.copy(deep=True)

`drop_empty_appellation()`

Supprime les lignes dont l'appellation est manquante.

Returns:

Name	Type	Description
`Cleaning`	`Cleaning`	Instance courante pour chaînage des méthodes.

Source code in src/cleaning.py

def drop_empty_appellation(self) -> "Cleaning":
    """
    Supprime les lignes dont l'appellation est manquante.

    Returns:
        Cleaning: Instance courante pour chaînage des méthodes.
    """
    self._vins = self._vins.dropna(subset=["Appellation"])
    return self

`fill_missing_scores()`

Remplace les valeurs manquantes des colonnes de scores par la moyenne des vins appartenant à la même appellation.

Returns:

Name	Type	Description
`Cleaning`	`Cleaning`	Instance courante pour chaînage des méthodes.

Source code in src/cleaning.py

def fill_missing_scores(self) -> "Cleaning":
    """
    Remplace les valeurs manquantes des colonnes de scores par la
    moyenne des vins appartenant à la même appellation.

    Returns:
        Cleaning: Instance courante pour chaînage des méthodes.
    """
    for element in self.SCORE_COLS:
        means = self._mean_score(element)
        self._vins = self._vins.merge(means, on="Appellation", how="left")

        mean_col = f"mean_{element}"
        self._vins[element] = self._vins[element].fillna(self._vins[mean_col])

        self._vins = self._vins.drop(columns=["mean_" + element])
    return self

`encode_appellation(column='Appellation')`

Encode la colonne d'appellation en variables indicatrices (one-hot encoding).

Parameters:

Name	Type	Description	Default
`column`	`str`	Nom de la colonne à encoder (par défaut "Appellation").	`'Appellation'`

Returns:

Name	Type	Description
`Cleaning`	`Cleaning`	Instance courante pour chaînage des méthodes.

Source code in src/cleaning.py

def encode_appellation(self, column: str = "Appellation") -> "Cleaning":
    """
    Encode la colonne d'appellation en variables indicatrices (one-hot encoding).

    Args:
        column (str): Nom de la colonne à encoder (par défaut "Appellation").

    Returns:
        Cleaning: Instance courante pour chaînage des méthodes.
    """
    appellations = self._vins[column].astype(str).str.strip()
    appellation_dummies = get_dummies(appellations, prefix="App")
    self._vins = self._vins.drop(columns=[column])
    self._vins = self._vins.join(appellation_dummies)
    return self

Cleaning

Sommaire

Classe Cleaning

__init__(filename)

getVins()

drop_empty_appellation()

fill_missing_scores()

encode_appellation(column='Appellation')

Classe `Cleaning`

`init(filename)`

`getVins()`

`drop_empty_appellation()`

`fill_missing_scores()`

`encode_appellation(column='Appellation')`