Skip to content

Millesima

L’objectif de ce projet est d’étudier, en utilisant des méthodes d’apprentissage automatique, l’impact de différents critères (notes des critiques, appelation) sur le prix d’un vin. Pour ce faire, on s’appuiera sur le site Millesima, qui a l’avantage de ne pas posséder de protection contre les bots. Par respect pour l’hébergeur du site, on veillera à limiter au maximum le nombre de requêtes. En particulier, on s’assurera d’avoir un code fonctionnel avant de scraper l’intégralité du site, pour éviter les répétitions.

Code source

Le projet complet est disponible sur GitHub:

Millesima AI Engine

Pipeline du projet

Le projet suit les étapes suivantes :

  1. Scraping des données

    • Extraction des vins depuis le site Millesima
    • Récupération des prix, appellations et notes des critiques
  2. Nettoyage et prétraitement

    • Gestion des valeurs manquantes
    • Encodage des variables catégorielles (appellations)
    • Normalisation des données si nécessaire
  3. Modélisation

    • Régression linéaire
    • Arbres de décision
    • K plus proches voisins (KNN)
    • Random Forest
  4. Évaluation

    • Comparaison des performances des modèles
    • Analyse de l’impact des features sur le prix

Par respect pour le site de Millesima, le projet inclus dans la release les fichiers csv déjà scraper pour les utiliser dans l'apprentissage

projet

Votre navigateur ne peut pas afficher ce PDF. Cliquez ici pour le télécharger.