Millesima

L’objectif de ce projet est d’étudier, en utilisant des méthodes d’apprentissage automatique, l’impact de différents critères (notes des critiques, appelation) sur le prix d’un vin. Pour ce faire, on s’appuiera sur le site Millesima, qui a l’avantage de ne pas posséder de protection contre les bots. Par respect pour l’hébergeur du site, on veillera à limiter au maximum le nombre de requêtes. En particulier, on s’assurera d’avoir un code fonctionnel avant de scraper l’intégralité du site, pour éviter les répétitions.

Code source

Le projet complet est disponible sur GitHub:

Millesima AI Engine

Pipeline du projet

Le projet suit les étapes suivantes :

Scraping des données
- Extraction des vins depuis le site Millesima
- Récupération des prix, appellations et notes des critiques
Nettoyage et prétraitement
- Gestion des valeurs manquantes
- Encodage des variables catégorielles (appellations)
- Normalisation des données si nécessaire
Modélisation
- Régression linéaire
- Arbres de décision
- K plus proches voisins (KNN)
- Random Forest
Évaluation
- Comparaison des performances des modèles
- Analyse de l’impact des features sur le prix

Par respect pour le site de Millesima, le projet inclus dans la release les fichiers csv déjà scraper pour les utiliser dans l'apprentissage