Millesima
L’objectif de ce projet est d’étudier, en utilisant des méthodes d’apprentissage automatique, l’impact de différents critères (notes des critiques, appelation) sur le prix d’un vin. Pour ce faire, on s’appuiera sur le site Millesima, qui a l’avantage de ne pas posséder de protection contre les bots. Par respect pour l’hébergeur du site, on veillera à limiter au maximum le nombre de requêtes. En particulier, on s’assurera d’avoir un code fonctionnel avant de scraper l’intégralité du site, pour éviter les répétitions.
Code source
Le projet complet est disponible sur GitHub:
Pipeline du projet
Le projet suit les étapes suivantes :
-
Scraping des données
- Extraction des vins depuis le site Millesima
- Récupération des prix, appellations et notes des critiques
-
Nettoyage et prétraitement
- Gestion des valeurs manquantes
- Encodage des variables catégorielles (appellations)
- Normalisation des données si nécessaire
-
Modélisation
- Régression linéaire
- Arbres de décision
- K plus proches voisins (KNN)
- Random Forest
-
Évaluation
- Comparaison des performances des modèles
- Analyse de l’impact des features sur le prix
Par respect pour le site de Millesima, le projet inclus dans la release les fichiers csv déjà scraper pour les utiliser dans l'apprentissage