Maîtrisez le Pré-traitement et les Pipelines avec scikit-learn en Python 🚀
Découvrez comment optimiser vos modèles de Machine Learning en utilisant le pré-traitement et les pipelines avec scikit-learn. Améliorez vos performances dès aujourd'hui !

Machine Learnia
145.3K views • Jan 27, 2020

About this video
Dans ce tutoriel Python sur sklearn (scikit-learn) je vous montre comment faire du pre-processing pour améliorer vos performances en Machine Learning et Data Science. Nous voyons comment traiter nos données avec LabelEncoder, OneHotEncoder, MinMaxScaler, StandardScaler, et bien d'autres transformers du module sklearn.preprocessing. En fin de vidéo je vous montre comment assembler plusieurs transformers ensemble avec le module Pipeline. Voici la timeline de la vidéo :
0:00 Intro
00:43 Data preprocessing
02:56 Transformer Sklearn
05:37 Encodage Ordinal
10:13 Encodage One-Hot
11:19 Sparse Matrix
15:44 Normalisation MinMax
19:27 Standardisation
22:41 RobustScaler
24:20 PolynomialFeatures
27:00 Discretisation
29:00 Pipelines
Petit résumé :
Le preprocessing est important pour améliorer la qualité de nos données avant leur passage dans la machine. Pour ca sklearn ont développé un objet appelé transformer. Son rôle est de transformer nos données de façon cohérente, en appliquant sur les données du testset la même fonction de transformation qui a servie a traiter les données du trainset.
Pour ca, les transformers disposent d'une méthode fit(X_train) et d'une méthode transform(X_test), un peu comme les estimateurs disposent d'une méthode fit(X_train, y_train) et d'une méthode predict(X_test)
Parmi les opération de preprocessing les plus populaires, on retrouve :
L'Encodage : LabelEncoder, OrdinalEncoder, LabelBinarizer, et OneHotEncoder
La Normalisation : MinMaxScaler, StandardScaler, RobustScaler
la Création de polynômes : PolynomialFeatures
la Discretisation : Binarizer, KBinDiscretizer
les transformations non-linéaires : PowerTransform, QuantileTransform
La classe Pipeline de sklearn permet d'assembler plusieurs transformers avec un estimateur, formant ainsi un estimateur composite. GridSearchCV vous permet ensuite de trouver les meilleurs paramètres de votre pipeline.
► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)
https://fr.tipeee.com/machine-learnia
► REJOINS NOTRE COMMUNAUTÉ DISCORD
https://discord.gg/WMvHpzu
► MON SITE INTERNET:
https://www.machinelearnia.com/
► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:
https://www.machinelearnia.com/apprendre-le-machine-learning-en-une-semaine/
► Téléchargez gratuitement mes codes sur github:
https://github.com/MachineLearnia
► Abonnez-vous : https://www.youtube.com/channel/UCmpptkXu8iIFe6kfDK5o7VQ
► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.
En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.
Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.
► Une question ? Contactez-moi: contact@machinelearnia.com
0:00 Intro
00:43 Data preprocessing
02:56 Transformer Sklearn
05:37 Encodage Ordinal
10:13 Encodage One-Hot
11:19 Sparse Matrix
15:44 Normalisation MinMax
19:27 Standardisation
22:41 RobustScaler
24:20 PolynomialFeatures
27:00 Discretisation
29:00 Pipelines
Petit résumé :
Le preprocessing est important pour améliorer la qualité de nos données avant leur passage dans la machine. Pour ca sklearn ont développé un objet appelé transformer. Son rôle est de transformer nos données de façon cohérente, en appliquant sur les données du testset la même fonction de transformation qui a servie a traiter les données du trainset.
Pour ca, les transformers disposent d'une méthode fit(X_train) et d'une méthode transform(X_test), un peu comme les estimateurs disposent d'une méthode fit(X_train, y_train) et d'une méthode predict(X_test)
Parmi les opération de preprocessing les plus populaires, on retrouve :
L'Encodage : LabelEncoder, OrdinalEncoder, LabelBinarizer, et OneHotEncoder
La Normalisation : MinMaxScaler, StandardScaler, RobustScaler
la Création de polynômes : PolynomialFeatures
la Discretisation : Binarizer, KBinDiscretizer
les transformations non-linéaires : PowerTransform, QuantileTransform
La classe Pipeline de sklearn permet d'assembler plusieurs transformers avec un estimateur, formant ainsi un estimateur composite. GridSearchCV vous permet ensuite de trouver les meilleurs paramètres de votre pipeline.
► Me soutenir financierement sur Tipeee (et obtenir des vidéos BONUS)
https://fr.tipeee.com/machine-learnia
► REJOINS NOTRE COMMUNAUTÉ DISCORD
https://discord.gg/WMvHpzu
► MON SITE INTERNET:
https://www.machinelearnia.com/
► Recevez gratuitement mon Livre:
APPRENDRE LE MACHINE LEARNING EN UNE SEMAINE
CLIQUEZ ICI:
https://www.machinelearnia.com/apprendre-le-machine-learning-en-une-semaine/
► Téléchargez gratuitement mes codes sur github:
https://github.com/MachineLearnia
► Abonnez-vous : https://www.youtube.com/channel/UCmpptkXu8iIFe6kfDK5o7VQ
► Qui suis-je ?
Je suis Guillaume Saint-Cirgue, Senior Data Scientist avec plus de 8 ans d’expérience dans les secteurs de la tech, l’aviation, la robotique, l’énergie, et les usines connectées.
En 2019, j’ai créé Machine Learnia dans le but de partager mes connaissances dans le domaine de l’intelligence artificielle. Mon objectif est d’expliquer en détail le fonctionnement du Machine Learning et de ses algorithmes, tout en rendant ces concepts accessibles à tous.
Je suis convaincu qu'il ne suffit pas de survoler l'aspect mathématique de ce domaine; il est essentiel de s'y plonger en profondeur pour se démarquer. Cette approche a déjà convaincu plus de 150 000 personnes, et ceux que je forme aujourd'hui comptent parmi les meilleurs du secteur.
► Une question ? Contactez-moi: contact@machinelearnia.com
Tags and Topics
Browse our collection to discover more content in these categories.
Video Information
Views
145.3K
Likes
2.8K
Duration
37:43
Published
Jan 27, 2020
User Reviews
4.7
(29) Related Trending Topics
LIVE TRENDSRelated trending topics. Click any trend to explore more videos.
Trending Now