| Atelier 3 : Transformation, manipulation et prétraitement des données massives (DSAI10_3) |
Ouverture des inscriptions bientôt !
Titre du cours : Transformation, manipulation et prétraitement des données massives Durée : 21 heures
Préalables : - Connaissances de base en Python - Connaissance de base en Statistiques - Avoir suivi le cours Edulib: Introduction à la science des données pour l’IA- Module 3 : https://catalogue.edulib.org/fr/cours/PIA-IGSDFR/
Clientèle visée : Toute personne ayant un intérêt pour les sciences de données
Description :
Ce cours s’inscrit dans la logique continue de votre formation sur Edulib : Introduction à la science des données pour l'IA. Ça sera l’occasion d’asseoir vos acquis, de répondre à vos éventuelles questions mais surtout, de pousser plus loin les concepts et techniques que vous avez vu en cours! Pour ce faire, on fera un rapide récapitulatif des points abordés lors du module 3 : Transformation et manipulation de données massives afin de démarrer sur des bases saines. A travers des exemples sur des calepins, on abordera aussi de nouvelles techniques comme la pseudo-anonymisation, ou encore la permutation, on abordera aussi des techniques menant à une meilleure extraction de caractéristiques des données texte comme le TF-IDF et plein d’autres!
· Introduction
· Anonymisation Concept et objectifs Aspect technique et objectifs : Pseudo anonymisation, généralisation et permutation. Exercice d’application
· Techniques de transformation Concept et objectifs Aspect technique et objectifs : Mise à l’échelle, détection de valeurs aberrantes, transformations avec des opérations de mappage Exercice d’application
· Techniques de remplacement « imputing » Concept et objectifs Caractérisation des données manquantes, introduction au concepts NMAR, MAR, MCAR Aspect technique et exercice d’application
· Encodage de catégoriel Concept et objectifs Aspect technique et objectifs : OrdinalEncoder , OneHotEncoder, encodage Dummy Exercice d’application
· Feature engineering Concept et objectifs Nettoyage, transformation de texte et extraction de caractéristiques : Tokenisation, lemmatisation, TF-IDF Aspect technique et exercice d’application
· Manipulation de structure de données Concept et objectifs Aspect technique et exercice d’application
|
|