- Cours (CM) -
- Cours intégrés (CI) -
- Travaux dirigés (TD) 12h
- Travaux pratiques (TP) -
- Travail étudiant (TE) -
Langue de l'enseignement : Français
Enseignement proposé en : en présence
Description du contenu de l'enseignement
- Collecte de données à partir du web : développement de programmes pour télécharger, analyser la structure hiérarchique et extraire le contenu textuel principal de pages HTML.
- Traitement de données avec la bibliothèque pandas : nettoyage et prétraitement des données, analyse univariée, analyse bivariée, visualisation.
- Vectorisation de textes : décomposition des textes en unités, normalisation et autres prétraitements, visualisations, pondération tf-idf.
Compétences à acquérir
- Collecter des corpus de textes à partir du web.
- Nettoyer, prétraiter, analyser et visualiser des données tabulées.
- Traiter des données textuelles pour obtenir des représentations vectorielles.
Contact
Responsable
Delphine Bernhard
Intervenants
Delphine Bernhard