Traitements large échelle

  • Cours (CM) -
  • Cours intégrés (CI) 20h
  • Travaux dirigés (TD) 10h
  • Travaux pratiques (TP) -
  • Travail étudiant (TE) -

Langue de l'enseignement : Anglais

Niveau de l'enseignement : B2-Avancé - Utilisateur indépendant

Description du contenu de l'enseignement

Cette UE présente les principes et techniques utilisés dans le traitement de grandes données. Les systèmes de stockage distribués de type NoSQL et leurs propriétés sont présentés. Le traitement parallèle de grands ensembles de données est ensuite abordé à travers le modèle de programmation MapReduce, mise en oeuvre avec Hadoop et HFDS. Enfin, des environnements de traitement de données de plus haut niveau sont présentés, tels Spark ou ElasticSearch.

Compétences à acquérir

À l'issue de cette UE, un étudiant saura : (1) analyser la pertinence du choix d'un système de stockage au vu de la taille des données à traiter, (2) analyser la pertinence de l'utilisation de langages et d'infrastructures parallèles, (3) déployer une solution complète de stockage et traitement de grands volumes de données, (4) programmer des algorithmes d'analyse de données dans ces environnements.

Bibliographie, lectures recommandées

Références :
- Hadoop: The Definitive Guide, 4th Edition. Tom White. O'Reilly. 2015.
- MongoDB : The Defintive Guide. Kristina Chodorow. O'Reilly. 2013.
- Big Data, Principles and best practices of scalable real-time data systems. Nathan Marz and James Warren. Manning. 2015.

Pré-requis obligatoires

À l'entrée dans cette UE, un étudiant devrait avoir : (1) des connaissances en Java, (2) des connaissances de base des systèmes de gestion de bases de données relationnelles, (3) une bonne pratique d'un interpréteur de commandes Unix.

Contact

UFR de mathématique et d'informatique

7, rue René Descartes
67084 STRASBOURG CEDEX
0368850200

Formulaire de contact