- Cours (CM) 12h
- Cours intégrés (CI) -
- Travaux dirigés (TD) -
- Travaux pratiques (TP) 12h
- Travail étudiant (TE) -
Langue de l'enseignement : Français
Enseignement proposé en : en présence
Description du contenu de l'enseignement
Les dernières années ont vu le développement et l’amélioration de plusieurs approches expérimentales conduisant à une production en masse de données : séquençage des génomes, méta-génomique, transcriptomique, protéomique, séquenceurs de nouvelles générations, puces à ADN, résolution de structures moléculaires de très grande taille par cristallographie ou cryo-microscopie. Les besoins et les compétences dans le domaine de l’exploitation des données scientifiques deviennent tels que l’on parle maintenant de “Data Science“ et de métier de “Data Scientist”.
Cette exploitation peut se subdiviser en plusieurs étapes nécessitant des compétences de domaines d’expertises différents, domaines enseignés le plus souvent de manières indépendante et disjointe. On peut ainsi distinguer:
Cet enseignement devra également permettre de faire le lien avec tout autre se focalisant plus précisément sur certains de ces aspects (enseignements sur les bases de données et sur l’utilisation d’Internet, enseignements de mathématiques et de statistiques, enseignements sur les outils de visualisation et d’imagerie,…).
De plus en plus de données étant accessible depuis Internet, cet enseignement insistera particulièrement sur la structure de ce réseau et sur les différents moyens d'accès aux données: sites FTP, flux RSS, services webs,...
Cette exploitation peut se subdiviser en plusieurs étapes nécessitant des compétences de domaines d’expertises différents, domaines enseignés le plus souvent de manières indépendante et disjointe. On peut ainsi distinguer:
- la capacité à acquérir, lire et formater les données,
- la capacité à analyser, fouiller les données et à en extraire les informations pertinentes,
- la capacité à visualiser et à interagir avec les données.
- leur récupération depuis les banques de données etles réseaux informatiques,
- leur lecture, mise en forme et reformatage,
- leur analyse et leur visualisation.
Cet enseignement devra également permettre de faire le lien avec tout autre se focalisant plus précisément sur certains de ces aspects (enseignements sur les bases de données et sur l’utilisation d’Internet, enseignements de mathématiques et de statistiques, enseignements sur les outils de visualisation et d’imagerie,…).
De plus en plus de données étant accessible depuis Internet, cet enseignement insistera particulièrement sur la structure de ce réseau et sur les différents moyens d'accès aux données: sites FTP, flux RSS, services webs,...
Compétences à acquérir
A l'issue de cette UE, l'étudiant sera capable de mettre en oeuvre son propre protocole d'analyse de données. Il saura où et comment récupérer ses données. Il saura comment les convertir afin de les rendre "utiles" et "exploitables". Finalement, il saura comment les analyser et les visualiser. Cette UE permettra de découvrir et de manipuler un grandnombre d'outils gratuits et disponibles pour la plupart des systèmes d'exploitations (Linux, MacOSX et Windows) : - des outils de conversion “généraux” (sed, awk, google-refine,…) et bioinform atiques (open babel, readseq, EMBOSS,…) - des outils de visualisation : Processing, gnuplot, Simulchart, Gephi, Cytoscape, Google Charts, IBM Many Eyes,... - des outils d'analyse et de fouille de données : R et BioConductor, Sage, Octave, Weka,... - des outils de construction de protocoles d'analyse : Taverna, Knime, Yahoo Pipes, Kepler, myExperiment,...
Contact
Responsable
Fabrice Jossinet