Extraction et analyse des données biologiques

  • Cours (CM) 12h
  • Cours intégrés (CI) -
  • Travaux dirigés (TD) -
  • Travaux pratiques (TP) 12h
  • Travail étudiant (TE) -

Langue de l'enseignement : Français

Enseignement proposé en : en présence

Description du contenu de l'enseignement

Les dernières années ont vu le développement et l’amélioration de plusieurs approches expérimentales conduisant à une production en masse de données : séquençage des génomes, méta-génomique, transcriptomique, protéomique, séquenceurs de nouvelles générations, puces à ADN, résolution de structures moléculaires de très grande taille par cristallographie ou cryo-microscopie. Les besoins et les compétences dans le domaine de l’exploitation des données scientifiques deviennent tels que l’on parle maintenant de “Data Science“ et de métier de “Data Scientist”.

Cette exploitation peut se subdiviser en plusieurs étapes nécessitant des compétences de domaines d’expertises différents, domaines enseignés le plus souvent de manières indépendante et disjointe. On peut ainsi distinguer:
  • la capacité à acquérir, lire et formater les données,
  • la capacité à analyser, fouiller les données et à en extraire les informations pertinentes,
  • la capacité à visualiser et à interagir avec les données.
Le but de cet enseignement est de fournir une vision complète des différentes étapes à mettre en œuvre depuis la récupération des données jusqu’à leur analyse dans le cadre de projets scientifiques. Il proposera une initiation aux concepts, méthodeset outils permettant de réaliser les trois étapes fondamentales nécessaires à toute exploitation de données informatiques :
  • leur récupération depuis les banques de données etles réseaux informatiques,
  • leur lecture, mise en forme et reformatage,
  • leur analyse et leur visualisation.

Cet enseignement devra également permettre de faire le lien avec tout autre se focalisant plus précisément sur certains de ces aspects (enseignements sur les bases de données et sur l’utilisation d’Internet, enseignements de mathématiques et de statistiques, enseignements sur les outils de visualisation et d’imagerie,…).

De plus en plus de données étant accessible depuis Internet, cet enseignement insistera particulièrement sur la structure de ce réseau et sur les différents moyens d'accès aux données: sites FTP, flux RSS, services webs,...
 

Compétences à acquérir

A l'issue de cette UE, l'étudiant sera capable de mettre en oeuvre son propre protocole d'analyse de données. Il saura où et comment récupérer ses données. Il saura comment les convertir afin de les rendre "utiles" et "exploitables". Finalement, il saura comment les analyser et les visualiser. Cette UE permettra de découvrir et de manipuler un grandnombre d'outils gratuits et disponibles pour la plupart des systèmes d'exploitations (Linux, MacOSX et Windows) : - des outils de conversion “généraux” (sed, awk, google-refine,…) et bioinform atiques (open babel, readseq, EMBOSS,…) - des outils de visualisation : Processing, gnuplot, Simulchart, Gephi, Cytoscape, Google Charts, IBM Many Eyes,... - des outils d'analyse et de fouille de données : R et BioConductor, Sage, Octave, Weka,... - des outils de construction de protocoles d'analyse : Taverna, Knime, Yahoo Pipes, Kepler, myExperiment,...
 

Contact

Faculté des sciences de la vie

28, rue Goethe
67083 STRASBOURG CEDEX
0368855383

Formulaire de contact

Responsable

Fabrice Jossinet