Objectifs:
Cette formation a pour objectifs:
- d'introduire les participants au domaine des techniques d'analyse de données issues de l'apprentissage automatique et du data mining
- de les familiariser à l'application de ces techniques à l'analyse de données génomiques et protéomiques.
Contenu :
La formation alternera présentations théoriques et travaux pratiques sur ordinateur.
Le cours théorique abordera successivement les questions suivantes:
- Introduction: présentation des objectifs et relevé des attentes des participants, introduction aux différents types de données biologiques...
- Préparation et pré-traitement des données
- Tests statistiques: principes généraux des tests d'hypothèse, tests multiples, « false discovery rate »...
- Apprentissage supervisé: méthodes de classification (méthodes d'arbres de décision, méthodes d'ensemble, machines à support vectoriel...), évaluation de modèles, sélection de variables...
- Apprentissage non supervisé: analyse en composantes principales, techniques de clustering, modèles graphiques...
- Validation de modèles: analyse d'enrichissement
Chaque module théorique sera complété par la présentation d'un certain nombre de cas d'étude issus de la littérature scientifique.
Les travaux pratiques consisteront en l'utilisation d'une série de logiciels d'analyse de données et de data mining sur des données biologiques réelles (en fonction de l'intérêt des participants, données cliniques, biopuces à ADN, spectrométrie de masse, séquences, images...). |