Cisreg course 2015 - Personal work

Structure attendue pour le rapport
Sujet 1: Analyse de pics de ChIP-seq
- Analyse des motifs sous les pics
- Annotation des pics
Sujet 2: Analyse phylogénique des motifs bactériens
- Détection de sites et gènes-cibles dans le génome de référence
- Détection d’empreintes phylogénétiques

Le travail personnel peut être réalisé soit en binôme soit en solo.

Chaque binôme (ou solo) choisira l’un des deux sujets proposés, soit analyse de pics de ChIP-seq humains, soit analyse phylogénique des motifs bactériens.

Structure attendue pour le rapport

Le rapport inclura 1. Une introduction sommaire résumant les caractéristiques du facteur transcriptionnel choisi (domaine de liaison à l’ADN, fonction régulatrice, …). 2. Une section “Buts du travail” indiquant le but général de l’analyse, et les objectifs particuliers (correspondant par exemple aux différentes tâches décrites ci-dessous). 3. Une section résultats et discussion. 4. Une brève section “Conclusion et perspectives”. 5. Une section Matériel et méthodes fournissant une description synthétique et lisible des choix méthodologiques (outils et paramètres). 6. Une annexe fournissant la liste complète des paramètres utilisés pour chaque outil. Cette annexe devrait permettre à un lecteur de reproduire vos analyses. Si un outil comporte un grand nombre d’options, n’indiquez que celles que vous avez modifiées par rapport aux valeurs par défaut.

Le rapport ne doit pas excéder 5 pages, sans compter les annexes.

Sujet 1: Analyse de pics de ChIP-seq

Chaque binôme identifiera, sur le site du projet ENCODE https://www.encodeproject.org/, un facteur transcriptionnel d’intérêt analysé dans la lignée K562. Le but du projet sera de mobiliser les différents outils abordés durant les cours, afin d’extraire le plus d’information possible à partir des pics de liaison de ce facteur transcriptionnel.

Nous vous suggérons une série de questions pour lesquelles vous devrez identifier les approches appropriées.

Analyse des motifs sous les pics

Faites tourner une ou plusieurs approches de découverte de motifs (par exemple RSAT peak-motifs, MEME-chip) sur les pics (format BED).
Récupérez l’ensemble des motifs découverts par les différentes approches, et faites tourner matrix-clustering pour les comparer.
Identifiez les facteurs putatifs associés à ces motifs et évaluez leur pertinence biologique en tenant compte de la fonction connnue de votre facteur d’intérêt.

Annotation des pics

Analysez la répartition génomique de ce facteur avec CEAS.
Analysez la pertinence biologique à l’aide du logiciel GREAT.
Comparez les pics obtenus pour le facteur transcriptionnel d’intérêt avec ceux d’une marque épigénétique comme H3K4me3 ou H3K27ac.

Sujet 2: Analyse phylogénique des motifs bactériens

Chaque binôme choisira un facteur transcriptionnel dans la base de données RegulonDB, et combinera des approches génomiques (scanning des promoteurs chez Escherichia coli) et de génomique comparative (détection d’empreintes phylogénétiques) pour analyser les cibles de ce facteur transcriptionnel.

Détection de sites et gènes-cibles dans le génome de référence

Connectez-vous à RegulonDB, sélectionez un facteur transcriptionnel d’intérêt qui comporte un nombre raisonnable de gènes-cibles (entre 5 et 20) et récupérez les informations utiles pour ce facteur: description de la fonction, gènes-cibles, sites de liaison, matrice, consensus, …
Avec l’outil retrieve-seq, récupérez l’ensemble des promoteurs du génome de référence (Escherichia coli souche K12 MG1655).
Scannez l’ensemble de ces promoteurs pour prédire les sites de liaison du facteur, en utilisant le consensus dégénéré du motif annoté dans RegulonDB.
Scannez l’ensemble de ces promoteurs pour prédire les sites de liaison du facteur, en utilisant la matrice position-poids annotée dans RegulonDB.
Utilisez l’outil infer-operons pour prédire les opérons pour tous les gènes de l’organisme de référence.
Comparez les gènes-cibles prédits par ces deux approches avec la liste des gènes-cibles annotés.

Détection d’empreintes phylogénétiques

La deuxième partie consistera à découvrir des empreintes phylogénétiques pour chacun des gènes-cibles annotés dans RegulonDB, en évaluant les résultats sur base des questions suivantes.

L’approche footprint-discovery retourne-t-elle des motifs significatifs pour ce gène-cible ?
Si oui, ces motifs sont-ils similaires au motif annoté dans RegulonDB ?
Découvre-t-on un ou des motifs additionnels, et, dans l’affirmative, quels seraient les facteurs associés ?