V1 - First Version for HiSeq sequences
1. Contexte scientifique
Dans le cadre du projet AntiSelfish (financement labex Ecofect), nous avions l'opportunité de commencer le développement d'un workflow d'analyse de données métagénomique WGS Illumina. L'objectif de ce projet est d'étudier la propagation des gènes de résistance aux antibiotiques dans les communautés bactériennes intestinales suite à un traitement aux antibiotiques (Fluoroquinolones et Rifampicine). Pour cela nous avons besoin d'un assemblage de bonne qualité car nous nous intéressons au contexte génomique des gènes de résistance pour connaitre le loci et dans quelle espèce il est présent et dans combien d'exemplaire si possible.
2. Description de la demande
Cette première version du workflow nettoie les données adaptateurs et vérifie leur qualité, enlève les reads humains (hôte des données actuelles), effectue un assemblage, une annotation automatique des gènes présents sur les contigs et compte le nombre de reads mappant chacun des gènes. En sortie nous devons obtenir une matrice de comptage globale pour tous les échantillons et tous les gènes (dont on a enlevé la redondance). Il faut pouvoir revenir à l'information initiale au niveau de chaque gène regroupé dans le cluster si besoin ainsi que de quel contig il provient. Parallèlement à cette approche fonctionnelle, il convient de s'intéresser aux contigs proprement dit : c'est à dire de la annoter taxonomiquement, de les clusteriser sous forme de bins afin de pouvoir ensuite questionner la dynamique des gènes de résistances aux antibiotique dans des génomes les plus propres possibles.
Dans un deuxième temps une annotation fine des gènes de résistance aux antibiotiques et du mobilome (IS, gènes de phage etc) sera effectuée.
3. Organisation
3.1 Planning
Phase 1 : Janvier à Juin 2019 : le workflow devra être capable de nettoyer les reads, de vérifier leur qualité, d'enlever les reads de l'hôte humain, d'assembler, d'annoter les gènes, d'effectuer les comptages des reads sur les gènes puis d'établir la matrice de comptage globale après clustering des gènes redondants.
Phase 2 : Juin 2019 à Septembre 2019 : le workflow sera capable d'affilier taxonomiquement les contigs et de les clusteriser en bins cohérents lorsque c'est possible. Cf Milestone v1.1
Phase 3 : De Septembre à Décembre 2019 : mise en place de l'annotation des gènes de résistance, des SNPs et du mobilome.
En parallèle et si possible packaging de la partie précédente (jusqu'à la phase 2 inclue) correspondant à une utilisation plus généraliste du workflow.
3.2 Personnes
Implémentation Joanna.
Tests du traitement et revue de code : Céline.
Revue de code et beta tests en fin de projet : Claire
3.3 Ressources matériels
Aucun besoin spécifiques
3.4 Ressources financières
Projet ANTISELFISH
4. Échéancier
Phase 1 : de janvier à fin juin 2019 : le workflow est opérationnel jusqu'à l'obtention de la table d'abondance des gènes. Un poster à JOBIM présentera cette partie.
Phase 2 : de juillet à septembre 2019 : affiliation taxonomique et binning des contigs.
Phase 3a : Mise en place de l'annotation fine des contigs (gènes de résistance, mobilome, SNPs sur les reads).
Phase 3b (si possible) : Packaging et containerisation de la partie généraliste du workflow (jusqu'à la phase 2 inclue).
5. Critères de validations
Le workflow doit tourner sur le sous-ensemble de données de tests disponible (test
) et doit permettre d'analyser les données séquencées dans le cadre du projet Antiselfish.
6. Bilan et modifications du planning et des ressources
6.1 Mise à jour du 10 octobre 2019 :
Etant donné la venue du biologiste en novembre, nous avons décidé de mettre en pause le développement du pipeline pour se concentrer sur l'annotation en mode exploratoire (sans automatisation).
Voici la nouvelle planification du développement du pipeline :
La phase 1 s'est terminée dans les temps. Le poster a été présenté à JOBIM. Mis en place d'un premier container singularity jusqu'à la table d'abondance des gènes. Tag de la version 1.0 du pipeline et migration sur la branche master.
De Juillet à Décembre 2019 : validation de notre approche d'affiliation taxonomique des contigs, affinage des seuils et mise en place du binning des contigs. Si possible containerisation du workflow jusqu'à ces étapes.
Pas de modification des ressources affectées au projet.
6.2 Mise à jour du 18 décembre 2019 :
Pour pouvoir se concentrer sur l'annotation des gènes de résistance et du mobilome en mode exploratoire, ainsi que sur la comparaison des prédicteurs de gènes (Prokka, Prodigal, fragGeneScan) la mise en place du binning des contigs a été mise en pause.
Tag de la version 1.1 du pipeline et migration vers la branche master. Revue des issues restantes et création de la Milestone V1.2 avec liens vers les issues correspondantes.
Voici la nouvelle planification du développement du pipeline :
2020 : De manière prioritaire : Terminer l'exploration des comportements des différents prédicteurs de gènes, mise en place du binning des contigs, finalisation de la partie standard du workflow et amélioration de ses performances. Dans l'idéal, devrait être achevé au printemps 2020. Joanna termine son contrat d'un an sur le projet. Claire, Céline et Joanna (pour la partie généraliste) pourront participer à la suite du développement. Par la suite Claire s'intéressera davantage à la partie annotation plus spécifique et à son automatisation.