Ingénieur scientifique contractuel. Optimisation d'un moteur de recherche sur des données génomiques à l'échelle du petaoctet

Type de contrat : CDD

Niveau de diplôme exigé : Bac + 5 ou équivalent

Fonction : Ingénieur scientifique contractuel

Niveau d'expérience souhaité : Jeune diplômé

A propos du centre ou de la direction fonctionnelle

Le centre Inria de l'Université de Rennes est l'un des huit centres d’Inria et compte plus d'une trentaine d’équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d’innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l’enseignement supérieur, laboratoires d'excellence, institut de recherche technologique

Contexte et atouts du poste

Ce poste d’ingénieur s’inscrit dans le contexte de projets d’indexation de données génomiques. Le poste sera basé chez Inria Rennes, dans l’équipe GenScale. Le travail se fera également en collaboration avec le “Wellcome Sanger Institute” à Cambridge, Rayan Chikhi et Téo Lemane, principaux acteurs du projet.

Un tissu de collaborateurs extérieurs - CEA, institut Pasteur, Elixir, et le MIO (Mediterranean Institute of Oceanography) - apportera son expertise tant au niveau algorithmique qu’applicatif.

Mission confiée

Les données génomiques permettent des avancées cruciales dans les domaines de la médecine, de l’écologie, de la surveillance des océans et de l’agronomie. Récemment, dans le cadre des projets “Index the planet” et OmicFinder nous avons pour la première fois offert la possibilité d’interroger l’ensemble de ces données (pétaoctets de séquences). Ainsi nous avons proposé logan-search, premier moteur de recherche sur les 50 Pétabases de données de séquençage contenues dans la banque SRA (en décembre 2023) et assemblées dans le cadre du projet Logan [1].

La structure d’index que nous avons proposée dans le cadre de ce projet repose sur l’utilisation des filtres de bloom. Nous avons appliqué un outil développé au sein de l’équipe GenScale, appelé kmindex [2], reposant lui-même sur l’outil kmtricks[3].

Il est maintenant nécessaire de capitaliser sur cette avancée majeure. C’est le sens des missions qui seront confiées à la personne recrutée.

Principales activités

1/ Lors de ce travail d’indexation du projet logan-search de nombreux scripts ont été développés, ceci afin d’adapter les paramètres et de regrouper les fichiers à indexer selon divers critères (technologiques, biologiques et quantitatifs). L’un des objectifs majeurs du poste va être de sécuriser, améliorer, automatiser, valider et rendre publics l’intégralité de ces scripts.

2/ Les banques de données ne sont pas statiques. De nouvelles données de séquençage sont quotidiennement ajoutées. Ainsi, un autre objectif majeur du poste sera de proposer des solutions efficaces pour la mise à jour des index.

3/ Actuellement les index créés ne sont pas compressés. En lien avec un travail de thèse en cours au sein de l’équipe GenScale, il conviendra également de prendre en compte les contraintes algorithmiques impliquées par les stratégies de compressions en développement.

Refe

Références bibliographiques :

[1] Chikhi, Rayan, et al. “Logan: Planetary-Scale Genome Assembly Surveys Life’s Diversity.” bioRxiv (2024): 2024-07.
[2] Lemane, Téo, et al. “Indexing and real-time user-friendly queries in terabyte-sized complex genomic datasets with kmindex and ORA.” Nature Computational Science 4.2 (2024): 104-109.
[3] Lemane, Téo, et al. “Kmtricks: efficient and flexible construction of bloom filters for large sequencing data collections.” Bioinformatics Advances 2.1 (2022): vbac029.

 

 

Compétences

Compétences techniques et niveau requis :

  • expérience significative en programmation (C++, python et bash)
  • connaissances en développement de logiciel
  • présentations, redaction et lecture en anglais

Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
  • Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
  • Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
  • Accès à la formation professionnelle
  • Sécurité sociale

Rémunération

Selon expérience