Le 31 mars 2026 De 14:00 à 15:30
Recherche
Conférence de David Martin
Publié le 18 mars 2026 – Mis à jour le 18 mars 2026
Complément date
Mardi 31 mars, de 14h à 15h30
Lieu(x)
Amphithéâtre Biologie Végétale (BV), Campus des Cézeaux
Nous aurons le plaisir d'accueillir David Martin, chercheur à l'Institut de Recherche Mathématique de Rennes (UMR CNRS 6225 et Centre de recherche en CardioVasculaire et Nutrition AMU) animera une conférence intitulée "Un cadre conceptuel pour révéler les espèces bactériennes rares dans les écosystèmes microbiens via une transformation guidée des données."
Résumé :
Les écosystèmes microbiens constituent une source riche de données biologiques fournissant des informations essentielles sur le fonctionnement des écosystèmes.
Inférer l’état fonctionnel d’un écosystème à partir de sa composition bactérienne, à l’aide de méthodes statistiques, demeure un défi. En effet, l’objectif des méthodes statistiques est de mettre en évidence la représentation biologique la plus fidèle de l’état fonctionnel du système.
Dans les communautés microbiennes, certaines espèces ou groupes d’espèces présentent des abondances élevées et une forte variabilité. De ce constat, nous démontrons que : (i) ces groupes sont les plus variables face à des fluctuations importantes de l’environnement (p.ex., le pH, la concentration en oxygène), et que (ii) ces groupes de bactéries semblent avoir une influence disproportionnée dans les méthodes statistiques actuelles, masquant la contribution d’espèces moins abondantes mais potentiellement informatives, pour inférer l’état fonctionnel de l’écosystème.
Nous posons donc la question suivante : est-ce que les espèces les plus fluctuantes face à une condition environnementale sont les plus structurantes (et/ou prédictives/explicatives) de l’état fonctionnel du système ?
Pour répondre à cette limitation, nous proposons une transformation des données visant à mettre en évidence les espèces bactériennes rares (moins fluctuantes) tout en minimisant l’impact des espèces dominantes (fortement fluctuantes) dans les analyses statistiques.
Cette transformation, appliquée à des données simulées, (i) conduit à une amélioration du clustering non supervisé (i.e., plus étroitement associé à l’état fonctionnel), (ii) améliore les performances des algorithmes d’apprentissage supervisé dans des contextes de grande dimension (n ≪ p), et (iii) suggère que les bactéries dominantes agissent comme variables confondantes dans la prédiction de l’état fonctionnel de l’écosystème, ou du moins masquent certaines informations biologiques pertinentes.