Colby T. Ford, notre cloud architecte


2023 / mardi, février 7th, 2023

Depuis le mois juin 2022, le « Genomic cloud » de 101 Genomes est opérationnel. A ce jour, cette biobanque bioinformatique (Bio-Biobank) est probablement déjà l’une des plus grandes bases de données génomique (WGS) de patients atteints du syndrome de Marfan dans le monde (si pas la plus grande). Et tout est prêt pour qu’elle continue à grandir! Cette ressource révolutionnaire permettra aux chercheurs en bioinformatique de mieux comprendre le syndrome de Marfan et pourra servir de pilote pour la recherche consacrée à d’autres maladies rares. Colby T. Ford est l’architecte de notre « Genomic Cloud ». Il revient sur le travail qu’il a accompli avec nous et répond aux questions de Ludivine à l’occasion de la sortie récente de son livre « Genomics in the Azure Cloud » qui a été nourri par cette expérience.

Ludivine : Hello Colby, peux-tu te présenter ?

Colby : Je m’appelle Colby T. Ford, docteur en sciences et mathématiques, et je suis scientifique spécialisé dans la génomique et cloud architecte. Je suis propriétaire de Tuple, une société de conseil partenaire de Microsoft et Databricks, spécialisée dans la création de solutions génomiques en cloud pour les organisations des sciences de la vie. En dehors de Tuple, je suis un chercheur passionné de génomique humaine et de maladies infectieuses. J’ai contribué à des sujets tels que l’oncologie, l’immunologie, la malaria, le SRAS-CoV-2, etc. Je suis formateur certifié Microsoft et l’auteur de Genomics in the Azure Cloud, publié par O’Reilly Media en 2022.

L. : Peux-tu expliquer brièvement votre rôle d’architecte du cloud pour la F101G ?

C. : Mon rôle de consultant pour F101G consistait à travailler avec les fondateurs de F101G pour comprendre les objectifs de leur plateforme génomique cloud (pour le syndrome de Marfan comme point de départ). Nous avons commencé par créer un lac de données (data lake) génomiques pour héberger toutes les données génomiques et phénotypiques des participants à l’étude. J’ai ensuite collaboré avec d’autres membres de l’équipe pour mettre en place des pipelines de données afin de collecter les génomes auprès des fournisseurs de séquençage. Nous avons également mis en place des services informatiques pour analyser et visualiser les données du data lake. Il s’agissait notamment de pipelines bioinformatiques et d’une logique permettant d’interroger de manière évolutive les données relatives aux variants, ainsi que d’une application de visualisation DICOM permettant de visualiser les données d’imagerie (radiographies et IRM) des patients. Enfin, nous avons travaillé en étroite collaboration avec un consultant en sécurité et obtenu la conformité à la norme ISO 27001:2013 pour l’ensemble de l’architecture cloud.

L. : Que penses-tu de votre collaboration avec la F101G et du projet F101G ?

C. : Le projet F101G dans son ensemble était un défi intéressant avec un objectif de recherche très important. Originaire des États-Unis, les réglementations et les règles européennes relatives aux données des patients m’étaient inconnues, j’ai donc été ravi d’en apprendre plus.

J’avais déjà travaillé sur d’autres maladies rares par le passé, mais le syndrome de Marfan n’en faisait pas partie. Je suis toujours enthousiaste à l’idée de travailler sur un nouveau projet d’utilisation biologique, une nouvelle maladie, une nouvelle cible médicamenteuse, etc. dans le cadre de différentes missions pour mes clients.

De plus, la collaboration avec F101G a été assez unique dans la mesure où nous avons pu collaborer à la fois sur le plan scientifique pour l’étude de la maladie et sur le plan technique pour la conception de l’architecture cloud. J’aime la volonté de l’équipe de F101G de transformer la recherche sur le syndrome de Marfan et sur les autres maladies rares en général, grâce à une approche innovante et orientée vers le cloud.

L. : Tu as récemment publié un livre intitulé « Genomics in the Azure Cloud », peux-tu nous en dire plus sur ce livre ?

C. : Ce livre fournit une base de considérations essentielles pour construire une architecture cloud dans le domaine de la génomique. J’ai écrit ce livre car j’ai remarqué qu’il n’existait pas beaucoup de contenu ou d’exemples pour la génomique à l’échelle de l’entreprise, bien qu’il y en ait beaucoup pour la finance, le commerce de détail et d’autres secteurs. Dans le livre, je détaille les questions relatives aux services de plateforme de données tels que les data lake et les entrepôts de données, puis nous nous intéressons aux services informatiques qui peuvent aider à automatiser et à mettre à l’échelle le traitement des données bioinformatiques. Ce livre s’adresse aux scientifiques qui veulent apprendre à mieux travailler dans Azure, ainsi qu’aux architectes du cloud qui veulent en savoir plus sur les solutions pour gérer les charges de travail en génomique.

L. : Y a-t-il quelque chose que tu aimerais ajouter ?

C. : Je crois sincèrement que le travail que nous avons accompli avec F101G sera révolutionnaire pour la recherche sur le syndrome de Marfan. En outre, l’architecture et les ressources informatiques cloud que nous avons mises en place pourront facilement s’étendre à d’autres maladies rares à l’avenir. Il sera étonnant de voir comment le cloud Azure contribue à fournir des informations évolutives dans la recherche sur les maladies au fil du temps !

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.