Campus n°101

Dossier/les superordinateurs

photo

La génomique croule sous les données

Les biologistes produisent plus de données qu’il n’y a de serveurs pour les stocker ou les traiter. Les fermes d’ordinateurs, dotées d’une grande puissance de calcul et d’une vaste mémoire, se multiplient pour faire face. Entretien avec Antoine Geissbühler, directeur du Département de radiologie et informatique médicale et président de la commission informatique de la Faculté de médecine

La Faculté de médecine se dote d’une ferme d’ordinateurs parmi les plus puissantes de l’Université de Genève. Pourquoi avez-vous besoin d’un tel supercalculateur?

Antoine Geissbühler: Cela fait quelque temps déjà que les chercheurs en médecine fondamentale et, plus généralement, en sciences de la vie se sont rendu compte qu’ils pouvaient aborder leur discipline d’une nouvelle manière. Après les études classiques in vivo (sur un organisme vivant) puis in vitro (en éprouvette dans les laboratoires), voici que l’on assiste à l’émergence des études in silico (sur ordinateur). De nombreuses activités ont déjà été développées dans cette troisième voie, qu’il s’agisse de la modélisation de processus biologiques, d’actions de molécules sur leur cible thérapeutique, etc. Toutes ces recherches demandent de plus en plus de ressources en calcul. Mais il est un aspect qui domine actuellement les sciences de la vie, c’est la profusion de données.

Comment cela?

Les laboratoires de génomiques disposent de séquenceurs dernier cri, dits d’ultra haute performance. Ces machines déchiffrent des codes génétiques à des vitesses très élevées. Elles sont capables de produire des milliards de données par seconde. On se retrouve donc avec une avalanche d’informations qu’il nous faut stocker, traiter et analyser au fur et à mesure. Du coup, les chercheurs en sciences de la vie sont confrontés à une explosion inédite de leurs besoins en puissance informatique. Il faut bien l’admettre: notre situation est critique. Sans une capacité de calcul et de mémoire exceptionnelle, nous ne pouvons pas utiliser correctement nos séquenceurs.

Est-ce que cela signifie que vous ne pouvez pas, actuellement, traiter toute l’information produite par les séquenceurs?

Dans le monde, l’accroissement de la production de données biologiques est plus rapide que la loi de Moore qui prédit avec beaucoup d’exactitude l’augmentation de la puissance des microprocesseurs. Cela signifie que si cela continue, nous allons bientôt créer plus d’informations que nous ne pouvons en traiter. Notre problème ressemble sous certains aspects à celui rencontré par le LHC, le dernier accélérateur du CERN: nous recherchons des aiguilles dans une meule de foin gigantesque. En biologie, cependant, il nous faut, en plus, garder précieusement toutes les données récoltées. En effet, nos connaissances en génomique (l’étude des gènes), en protéomique (l’étude des protéines) ou encore en transcriptomique (l’étude des ARN messagers) s’accroissent régulièrement. Certaines informations ne pourront être exploitées que plus tard, quand nous serons à même de les comprendre.

La recherche «in silico», dans le domaine des sciences de la vie, est-elle dépassée par sa propre puissance?

Disons plutôt que, d’un point de vue philosophique, l’on peut se poser des questions sur la capacité du cerveau humain à continuer à avancer intelligemment dans cet océan de données inexploitées. Le scientifique, qui est un être humain comme un autre, a tendance, face à cette débauche d’informations, à chercher ses clés sous le réverbère. Dans l’abondance, il utilisera les données qui lui semblent utiles et négligera les autres. Ce n’est pas fréquent, en science, que de disposer d’une telle manne.

C’est pourquoi il est intéressant de laisser travailler l’ordinateur à sa place…

En effet. Les superordinateurs sont capables de trouver des associations que l’on ne suspecterait pas. Mais le problème demeure. Il faut davantage de puissance de calcul et de stockage. D’où la nécessité de construire une ferme d’ordinateurs à la Faculté de médecine qui puisse répondre à ce défi, en tout cas localement.

De quelle puissance allez-vous disposer avec ce nouvel outil?

La ferme d’ordinateurs est en cours de construction. Elle devrait être terminée d’ici à la fin de l’année. Au total, nous disposerons de mille cœurs (ou processeurs) de calcul et d’une capacité de stockage de plus de 200 terabytes, ou 200 mille milliards de bytes (la plus petite unité adressable d’un ordinateur). Des performances de rêve. Les plus importantes de l’Université de Genève à l’heure actuelle. Cela dit, nous avons rencontré une contrainte inattendue. Ce n’est ni le manque de place ni l’alimentation électrique qui nous a freinés, même si ces appareils sont gourmands en énergie (jusqu’à 100 kilowatts). En réalité, c’est le dégagement de chaleur qui nous a limités. La ferme d’ordinateurs chauffe tellement que le refroidissement du bâtiment (le Centre médical universitaire) n’arrive pas à suivre. En plus, ces ordinateurs, qui ressemblent à de grosses armoires noires où une multitude de lumières clignotent, sont lourds. Nous avons beau nous diriger vers une société dématérialisée, l’informatique continue de peser. Nous avons donc dû tenir compte aussi de la résistance des planchers du bâtiment. Tout cela pour dire que l’augmentation de notre capacité informatique a finalement nécessité une réflexion sur un partenariat plus large.

A qui vous êtes-vous adressé?

Tout d’abord, la commission informatique a décidé, il y a deux ans déjà, de mieux coordonner ses efforts en la matière et de mutualiser les ressources disponibles localement. La ferme de calcul, une fois terminée, jouera le rôle de navire amiral. Elle découle en fait d’un partenariat avec Vital-IT, le centre de supercalcul basé à l’Université de Lausanne. Cette initiative commune à plusieurs institutions lémaniques, dont l’Université de Genève et l’Institut suisse de bioinformatique (lire ci-contre), offre des capacités de calcul et de stockage importantes pour les projets dans les sciences de la vie (notamment une vitesse de calcul de pointe atteignant 2 teraflops, ou mille milliards d’opérations par seconde). Notre ferme d’ordinateurs sera connectée à ce centre et jouera le rôle de poste avancé de Vital-IT à Genève. Nous pourrons donc exploiter notre puissance de calcul locale et, si nécessaire, faire appel aux ressources plus importantes installées à Lausanne. Et surtout à leur savoir-faire en la matière.

Des puces dédiées aux sciences de la vie

Le Centre informatique de haute performance Vital-IT est une collaboration entre les institutions universitaires de l’Arc lémanique. Il met des ressources de calcul à la disposition des chercheurs actifs en sciences de la vie

Des milliers de milliards de données. C’est ce que produisent chaque semaine les différents séquenceurs à haut débit fonctionnant actuellement dans les Universités de Genève et de Lausanne. Ces machines dernier cri décryptent des chaînes d’ADN à très haute vitesse. En attendant la génération suivante d’appareil déjà en phase de conception. En d’autres termes, les sciences de la vie subissent actuellement une mutation technologique impressionnante et elles produisent plus d’informations que les chercheurs ne peuvent interpréter.

Pour les aider, le centre informatique de haute performance Vital-IT met à la disposition des scientifiques, depuis 2004, des ressources de calcul, de stockage de données et, surtout, une équipe d’experts capable de conseiller, aider et guider les chercheurs dans leurs démarches. Basé sur le site de Dorigny dans le Centre intégratif de génomique et géré par l’Institut suisse de bioinformatique, Vital-IT est une collaboration entre les Universités de Genève et de Lausanne, l’Ecole polytechnique fédérale de Lausanne et le Ludwig Center for Cancer Research.

«La particularité de notre centre est qu’il est dédié exclusivement à la recherche dans les sciences de la vie, précise Ioannis Xenarios, responsable de Vital-IT. Nous proposons, pour l’instant, environ 1000 cœurs de calculs (ou processeurs) et pas moins d’un demi-million de milliards de bytes de volume de stockage sur nos serveurs. Un byte est la plus petite unité adressable d’un ordinateur et est composée de huit «1» et «0». Mais ces ressources augmentent d’année en année.»

Nombreux domaines

Les domaines des sciences de la vie faisant appel à l’informatique de haute performance sont nombreux. Les compétences de Vital-IT sont exploitées par des équipes actives dans la génétique, la génomique, la métagénomique, la génétique des populations, la protéomique, la phylogénie, la biologie structurale ou encore l’évolution (la liste n’est pas exhaustive). Certains réalisent des simulations de processus biologiques ou étudient le comportement de colonies de fourmis, d’autres analysent le contenu génétique du chromosome 21 ou le génome du poulet, d’autres encore traitent des centaines de milliers d’images de protéines fluorescentes évoluant dans des cellules.

«Vital-IT possède 500 bases de données différentes provenant de chercheurs du monde entier, poursuit Ioannis Xenarios. Il peut s’agir du génome de n’importe quel organisme vivant, de l’expression des gènes ou de la présence de protéines dans un tissu tumoral humain. Les possibilités sont infinies.»

Le défi du stockage

Le grand défi actuel de la biologie est le stockage. C’est pourquoi Vital-IT a adopté une approche développée notamment par les physiciens et ingénieurs du CERN qui ont à traiter depuis longtemps des avalanches de données fournies par les détecteurs de particules: le HSM, ou Hierarchical Storage Management.

«Il s’agit simplement de ranger les informations en fonction de leur utilité immédiate, explique Ioannis Xenarios. Les informations les plus importantes aux yeux du chercheur sont stockées sur les disques durs, là où elles sont le plus rapidement disponibles. Celles dont on ne sait pas quoi faire dans l’immédiat mais qui pourraient se révéler intéressantes à l’avenir, sont enregistrées sur des bandes magnétiques.»

L’autre point fort de Vital-IT est l’expertise. Celle des membres de l’équipe, mais aussi celle d’un vaste réseau de compétences en Suisse et à l’étranger. «Nous disposons de près de 1000 algorithmes développés ces dernières années pour réaliser des simulations ou du traitement de données dans les différentes disciplines des sciences de la vie, souligne Ioannis Xenarios. Et nous suivons l’évolution de chacun de ces logiciels.»

www.vital-it.ch

www.isb-sib.ch