2004

UniProt: une base de donnée unique au monde sur les protéines

 

 

Annoncé depuis plus d'un an, le lancement d'UniProt, la nouvelle base de connaissance universelle sur les protéines, est effectif depuis le 15 décembre dernier. Né de la fusion des bases de données Swiss-Prot, TrEMBL et PIR, ce consortium permettra d'avoir accès depuis Internet à toutes les informations disponibles sur l'ensemble des protéines actuellement connues.

En octobre 2002, le National Institute of Health (NIH) annonçait qu'il financerait l'établissement d'une "base de connaissance unique et universelle" sur les protéines. Totalisant 15 millions de dollars sur trois ans, cette subvention devait permettre la création d'une base de données unique sur les protéines en associant deux groupes européens et un groupe américain.

Réunir l'existant
Deux efforts majeurs avaient en effet déjà été entrepris. En Europe, une collaboration entre l'Institut Suisse de Bioinformatiqu (ISB) et l'European Bioinformatics Institute (EBI) avait permis de créer Swiss-Prot et TrEMBL, deux bases de données complémentaires. Aux Etats-Unis, la Protein Information Resource (PIR) avait également vu le jour grâce au Georgetown University Medical Center et de la National Biomedical Research Foundation. Alors que Swiss-Prot contient des informations manuellement vérifiées et continuellement mises à jour par une équipe de scientifiques, TrEMBL utilise des méthodes sophistiquées pour annoter de manière automatique ses entrées. Quant à PIR, elle contenait certaines informations obtenues automatiquement et d'autres manuellement.

C'est ainsi qu'en réunissant les points forts de ces trois bases de données, une seule et unique ressource UniProt (United Protein Databases) est née. Cette ressource publique est aujourd'hui composée de deux parties, l'une contenant des informations enregistrées manuellement et l'autre des données obtenues automatiquement. Ces deux sections - qui comportent des protéines différentes - continuent d'être nommées Swiss-Prot et TrEMBL, respectivement. Chaque entrée d'UniProt contient entre autres des informations sur la fonction de la protéine et sa classification, ainsi que des liens sur plus de 40 autres bases de données, constituant ainsi une plaque tournante pour toutes les données disponibles sur cette protéine.

Ce nouvel outil constitue un pas en avant et va devenir très vite la "pierre angulaire" d'une grande partie des chercheurs en sciences de la vie, spécialement dans le domaine de la protéomique.

Historique
Il y a quarante ans encore, les données sur les protéines n'étaient pas systématiquement collectées à travers le monde. Aujourd'hui, ces informations sont devenues essentielles pour toute recherche biologique, en raison des fonctions assurées par ces molécules au sein des cellules et de leur rôle central dans le développement de certaines maladies. Les bases de données sur les séquences de protéines sont devenues une ressource cruciale pour les biologistes moléculaires, leur permettant d'analyser les protéomes (ensemble des protéines) d'organismes nouvellement séquencés, de faire des prédictions sur la fonction de protéines fraîchement identifiées, mais aussi de mieux en mieux comprendre comment les protéines interagissent entre elles.

Sylvie Détraz
Université de Genève
Presse Information Publications
Janvier 2004

19 janvier 2004
  2004