Identifier les données de recherche

Les données de recherche sont définies par l’OCDE comme des « enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche » (p.18, 2007).

Les données de recherche peuvent être produites dans bien des formats et en utilisant un large éventail de méthodologies. Il est finalement important de noter que la quasi-totalité des disciplines et domaines de recherche produisent des données de recherche : des mathématiques, à l’anthropologie, en passant par l’informatique, les humanités ou encore le droit.
Exemples de données de recherche :

  • Documents (texte, word), tableurs, slides
  • Photographies, films
  • Sondages, transcriptions, tables de correspondance
  • Échantillons, séquences génomiques
  • Cahiers de laboratoire, carnets de terrain
  • Enregistrements audio ou vidéo
  • Code informatique, algorithmes, modèles, scripts
  • Méthodologies et workflows
  • Bibliographies

Face à cette variété, il est parfois difficile d’identifier précisément ses données de recherche. Toutefois, la pyramide ci-dessous proposée par Andorfer (2015) facilite la compréhension de la place des données de recherche dans un processus de recherche scientifique, notamment dans le domaine des sciences sociales et humaines :
pyramide.jpg

Typologie

Voici différentes typologies pouvant servir de guides pour identifier sans en omettre les données de recherche d’un projet.

Par format : numériques versus physiques

Les données peuvent prendre une forme physique, analogique ou matérielle :

  • Données physiques : manuscrits, carnets de terrain, etc.
  • Données nativement analogiques : données produites par des instruments de laboratoire, questionnaires en ligne, images, etc.
  • Données analogiques non-natives : documents numérisés, photos d’œuvres d’art, etc. Étant donné l’omniprésence de la technologie et du numérique dans la sphère du travail et de la recherche, nos pensées se tournent assez automatiquement vers le format numérique quand on parle de données.
Par méthode de production

L’Université de Bristol dénombre cinq catégories de données de recherches, en se basant sur leur méthode de production et leur reproductibilité:

  • Observationnelles

Les données observationnelles sont capturées en temps réel dans un contexte bien spécifique. Elles sont généralement uniques et donc irremplaçables.

Exemples : neuro-imagerie, sondages, photographies astronomiques

  • Expérimentales :

Ces données sont produites avec des instruments de laboratoire ou des méthodes standardisées. Elles sont potentiellement reproductibles, moyennement un investissement conséquent de temps et d’argent.

Exemples : séquençage génomique, chromatogrammes

  • Simulées/modélisées :

Données produites par des modèles expérimentaux, qui sont souvent plus importants que les données elles-mêmes.

Exemples : modèles économiques ou climatologiques

  • Dérivées/compilées :

Ces données sont le produit d’un travail effectué depuis des données primaires.

Exemples : data mining, bases de données compilées.

Exemple concret : Base de données UNSCdeb8

  • De références :

Ces données prennent la forme de corpus, généralement publiés et édités, de contenus faisant référence dans un domaine.

Exemples : bases de données de gènes, collections d'archives, bases de données d'images anciennes

Le pôle de l’Information Scientifique et Technique de l’École des Ponts ParisTech  intègre également dans cette catégorisation le code informatique qu’il considère comme une catégorie à part entière.