Dans la cuisine du projet

- ou les coulisses des "Big Data"

Béatrice Joyeux-Prunel & Nicola Carboni

Une fois la stratégie et son objet bien définis, comment fait-on ?

Le monde contemporain de la recherche vit de ce qu’on appelle des appels à projets, ouverts par d’importantes agences de financement de la recherche – agences européennes et nationales.

Notre projet sur la mondialisation par l’image a d’abord intéressé l’Europe : l’agence Erasmus + a soutenu entre l’automne 2019 et l'automne 2022 trois années d’enseignement, de recherche et de création sur les images qui ont fait l’Europe à l’Ecole normale supérieure de Paris. Le projet Visual Contagions a convaincu plus récemment le fond national suisse pour la recherche, le FNS, qui porte désormais financièrement, avec l’université de Genève, la plus grosse part du projet.

Visual Contagions, c’est une douzaine de personnes, équipe renforcée régulièrement par des étudiants.e.s formidables répartis entre l’université de Genève, les Beaux-Arts de Paris, la Haute Ecole d’Art et de Design de Genève et l’Ecole normale supérieure de Paris.

En y ajoutant les contributeurs et contributrices au projet Artl@s, la ruche du projet Visual Contagions monte facilement à la centaine de personnes.

--

L'équipe s’est activée autour de la construction d’un corpus de millions d’images, de la mise en place d’infrastructures robustes, l’établissement de méthodologies et de chaînes de traitement pertinentes, jusqu’à l’interprétation des résultats de la recherche, qu’il faut sans cesse confronter à d’autres échelles d’analyse et d’autres types de sources historiques. L’équipe continuera de travailler encore plusieurs années, tant le projet est gros.

L’idéologie du numérique et l’esthétique du laboratoire encouragent à présenter un projet de recherche scientifique sous ses aspects les plus propres. Mais c’est après coup, seulement, qu’une méthodologie ressemble à une recette simple.

Car de ses erreurs on apprend le plus, autant sur son objet de recherche que sur ses outils de travail et leurs effets.

Nous avons donc pris le parti de présenter nos difficultés, nos essais et nos échecs ; pas une paillasse immaculée bien rangée comme le voudrait la bienséance. Passons en revue les coins les plus sales de la cuisine du projet Visual Contagions.

Les protocoles de restitution de la recherche scientifique sont trompeurs. Ce qui règne, c’est le biais, l’incomplétude du corpus, la difficulté à tout décrire et à rendre compte de ce qui se passe.

Ingrédients

Aux temps du Big Data et de la science des données, force est de constater qu’il n’y a pas de données transparentes, et que rien n’est donné pleinement. Il n’est pas certain que les sciences humaines soient plus concernées que leurs sœurs dites “sciences dures”.

Entre la théorie et le réel, la constitution d’un corpus peut être beaucoup plus difficile que prévu. La première tâche de l’équipe était de réunir, à partir de bibliothèques et d’archives numériques, le plus possible de numérisations de périodiques illustrés publiés depuis les années 1880, et d’images d’œuvres d’art créées à la même époque ; à l’échelle la plus mondiale possible. Au bout d’un an de travail, les personnes travaillant sur la collecte ont réuni plus de 603 966 éléments uniques, de la série d’un périodique hebdomadaire sur 50 ans au numéro isolé d’une revue. Un peu plus de deux mille sept cents titres de périodiques ont pu être rassemblés  publiés dans deux mille quatre cents villes réparties dans cent vingt pays. Du côté des catalogues d’exposition, l’équipe d’Artl@s a réuni à ce jour plus de 5500 expositions, plus de 3000 catalogues et parmi ceux qui pouvaient être encodés en banque de données, à peu près 120 000 oeuvres exposées des années 1860 aux années 1970.

 
 

--

Répartition géographique des sources réunies par Visual Contagions en avril 2022. Nombre total de pays : 121.

 

 

C’est peu ; mais c’est énorme. Toujours plus gros que ce que peut réunir et rassembler un chercheur individuel.

Pour les images, une partie des ressources moissonnées n’était pas desservies au format qui nous permet de ne pas avoir à les restocker (le standard IIIF – International Image Interoperability Framework). L’équipe a donc dû transformer ces images au standard en question, ce qui requerrait l’enregistrement de plus de 15’000 documents en formats JPEG et PDF au sein de l’infrastructure de l’université de Genève ; soit près de 170 GigaBytes de données visuelles.

On n’a rien sans infrastructure ; pour étudier les images autant que pour les faire circuler. On comprend qu’aucune étude panoramique de la mondialisation par l’image n’ait encore été tentée.

 

Vers la suite :

Les biais de notre corpus

Vers ce qui précède :

Images d'art et réseaux sociaux

Retour au chapitre :

II. Les promesses de la machine