Les biais de notre corpus

Béatrice Joyeux-Prunel & Nicola Carboni

Il ne suffit pas d’avoir réuni un corpus mondial pour être content de ces « données ». Ce qui nous est « donné » n’est en effet jamais disponible par hasard.

Géopolitique des corpus numériques

 

Premier biais, celui des catalogues d’expositions que nous avons pu récupérer d’une année sur l’autre. La plupart sont francophones – parce que l’équipe est francophone ;

et parce que les bibliothèques où nous trouvons nos catalogues sont celles qui nous sont les plus accessibles. Nous travaillons avec des partenaires du Brésil, du Japon, de Croatie, d’Allemagne, des États-Unis et d’Espagne pour combler nos manques ; il faudra du temps pour y parvenir – la numérisation des documents nous y aidera.

 

Deuxième biais, la géographie des périodiques illustrés disponibles sur le web reflète les déséquilibres de la géopolitique mondiale de la culture.

--

Les sources de périodiques illustrés explorées par le projet Visual Contagions, au mois d'avril 2022. Part des 20 premiers pays représentés (nombre total de pays: 121).

 

Certains pays disposent des moyens, des techniques, des compétences et de la volonté politique nécessaires pour numériser leur patrimoine imprimé. Ce n’est pas le cas pour d’autres. Ainsi, l’équipe de Visual Contagions a trouvé plus vite et plus tôt les sources mises en ligne depuis l’Europe et l’Amérique du Nord. En mai 2021, la grosse majorité des sources réunies était nord-américaine : les sites les plus accessibles sont étasuniens. Ce déséquilibre a été modifié en faveur du monde francophone avec l’insertion dans le corpus, début 2022, d’une importante collection de documents numérisés par la bibliothèque nationale de France. Le corpus, quoique désormais majoritairement français, s’est aussi étendu à cette occasion aux anciens pays de l’empire colonial français, de l’Afrique du Nord et de l’Ouest au Vietnam.

--

Ci-dessus : Cartographie interactive des sources analysées par le projet Visual Contagions (au mois de mai 2022).

--

La surreprésentation de l’Amérique du Nord et de l’Europe franco-allemande a pour corollaire un manque criant de sources issues d’Amérique latine, d’Afrique et d’Asie, mais aussi d’Europe du Sud, du Nord et de l’Est. Nous travaillons à combler ces manques, même il est quasi certain que les quantités trouvées ne seront jamais complètes.

Malgré ces déséquilibres, les sources actuellement réunies sont réparties dans le monde entier, et pas en quantités négligeables. Ce qui peut laisser espérer repérer des images qui auraient tourné entre les pays, les cultures et les époques.

Même si nous ne pourrons jamais donner de réponse définitive à la question : « quelles sont les images qui ont le plus circulé de par le monde ? », nous avons les moyens d’en repérer qui ont beaucoup circulé. Il nous faut d’avance renoncer à des résultats exhaustifs ou définitifs ; bien qu’il soit très clair que la représentativité de nos résultats sera toujours plus importante que celle des études à l’ancienne.

Nous n’avons pas souvent le droit

Autre biais qui structurera toujours nos données, le droit. La répartition chronologique de nos documents reflète les conditions juridiques de leur disponibilité.

Car ce n’est pas parce qu’une institution dispose de toutes les collections de Paris Match qu’elle aura le droit de les mettre en ligne. Ni parce que Der Spiegel met toutes ses couvertures en ligne, que nous avons le droit de les exploiter.

 

La plus grande part des sources accessibles actuellement au projet concerne la période d’avant 1950 (même si certaines images parues avant 1950 sont encore sous droit d’auteur). Pour cette période, le droit sur les images n’impose pas de respecter la volonté d’éventuels ayant-droit, ni de verser des droits sur la reproduction d’images à leurs « propriétaires ».

Ce qui nous sauve : le droit à l’analyse de données du web.

Il est permis d’aller chercher sur certains sites des images, des revues ou des affiches et de les étudier, sans les rediffuser. Nous travaillons donc, pour la période postérieure aux années 1950 surtout, « en privé » sur la mondialisation par l’image. Quitte à publier plus tard les résultats qui apparaîtront, en contactant les ayants-droits des images que nous voulons montrer à notre public.

--

Répartition chronologique de nos documents

--

Où et quand ? Une information parfois incertaine ou manquante

Dernier biais structurant : la manière dont nos sources sont décrites.

 

 
--
Libération : organe du Directoire des forces de libération françaises. [Zone sud] - août 1941. Sans éditeur et lieu de publication. Source: Gallica
--
 

Nos sources sont parfois mal décrites. Nous n’avons pas toujours une idée claire du lieu et date où certains documents et leurs images ont été publiés, vus ou créés – en particulier pour les œuvres d’art et les affiches.

Quelques corpus sont constitués de manière la plus exhaustive possible, heureusement.

Ainsi pour les revues mises à disposition par la base Gallica de la Bibliothèque nationale de France, ou pour la collection de revues d’avant-garde de Princeton University. D’autres corpus, comme les images artistiques disponibles dans Wikidata, sont décrits de manière incomplète.

Ainsi, les problèmes liés aux informations des sources ne peuvent être définis uniquement en termes d'exhaustivité.

L'incomplétude des informations de date et de lieu peut être une effet de l'histoire, un élément à prendre en compte dans notre analyse.

 

Tout n'a pas une date, et toutes les dates ne sont pas précises.

L'historicité des sources implique une incertitude quant à la date des publications, qui est inversement proportionnelle à la circulation et au public potentiel de la source documentée. Une petite publication artistique créée à Berkeley à la fin des années 1960 peut être extrêmement importante pour suivre les changements visuels au sein du mouvement de la contre-culture, mais peut manquer de toutes les informations bibliographiques classiques. On peut en dire autant des publications clandestines, distribuées dans un pays sans indiquer d'adresse officielle, pour des raisons évidentes. C'est le cas de nombreux produits éditoriaux publiés en Europe pendant la Seconde Guerre mondiale.

S'attaquer à un corpus mondial, enfin, c'est se confronter à des langues et alphabets très variés.

Londres, Londra, 倫敦 ou Londres ?

La question des langues n'affecte pas que notre compréhension des sources; elle a des conséquences sur la manière dont nous les décrivons.

 

La possibilité de comprendre et de documenter ces nombreuses sources n'est possible que grâce à une équipe polyglotte, outre l'aide des applications de traduction existantes.

Лондон ? Llundain ?


Trouvailles au hasard, conventions inespérées avec de nouvelles institutions ou des magazines illustrés encore en activité, aide et propositions de collègues de pays étrangers (en particulier pour la Chine et le Japon), campagnes de numérisation lorsque la chose est possible… Visual Contagions est un projet de longue haleine, qui donnera d’autant plus de résultats qu’il aura impliqué des collaborations internationales nombreuses.

En attendant, l’équipe a réuni des documents répartis dans tous les continents.

C’est un plutôt bon départ pour pister la circulation mondiale des images.


Vers la suite :

Quand le four n'est pas assez grand...

Ce qui précède :

Dans la cuisine du projet

Retour au chapitre :

II. Les promesses de la machine