Indexation par des services externes

L'utilisation d'une nouvelle technologie pour la troisième génération de l'Archive ouverte implique que de nombreux outils développés pour la génération précédente ne sont plus utilisables. C'est le compromis inévitable qu'il faut faire pour pouvoir proposer les fonctionnalités les plus récentes, notamment une version mobile.

Google Scholar

Tout le monde le sait, il est impératif de se faire indexer par Google et par son clone académique Google Scholar pour que les publications des chercheurs et chercheuses de l'Université aient le maximum de visibilité et d'impact.

Avec ses 100'000+ documents, l'Archive ouverte entre dans la cour des grands. C'est magnifique, mais en même temps compliqué, car des problèmes de performance qui n'existent pas à des échelles plus petites surgissent. Il n'est ainsi plus possible de laisser les moteurs de recherche (les spiders de Google ne sont de loin pas les seuls à parcourir les pages du web) interroger l'Archive via l'interface prévue pour les humains. Le rythme des requêtes des moteurs est en effet beaucoup trop élevé (plusieurs dizaines, voire centaines par minute) pour une application normale. Dès lors, il faut mettre en place des solutions alternatives, à savoir créer des accès et des vues particulières, statiques, pour les moteurs de recherche.

Des instructions pour ces moteurs sont listées dans un fichier intitulé robots.txt, où ces derniers apprennent les sections du site qu'ils ne doivent pas visiter, mais aussi la porte d'entrée qui leur est dédiée. Il s'agit d'un autre fichier, le sitemap, qui liste des pages listant elles-mêmes des blocs de 500 notices de l'Archive. Cette manière de faire permet à un spider de découvrir, et d'indexer, rapidement les pages que nous avons sélectionnées, sans entrer dans des boucles infinies.

Afin d'améliorer encore les performances, les pages finales des notices de l'Archive ouverte sont conservées dans un cache en mémoire pour ne pas devoir être régénérées à chaque demande. Lorsqu'un contenu est modifié, la page en cache est cependant supprimée pour éviter de propager des informations qui ne sont plus à jour.

Swisscovery

Il est important que les publications de l'Archive ouverte figurent également dans Swisscovery, le catalogue des bibliothèques universitaires suisses, mais pour autant qu'une synchronisation automatique puisse être réalisée. C'est désormais chose faite.

Les premières notices de l'Archive ont été importées dans Swisscovery il y a déjà plusieurs mois, mais des problèmes de cohérence et de présentation des informations ont été observés. En procédant étape par étape, autant du côté de Swisscovery que de l'Archive ouverte, il a été possible de redéfinir les documents qui sont transférés (toutes les publications possédant du texte intégral et qui est disponible en accès public ou en accès restreint à la communauté UNIGE), ainsi que les libellés et la présentation des informations.

Les deux dernières tâches a exécuter ont été la suppression des notices précédemment importées et la réimportation complète des données. Cette dernière opération n'est pas anodine, car elle se déroule sur une durée de plus de 6 heures.

6 novembre 2023

Actualités 2023 ->

A propos

Indexation par des services externes

Google Scholar

Swisscovery