Mon institution, la Bibliothèque de Genève, vient de mettre en ligne une partie de La Tribune de Genève. C’est le premier pas vers une offre plus étoffée. Convertir des millions de pages sous forme numérique est une nécessité parce que c’est ainsi que l’on accède désormais aux archives des journaux, mais cette opération est tout sauf anodine.

En 1918, la grippe espagnole impose des mesures proches de celles que nous connaissons aujourd’hui. Un renseignement parmi d’autres que nous fournit la presse ancienne numérisée (Tribune de Genève 18.10.1918).

La « magie » du numérique et de son accès, le nombre quasiment illimité de pages à disposition, font facilement perdre de vue que le processus pour produire ces documents est d’abord matériel. Comme on finit par oublier que le pain acheté au supermarché, banal par sa familiarité et son abondance, est le résultat d’une complexe chaîne de production qui débute par des semailles.

Il s’agit d’abord d’une prouesse logistique: il faut vérifier les collections des bibliothèques, contrôler qu’elles soient complètes et aptes à être numérisées. On remercie au passage la chaîne de collègues qui, pendant des générations, les ont constituées. La continuité historique d’une mission de collecte donne toute sa valeur aux institutions patrimoniales.

Ensuite il faut envisager le processus de numérisation: l’externalisation est généralement la solution la plus avantageuse, car un tel volume de pages ne peut être traité que par des entreprises spécialisées. Cela implique de pouvoir déplacer de très grandes quantités de volumes.

Le transport doit être préparé, et nécessite un constat d’état précis. Il s’agit en effet d’ensembles patrimoniaux rares: il n’existe en général que 2 ou 3 collections complètes. Des tonnes de papier sont ainsi massivement déplacées, alors qu’auparavant les publications ne quittaient leur lieu de dépôt que sporadiquement, pour être consultées en salle de lecture, sans sortir du bâtiment.

Après la numérisation, les volumes reviennent et il faut les replacer en rayon.

Une gamme de traitements

Une fois converties en pixels, les pages des journaux subissent encore plusieurs transformations.

Il faut s’assurer de la qualité de la numérisation, faire des vérifications à l’écran, afin de s’assurer de la complétude de l’information.

Ensuite, les données obtenues doivent être traitées. On parle alors de structuration ou de segmentation. C’est un peu une sorte de « reverse engineering »: à partir d’une image qui n’est encore qu’un amas de pixels, on reconstruit la logique du journal: on identifie le bandeau de titre, les colonnes, les blocs formant un article, une illustration, une publicité… et bien sûr le texte lui-même. A l’heure actuelle ces traitements sont semi-automatiques, c’est-à-dire que des armées d’opérateur.trice.s doivent vérifier patiemment les métadonnées de toutes les pages scannées.

Enfin, toutes ces informations, données et métadonnées, sont chargées sur un serveur, puis indexées, ce qui permettra de les offrir au public, ou à de nouvelles exploitations informatiques grâce au « data mining ».

Le poids du virtuel

Le torrent numérique qui défile sur nos écrans nous le fait souvent oublier: un serveur est fragile; les données peuvent s’altérer. Saura-t-on les conserver? L’archivage numérique est désormais un thème bien étudié et des normes existent depuis de nombreuses années. Elles sont cependant exigeantes et coûteuses, difficiles à respecter totalement. Est-ce que cela met en cause la pérennité de ces réalisations numériques?

Pas nécessairement. Osons une comparaison avec le papier. Il y a cent ou deux cents ans, les locaux des bibliothèques n’avaient pas de climatisation contrôlée, n’étaient pas comme aujourd’hui protégés contre les dégâts d’eau, les incendies ou encore le vol. Pour autant, une bonne partie de notre patrimoine nous est parvenu, grâce à des mesures simples : la reliure protège les feuilles et évite qu’elles ne se dispersent et se perdent. Cela peut faire sourire, mais dans l’ensemble cela a plutôt bien fonctionné.

Nous en sommes peut-être à un même stade aujourd’hui avec le numérique. Nos dispositifs sont peut-être insuffisants, et nous serons vraisemblablement considérés comme inconscients par nos successeurs. Ce qui n’empêchera pas, nous l’espérons, à la plupart de nos numérisations de traverser le temps.