De la numérisation des journaux

De la numérisation des journaux

Mon institution, la Bibliothèque de Genève, vient de mettre en ligne une partie de La Tribune de Genève. C’est le premier pas vers une offre plus étoffée. Convertir des millions de pages sous forme numérique est une nécessité parce que c’est ainsi que l’on accède désormais aux archives des journaux, mais cette opération est tout sauf anodine.

En 1918, la grippe espagnole impose des mesures proches de celles que nous connaissons aujourd’hui. Un renseignement parmi d’autres que nous fournit la presse ancienne numérisée (Tribune de Genève 18.10.1918).

La « magie » du numérique et de son accès, le nombre quasiment illimité de pages à disposition, font facilement perdre de vue que le processus pour produire ces documents est d’abord matériel. Comme on finit par oublier que le pain acheté au supermarché, banal par sa familiarité et son abondance, est le résultat d’une complexe chaîne de production qui débute par des semailles.

Il s’agit d’abord d’une prouesse logistique: il faut vérifier les collections des bibliothèques, contrôler qu’elles soient complètes et aptes à être numérisées. On remercie au passage la chaîne de collègues qui, pendant des générations, les ont constituées. La continuité historique d’une mission de collecte donne toute sa valeur aux institutions patrimoniales.

Ensuite il faut envisager le processus de numérisation: l’externalisation est généralement la solution la plus avantageuse, car un tel volume de pages ne peut être traité que par des entreprises spécialisées. Cela implique de pouvoir déplacer de très grandes quantités de volumes.

Le transport doit être préparé, et nécessite un constat d’état précis. Il s’agit en effet d’ensembles patrimoniaux rares: il n’existe en général que 2 ou 3 collections complètes. Des tonnes de papier sont ainsi massivement déplacées, alors qu’auparavant les publications ne quittaient leur lieu de dépôt que sporadiquement, pour être consultées en salle de lecture, sans sortir du bâtiment.

Après la numérisation, les volumes reviennent et il faut les replacer en rayon.

Une gamme de traitements

Une fois converties en pixels, les pages des journaux subissent encore plusieurs transformations.

Il faut s’assurer de la qualité de la numérisation, faire des vérifications à l’écran, afin de s’assurer de la complétude de l’information.

Ensuite, les données obtenues doivent être traitées. On parle alors de structuration ou de segmentation. C’est un peu une sorte de « reverse engineering »: à partir d’une image qui n’est encore qu’un amas de pixels, on reconstruit la logique du journal: on identifie le bandeau de titre, les colonnes, les blocs formant un article, une illustration, une publicité… et bien sûr le texte lui-même. A l’heure actuelle ces traitements sont semi-automatiques, c’est-à-dire que des armées d’opérateur.trice.s doivent vérifier patiemment les métadonnées de toutes les pages scannées.

Enfin, toutes ces informations, données et métadonnées, sont chargées sur un serveur, puis indexées, ce qui permettra de les offrir au public, ou à de nouvelles exploitations informatiques grâce au « data mining ».

Le poids du virtuel

Le torrent numérique qui défile sur nos écrans nous le fait souvent oublier: un serveur est fragile; les données peuvent s’altérer. Saura-t-on les conserver? L’archivage numérique est désormais un thème bien étudié et des normes existent depuis de nombreuses années. Elles sont cependant exigeantes et coûteuses, difficiles à respecter totalement. Est-ce que cela met en cause la pérennité de ces réalisations numériques?

Pas nécessairement. Osons une comparaison avec le papier. Il y a cent ou deux cents ans, les locaux des bibliothèques n’avaient pas de climatisation contrôlée, n’étaient pas comme aujourd’hui protégés contre les dégâts d’eau, les incendies ou encore le vol. Pour autant, une bonne partie de notre patrimoine nous est parvenu, grâce à des mesures simples : la reliure protège les feuilles et évite qu’elles ne se dispersent et se perdent. Cela peut faire sourire, mais dans l’ensemble cela a plutôt bien fonctionné.

Nous en sommes peut-être à un même stade aujourd’hui avec le numérique. Nos dispositifs sont peut-être insuffisants, et nous serons vraisemblablement considérés comme inconscients par nos successeurs. Ce qui n’empêchera pas, nous l’espérons, à la plupart de nos numérisations de traverser le temps.

Charlie de papier

Charlie de papier

Le lectorat de la presse et des magazines imprimés s’érode progressivement. Mais après les événements récents, il n’aura échappé à personne que la dernière livraison de Charlie Hebdo a fait l’objet d’un engouement exceptionnel parfaitement à contre-courant de cette évolution.

Que l’on ne se méprenne pas sur mes propos. Il n’y a aucun jugement sur les motivations qui poussent tant de personnes à dénicher un exemplaire: soutien à une cause, à la valeur de la liberté de l’expression, désir de garder un souvenir tangible pour soi ou ses descendants d’un événement déjà gravé dans les consciences.

Ce qui frappe c’est  que ce journal que tout le monde s’arrache est un bien rare, alors même que le tirage a été revu à la hausse: queues infinies devant les kiosques par ci, stocks trop faibles et littéralement dévalisés en quelques minutes par là…

Si les circonstances n’étaient pas exceptionnelles, cette convoitise d’un support physique paraîtrait bien étrange à l’époque de l’information numérique. Les économistes nous ont expliqué que le numérique avait signé la fin de la rareté relative des biens d’information que le processus d’édition classique et le système de distribution représentaient*.

Or les lecteurs  de ce blog savent que la qualité du travail éditorial est avant tout de produire un texte dont le contenu – informatif, narratif, poétique – est jugé digne d’être rendu public et qui aura de la valeur pour les lecteurs qui voudront l’acquérir. Le contenu du n° 1178 de Charlie Hebdo en format numérique n’aurait rien perdu de sa charge satirique, de sa force: c’est rigoureusement le même contenu que celui du fascicule que l’on s’arrache. D’ailleurs plusieurs journaux ont diffusé par solidarité une double page déclinée tant en papier qu’en numérique , sans compter la une, largement diffusée sur Internet. Charlie Hebdo n’ayant pas de canal de diffusion numérique officiel, ce sont des versions PDF bricolées qui circulent sur le réseau.

Pourtant celles-ci n’empêchent en rien l’envie irrépressible du papier. Le fait que cette édition particulière soit convoitée très loin au-delà du cercle des habitués, montre bien que ce n’est pas vraiment pour le contenu lui-même, mais pour le symbole qu’il représente, un contact physique, au même titre que les rassemblements impressionnants qui ont eu lieu.

* Un prochain billet évoquera le livre de Françoise Benhamou, économiste de la culture: Le Livre à l’heure numérique. Papier, écrans, vers un nouveau vagabondage, Paris, Seuil, sept. 2014.