fermer
l'aventure du livre

Le livre numérique

par Frédéric Martin

La numérisation des livres

La conversion numérique d’un livre, ou numérisation, peut s’opérer de deux manières : en mode texte ou en mode image. Le mode texte consiste à obtenir depuis un support papier un texte électronique que l’on peut réutiliser par copier-coller, par exemple, ou qui peut alimenter des bases de données ou des moteurs de recherche. Ceux-ci indexeront chaque mot, c’est-à-dire qu’il sera possible, de façon automatique, de retrouver dans le texte les occurrences de tel ou tel terme. La numérisation en mode texte peut résulter d’une saisie manuelle. Dans ce cas, un opérateur, salarié ou bénévole, recopie le texte du livre sur un logiciel de traitement de texte. C’est de cette façon que les premières initiatives de numérisation ont procédé, depuis le lancement en 1971 (avant l’apparition même de la micro-informatique) du projet Gutenberg, par Michael Hart, à l’université de l’Illinois aux États-Unis.
La numérisation en mode image consiste à scanner chaque page du livre pour obtenir autant de fichiers, qui seront des photographies numériques, fidèles au support original, y compris dans ses imperfections (taches, rousseurs, déchirures, etc.). Le fichier obtenu ne permet pas de réutiliser le texte, par copier-coller, ou de l’indexer, car l’opération de scannage brut n’identifie pas les éléments signifiants de la page : elle ne reconnaît que des points, traduits en pixels, selon une trame dont la finesse est paramétrable (ce qui donne la résolution). Il en résulte un fac-similé de l’ouvrage. Les appareils de scannage ont connu depuis une trentaine d’années des évolutions techniques considérables, rendant possible la numérisation rapide et en partie automatisée de grandes quantités de livres (jusqu’à 3 000 pages par heure).
Par ailleurs, afin de pallier les insuffisances du mode image, des logiciels ont été conçus afin de reconnaître automatiquement la forme des lettres, des mots, des paragraphes sur la page, et de convertir ainsi le mode image en mode texte. Ces programmes comparent les formes repérées optiquement à des dictionnaires, ou bases de termes, et interprètent par probabilité la forme du mot ou de la lettre. Par exemple, une suite de points positionnés dans un certain ordre sera reconnue comme formant la lettre E.
Les logiciels de reconnaissance optique de caractères (en anglais optical character recognition, ou OCR) favorisent aujourd’hui l’industrialisation de la numérisation des livres, même si le taux de qualité de cette reconnaissance automatique varie considérablement d’un document à l’autre (et dans certains cas d’une page à l’autre), et nécessite le plus souvent une correction manuelle du texte ainsi obtenu. Dans ce domaine aussi, les progrès sont importants : les logiciels se perfectionnent, la qualité de la reconnaissance de forme s’améliore (au niveau élémentaire, comme la lettre, ou structurelle, comme la segmentation de la page en paragraphes), y compris pour les typographies plus anciennes (XVIe siècle, XVIIe siècle) ou même l’écriture manuscrite. Les formats les plus utilisés aujourd’hui pour le mode texte sont le PDF et l’Epub ; pour le mode image, ce sont le TIFF, le JPEG et le JPEG2000. La combinaison de ces deux modes permet de bénéficier de la puissance de la recherche plein texte en conservant la mise en page et l’aspect visuel du livre d’origine.
haut de page