Accueil🇫🇷Chercher

Numérisation

La numérisation est la conversion des informations d'un support (texte, image, audio, vidéo) ou d'un signal électrique en données numériques que des dispositifs informatiques ou d'électronique numérique pourront traiter. Les données numériques se définissent comme une suite de caractères et de nombres qui représentent des informations[1]. On utilise parfois le terme franglais digitalisation (digit signifiant chiffre en anglais).

La numérisation, dans le contexte de l'administration des archives, est la conversion en masse des documents en fichiers informatiques[2].

Principe

La numérisation construit une représentation discrète d'un objet, sous la forme d'une collection d'un nombre fini de signes pris dans un ensemble dénombrable de signes valides[3].

numérisation des textes :

La numérisation d'un texte est sa transformation en une suite de caractères formant des mots existant dans la langue écrite, comme une dictée transforme les sons de la parole en une suite de mots existant dans le dictionnaire de la langue écrite.

numérisation des images :

La numérisation d'une image la transforme en suite d'instructions permettant de la reconstituer. Ces instructions peuvent consister en un tableau des sensations visuelles pour chaque élément (pixels) ou avoir une organisation plus complexe (images comprimées, images vectorielles).

À moins que les données numériques ne soient produites directement par des humains (on parle alors de saisie de données), la numérisation comporte en général au moins trois phases :

  1. Une phase d'échantillonnage où des dimensions de l'objet (par exemple, le temps, l'espace…) sont explorées à intervalles souvent réguliers ;
  2. Une phase de quantification, où la valeur du signal représentant l'objet aux points d'échantillonnage est arrondie à une valeur prise dans un ensemble fini ;
  3. Une phase d'encodage, qui fait correspondre à chacune de ces valeurs un code numérique (par exemple, binaire petit-boutien, code Gray, etc.).

À ces trois phases succèdent souvent des opérations plus complexes permettant un encodage plus efficace. C'est notamment le cas pour la numérisation des images dans les appareils photographiques numériques et pour la numérisation des textes (reconnaissance optique de caractères).

Le processus de numérisation peut quelquefois prendre d'autres formes.

numérisation de la température par un enregistreur de données :

La température varie lentement dans le temps. La numérisation crée un journal de son évolution :

  • projection de la tempĂ©rature dans un espace discret : elle est arrondie Ă  une valeur prise dans un ensemble fini (par exemple chaque dixième de degrĂ© Celsius de -20 Ă  +50) ;
  • projection du temps dans un espace discret : il est arrondi Ă  une unitĂ© (par exemple, la seconde) pour produire une date et heure ;

Chaque fois que l'arrondi de la température change, on enregistre la date et heure et soit la nouvelle température soit la variation.

L'enregistreur de données (data logger) effectue automatiquement ces opérations en convertissant d'abord les deux dimensions, la température et le temps, en signaux électriques. Il enregistre le résultat selon un code que d'autres dispositifs informatiques pourront exploiter.

Dans la plupart des cas, cependant, on utilise des échelons réguliers et on mesure une des grandeurs qui décrivent l'objet en incrémentant les autres. On obtient ainsi un nombre fini de données.

L'opération qui consiste à prélever une valeur pour chaque incrément d'une grandeur s'appelle échantillonnage. Dans l'échantillonnage spatial, on discrétise suivant une longueur, par exemple en prélevant une valeur de luminosité tous les dixièmes de millimètre, sur chaque axe spatial. Dans l'échantillonnage temporel, on va discrétiser le cours du temps, par exemple en prélevant une valeur à chaque microseconde.

L'opération qui consiste à arrondir une valeur à une autre, prise dans une liste finie, s'appelle la quantification.

Le résultat de cette numérisation est une suite de valeurs représentant la grandeur mesurée suivant les axes choisis, dans un ordre conventionnel qui permet de reconstituer toutes les dimensions de chaque élément de l'objet.

Choix des paramètres

Pour que les données numérisées représentent fidèlement les grandeurs initiales, on doit toujours faire des hypothèses sur le signal à représenter.

Lorsqu'on ne connaît que sa largeur de bande et son rapport signal sur bruit, la théorie de l'information détermine le débit numérique. Le théorème d'échantillonnage propose une fréquence d'échantillonnage minimale avec une quantification telle que le bruit de quantification soit d'un niveau comparable au bruit de fond. Le bruit peut être rendu indépendant du signal par décorrélation (dithering). Plusieurs combinaisons de fréquence et d'échelle de quantification peuvent décrire adéquatement le même signal.

Avec une connaissance plus précise des grandeurs à représenter, on peut utiliser moins d'échantillons grâce aux méthodes d'acquisition comprimée.

Formats de données

Le principe même de la numérisation implique que l'utilisateur (généralement, une machine) connaisse les conventions qui permettent de reconstituer l'objet représenté. On appelle ces conventions le format des données. La numérisation d'une information comprend de façon indissociable :

  1. Un format, qui est un algorithme permettant de reconstruire l'objet (par exemple, une image Ă  l'Ă©cran), invariable pour toute une classe d'objets ;
  2. Des données, qui représentent ce qui fait la particularité d'un objet.

L'objet ne peut être reconstitué que si la machine informatique a en mémoire les deux composantes. Quand l'algorithme correspondant à un fichier ou à un flux de données manque à la machine, on ne peut utiliser les données et on parle de problème de compatibilité.

Les formats peuvent être simples, comme dans le cas fréquent d'un flux brut de numérisation d'un signal à une seule dimension où les échantillons se suivent sans discontinuer. Il suffit allors de connaître leur taille, leur encodage numérique et la cadence d'échantillonnage pour reconstituer le signal. Les formats peuvent aussi être complexes, comme dans le cas de formats de description vectorielle des documents.

Des techniques de compression de données permettent de réduire la taille des fichiers ou le débit des flux. Dans ce cas, la partie invariable de l'information (le format) grandit et devient plus complexe. Quand le document représenté par ces fichiers ou flux est destiné à être distribué, on recherche un format tel que le décodage, qui est effectué à chaque poste, soit moins complexe que l'encodage, qui n'est effectué qu'une fois.

Procédés de numérisation

Les procédés de numérisation diffèrent selon la nature physique de l'information à numériser.

Pour numériser une grandeur qui varie dans le temps, comme un son :

  1. Un transducteur la représente par un signal électrique ;
  2. Un signal d'horloge effectue la discrétisation du temps ;
  3. Un convertisseur analogique-numérique quantifie le signal à chaque impulsion d'horloge ;
  4. Un encodeur crée la liste de valeurs numériques qui représente le signal.

Pour numériser une image, on discrétise la hauteur et la largeur et on convertit, pour chaque point, les niveaux de luminosité, soit globalement, soit pour chaque couleur primaire. L'échantillonnage de l'espace s'effectue de trois manières différentes :

  • un appareil photographique numĂ©rique ou une camĂ©ra numĂ©rique utilisent un transducteur Ă  transfert de charge en forme de matrice Ă  deux dimensions, avec un capteur par pixel. Le système transfère successivement les charges de chaque ligne, crĂ©ant un signal Ă©lectrique corrĂ©lĂ© aux impulsions de transfert, et l'on peut ainsi quantifier le signal pour chaque Ă©lĂ©ment capteur, et pour le temps dans le cas d'une prise de vues animĂ©es ;
  • un scanner utilise gĂ©nĂ©ralement un transducteur Ă  transfert de charge linĂ©aire, dont les capteurs sont espacĂ©s d'une distance correspondant Ă  la rĂ©solution transversale maximale. Le système transfère les charges de la ligne comme dans le cas prĂ©cĂ©dent, puis il actionne un moteur qui fait avancer la ligne de la distance correspondant Ă  la rĂ©solution souhaitĂ©e ;
  • un scanner rotatif utilise un seul transducteur, qui avance lentement au-dessus de l'image montĂ©e sur un cylindre tournant. Le capteur, parcourant ainsi toute l'image, produit un signal Ă©lectrique qui peut ĂŞtre converti en donnĂ©es numĂ©riques Ă  chaque impulsion d'un signal corrĂ©lĂ© Ă  la rotation du cylindre.

Ces procédés valent pour la reproduction en noir et blanc. Pour la reproduction en couleurs, il faut des valeurs pour chacune des trois couleurs primaires. Soit on divise le faisceau lumineux de l'image en trois parties correspondant aux trois couleurs primaires, soit on intercale des filtres devant chaque capteur en alternant les couleurs, et on procède par interpolation, après la conversion numérique, pour évaluer la couleur à chaque pixel. En général, d'autres processus compensent ensuite les insuffisances de l'image brute.

La numĂ©risation d'une image qui varie dans le temps associe les deux familles de procĂ©dĂ©s. Pour numĂ©riser une image animĂ©e (vidĂ©o), une camĂ©ra numĂ©rique, un camĂ©scope numĂ©rique, une webcam, Ă©chantillonnent le temps et numĂ©risent une image Ă  chaque fois (par exemple, avec une image toutes les 40 millisecondes). Le flux de donnĂ©es subit ensuite un processus de rĂ©duction de dĂ©bit.

On peut aussi numériser un signal vidéo analogique, soit en produisant une conversion brute de ce signal électrique, soit en reconstituant tout ou partie de l'information de discrétisation du temps à partir des signaux de synchronisation verticale (trames) et de l'espace à partir des signaux de synchronisation horizontale (lignes).

Pour numériser un texte, soit un opérateur humain effectue la saisie du texte, soit on numérise le document comme une image en appliquant à ce premier ensemble de données un programme de reconnaissance optique de caractères éventuellement complété par des vérifications automatiques ou manuelles.

Objectifs de la numérisation

Les systèmes informatiques permettent :

  • d'emmagasiner de grandes quantitĂ©s d'information sur des volumes de faibles dimensions : mĂ©moire flash, disque dur, support optique, etc. ;
  • de dupliquer exactement et facilement les informations numĂ©riques et cela pour un moindre coĂ»t ;
  • de distribuer largement les informations grâce aux rĂ©seaux informatiques et notamment grâce Ă  Internet ;
  • de crĂ©er des informations de synthèse, telles que les statistiques et les index, qui impliquent une grande quantitĂ© de calculs auxquels on n'envisagerait pas d'employer des humains.

La transmission de données numériques traitées pour obtenir une occupation maximale du spectre disponibles nécessite sur les canaux de transmission une bande passante moindre que leur contrepartie analogique.

En contrepartie, les informations négligées ou perdues au moment de la numérisation ou à l'occasion de calculs ou de recodage sont perdues pour les utilisateurs ultérieurs.

Numérisation d'un signal électrique

Convertisseur Analogique Numérique et Convertisseur Numérique Analogique

Des composants spécialisés assurent la conversion dans un système numérique du signal analogique qu'ont produit initialement des transducteurs (cellule photosensible, thermomètre, microphone, récepteur radio…).

Une chaîne de conversion A/N (analogique vers numérique) peut se décomposer en fonctions et les circuits en éléments :

  1. Une source de signal d'horloge, qui effectue la discrétisation temporelle ;
  2. Une ou plusieurs sources analogiques ;
  3. Un filtre pour Ă©viter le repliement de spectre ;
  4. Dans certains cas un Ă©chantillonneur-bloqueur (Sample and Hold ou S/H) ;
  5. Un convertisseur analogique-numérique (Analog/Digital Converter ou ADC) qui effectue la quantification ;
  6. Un codeur (ou modulateur).

La précision de la numérisation dépend de la qualité de la quantification du signal et de la stabilité de l'horloge.

Numérisation et archivage

Centre de numérisation de la bibliothèque de Dresde
Centre de numérisation de la bibliothèque de Dresde

Corollaires des nombreux chantiers de numérisation, l’archivage de contenus électroniques repose sur un ensemble d’actions, d’outils et de méthodes mis en œuvre pour réunir, identifier, sélectionner, classer et conserver des contenus électroniques sur un support sécurisé, dans le but de les exploiter et de les rendre accessibles dans le temps. L’archivage est à distinguer du stockage et de la sauvegarde.

Objectifs

Les objectifs des chantiers associant numérisation et archivage sont nombreux. Dans les domaines de la gestion électronique des documents et des sciences de l'information et des bibliothèques, ils remplissent plusieurs fonctions :

  • prĂ©server et protĂ©ger des documents contre les risques d'altĂ©ration (l’aciditĂ© par exemple, qui dĂ©truit lentement le papier) ;
  • archiver des documents originaux en vue d'un gain de place, et les dupliquer sans risque de dĂ©gradation pour les mettre Ă  disposition du public ;
  • permettre au public de consulter et d'accĂ©der Ă  des documents anciens et/ou rares ;
  • aider et susciter la recherche, faciliter l'indexation de textes et de documents multimĂ©dias, valoriser un fonds documentaire ;
  • donner accès Ă  la connaissance Ă  distance dans une perspective de communication (bibliothèques Ă©lectroniques en ligne, projet « Bibusages » sur Internet, etc.).

La numérisation est l'un des aspects de ce que l'on appelle quelquefois de façon impropre la dématérialisation. C'est indéniablement l'un des passages obligés de tout projet visant à optimiser la gestion des documents et courriers entrants, encore fortement reçus au format papier par les entreprises et les administrations.

Une intensification des besoins en archivage de contenus numériques

L’explosion du volume de données électroniques a inévitablement poussé les organisations à prendre en compte le contenu électronique dans l’intégralité de son cycle de vie, jusqu’à son archivage, voire sa destruction.

Les entreprises et les administrations françaises doivent par ailleurs intégrer la notion de vocation probatoire à leurs projets d’archivage afin d’apporter la preuve de l’intégrité dans le temps de certains contenus électroniques et l’authenticité de leur origine (conformément aux exigences imposées par un cadre légal ou à des réglementations relatives à certains métiers ou secteurs d’activité, par exemple)[4]. Les documents électroniques concernés en priorité par l’archivage à vocation probatoire sont ainsi les factures, clients ou fournisseurs, les bulletins de paie ou les correspondances électroniques.

Numérisation et archivage du patrimoine culturel

Livre ancien sur un numériseur.
Numériseur de livres

Des opérations de numérisation de différents éléments du patrimoine culturel ont été lancées en très grand nombre, à partir des années 2000, dans le monde entier. Parmi celles-ci, on distingue plusieurs chantiers de très grande ampleur.

« Open Content Alliance » (OCA)

Le consortium OCA est une association américaine qui regroupe des entreprises privées telles Yahoo !, Adobe, HP, Internet Archive[5], des bibliothèques (BU Californie, BU Toronto), des centres d’archives et des éditeurs. Le , Microsoft a rejoint ce groupe.

L'OCA a pour objectif de numériser et de mettre en ligne une banque de données accessible à tous, pérenne et multilingue (banque de données composée de documents multimédias). Cependant, elle prend uniquement en compte les fonds patrimoniaux libres de droits à la différence de Google Recherche de livres. Aucune numérisation ne sera faite sans la permission des ayants droit. Ces derniers peuvent contribuer au projet en définissant l’étendue de la diffusion avec d’éventuelles restrictions.

Google Recherche de livres

AnnoncĂ© le par les cofondateurs de la sociĂ©tĂ© Google, le programme « Google Print » est chargĂ© de numĂ©riser 15 millions d’ouvrages, ce qui reprĂ©sente 4,5 milliards de pages en 6 ans selon Jean-NoĂ«l Jeanneney, alors prĂ©sident de la Bibliothèque nationale de France. Cinq bibliothèques ont donnĂ© leur accord pour numĂ©riser leurs fonds : les bibliothèques de l'universitĂ© Harvard, de l'universitĂ© du Michigan et de l'universitĂ© Stanford, la New York Public Library et la Bodleian Library de l'universitĂ© d'Oxford. Google Print est officiellement lancĂ© en novembre 2005 avec un ensemble de livres numĂ©risĂ©s du domaine public et issus des partenaires du projet. Il est rebaptisĂ© Ă  la mi-novembre « Google Books Search » (« Google Recherche de livres » en français). De nouveaux accords ont Ă©tĂ© passĂ©s entre Google et d'autres universitĂ©s pour enrichir cette bibliothèque numĂ©rique.

La Bibliothèque Numérique Européenne

Le , le prĂ©sident de la Bibliothèque nationale de France, Jean-NoĂ«l Jeanneney, lance dans le quotidien Le Monde un appel pour rĂ©agir Ă  l'initiative de Google. Fin avril 2005, les bibliothèques nationales de 19 pays puis six chefs d’État et de gouvernement europĂ©ens appellent Ă  une coopĂ©ration europĂ©enne pour la crĂ©ation d’une bibliothèque numĂ©rique europĂ©enne (Europeana). Un an plus tard s'ouvre The European Library, le portail multilingue de la BNE.

En 2016, Europeana donne accès Ă  53 millions de documents numĂ©risĂ©s provenant de 3 300 institutions EuropĂ©ennes[6]. L'annĂ©e suivante, une Ă©tude demandĂ©e par la Commission europĂ©enne montre que Europeana est consultĂ© 700 000 fois par mois[7].

Annexes

Rapports officiels
Littérature professionnelle
Perspectives européennes
Études concernant l’ensemble de la chaîne
  • Le site de la BNF
  • Ministère de la Culture et de la Communication, Écrire un cahier des charges de numĂ©risation et de conversion en mode texte de collections de presse, 2010, 28 p., annexes, 29 p. (en ligne)
  • Ministère de la Culture et de la Communication, Écrire un cahier des charges de numĂ©risation (documents reliĂ©s, manuscrits, plans, dessins, photographies, microformes), 2008, 62 p.
  • Le Borgne (Christelle), RĂ©flexion sur la stratĂ©gie de constitution et diffusion d'un corpus d'enregistrement sonore extrait des archives de la BPI, MĂ©moire d’étude dans le cadre du diplĂ´me de conservateur des bibliothèques, ENSSIB, (lire en ligne)
Diffusion
  • Balley (NoĂ«lle), « Mise en ligne des fonds patrimoniaux », BBF, 2008, n° 3, p. 103.
  • Brisac (Anne-Laure), « NumĂ©risation du patrimoine des bibliothèques et moteurs de recherche », BBF, 2010, n° 3, p. 78-79.
  • Gagnon (Jacinthe), La numĂ©risation des bibliothèques et ses consĂ©quences sur le droit d’auteur, QuĂ©bec, Ă©cole nationale d’administration publique, (lire en ligne)
Numérisation et conservation
  • Ministère de la Culture et de la communication, Conservation Ă  long terme des documents numĂ©risĂ©s, 2008, 18 p.
  • Banat-Berger (Françoise), Duplouy (Laurent), Huc (Claude), L'archivage numĂ©rique Ă  long terme : les dĂ©buts de la maturitĂ© ?, Paris, La Documentation française, 2009.

Articles connexes

Liens externes

Notes et références

  1. Commission générale de terminologie et de néologie, « numérique », sur www.culture.fr/franceterme, .
  2. « Numérisation des bibliothèques / L'image numérique : acquisition ».
  3. Commission Ă©lectrotechnique internationale : Electropedia 10-12-06.
  4. 289bis du code général des impôts et loi de simplification et de clarification du droit et d’allègement des procédures promulguée le 13 mai 2009
  5. Service qui assure l'archivage du Web depuis 1996.
  6. « Europeana - Le patrimoine de l'Europe en ligne », sur bnf.fr
  7. Analyse du 17 octobre 2017 au 14 janvier 2018, (en) « Europeana - a European cultural heritage platform for all », sur ec.europa.eu, (consulté le )


Cet article est issu de wikipedia. Text licence: CC BY-SA 4.0, Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.