6: Formats et systèmes cibles de pérennisation

6.1.1 Introduction

6.1.1.1 L'information présentée ci-dessous à propos de la gestion, du stockage à long terme, de la pérennisation des documents sonores numérisés et codés, s'appuie sur le postulat qu'il n'existe pas de support de stockage pérenne, et que l'on ne prévoit pas qu’il en existe dans un futur proche. Aussi, les responsables d'archives sonores numériques doivent-ils planifier l'organisation de la conservation et des systèmes de stockage en fonction de l'évolution des processus, des changements inévitables des formats, des supports et autres technologies impliquées. Les services d’archives n’ont pas de contrôle ni guère d’influence sur la rapidité des développements technologiques ni sur les formes qu’ils prennent. L'objectif premier de la préservation numérique est donc de réaliser des systèmes durables plutôt que des supports permanents.

6.1.1.2 Le choix d'un système technologique de stockage dépend de nombreux facteurs dont le coût n'est qu'un élément parmi d'autres. Si le type de technologie choisi pour assurer la conservation d'une collection peut différer en fonction de circonstances propres à l'institution ou à la collection elle-même, les principes de base esquissés ici s'appliquent quelle que soit la manière d'aborder la gestion et d'assurer le stockage à long terme des documents audio numériques.

6.1.2 Stockage de données ou de documents audio spécifiques

6.1.2.1 Pour gérer efficacement un document sonore numérique et le maintenir en état, il est nécessaire de le transformer dans un format normalisé. Les formats de données sont des fichiers types, tels que .wav, BWF ou AIFF, reconnus par des systèmes informatiques. Ces fichiers, contrairement aux supports spécifiques audio, définissent les limites de leur propre contenu, ils sont généralement encodé de telle manière que toute perte de données soit détectée et corrigée par le système hôte. IASA recommande l'utilisation du format BWF tel que défini dans le paragraphe 2.8 Fichiers de Formats.

6.1.2.2 Les anciens formats spécifiques d'enregistrement audio incluent les formats DAT (Digital Audio Tape) et CD-A (Compact Disc - Digital Audio). Le format DAT, très utilisé pour les enregistrements audio à distance ou sur le terrain à 16 bits, 48 kHz est maintenant obsolète. L'IASA recommande que tout enregistrement important effectué sur DAT soit transféré sur un système de stockage plus fiable et en conformité avec les conseils dispensés dans le paragraphe 5.5 Reproduction des supports numériques magnétiques.

6.1.2.3 Le disque compact enregistrable peut être utilisé pour enregistrer le son seul (CD-A ou CD-DA) ou bien différents formats de données (CD-ROM). Dans le format CD-DA, l'enregistrement audio numérique encodé ressemble à un flux audio et ne présente donc pas les avantages des fichiers fermés tels qu'ils peuvent être enregistrés sur un disque formaté CD-ROM. Dans ce dernier cas, il n'est pas possible d'enregistrer autant de données sur le même espace disque. L'IASA ne recommande pas d'enregistrer les programmes audio au format CD-A an tant que format cible de conservation. L'utilisation des disques CD enregistrables pris pour format cible sous quelque forme que ce soit ferait prendre des risques considérables, risques soulignés dans le Chapitre 8 Disques optiques : CD/DVD Enregistrables. La baisse des prix et l'augmentation de la fiabilité de la gestion des données et des systèmes de stockage rendent inutiles ou pour le moins antiéconomique la prise en compte des supports spécifiques de stockage, tels les CD-R.

6.1.3 Principes de conservation du numérique

6.1.3.1 Principe des systèmes de stockage de masse (Digital Mass Storage Systems (DMSS))

6.1.3.2 Les informations communiquées ci-dessous sont très directement liées aux aspects pratiques des Stratégies de protection des données issues des directives de l'UNESCO pour la Conservation du patrimoine numérique. Elles ont seulement été modifiées pour prendre en compte les systèmes de sauvegardes non automatiques ainsi que la conservation préoccupante des formats audio numériques simples. Le paragraphe est inséré avec l'aimable autorisation de l'auteur (Webb 2003 : 16.13).

6.1.4 Aspects pratiques des stratégies de protection des données

6.1.4.1 Pour gérer le stockage de données à long terme, on dispose d’un ensemble de stratégies relativement bien normalisées. La plupart d'entre-elles  font l’hypothèse que ce n’est pas le support en soi  qui a besoin d'être conservé, mais seulement les données. Ce qui  suit comprend, en partie, ces stratégies.

6.1.4.2 Affectation des responsabilités : la gestion du stockage et de la sauvegarde des données doit être confiée à un responsable clairement identifié. C’est une responsabilité technique qui requiert  un ensemble de savoirs et compétences propres aux domaines mais qui requiert aussi  des compétences en gestion. Pour toutes les collections, le stockage et la protection des données nécessitent des ressources dédiées, une planification appropriée et la maîtrise de ces stratégies. Les collections de très petite taille doivent pouvoir bénéficier de l'expertise nécessaire et des services d'une personnalité responsable se consacrant à cette tâche.   

6.1.4.3 Infrastructures techniques appropriées pour réaliser la tâche : les données doivent être stockées et gérées à l'aide de systèmes et de supports adaptés. Des systèmes de gestion numérique ou de stockage d'objets numériques répondant  aux exigences des programmes de conservation des données audio sont disponibles ; certaines approches seront discutées ci-dessous. Une fois les exigences déterminées, elles devront être minutieusement discutées avec des fournisseurs potentiels. Parmi les systèmes et supports répondant aux différents besoins, ceux qui seront choisis dans les programmes de conservation devront correspondre aux attentes.    

6.1.4.4  L'ensemble des systèmes devront avoir les capacités adéquates, y compris :

6.1.4.5 Une capacité de stockage suffisante : La capacité de stockage peut être augmentée au fil du temps, mais le système doit être en mesure de gérer le volume de données estimé pendant son cycle de vie.  

6.1.4.6 Une aptitude fondamentale : le système doit être capable de dupliquer les données à la demande sans perte et de transférer celles-ci, sans perte, vers des supports nouveaux ou réinitialisés.

6.1.4.7 Une fiabilité démontrée ainsi qu'une assistance permettant de traiter rapidement les problèmes.

6.1.4.8 La possibilité de ranger les noms de fichiers selon une disposition adaptée à l'architecture du stockage. Le système de stockage s'articule autour d'objets nommés. Les systèmes utilisent différentes architectures pour organiser les objets. Ceci peut imposer des contraintes sur la manière de nommer les objets pour le stockage ; l'organisation des disques par exemple, peut imposer une structure hiérarchisée du répertoire des noms existants différente de celle utilisée pour les bandes magnétiques. Le système doit permettre, de préférence, d'assurer une cartographie des noms de fichiers imposés par le système et les identifiants existants.

6.1.4.9 La capacité de gérer le stockage des données redondantes. Les supports numériques ont un taux de défaillance faible, mais significatif, aussi des copies de fichiers sont-elles nécessaires à toutes les étapes, et tout particulièrement dans la phase finale du stockage.    

6.1.4.10 Le Contrôle d'erreurs. La plupart des ordinateurs dédiés au stockage comportent un contrôle automatique d'erreurs. Les documents audio et audiovisuels doivent être conservés pendant de longues périodes, avec, souvent, un très faible taux d'utilisation. Le système doit être en mesure de détecter des modifications, des pertes de données et de déclencher les actions appropriées. Pour le moins, les stratégies en place doivent alerter les responsables de collections sur des problèmes potentiels, leur laissant le temps suffisant pour permettre une action appropriée.  

6.1.4.11 Les infrastructures techniques doivent également incorporer les moyens de stockage des métadonnées et assurer des liaisons fiables entre métadonnées pour stocker des objets numériques. Souvent, les opérations de grande ampleur révèlent des insuffisances : elles nécessitent la mise en place de systèmes de gestion des objets numériques liés lorsqu'ils sont en direction de, et non liés lorsqu'ils sont en provenance du système de stockage de masse. Il s'agit de faire face à la variété des processus impliqués, et de permettre le changement de métadonnées et d'interfaces sans avoir à changer le système de stockage de masse.

6.1.5 Philosophie de la durabilité du système

6.1.5.1 Toutes les technologies, aussi bien les machines que les logiciels, les formats ou les normes, changeront à la longue, sous la pression des marchés, des exigences de performances, des nouveaux besoins ou attentes. Le devoir de l'archiviste audio en charge de la maintenance numérique et des contenus audio numérisés est de traverser ces changements technologiques de telle manière que le contenu de ces collections soit maintenu dans un état fiable et une forme authentique pour les utilisateurs actuels et à venir, dans les meilleures conditions économiques possibles.

6.1.6 Planification à long terme

6.1.6.1 La planification à long terme des archives audio comporte plus d'éléments que les simples normes techniques d'un système de stockage de données. Certes, les problèmes d'ordre technique doivent être soigneusement résolus, mais il n'en demeure pas moins que les aspects sociaux et économiques de fonctionnement des systèmes de stockage numérique sont vitaux pour assurer l'accès des contenus de manière permanente. La planification à long terme devrait prendre en considération les éléments suivants :

6.1.6.2 La durabilité des données brutes : il s'agit d'assurer la conservation du flux des mots binaires dans leur bon ordre et leur ordre logique. Les données dans un système de stockage doivent revenir dans le système sans subir aucun changement ou corruption. On notera que l'expertise des systèmes informatiques consiste à identifier les risques importants encourus lors des opérations de maintenance et de rafraîchissement de données. Une bonne gestion des opérations et une bonne conception de l'approche du SI peut assurer des résultats satisfaisants.

6.1.6.3 Formats et possibilité de lecture : Les données sont utiles dans un service d'archives sonores seulement si elles peuvent être ensuite traduites en son. Le choix approprié du format de fichier apporte la garantie aux futurs services d'archives de pouvoir lire le contenu des fichiers, ou d'être capable d'acquérir la technologie pour effectuer la migration des fichiers dans un nouveau format. Ne pas incorporer d'algorithme de compression avec perte dans ce format évitera d'altérer le contenu audio original lors des processus de transformations.  

6.1.6.4 Métadonnées, identification et accès à long terme : tous les fichiers audionumériques doivent pouvoir être identifiés et récupérés afin d'utiliser l'enregistrement audio et d'en estimer la valeur.

6.1.6.5 Economie des archives sonores : on s'intéresse ici aux conditions de viabilité des institutions qui subventionnent les systèmes de stockage de données, les entrepôts ainsi que les personnes qui possèdent, gèrent ou tirent des bénéfices des documents sonores archivés. Les dépenses consacrées à l'entretien d'une collection de documents sonores sont continues, elles doivent être planifiées. Un budget réaliste doit être planifié pour assurer la conservation des collections sur le long terme. Le coût de présentation et de gestion des collections est aussi permanent. La conservation du numérique est autant affaire d'économie que de technique. La viabilité des tâches à engager exige une source de financement fiable, condition fondamentale qui doit être satisfaite pour assurer, même à modeste niveau, la durabilité des contenus numériques, pour que les entrepôts, les éléments technologiques et les systèmes soient maintenus en état aussi longtemps que nécessaire.

6.1.6.6 Alternatives en matière de stockage, de gestion, de conservation : l'environnement économique et technique peut-être volatile, aussi est-il recommandé que des accords soient passés entre les services d'archives et les institutions pour définir le stockage des données  comme archives de dernier recours. Ceci nécessite un  accord global sur les formats de fichiers et l'organisation des données aussi bien que sur  les aspects sociaux et techniques de la gestion des contenus.

6.1.6.7 Outils, logiciels et planification à long terme : il ne s'agit pas de conserver le matériel informatique, les logiciels et les systèmes en tant que tels, mais plus simplement de faire jouer à ces outils leur rôle  en matière de conservation des contenus. Le logiciel de gestions d'archives D-Space par exemple, ne prétend pas être une solution de conservation, mais être seulement utile pour "permettre aux institutions dotées d'une certaine compétence, de garder en mémoire les informations et de proposer leurs services à cet égard", (DSpace, Michael J. Bass et al. 2002). Le logiciel d'archivage en soi est un outil, au même titre que les différentes composantes conçues pour faciliter les opérations, simplifier les procédures, automatiser et valider le moissonnage des métadonnées. La planification à long terme implique la capacité  à pouvoir changer de système ou bien  à effectuer des mises à jour sans compromettre l’intégrité des  contenus.

6.1.7 Définition de l'objet numérique

6.1.7.1 Le fichier audio ne constitue qu'une partie de l'information à conserver. Le modèle de référence d'un système ouvert d'archivage d'information (Open Archival Information System (OAIS)) identifie quatre parties qui décrivent un objet numérique par un paquet d'informations. Cela comprend les informations du contenu et les informations décrivant les conditions de conservation, regroupées avec l'ensemble des informations, et qui peuvent être découvertes grâce à l'information de description.


Concepts et relations d'un paquet d'information

6.1.7.2  Si l'information peut-être répartie dans tout le système, il convient de se souvenir que le concept du regroupement par paquets implique l'information audio elle-même, la possibilité de relire ce document audio, de connaître sa provenance, de le décrire et de le retrouver. D'étroites relations peuvent exister entre les fichiers audio d'une collection ; ces relations sont importantes pour l'usage des documents  et doivent donc être préservées.

6.1.8 Le Système Ouvert pour l'Archivage d'Informations (Open Archival Information System(OAIS))

6.1.8.1  Le modèle de référence d'un système ouvert pour l'archivage d'information (OAIS) est un modèle conceptuel très largement adopté dans le domaine des entrepôts de données numériques et des systèmes d'archivage.  Le modèle de référence OAIS propose un langage commun et une structure conceptuelle que les spécialistes en matière de bibliothèque numérique et de conservation peuvent partager. La structure a été adoptée au titre d'une norme internationale, ISO 14721 : 2003. Malgré quelques réserves à propos d'imperfections minimes, l'élaboration des architectures d'archivage répondant aux catégories de fonctions définies par l'OAIS est essentielle au développement de systèmes de stockage modulaires assurant l'interopérabilité des échanges des contenus. Dans ce guide, les paragraphes qui suivent adoptent les principales dispositions du modèle de référence OAIS en vue d'appuyer les opérations d'analyse des logiciels disponibles et   d’élaborer des recommandations dans le cadre des développements qui doivent être effectués.       

6.1.8.2 Un système d'archivage numérique doit pouvoir exécuter un nombre fini de fonctions afin d'assurer, de manière fiable et durable, les services pour lesquels il est conçu. Dans le Modèle de Référence OAIS, les entités suivantes sont définies : l'entrée, l'accès, l'administration, la gestion de données, la planification de la pérennisation, le stockage des archives.

6.1.8.3 Le modèles OAIS définit également la structure des différents paquets d'informations nécessaires à la gestion des données à un moment donné du cycle de vie de l'objet numérique. On distingue le paquet d'informations à verser (Submission Information Package (SIP)), le paquet d'informations diffusé (Dissemination Information Package (DIP)), et le paquet d'informations archivé (Archival Information Package (AIP)). Un paquet représente : le lot de données, les métadonnées pertinentes et les informations de description d'un objet particulier. Cet objet est conceptualisé dans le sens où les contenus des paquets peuvent être dispersés dans le système ou réduits à un seul objet numérique. L'OAIS définit un paquet d'informations en tant que contenu d'information associé aux informations de description des conditions nécessaires à la pérennisation des contenus.

6.1.8.4 Le SIP est un paquet d'informations versé au système par l'entité d'entrée. Il contient les données à stocker ainsi que toutes les métadonnées nécessaires relatives à l'objet. Le SIP accepté par le système sert à la création d'un AIP.

6.1.8.5 L'AIP est un paquet d'informations stocké et conservé dans le système. C'est le Paquet d'informations stocké, conservé et entretenu par le système.

6.1.8.6 Le DIP est le paquet d'informations créé pour diffuser le contenu numérique. Ce système remplit trois rôles. Le premier concerne l'accès : ce DIP devra donc être réalisé sous une forme pratique et compréhensible pour l'utilisateur. Le second rôle a pour objectif de répartir les risques grâce à des échanges. Une institution d'archivage peut préférer partager le contenu de ses collections avec d'autres établissements comparables, ou bien avec une organisation d'archivage. Dans ce cas, le DIP devra contenir toutes les métadonnées pertinentes nécessaires. Le troisième rôle concerne la distribution des contenus à des services d'archives, en dernier ressort. Le scénario d'un service d'archives ou d'une institution qui ne serait plus en mesure d'entretenir ses collections n'est pas difficile à imaginer. Un DIP normalisé pour répondre à une telle situation permettrait à d'autres systèmes, d'architecture similaire, de recueillir la charge avec une intervention manuelle minimum.

6.1.9 Dépôts numériques fiables (Trusted Digital Repositories (TDR)) et responsabilité institutionnelle

6.1.9.1 Les spécifications techniques de l'environnement d'archivage numérique jouent un rôle important pour garantir aux chercheurs du futur l'accès des contenus numériques. Condition non suffisante, toutefois, pour atteindre un tel objectif. Les institutions qui ont la charge de collections d'archives numériques doivent être en mesure d'assurer la responsabilité de la bonne gestion et de la préservation des contenus qu'ils gèrent. En 2002, le groupe des bibliothèques de recherche (Research Libraries Group (RLG)) et le Centre des bibliothèques connectées (Online Computer Library Center (OCLC)) ont publié conjointement le document Trusted Digital Repositories (TDR) : Attributes and Responsabilities : Dépôts numériques fiables : attributs et responsabilités "décrivant le cadre des attributs et les responsabilités d'entrepôts fiables et durables" requis pour que le service d'archives assure une conservation des informations numériques permanente ou pour une période indéfinie".

6.1.9.2 Ces attributs comprennent : la conformité au modèle de référence OAIS, la viabilité organisationnelle, le financement durable, la bonne adéquation technique et procédurale, la sécurité du système et une politique en place apportant toutes les garanties sur la manière dont la gestion et la conservation des données sont traitées.

6.1.9.3 L'instanciation pratique de ce qui vient d'être énoncé fait l'objet d'un document désigné par "Trustworthy Repositories Audit and Certification (TRAC) : Criteria and Checklist" :  Audit et certification d'entrepôts fiables : Critères et liste de contrôle" (2007). Une institution d'archives utilisant ce document peut évaluer si ses pratiques, ses approches, la technologie en place ou en cours de planification, conviennent pour mener à bien la conservation permanente de l'information numérique dont elle a la responsabilité.

6.1.9.4 La liste de contrôle (checklist) couvre trois domaines principaux : l'infrastructure organisationnelle ; la gestion des objets numériques et la technologie ; les infrastructures techniques et la sécurité.

6.1.9.5 L'infrastructure organisationnelle fournit une série de contrôles sur la gouvernance et la viabilité du dispositif, sur l’organisation de la structure et du personnel, la responsabilité procédurale et le cadre politique, les financements, et la prise en compte des licences, du passif. Le paragraphe consacré à la gestion des objets numériques s'intéresse à l'acquisition des contenus, à la création d'un paquet archivable, à la planification de la pérennité, à la planification et au stockage de données d'archives, au management de l'information et au contrôle des accès. La troisième partie de cette liste audite l'infrastructure du système, l'utilisation de technologies adaptées aux tâches et au système, et enfin la sécurité de l'institution.

6.1.9.6 La terminologie utilisée dans le document "Trustworthy Repositories Audit and Certification : Criteria and Checklist" (TRAC) :  Audit et certification d'entrepôts fiables : Critères et liste de contrôle" est choisie pour traiter des archives numériques au sens le plus large, aussi le document peut-il paraître parfois un peu opaque aux archivistes du son. Néanmoins, les questions examinées et expérimentées ici sont d'une importance capitale pour la planification et la gestion des archives audio numériques. Il est fortement recommandé aux archivistes d'utiliser la liste de contrôle pour évaluer l'aptitude d'une institution à assurer la gestion d'une collection numérique, ou bien encore pour identifier les points faibles de la stratégie de conservation d'une collection numérique donnée.

6.1.10 Archives audio et responsabilité technique

6.1.10.1 Une institution donnée peut-être responsable de la gestion d'une collection ou d'un ensemble d'items sonores, mais elle ne suivra pas nécessairement les principes d'une institution qui prend en compte la totalité de la responsabilité d'un système d'archivage numérique. Au lieu de cela, une institution peut constituer une partie d'un système d'archivage partagé, ou bien elle peut se rapprocher d'un prestataire tiers qui archive ses documents dans des conditions plus conformes  aux normes.

6.1.10.2 Le stockage partagé de données tel qu'il a été proposé et développé pour le web par l'université de Stanford sous le nom de LOCKSS (Lots of Copies Keep Stuff Safe : Beaucoup de copies rendent la marchandise sécurisée), procède par de nombreuses duplications des données réparties sur le web. Le système gère les données en réseau ; les risques de perte de données sont réduits car l'information peut être retrouvée en de nombreux endroits. Un tel dispositif ne convient pas pour les documents d'accès restreint ou soumis au copyright dont la diffusion est interdite. Le développement et la gestion d'un tel système nécessitent l'assistance d'une institution.

6.1.10.3 Une institution peut réaliser qu'elle n'a pas la capacité technique pour entreprendre le développement et la gestion d'un système d'archives numériques. Dans ce cas, elle peut établir des relations avec un organisme tiers. Celui-ci peut être une autre institution d'archives où seront versées et stockées les collections, ou bien un prestataire qui commercialisera les services de stockage des supports et de gestion des contenus.   

6.1.10.4 L'information est ici communiquée comme si l'institution avait l'intention d'assurer elle même les opérations de conservation. Toutefois, si l'on considère une des alternatives mentionnées ci-dessus, cette information permettra tout de même de déterminer si cette approche est fiable et valide.

6.1.11 Logiciel d'entrepôt numérique, gestion de données et systèmes de conservation

6.1.11.1 Le logiciel d'entrepôt numérique assure généralement la gestion du stockage et de l'accès du contenu numérique. Il devrait incorporer les systèmes d'indexations et de métadonnées, ainsi que les différents outils permettant de retrouver et de décrire les contenus.

6.1.11.2 La gestion des données porte sur les flux d'octets ou sur les données qui incombent au système. Elle peut inclure les procédures de sauvegarde, les copies multiples et les modifications.

6.1.11.3 Les processus de conservation qui assurent l'accessibilité à long terme des contenus permettent d'en préserver le sens, de documenter et d'entretenir les tâches effectuées par le système de gestion de données. Ces trois phases sont indispensables pour assurer la pérennisation des contenus.

6.2 L’ingestion

6.2.1 Paquet d'informations à verser (SIP)

6.2.1.1 Le SIP est un paquet d'informations transmis système de dépôt et stockage numérique pour ingestion (par l’entité des entrées). Le SIP comprend les données audio à stocker ainsi que toutes les métadonnées relatives à l'objet et à ses contenus. L’ingestion, dans le modèle OAIS, désigne le processus d'acceptation des contenus et des métadonnées afférentes (SIP), le processus de vérification des fichiers, d'extraction des données pertinentes et de préparation des AIP pour le stockage. Ce processus apporte la garantie que les paquets d'informations archivés (AIPs) et leur description s'inscrivent bien dans le modèle OAIS.

6.2.1.2 Un système d'entrepôt de données numériques et de conservation devrait être en mesure d'accueillir et de valider un fichier audio. La validation est un processus qui apporte la garantie de conformité normative des fichiers acceptés dans le système de stockage. On peut rencontrer des difficultés pour utiliser ultérieurement des fichiers non normalisés lorsque les dispositifs de lecture d'époque ne sont plus disponibles. Des outils permettent la validation automatique des formats de fichiers, et un certain nombre de solutions open source, comme JHOVE (JSTOR/Harvard Object Validation Environment), sont disponibles et en cours de développement.

6.2.2 Formats

6.2.2.1 L'IASA recommande l'utilisation de fichiers .wav, ou BWF.wav de préférence (EBU tech 3285). La différence entre ces deux formats consiste en la présence, dans la trame du format BWF, d'en-têtes qui peuvent être utilisés pour organiser et gérer les métadonnées. Les métadonnées BWF conviennent pour de nombreuses applications, mais dans le cas de situations et d'échanges complexes, il est nécessaire de disposer d'un paquet plus compréhensible ; et en de telles circonstances, on utilisera souvent la norme de codage et de transmission de métadonnées METS (Metadata Encoding and Transmission Standard). Le schéma METS est une norme d'encodage de métadonnées descriptives, administratives, et structurelle des objets détenus par les bibliothèques numériques, exprimé sous forme XML (eXtensive Markup Language), langage de balisage extensible. Un ensemble METS, qui comporte les métadonnées et les contenus, est souvent utilisé comme norme d'échange entre bibliothèques numériques.

6.2.2.2 Le format MXF (Material eXchange Format) est un format conteneur destiné aux professionnels des média vidéo et audio numériques ; il est défini par un jeu de normes SMPTE. MXF a été adopté surtout par la communauté des archivistes vidéo, bien qu'il soit capable de gérer aussi les archives audio. Ainsi en est-il du format METS, qui est essentiellement un ensemble de métadonnées qui couvrent le contenu, c'est-à-dire l'audio dans ce cas. Ces deux formats sont très utiles pour la gestion des contenus et informations associées, ainsi que pour les échanges entre services d'archives et dépôts.

6.2.2.3 Le format du SIP dépendra du système, de la taille et du degré de perfectionnement du projet. Il est tout à fait possible de constituer un service d'archives viable constitué de fichiers .wav, avec introduction manuelle de la plupart des métadonnées nécessaires, et de conduire l'acquisition des données techniques nécessaires lors de la phase d’ingestion dans le système. Ceci, toutefois ne concerne que les plus petites collections. Pour les grandes collections dont les processus de numérisation sont effectués à l'extérieur, à distance, les grands volumes de fichiers doivent bénéficier d'une entité d'entrée et de systèmes d'échange de données élaborés afin d'assurer une ingestion correcte des contenus dans le système de stockage. Un logiciel de production et de vérification génère beaucoup de données sous format de fichiers XML normalisés pouvant être utilisés à des fins de conservation. Par exemple, l'outil d'extraction de données (Metadata Extractor tool) développé par la Bibliothèque nationale de Nouvelle Zélande en langage Java, effectue l'extraction des métadonnées de conservation des objets numériques et la production de celle-ci dans un format normalisé (XML).

6.2.3 Métadonnées de conservation

6.2.3.1 Les métadonnées nécessaires à la gestion du processus de conservation dans l'étape d'entrée représentent toute l'information dont on dispose sur la création de l'objet audionumérique ainsi que sur les modifications de formats intervenues avant la phase d'entrée dans le système. De cette manière, la connaissance de l'origine technique de l'objet est conservée, ce qui permet de tracer le parcours de l'item entre sa forme présente et sa forme d'origine, à partir de laquelle il a été créé pour permettre sa traçabilité.

6.2.3.2 Le format BWF suit les recommandations non obligatoires du guide "Format for Coding History field in Broadcast Wave Format : format de codage dans le champ CodingHistory du format pour la radiodiffusion BWF" http://www.ebu.ch/CMSimages/en/tec_text_r98-1999_tmc7-4709.pdf qui décrit la manière dont les modifications apportées aux fichiers peuvent être formulées. L'utilisation du code libre texte ASCII permet de décrire les équipements techniques ou les logiciels ayant servi à la création de l'objet numérique audio.

6.3 Stockage des archives

6.3.1 Paquet d'informations archivé (AIP)

6.3.1.1 La définition de l'expression Stockage des Archives dans l'OAIS comprend les services et les fonctions nécessaires au stockage du paquet d'informations archivé (AIP). Le stockage des archives comprend la gestion des données, il inclut en outre divers processus tels que la sélection des médias à stocker, le transfert de l'AIP au système, la sécurité et la validité des données, la sauvegarde et la restauration des données, et enfin la duplication de l'AIP sur de nouveaux supports.

6.3.1.2 L'AIP, tel que défini dans le modèle de référence OAIS (CCSDS 650.0-B-1, Modèle de référence pour un Système ouvert d'archivage d'information (OAIS)), est un paquet d'information utilisé pour transmettre des objets d'archivage vers un système d'archivage numérique, pour stocker les objets dans le système, et pour transmettre les objets à partir du système. Un AIP contient à la fois les métadonnées qui décrivent la structure et la représentation du contenu archivé, et le contenu en tant que tel. Il se compose de multiples fichiers de données qui détiennent une entité de paquetage soit logique soit physique. L'implémentation du SIP peut varier d'un établissement d'archives à un autre; Elle définit toutefois un containeur qui contient toutes les informations nécessaires à la pérennisation et à l'accès des archives. Les métadonnées du modèle OAIS s'appuient sur les spécifications METS.

6.3.1.3 D'un point de vue physique, l'AIP comprend trois parties ; les métadonnées, l'information de représentation et l'information d'empaquetage, toutes constituées d'un ou plusieurs fichiers (voir 6.1.7 Définition de l'objet numérique). L'information d'empaquetage peut-être considérée comme une information d'enveloppe qui encapsule les métadonnées et les composantes du contenu.

6.3.2 Bases du stockage des archives

6.3.2.1 Le stockage des archives fournit les moyens de stocker, de préserver et de permettre l'accès au contenu archivé. Dans des petits systèmes, le processus de stockage peut être indépendant et opéré manuellement. Pour les systèmes de plus grande taille, les opérations de stockage sont généralement exécutées conjointement avec les applications de catalogage, avec les systèmes de gestion, de récupération de l'information et de contrôle des accès pour pouvoir gérer le contenu des archives et disposer d'une voie d'accès à ceux-ci.

6.3.2.2 Le stockage des archives doit être connecté aux équipements qui effectuent les entrées et procèdent à la création des documents destinés à être archivés, qui doivent fournir une interface sûre et fiable utilisable pour importer les données au système de stockage.

6.3.2.3 Un système de stockage des contenus d'archives doit être fiable, ceci de plusieurs manières : il doit être en état de fonctionner sans aucune interruption significative, être capable d'informer le système ou l'utilisateur de la réussite ou non de l'importation des contenus, et ainsi de pouvoir supprimer la copie entrée du fichier d'archives lors de l'importation si nécessaire. L'entité Stockage des Archives doit également être capable de préserver durablement les contenus qu'elle gère et les protéger de tous types de défaillances et de sinistres.

6.3.2.4 Un système de Stockage d'Archives doit être réalisé conformément aux attentes de l'exploitant ; il doit être correctement dimensionné pour répondre aux services attendus, pour gérer quotidiennement les fonctions requises. En outre, l'entité Stockage des Archives doit permettre l'accès contrôlé des contenus à des utilisateurs disposant des autorisations ou des droits d'accès.

6.3.3 Système de stockage en masse (Digital Mass Storage Systems (DMSS))

6.3.3.1 Un système de stockage en masse se réfère à un système d'information (SI) conçu et réalisé pour stocker et assurer la maintenance de grands volumes de donnée pour une période définie ou indéfinie. De tels systèmes peuvent prendre de nombreuses formes ; un DMSS de base comprendra un ordinateur personnel de capacité suffisamment importante et dont le mode de catalogage permet de garder trace du traitement des documents. Un système DMSS plus complexe comprendra un disque dur et / ou une unité de bandes magnétiques avec un ensemble d'ordinateurs contrôlant l'entité de stockage. Un système DMSS peut aussi se composer de nombreux niveaux de stockage aux caractéristiques diverses : une connexion haut débit (Fibre Channel (FC)) avec une unité de drive disque dur externe en guise de mémoire cache de données dont le temps d'accès est critique, tandis qu'un dispositif de disques durs moins coûteux peut être utilisé pour recueillir les documents dont le temps d'accès est moins critique, et enfin on pourra envisager le stockage sur bandes magnétiques, dispositif externe le plus économique.

6.3.3.2 Lorsque de nombreuses technologies de stockage sont mobilisées pour constituer une entité fonctionnelle de grande taille, un système de stockage hiérarchique des données (Hierarchical Storage Management (HSM)) est généralement déployé pour harmoniser le fonctionnement de ces différentes technologies. Des systèmes de taille encore plus importante peuvent aussi être répartis géographiquement afin d'améliorer les performances et la tolérance aux défaillances.

6.3.4 Types de bandes de données et introduction des formats

6.3.4.1 Dans ce qui suit, on évoque brièvement certains des principaux formats de bandes et systèmes automatiques utilisés pour le stockage de contenus audiovisuels numérisés. Dans un système DMSS, les bandes sont utilisées uniquement en association avec d'autres composants. Il est prudent de commencer cette présentation en comparant les différents formats de bandes, en retenant bien qu'aucun support n'est durable et que, toutes choses restant égales par ailleurs, ils ne seront viables que le temps de disponibilité du système dans lequel ils seront incorporés.

6.3.5 Performance des bandes de données

6.3.5.1 Le format géométrique et les dimensions conditionnent les performances. La vitesse de transfert des données, un des aspects des performances, dépend directement du nombre de pistes inscrites et lues simultanément, mais aussi de la vitesse relative tête-bande, de la densité linéaire et du codage. De même, une dimension réduite, un boîtier plus léger augmentent la cadence des mouvements dans le robot. La densité des données résulte :

    6.3.5.1.1 des compromis longueur et épaisseur de la bande
    6.3.5.1.2 de la largeur des pistes et de leur pas
    6.3.5.1.3 de la densité linéaire des données réparties sur chacune des pistes

6.3.6 Revêtements des bandes

6.3.6.1 Il existe deux types principaux de revêtement : à particules et à évaporation. La couche des premières bandes de données était constituée de particules d'oxyde métallique similaires aux bandes vidéo, tandis que les bandes plus récentes utilisent des particules métalliques (Metal Particules (MP)). Des particules de fer pur avec céramiques inertes et oxydes passivés sont dispersées dans des liants polymères appliqués uniformément sur un film polyester PET ou PEN ou autre substrat de bonne stabilité dimensionnelle et résistant à la traction. Certaines bandes de densité les plus élevées actuellement sur le marché utilisent un revêtement à métal évaporé tel que des alliages de cobalt ou d'autres matériaux similaires à ceux utilisés pour les disques durs. Cette technologie permet de disposer de matériaux magnétiques de plus grande pureté et de réaliser des couches encore plus minces. La plupart des bandes à métal évaporé (Metal Evaporated (ME)) comportent une couche polymère de protection similaire au liant des bandes MP. Les formulations les plus récentes comprennent également une couche de protection céramique. Certaines bandes ME de la première époque deviennent défectueuses par délamination après un usage intensif (Osaki 1993 : 11).

6.3.7 Modèles de boîtiers

6.3.7.1 Deux types de boîtiers sont utilisés principalement : les cassettes à deux axes (parfois appelées coplanaires [NDT]), pour lesquelles le temps d'accès peut être plus rapide, et les cartouches à axe unique (parfois appelées monoplanaires [NDT]) qui offrent une plus grande capacité pour un encombrement donné.

6.3.7.2 Les cassettes à deux axes comprennent :
    3,81 mm, essentiellement DDS [dérivée de DAT]
    QIC [quarter-inch cartridge] cartouche quart de pouce et TRAVAN
    Formats 8 mm, y compris Exabyte et AIT
    DFT
    Storagetek 9840    

6.3.7.3 Les cassettes à un axe comprennent :
    IBM MTC et formats Magstar tels que 3590, 3592 et TS1120
    Quantum S-DLT et DLT-S4
    LTO Ultrium [100, 200, 400 & 800 GB]
    Storagetek 9940 et T 10000
    Sony S-AIT    

6.3.7.4 En matière d'archivage pérenne, aucun modèle ne l'emporte sur un autre, la durée de vie dépend d'un ensemble de détails spécifiques à chaque format. Par exemple, certains modèles de cartouches 1/2 pouce à axe unique disposent de guides de grand diamètre dans le boîtier qui réduisent le frottement au minimum et assurent un guidage précis de la bande. On a l'expérience de problèmes de blocage de l'amorce dans le mécanisme d'anciennes cartouches à axe unique, même si leur fiabilité a été améliorée pour des modèles plus récents. Certaines cassettes à deux axes peuvent-être pré-positionnées en milieu de bande pour réduire au minimum le temps nécessaire pour atteindre n'importe quel fichier. Cette pratique va à l'encontre de celles habituellement adoptées pour les archives audiovisuelles qui consistent à enrouler soigneusement la bande jusqu'à son extrémité avant stockage afin que l'amorce seule soit exposée aux mécanismes de fixation. Mais généralement les bandes ne sont pas incorporées dans un boîtier hermétique qui les protégerait à l'instar des disques durs.

6.3.8 Bandes à lecture longitudinale et hélicoïdale

6.3.8.1 Les données peuvent être écrites ou lues à l'aide d'une tête fixe, procédé généralement décrit par le terme linéaire, ou bien avec un dispositif de tête tournante ou hélicoïdale. Les bandes linéaires présentent un tracé de piste en serpentin, on a estimé que ces mouvements de va-et-vient pouvaient user la bande ou encore produire un effet de lustrage. En principe, les bandes actuelles sont conçues pour supporter un grand nombre d'allers retours ; toutefois, il reste plus prudent de donner accès à des contenus fréquemment utilisés à partir d’un disque dur. Les bandes, sujettes aux phénomènes de décomposition chimique par hydrolyse ou autre réaction, glisseront mieux sur les pièces immobiles du chemin de défilement à des vitesses de 1 à 2 m/s ou davantage, vitesses typiques pour les têtes fixes ou formats linéaires. La vitesse relative tête-bande est plus élevée avec les têtes tournantes ou format hélicoïdal, un phénomène de coussin d'air se créé entre la surface de la bande et les têtes, mais la vitesse relative entre la bande et les pièces de guidage fixes étant beaucoup plus faible, un encrassement se produit fréquemment.

6.3.9 Mémoire auxiliaire et dispositifs d'accès

6.3.9.1 Les formats tels qu'AIT comportent une carte mémoire "Mémoire intégrée à la cassette" (Memory in Cassette (MIC)) qui stocke les informations relatives au positionnement des fichiers, procédé analogue à la Table des contenus (Table of Content (TOC)) des disques compacts qui permet une localisation rapide des données. Les cassettes DFT utilisent une mémoire rf (Radio Frequency Identification (RFID)).

6.3.10 Obsolescence des formats et cycles technologiques

6.3.10.1  C’est le propre du stockage de données que d’être en progrès et développement constants, ce qui signifie que les évolutions, et l’obsolescence qui les accompagne, sont inévitables.  Une gestion réaliste des contenus à long terme doit accepter cette situation, intégrer l'évolution continuelle par la mise à niveau des matériels et des médias. Si le noyau de l'infrastructure,  comme les câblages de transmission des données ou les espaces de rangement, peut rester fonctionnel pendant dix ou vingt ans, chaque driver, chaque support a une durée de vie beaucoup plus courte. La projection du développement des principaux formats de bandes de données implique la mise à jour de la feuille de route tous les 18 mois à 2 ans. La rétrocompatibilité des systèmes en mode lecture uniquement est parfois assurée pour une à deux générations de supports d’une même famille. En conséquence, une génération donnée de lecteurs de bandes et de supports peut-être opérationnelle pendant seulement 4 à 6 ans, durée au terme de laquelle il est essentiel de migrer les données et de changer de système 21. Qui plus est, le coût de maintenance des matériels de stockage  de masse tend à augmenter sensiblement quand l'ancienneté du système dépasse la période de garantie. Dans ce cas, on peut difficilement acquérir des pièces détachées neuves pour les bibliothèques de bandes ou les lecteurs, pour ne citer que ces exemples. Un résumé de feuilles de route prévisionnelles est présenté ci-dessous. De nombreux formats  sont compatibles en lecture seule, avec au moins une génération antérieure.
 

Familie 1ère Génération 2ème Génération 3ème Génération 4ème Génération 5ème Génération 6ème Génération
Quantum SDLT SDLT220 110GBytes SDLT320 160GBytes SDLT600 300GBytes DLT-S4 800GBytes    
IBM     3592 2004 300GB 40MB/s TS1120 2006 700GB 104MB/s    
Sun - Storagetek   9940B 2002 200GB 30MB/s T10000 2006 500GB 120MB/s T10000B-2008 ITB 120MB/s    
LTO LTO-1 2001 100GB 20MB/s LTO-2 2003 200GB 40MB/s LTO-3 2004 400GB 80MB/s LTO-4 2007 800GB 120MB/s LTO-5 no date (2009+) 1.6TB 180MB/s (estimé) LTO-6 no date (2011+) 3.2TB 270MB/s (estimé)
Sony S-AIT S-AIT 2003 500 GB 30MB/s S-AIT2 2006 800 GB 45MB/s        
Sony AIT     AIT-3 2003 100 GB 12MB/s AIT-4 2005 200 GB 24MB/s    

Tableau 1 paragraphe 6.3 Projection de la feuille de route des bandes de données


21. Ceci implique un certain gaspillage et une pression environnementale qui dépasse le champ de notre discussion purement technique, mais en réalité, une grande bibliothèque détenant des bandes anciennes consomme davantage de polymères, c'est-à-dire une plus grande quantité de produits d'origine pétrochimique qu'un nouveau système haute densité utilisant des lecteurs et robots plus efficaces au plan énergétique et qui, par la même occasion, occupera moins d'espace construit.

6.3.11 Récupération automatisée ou manuelle des données

6.3.11.1 Pour des opérations à petite échelle, il est possible de sauvegarder les données d'une petite station avec un lecteur de bande, puis de placer manuellement la cartouche enregistrée sur une étagère pour un stockage traditionnel. Pour les systèmes en réseau de taille réduite également, on peut effectuer des sauvegardes manuelles des données archivées (voir aussi Chapitre 7 Approches des systèmes de stockage à petite échelle). Les mêmes conseils prodigués à propos des conditions d'environnement de stockage s'appliquent également aux autres types de bandes magnétiques ; dans ce cas il ne peut être que bénéfique de bien veiller à réduire au maximum la présence de poussière, particules et agents polluants. Pour des opérations de plus grande échelle, notamment dans les pays où le coût du travail est élevé et les budgets d'équipement plutôt favorables, un certain niveau d'automatisation est d'ordinaire souhaitable car plus économique que les systèmes exclusivement manuels. Le niveau d'automatisation dépend de l'ampleur et de l'importance des tâches à accomplir, du type d'accès du contenu, des ressources.

6.3.11.2 Bibliothèques de bandes à autochargeurs et robotisées : après les simples drives lecteurs, on évoquera les petits systèmes équipés d'un automate de chargement, d'un lecteur unique (parfois double), de cassettes en rangée simple ou en carrousel qui seront chargées au moment des opérations de sauvegarde. La principale différence entre les autochargeurs et les robots des grandes bibliothèques  se trouve dans le mode de lecture :  les bandes enregistrées ne sont pas identifiées par un logiciel de sauvegarde dans une base de données centrale permettant la récupération automatique des données. Au contraire, Les tâches  de recherche, de récupération et de chargement des fichiers individuels incombent encore à un opérateur.  Tous ce que font ces systèmes à chargement automatique, c’est de permettre, comme leur nom l'indique, l'écriture ou la lecture séquentielle  d’un lot de bandes afin de surmonter les limitations d'échelle des  supports de données individuels, et de se passer de la présence d'un opérateur pour effectuer le chargement de la bande suivante lors d'un long processus de sauvegarde.

6.3.11.3 En contraste, même les plus petites bibliothèques automatisées sont programmées pour se comporter comme un simple système autonome de stockage. La localisation de fichiers individuels sur différentes bandes est transparente pour l'utilisateur, le contrôleur garde la trace de l'adresse des fichiers sur chaque bande, ainsi que la localisation physique des bandes dans la bibliothèque. Si les bandes sont retirées ou rechargées, le système du robot scanne à nouveau l’emplacement de la bande pour mettre à jour son inventaire à l'aide des métadonnées détenues dans le code à barres, ou bien par identification rf des étiquettes ou des puces mémoires que comportent certains boîtiers.

6.3.11.4 Les bibliothèques de bandes de grande taille présentent quelques avantages en comparaison des plus petites bibliothèques. Elles peuvent être conçues pour accueillir des informations redondantes et les distribuer : les temps d'arrêt peuvent-être minimisés et les chargements lecture / écriture répartis sur plusieurs systèmes similaires. Les bibliothèques de grande taille peuvent aussi être utilisées en tant que système polyvalent. Elles peuvent, par exemple, effectuer les opérations de maintenance des sauvegardes d'une société de service informatique tout en assurant la gestion des archives sonores et audiovisuelles dans leur totalité.       

6.3.11.5 Les bandes de données en bobine libre ou en cartouche utilisées dans les systèmes robotisés bénéficient des systèmes de codes à barres, d'étiquettes rf ou autres dispositifs d'identification. Ces systèmes de reconnaissance optique ou électromagnétique se conjuguent parfois avec un codage MIC afin de disposer d'informations supplémentaires ID de la bande et des contenus. Certains formats incorporent un système ID global de codes à barres, aussi une bande utilisée dans une bibliothèque robotisée peut-elle être reconnue par un autre système de bibliothèque.

6.3.11.6 Logiciels de sauvegarde et de migrations, calendrier : des confusions et incompréhensions se manifestent dans le milieu des technologies de l'information (IT) et dans la communauté de l'archivage des données à long terme. On relève deux idées fausses très répandues dans l'opinion. La première, que l'archivage est un processus qui consiste à déplacer des supports peu utilisés, d’un système coûteux composé de disques durs de stockage en réseau  vers un dispositif local non connecté (offline), sur étagère, moins coûteux mais qui, inaccessible, ne permettra jamais la récupération des données ; la deuxième, que la sauvegarde est une opération de routine quotidienne ou hebdomadaire de duplication de la totalité des données stockées dans le système.

6.3.11.7 A propos de la première idée fausse, certains documents sonores parmi les plus importants et les plus précieux peuvent  effectivement ne pas être utilisés pendant des mois, voire des années, mais, pour autant, leur survie doit être garantie sans concession. De même pour la seconde idée fausse, si des règles appropriées sont mises en œuvre, il n'est pas nécessaire de dupliquer chaque jour ou chaque semaine une quantité importante de données alors qu'une faible proportion d'entre-elles est actualisée. En pratique, si un processus strict de duplication des données sur différents média placés en des lieux différents est essentiel pour minimiser les risques de défaillance technologiques et assurer la récupération de données en     cas de sinistre, les caractéristiques particulières d'un patrimoine numérique nécessitent des procédures qui différent des opérations de routine utilisées dans le domaine des technologies de l'information (IT).  

6.3.11.8 Les systèmes HSM (Hierarchical Storage Management) conventionnels peuvent être optimisés pour effectuer régulièrement les sauvegardes de tous les documents et déplacer les contenus les plus rarement utilisés vers des emplacements inaccessibles. Des systèmes plus élaborés peuvent être configurés en fonction des règles de gestion et des pratiques des services d'archives de différentes tailles, pour lesquels plusieurs niveaux d'accès peuvent être proposés. Une institution de taille moyenne peut emmagasiner 100 GB de données audio chaque semaine ou 1 TB de programmes vidéo. Il est clair qu'il faut réaliser des copies dès l'entrée de documents précieux dans le système et préserver l'accessibilité des contenus fréquemment utilisés.

6.3.11.9 Certaines fonctions de base de logiciels de gestion d'archives optimisent les ressources et les composantes matérielles du système tout en régulant le trafic et en ne provoquant qu'un retard minimum pour les utilisateurs. Les logiciels HSM permettent de définir les critères de migration des fichiers, d'un disque en ligne vers une bande, critères tels que : ancienneté du document, volume de données atteint, localisation dans tel ou tel sous-dossier, ou bien encore espace restant disponible sur le disque dur (lignes de niveau supérieur et inférieur).

6.3.11.10 Typiquement, lorsqu'on produit des fichiers haute résolution et leur copie d'accès basse résolution, la version haute résolution réalisée pour la conservation des documents et les transmissions radiophoniques devra être migrée sur bandes afin de libérer de l'espace sur les disques durs, plus coûteux. Un équilibre est nécessaire pour maintenir la disponibilité  des informations tout en optimisant l'utilisation des lecteurs de bandes et des médias. Si l'on doit accéder aux bandes de manière très fréquente, les chargements et déchargements de celles-ci, les opérations d'enroulement et de remise en route répétées auront pour conséquence la dégradation des performances du système. Les systèmes de gestion de contenus plus élaborés comportent des niveaux inférieurs de gestion du stockage, de sorte que  les utilisateurs ont une conscience moindre des fichiers individuels et composants qui soutiennent le système.

6.3.12 Sélection et contrôle des bandes de données

6.3.12.1 Pour tout système de conservation, il est important, non seulement de disposer de copies de sauvegarde et d'exemplaires redondants pour pallier les défaillances des média et des matériels, mais aussi, et de manière vitale, de pratiquer l'analyse des performances des éléments essentiels du système. Des logiciels, tels que SCSI-Tools permettent une interrogation bas niveau de chacun des drives et dispositifs en réseau afin de déterminer si les performances des médias et des appareils sont optimales. Les bandes LTO disposent d'une interface de contrôle des données, mais cette fonctionnalité est rarement utilisée alors qu'elle le serait de manière avantageuse pour les systèmes d'archivage. Certains systèmes HSM sont capables d'effectuer des contrôles réguliers de la qualité des documents stockés. De tels systèmes contrôlent les taux d'erreurs lorsque les utilisateurs accèdent aux contenus ou les lisent, ou bien sans aucune intervention lorsqu'une bande n'a pas été utilisée pendant un certain temps.

6.3.13 Coûts

6.3.13.1 Typiquement, le coût de stockage sur bande se répartit sur quatre postes : la bande elle-même : approvisionnement et remplacement de l'exemplaire de base, bandes de sauvegarde, ceci tous les 3 à 5 ans ; les lecteurs de bande : approvisionnement et remplacement tous les 1 à 5 ans, avec assistance technique ; l'achat et la maintenance de bibliothèques robotisées pour un cycle de vie de 10 ans, et enfin les logiciels : achat, intégration/développement et maintenance.

6.3.13.2 Dans un système manuel, l'archivage sur étagères est moins coûteux, seulement l'espace nécessaire pour le personnel est plus important, et les tâches de recherches manuelles et de vérification se montrent plus onéreuses. Dans un système robotisé, une grande partie des coûts en ressources humaines est compensée par les frais d'équipements et de logiciels. Les grandes bibliothèques de bandes robotisées peuvent être acquises de manière modulaire pour répartir les coûts sur plusieurs années au fur et à mesure que le fonds d’archive s’accroît. Selon la durée de vie d'une bibliothèque de bandes robotisée, ses équipements tels que les lecteurs - enregistreurs seront remplacées par de nouveaux dispositifs tous les trois à cinq ans. Si un fonds d'archives est consulté en permanence, la durée de vie des lecteurs - enregistreurs peut-être écourtée, une année seulement ou moins. Des bandes et lecteurs plus anciens peuvent être réservés en surnombre si nécessaire. Si la croissance d'un service d'archives est lente, la génération actuelle de bandes et lecteurs ainsi que la génération suivante peuvent coexister dans une bandothèque le temps de migrer les contenus vers la nouvelle génération de médias ou de technologie. Si la taille du service d'archives augmente de manière régulière, il peut-être préférable, au plan économique, de créer une bibliothèque de bandes de dimension exactement nécessaire au stockage de données archivées pendant la durée de vie de la technologie en cours, puis de faire l'acquisition d'un nouveau système de capacité plus importante pour accueillir les documents issus de la nouvelle génération technologique ainsi que les contenus provenant de la migration de documents plus anciens. Cette approche est également nécessaire si ancienne et nouvelle technologie ne peuvent coexister dans la même unité.

6.3.13.3 Conserver au moins une copie redondante hors site ou géographiquement éloignée est une bonne pratique. Un rayon de 20 à 50 km est généralement indiqué vis-à-vis des risques naturels ou d'origine humaine, il permet de récupérer manuellement les données en quelques heures. Pour diminuer d'autres risques, les copies supplémentaires devront être réalisées sur différents lots ou des sources différentes de média, ou bien encore faire appel à différentes technologies. Certaines bandes de données proviennent d'un seul fabricant, aussi les risques d'être confronté à un seul mode de défaillance augmentent-ils. Trois copies des données sont plus sûres que deux, et malgré l'augmentation du coût des supports, les dépenses dues aux équipements et aux logiciels ne seront que légèrement supérieurs à celles de la première copie.

6.3.14 Disques durs (Hard Disk Drives (HDD)) Introduction

6.3.14.1 Les disques durs (HDD) ont été utilisés en temps que mémoire primaire et mémoire de stockage des ordinateurs depuis le lancement par IBM du modèle 3340 en 1973. Son surnom "le Winchester" provient de l'appellation 30/30 correspondant à ses 30 GB de mémoire fixe et ses 30 GB de mémoire amovible, expression répandue chez les professionnels qui reprenait le nom du célèbre fusil. La fiabilité des disques durs devait être démontrée grâce à la conception innovante des têtes de ce modèle. La réduction de la taille, les développements de la conception de la tête et du disque ont largement contribué à augmenter la fiabilité des disques durs et à produire des modèles robustes d'usage courant de nos jours.

6.3.14.2 les gestionnaires de systèmes de données, responsables de la maintenance des informations, ont considéré que les disques durs n'étaient pas suffisamment fiables pour n'utiliser qu'une seule copie d'un item, mais que les copies multiples de disques étaient trop coûteuses, et qu’ en conséquence, il convenait d'utiliser des systèmes multidisques, plus fiables. Les données sur HDD ont donc été dupliquées plusieurs fois sur des bandes pour assurer leur sauvegarde. Comme indiqué ci-dessus (6.1.4 Aspects pratiques des stratégies de protection des données et 7.6 stockage d'archives), tous les systèmes de données devront réaliser des copies multiples séparées de la totalité des données. Les experts ont tendance à penser que le système de données le plus fiable est constitué de HDD en baie, renforcés par des copies multiples sur bandes ; pour autant, la diminution continue des coûts et l'augmentation de la fiabilité rendent possible le concept de la duplication à l'identique des données sur disques séparés. Le principe de la duplication multi- supports demeure, alors que le stockage sur disque unique constitue un risque.

6.3.15 Fiabilité

6.3.15.1 Les pertes de données consécutives à la défaillance de disques et de crashes de têtes ont rendu la plupart des professionnels de systèmes informatiques méfiants à l'égard des HDD ; toutefois les fabricants annoncent des taux annuels de défaillance inférieurs à un pourcent pour un période de fonctionnement de 40 000 heures (Plend 2003). Les drives très fiables peuvent même prétendre à une durée de vie opérationnelle plus longue, celle-ci étant définie par la durée moyenne séparant deux avaries ("mean time between failure"). Bien que les HDD soient indépendants, scellés dans un boîtier, ainsi protégés des dommages, la plupart des défaillances se produisent de deux manières contradictoires : par l'usure résultant d'une utilisation prolongée, ou bien par des mises sous tension- hors tension successives. Le dilemme est de choisir entre laisser le disque en activité, ce qui augmente l'usure, ou bien allumer-éteindre le système, pratique qui accroît les risques de défaillance.

6.3.16 Description des systèmes, complexité et coûts

6.3.16.1 Comme il a été noté dans le chapitre 2 - Clés du numérique-Principes, la puissance des dernières générations d'ordinateurs permet la manipulation de gros fichiers audio. Toutes les générations récentes d'ordinateurs incorporent des disques durs de vitesse et de capacités acceptables, ils offrent la possibilité de brancher un HDD externe via un port USB, Firewire ou SCSI. La complexité des systèmes, le niveau d'expertise nécessaire pour les utiliser ne sont guère plus importants que dans le cas des ordinateurs portables.

6.3.16.2 Lorsque de très grandes quantités de contenus audio et audiovisuels doivent, pour des raisons d'accès et de stockage, être stockées sur HDD, les disques sont généralement intégrés dans un dispositif RAID (Redondant Array of Inexpensive (or Independant) Disks - Regroupement redondant de disques indépendants). Le système RAID augmente la fiabilité des disques durs ainsi que la vitesse totale d'accès en traitant les disques groupés comme un seul disque de grande taille. Si un disque tombe en panne, il peut-être remplacé et toutes les données de ce disque reconstruites à partir des données réparties sur les autres disques de l'ensemble. Le niveau des défaillances tolérées par le système et la vitesse de récupération des données perdues déterminent les niveaux du système RAID. Le RAID n'est pas un outil de préservation des données, mais un moyen de maintenir l'accès à celles-ci malgré les défaillances inévitables des disques. Le niveau RAID adapté à une installation donnée, les conditions de duplication des mémoires du contrôleur, sont indépendantes des circonstances et de la fréquence des duplications de données. Un système RAID nécessite d'activer tous les disques groupés dès qu'un élément d'un disque est sollicité. Tous les disques RAID contenant des contenus d'archives aussi bien que des données numériques, doivent faire l'objet d'au moins une duplication sur d'autres supports.

Capacité Capacité
native
bande
(GB)
Nb
de
bandes
Nb
lecteurs
recommandées
Nb
maximum
lecteurs
Prix du
système
(€)
Prix
de la
bande
(€)
Prix
du
lecteur
(€)
Coût
par
GB
(€)
10 TB 800 13 2 4 20 480 97 7 625 2,05
50 TB 800 63 4 16 56 800 97 10 175 1,14
100 TB 800 125 8 16 134 050 97 12 725 1,34
200 TB 800 250 12 16 205 350 97 12 725 1,03
500 TB 800 625 18 56 446 938 97 15 975 0,89
1000 TB 800 1250 36 88 864 517 97 15 975 0,86
2000 TB 800 2500 72 176 1 687 690 97 15 975 0,84

Tableau 2 Paragraphe 6.3 : coûts d'investissement d'un système de stockage sur LTO-4

 

Capacité Maintenance
HW An 1
(€)
Maintenance
SW An 1
(€)
Maintenance
HW An 2
(€)
Maintenance
SW An 2
(€)
Maintenance
HW An 3
(€)
Maintenance
SW An 3
(€)
Maintenance
HW An 4
(€)
Maintenance
SW An 4
(€)
Maintenance
HW An 5
(€)
Maintenance
SW An 5
(€)
10 TB 2 420 n/a 2 420 n/a 2 420 n/a 2 514 n/a 2 514 n/a
50 TB 3 454 n/a 4 958 n/a 4 958 n/a 4 958 n/a 4 958 n/a
100 TB 11 808 490 13 817 490 13 817 490 13 817 490 13 817 490
200 TB 15 787 582 19 323 582 19 323 582 19 323 582 19 323 582
500 TB 27 380 1 068 34 111 1 068 34 111 1 068 34 111 1 068 34 111 1 068
1000 TB 47 542 2 115 66 734 2 115 66 734 2 115 66 734 2 115 66 734 2 115
2000 TB 99 272 4 221 99 272 4 221 99 272 4 221 99 272 4 221 99 272 4 221

HW Hardware : équipement
SW Software : logiciels

Tableau 3 Paragraphe 6.3 : coûts annuels de maintenance d'un système de stockage sur LTO-4

Notes à propos des tableaux :

  • Prix moyens établis à partir de tarifs de plusieurs distributeurs. Le prix effectif est généralement inférieur
  • Les prix indiqués correspondent à une capacité brute. Pour les sauvegardes, prévoir au moins une quantité double de bandes
  • Les prix de la colonne du système incluent le prix des bandes et des lecteurs pour la capacité correspondante, ils ne tiennent pas compte du système HSM, équipement et logiciels
  • Les tableaux indiquent seulement les coûts d'investissement et les frais de maintenance facturés par un prestataire. Il faut ajouter les dépenses d'électricité, de climatisation de la salle des machines, de gestion, etc. dans les calculs pour chaque cas. Les coûts d'électricité et de climatisation des systèmes de stockage sur bandes peuvent représenter 10 % des dépenses sur une période de 5 ans.

 

Capacité Technilogie du Drive Capacité du Drive (GB) Nb drives Prix du
système
(€)
Prix
du
Drive
(€)
Coût
par
GB
(€)
5 TB SATA 500–1000 5–10 11 884 1 000 2,38
10 TB SATA 750–1000 10–14 19 997 1 000 2,00
50 TB SATA/FATA 1000 50 124 334 1 800 2,49
100 TB SATA/FATA 1000 100 230 914 1 800 2,31
200 TB SATA/FATA 1000 200 456 942 1 800 2,28
500 TB SATA/FATA 1000 500 1 202 726 1 900 2,41
1000 TB SATA/FATA 1000 1000 2 566 513 1 900 2,57
2000 TB SATA/FATA 1000 2000 4 782 584 1 900 2,39

Tableau 4 Paragraphe 6.3 : coûts d'investissement d'un système de stockage sur HDD

 

Capacité Maintenance
HW An 1
(€)
Maintenance
SW An 1
(€)
Maintenance
HW An 2
(€)
Maintenance
SW An 2
(€)
Maintenance
HW An 3
(€)
Maintenance
SW An 3
(€)
Maintenance
HW An 4
(€)
Maintenance
SW An 4
(€)
Maintenance
HW An 5
(€)
Maintenance
SW An 5
(€)
5 TB 826 750 826 750 826 750 1.845 750 1.845 750
10 TB 1.206 1.125 1.206 1.125 1.206 1.125 2.600 1.125 2.600 1.125
50 TB 5.822 6.125 5.822 6.125 5.822 6.125 12.365 6.125 12.365 6.125
100 TB 10.514 8.500 10.514 8.500 10.514 8.500 22.391 8.500 22.391 8.500
200 TB 21.724 12.750 21.724 12.750 21.724 12.750 44.956 12.750 44.956 12.750
500 TB 57.061 37.250 57.061 37.250 130.394 37.250 130.394 37.250 130.394 37.250
1000 TB 130.203 66.250 130.203 66.250 263.537 66.250 263.537 66.250 263.537 66.250
2000 TB 223.778 124.250 223.778 124.250 477.121 124.250 477.121 124.250 477.121 124.250

Tableau 5 Paragraphe 6.3 : coûts annuels de maintenance d'un système de stockage sur HDD

6.3.17 Stockage sur un seul disque

6.3.17.1 Le nombre de disques RAID peut être augmenté dans les limites du système, tandis que le nombre de disques individuels n'a pas de limite, il suffit d'ajouter des drives. Depuis le lancement des HDD IBM 3340, la capacité de stockage a rapidement augmenté, de manière exponentielle pratiquement, tandis que les prix baissaient. De tels changements ajoutés à l'augmentation de la fiabilité, ont amené certains à penser que le HDD pouvait être utilisé à la fois comme système primaire de stockage et comme copie de sauvegarde. Cette approche rencontre en fait trois difficultés. Premièrement, l'estimation de la durée de vie des disques durs sur la base de durée d'utilisation, du nombre d'heures en opération : Il n'existe pas de tests de durée de vie de HDD peu utilisés. Deuxièmement, disposer de données sur différents médias est avantageux, les risques de défaillance étant répartis, mais, cette approche doit être considérée avec beaucoup de prudence. Enfin, il n'est pas possible de contrôler l'état de disques posés sur une étagère sans les faire fonctionner à intervalles réguliers et donc compromettre l'avantage acquis par leur l'inactivité (voir section 6.3.18 ci-dessous, Contrôle des médias disques durs). Utiliser différents types de supports (bandes et disques durs) reste la meilleure option. Les disques durs devront être implémentés dans un système intégré.

6.3.18 Systèmes de stockage sur disques durs

6.3.18 Systèmes de stockage sur disques durs

6.3.18.1 Les systèmes de stockage sur disques durs sont centralisés afin d'en optimiser l'utilisation et d'offrir de grandes capacités et / ou des performances élevées. Ces systèmes sont utilisés avec des serveurs afin d'épargner une partie ou la totalité des capacités de stockage des disques durs. Ce type de système est fréquemment utilisé pour des environnements de stockage d'archives de moyenne ou de grande taille. Un système peut aussi être constitué d'un dispositif d'archivage centralisé partagé avec un certain nombre d'ordinateurs. La taille d'un système peut varier de 1 téraoctet à plusieurs pétaoctets. On tiendra compte du fait que les performances d'un système de stockage peuvent varier de manière significative en fonction de la configuration choisie, et qu'il est essentiel de planifier soigneusement, et par anticipation, les véritables exigences d'un système : il faudra faire appel à  des professionnels qualifiés  pour configurer la structure de stockage et les interfaces du système  afin de produire le meilleur retour sur investissement.

6.3.18.2 Les systèmes de stockage sur disques durs centralisés sont conçus pour offrir une meilleure protection contre les erreurs que les disques indépendants. Ces systèmes proposent plusieurs niveaux de protection RAID, leurs composants  peuvent être redondants afin d'éviter les points singuliers de défaillances, et les systèmes  peuvent être dispersés localement ou géographiquement  pour protéger  des documents  de grande valeur  contre certaines défaillances et sinistres.   

6.3.18.3 Les liaisons entre système de stockage et ordinateurs dédiés jouent un rôle important quant aux performances du dispositif. De manière générale, deux méthodes sont utilisées : NAS (Network Attached Storage : périphérique de stockage orienté réseau) et SAN (Storage Area Network : réseau de stockage). Les périphériques NAS utilisent les connexions conventionnelles des systèmes d'information telles Ethernet pour véhiculer les données entre ordinateur et système de stockage, tandis que les systèmes SAN adoptent des connexions selon le protocole Fibre Channel. Les systèmes NAS peuvent opérer à des cadences de 100 Mbits/s, 1 Gbit/s et 10 Gbits/s tandis que les systèmes SAN atteignent 2 Gbits/s ou 4 Gbits/s. Les deux technologies disposent de feuilles de route bien établies, aussi peut-on compter sur une évolution des performances à venir. Généralement, la technologie SAN, plus performante grâce à sa conception spécifique, est préférée pour  les environnements les plus exigeants. Par exemple, la taille de blocs entrées/sorties (I/O) peut-être contrôlée plus efficacement dans l'environnement SAN tandis que les protocoles réseaux ont tendance à forcer les systèmes NAS à utiliser des tailles de blocs I/O beaucoup plus petits. Economiquement parlant, la technologie NAS est meilleur marché que la technologie SAN.

6.3.19 Durée de vie des disques durs

6.3.19.1 Comme indiqué ci-dessus, on estime la durée de vie des disques durs (HDD) commercialisés actuellement à 40 000 heures. Les pratiques commerciales correspondent typiquement à un taux de renouvellement de 5 ans. Certains perfectionnements apportés aux modèles les plus récents : roulements de broche en milieu fluide avec billes en céramique, lubrification de la surface des plateaux, permettent de prolonger quelque peu la durée de vie des HDD. Cependant nous ne disposons pas de tests fiables de la durée de vie de HDD inactifs, il serait judicieux de planifier le remplacement des disques d'un tel dispositif dans les 5 ans.

6.3.20 Contrôle des supports disques durs

6.3.20.1 L'indication de défaillance imminente d'un disque peut être produite par l'augmentation du nombre de blocs erronés de données. Typiquement, les derniers modèles de disques, même neufs, présentent des blocs erronés, la plupart des systèmes réagissent en réassignant l'adresse des blocs défectueux. Toutefois, l'augmentation du nombre de blocs défectueux peut être un indicateur du début de défaillance du disque. Des logiciels signalant l'augmentation de blocs de données erronées sont disponibles, ils mesurent aussi d'autres caractéristiques physiques susceptibles d'indiquer des problèmes de disque.

6.3.21 Technologies HDD

6.3.21.1 On compte quatre méthodes principales pour connecter des disques durs et d'autres périphériques aux ordinateurs : USB (Universal Serial Bus), IEEE 1394 (Firewire), SCSI (Small Computer System) et SATA/ATA (Serial Advanced Technology Attachment/AT Attachement). Chaque système présente un avantage particulier dans certaines situations. USB et Firewire sont prévus en tant que bus tout usage pour relier un PC à un HDD, à une caméra vidéo numérique ou bien à un lecteur MP3. SCSI et SATA/ATA sont principalement utilisés pour connecter des drives disques durs avec un ordinateur ou un système de stockage sur disques.

6.3.21.2 L'interface SCSI et ses successeurs SAS (Serial Attached SCSI) permettent des vitesses d'écriture et de lecture plus rapides, elles facilitent l'accès à un plus grand nombre de drives que SATA/ATA ne le permettait. Les disques SCSI peuvent accepter de multiples commandes à la fois sur un bus SCSI, ils n'ont pas à supporter les files d'attente comme SATA/ATA. Les drives SATA/ATA sont comparativement moins coûteux. La vitesse d'accès en mode lecture est pratiquement la même ; dans un contexte audio, aucune interface particulière ne limitera les opérations d'une station audio numérique (digital audio workstation (DAW)). Les différences de performances des drives SCSI/SAS et SATA doivent être prises en compte dans le cadre des systèmes centralisés de stockage sur disques à usage intensif.

6.3.21.3 Les drives Fibre Channel (FC) SCSI/SAS répondent principalement aux exigences des entreprises ou des systèmes d'administration tandis que les drives SATA, moins coûteux, visent davantage le marché des particuliers ; toutefois, on observe une utilisation croissante de ces derniers qui offrent des capacités de stockage plus économiques pour les entreprises et les systèmes d'administration. Dans ces centres de stockage, la décision d'adopter la technologie (FC) SCSI/SAS ou SATA dépend de la charge effective du système. Si un système assure l'archivage de contenu de petite ou de moyenne taille, et qu’on n’a pas besoin d’y accéder fréquemment, une solution SATA peut-être tout à fait suffisante. La décision finale doit être argumentée sur des exigences clairement établies et négociée avec un des fournisseurs de solutions de stockage.

6.3.21.4 Les disques avec interface USB ou Firewire peuvent servir au transfert des contenus d'un environnement à une autre mais, peu fiables, difficiles à contrôler, faciles à perdre, ils ne devront pas être utilisés pour l'archivage, même si les prix peuvent paraître très intéressants.

6.3.21.5 Le type d'interface ne fournit pas d'indication suffisante sur la fiabilité et les performances d'un drive ou d'un système de stockage, aussi l'acquéreur doit-il être bien informé à propos des différentes possibilités d'exploitation et des paramètres de configuration d'un système. Il semble bien que les drives les plus fiables soient associés aux interfaces FC SCSI/SAS. Toutefois, les disques HDD n'étant pas fiables dans la durée, toutes les données audio devront donc être sauvegardées sur des bandes adaptées (voir 6.3.5 Performances des bandes de données). (Pour plus de détails, voir Anderson, Dykes and Riedel 2003).

6.3.21.6 Une technologie de stockage est en train d'émerger, et elle pourrait atteindre une position proéminente dans un futur proche. Le stockage sur mémoire à semi-conducteurs sous la forme de mémoires flash est en train de se développer comme alternative aux disques durs amovibles, et il est déjà utilisé comme alternative aux disques HDD des PC portables. Certains constructeurs de systèmes de stockage ont introduit des drives flash dans leur produit d'entrée et de milieu de gamme, et projettent de les introduire également dans leurs systèmes haut de gamme. Même si le stockage sur mémoire flash doit encore relever certains défis en matière de fiabilité pour constituer une solution viable aux besoins de stockage de la communauté des archivistes : son prix par gigaoctet devient compétitif, il est plus respectueux de l'environnement car moins gourmand en énergie, et il ne comporte pas de pièces mobiles, ce qui pourrait signifier une plus longue durée de vie des unités de stockage. Une durée de vie d'une unité de stockage de dix ans au lieu de cinq ans pourrait se traduire pour un service d’archives par une réduction des coûts d'investissement et de gestion, la migration vers le système de technologie suivante pouvant être supprimée. En termes de performance de lecture et d'écriture, le stockage sur mémoire flash est déjà comparable à la technologie des disques HDD.

6.3.22 Hierarchical Storage Management (HSM) (Systèmes permettant le stockage hiérarchique des données (HSM))

6.3.22.1 Les fonctions de stockage des archives de l'OAIS intègrent la notion de stockage hiérarchique des données (HSM) dans le modèle conceptuel. A l'époque où l'OAIS a été élaboré, on ne pouvait envisager de gérer autrement de grandes quantités de données à prix abordable. La question pratique qui motive la mise en œuvre d'un système HSM est posée par le coût des différents médias de stockage, par exemple le coût élevé des disques de stockage en regard de celui, moins élevé, des bandes magnétiques. Dans cette situation, le système HSM fournit un simple entrepôt virtuel d'informations, alors, qu'en réalité, les copies peuvent être réparties sur de nombreux types de supports en fonction de leur usage et de la vitesse d'accès qu'ils proposent.

6.3.22.2 Néanmoins, le prix des disques durs ayant diminué plus rapidement que celui des bandes, ils se rejoignent. En conséquence, l'utilisation du système HSM devient un choix d'implémentation réaliste. Dans ces conditions, un système de stockage qui détient toutes les données sur disques durs, la totalité de ces données étant également stockées sur un certain nombre de bandes, constitue une proposition abordable notamment pour les systèmes de stockage atteignant une capacité de 50 téraoctets (en augmentation chaque année). Pour les stockages numériques de plus petite taille, un système HSM fonctionnel dans sa totalité n'est pas nécessaire, on envisagera plutôt un système bien plus simple, capable de gérer et conserver les informations sur l’emplacement des copies ainsi que l’âge et les différentes versions des documents, et de dupliquer sur disque et bande magnétique la totalité des données stockées.

6.3.22.3 Pour les systèmes de stockage de moyenne et de grande taille, le recours au système HSM reste et continue de rester une composante parmi les plus onéreuses des systèmes de stockage numérique.

6.3.23 Logiciels de gestion des fichiers des plus petits systèmes

6.3.23.1 L'objectif des logiciels de gestion de fichiers des systèmes dont la totalité de l’archive est dupliquée sur disques durs et bandes, consiste à garder la traçabilité de la localisation, des conditions de création, de la fidélité et de l'ancienneté des copies sur bandes. Ces fonctionnalités fondamentales de sauvegarde constituent une alternative moins coûteuse au système HSM classique et peuvent, au moins en théorie pour les petits systèmes, être plus fiables. Toutefois, les grands systèmes HSM représentent un marché conséquent qui suscite, en matière de recherche et développement dans ce domaine, le soutien de firmes industrielles. Les logiciels de gestion de fichiers de petite taille sont en cours d'élaboration dans la communauté des développeurs de logiciels open source. De tels systèmes font partie des trois applications NAS open source les plus populaires : FreeNAS, Openfiler et NASLite, ainsi que Advanced Maryland Automatic Network Disk Archiver (AMANDA). Comme pour toutes les solutions open source, la responsabilité revient à l'utilisateur de tester la pertinence et la fiabilité de ces systèmes ; sans développements supplémentaires, cette publication ne fera pas de recommandations spécifiques.

6.3.24 Vérifications et récupération de données

6.3.24.1 Grâce à certains logiciels commerciaux, les erreurs de lecture/écriture sur bande peuvent être rapportées automatiquement pendant le processus de sauvegarde et de vérification. Cette fonction est normalement implémentée avec un contrôle de redondance cyclique, une technologie utilisant les checksums (sommes de contrôle) de données qui détecte les erreurs dues aux transmissions ou au stockage. On recommande d'implémenter les fonctions de contrôle d'erreurs dans tout système d'archivage. Il est difficile d'implémenter les contrôles d'erreurs dans l'open source, leur capacité dépendant des spécificités du matériel informatique. Un lecteur autonome de cartouches LTO est commercialisé avec le logiciel de contrôle d'erreurs "Veritape" de MPTapes, Inc. et récemment, Fuji Magnetics a annoncé le contrôle de cassettes LTO avec le Chip Reader Diagnostics System, livré avec un logiciel.

6.3.25 Intégrité et Checksums

6.3.25.1 Le checksum est une valeur calculée pour vérifier qu'aucune donnée stockée, transmise et dupliquée ne comporte d'erreurs. La valeur est calculée selon un algorithme approprié puis transmise ou stockée avec les données. Par la suite, quand on accède à une donnée, un nouveau checksum est calculé et comparé à celui de l'original et si les valeurs concordent, aucune erreur n'est déclarée. L'utilisation d'algorithmes de checksums, dont Il existe de nombreux types et de nombreuses versions, est recommandée sous une forme normalisée pour effectuer la détection des erreurs accidentelles ou intentionnelles des fichiers archivés.

6.3.25.2 Les versions cryptées sont les seules offrant une protection avérée des données vis-à-vis des dégradations intentionnelles de données, alors que même les plus simples d’entre-elles sont en danger On a récemment montré qu'il y avait différentes façons de créer des bits dépourvus de signification permettant d'effectuer des calculs à la manière d'un checksum MD5 donné. Une intrusion de provenance externe ou interne peut ainsi remplacer une partie du contenu numérique avec des données dépourvues de signification sans que cette attaque ne soit signalée par le dispositif de contrôle jusqu'à l'activation des fichiers. MD5, encore utile à des fins de transmission, ne comporte que 124 bits et ne doit pas être utilisé à des fins de sécurité. SHA-1, autre algorithme de cryptage, menace d'être déclassé, il a déjà été montré qu'il pouvait théoriquement être mis en défaut. SHA-1 a une longueur de 160 bits; SHA-2, similaire aux algorithmes SHA-1, est proposé dans les versions 224, 256, 384 et 512 bits. L'accroissement régulier de la puissance de calcul peut compromettre, à long terme, le dispositif de checksum.

6.3.25.3 Même avec de tels compromis, le décompte de checksums reste une approche viable de détections d'erreurs accidentelles ; s'il est incorporé dans un dépôt numérique sûr, il sera en mesure de découvrir des dégradations de fichiers intentionnelles dans des scénarios à faible risque. Néanmoins, lorsque des risques existent, et peut-être lorsqu'ils n'existent pas, le contrôle des checksum et de leur viabilité doit faire partie de la planification des opérations de conservation.

6.4 Planification de la pérennisation des données

6.4.1 Introduction

6.4.1.1 Une fois entreprise la conversion des contenus audio dans un format adapté au stockage des données dans un système, comme défini ci-dessus, il convient ensuite d'être en mesure d'assurer de manière continue la conservation de ces contenus. Dans le chapitre 6.3 Stockage des Archives, les problèmes posés par la gestion des flux des données sont décrits : la structure logique des données numériques encodées doit rester inchangée pendant tout le processus de stockage.

6.4.1.2 On considère également un autre aspect de la conservation des informations numérisées : être toujours assuré de pouvoir accéder aux contenus encodés dans de tels fichiers. Le modèle OAIS désigne cette fonction "planification de la pérennisation", qu'il décrit comme "les services et fonctionnalités de contrôle de l'environnement... il fournit des recommandations pour assurer que l'information stockée... reste durablement accessible à la communauté d'utilisateurs, même si l'environnement informatique original est devenu obsolète" (OAIS 2002:4.2).

6.4.1.3 Planifier la conservation, c’est connaître les données techniques propres à son entrepôt, identifier les futures orientations de la conservation et déterminer à quel moment les opérations de conservation, par exemple la migration des formats, doivent être effectuées.

6.4.2 Les futures voies du numérique

6.4.2.1 Quand un format de fichier devient obsolète et compromet l'accès au contenu du fait de l'absence de logiciel approprié, deux approches fondamentales peuvent être pratiquées : la migration ou l'émulation. Dans le cas de la migration, le fichier est modifié, ou migré vers un nouveau format de telle manière que le contenu puisse être reconnu et rendu accessible à l'aide d'un logiciel disponible au moment donné. Dans le cas de l'émulation, ce sont les conditions d'accès ou le logiciel d'exploitation d'époque qui sont modifiés, élaborés pour ouvrir et lire le fichier audio dont le format est obsolète, sur un nouveau système qui n'aurait pas été en mesure d'ouvrir le contenu sans ces interventions.

6.4.2.2 Nos connaissances actuelles nous conduisent à penser que pour les fichiers simples, tels que les fichiers audio non compressés, la migration est une approche préférable, mais ce n'est pas une certitude et toutes les manières de traiter le stockage numérique, tous les systèmes devront pouvoir s'adapter pour constituer une réponse dans un environnement variable. Les métadonnées relatives à la conservation, décrites dans les recommandations PREMIS ou dans le document BWF/AES31-2-2006 contribuent à de telles approches, de même que les normes développées dans l'AES-X098B publiées par l'Audio Engineering Society sous la référence AES57 "AES standard for audio metadata - audio object structures for preservation and restoration" - Structures objet audio pour la conservation et la restauration". L'université de Harvard développe des outils qui pourront être utiles aux personnes impliquées dans les activités de développement open source.

6.4.2.3 Cet aspect de la conservation numérique constitue l'argument essentiel en faveur d'une conformité absolue au format normalisé décrit. Les investissements importants des industries de l'audio et de l'informatique en matière de normalisation de formats audio (.wav) signifient que les exigences d'outils logiciels professionnels capables d'accéder durablement au contenu vont aider les services d'archives sonores chargés de garantir l'accès à leurs collections. De plus, les investissements importants consacrés à un format unique vont contribuer à assurer une continuité de plus longue durée de celui-ci, aussi longtemps que l'industrie acceptera de garder un ancien format sans bénéfices significatifs.

6.4.3 Facteurs de motivation et calendrier

6.4.3.1 Si un choix judicieux de format normalisé et le suivi des pratiques industrielles retardent cette éventualité, un jour viendra où il sera nécessaire d'entreprendre différents types d'actions de conservation indispensables au maintien des conditions d'accès des contenus audio stockés. Le problème, pour les archivistes de fonds sonores concernés par les contenus numériques, sera de déterminer à quel moment entreprendre cette étape et quelle action mener précisément.

6.4.3.2 De nombreuses initiatives sont entreprises pour apporter des réponses. Ainsi le Registre unifié des formats numériques (Global Digital Format Registry (GDFR http://hul.harvard.edu/gdfr/), élaboré pour appuyer "l'utilisation effective, l'échange, et la conservation de tous les contenus numérisés". D'autres services fournissent des recommandations sur les formats appropriés, tels ceux proposés par la Bibliothèque du Congrès (Library of Congress (US)) ou les Archives nationales du Royaume Uni (The National Archives (UK)).

6.4.3.3 Pour entreprendre des actions de conservation, les archivistes de collections sonores trouvent des facteurs de motivation lorsqu'ils apprennent qu'un nouveau logiciel ne supportera plus l'ancien, que les industriels choisissent un nouveau format. L'annonce des changements provient d'experts au fait de la technologie, des données industrielles et des marchés, aussi les archivistes de collections sonores seraient-ils bien avisés de tenir compte des recommandations prodiguées par des organismes comme indiqué ci-dessus.

6.4.3.4 Les logiciels et services en cours de développement, par exemple le système de notification automatique de l'obsolescence (Automatic Obsolescence Notification System (AONS)) apporteront des conseils aux gestionnaires de collection sur les actions à mener lorsque des changements du marché se produisent (https://wiki.nla.gov.au/display/APSR/AONS+II+Documentation). L'implémentation de tels services sera menée en parallèle avec le développement du GDFR.

6.5 Gestion des données et administration

6.5.1.1 Dans le modèle OAIS, la Gestion des données est l'entité qui assure les services et les fonctions d'enrichissement, de conservation et d'accès à la fois à l'information de description, qui identifie et documente les fonds d'archives, et aux données administratives utilisées pour gérer les archives ; en d'autres termes, c’est le catalogue des contenus et le relevé statistique des contenus.

6.5.1.2 Dans le modèle OAIS, L'Administration est l'entité qui assure les services et les fonctions de gestion de la configuration du système, des opérations de contrôle, de service rendu, de la mise à jour des informations archivées. L'Administration est responsable également des processus de gestion tels que les autorisations d'accès négociées avec les producteurs, l'audit des soumissions, le contrôle physique des accès, la réalisation et la mise à jour des normes d'archivage.

6.5.1.3 La gestion et l'administration d'un dépôt numérique et d'un système d'archivage pourvoit aux services permettant la durabilité du système et la pérennité des contenus de celui-ci. Il est nécessaire que le système de stockage d'archives numériques incorpore les moyens d'interrogation pour obtenir les résultats à partir de l'ensemble des documents (état des lieux), les statistiques d'usage, les relevés des contenus, y compris la volumétrie et autres informations nécessaires d'ordre technique et administratives. La gestion et l'administration des données ont une importance essentielle pour entretenir un système d'archives car leurs fonctionnalités apportent la garantie, en ce qui concerne les fichiers conservés et accessibles, qu'ils seront effectivement bien retrouvés et identifiés.

6.5.1.4 C’est dans cette entité du système de stockage numérique et pérennisation que les contrôles d'accès aux contenus, ou contrôles de sécurité, sont implémentés. De nombreux systèmes logiciels d'entrepôt incorporent des approches d'implémentation des politiques qui sont stockées et gérées par le système. Il est important de reconnaître que les informations concernant la gestion des droits, tels les contenus audio eux-mêmes, vont durer plus longtemps que le système qui les stocke, aussi doivent-il être transférables sur tout système de conservation et de stockage de remplacement. L'information encodée en XACML (eXtensible Access Control Markup Language - langage de balisage extensible de contrôle d'accès), par exemple, est un exécutable encore plus universel transférable dans d'autres systèmes. XACML est un langage de politiques de contrôle d'accès par notification implémenté en XML, c'est aussi un modèle de traitement décrivant comment interpréter les politiques. XACML est en charge du groupe de normalisation OASIS (http://www.oaisis-open-org/committees/tc_home.php?wg_abbrev=xacml).

6.5.1.5 Quand un système de conservation numérique est sélectionné, programmé et installé, un test des plus critiques consiste à déterminer si l'administration du système proposé correspond bien aux capacités de l'institution hôte. L'aptitude et l'étendue des fonctions d'un système a souvent un rapport avec la complexité de son usage et de son installation. Un système qui ne peut être correctement géré et entretenu fait encourir des risques importants au contenu qu'il administre. Par conséquent, il est important que la gestion d'un système tienne compte de l'expertise technique disponible nécessaire pour assister son fonctionnement.

6.6 Accès

6.6.1 Introduction

6.6.1.1 Le modèle de référence OAIS définit "l'Accès" comme une entité qui "assure les services et fonctions qui aident l'utilisateur à déterminer si une fonction existe ou non dans un OAIS, à trouver sa description, son emplacement, et à demander et recevoir des produits d'information. " En d'autres termes, l'entité Accès comporte les mécanismes et les processus par lesquels les contenus sont retrouvés et récupérés. IASA-TC 03 "Sauvegarde du Patrimoine sonore : Ethique, Principes et stratégie de conservation" fait le point sur "le but premier d'une archive qui est de garantir l'accès permanent à l'information stockée". La pérennité des contenus est une condition préalable à l'accès des contenus de manière durable, ce qui constitue la finalité d'un service d'archives bien géré.

6.6.1.2 Dans sa forme la plus simple, l'accès est la possibilité de trouver l'emplacement du contenu; et en réponse à une requête autorisée, de pouvoir le retrouver et l'écouter, ou bien, aussi longtemps que les droits associés à l'œuvre le permettent, effectuer une copie qu'il est possible d'emporter. Dans l'environnement numérique connecté, l'accès peut être fourni à distance. L'accès, toutefois, est plus qu'une simple capacité à délivrer un item. Le moindre système d'archives de réalisation technique peut fournir un fichier audio sur requête, mais un véritable système d'accès offre des possibilités de découvertes et de recherches, il est doté de mécanismes de distribution, il permet des interactions et des négociations concernant les contenus. Ce qui donne à la notion d’accès une nouvelle dimension, au-delà de la seule question de l’accès à distance. Dans ces nouveaux services fondés sur un modèle de récupération, l'entité Accès devrait être considérée comme un espace de dialogue entre le fournisseur et l'utilisateur navigateur.

6.6.2 Intégrité dans des environnements d'accès en ligne et hors ligne

6.6.2.1 Avant que les environnements connectés n’offrent la possibilité d’accéder aux documents à distance, leur authenticité ou intégrité était établie par des individus, dans les salles de lectures, sur les postes d’écoute des institutions détentrices de collections. Les contenus étaient fournis par les personnels des institutions dont la réputation garantissait l'intégrité du document. Les originaux pouvaient être ressortis pour examen si la qualité des copies était mise en doute.

6.6.2.2 Les environnements en ligne reposent encore, dans une certaine mesure, sur la confiance accordée à l'institution détentrice des collections, même si un item véritablement original ne sera jamais communiqué en ligne et qu’un risque demeure, au sein des collections et des réseaux de distribution, de falsification indétectable ou de corruption accidentelle. , Pour éviter de telles situations, il existe différents systèmes qui attestent mathématiquement de l'authenticité ou bien de l'intégrité de l'item ou de l'œuvre.

6.6.2.3 Etablir l’authenticité, c’est lier le document et la source qui l’a généré. L'institution, fiable, qui créé les contenus, atteste des processus et émet un certificat, document qu'une tierce personne peut utiliser comme garantie d'authenticité. Il existe différents systèmes, viables, et qui fonctionnent sur ce principe.

6.6.2.4 La notion d'intégrité intervient lorsque l'on souhaite savoir si un item a été endommagé ou manipulé. Les checksums représentent la manière la plus courante de traiter la question de l'intégrité, ce sont des outils précieux tant pour les archives que pour les réseaux (voir 6.3.25 Intégrité et Checksums). Toutefois, comme discuté au paragraphe 6.3.23, les checksums sont faillibles et leur utilisation nécessite une surveillance de la part des services d'archives les plus performants.

6.6.3 Normes et Métadonnées de description

6.6.3.1 Des métadonnées détaillées, adaptées, organisées, constituent la clé pour améliorer le signalement et, de fait, l’accès au document. Le chapitre 3, Métadonnées, leur consacre de nombreuses pages et décrit leurs différentes formes : on s’y réfèrera pour développer un système de communication des documents. Un système de communication ambitieux, qui utilise par exemple des interfaces de représentation cartographique ou des historiques, fonctionnera seulement si des métadonnées, sous forme structurée et organisée, sont bien disponibles.

6.6.3.2 La manière la plus économique de gérer et de créer les métadonnées appropriées est de s’assurer que les exigences requises pour toutes les composantes du système de communication ont été définies avant l’ingestion du contenu De cette manière, l'étape de création des métadonnées peut-être réalisée dans le flux des opérations de pré-entrée et d'entrée. Le coût de création d'un jeu minimum de métadonnées comme discuté dans le paragraphe 7.4, correspond à la tâche supplémentaire qu'il faut consacrer pour ajouter et structurer des métadonnées dans un système qui existe déjà.

6.6.4 Formats et Paquets d'information diffusés (Formats and Dissemination Information Packages (DIP))

6.6.4.1 On appelle Paquet d'informations diffusé (DIP) le Paquet d'informations reçu par l'utilisateur en réponse à une requête de contenu ou à un ordre. Le système de communication devra aussi être en mesure de fournir le jeu de résultats ou le rapport issu de la requête. .

6.6.4.2 Les développeurs d'internet et de "l'industrie" des accès ont élaboré des systèmes de diffusion basés, naturellement, sur des formats adéquats. Les formats de diffusion ne conviennent pas pour la conservation et, généralement, les formats de conservation ne conviennent pas pour la diffusion. Afin de faciliter la diffusion, des copies d'accès séparées sont créées, soit par un processus de routine, soit "à la demande" en réponse à une requête. Le contenu peut être transféré sous forme de flux continu (streaming), soit téléchargé dans un format de diffusion compressé. La qualité du format de diffusion est généralement proportionnelle à la bande passante souhaitée, et les responsables de collections doivent décider du type de format de diffusion en se basant sur les exigences des utilisateurs et sur les capacités de l'infrastructure de diffusion. Quick Time et Real Media sont des formats streaming éprouvés et populaires, et MP3 (MPEG 1 Layer 3) un format téléchargeable apprécié par le public qui peut également être communiqué en flux continu. Il n'y a pas d'exigence particulière à choisir uniquement ces formats, et de nombreux systèmes de diffusion de collections offrent à l’utilisateur un large choix de formats.

6.6.4.3 Pour certains types de documents, il peut être nécessaire de créer deux fichiers masters Wav : un exemplaire de conservation ou master d'archive qui reproduit exactement le format et les conditions de l'original, et un deuxième exemplaire, master de diffusion qui peut être traité de manière à améliorer la qualité audio. Le second master permettra, comme requis, la création d'une copie de dissémination. On s'attend à ce que les formats de distribution continuent de changer et d'évoluer à plus grande vitesse que les formats des masters.

6.6.5 Systèmes de recherche et d'échanges de données

6.6.5.1 L'étendue du domaine dans lequel un contenu peut être retrouvé fixe la limite de la procédure. Afin de s'assurer d'un large usage, il est nécessaire de présenter les contenus de différentes manières.

6.6.5.2 Les banques de données à distance peuvent être consultées au moyen du protocole Z39.50, protocole client-serveur de recherche et de consultation de l'information. Z39.50 est largement utilisé dans les bibliothèques et le secteur des établissements d'enseignement supérieur, son existence est antérieure à celle du web. Etant donnée son extension, il est conseillé d'établir une compatibilité client-serveur Z39.50 sur les bases de données. Toutefois, ce protocole va bientôt être remplacé dans l'environnement web par le protocole SRU/SRW (Search/Retrieval via un URL et Search/Retrieval Web service respectivement). SRU, normalisé et fondé sur XML, est un protocole pour les requêtes de recherche sur Internet et qui utilise le langage CQL (Contextual Query Language), une syntaxe normalisée pour formuler les interrogations (http://www.loc.gov/standards/sru/). SRW est un service web qui fournit une interface SOAP pour les demandeurs, établie en partenariat avec SRU. Différents projets open source supportent les protocoles SRU/SRW en relation avec les logiciels importants d'entrepôts open source tels que DSPACE et FEDORA.

6.6.5.3 L'OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting : Protocole pour la collecte des métadonnées de l'initiative pour les Archives ouvertes) est un mécanisme assurant l'interopérabilité des entrepôts. Les entrepôts présentent des métadonnées structurées via des OAI-PMH, agrégées et utilisées lorsque des interrogations sur les contenus se manifestent. Les nœuds OAI-PMH peuvent être incorporés aux entrepôts courants. Le protocole OAI-ORE (Object Reuse and Exchange) est très important pour la communauté des archives sonores et audiovisuelles, il répond à la nécessité de traiter des objets d'information synchronisés avec l'architecture du Web. Il permet d'effectuer la description et l'échange des agrégations des ressources du Web. "Ces agrégations, parfois nommées objets numériques combinés, peuvent associer les ressources distribuées avec différents types de médias tels texte, images, données et vidéo". http://wwwopenarchives.org/.

6.6.5.4 Pour rendre opérationnel un environnement en réseau perfectionné, il est nécessaire de disposer de métadonnées et de contenus interopérables. Pour cela il faut être en mesure de partager certaines connaissances des attributs incorporés, un mode d'organisation général pour opérer dans différents cadres, et partager un ensemble de protocoles d'échanges de contenus. La meilleure manière d'y parvenir, comme toujours dans un environnement numérique, est de se conformer aux normes, aux schémas, aux cadres et aux protocoles recommandés, et d'éviter toute solution propriétaire.

6.6.6 Droits et autorisations

6.6.6.1 Il est important de noter que tout accès est soumis aux droits établis pour chaque item et à l'autorisation des détenteurs à utiliser le contenu. Différentes approches de gestion des droits se présentent, à commencer par l'application d'une "empreinte" sur le document, la gestion des autorisations d'accès individuelles, la séparation physique de l'environnement de stockage. Le système d'implantation spécifique des droits dépendra du type de contenu, de l'infrastructure technique ainsi que des ayants-droit et de la communauté des usagers, mais il n’appartient pas à cet ouvrage d’en définir ou décrire une approche particulière.