7: Approches à petite échelle des systèmes de stockage numérique

7.1 Introduction

7.1.1.1 Il est possible de réaliser des systèmes de stockage numérique de taille modeste et qui répondent aux contraintes de services d'archives de petites collections ne disposant que de budgets restreints. Jusqu'à une période récente, seuls les grands établissements d'archives sonores disposant de moyens relativement importants étaient en mesure de procéder à la numérisation à grande échelle de leur fonds et de les stocker sur des systèmes dits de stockage de masse associant disques durs et bandes magnétiques. Ces systèmes dédiés aux dispositifs d'archivage audio et audiovisuels avaient tendance à s'agrandir et à devenir coûteux. Ces dernières années, de nombreux services d'archives sonores nationales, des grandes bibliothèques ont, avec l'université et le secteur de l'enseignement supérieur, initié et soutenu le développement de standards ouverts et logiciels open source pour l’archivage numérique. De tels systèmes constituent une ossature, un modèle pour l'archivage numérique sous toutes ses formes. Les services d'archives sonores peuvent en tirer bénéfice lorsqu'ils mettent en œuvre ces systèmes et prennent à leur compte les connaissances spécifiques de notre discipline.

7.1.1.2 Alors que les solutions open source et autres logiciels à bas coût apparaissent sur le marché, le prix des bandes de données baisse, ainsi que celui des disques durs (HDD), et plus rapidement encore. Aujourd'hui, on peut entreprendre l’archivage numérique sur un mode beaucoup plus professionnel que celui consistant à utiliser des supports cibles unitaires à risques tels que les disques optiques enregistrables CD et DVD.

7.1.1.3 Ce chapitre des Recommandations décrit la manière dont un entrepôt numérique de petite taille peut être mis en place et géré tout en répondant aux exigences de l'OAIS. Le chapitre 6, Formats et systèmes cibles de pérennisation contient de nouveaux éléments pertinents relatifs à ce chapitre, tout comme les chapitres 3 Métadonnées et 4 Identificateurs uniques et persistants.

7.2 Approches de l'archivage numérique à petite échelle

7.2.1. Financements et savoir-faire techniques

7.2.1.1 Il est tout à fait possible de réaliser un système d'archivage numérique pérenne à coût abordable, mais on ne saurait le mener à bien sans un minimum de connaissances techniques et des ressources récurrentes. Malgré la modestie des moyens, le système reste durable. Quelle que soit la simplicité ou la robustesse d'un système, il doit être bien géré et entretenu et devra pouvoir être remplacé à un moment ou un autre, sans quoi on risque d’en perdre le contenu.

7.2.1.2 "La conservation numérique représente un enjeu important, tant sur le plan technique qu'économique. La réponse aux exigences de la conservation commence par la fiabilité des financements qui, même à niveau modeste, doivent assurer la pérennité des contenus numériques, des entrepôts, de la maintenance des technologies et des systèmes, aussi longtemps que nécessaire. Le financement récurrent n'est pas le seul utilisé par les nombreuses organisations qui mettent en place des collections numériques, nombre d'entre-elles s'efforcent d'obtenir des subventions ponctuelles ; Il est en effet nécessaire d'élaborer des plans de financement pour assurer la durabilité des équipements numériques répondant aux exigences spécifiques des différentes catégories de contenus, mais encore aux conditions d'accessibilité et de durabilité" (Bradley 2004).

7.2.1.3 Le système avec ses éléments hardware et logiciels nécessite, de manière inévitable et incontournable, une maintenance et une gestion qui exigent tout à la fois des compétences techniques et des financements dédiés. Toute initiative de constitution et gestion d'archives audio numériques, devra proposer une stratégie incluant non seulement une planification du financement des opérations de maintenance et de remplacement des matériels, mais encore une liste des risques induits par la perte des expertises techniques et comment les affronter.

7.2.2. Stratégies alternatives

7.2.2.1 S'ils n'ont pas la possibilité de disposer de moyens suffisants pour gérer les risques décrits ci-dessus, les services d'archives peuvent décider de poursuivre la conservation et la numérisation de leurs collections avec des partenaires. Un service peut décider de répartir les risques de plusieurs manières : former un partenariat local afin de distribuer les contenus dans plusieurs collections liées ; établir des relations avec un établissement disposant de moyens importants ; faire appel à un prestataire de services spécialisé dans le domaine de l'archivage (voir paragraphe 6.1.6 Planification à long terme).

7.2.2.2 Pour bénéficier des avantages correspondant à chacune des approches décrites, il serait nécessaire de contracter un accord définissant les types de données et de contenus échangés entre partenaires, et la forme qu'ils pourraient prendre. Cet accord devrait être défini avant même que la nécessité d'en bénéficier ne se manifeste. Un accord concernant l'échange de paquets doit prendre en compte toutes informations pertinentes nécessaires pour que le service d'archives puisse poursuivre les tâches entreprises. Ces informations comprennent les données servant à reconstituer l'objet sonore dans sa forme d'archivage, mais aussi les métadonnées techniques, les métadonnées descriptives, les métadonnées structurelles, les métadonnées relatives aux droits, et les métadonnées créées pour enregistrer la provenance et l'historique des modifications. Il est nécessaire de regrouper ces informations sous une forme normalisée afin que l'on puisse les utiliser pour reconstituer l'archive si les données sont perdues, ou bien encore pour permettre à un autre service d'archives de reprendre la gestion des contenus si l'on juge que c'est nécessaire.

7.2.2.3 Les outils permettant de réaliser de tels profils existent, ils utilisent, par exemple la norme d'encodage et de transmission des métadonnées METS (Metadata Encoding and Transmission Standards), une approche très répandue réalisée pour les bibliothèques. L'accord est essentiel pour assurer le succès de telle ou telle stratégie. Que ce soit dans le cas du contrôle à distance de la duplication des contenus ou bien d'une coopération de services d'archives, l'accord s'appuyant sur la normalisation des processus et des échanges constitue la stratégie de conservation la plus efficace du fait de la répartition des risques de défaillance, des risques de catastrophe d'origine naturelle ou humaine, ou bien simplement par manque de ressources aux moments critiques du cycle de vie de l'objet audio numérique.

7.3 Description du système

7.3.1.1 Le paragraphe 6.1.4 Aspects pratiques des stratégies de protection des données, fait état de la nécessité de traiter les catégories définies dans le modèle de référence d'un Système ouvert d'archivage d'information (OAIS, ISO 14721 : 2003). A ce stade, les questions posées à propos des grandes et des petites collections sont essentielles en vue de développer des systèmes de stockage modulaires permettant l'interopérabilité des échanges des contenus. Pour les systèmes de taille réduite, le paragraphe qui suit adopte les principales composantes fonctionnelles du modèle de référence OAIS en vue d'aider l'analyse des logiciels disponibles et d'élaborer les recommandations pour les développements nécessaires. Il s'agit des entités : entrée, accès, administration, gestion des données, planification de la pérennisation, et stockage des archives.

7.3.1.2 Le système décrit comporte plusieurs formes de logiciels d'entrepôts assurant la gestion des contenus, au moins un ensemble de métadonnées et un dispositif informatique, le tout avec un certain nombre de recommandations sur les approches manuelles de gestion de l'intégrité des données. Le paragraphe consacré au matériel informatique présente brièvement deux cas de mise en œuvre de systèmes de taille réduite : un seul opérateur effectue les opérations de numérisation sur un dispositif de stockage unique ; situation dans laquelle plusieurs opérateurs doivent avoir accès au système d'archivage. Tous les systèmes sont sensés être en conformité avec tous les autres composants mentionnés dans le guide, convertisseurs analogique/numérique et cartes son appropriées, stations audionumériques (DAW, digital audio workstations) et dispositifs de lecture convenables.

7.3.1.3 Les informations suivantes décrivent des systèmes et des logiciels pouvant répondre aux exigences de collections de taille réduite, et qu'une institution ou une petite structure peut assumer entièrement. Il est important de reconnaître que les approches décrites ci-dessous ne doivent pas être entreprises pour une seule collection. Il est possible de trouver des partenaires et des fournisseurs commerciaux qui pourraient prendre en charge certaines ou l'ensemble des tâches décrites. Il est important de reconnaître aussi que toutes ces tâches qui constituent un ensemble de mesures de conservation et de stockage doivent être entreprises par une personne qui aura à charge de les gérer localement ou de manière partagée.

7.3.2. Logiciels de dépôt numérique

7.3.2.1 Un logiciel d'entrepôt numérique bien conçu se chargera de satisfaire un certain nombre de fonctions identifiées dans le modèles OAIS. Les logiciels proviennent soit d'entreprises commerciales soit de développements open source. Les logiciels commercialisés se doivent de fonctionner correctement, ils sont toutefois plus onéreux et rendent l'utilisateur captif de systèmes propriétaires, une situation à laquelle il est difficile d'échapper. Les principaux avantages des logiciels open source tiennent à leur qualité de logiciels libres, au fait que les développeurs inscrivent leurs travaux dans des normes ouvertes et des structures qui permettent l'extraction des contenus lors des futures mises à jour. Ils ont pour inconvénient, malgré l'assistance de la communauté open source, d'être maintenus sous la responsabilité de l'utilisateur. Toutefois, il est possible de trouver des prestataires pouvant apporter des solutions open source.

7.3.2.2 La plupart de ces systèmes logiciels d'entrepôt numérique sont à même d'assurer les tâches d'identification des accès, d'administration, de gestion des données et de certains aspects des entrées. Au moment d'écrire ce document, le planning des tâches de conservation et de stockage des archives n'est généralement pas pris en compte par un logiciel d'entrepôt, tout d'abord pour des raisons technologiques ou de format spécifique, à cause du matériel informatique ensuite. Ces éléments seront discutés dans les paragraphes ci-dessous.

7.3.2.3 Deux types de logiciels open source seront brièvement décrits, mais étant donnés les développements continuels, les réclamations et commentaires mentionnés ci-dessous devront être examinés au vu des derniers états fournis. Les logiciels décrits sont DSpace et FEDORA.

7.3.2.4 La plateforme de dépôt numérique DSpace est très populaire et très largement utilisée dans les domaines de l'enseignement supérieur et de la recherche, bien que la connaissance qu'en ont les musées et le secteur patrimonial soit limitée, mais se développe. Une des raisons de la popularité de DSpace provient de sa relative facilité d'installation et de maintenance et du fait que son interface utilisateur soit prête à l’emploi, elle qui intègre la gestion des données et les fonctions d'accès dans l'architecture du système. DSpace bénéficie de la très importante communauté internationale de développeurs qui l'on fait évoluer ; de nouvelles caractéristiques doivent être constamment ajoutées.

7.3.2.5 L'une des forces de DSpace provient de l'ensemble des fonctionnalités intégrées permettant aux utilisateurs de réaliser rapidement un entrepôt, puis d'ajouter de nouveaux items à la collection. Cette force, toutefois, est aussi l'une de ses principales faiblesses, car DSpace a évolué pour devenir un logiciel d'application monolithique, une base de code complexe, éléments qui introduisent potentiellement une mise à l'échelle et des restrictions pour des utilisateurs de grandes institutions. Ceci ne pose pas de problème pour la plupart des collections de petite ou de moyenne taille, et ne constitue probablement pas non plus un problème pour les collections de documents audionumériques. DSpace utilise actuellement une version qualifiée du schéma Dublin Core issue du profil d'application du groupe de travail Dublin Core des bibliothèques (Dublin Core Libraries Working Group Application Profile (LAP)).

7.3.2.6 FEDORA (Flexible Extensible Digital Object and Repository Structure - structure d'objet numérique flexible extensible et de dépôt numérique) est un système d'entrepôt numérique de plus en plus populaire, conçu sur la base d'une architecture logicielle capable d'accueillir un large éventail de services comprenant ceux de la conservation. En comparaison de l'adoption rapide de DSpace, celle de FEDORA a été plus lente du fait de l'absence d'interfaces utilisateurs dédiées et d'accès directement opérationnels. Les fournisseurs de logiciels commerciaux et open source web frontaux pour FEDORA sont nombreux.

7.3.2.7 La puissance de FEDORA provient essentiellement de son architecture flexible et évolutive. L'expérience des institutions ayant adopté FEDORA montre que celui-ci peut évoluer et s'adapter également aux collections de grande taille, et qu'il est encore suffisamment souple pour accueillir le stockage des items numériques de toute sorte et assurer la gestion de leurs relations complexes. On peut apporter quelques limites aux caractéristiques de FEDORA, qui reste interopérable avec d'autres applications logicielles et systèmes. Il peut-être configuré pour supporter pratiquement tous les profils de métadonnées de caractéristiques d'entrées METS. Le principal inconvénient de FEDORA provient du niveau élevé d'expertise de développement requis pour contribuer à son évolution, un logiciel qui n'est pas facilement installé et ne bénéficie pas d'implémentation "prête-à-servir" (Bradley, Lei et Blackall).

7.3.2.8 Des outils ont été développés pour migrer les contenus depuis DSpace vers FEDORA et vice-versa, ce qui élimine théoriquement toute future difficulté de compatibilité et favorise le partage et l'accueil d'autres flux de travaux (workflow) (voir http://www.aps.edu.au/currentprojects/index.htm).

7.4 Métadonnées élémentaires

7.4.1.1 Le chapitre 3 Métadonnées souligne les grandes lignes des exigences d'une collection en matière de documentation et d'administration. Comme cela a été indiqué, les métadonnées constituent l'élément central du cycle de vie d'un objet audionumérique, aussi, consacrer une attention rigoureuse à la description de chacun des aspects d'une collection constitue une étape de la plus grande importance quant à sa conservation. Un état détaillé de l'ensemble des aspects techniques, des procédures, des provenances et des éléments descriptifs disponibles est vital pour mener à bien un processus de conservation. Toutefois, il faut reconnaître que la préservation physique des collections audio est impérative et qu'elle peut fréquemment prendre le pas sur le développement d'un système de gestion des métadonnées ou la mise en œuvre d'une politique. Les recommandations suivantes, tout à fait élémentaires,  se veulent un premier pas, une liste des données indispensables à la gestion d’un fichier ou qu’il est indispensable de capturer sous peine de les perdre :

7.4.1.1.1 Un identificateur unique : il devra être structuré,  explicite, d'une lecture compréhensible et strictement unique. Un tel identificateur peut également être utilisé pour relier les objets entre eux tels que : les fichiers master, de conservation et les copies de diffusion, les enregistrements de métadonnées, les séries, etc. Un système sophistiqué peut gérer tout cela grâce aux métadonnées.

7.4.1.1.2 Description : Description d'une séquence sonore. Un petit texte identifiera simplement le contenu du fichier audio.

7.4.1.1.3 Données techniques : Format, fréquence d'échantillonnage, débit, taille du fichier. Bien que cette information puisse être recueillie plus tard, l'inscrire dans une partie explicite de l'enregistrement permet de gérer et de planifier la conservation de la collection dans de bonnes conditions.

7.4.1.1.4 Codage de l'historique : dans le format BWF, un certain nombre de lignes d'informations décrivent l'item original ainsi que les procédés et la technologie utilisés pour créer le fichier numérique à archiver. (Voir aussi 3.1.4 Métadonnées).

7.4.1.1.5 Processus de détection d'erreurs : Toutes les données d'erreurs collectées par le système de transfert décrivent les défaillances du processus de transfert (par exemple les manifestations d'erreurs incorrigibles lors des transferts de CD ou DAT).  

7.4.1.2  Information décrite par l'identifiant unique. La description et les données techniques peuvent être enregistrées dans les structures Dublin Core ou dans les en-têtes BWF. L'historique des codages et les procédures de détection d'erreurs pourront être enregistrés dans les blocs BeXT des en-têtes BWF ou bien dans les documents encodés XML correspondants. La date et, si nécessaire, la durée de transfert devront être enregistrées dans l'en-tête BWF ; la date et, si nécessaire, la durée de la prise en charge dans l'entrepôt devront être enregistrées dans le système de gestion des métadonnées de l'entrepôt. Dans certaines circonstances, les informations d'horodatage qui relient les multiples composantes d'un enregistrement seront obligatoires. On conseille généralement d'inclure l'heure et la date pour chaque événement  ou objet numérique.

7.5 Planification de la conservation

7.5.1.1 La planification de la conservation, comme cela a été discuté, c’est la planification et la préparation qui vont permettre à l'objet audionumérique de rester accessible à long terme, même si l'environnement informatique de stockage et d'accès devient obsolète. Planifier la conservation d’une petite collection dont on ne souhaite que la conservation des objets audio numériques qui la constituent est une tâche relativement simple. Les métadonnées énumérées ci-dessus nous informent sur les décisions prises en matière de conservation, en éclairant les relations entre l'original et sa copie de conservation dans l'entrepôt numérique. L'information technique facilite l'élaboration de la planification ; on a choisi le format BWF comme format de conservation pour retarder au maximum le moment où une migration de format sera nécessaire. A charge aux gestionnaires de collections et aux conservateurs d'entretenir une bonne connaissance des modifications susceptibles de se produire dans le domaine de l'archivage numérique, en établissant des contacts avec des associations comme l'IASA.

7.6 Stockage des archives

7.6.1.1 Techniquement parlant, le système de stockage des archives se situe en aval de l'entrepôt, il incorpore une suite de sous-tâches telles que : sélection des média de stockage, transfert du paquet d'informations archivé (AIP) au système de stockage, sécurité des données et validation, sauvegarde et restauration des données, et reproduction de l'AIP sur un nouveau média.  

7.6.1.2 Les principes de base du stockage des archives peuvent être résumés comme suit :

7.6.1.2.1  Il faut disposer de plusieurs copies. Le système doit être en mesure de prendre en charge un certain nombre de duplicatas du même item.

7.6.1.2.2  Les copies doivent être éloignées du système principal ou original, et éloignées les unes les autres. Plus la distance entre les copies physiques est grande, plus la sécurité est renforcée en cas de  sinistre.

7.6.1.2.3  Les copies devront être réalisées sur différents types de media. Si toutes les copies faisaient appel à un seul type de support, disque dur par exemple, le risque qu'un mécanisme singulier de défaillance entraîne la destruction de  toutes les copies serait important. Le risque est réparti lorsqu'on utilise différents types de support. Les informaticiens utilisent généralement les bandes de données pour réaliser la deuxième copie (et les suivantes).

7.6.1.3 Les coûts les plus importants des systèmes d'archivage des données ne proviennent pas des équipements hardware, mais du système HSM (Hierarchical Storage Management). Les fonctions de stockage des archives OAIS s'insèrent dans la notion HSM du modèle conceptuel. A l'époque de la rédaction de l'OAIS, la situation était telle que l'on ne pouvait  envisager gérer autrement de grandes quantités de données. L'utilisation pratique du système HSM se justifie par les différences de coûts des médias de stockage. Par exemple, le prix élevé du stockage sur disque en regard du coût moins onéreux du stockage sur bande. Dans cette situation, HSM offre un magasin unique d'informations, alors qu'en réalité, les copies peuvent être réparties sur un grand nombre de supports différents en fonction des utilisations et les vitesses d'accès.

7.6.1.4 Toutefois, le prix des disques ayant baissé plus rapidement que celui des bandes, ils atteignent des niveaux équivalents. En conséquence, l'utilisation du système HSM devient un choix d'implémentation. Dans ces conditions, un système de stockage comportera toutes les données sur des disques durs en ligne ; les données étant également stockées sur bandes, de telles dispositions sont tout à fait acceptables, notamment pour les collections d'archives sonores de petite et de moyenne  dimension. Dans cette configuration, un système HSM dans toutes ses fonctionnalités n'est pas nécessaire, les fonctions exigées peuvent être remplacées par un système plus simple qui gère  et assure la maintenance des copies sur site, le vieillissement des média et les versions (Bradley, Lei et Blackall 2007).

7.7 Dispositions pratiques des matériels informatiques (Hardware)

7.7.1.1 Les informations suivantes décrivent la manière dont un système opérationnel peut être implémenté. Comme il a déjà été discuté ci-dessus, on se place dans l'hypothèse selon laquelle toutes les archives audio sont stockées sur disques durs et sont en totalité dupliquées en mode miroir sur bande telle que LTO.

7.7.2 Disques durs

7.7.2.1 Une approche courante et abordable de stockage sur disque dur consiste à connecter l'unité de stockage avec un cluster de disques durs (HDD hard disc drive) organisés en système RAID (voir section 6.3.14 Disques durs (Hard Disc Drives)). Le RAID niveau 1 est un peu plus performant que deux disques en miroir (mirroring) ; deux copies des données sont placées sur différents dispositifs hardware physiques ; si l'un des disques tombe en panne, les données sont disponibles sur l'autre drive. Les niveaux RAID plus élevés (2 à 5) implémentent des systèmes de redondance et de contrôle de parité de plus en plus complexes qui assurent le maintien de l'intégrité. Le niveau le plus élevé d'un ensemble RAID réalise le même niveau de sécurité que le niveau 1, ou mirroring, mais avec une moindre perte d'espace de stockage. RAID 5, par exemple, peut subir une perte de 25 % (moins selon l'implémentation), à comparer avec les 50 % de RAID I. Des jeux de disques sophistiqués sont largement disponibles.

7.7.3 Sauvegarde sur bandes

7.7.3.1 Aucun composant élémentaire d'un système numérique ne peut-être considéré comme fiable : on ne rend un système fiable qu’en réalisant à chaque étape de multiples copies redondantes. La composante finale d'une chaîne de stockage qui est aussi la plus importante, est constituée par les bandes de données. Dans un passé récent, les bandes LTO ont conquis leur popularité à cet égard (voir paragraphe  6.3.12 Sélection et contrôle des bandes de données). Cependant, d'autres formats de bandes peuvent convenir selon les circonstances.

7.7.3.2 Toutes les données enregistrées sur disques de stockage devront être dupliquées sur un support convenable. Au moins deux jeux de bandes de données devront être produits et être stockés physiquement en différents endroits.  Il n'est pas exceptionnel que le deuxième jeu soit nécessaire pour restaurer des données, aussi de nombreuses archives réalisent-elles trois jeux de copies, deux gardés à proximité du système pour faciliter les accès, le troisième étant stocké à distance pour assurer sa protection physique si un  sinistre se produisait. Habituellement on fait en sorte que les jeux de bandes séparées soient réalisés avec des produits différents, chacun d'entre eux provenant d'un même lot de fabrication et achetés en une fois. Ceci facilitera les opérations de contrôle qualité et les mesures de sauvegarde lorsqu'un défaut se manifestera  sur un lot donné. Un logiciel de gestion des volumes approprié viendra en aide lors des processus de sauvegarde et de récupération, en particulier si le système comporte plusieurs dispositifs de stockage.    

7.7.3.3 Le contrôle d'erreurs est difficile à implémenter dans des solutions open source et low-tech (technologie rudimentaire) car leur efficacité est liée à des logiciels spécifiques. Cependant, une alternative possible au low-tech pour tester les erreurs est décrite dans le paragraphe suivant. Le logiciel de gestion des données possède un catalogue (avec une imprimante jointe). Le disque dur (en configuration RAID) contient un jeu complet de données. Toutes les données sont copiées sur des bandes identiques. Il existe au moins deux copies. Lorsque les données sont copiées sur une bande, un identificateur unique est imprimé sur une étiquette (lisible par le personnel) fixée sur la bande. Le même identificateur peut-être enregistré sur l'amorce de la bande. Le système de gestion des données peut-être organisé pour que l'utilisateur soit en mesure d'insérer rapidement la bande identifiée par le système. Plutôt que de contrôler les erreurs produites par la bande, le système pourra  comparer le contenu de la bande avec celui du disque. Le disque dur peut vérifier l'authenticité de ses propres données, il est informé de toute défaillance par auto-contrôle. Si le système de vérification de la bande tombe en panne, il produira une nouvelle bande à partir du disque dur. Supposons un volume de stockage de 20 téraoctets, le système vérifiera deux bandes par jour, chaque bande et ses duplicatas pourront être vérifiées trois fois par an. Dans le cas où une défaillance du disque nécessiterait son remplacement par une bande, on disposerait de deux bandes contrôlées dans les quatre mois qui précèdent. Le risque de voir les bandes et le disque dur tomber en panne simultanément reste très faible.

7.7.4 Systèmes de stockage avec un ou plusieurs opérateurs

7.7.4.1 Le système d'archivage le plus simple consisterait à connecter un dispositif RAID contenant les seules données audio à la station audionumérique principale (digital audio workstation (DAW)). Une telle configuration ne pourrait être mise en œuvre que par des institutions disposant d'un opérateur en charge des procédures de numérisation. Pour réussir une telle approche, il est nécessaire de bien structurer le plan de numérisation et de dédier au système un ensemble de disques afin que les tâches puissent être menées en continu, sans interruption conséquente. On assure ainsi le déclenchement des copies des disques HDD rattachés au DAW sur bandes chaque fois que le support cible se remplit.

7.7.4.2 Si les tâches de numérisation sont entreprises par deux opérateurs travaillant sur deux postes de travail, il faut pouvoir accéder à des drives en mode partagé ou indépendant. Pour réaliser le partage de telles ressources, il faut attribuer à un ordinateur le rôle de serveur, le configurer pour pouvoir piloter les drives, et mettre en œuvre les moyens de partage à l'aide d'une connexion simple. Une telle approche de partage entre deux opérateurs est relativement facile à     réaliser, même si elle exige des ententes sur les procédures afin d'éviter des conflits. Une organisation logique des données et le strict respect des procédures de nommage sont indispensables pour les petits systèmes de stockage gérés manuellement.  

7.7.4.3 Si un système de la taille décrite a été mis en place, il peut être plus avantageux d'établir un partenariat avec une institution d'archives plus importante, ou bien de passer un contrat de service avec un prestataire spécialisé dans les opérations de stockage. Cependant, l'approche décrite ci-dessus reste possible.

7.7.5 Systèmes de stockage avec opérateurs multiples

7.7.5.1 Lorsque le nombre de connexions est supérieur à deux, un système d'archivage et de sauvegarde en réseau doit être mis en œuvre. Un tel dispositif en réseau permet à de nombreux utilisateurs d'accéder aux données conformément aux règles établies par le système de gestion des données.  Les petits réseaux sont relativement courants, et leur mise en œuvre, avec juste le niveau de connaissances nécessaires, est aisée et abordable. Des quantités raisonnables d'archives peuvent être traitées grâce à un dispositif de stockage de niveau entreprise. On peut distinguer trois grandes catégories en matière de technologies de stockage et d'équipement : le stockage à connexion directe ou DAS (direct-attached storage), le stockage en réseau ou NAS (Network-attached storage), et le réseau de stockage ou SAN (storage area network). Le système NAS est plus performant et évolutif que le système DAS, il est moins coûteux et de configuration plus simple que le système SAN. Considérant le rapport coût / bénéfice, la technologie NAS constitue la technologie évolutive la plus intéressante d'un point de vue économique, pour des systèmes de taille dont nous discutons dans ce chapitre.

7.7.5.2 La plupart des dispositifs à bas-coût NAS présentent une bande passante restreinte en comparaison de systèmes plus coûteux et de temps d'accès plus court ; ils présentent aussi un nombre d'accès simultanés plus limité. Ceci ne présente pas de difficulté particulière pour les plus petites collections, ainsi en est-il des conditions requises pour les accès simultanés, peu contraignantes, en particulier lorsque des copies de master sont proposées en consultation dans des formats dérivés de MP3.

7.7.5.3 Un système de stockage de petite taille en réseau pourra comprendre un serveur de type PC-portable connecté à un système de stockage en réseau. Le NAS devra pouvoir accueillir des disques durs assemblés en grappe RAID. Un système NAS de faible coût devra disposer d'une capacité de stockage sur disques comprise entre 0,5 et 20 téraoctets (on notera que la capacité de stockage des disques en configuration RAID est réduite, inférieure à celle correspondant à la taille annoncée pour les disques bruts. Les plateformes audionumériques (DAW) sont connectées via un commutateur Ethernet ou dispositif équivalent qui, lorsqu'il est correctement configuré, a pour effet de séparer l'unité de stockage du réseau local LAN (Local area network), ce qui renforce la sécurité de la structure de stockage. Les données sur disques durs HDD devront être sauvegardées sur bandes de données.

7.8 Les risques

7.8.1.1 Les systèmes automatiques de stockage peuvent être configurés en vue d'effectuer des copies systématiques, de rafraîchir les données, et de rejeter les bandes devenues illisibles. Les systèmes de stockage de grands volumes de données bénéficient d'une conception de niveau professionnel, ils fonctionnent grâce aux infrastructures des organisations qui peuvent prendre en charge toutes les mesures afin de garantir la sécurité des données. Avec des systèmes manuels de sauvegarde et de récupération des données, le danger de perte des données du fait de leur association avec des dispositifs de numérisation manuels ou semi automatiques prenant des décisions de manière autonome ne doit pas être surestimé. La responsabilité d'assurer la validité et l'accessibilité des données audio incombe à des personnes qui doivent mettre en place des contrôles de routine des bandes. Cette situation est tout particulièrement pénalisée par le fait que la plupart des institutions relevant de la recherche et de la culture manquent notoirement de moyens financiers.   

7.8.1.2 La conception de tels systèmes, qui laissent apparaître de fortes redondances, nous incite à garder à l'esprit le fait que les composants et les supports numériques peuvent tomber en panne  à tout moment, et ceci, sans le moindre avertissement. Par conséquent, il est impératif de constituer au moins deux copies d'archives en mode linéaire à chaque étape du processus de numérisation et du stockage qui lui succède. Toute imperfection conduira inévitablement à la perte d'une quantité plus ou moins importante de données ; néanmoins, si des stratégies adaptées ont bien été mises en place, les conséquences ne seront pas fatales, grâce aux copies redondantes. Considérant la durée conséquente des opérations de transferts destinées à éviter les pertes inéluctables dues aux anciens documents, tous les efforts doivent être faits pour ne pas devoir re-numériser les documents, une situation qui résulterait d'une architecture incohérente sur le plan de la sécurité ou de négligences dans l'approche pratique.     

7.8.2 Complexité du système

7.8.2.1 Une fois implémentés et installés, les systèmes de stockage de données sont relativement faciles à utiliser et à maintenir en état. Cependant, que ce soit pour réaliser les phases initiales d'implémentation, pour résoudre les problèmes lorsqu'ils se déclarent, pour effectuer les mises à jour, l'intervention d'un personnel spécialisé en informatique est fortement recommandée, ce qui présente l'avantage, par exemple, de réduire les risques inhérents à une mise en place défectueuse du système.

7.8.3 Partenariat et sauvegarde

7.8.3.1 Comme cela a été discuté précédemment, pour pouvoir bénéficier de la pleine capacité de sauvegarde, un partenariat avec une institution disposant d'une expérience reconnue et sûre en matière de gestion d'archives numériques constitue la meilleure gestion des risques. Un réseau d'entrepôts capable de créer et d'accepter de tels paquets organisés d'informations constitue la stratégie de conservation la plus efficace, répartissant les risques de perte lorsque des catastrophes d'origine naturelle ou humaine se produisent, ou lorsque les ressources à un moment critique du cycle de vie de l'objet numérique viennent à manquer.

7.8.4 Coûts et extension

7.8.4.1 Un système de taille réduite comme décrit ci-dessus peut être ajouté pour offrir de plus grandes capacités de stockage et améliorer les conditions de gestion. Des petites unités de drives de bandes sont disponibles, elles peuvent faire l'objet d'extension à l'aide de systèmes de robots de plus grande taille. Dans la mesure où le prix des disques HDD continue de baisser, le coût de remplacement et d'extension des baies reste abordable.

7.8.4.2 Grâce au partenariat établi entre fournisseurs de systèmes et de codes open source, des logiciels de gestion d'entrepôts très élaborés peuvent être intégrés en toute sécurité grâce aux services qu'offre un fournisseur commercial. DSpace et FEDORA, par exemple, sont deux systèmes open source produits en relation avec une société commerciale proposant des solutions de stockage.

7.8.4.3 Le coût d'installation d'un système de stockage de données de petite taille peut sembler relativement élevé en comparaison d'un graveur de CD, toutefois, en comparaison bit-à-bit avec les conditions de stockage de plus d'une centaine d'heures d'enregistrement audio, la différence est fortement réduite quand on prend en compte toutes les contraintes (exigences) d'un service d'archivage. Un service de stockage de données bien géré constitue un système absolument fiable qui permettra d'effectuer les futurs et inévitables transferts de données audio sur la solution suivante d'archivage.