第 6 章① 用于保存的目标格式和系统


① 本章6.2 节之前的章节编号有误, 缺少6.1 节的编号和标题。由于本书将与英文等其他语种的 版本共同在IASA 网站上公布, 为保持章节编号的一致性, 所有编号未作修改。———译者注

6.1.1 概述

6. 1. 1. 1 关于数字编码音频管理、长期存储和保存的以下信息基于一个前提, 即没有终极的永久存储介质、在可预见的未来也不会有。相反, 数 字音频档案管理者必须计划实施保存管理系统和存储系统, 这些系 统旨在支持随着格式、载体或其他技术不可避免的变化而进行的处 理。技术变革的速度和方向是档案馆无法控制和影响的事情。数字 保存的目标和重点是建立可持续的系统, 而不是永久的载体。

6. 1. 1. 2 技术存储系统的选择取决于很多因素, 成本是其中之一。虽然选 择保存藏品的技术类型可能会因个别机构的具体情况及其环境而 有所不同, 但这里概述的基本原则适用于数字音频管理和长期存 储的任何方法。

6.1.2 数据或音频专用存储

6. 1. 2. 1 为了有效管理和维护数字音频, 有必要将其转换为标准数据格 式。数据格式是计算机系统能够识别的文件类型, 例如 .wav、 BWF 或 AIFF。与音频专用载体不同, 这些文件在技术上定义了 其内容的限制, 且通常以这样的方式进行编码, 即主机系统识别 和纠正丢失的数据。 IASA 建议使用 2. 8 中定义的BWF 格式。

6. 1. 2. 2 过去提供的音频专用记录格式包括数字音频磁带 (DAT) 和数 字音频光盘(CD-DA)。DAT 虽然曾经广泛用于 16 bit、48 kHz 音频的远程或现场录音, 但现在已是一个过时的录音系统。 IASA 建议, 按照 5. 5 中提供的指导, DAT 磁带上记录的任何重 要内容都应迁移到更可靠的存储系统中。

6. 1. 2. 3 可刻光盘可用于录制纯音频格式 (CD-A 或 CD-DA) 或数据 格式 (CD-ROM) 的音频。在 CD-DA 格式中, 编码的数字音 频类似于音频流, 因此不具有诸如可能刻录在 CD-ROM 格式盘 上的封闭文件的优点。但后者在相同数量的磁盘空间上可存储的 数据更少。IASA 不建议以 CD-DA 格式作为保存目标格式来录 制音频。使用可刻 CD 作为任何形式的目标格式存在相当大的风 险, 第8 章概述了这些风险。数据管理和存储系统日益降低的价 格和日益提高的可靠性使得介质专用的存储方式, 如 CD-R, 已不再必要, 至少是不经济。

6.1.3 数字保存原则

6. 1. 3. 1 数字海量存储系统(DMSS) 原则。

6. 1. 3. 2 以下信息基于联合国教科文组织《数字遗产保存指南》中“数 据保护战略” 的实践部分。一些修改只为反映存在非自动备份 系统的可能性, 并反映音频数字保存的单一格式问题。本部分已 得到作者的许可使用(Webb, 2003: 16. 13)。

6.1.4 数据保护策略的实践

6. 1. 4. 1 一套管理长期存储数据的规范策略。大多数是基于无须保存数据载 体本身, 只需保存数据这一假设。下文对这些策略进行了部分阐述。

6. 1. 4. 2 责任分配。对于数据的存储和保护, 必须责任到人。这是一项技 术责任, 需要一套特定的技能和知识以及管理专长。对于所有的 馆藏, 数据的存储和保护需要专用的资源, 适当的计划, 并且必 须对这些策略负责, 即使非常小的馆藏, 也必须有具备必要的专 业知识和专门负责该任务的人员。

6. 1. 4. 3 配置适当的技术基础设施。数据必须以适当的系统和适当的载体 来储存和管理。有一些数字资产管理系统或数字对象存储系统可 以满足音频数字保存方案的要求, 下面将讨论一些方法。一旦需 求确定, 就应该和潜在的供应商进行广泛的讨论。不同的系统和 载体适合不同的需求, 选择的保护方案必须与目标相符。

6. 1. 4. 4 整个系统必须具备足够的功能, 包括以下几个方面。

6. 1. 4. 5 足够的存储容量。存储容量可以随着时间的推移而积累, 但系统 必须能够管理在其生命周期内预期存储的数据量。

6. 1. 4. 6 系统必须能够根据需要无损失地复制数据, 并将数据无损失地迁 移到新的或“更新” 的载体上。此为一项基本功能。

6. 1. 4. 7 提供可靠的技术支持, 及时处理问题。

6. 1. 4. 8 具有将文件名映射到适合其存储架构的文件命名方案中的能力。 存储系统基于命名对象。不同的系统使用不同的架构来组织对 象。这可能会限制对象在存储(器) 中的命名方式。例如, 磁 盘系统可以对现有的文件名施加一个分层目录结构, 且不同于 磁带系统上使用的目录结构。系统必须允许或最好执行系统赋 予的文件名与现有标识符的映射。

6. 1. 4. 9 管理冗余存储的能力。数字介质的故障率很小, 一旦发生则后果 严重, 所以必须在每个阶段对文件进行冗余拷贝, 特别是最终的 存储阶段。

6. 1. 4. 10 错误检查。大多数计算机存储器中都有一定程度的自动错误检查 功能。由于音视频材料必须长期保存, 且通常利用率非常低, 系 统必须能够检测数据的变化或丢失, 并采取适当的措施。至少现 有的策略必须能使馆藏管理人员意识到潜在的问题, 并有足够的 时间采取适当的行动。

6. 1. 4. 11 技术基础设施还必须包括存储元数据的手段和将元数据可靠地链 接到所存数字对象的方法。大规模操作通常会发现, 需要建立数 字对象管理系统, 这些数据对象管理系统与数字海量存储系统相 连接, 但与之分离, 以便应对所涉及的过程范围, 并允许更改元 数据和工作接口, 而不必改变大容量存储。

6.1.5 系统可持续性理念

6. 1. 5. 1 所有技术, 无论是硬件还是软件、格式或标准, 最终都将因市场 力量、性能要求或其他需求及期望而改变。负责维护数字和数字 化音频内容的音频档案工作者的任务是在这些技术变革中找到出 路, 以低成本高效益的管理方式为当前和未来的用户维护馆藏内 容, 确保其可靠和真实。

6.1.6 长期规划

6.1.6.1 数字录音档案的长期规划涉及的不仅仅是数据存储系统的技术标准。 技术问题应认真解决, 但运行数字存储系统的社会和经济条件对于 确保持续访问内容同样至关重要。长期规划应考虑以下问题。

6.1.6.2 原始数据的可持续性。即以其适当和合乎逻辑的顺序保留字节 流。存储系统中的数据必须返回到系统中, 且没有修改或损坏。 值得注意的是, 计算机系统专业人士识别出有关数据维护和更新 的一个相当大的风险, 只有管理完善、设计良好的IT 方法才能 保证获得合适的结果。

6.1.6.3 格式和重放能力。数字数据只有能以音频方式呈现, 其录音档案 中的数据才会有用。正确选择文件格式以确保未来的录音档案馆 可以重放数据文件的内容, 或者能够获得将文件转换为新格式的 技术。格式里不包含有损压缩算法, 能够在不改变原始音频内容 的情况下实现未来的转换过程。

6.1.6.4 元数据、标识和长期访问。所有数字音频文件必须可识别和可查 找, 以便使用音频材料, 实现其内容价值。

6.1.6.5 经济成本与录音档案。这包括维持数据存储系统和存储库的机 构的持续运营成本, 也包括那些拥有、管理数字音频或从数字 音频中获得价值的机构的持续运营成本。维护数字音频藏品的 成本持续存在, 故必须为藏品的长期保存制定一个切实可行的 计划和预算。规划和管理音频藏品的成本也在不断增加。数字 保护既是一个技术问题, 也是一个经济问题。可持续发展的基 础是可靠的资金来源, 必须确保持续的资金支持, 尽管数额可 能不高, 以确保数字内容的可持续及其存储库、技术和系统的 长期维护。

6.1.6.6 存储、管理和保存备选方案: 鉴于经济和技术环境可能不稳定, 建议档案馆和机构就数据存储为档案达成协议。这需要在文件格 式和数据组织以及内容管理的社会和技术方面达成一些标准 协议。

6.1.6.7 工具、软件和长期规划。硬件、软件和系统本身并不需保存, 它们只是用于保存内容的工具。例如, 存储库软件 D-Space 并不将自身描述为一种保存解决方案, 而只是适用于“使具 有可持续能力的机构能够保留信息资产并提供服务” (DSpace, Michael j.Bass et al., 2002)。存储库软件本身是 一个工具, 各种组件的设计也是为了帮助操作、简化流程以 及自动化和验证元数据收割。长期规划包括在不危及内容的 情况下改变或升级系统。

6.1.7 定义数字对象

6.1.7.1 音频文件只是要保存的信息的一部分。开放档案信息系统 (OAIS) 参考模型将数字对象标识为四个部分, 并将其描述为 信息包。信息包包括内容信息和保存描述信息, 二者与打包信 息一起打包, 构成一个整体, 并通过描述性信息被查找。


信息包概念和关系

6.1.7.2 虽然信息可能分布于整个存储系统, 但要记住的是, 概念性的包 是音频信息和重放该音频、了解其来源以及描述和找到它所需的 信息。馆藏中的一个音频文件和其他音频文件之间也可能存在重 要关系, 这些关系对于使用这些材料非常重要, 因此也必须 保存。

6.1.8 开放档案信息系统 (OAIS)

6.1.8.1 开放档案信息系统 (OAIS) 参考模型是数字仓储和长期保存系 统广泛采用的一个概念模型。 OAIS 参考模型提供了一种数字图 书馆和保存专家共享的通用语言和概念框架。该框架已被采用为 国际标准 ISO 14721: 2003。尽管一些评论者认为 OAIS 的细节存 在缺陷, 但以与 OAIS 功能类别相对应的形式构建存储库架构的 理念, 对于开发内容可互操作交换的模块化存储系统至关重要。 本指南的以下部分采用了 OAIS 参考模型的主要功能组件, 以协 助分析可用的软件, 并为必要的开发提出建议。

6.1.8.2 长期保存的数字仓储必须能够执行一定的功能, 以便可靠和可持 续地完成既定目标。开放档案信息系统 (OAIS) 参考模型定义 了摄取、存取、系统管理、数据管理、保存规划和档案长期存储 六项功能。

6.1.8.3 根据所处数字生命周期阶段, OAIS 还定义了数据管理所需的各 种信息包的结构, 即提交信息包 (SIP)、发布信息包 (DIP) 和 存档信息包 (AIP)。包是包含特定对象所需的数据和相关元数 据以及描述信息的概念包。这个对象只是概念性的, 因为包的内 容可能分散在系统中, 或者折叠成一个数字对象。 OAIS 将信息 包定义为内容信息和相关保存描述信息, 保存描述信息有助于保 存和查找内容信息。

6.1.8.4 SIP 是提交给系统进行摄取的信息包。它包含要存储的数据和关于 对象的所有必需的相关元数据。SIP 被系统接收后用于创建 AIP。

6.1.8.5 AIP 是在系统中存储和保存的信息包。它是系统存储、保存和维 护的信息包。

6.1.8.6 DIP 是用于发布数字内容的信息包。DIP 在系统中有三个作用。 一是访问, DIP 以用户可以使用和理解的形式出现。二是为了分 散风险而进行交换。长期保存数字仓储可以选择部分内容与其 他类似的机构共享, 也可以与承担档案长期存储角色的组织机 构共享。在这种情况下, DIP 将包含承担该角色所需的所有相关 元数据。三是将内容分发给档案馆作为最后的手段。某个档案 馆或机构不再有资源来维持其馆藏的情形并不难想象。用于此 目标的标准DIP 能让其他类似架构的系统以最少的人工干预来 承担这个角色。

6.1.9 可信数字仓储 (TDR) 及其责任

6.1.9.1 数字存储环境技术规范是确保所管理的数字内容在未来仍然可以 访问的重要部分, 然而, 它并不足以确保实现这一目标。拥有数 字档案的机构必须能够确保其管理的内容得到有效的规划和维 护。2002 年, 研究图书馆集团 (RLG) 和联机计算机图书馆中 心 (OCLC) 联合出版了《可信数字仓储: 属性与责任》, 其中 阐述了可信、可靠、可持续数字仓储的属性和责任的框架, 这是 “档案馆提供永久或长期保存数字信息所必需的”。

6.1.9.2 这些属性包括对 OAIS 参考模型的遵循、组织机构的类型、经费 的保障、技术和程序的适宜性、系统的安全性以及是否存在适当 的策略, 以确保采取措施来管理和保存数据。

6.1.9.3 具体实例是一个称为“可信仓储的审计和认证 (TRAC): 标准 和清单” (2007) 的文件。使用该文件, 档案机构可以确定它们 已经或正计划实施的实践、方法和技术是否适合它们负有责任的 数字信息的永久保存。

6.1.9.4 清单所涉及的问题包括三个主要领域: 组织架构; 数字对象管理 和技术; 技术基础设施和安全。

6.1.9.5 组织架构提供了一系列检查清单, 包括适当的治理和组织机构的 类型、组织机构的结构和人员编制、程序问责制和政策框架、经 费的保障以及对许可和义务的考虑。数字对象管理部分考虑了内 容获取、存档包创建、保存规划、长期存储和规划、信息管理和 访问控制。该清单的第三部分为系统基础设施的审计, 确保技术 的使用对完成其任务及系统和机构的安全运行是恰当的。

6.1.9.6 “可信仓储的审计和认证 (TRAC): 标准和清单” 中的术语是以 最宽泛的意义来表示数字档案, 因此, 文档的含义对音频档案 工作者而言偶尔会显得不明晰。尽管如此, 其检查和测试的问 题对于数字音频档案的规划和管理仍至关重要。强烈建议数字 音频档案工作者使用清单检查机构管理数字馆藏的适宜性, 或 者识别现有数字保存策略的薄弱环节。

6.1.10 录音档案馆及其技术责任

6.1.10.1 尽管特定机构可能负责管理音频藏品, 但并不一定意味着该机 构会承担维护数字存储系统的责任。机构反而可能会成为分布 式存储系统的一部分, 或者可能寻找第三方提供商以更标准的 方式将其内容存档。

6.1.10.2 分布式数据存储方法是在网络的许多地方复制数据, 如斯坦福 大学以 LOCKSS (建立多个副本保证数据安全) 为名推出和开 发的基于网络材料的数据存储方法, 该系统管理网格上的数据, 减少数据丢失的风险, 因为信息可以在许多不同的地方找到。 这样的系统不适用于有访问限制或版权禁止传播的材料, 还要 求机构承担发展和管理的责任。

6.1.10.3 一个机构可以判定自身不具备进行数字存储系统开发和管理的 技术能力。在这种情况下, 其可能与第三方供应商建立合作关 系。该供应商可以是另一个档案馆, 它接收该机构馆藏并存储 其内容; 也可以是商业供应商, 可提供有偿存储服务并管理 内容。

6.1.10.4 以下信息针对打算自己开展保存工作的机构。但如果考虑上述 任何一种替代方案, 则这些信息会有助于确定这些方法是否可 靠和有效。

6.1.11 数字仓储软件、数据管理和保存系统

6.1.11.1 数字仓储软件通常是支持存储和访问数字内容的软件。其应该 包含管理内容方面信息的索引和元数据系统, 以及用于查找和 报告内容的各种工具。

6.1.11.2 数据管理是对系统负责的字节流或数据进行的管理。这可能包 括备份过程、多个副本和更改。

6.1.11.3 保存过程是确保内容长期可访问、内容仍然有意义以及数据管 理系统的任务得到记录和维护。这三个步骤是实现内容长期保 存的必要条件。

6.2 摄取

6.2.1 提交信息包 (SIP)

6.2.1.1 SIP 是交给仓储和数字存储系统进行摄取的信息包。 SIP 包括要 存储的音频数据以及关于对象及其内容的所有必需的相关元数 据。在 OAIS 模型中, 摄取是接受内容及其相关元数据(SIP)、 验证该文件、提取相关数据并准备AIP 进行存储、确保所有的 AIP 及其描述性信息在 OAIS 中得以建立的过程。

6.2.1.2 数字仓储和保存系统应该能够接收和验证音频文件。验证是确保 数字存储系统接收的文件符合标准的过程。在重放系统不复存在 的当下, 非标准的文件在未来可能会变得难以利用。有用于文件 格式自动验证的工具, 还可以得到一些开源解决方案并进一步开 发, 如 JHOVE (JSTOR 哈佛对象验证环境)。

6.2.2 格式

6.2.2.1 IASA 建议使用 .wav 或优选 BWF.wav 文件 [EBU tech 3285]。 两者之间的区别在于 BWF 包含一组可用于组织和管理元数据的 头文件。虽然 BWF 元数据足够用于多种目的, 但在一些复杂的 系统和交换情况下, 需要一个更全面的包, 因此, 常常使用元数 据编码和传输标准 (METS)。 METS 模式是对数字图书馆中各种 对象的描述性、管理性和结构性元数据进行编码的标准, 采用可 扩展标记语言 (XML) 表达。由元数据和内容组成的METS 包通 常用作数字档案馆之间的交换标准。

6.2.2.2 素材交换格式 (MXF) 是由 SMPTE 标准定义的一种专业数字 音视频媒体的容器文件格式。虽然MXF 能够管理音频, 但 MXF 主要应用于影视行业。像 METS 一样, 它主要是一组元 数据, 它“包裹” 内容(本指南指音频)。这两种格式都是 非常有用的格式, 用于档案部门和仓储之间内容与信息的交 换和管理。

6.2.2.3 SIP 的格式取决于系统以及机构的规模和复杂程度。很有可能使 用 .wav 文件建立可行的存档系统, 将大部分必要的元数据手工 输入系统, 并在摄取阶段获取必要的技术元数据。但这只适用于 馆藏规模很小的机构。对于具有远程和独立数字化过程且馆藏规 模大的机构, 则必须构建复杂的摄取和数据交换系统, 以确保内 容充分摄入数据存储系统。生产和验证软件将大部分数据生成为 可用于保存目的的标准化 XML 文件。例如, 新西兰国家图书馆 元数据提取工具是一种基于 Java 的工具, 它从数字对象中提取 保存元数据, 并以标准格式 (XML) 输出元数据。

6.2.3 保存元数据

6.2.3.1 在摄取阶段, 保存过程所需的元数据包括有关创建数字音频对象 的信息以及摄取之前发生的格式更改的信息。数字音频对象的技 术性来源以这种方式得以保存, 从而能够跟踪其当前形式与其形 成时的原始形式之间的变化。

6.2.3.2 BWF 有一个非强制性建议, 标题为“广播波形格式编码历史字 段格式” (http://www.ebu.ch/CMSimages/en/tec_text_r98-1999_tcm6-4709.pdf), 介绍了如何描述文件的变化。本地使 用 ASCII 自由文本字段允许描述在创建数字音频对象时使用的技 术设备或软件。

6.3 档案长期存储

6.3.1 存档信息包 (AIP)

6.3.1.1 OAIS 中档案长期存储的定义包括存档信息包 (AIP) 所需的服 务和功能。档案长期存储包括数据管理, 并且包括存储介质选 择、AIP 传输到存储系统、数据安全性和有效性、备份和数据恢 复以及将AIP 复制到新介质的过程。

6.3.1.2 OAIS 参考模型[ CCSDS 650.0 - B - 1 开放档案信息系统 (OAIS) 参考模型] 中对 AIP 的定义: 用于将存档对象传输到 数字长期保存系统、在系统中存储这些对象进而从系统传输出 去的信息包。AIP 包含了描述结构和内容的元数据以及内容信 息本身。它由多个数据文件组成, 这些文件包含逻辑打包或物 理打包的实体。AIP 的实施可能因档案馆而异, 但它指定了一 个容器, 该容器包含长期保存和访问档案馆藏的所有必要信息。 OAIS 的元数据模型基于 METS 规范。

6.3.1.3 从物理角度看, AIP 包含三部分: 元数据、内容和打包信息。三 者都由一个或多个文件组成 (见 6.1. 3)。打包信息可看作包装 信息, 它封装了元数据和内容信息。

6.3.2 档案长期存储基础知识

6.3.2.1 档案长期存储提供存储、保存和访问内容的方法。在小型系统 中, 存储可以独立存在并且可以手动操作, 但是在较大的系统 中, 存储通常与编目应用程序、资产管理系统、信息检索系统和 访问控制系统一起实现, 以便控制和管理存档的内容, 并提供一 种受控的访问方法。

6.3.2.2 档案长期存储必须与摄取和创建归档数字资产的设备相连接, 且 必须提供安全可靠的接口, 以便将数字资产导入存储系统。

6.3.2.3 长期保存系统必须以多种方式保证可靠: 必须可以使用, 没有任 何重大的中断, 必须能够向导入内容的系统或用户报告导入是否 成功, 从而使导入方能够删除档案文件的摄取副本(如果适 用)。档案长期存储还必须能够长期保存其管理的内容, 并能够 保护内容免受各种故障和灾难的影响。

6.3.2.4 长期保存系统应根据所有者的功能需求构建: 必须正确确定存储 系统的规模, 以执行所需完成的任务, 并可完成日运行所要求的 存储量。此外, 必须对具有访问权限的用户提供所存内容的受控 访问。

6.3.3 数字海量存储系统 (DMSS)

6.3.3.1 数字海量存储系统是一个基于 IT 的系统, 该系统是为能够在给 定或更长时间内存储和维护大量数据而规划和构建的。这些系统 有多种形式; 基本的DMSS 可以是一台个人计算机, 它有足够大 的硬盘驱动器和一些可以用来跟踪系统中的资产的目录。更复杂 的 DMSS 可以由硬盘驱动器和(或) 磁带存储以及控制存储实 体的计算机组组成。一个快速的基于光纤的硬盘驱动器层可以用 来缓存那些访问时间至关重要的资产, 而一层更便宜的硬盘驱动 器可以用来存放那些访问时间不那么重要的材料, 最后, 基于磁 带的存储可以作为最具成本效益的存储层。

6.3.3.2 当大型系统中使用多种不同的存储技术构建功能实体时, 通常采 用分级存储管理 (HSM) 系统, 以支持不同技术的协同工作。 更大规模的系统也可以在地理上分布, 以实现更好的性能, 并使 系统更具容错性。

6.3.4 数据磁带类型和格式介绍

6.3.4.1 以下概述了一些主要的数据磁带格式和用于存储数据形式的音视频 内容的磁带自动化系统。数据磁带仅与 DMSS 的其他组件一起使用。 在谨慎比较各种数据磁带格式之前, 应记住, 没有载体是永久性的, 只有它们所在的数据系统继续支持它们, 它们才是可用的。

6.3.5 数据磁带性能

6.3.5.1  格式几何形状和尺寸控制着数据磁带的性能。性能之一的数据 传输速度, 是同时写入和读取的磁迹数量、走带速度、线性密 度和通道编码的直接结果。类似的, 体积更小、更轻的磁带盒 在磁带库中移动的速度更快。数据密度受以下因素影响。

6.3.5.1.1 磁带长度和厚度的权衡。

6.3.5.1.2 磁迹宽度和节距。

6.3.5.1.3 每个轨迹内数据有效载荷的线性密度。

6.3.6 磁带涂层

6.3.6.1  磁带涂层主要有两种类型: 微粒型和蒸发型。最早的涂层数据 磁带使用类似于录像带的金属氧化物, 而最近的数据磁带使用 金属粒子 (MP)。具有惰性陶瓷和氧化钝化层的纯铁粉分散在 聚合物黏合剂中, 被均匀地施加到PET 或 PEN 带基或基材上, 从而保证尺寸的稳定性和张力下的强度。目前市场上最高密度 的数据磁带使用的是用蒸发法制备的钴合金金属箔涂层, 类似 于硬盘上使用的材料。这样可以达到更高纯度的磁性材料, 并 允许更薄的涂层。大多数金属蒸发 (ME) 磁带具有保护性的聚 合物涂层, 类似于MP 磁带上的黏合剂材料。最近的配方还包括 陶瓷保护层。早期的ME 磁带在大量使用时由于分裂脱层而失 败 (Osaki,1993 ∶ 11)。

6.3.7 磁带壳体的设计

6.3.7.1  磁带壳体有两种基本型号: 双盘芯盒式磁带, 可实现更快的存取 时间; 单盘芯卡式磁带, 在给定的外部体积提供更大的容量。

6.3.7.2  双盘芯盒式磁带包括:
3.81mm 宽盒式磁带, 主要是 DDS [衍生自DAT];
QIC (¼ 英寸磁带) 和 Travan;
8mm 格式, 包括 Exabyte 和 AITDTF;
Storagetek 9840。

6.3.7.3 单盘芯卡式磁带包括:
IBM MTC 和 Magstar 格式, 如 3590、3592 和 TS 1120;
Quantum S-DLT 和 DLT-S4;
LTO Ultrium [100 GB、200 GB、400 GB 和 800 GB];
Storagetek 9940 和T 10000;
Sony S-AIT。

6.3.7.4 对于长期存档而言, 这两种设计都不一定优越, 因为寿命由一系 列特定于每一种格式的细节决定。例如, 一些型号的单端 ½ 英寸 卡式磁带在壳体内具有大直径的导带器, 可确保最小的摩擦和精 确的导带。尽管最新的设计在这方面提高了可靠性, 但是在老式 单端卡式磁带中, 引带锁定机制也出现了问题。一些双盘芯盒式 磁带可以在磁带卷绕到一半时停止, 以尽量减少任何特定文件的 卷绕时间。这与存储之前将磁带仔细卷绕在一端, 仅使引带暴露 于穿带装置的音像档案馆的传统做法相矛盾。磁带不像硬盘那样 有一个密封的封闭外壳给予保护。

6.3.8 线性和螺旋扫描磁带

6.3.8.1 数据磁带可以用固定式磁头(一般描述为线性)、旋转式或螺旋 式磁头写入或读取。线性磁带通常遵循蛇形磁迹布局,有人认为 这种穿梭可能导致磨损或所谓的擦鞋效应。在实践中,现代磁带 设计成具有足够的读写次数,但对从硬盘访问常用内容仍持谨慎 态度。经历过水解和其他原因的化学分解,磁带通常会以 1m/s ~2m/s 或更大的速度在磁带路径上的固定导带器和部件上 运行得更好, 这是固定式磁头或线性格式的典型特征。旋转式磁 头或螺旋式磁头通常具有更高的走带速度,在磁带表面和读写磁 头之间产生更大的空气轴承效应,但固定导带器和磁头上的线性 磁带速度要慢得多,所以这里经常结垢。

6.3.9 辅助存储和访问设备

6.3.9.1 格式(如 AIT) 包括固态“盒式磁带内存 (MIC)”, 它存储文件 位置信息, 类似于 CD 上的目录 (TOC), 以便快速定位数据。 DTF 使用射频内存。

6.3.10 格式过时和技术周期

6.3.10.1 不断进步和发展是数据存储的固有特性, 这意味着不可避免的 变化和不断的淘汰。内容的长期管理必须建立在硬件和介质的 不断演进和升级的基础上。虽然中央基础设施(如数据电缆或 存储库) 可能持续运行 10~20 年, 但单个磁带机和介质的寿命 比这短得多。所有主流的数据磁带格式都有开发路线图, 每 18 个月到 2 年进行升级。有时可以在任何常见系列的一代或两代 介质中确保只读访问的向后兼容性。因此, 每一代磁带机和介 质可能存在 4~6 年, 之后迁移数据必不可少。 此外, 海量存 储系统的硬件维护成本也会在系统超出预期寿命或保质期结束 时显著上升。之后, 例如可能很难获得磁带库或磁带机的新备 件。以下是预计路线图的摘要。许多格式至少与一个上一代格 式具有只读兼容性。

 

系列 第一代 第二代 第三代 第四代 第五代 第六代
Quantum SDLT SDLT220 110 GB SDLT320 160 GB SDLT600 300 GB DLT-S4 800 GB    
IBM     3592 2004 300 GB 40MB/s TS1120 2006 700 GB 104MB/s    
Sun - Storagetek   9940B 2002 200 GB 30MB/s T10000 2006 500 GB 120MB/s T10000B-2008 ITB 120MB/s    
LTO LTO-1 2001 100 GB 20MB/s LTO-2 2003 200 GB 40MB/s LTO-3 2004 400 GB 80MB/s LTO-4 2007 800 GB 120MB/s LTO-5 日期未定 (2009+) 1.6TB 180MB/s (预计) LTO-6 日期未定 (2011+) 3.2TB 270MB/s (预计)
Sony S-AIT S-AIT 2003 500 GB 30MB/s S-AIT2 2006 800 GB 45MB/s        
Sony AIT     AIT-3 2003 100 GB 12MB/s AIT-4 2005 200 GB 24MB/s    

表1 数据磁带的预计开发路线


① 这意味着一定程度的浪费和环境压力已超出了我们纯技术讨论的范围, 但实际上, 相对 拥有更节能的驱动器和机器人技术且占用较少空间的新型高密度系统, 大型老式数据磁 带库将消耗更多的聚合物, 并需要更多的石化产品。

6.3.11 自动或手动检索

6.3.11.1 对于小规模业务, 可以将数据从单个工作站备份到单个数据磁 带机上, 并手动加载磁带以存放在传统的架子上, 甚至小规模 的网络系统也可以对其存储进行手动备份(见第7 章)。同样 的存储环境指南适用于其他磁带, 尽管日益注意到尽量减少灰 尘和其他颗粒物以及污染物是有益的。对于大规模业务, 特别 是在劳动力成本较高、资本设备预算充足的国家, 一定程度的 自动化通常比纯手工系统更可取和更为经济。自动化程度取决 于任务的规模和一致性, 内容的访问类型, 以及主要资源的相 对成本。

6.3.11.2 自动加载磁带机和磁带库: 单驱动器的下一步是小型自动加载 磁带机, 通常有一个驱动器(偶尔两个) 和一行或一个转盘式 数据磁带, 它们依次被馈送以支持备份操作。自动加载磁带机 和大型磁带库的一个主要区别是已录磁带不会被备份软件记录 在中央数据库中, 然后可以启用自动检索。搜索、检索和重新 加载单个文件仍然属于人工操作。顾名思义, 所有自动加载磁 带机的功能就是允许一系列磁带被顺序读或写, 以克服单个数 据介质的容量限制, 而且在一个长的备份序列中也无须操作人 员存在, 会自动装载下一个磁带。

6.3.11.3 通过对比, 即使是最小的磁带库也被编程成一个独立的、自主 的存储系统。不同磁带上的单个文件的位置对用户是透明的, 且磁带库控制器会跟踪每个磁带上的文件地址以及库中磁带的 物理位置。如果磁带被取出或重新加载, 则子系统在初始化时 将重新扫描磁带插槽, 用来自条形码、射频标签或磁带外壳的 内存芯片的元数据更新库存。

6.3.11.4 与较小的磁带库相比, 大型磁带库有一些优点。大型磁带库可 以构建为冗余和分布式, 即可以使停机时间最小化, 并且可以 在几个类似的系统之间平衡读/ 写负载。大型磁带库也可以用作 多用途系统, 例如, 可以维护公司的正常IT 备份以及管理所有 存档的视频和音频。

6.3.11.5 磁带库系统中使用的数据磁带或卡式磁带具有一些条形码、射 频标签或其他身份识别 (ID) 系统。这些光学或电磁识别系统 有时与盒式磁带内存 (MIC) 结合使用, 以补充有关磁带身份 识别和内容的信息。某些格式具有用于条形码磁带的全球身份 识别系统, 以便一个磁带库中使用的磁带可以在另一个磁带库 系统中识别。

6.3.11.6 备份和迁移软件及时间表: 在IT 界和其他领域, 对长期数据档 案的目的和操作存在一些混淆和误解。关于长期数据档案有两 种普遍的误解。首先, 存档是将不经常使用的材料从昂贵的在 线网络磁盘存储转移到更便宜、无法访问的离线存储(从此可 能永远不会被检索) 的过程。其次, 备份是一个常规的每日和 每周的例行程序, 用于复制存储在系统中的所有内容。

6.3.11.7 关于第一个误解, 现实是一些最重要和最有价值的材料可能数 月或数年都不会使用, 但其生存必须得到明确保证。第二个误 解也是如此, 如果建立了合适的规则, 大量的材料可能不需要 每天或每周复制, 只有小比例需要更新。实际上, 尽管异地异 质复制数据的严格制度对于最大限度地减少技术故障风险并确 保从灾难中恢复至关重要, 但数字遗产材料的特殊特性需要一 些与日常IT 数据管理不同的程序。

6.3.11.8 传统的分级存储管理系统可能会进行优化, 以便定期备份所有 内容, 并将不经常使用的内容移到不可访问的位置, 但可以配 置更好的系统以适应不同规模不同访问级别的档案馆的业务规 则和实践。一个中等规模的组织机构可能会每周摄取 100 GB 的 音频数据或 1TB 的视频。简而言之, 就是确保一旦有价值的材 料被摄取就能复制, 并且常用的材料仍然可访问。

6.3.11.9 存储管理软件的一些主要任务是优化资源的使用, 管理硬件层 中的设备, 同时调整流量, 尽量减少提交给用户的延迟。分级 存储管理软件提供了将文件从在线磁盘迁移到磁带的条件选择, 例如: 比特定日期更早、大于标称的大小、位于特定子文件夹 中, 或当可用磁盘空间超出特定的限制(高和低的水印)。

6.3.11.10 通常, 在同时具备生成高分辨率文件和低分辨率访问副本的情 况下, 用于保存和广播的较大的高分辨率文件将被迁移到磁带, 以释放更昂贵的硬盘阵列空间。在维持材料的可用性和优化磁 带机和介质的使用之间需要一个平衡。如果磁带被频繁访问, 那么大量的挂载和卸载、假脱机和恢复操作将降低系统性能。 更复杂的内容管理系统有时会包含较低级别的存储管理, 因此 用户不太了解支持该系统的单个文件和组件。

6.3.12 数据磁带介质的选择和监控

6.3.12.1 与任何传统的保存系统一样, 为防止介质或系统部件万一出现 问题, 备份和冗余很重要, 而对系统关键部件的性能建立标准 并依此进行检测更加重要。诸如 SCSI - Tools 之类的软件能够对 网络上各个驱动器和设备进行较低级别的询问, 以确定介质和 硬件性能是否处于最佳水平。 LTO 磁带具有用于数据监控的接 口, 虽然这对档案系统是有利的, 但是这种功能很少被利用。 一些 HSM 系统能够定期监控存储资产的质量。如果一段时期内 磁带没有被使用, 在用户访问或读取磁带上存储的数据时, 这 些系统无须用户干预就会监控磁带的误码率。

6.3.13 成本

6.3.13.1 通常, 数据磁带存储的成本分为四个方面: 磁带介质, 每 3~5 年采购和更换原始的备份磁带介质; 磁带机, 每 1~5 年采购和 更换, 含技术支持费用; 磁带库的购买和10 年寿命期间的维 护; 软件购买、集成、开发和维护。

6.3.13.2 在手动系统中, 尽管员工的空间要求较大, 手工检索和检查的 人工成本较高, 存放费用却较低。在自动化磁带库系统中, 大 部分人力成本被硬件和软件的前期费用抵消。随着存储需求的 增长, 大型磁带库可以以模块化方式购买, 以便将费用分摊在 数年内开支。在磁带库的生命周期中, 磁带机等单个组件每 3 ~5年将被更新的技术所取代。如果存储的内容不断被访问, 那么磁带机的使用寿命可能相当短, 甚至只有一年或更短。如 果需要, 可以保存较旧的磁带介质和磁带机以备冗余。如果存 档数据没有快速增长, 则在将存档内容迁移到下一代介质或技 术的时候, 当前和下一代磁带和磁带机可以共存在磁带库中。 如果存档数据持续增长, 那么创建特定大小的磁带库可能具有 成本效益, 具备仅存储在当时技术的使用寿命期间存档的内容 量, 然后可获取较大的新磁带库, 以存储使用下一代技术存储 的内容以及将被迁移的旧内容。如果旧技术和新技术不能共存 在同一设备中, 后一种方法也是必要的。

6.3.13.3 保持至少一个不同地点或地理上分离的冗余数据备份是很好的 业务实践。通常, 为躲避自然灾害和人为灾害, 20~50 公里的 半径是常见的距离, 并且这个距离可以保证在几个小时内人工 取回数据。为了进一步降低风险, 冗余备份应存于不同批次或 来源的介质上, 甚至是不同技术的介质上。有些数据磁带由唯 一的供应商制造, 增加了单点故障的可能性。三套数据比两套 更安全, 虽然介质成本增加, 但硬件和软件成本仅略高于第 一套。

6.3.14 硬盘驱动器 (HDD) 介绍

6.3.14.1 自从 IBM 在 1973 年推出了 3340 型号的硬盘驱动器 (HDD) 以来, 硬盘驱动器已经成为计算机主要的内存和数据存储器。 由于这款硬盘驱动器具有 30MB 的固定内存和30MB 的可移动 存储, 其 30/30 架构的称谓至少在名称上与著名的来复枪类 似, 因此其昵称为“温彻斯特”, 它开创了使硬盘可操控的磁 头设计。尺寸的进一步缩小和磁头与磁盘设计的最新发展大 大增加了磁盘驱动器的可靠性, 最终发展成今天普遍应用的 稳健设计。

6.3.14.2 数据管理员的责任是维护数据, 他们认为硬盘作为一个数据项 目的唯一副本太不可靠, 如果用硬盘制作多套副本, 价格又太 昂贵, 而磁盘阵列更可靠。存在硬盘上的数据因此被复制在多 个磁带副本上以确保其长久保存下去。如本指南所述 (见 6.1.4 和7.6), 所有数据系统必须具有所保存的所有数据的多 套独立的副本。虽然专家们倾向于认为最可靠的数据系统由磁 盘阵列加磁带上的多套副本组成, 但持续降低的成本和持续提 高的可靠性使得在多个单独的硬盘上建立多套数据副本的理念 成为可能。然而, 多种介质存储的原则仍然存在, 而仅用磁盘 存储确实具有风险。

6.3.15 可靠性

6.3.15.1 由磁盘故障和磁头损坏等原因造成的数据丢失,致使大多数数 据专业人士对 HDD 存有疑虑,但厂商现在声称 HDD 年化故障 率小于 1%,其使用寿命为 40000 小时 (Plend, 2003)。高可靠 性硬盘驱动器可能具有更长的使用寿命,制造商称使用寿命为 “平均无故障时间”。虽然 HDD 都是自包含且独立密封以免其 受损,但磁盘驱动器的大多数故障都以两种截然不同的方式发 生: 要么由于延期使用导致过多磨损而损坏, 要么在驱动器的 电源打开或关闭的瞬间被损坏。困境在于是让磁盘一直处于工 作状态而增加磨损,还是随时打开和关闭而增加瞬间故障的 风险。

6.3.16 系统说明、复杂性和成本

6.3.16.1 如第2 章所述, 最近几代计算机具有足够的能力处理大型音频 文件。所有近几代的计算机都集成了足够速度和大小的硬盘, 外部的 HDD 适配器可以插入 USB、火线或SCSI 端口。系统复 杂性和运行这种系统所需的专业知识程度并不比操作台式计算 机所需要的大很多。

6.3.16.2 当需要访问的大量音频和音视频材料存储在HDD 上时, 磁盘通 常被并入磁盘阵列 (RAID) 中。RAID 提高硬盘系统的可靠性 并通过将排列的磁盘视为一个大型硬盘来提升整体访问速度。 如果磁盘发生故障, 则可以进行替换, 且该磁盘上的所有数据 可以使用阵列中其余磁盘的数据重新构建。系统容忍的故障级 别, 和从这种故障中恢复的速度是 RAID 级别的乘积。设计 RAID 不是作为数据保存工具, 而是作为在不可避免的磁盘故 障发生时能够维持正常访问的一种手段。任何RAID 的适当级 别以及控制器复制的要求取决于特定情况和数据复制的频率。 RAID 要求当磁盘的任何部分正在使用时, 阵列中的所有磁盘 都要接通电源。与所有数字数据一样, 所有包含存档资料的 RAID, 必须在其他介质上多次复制。

.

容量 磁带容量 (GB) 磁带
数量
推荐 磁带 机 的 数量 推荐
磁带
机的
数量
系统价格 (€) 磁带
价格 (€)
磁带机价格 (€) 每 GB 成本 (€)
10 TB 800 13 2 4 20480 97 7625 2.05
50 TB 800 63 4 16 56800 97 10175 1.14
100 TB 800 125 8 16 134050 97 12725 1.34
200 TB 800 250 12 16 205350 97 12725 1.03
500 TB 800 625 18 56 446938 97 15975 0.89
1000 TB 800 1250 36 88 864517 97 15975 0.86
2000 TB 800 2500 72 176 1687690 97 15975 0.84

表2 基于LTO - 4 技术的存储系统的投资成本

 

容量 硬件
维护
费用
第1 年
 (€)
软件
维护
费用
第1 年
 (€)
硬件
维护
费用
第2 年
 (€)
软件
维护
费用
第2 年
 (€)
硬件
维护
费用
第3 年 (€)
软件
维护
费用
第3 年 (€)
硬件
维护
费用
第4 年 (€)
软件
维护
费用
第4 年 (€)
硬件
维护
费用
第5 年 (€)
软件
维护
费用
第5 年 (€)
10 TB 2420 n/a 2420 n/a 2420 n/a 2.514 n/a 2514 n/a
50 TB 3454 n/a 4958 n/a 4958 n/a 4958 n/a 4958 n/a
100 TB 11808 490 13817 490 13817 490 13817 490 13817 490
200 TB 15787 582 19323 582 19323 582 19323 582 19323 582
500 TB 27380 1068 34111 1068 34111 1068 34111 1068 34111 1068
1000 TB 47542 2115 66734 2115 66734 2115 66734 2115 66734 2115
2000 TB 99272 4221 99272 4221 99272 4221 99272 4221 99272 4221

注: ①本注释涵盖表2、表3。
②价格是来自多个供应商的清单价格的平均值。客户须支付的价格通常会稍低一些。
③价格表示原始容量的价格。备份时则至少需要两倍的磁带介质。
④系统价格栏中的价格包括上述容量的磁带和驱动器成本, 但不包括任何高速存储器(HSM)
的软件或硬件成本。
⑤这些表格仅显示必须向供应商支付的投资成本和维护费用。除此之外, 电费、冷却费、机
房费、管理费等费用必须单独计算。磁带库系统在五年内的电力和制冷费用大概相当于购买价格
的10%。

表3 基于LTO - 4 技术的存储系统的年维护成本

 

容量 驱动器技术 驱动器大小 (GB) 驱动器数量 系统价格 (€) 驱动器价格 (€) 每GB 成本 (€)
5 TB SATA 500–1000 5–10 11884 1000 2.38
10 TB SATA 750–1000 10–14 19997 1000 2.00
50 TB SATA/FATA 1000 50 124334 1800 2.49
100 TB SATA/FATA 1000 100 230914 1800 2.31
200 TB SATA/FATA 1000 200 456942 1800 2.28
500 TB SATA/FATA 1000 500 1202726 1900 2.41
1000 TB SATA/FATA 1000 1000 2566513 1900 2.57
2000 TB SATA/FATA 1000 2000 4782584 1900 2.39

表4 基于HDD 的存储系统的投资成本

 

容量 硬件
维护
费用
第1 年 (€)
软件
维护
费用
第1 年 (€)
硬件
维护
费用
第2 年 (€)
软件
维护
费用
第2 年 (€)
硬件
维护
费用
第3 年(€)
软件
维护
费用
第3 年 (€)
硬件
维护
费用
第4 年(€)
软件
维护
费用
第4 年 (€)
硬件
维护
费用
第5 年 (€)
软件
维护
费用
第5 年 (€)
5 TB 826 750 826 750 826 750 1845 750 1845 750
10 TB 1206 1125 1206 1125 1206 1125 2600 1125 2600 1125
50 TB 5822 6125 5822 6125 5822 6125 12365 6125 12365 6125
100 TB 10514 8500 10514 8500 10514 8500 22391 8500 22391 8500
200 TB 21724 12750 21724 12750 21724 12750 44956 12750 44956 12750
500 TB 57061 37250 57061 37250 130394 37250 130394 37250 130394 37250
1000 TB 130203 66250 130203 66250 263537 66250 263537 66250 263537 66250
2000 TB 223778 124250 223778 124250 477121 124250 477121 124250 477121 124250

注: ①本注释涵盖表4、表5。
②价格是来自多个供应商的清单价格的平均值。客户须支付的价格通常会稍低一些。
③系统价格栏中的价格包括上述容量的硬盘驱动器的成本。
④表格中只显示必须向供应商支付的投资成本和维护费用。除此之外, 电费、冷却费、机房
费和管理等费用必须单独计算。硬盘驱动器系统在五年内的电力和制冷费用大概相当于购买价格
的30% ~40%。

表5 基于HDD 的存储系统的年维护成本

 

6.3.17 仅磁盘存储

6.3.17.1 RAID 阵列在系统的极限范围内是可扩展的, 但是所有 HDD 都 可通过简单的添加更多的驱动器无限扩展。自从 IBM 3340 HDD 问世以来, 存储容量迅速增长, 几乎呈指数级增长, 成本却在 下降。这些变化再加上可靠性的提高, 导致一些人建议 HDD 硬 盘既用于主存储系统, 又用于备份。但是, 这种做法有三个困 难。首先, 硬盘寿命是根据使用时间估算的, 即运行的小时数。 没有测试不经常使用的硬盘的寿命。其次, 将数据存储在不同 的介质上是有利的, 因为它分散了介质故障的风险。因此, 采 用这种做法(硬盘兼作系统存储和备份存储) 应该非常谨慎。 最后, 由于无法在不接通硬盘的情况下定期检测柜架上的硬盘 状态, 从而使磁盘关闭所带来的好处 (见 6.3.20) 大打折扣。 多种介质存储(如磁带和硬盘) 仍然是首选。硬盘应在集成系 统中使用。

6.3.18 硬盘存储系统

6.3.18.1 硬盘存储系统是用于最大化磁盘存储利用率并提供大容量和高 性能的集中式系统。这些系统与服务器计算机结合使用, 因此 服务器只有少量的内置硬盘存储或根本没有。这些系统通常用 于中型和大型环境中作为存档系统的存储。当然, 存档系统也 可以与多个其他计算机系统共享集中式存储系统。系统的大小 可以从 1 TB 到几 PB 不等。为使一项投资创造最佳价值, 应该 考虑到存储系统的性能特性可以根据其选择的配置而显着变 化, 必须事先仔细规划系统的实际需要, 并使用合格的专业人 员来配置存储结构和系统接口。

6.3.18.2 集中式磁盘存储系统旨在提供比独立硬盘驱动器更好的错误恢 复能力。这些系统提供了几个可选级别的 RAID 保护, 为避免 单点故障, 其组件可能是冗余的, 系统可以在本地或不同地理 位置上分布, 以保护宝贵资产免受不同类型的故障和灾难。

6.3.18.3 存储系统与其所服务的计算机之间的连接在系统性能方面发挥 重要作用。一般来说, 使用的两种方法是附网存储 (NAS) 和 存储区域网络 (SAN)。NAS 利用常规IT 网络(如以太网) 在 计算机和存储系统之间移动数据, 而SAN 使用交换光纤通道连 接。NAS 系统可以 100 Mbit/s, 1 Gbit/s 和 10 Gbit/s 的速度 工作, 而 SAN 则以 2 Gbit/s 或4 Gbit/s 的速率工作。这两项 技术都有明确的发展路线图, 预计未来的性能将会有所增长。 SAN 技术由于特有的设计带来更好的性能, 通常被选择用于更 苛刻的环境。例如, 在 SAN 环境中可以更有效地控制输入/ 输 出 (I/O) 块大小, 而网络协议往往会强制NAS 系统使用相 当小的输入/ 输出块。从经济的角度看, NAS 技术比 SAN 技术 便宜。

6.3.19 硬盘驱动器 (HDD) 寿命

6.3.19.1 如上所述, 许多市售的 HDD 预计有 40000 小时的寿命。 HDD 在典型商业用途中更换寿命为五年。随着流体或陶瓷主轴轴 承、盘的表面润滑以及在最新的台式机 HDD 上制造的专用磁头 驻停技术等的改进, HDD 的寿命可能会更长一些。然而, 没有 对未使用的 HDD 的使用寿命进行的可靠测试, 明智的做法是在 5 年内计划在这样的工作系统中更换磁盘。

6.3.20 硬盘介质监控

6.3.20.1 坏数据块增加可能表明即将发生磁盘故障。最新的磁盘出现块 错误,甚至在全新时就出现,是正常现象,而大多数的数据系 统会通过重新分配该块的地址来管理坏块。但是,如果坏块的 数量增加,则可能表示磁盘要出现故障。现在有软件可以发出 坏数据块增加的警告,并能测量指示磁盘问题的其他物理特性。

6.3.21 硬盘驱动器 (HDD) 技术

6.3.21.1 有四种主要方法能够将HDD 和其他外围设备连接到计算机: USB (通用串行总线)、 IEEE 1394 (火线)、SCSI (小型计算 机系统接口) 和 SATA/ATA (串行高级技术附件/ AT 附件)。 它们在特定情况下都具有特殊的优势。 USB 和火线是可以用于 将硬盘驱动器以及数码摄像机或 MP3 播放器连接到个人计算机 的通用总线。SCSI 和 SATA/ATA 主要用于将硬盘驱动器连接 到计算机或磁盘存储系统。

6.3.21.2 SCSI 及其后续SAS (串行连接 SCSI) 接口允许更快的写入和读 取速度, 并且便于访问比 SATA/ATA 驱动器数量更多的驱动 器。SCSI 磁盘可以在 SCSI 总线上同时接受多个命令, 并且不 会遇到像 SATA/ATA 那样的请求队列。 SATA/ATA 驱动器相 对便宜。二者在读取访问速度上大体相同; 在音频环境中, 两 个接口对数字音频工作站 (DAW) 操作的限制也无差别。 SCSI/SAS和SATA 驱动器的性能差异在使用率高的集中式硬 盘存储系统中才能体现。

6.3.21.3 光纤通道 (FC) SCSI/SAS 驱动器主要用于需求量大的企业或 业务系统, 而较便宜的 SATA 驱动器更多地用于个人市场, 但 它们也越来越多地用于企业和业务系统, 以提供更具成本效益 的存储容量, 如档案存储。在档案存储中, 到底选择 (FC) SCSI/SAS 还是 SATA 技术取决于系统的实际负载量。如果系 统用来存档访问不密集的中小数量的内容, 则基于 SATA 的解 决方案可能就够了。实际决定必须基于明确的需求以及与存储 提供商的协商。

6.3.21.4 USB 和火线连接的磁盘可以用于将内容从一个环境传输到另一 个环境, 但由于它们相当不可靠, 难以监控和易于丢失, 因此 即使定价非常有吸引力, 也不应该用于存档。

6.3.21.5 接口不能完全指示特定驱动器或存储系统的可靠性和性能, 因 此购买者应该更多了解存储系统的其他操作参数和配置参数。 事实情况似乎是更为可靠的那些驱动器都采用的是 FC SCSI/SAS 接口。但是, HDD 本身并不是永久可靠的, 因此所有音频 数据都应该在合适的磁带上备份 (见 6.3.5) (进一步讨论见 Anderson, Dykes and Riedel, 2003)。

6.3.21.6 一种新兴的存储技术可能在不久的将来具有突出的地位。闪存 形式的固态存储器正在成为移动磁盘的替代品, 而且已经成为 笔记本电脑中的HDD 的替代品。一些存储设备生产商也在其低 成本或中档存储系统中引入了闪存驱动器, 并计划在其高端系 统中引入闪存驱动器。即使闪存在存储可靠性方面还有待提升, 它仍可能会成为档案界存储需求的可行解决方案; 其每千兆字 节的价格正在变得具有竞争力, 由于电力需求少, 环保性更强, 而且没有活动的部件, 这意味着存储器的寿命会更长。如果存 储器拥有十年的使用寿命, 而非五年, 意味着档案工作者的投 资和管理成本将降低, 因为迁移的次数减少了一半。在读写性 能方面, 闪存已经与 HDD 技术相媲美。

6.3.22 分级存储管理 (HSM)

6.3.22.1 OAIS 档案存储功能将分级存储管理 (HSM) 的概念嵌入概念 模型中。在 OAIS 撰写的时候, 并没有设想到可负担的以其他 方式管理大量数据的情况。支持HSM 需求的实际问题是存储介 质的成本不同, 例如磁盘存储昂贵, 磁带存储却便宜得多。在 这种情况下, HSM 提供虚拟、单一的信息存储, 而实际上根据 使用和访问速度, 副本可以分布在多种不同类型的载体中。

6.3.22.2 然而, 硬盘的成本比磁带的成本降低的幅度大, 直到它们的价 格相等。因此, 使用 HSM 成为现实的选择。在这种情况下, 将 包含磁盘阵列上的所有数据的存储系统的全部数据同时也存储 在多个磁带上, 是一个非常实惠的提议, 对于那些高达 50 TB (每年上升) 的数字存储系统尤其如此。但是对于较小的数字 存储设备, 功能完备的 HSM 则是不必要的, 它们需要的是一个 更简单的系统来管理和维护副本位置信息、介质已使用年限和 版本, 并将存储的数据完全复制在硬盘和磁带上。

6.3.22.3 对于中型和大型数字存储系统, 所需的HSM 存储系统仍然是数 字存储系统中非常昂贵的组件之一。

6.3.23 小型系统中的文件管理软件

6.3.23.1 在整个存档内容都被复制在硬盘和磁带上的系统中, 文件管理 软件的目的是记录磁带副本的位置、状况、准确性和年龄。这 种基本的备份功能是经典 HSM 的低成本替代方案, 至少在理论 上可能对于小型系统来说更为可靠。然而, 随着大规模HSM 占 据重要市场, 其研发也得到了行业的支持。开源软件开发群体 正在开发小规模文件管理软件, 这些系统包括三个最受欢迎的 开源 NAS 应用程序: FreeNAS、Openfiler & NASLite 和马里兰高 级自动网络磁盘归档器 (AMANDA)。与所有此类开源解决方 案一样, 测试这些系统的适用性和可靠性的责任由用户承担, 并且在没有进一步开发的情况下, 本指南并不提出具体的建议。

6.3.24 验证和检索

6.3.24.1 在一些商业软件中,磁带读写错误可以在数据备份和验证过程 中自动报告。该功能通常采用循环冗余校验,即一种使用数据 校验码为传输或存储检测数据错误的技术。建议在所有档案存 储系统中都实施错误检查功能。错误检查在开源软件中难以实 现,因为该功能与特定硬件相关联。 MPTapes 公司有一个市售 的独立的 LTO 磁带存储阅读器 “Veritape”, 另外, 富士美磁公 司 (Fuji Magnetics) 最近也发布了与软件捆绑在一起的 LTO - Cassettes 芯片阅读器诊断系统。

6.3.25 完整性和校验码

6.3.25.1 校验码用于检查所存储、发送或复制的数据没有错误的计算值。 该值根据适当的算法计算, 并与数据一起传输或存储。当随后 访问数据时, 计算新的校验码并与原始校验码进行比较, 如果 匹配, 则表明没有错误。校验码算法有许多类型和版本, 并且 被推荐用于检测归档文件中的意外或故意错误的实践和标准。

6.3.25.2 加密版本是在保护数据不受有意损坏的情况下唯一一种具有可 靠信任记录的类型, 而即使是最简单的加密版本现在也不可 靠。最近显示, 有些方法可以创建无意义的位, 并计算成给定 的 MD5 校验码。这意味着外部或内部入侵者可以用无意义的数 据替换数字内容, 除非利用时打开该文件, 否则错误检查管理 系统并不会察觉到这种攻击。 MD5, 长度是 124 bit, 尽管仍然 用于传输, 但是在安全问题很关键的地方不应该使用。SHA -1 是另一种受到威胁的加密算法, 在理论上已被证明可以被规 避。SHA-1 的长度为160 bit: SHA-2 具有 224 bit、256 bit、 348 bit 和 512 bit 长度的版本, 与 SHA-1 在算法上类似。从长 远来看, 计算能力的稳步增长意味着这些校验码也会受到影响。

6.3.25.3 即使有这些影响, 校验码也是检测意外错误的有效途径, 如 果并入受信任的数字仓储, 可能足以在低风险情况下发现对 数据文件的故意损害。但是, 在存在风险的地方, 甚至在不 存在风险的地方, 保存计划中必须包括对校验码及其有效性 的监控。

6.4 数字保存计划

6.4.1 概述

6.4.1.1 一旦已经采取行动将音频内容转换为合适的数字存储格式并存储 在数字存储系统上, 如本指南前面所述, 仍然需要对内容的持续 保存进行管理。 6.3 节包括关于字节流的管理问题的描述, 即确 保数字编码的数据通过管理存储技术保持逻辑结构。

6. 4.1.2 然而, 保存数字信息还有另一个方面, 这就是确保仍然可以访问 这些文件中编码的内容。 OAIS 将此功能称为“保存计划”, 并 将其描述为“用于监控环境的服务和功能……并提供建议, 以 确保所指定的用户群体能够长期利用存储的信息, 即使原始计算 环境已变得过时了” (OAIS, 2002: 4.2)。

6.4.1. 3 保存计划是了解存储库中的技术问题、识别未来保存方向(路 径) 以及确定何时需要采取保存行动(如格式迁移) 的过程。

6.4.2 未来的数字通路

6.4.2.1 当文件格式过时并且由于不能使用适当的软件访问内容而处于不 可访问的风险中时, 基本上可以采取两种方法: 迁移或仿真。在 迁移过程中, 文件被修改或迁移到新格式, 以便可以使用当时可 用的软件来识别和访问内容。在仿真中, 访问或操作软件被修改 或设计, 使得它能在不再兼容过时的音频文件格式的新系统上打 开和播放这些文件。

6.4.2.2 我们目前的理解使我们相信, 对于诸如未压缩音频文件的简单离 散文件, 最可能采用的方法是迁移, 但这也不一定, 所有数字存 储方法和系统都应具有足够的灵活性, 以适应不断变化的环境。 在 PREMIS 的建议中描述的适当的保存元数据或 BWF/AES31-2-2006 中的“明确的文件类型测定(包括版本控制)” 可支持 上述两种方法; AES-X098B 标准, 即将由 AES 发布的 AES 57 标准 ( 《AES 音频元数据标准———用于保存和恢复的音频对象结 构》) 也可支持这两种方法。哈佛大学正在开发一个工具包, 并 以开放源代码形式发布, 以支持对该领域有需要的人群。

6.4.2.3 数字保存的这一方面是绝对遵守所述标准格式的最强论证。音频 和IT 行业对标准音频格式 (.wav) 的大量投资意味着需要能够 持续访问内容的专业软件工具, 以确保音频档案馆可以管理对其 馆藏的访问。同样, 对单一格式的大量投资也将有助于该格式的 长期持续性, 因为, 没有显著的利益, 行业是不会改变一个根深 蒂固的格式的。

6.4.3 激励因素和时机

6.4.3.1 虽然明智选择标准格式和遵守行业惯例会延迟这一天到来, 但终 有一天会需要采取某种类型的保存行动, 以便能长期访问所存的 音频内容。负责数字内容的音频档案工作者的问题是决定何时采 取这一行动, 以及确切需要做的事情。

6.4.3.2 目前正在实施一些有助于支持这一需求的倡议。这包括全球数字 格式名录 (GDFR, http://hul.harvard.edu/gdfr), 其目的是支 持“有效使用、交换和保存所有数字编码的内容”。还有其他服 务提供有关合适的格式的建议, 如美国国会图书馆或英国国家档 案馆提供的格式。

6.4.3.3 促使音频档案工作者采取某种保护行动的因素可能是认识到新软 件不再支持旧格式, 而整个行业都开始选择新的格式。对预示变 革的事件的了解来自对技术、行业和市场的专业理解, 推荐音频 档案工作者注意上述建议工具。

6.4.3.4 正在开发的软件和工具, 例如自动淘汰通知系统(AONS), 将 向藏品管理者提供建议, 即市场发生变化时需要采取行动的建议 (https://wiki.nla.gov.au/display/APSR/AONS + II + Documentation)。这种工具的实施将与全球数字格式名录 (GDFR) 的开发 同步进行。

6.5 数据管理与系统管理

6.5.1.1 OAIS 中的数据管理是用于填充、维护和访问用于标识和记录档 案馆藏的描述信息以及用于管理馆藏的管理数据(即内容的目 录和数据内容的统计记录) 的服务和功能。

6.5.1.2 OAIS 中的系统管理是管理系统配置、监控操作、提供客户服务 和更新存档信息的服务和功能。它还负责管理性工作, 如与生产 者协商提交协议、审计提交内容、控制物理访问、制定和维护存 档标准。

6.5.1.3 数字仓储和存档系统的数据管理和系统管理提供了允许系统的可 持续性和系统中内容的长期保存的服务。归档用数字存储系统的 要求包括向系统发送请求以生成馆藏、利用情况统计信息、内容 摘要(包括文件大小) 和其他必要的技术信息及管理信息的结 果集的能力。数据管理和系统管理对于可持续存档系统至关重 要, 因为此功能可确保正确找到并识别保存和访问的文件。

6.5.1.4 在数字存储和保存系统的这一部分内, 实现了对内容的访问控制 或安全控制。许多存储软件系统实现了由该系统存储和管理的策 略。重要的是要认识到, 权利管理信息, 像音频内容本身一样, 必须比存储它的系统存在更长的时间, 因而能够转移到将来任何 其他的保存和存储系统中。例如, 以可扩展访问控制标记语言 (XACML) 方式编码的信息, 更为普遍可执行, 也更便于转移到 其他系统。 XACML 是一种在 XML 中实现的声明式访问控制策略 语言, 也是一个处理模型, 描述了如何解释策略。 XACML 由 OASIS 标准组管理 (http://www.oasis-open.org/committees/tc_home.php?wg_ abbrev=xacml)。

6.5.1.5 当选择、建立和安装数字保存系统时, 关键测试之一应该是确定 该系统的管理是否在该机构的能力范围内。系统功能的容量和带 宽通常与系统使用与安装的复杂程度有关。如果不能充分管理和 维护系统, 则系统管理的内容就会存在重大的风险。因此, 系统 的长期管理, 必须考虑维持系统使用的现有技术能力。

6.6 访问

6.6.1 概述

6.6.1.1 OAIS 参考模型将“访问” 定义为“提供服务和功能来帮助消费 者确定 OAIS 中存储的信息存在与否、描述、位置和可用性, 以 及允许消费者请求和接收信息产品” 的实体。换句话说, 访问 是发现和检索内容的机制和过程。《音频遗产保护———规范、原 则和保存策略》 (IASA-TC 03) 指出, “档案馆的主要目的是确 保能够持续访问存储的信息”。内容的保存是能够持续访问内容 的先决条件, 而在一个精心策划的档案馆中, 访问就是内容保存 的直接结果。

6.6.1.2 最简单的情形下, 访问是定位内容的能力, 并且响应已授权的请 求, 允许检索用于收听的内容, 或者, 只要与文件相关联的权限 允许, 甚至可以制作一个副本带走。在互联的数字环境中, 可以 提供远程访问。然而, 访问不仅仅是提供文件的能力。大多数基 于技术构建的存档系统, 可以根据要求提供音频文件, 但一个真 正的访问系统能够提供查找和搜索功能以及传输机制, 并允许与 查找到的内容进行交互和协商。访问系统为访问增加了一个新的 维度, 而不仅仅是克服远距离。在这种新的基于服务的检索模型 中, 访问可以被认为是存储系统与用户浏览器之间的一个对话。

6.6.2 在线和离线访问环境中文件的完整性

6.6.2.1 出现在线远程访问之前, 由收藏机构的阅览室和听音室中的人员 保证存储内容的真实性和完整性。内容由机构的工作人员提供, 该机构的声誉保证内容的完整性。如果副本受到质疑, 可以提取 原件进行检查。

6.6.2.2 在线环境一定程度上仍依赖于收藏机构的可信性, 但在线环境事 实上不可能提供完全意义上的原始文件, 因为在存储库和分发网 络中存在着篡改或意外损坏的可能。为了解决这个问题, 人们开 发了各种系统, 能够在数学上证明文件或作品的真实性或完 整性。

6.6.2.3 如果某个内容出自一个特别的来源, 其真实性就是主要考虑的问 题。创建内容的机构的可信性, 可以证明内容的可信性, 并发布 一个权威认证, 也可使第三方用作真实性的保证。存在很多第三 方认证的系统, 并且在真实性存在问题的地方, 这些系统是有价 值的。

6.6.2.4 完整性是指确定文件是否已被损坏或被篡改。校验码是处理完整 性的常用方法, 在存储库和分发网络中也是有价值的工具(见 6.3.23)。但是, 正如 6.3.23 中所讨论的那样, 校验码也是会出 错的, 使用校验码需要代表档案馆监控其最新发展技术。

6.6.3 标准和描述性元数据

6.6.3.1 详细的、适当的、有组织的元数据是广泛公开和有效访问的关 键。第 3 章对各种形式和要求的元数据进行了详细讨论, 这在开 发传输系统时可以做参考。只有存在结构化和形式化的元数据的 支持, 功能众多的访问设备(例如具备地图接口或者时间表) 才能顺利运转。

6.6.3.2 管理和创建适当元数据最具成本效益的方法是, 确保在摄取内容 之前制定对传输系统中所有组件的要求。以这种方式, 元数据创 建步骤可以内置到内容预摄取和内容摄取工作流程中。如 7.4 所 述, 创建最小集元数据的成本, 是在已创建的系统中添加和组合 元数据。

6.6.4 格式和发布信息包

6.6.4.1 发布信息包 (DIP) 是消费者收到的信息包, 是对其内容请求或 订单的响应。传输系统还应该能够从查询中返回结果集或报告。

6.6.4.2 网络开发人员和“访问行业” 已经开发了基于传输格式的传输 系统。传输格式不适合保存, 保存格式一般也不适合传输。无论 是作为常规工作还是为了响应请求, 为了便于传输, 都需要创建 单独的访问副本。内容可被流式传输或以压缩的传输格式下载。 传输格式的质量通常与其带宽要求成正比, 藏品管理员必须根据 用户的要求和传输基础设施情况来选择传输格式的类型。 Quick-Time 和 Real Media 格式已被证明是流行的流媒体格式, MP3 (MPEG 1 Layer 3) 是一种流行的可下载格式, 也可以被流式传 输。用户不仅能选择这些格式进行传输, 而且许多传输系统为用 户提供了格式选择。

6.6.4.3 对于某些类型的材料, 可能需要创建两个 WAVE 母本: 一个用 来保存或存档, 准确复制原文件的格式和状况; 一个用来传输, 其音频内容质量可能已被改善。可根据需要用第二个母本创建传 输副本。传输格式将比母本格式以更快的速度发展。

6.6.5 搜索系统和数据交换

6.6.5.1 内容成功搜寻的程度决定了材料的使用量。为了确保广泛使用, 有必要通过各种方式公开内容。

6.6.5.2 远程数据库可以通过 Z 39.50 进行搜索, Z 39.50 是一种用于搜 索和检索信息的客户端- 服务器协议。 Z 39.50 广泛使用在图书 馆和高校部门, 其出现早于网络。鉴于其使用的程度, 建议在数 据库上采用符合 Z 39.50 标准的客户端服务器协议。然而, 该协 议在网络环境中正快速被 SRU/SRW (通过 URL 搜索检索和搜 索检索网络服务) 协议所替代。 SRU 是一个基于标准的 XML 的 互联网搜索协议, 使用 CQL 标准的查询语法(上下文查询语言) (http://www.loc.gov/standards/sru)。 SRW 是一种网络服务, 为SRU 查询提供SOAP 接口。各种开放源代码项目都支持 SRU/SRW, 包括 DSPACE 和 FEDORA 等主要的开源软件库。

6.6.5.3 开放档案元数据收割协议 (OAI-PMH) 是存储库互操作性的一 种机制。存储库通过 OAI-PMH 公开结构化元数据, 这些元数 据被聚合并支持对内容的查询。 OAI-PMH 节点可以并入公共存 储库。对象重用和交换 (OAI-ORE) 对于音频和视频存档领域 是重要的, 因为它解决了一个非常重要的需求, 有效地使复合信 息对象与网络体系结构同步。它允许网络资源聚合体的著录和交 换。“这些聚合体, 有时被称为复合数字对象, 可以将分布的资 源与多种介质类型相结合, 包括文本、图像、数据和视频。” (http://www.openarchives.org)

6.6.5.4 为了在复杂的在线环境下工作, 必须拥有可互操作的元数据和内 容。这意味着必须对包含的属性有共同的理解, 具备一种能够在 各种框架中运行的通用方案, 以及一组关于内容交换的协议。就 像在数字环境中, 通过遵守建议的标准、方案、框架和协议, 避 免使用专有性的解决方案, 来实现复杂在线环境下的工作。

6.6.6 权利和权限

6.6.6.1 需要注意的是,所有的访问都受到音频对象的有关权限及其所有 者允许使用内容的许可的约束。存在各种权限管理方法,从 “指纹化” 内容到管理个人访问的权限,到存储环境的物理分 离。特定的执行权限系统依赖于内容的类型、技术基础设施以及 所有者和用户的类型,而定义或描述一个特定权限管理方法,超 出了本指南的范围。