第 4 章 唯一标识符和持久标识符

4.1 概述

4. 1. 1 无论是存储在大型存储系统上还是存储在离散载体上, 数字录音必 须可以被识别和检索。如果音频文件不能被定位或者没有连接赋予 其意义的目录和元数据, 则不能认为数字音频文件已经被保存。每 一个数字音频文件都必须有明确且唯一的命名。为了确保数字文件 命名的唯一性和确定性, 要识别数字音频文件首先要明确被命名的 文件及该文件的级别。

4. 1. 2 电脑中的所有文件, 自身都带有某种标识符, 使其在存储的过程中 区别于其他文件。该标识符一般是被广泛认可的公共标识符, 但是 通常情况下, 这些标识符与系统有关, 并随系统的需求而发生改 变。其结果是需要有一种持久的公共标识符, 以便保持文件的可访 问性, 从而确保想使用它的人可以准确将其定位并显现出来, 其给 出的引用和链接让文件可以不断地被访问。不管标识符存储在哪里 或者存储在哪种系统, 该标识符必须可以定位其所涉及的项目。

4. 1. 3 资源描述框架(RDF) 标准是识别数字文件的重要参考(http: / / www. w3. org/ RDF)。RDF 是使用Web 标识符, 即统一资源标识符 (URI) 来识别文件的工具。识别系统基于两种基本机制。第一种 是基于语义或其他标签规则创建标识符来命名文件, 以便标识符可 以一直附属于该文件。在RDF 标准中, 这些标识符被称为统一资 源名称(URN)。第二种是定位器, 通过建立一个位置系统, 以便 在定位器中找到想要识别的文件。在RDF 标准中, 这些标识符称 为统一资源定位符(URL)。

4. 1. 4 现已提出许多关于数字文件命名的方案, 有的是专门用于音频或音 视频文件, 其中EBU 技术建议R 99 - 1999 “唯一” 来源标识符 (USID) 专门应用在广播波形格式(BWF) 的< Originator Reference > 项。这样的方案打算在特定范围内提供一个唯一号码, 但该 方案还没有被普遍接受。

4.2 持久标识符

4. 2. 1 早在有数字化技术之前, 图书馆、档案馆和音频收藏部门就开发了 一些专业程度不同的系统, 以便允许它们访问这些资源, 有了数字 化技术之后, 这种情况更甚。这些在其领域内唯一的编号系统, 为 其相应的领域或者机构添加一个唯一的名称后, 可以被纳入更加通 用的命名系统中。这种结构允许机构以最大的灵活性在本地识别其 资源, 同时允许将标识符并入到全球系统中, 并添加适当的命名权 限组件。这些持久标识符是为了使拥有文件内容的用户可以识别该 作品(而不是文件), 这项作品随时间推移保持不变, 而不管命名 规则如何改变, 不变标识符都代表着该作品。

4. 2. 2 持久标识符(PID) 是为保证识别的资源对其所在位置保持独立性 而创建和使用的标识符, 且不受其各个副本处在不同的位置的影 响。这意味着PID 是URN。

4.3 文件命名规则和唯一标识符

4.3.1 讨论此主题时应注意: 指代某个资源的持久标识符和文件命名惯例 之间的区别。在许多实用系统中, 两者之间可能存在很大的联 系。本节介绍有关文件命名惯例的建议。在任何给定的资源库中 的数据文件可能包括多种数据类型, 而不仅仅是音频。一个唯一 标识符(UID) 唯一地标识一个资源。这意味着标识符会随着资 源的具体体现发生改变, 因此资源的每个副本都有自己的ID。 因此, 这意味着UID 是URL。鉴于此, 文件名也称为唯一标 识符。

4.3.2  对于任何系统内部和外部的链接, 唯一标识符是管理音频数据及 其所有相关文件的首要关键点。相关文件例如: 母版副本, 播放 副本, 压缩版本的播放副本, 元数据文件, 编辑列表, 随附的文 本, 图像, 任何这些母版文件或衍生文件的各个版本。因此, 除 非档案馆使用系统分配的“傻瓜型的” 标识符, 否则在逻辑上 确定唯一标识符的结构是非常重要的, 让需要使用它的人能清楚 地理解, 并且能够被人和机器读取。了解数据文件“家族” 之 间的联系也很重要: 一位评论员将此链接比作“永久的‘线’, 使资源在网络上被重新标记或重新链接”。讨论资源而不是馆藏 是本指南的一个重要的基本概念。

4.3.3  构建用于显示联系的识别系统的最强有力的方法之一是以根ID (RID) 概念为基础。RID 是实体标识符。所有表示实体的文件 和文件夹将通过添加前缀和后缀的方式(例如创建唯一标识符) 从RID 上形成。

4.3.4  无论其标识符智能与否, 对于计算机生成的、计算机可识读的标 识符, 正常情况下都应该具有固定长度代码的初始密钥。这具有 以下优点。

4.3.4.1 它们能够建立用于创建新的唯一标识符的规则。

4.3.4.2 它们保证系统(以及知道规则的用户) 识别的准确性。

4.3.4.3 它们允许对代码或代码的组成部分进行验证。

4.3.4.4 它们支持搜索、筛选和报告。

4.3.5  关于傻瓜型的、智能型的或准确型的唯一标识符的相关优点长期 存在争议。大多数系统在保存数据的那一刻为其分配一个“傻 瓜型” 的标识符。它们被迅速应用, 不需要人为干预, 并且其 唯一性有保证。然而, 它们的随机性和随意性意味着必须找到其 他方式来显示在数字资源生命周期中生成的不同文件是如何相互 联系的。解决这个问题的更好办法是使用智能型且表达明确的标 识符。

4.4 标识符特征

4. 4. 1  设计命名方案时应考虑以下几个特征。

4. 4. 1. 1 唯一性, 命名方案在机构数字资源的大环境下必须是唯一的, 如 有必要, 还应全球唯一。

4. 4. 1. 2 组织机构必须保持资源当前位置与持久标识符之间的联系, 这项 功能必须保持不变。

4. 4. 1. 3 如果能够适应不同类型的材料或藏品的特殊需求, 标识符系统将 更有效。

4. 4. 1. 4 虽然不是绝对关键的, 且对于机器生成的持久标识符并不是必需 的, 但如果这种标识符容易理解和应用, 并且能被简短、易用的 引文所使用, 那么标识符系统一般会更加成功。

4. 4. 1. 5 标识符应该能够区分文件的各个部分, 以及数字文件可能有的版 本和作用。由于格式可能随时间而变化, 依赖文件扩展名将档案 复制件与档案原件区分开的方法是不可取的, 尽管其功能保持不 变(Dack, 1999)。

4. 4. 1. 6 标识符应允许批量重命名操作, 以便纳入不同的信息管理系统。