3.10 元数据来源

3.10.1 档案不应该期望从头开始(旧的方式) 自己创建所有的描述性元 数据。事实上, 鉴于资源和元数据之间的内置生命周期关系, 这 样的主张将是不可行的。有几种元数据来源, 特别应该利用描述 性类别来减少成本, 并通过扩展投入手段来提供丰富的资源。主 要有三个来源: 专业、贡献和意图(Dempsey, 2007) ———它们 可能会相互部署。

3.10.2 专业来源, 意味着利用对已发布或复制的资料有价值的遗留数据 库, 授权文件和受控词汇的锁定值。它包括行业数据库, 以及归 档目录。这些来源, 特别是归档目录, 是众所周知的不完整的, 不具备复杂的转换程序和复杂协议的互操作。录音广播行业和音 像遗产部门的数据标准与数据库不同。缺少AV 的普遍解析器, 例如印刷的ISBN, 是一个持续的障碍, 经过几十年的唱片创作 后, 对于什么构成目录记录仍然存在分歧: 是一个单独的轨道, 还是组成一个知识单元轨道序列, 如多段音乐或文学作品? 是单 个运营商还是一组运营商的轨道总和, 换句话说, 是目录单位的 物理载体吗? 显然, 选择了更精细定义之一的代理机构将会更容 易将其遗留的数据成功导出到元数据基础架构中。基于Z39.50 (信息检索协议, http://www.loc.gov/z3950/agency) 和SRW/ SRU (通过标准化URL 进行搜索和检索的协议) 的数据导出和带 宽方法响应将继续提供一定程度的成功, 以及计算机从中央资源 获取元数据的能力。但是, 在共同生产资源的同时, 要更有效地 投入资源, 确定和描述名称、科目、地点、时间和作品。

3.10.3 贡献来源, 意味着用户生成的内容。近年来的一个主要现象是 出现了许多网站的邀请、汇总和挖掘用户贡献的数据, 并调动 数据进行排名, 推荐和关联资源。其中包括YouTube 和LastFM。这些网站有价值, 它们揭示了人与人之间及人与资源之 间的关系以及资源本身的信息。图书馆已经开始尝试这些方 法, 通过允许用户增加专业来源的元数据, 可以获得真正的优 势。支持用户贡献和联合的所谓Web 2.0 功能正在成为可用 内容管理系统的常见功能。

3.10.4 意图来源, 是指收集关于可以增强资源发现和使用的数据。该概 念来自亚马逊商业部门的建议, 例如, 基于总购买选择, 可以使 用类似的算法对资源中的对象进行排序。这种类型的数据已经成 为成功网站的核心因素, 通过数量令人生畏的复杂信息提供有用 的途径(大数据分析)。