4: Identificadores únicos y persistentes

4.1 Introducción

4.1.1 Toda grabación de audio digital guardada en un sistema de almacenamiento masivo (disco duro) o en cualesquiera soportes discretos debe poder ser identificada y recuperada. Un ítem no puede considerarse preservado si no puede ser localizado ni vinculado al catálogo y al registro de metadatos que le dan significado. Todo objeto digital debe recibir un nombre inequívoco, sin margen para la ambigüedad. En el proceso de garantizar que el objeto se halla denominado de manera inequívoca, el primer paso para la identificación lo constituye determinar qué es lo que se denomina y a qué nivel.

4.1.2 Cualquier registro en un ordenador dispone por naturaleza de algún tipo de identificación de sistema que permite su almacenamiento sin conflicto. Esta identificación se realiza a veces mediante un identificador público aceptable, pero en la mayoría de casos los identificadores responden a un sistema informático concreto y están sujetos a cambios en función de los requisitos de este sistema. Se hace pues necesario establecer un identificador público persistente capaz de garantizar la accesibilidad y presentación de un ítem a quienes deseen usarlo, de manera que cualquier cita o vínculo que se haga continúe garantizando el acceso a dicho ítem. Y también es necesario que el identificador nos conduzca correctamente al ítem al que se refiere independientemente de su ubicación o de la naturaleza del sistema de identificación.

4.1.3 El marco de descripción de recursos o RDF (Resource Description Framework) es un estándar de referencia en la identificación de objetos digitales (ver http://www.w3.org/RDF/). RDF se basa en el concepto de identificar objetos mediante el uso de identificadores en red llamados URIs (del inglés Uniform Resource Identifier), Identificadores Uniformes de Recursos. Los sistemas de identificación se basan en dos mecanismos principales. El primero es la denominación de un ítem mediante la creación de un identificador basado en reglas de etiquetado semánticas o de otro tipo, de modo que el identificador quede vinculado al ítem. En el estándar RDF, estos identificadores se denominan nombres uniformes del recurso, URNs (del inglés Uniform Resource Name). El segundo mecanismo es el localizador, que requiere la organización de un sistema de localización que permita la ubicación del ítem. En el estándar RDF hablaremos de un localizador uniforme de recursos, más conocido con el acrónimo inglés URL (Uniform Resource Locator).

4.1.4 Se han propuesto numerosos esquemas para la denominación de un objeto digital, algunos de ellos específicos para el entorno audiovisual, como es el caso de la R99-1999, recomendación técnica de la EBU para la identificación única de recursos (Unique Source Identifier, USID) implementable en el campo <OriginatorReference> del formato BWF (Broadcast Wave Format). Tales esquemas pretenden atribuir un número único en el seno de una comunidad concreta y no han conseguido alcanzar una aceptación universal.

4.2 Identificadores persistentes

4.2.1 Ya antes de que el proceso de digitalización lo convirtiera en tarea crítica, las bibliotecas, archivos y colecciones de audio han ido desarrollando sistemas más o menos sofisticados capaces de organizar el acceso a sus depósitos. Estos sistemas de numeración, a menudo únicos en el seno de su propio dominio, pueden incorporarse a esquemas de denominación más universales mediante la adición de un nombre inequívoco para el dominio o la institución. Este tipo de estructura permite a la organización la máxima flexibilidad en la identificación local de sus recursos, a la par que posibilita la incorporación de los identificadores locales en un sistema global con la adición del componente apropiado de denominación de autoridad. Estos identificadores persistentes permiten al usuario la identificación de una obra (por oposición a un simple fichero), identificación que permanece constante a través del tiempo para esa obra más allá de potenciales cambios en las convenciones de denominación de los ficheros que la contienen.

4.2.2 Un identificador persistente (Persistent Identifier, PID) es un identificador construido e implementado de manera que el recurso identificado continúe siendo el mismo independientemente de la ubicación de su representación así como del hecho de que varias copias estén disponibles en diversas ubicaciones. Significa que los PIDs son URNs.

4.3 Convenciones de nomenclatura de ficheros e identificadores únicos

4.3.1 En las discusiones sobre esta cuestión hay que mantener cuidadosamente la distinción entre los identificadores persistentes (PIDs) usados para referirse a una obra y las convenciones de denominación de los ficheros. En muchos sistemas prácticos puede haber vínculos entre ambos. Esta sección aporta recomendaciones sobre convenciones de denominación de ficheros. Los ficheros de datos que se gestionan en cualquier repositorio pueden incluir diferentes tipos de datos, no únicamente de audio. Un identificador único (en inglés UID, Unique Identifier) debe identificar inequívocamente un recurso. Ello significa que el identificador puede cambiar en función de la materialización del recurso y por ello cada copia del recurso en cuestión tendrá su propio UID. Consecuentemente, los UIDs son URLs. A efectos de la presente discusión, los nombres de fichero se considerarán UIDs.

4.3.2 Cuando en un sistema se establecen vínculos internos y externos, el identificador único es la clave primera para la administración de los datos de audio y de todos los ficheros asociados (sean copias máster, copias de reproducción, versiones comprimidas para accesibilidad, ficheros de metadatos, listas de edición, textos explicativoscomplementarios, imágenes, versiones de cualquiera de los ficheros máster o derivados). Por consiguiente, salvo que el archivo haya optado por el uso de identificadores «neutros»¹⁸ (dumb) —a menudo asignados automáticamente—, resulta de vital importancia que la estructura de identificadores únicos se determine de manera lógica, claramente comprensible para aquellos que deban utilizarla y de fácil lectura tanto para personas como para máquinas. También es importante revelar las conexiones entre «familias» de ficheros de datos: un comentarista ha comparado esta conectividad con «el persistente «hilo» en la web que permite que los recursos puedan ser reetiquetados o reenlazados». Si hablamos en términos de «recursos» más que de colecciones, este concepto subyacente es de considerable importancia.

4.3.3 Una de las maneras más potentes de construir un sistema de identificación capaz de revelar estas conexiones es basarlo en el concepto del identificador raíz (RID, del inglés Root ID). El RID es el identificador de entidad. Todos los ficheros y carpetas involucrados en la representación de la entidad serán derivados del RID mediante la adición de prefijos y sufijos para crear identificadores únicos.

4.3.4 Más allá de la cuestión de si los identificadores aportan o no inteligencia intrínseca, los identificadores generados y legibles automáticamente mediante ordenadores suelen tener códigos de longitud fija como clave principal. Esta opción ofrece las siguientes ventajas:

4.3.4.1 Permiten el establecimiento de reglas para la creación de nuevos identificadores únicos.
4.3.4.2 Garantizan reconocimiento inequívoco en el sistema (también para los usuarios que conocen las reglas).
4.3.4.3 Permiten la validación del código o de sus componentes.
4.3.4.4 Permiten la búsqueda, la selección y la presentación de información.

4.3.5 Ha habido un prolongado debate sobre los méritos relativos del identificador «neutro» y el «inteligente» o «expresivo». La mayoría de los sistemas generan un identificador neutro en el momento mismo en que se guardan los datos. Los identificadores neutros se aplican muy rápidamente, no requieren intervención humana y garantizan la unicidad. Sin embargo, su aleatoriedad y arbitrariedad crean la necesidad de encontrar métodos alternativos que muestren la interconexión entre los ficheros generados en el ciclo de vida de un recurso digital. Una mejor manera de hacerlo es mediante el uso de identificadores inteligentes o expresivos.

18. Del inglés dumb, coloquialmente «tonto». Son identificadores que no aportan inteligencia o mnemotecnia sobre el recurso identificado (n. de los t.).

4.4 Características del identificador

4.4.1 En el desarrollo de un esquema de nombres conviene considerar las siguientes características:

4.4.1.1 Unicidad. El esquema de nombres deberá ser único en el contexto de los recursos digitales de la organización y, si es menester, también desde una perspectiva global.
4.4.1.2 Compromiso con la persistencia. La organización debe comprometerse a mantener la asociación de la ubicación actual del recurso con el identificador persistente.
4.4.1.3 El sistema de identificación será más efectivo si es capaz de admitir los requisitos especiales asociados a diferentes tipos de materiales o colecciones.
4.4.1.4 Aunque no absolutamente crítico ni esencial para identificadores persistentes generados de forma automatizada (por máquinas), un sistema será en general más exitoso si resulta fácil de entender y aplicar y si se presta a citas cortas y fáciles.
4.4.1.5 El identificador debería ser capaz de distinguir partes de un ítem, así como las versiones y roles que un ítem digital pueda tener. Por ejemplo no es recomendable confiar exclusivamente en la extensión informática de un fichero para distinguir una copia de distribución de una copia de archivo, dado que el formato puede cambiar a lo largo del tiempo, mientras que el rol seguirá siendo el mismo (Dack: 1999).
4.4.1.6 El identificador debe permitir el cambio automatizado de nombres mediante un proceso por lotes (batch) como puedan ser el cambio automatizado de nombres para la su captura en diferentes sistemas de administración de contenidos.