3: Metadades

3.1 Introducció

3.1.1 Les metadades són dades estructurals que aporten valor informatiu per afavorir operacions més eficients aplicades als recursos o fonts de dades, operacions com la preservació, la transcodificació, l'anàlisi i la descoberta. Les metadades ofereixen el seu millor rendiment en entorns en xarxa, però són igualment necessàries en qualsevol entorn d'emmagatzematge i preservació digital.
Les metadades instrueixen els usuaris finals, siguin humans o programes informàtics, sobre com interpretar les dades. Són crucials per a la comprensió, coherència i funcionament de qualsevol relació amb un objecte arxivat en qualsevol estadi del seu cicle de vida, així com amb objectes associats o que se’n derivin.

3.1.2 En termes funcionals, és útil pensar en les metadades com a «declaracions esquematitzades sobre els recursos: esquematitzades perquè són interpretables per màquines (així com llegibles per humans); declaracions perquè impliquen una reclamació sobre un recurs per part d'un agent particular; recursos perquè qualsevol objecte identificable pot disposar de metadades associades» (Dempsey, 2005). Aquestes declaracions esquematitzades (o codificades), conegudes també com a "instàncies" de metadades, poden ser molt simples, com per exemple un identificador universal del recurs (IUR)1 definit entre claudàtors <> a manera de contenidor o embolcall i un espai de nom. Aquestes instàncies sovint esdevenen molt complexes i modulars, i poden comprendre molts contenidors dins de contenidors, embolcalls dins d’embolcalls, cadascun basat en un esquema d’espai de nom, que s’interrelacionen en diferents nivells d'un flux de treball i durant període prolongat de temps. Seria d'allò més inusual que una sola persona creés, en una sola sessió de treball, una instància de metadades definitiva i completa per a un objecte digital donat.

3.1.3 Independentment del nombre de versions d'un mateix fitxer d'àudio que es puguin crear al llarg del temps, totes les propietats significatives de l'objecte arxivable han de romandre inalterades. El mateix principi s'aplica a les metadades incrustades en l'objecte de dades (vegeu la secció 3.1.4). No obstant això, diferents metadades d'un objecte poden ser modificades amb el temps: es descobreix nova informació, les opinions i la terminologia canvien, els contribuents d'informació desapareixen, els drets expiren o són renegociats. Per tot això sovint és convenient mantenir separats els fitxers d'àudio i tots o part dels fitxers de metadades, establir-ne apropiadament les relacions entre ells i actualitzar les metadades a mesura que ho facin la informació i els recursos. Encara que és possible editar les metadades incrustades en un mateix fitxer de dades, és pesat i incòmode, a més de poc escalable i poc recomanable per a grans col·leccions. La decisió d'incrustar les metadades en els mateixos fitxers de dades o en sistemes de gestió independents dependrà en gran mesura de la mida de la col·lecció, del grau de sofisticació del sistema de gestió de les dades i de la capacitat del personal responsable de l'arxiu.

3.1.4 Les metadades es poden integrar en els mateixos fitxers d'àudio, i de fet això constitueix una solució acceptable per a sistemes d'emmagatzematge digital (DSS - Digital Storage Systems) a petita escala (vegeu la secció 7.4, sobre metadades bàsiques). El format Broadcast Wave File (BWF), estandarditzat per la UER, Unió Europea de Radiodifusió (European Broadcasting Union, EBU), és un exemple d'integració de metadades d'àudio en el mateix fitxer d'àudio. El format BWF permet l'emmagatzematge d'un nombre limitat de dades descriptives dins l'estàndard WAVE (fitxer .wav; vegeu la secció 2.8 sobre formats d'arxiu). Un avantatge d'aquesta opció d’incrustació resideix en la minimització del risc de pèrdua del vincle entre metadades i dades (àudio digital) d'un mateix objecte. El format BWF permet l'adquisició de metadades de processament, de manera que moltes de les eines associades amb aquest format poden adquirir dades i omplir amb metadades la part corresponent del chunk2 BEXT (Broadcast Extension). Les metadades poden incloure la història del procés de codificació, vagament definida en el mateix estàndard BWF, de manera que es poden documentar els processos que van dur a la creació de l'objecte de dades d'àudio digital. Això presenta similituds amb l’'entitat esdeveniment3 definida a PREMIS (vegeu 3.5.2, 3.7.3 i fig.1). En el procés de digitalització de fonts analògiques es pot usar el fragment o chunk BEXT de la capçalera del fitxer BWF per a emmagatzemar informació qualitativa sobre el contingut mateix de l'àudio. Quan es crea un objecte digital a partir de fonts ja digitals, com DAT o CD, el fragment BEXT es pot destinar a emmagatzemar el llistat d'errors que es puguin haver produït en el procés de recodificació.

A = <ANALÒGIC> Informació sobre el procés del so analògic
A = <PCM> Informació sobre el procés del so digital
F = <48000, 44100, etc.> Freqüència de mostreig [Hz]
W = <16, 18, 20, 22, 24, etc.> Paraula de dades [bits]
M = <mono, estèreo, bicanal> Mode
T = <cadena de text lliure en codi ASCII> Text per a comentaris
Camp per a la història de la codificació: BWF (http://www.ebu.ch/CMSimages/en/tec_text_r98-1999_tcm6-4709.pdf)
A = ANALÒGIC, m = Estèreo, T = Studer A820; SN1345, 19/05, Bobina; Ampex 406
A = PCM, F = 48.000, W = 24, m = Estèreo, T = Apogee PSX-100; SN1516; RME DIGI96 / 8 Pro
A = PCM, F = 48.000, W = 24, m = Estèreo, T = WAV
A = PCM, F = 48.000, W = 24, m = Estèreo, T = 2006.02.20 Dades de l'anàlisi sintàctica del fitxer (parser)
A = PCM, F = 48.000, W = 24, m = Estèreo, T = Dades de conversió del fitxer 2006.02.20; 08:10:02

Fig 1. Exemple d'interpretació de la història de codificació d'una bobina original convertida a format digital BWF mitjançant un sistema automatitzat de bases de dades. National Library of Australia.

3.1.5 La Library of Congress ha estat treballant en la formalització i expansió de diversos chunks de dades en el fitxer BWF. El document Embedded Metadata and Identifiers for Digital Audio Files and Objects: Recommendations for WAVE and BWF Files Today és la seva versió més recent, disponible a http://home.comcast.net/~cfle/AVdocs/Embed_Audio_081031.doc. L'estàndard AES X098C és un altre avenç en la documentació de metadades de procedència i processament de dades.

3.1.6 Es poden trobar molts avantatges en el fet de mantenir separats contingut (dades) i metadades si s'emmarquen en estàndards com METS (Metadata Encoding and Transmission Standard - Estàndard de Codificació i Transmissió de Metadades). Els processos d'actualització, manteniment i correcció són molt més simples en un repositori de metadades separat de les dades. L'expansió de camps de metadades per a la incorporació de nous requisits només és possible en sistemes extensibles i separats. La creació, en definitiva, d'una diversitat de nous mitjans per a la compartició de la informació requereix un dipòsit separat de metadades que puguin ser emprats per diferents sistemes. Per a grans col·leccions, el llast de mantenir metadades exclusivament en les capçaleres dels fitxers BWF resultaria insostenible. L'estàndard MPEG-7 requereix, per exemple, que el contingut d'àudio i les seves metadades descriptives estiguin separats, encara que certes descripcions (metadades descriptives) puguin ser multiplexades4 amb el contingut en forma de segments alternats de dades.

3.1.7 Evidentment, també es podria considerar l'encapsulació d'un fitxer BWF amb una informació de metadades molt més completa. Mentre la informació continguda en el fitxer BWF sigui fixa i limitada, aquesta alternativa presenta els avantatges d'ambdues opcions. Un altre exemple d'integració és la metadada present en fitxers de difusió, necessari per a verificar que l'objecte descarregat o transmès en temps real (streaming) és el desitjat. L'etiqueta ID3, emprada en fitxers amb format MP3 per descriure el contingut de la informació i interpretat avui dia per la majoria de reproductors MP3, permet un conjunt mínim de metadades descriptives. El mateix estàndard METS ha estat considerat un possible contenidor per l'empaquetament conjunt de dades i metadades, encara que la grandària potencial d'aquests documents planteja seriosos dubtes sobre la seva viabilitat.

3.1.8 S'està desenvolupant una solució general per a la separació de metadades del seu contingut (possiblement amb certa redundància si els continguts inclouen al seu torn metadades) a partir de la tasca duta a terme per diferents universitats, conjuntament amb proveïdors de la indústria informàtica com SUN Microsystems, Hewlett-Packard i IBM. El concepte és sempre emmagatzemar el recurs mitjançant dos fitxers vinculats: un d'ells, contenidor de dades, i l'altre, contenidor de les metadades associades al primer. Aquest segon fitxer ha d'incloure :

3.1.8.1 La llista d'identificadors d'acord amb els factors clau. Es tracta, de fet, d'una sèrie de metadades associades al nom (URN - Universal Resource Name) i la localització (URL - Universal Resource Location) del recurs identificat. 

3.1.8.2 Les metadades tècniques (bits per mostra, freqüència de mostreig, definició precisa del format, ontologia associada). 

3.1.8.3 Les metadades objectives (coordenades posicionals GPS, codi de temps universal UTC, número de sèrie de l'equip, operador, etc.) 

3.1.8.4 Les metadades semàntiques.

3.1.9 En resum, la majoria de sistemes han d'adoptar l'enfocament pràctic que permeti al mateix temps incrustar les metadades en els fitxers de dades i mantenir-les separadament, establint prioritats (com per exemple, quina ha de ser de les dues opcions la font primària d'informació) així com protocols (normes per al manteniment de les dades) que assegurin la integritat del recurs emmagatzemat.


1 De l'anglès URI, Universal Resource Identifier. (n. dels t.)

2 Fragment de metadades incrustades a la capçalera d'un fitxer de dades. (n. dels t.)

3 Traducció proposada de l'anglès event entity a partir del diccionari PREMIS. (n. dels t.)

4 Seqüencialment alternades en un fitxer digital. (n. dels t.)

3.2 Producció

3.2.1 La resta del capítol assumeix que en la majoria dels casos els fitxers d'àudio i els de metadades seran creats i gestionats separadament. En aquest cas la producció de metadades involucrarà aspectes logístics com el moviment eficient d'informació, materials i serveis a través d'una xarxa pròpia. Tanmateix, un recull de petites dimensions o un arxiu en les primeres fases de desenvolupament potser podrà trobar avantatges a incrustar metadades en fitxers BWF per completar un subgrup del conjunt de metadades referits més endavant. Si s'actua amb cura i amb el necessari coneixement dels estàndards i esquemes discutits en aquest capítol, aquesta aproximació és sostenible i plenament migrable cap a un sistema completament implementat com el descrit més avall. Encara que la decisió entre incrustar totes de les metadades o una part en les capçaleres dels fitxers BWF o bé gestionar-ne només una part separadament queda en mans dels responsables dels arxius, aquest article detallarà la proposta de creació i gestió separada. (Vegeu també el Capítol 7, sobre “Opcions a petita escala per a sistemes d'emmagatzematge digital”).
  
3.2.2 Fins fa poc els productors d'informació sobre els enregistraments s'enquadraven o bé en equips de catalogació, o bé en equips tècnics, i era poc habitual que els rèdits convergissin. Les interrelacions que propicia el treball en xarxa han difuminat aquestes demarcacions històriques. No cal dir que l'encarnació de la logística en fluxos de treball operatiu necessita la implicació de persones que comparteixin les tasques i connectivitat dels entorns en xarxa. La producció de metadades implica, doncs, una estreta col·laboració entre enginyers i tècnics de so, experts en tecnologies de la informació (Information Technology, IT) i especialistes en la matèria. Requereix també una gestió atenta i un enfocament clar i adequat per a assegurar que els fluxos de treball són sostenibles i adaptables a la ràpida evolució de les tecnologies i aplicacions associades amb la producció de metadades.

3.2.3 Les metadades són com els interessos: creixen amb el temps. Si es creen metadades exhaustives i consistents serà possible utilitzar aquest valor afegit en un gran nombre de formes per a donar resposta a noves demandes plantejades per nous usuaris, noves versions o mineria de dades.
No obstant això, tant els recursos com els aspectes tècnics i intel·lectuals de disseny implicats en el desenvolupament i gestió de metadades no són precisament trivials. Els gestors de metadades han de preveure, entre altres, els aspectes clau següents:

3.2.3.1 Identificar quin esquema de metadades s’hauria aplicar per a satisfer les necessitats de l'equip de producció, el dipòsit mateix i els seus usuaris.

3.2.3.2 Decidir quins aspectes de les metadades són essencials per a potenciar la seva utilitat i el nivell de granularitat necessari per a cada tipus de metadades. Atès que les metadades es produeixen pensant en el llarg termini, sempre hi haurà el compromís entre els costos de desenvolupament i gestió associats a les necessitats presents i els requisits futurs, anticipats a la demanda.

3.2.3.3 Assegurar que s'apliquen les versions més actualitzades dels esquemes de metadades.

3.2.3.4 La interoperabilitat és un factor clau: en l'era digital, cap arxiu no és una illa. Per a facilitar la correcta transmissió de contingut a un altre arxiu o a una altra agència hi ha d'haver una estructura i una sintaxi compartides. Aquest és el principi motor dels estàndards METS i BWF.

3.2.4 Qualsevol entorn en xarxa amb responsabilitat compartida en la gestió dels arxius de dades porta associat un cert grau de complexitat. Aquesta complexitat es torna insostenible si continuem aferrats a vells esquemes de treball hereus dels primers temps de la informàtica aplicada a la biblioteconomia i l'arxivística —temps anteriors, en tot cas, a la World Wide Web i al llenguatge XML. Tal com ho explicava Richard Feynman en relació amb la seva pròpia disciplina, la física, «no pots esperar que els vells dissenys funcionin en noves circumstàncies». Cal un nou marc general i una correcta avaluació dels canvis culturals. Això permetrà l'evolució d'infraestructures de metadades viables aplicades a arxius audiovisuals.

3.3 Infraestructura

3.3.1 No necessitem un estàndard de "metadades discogràfiques": tota solució específica per a un cert domini significa una limitació poc pràctica. Necessitem una infraestructura de metadades que disposi d'un nucli de components compartit amb altres dominis, cadascun dels quals pugui al seu torn acollir variacions locals (mitjançant extensions de l'esquema, per exemple) aplicables a les tasques d'arxius audiovisuals concrets. Algunes de les qualitats essencials per a definir els requisits estructurals i funcionals de les metadades són les següents:

3.3.1.1 Versatilitat. Amb relació a les metadades, el sistema ha de ser capaç d'ingressar, fusionar, indexar, ressaltar i presentar a l'usuari metadades provinents d'una varietat de fonts descriptores d'una varietat d'objectes. Ha de ser també capaç de definir estructures físiques i lògiques, on l'estructura lògica representa entitats intel·lectuals —com són col·leccions o obres— i l'estructura física representa els mitjans o suports físics que constitueixen la font dels objectes digitalitzats. El sistema no ha d'estar subjugat a un sol esquema de metadades particular: ha de poder barrejar esquemes amb perfils d'aplicació (vegeu 3.9.10) ajustats a les demandes de cada arxiu en particular, sense comprometre'n la interoperabilitat. El repte està a construir un sistema que pugui adaptar-se a aquesta diversitat, sense complicacions innecessàries per als usuari de baix perfil, alhora que permeti accions complexes als usuaris que volen més marge de maniobra.
 
3.3.1.2 Extensibilitat. Habilitat per a encabir un ample espectre de matèries, tipus de documents (com imatges i arxius de text) i entitats de negoci (identificació d'usuaris, llicències d'ús, polítiques d'adquisició, etc.). S'han de poder aplicar, desenvolupar o ignorar extensions de metadades sense posar en risc el conjunt del sistema. En altres paraules, atès que la implementació de metadades continua essent una ciència immadura, ha de ser possible l'experimentació.

3.3.1.3 Sostenibilitat. Capacitat de migració, manteniment rendible, usabilitat, rellevància i disponibilitat en el temps.

3.3.1.4 Modularitat. Els sistemes emprats per a crear, ingerir, fusionar, indexar o exportar metadades han de ser modulars per a facilitar la substitució d’alguns components que realitzen funcions concretes per altres, sense malbaratar per això el conjunt del sistema.

3.3.1.5 Granularitat. Les metadades han de presentar prou granularitat per a permetre tots els usos i propòsits determinats. Fàcilment les metadades poden ser insuficientment granulars, mentre que és estrany què el nivell de granularitat resulti excessiu per a permetre un cert propòsit.

3.3.1.6 Liquiditat. Concepte de «una escriptura, molts usos»5. El concepte de liquiditat s'aplica als objectes digitals i a les seves representacions capaces d'autodocumentar-se a través del temps, de manera que les metadades aportin més valor en entorns en xarxa i atorguin més rendiment a la inversió inicial en temps i diners.

3.3.1.7 Obertura i transparència. El sistema de metadades ha de permetre la interoperabilitat amb altres sistemes. Per a facilitar-ne l'extensibilitat, els estàndards, protocols i programari incorporats han de ser tan oberts i transparents com sigui possible.

3.3.1.8 Estructura relacional (jerarquia / seqüència / procedència). El sistema ha d'expressar les relacions de dependència jeràrquica que corresponguin (per exemple, en les escenes d'una representació teatral i altres derivades). En el cas d'objectes digitals, ha de mantenir i mapar adequadament als arxius digitals les instanciacions6 d'informació sobre els suports originals de dades i el contingut intel·lectual. Tot això permet assegurar l'autenticitat de l'objecte arxivat (Tennant, 2004).

3.3.2 Aquesta recepta basada en la diversitat és al seu torn una forma d'obertura. L’aposta per un estàndard obert proposat pel W3C (World Wide Web Consortium) com XML (Extensible Markup Language), un llenguatge de marques àmpliament adoptat, no ha de ser obstacle per a implementacions particulars que incloguin una mescla d'estàndards d'intercanvi com ara MXF (Material Exchange Format) i AAF (Microsoft's Advanced Authoring Format).

3.3.3 Tot i ser un estàndard obert, la inclusió pràctica de metadades en el format MXF (Material Exchange Format) es realitza habitualment d'una manera propietària7. MXF aporta avantatges per a la indústria de la radiodifusió perquè es pot usar per a la transmissió professional de contingut a temps real (streaming) mentre que altres contenidors permeten únicament la descàrrega completa de l'arxiu. L'ús de MXF com a contenidor de dades i metadades és acceptable com a mitjà d'emmagatzematge només després de la substitució d'aquelles metadades descrites mitjançant formats propietaris per altres de descrites en estàndards oberts.

3.3.4 S'ha escrit tant sobre el format XML que podria resultar fàcil considerar-lo una panacea. L’XML no és una solució per se encara que sí que és un excel·lent mètode d'aproximació a l'organització i reutilització de continguts, donada la seva enorme capacitat en combinació amb una inesgotable llista d'eines i tecnologies aportades per tercers en benefici del reciclatge econòmic i la reutilització de dades. Com a tal, l’XML s'ha convertit en l'estàndard de facto per a la representació de metadades associades a recursos disponibles a Internet. Una dècada d'eufòria al voltant de l’XML ve avui dia acompanyada pel continu desenvolupament d'eines obertes i també comercials d'edició del contingut generat en XML.

3.3.5 Tot i que el capítol present inclogui referències a formats específics de metadades d'ús comú o que prometen ser-ho en el futur, no pretenen en cap cas ser prescriptives. L'observança de les qualitats clau enumerades en la secció 3.3.1 i l'arxiu i el manteniment detallat, explícit i unívoc de tots els detalls tècnics, creació de dades, política de canvis, dates i responsables associats, etc. haurà de permetre futures migracions i translacions sense canvis substancials en la infraestructura de base. Una infraestructura de metadades robusta ha de ser capaç d'acomodar nous formats de metadades mitjançant la creació o l’aplicació d'eines específiques d'aquest format, com taules d'equivalència o crosswalks8, o bé algorismes per a la traducció de metadades d'un esquema de codificació a un altre de manera efectiva i precisa. Hi ha un bon nombre de taules d'equivalència entre formats com MARC, MODS, MPEG-7 Path, SMPTE i Dublin Core. L'ús de taules d'equivalència va més enllà de la translació de metadades d'un format a un altre. Poden ser utilitzades com a base per a fusionar dos o més formats de metadades en un tercer, o en un conjunt d'índexs de cerca. Donat un format contenidor o de transferència apropiat, com és el METS, gairebé qualsevol format de metadades com MARC-XML, Dublin Core, MODS, SMPTE, etc. pot ser-hi acomodat. A més, aquesta infraestructura oberta permetrà als arxius absorbir, en part o del tot, catàlegs discogràfics provinents de sistemes informàtics heretats (antiquats però encara en ús) alhora que podrà oferir nous serveis basats en aquests arxius, per exemple, i farà ús de les metadades heretades per a la seva collita (metadata harvesting - vegeu OAI-PMH, Open Archives Initiative Protocol for Metadata Harvesting).

 

 


5  Usos o lectures a partir de l'anglès WORM –Write Once, Read Many. (n. dels t.)

6  Anglicisme de l'àmbit informàtic que es refereix a la creació d'un objecte, cas o exemple concret derivat d'una classe o model general de dades. (N. del T.)

7  Expressió de l'àmbit informàtic que fa referència a solucions no obertes, és a dir, solucions desenvolupades per companyies privades amb un ús regulat per llicència i amb cert cost econòmic. (n. dels t.)

8  Aplicat a metadades, el concepte de schema crosswalk es refereix a una taula d'equivalències entre elements o camps propis d'esquemes de bases de dades diferents. (n. dels t.)

3.4 Disseny. Ontologies

3.4.1 Una vegada satisfets aquests requisits constituents, el disseny d'un sistema viable de metadades prendrà la seva forma a partir d'un cert model o esquema conceptual o ontologia9. Hi ha diferents ontologies rellevants en funció de les operacions que s'hagin de dur a terme. Es recomana el model CRM (Conceptual Reference Model, http://cidoc.ics.forth.gr/) del CIDOC per al sector del patrimoni cultural (museus, biblioteques i arxius). L'esquema FRBR (Functional Requirements for Bibliographic Records, http://www.loc.gov/cds/downloads/FRBR.PDF) serà apropiat per a un arxiu format principalment per enregistraments d'interpretacions musicals o d'obres literàries, millor encara si s'utilitza en combinació amb RDA (Resource Description and Access) i DCMI (Dublin Core Metadata Initiative). Al seu torn, COA (ContextualOntologyArchitecture, http://www.rightscom.com/Portals/0/Formal_Ontology_for_Media_Rights_Tran...) serà l'ontologia adequada quan la gestió de drets sigui capital, així com també l'estàndard de gestió de drets proposat pel Motion Picture Experts Group, MPEG-21. RDF (Resource Description Framework http://www.w3.org/RDF/), una especificació versàtil i relativament lleugera, que cobra especial interès en entorns on els recursos de la WWW són creats pel repositori d'arxius digitals; això admet també aplicacions populars com les RSS (Really Simple Syndication) per a la redifusió d'informació (information feeds). Es poden trobar noves propostes per a la millora de la gestió i interpretació automatitzada de metadades entre les ontologies emergents que fan servir OWL (Ontology Web Language). La definició i la lectura de les ontologies definides en llenguatge OWL es poden dur a terme fàcilment mitjançant l'eina lliure Protégé, de la  Stanford University, http://protege.stanford.edu/. Es pot emprar OWL tant per a una definició simple de termes com per a la modelització complexa basada en programació orientada a objectes.


9  Segons el World Wide Consortium (W3C) una ontologia defineix els termes utilitzats per a descriure i representar una certa àrea del coneixement. Usen ontologies la gent, les bases de dades i les aplicacions que necessiten compartir la informació d'un cert domini (entès simplement com una àrea específica del coneixement, com ara la medicina, la indústria mecànica, immobiliària, de l'automòbil, financera, etc.). Les ontologies inclouen definicions de conceptes bàsics manejables per part de màquines ordinadors) dins d'un domini donat, així com les relacions entre aquests conceptes (cal notar que, tant aquí com en tot el document, la definició no és usada en el sentit tècnic donat pels experts en lògica). Les ontologies codifiquen els coneixements propis d'un domini i també coneixements que abasten diversos dominis. D'aquesta manera, permeten que el coneixement sigui reutilitzable.

3.5 Disseny. Grups d'elements

3.5.1 El pas següent en el disseny d'un sistema de metadades consisteix a establir categories o conjunts d'elements. Es descriuen habitualment tres categories o conjunts de metadades:

3.5.1.1 Metadades descriptives, útils per al descobriment i identificació d'un objecte

3.5.1.2 Metadades estructurals, útils a l'usuari final per a visualitzar i navegar per un objecte en particular. Comporten informació sobre l'organització interna d'un objecte, com per exemple la seqüència prevista d'esdeveniments i relacions amb altres objectes, com imatges o transcripcions d'entrevistes.

3.5.1.3 Metadades administratives, dipositàries de la informació de gestió de l'objecte (com per exemple, els espais de noms que autoritzen les metadades mateixes), dates de creació o modificació de l'objecte, metadades tècniques (com els formats vàlids del contingut, la durada, la freqüència de mostreig, etc.) o informació de drets i llicències. Aquesta categoria inclou, per tant, dades essencials per a la preservació de l'objecte digital.

3.5.2 Aquestes tres categories (descriptiva, estructural i administrativa), han de ser presents amb independència de l'operació que es realitzi, encara que hi puguin haver diferents subcategories en qualsevol fitxer o instanciació. Així, quan les metadades admeten informació de preservació —"informació que permet i documenta el procés de preservació digital", segons PREMIS— aquestes metadades seran riques en informació sobre la procedència de l'objecte, la seva autenticitat i les accions a què hagi estat sotmès. Si les metadades, d'altra banda, permeten la recerca i el descobriment de dades, llavors totes o una part  de les metadades de preservació seran útils per a l'usuari final (com a garants, alhora, d'autenticitat). En qualsevol cas, resulta més important elaborar i emfatitzar les metadades descriptives, estructurals i administratives pel que fa a llicències i proveir maneres per a transformar i fer accessibles metadades no formatades mitjançant el desenvolupament d'eines intuïtives per a l'usuari final, capaces de disposar fàcilment les metadades per als processos de collita (harvesting) o interacció entre usuaris en xarxa. No hi ha dubte que si un objecte no es pot trobar tampoc es podrà preservar, ni s’hi podrà accedir, ni es podrà escoltar: com més inclusives i completes siguin les metadades, molt millor.

3.5.3 Cadascuna d'aquestes tres categories de metadades es pot compilar per separat: les metadades administratives/tècniques, com a subproducte del procés de digitalització massiva; les metadades descriptives, com el llegat exportat des d'una base de dades anterior, i finalment les metadades de drets, com el resultat de contractes d'autorització d'ús o llicències. No obstant això, els resultats de totes aquestes compilacions han de ser recopilats i mantinguts en una sola instància o objecte de metadades, o en un conjunt de fitxers de metadades vinculats mitjançant les declaracions apropiades en relació amb la preservació. És essencial relacionar aquests fitxers o "peces" de metadades mitjançant un esquema o DTD (Document Type Definition, definició de tipus de document). En cas contrari, les metadades seguiran essent un "blob"10, una acumulació de dades comprensible per als humans però inintel·ligible per a les màquines.

 


10  Terme anglès que es refereix a qualsevol objecte indefinit o sense forma. (n. dels t.)

3.6 Disseny. Codificació i esquemes

3.6.1 De la mateixa manera que els senyals d'àudio es codifiquen en un fitxer WAV, l'especificació del qual és coneguda, el conjunt d’elements s’ha de codificar:. el format XML, potser combinat amb RDF, és la recomanació més adequada. Cal declarar aquesta especificació a la primera línia de qualsevol instància de metadades com a <?xml version="1.0" encoding="UTF-8"?>. Aquesta línia aporta per si mateixa poc valor informatiu (és com si indiquéssim a un hipotètic usuari que el llibret del CD que està llegint està fet de paper i ha de ser agafat d'una certa manera). Les línies que segueixen aportaran informació, tant per a màquines com per a usuaris humans, sobre els patrons previsibles i la semàntica de les dades de la resta del fitxer. Després d'aquesta primera línia, doncs, la resta de la capçalera del fitxer de metadades consisteix, típicament, en una seqüència d’espais de noms per a altres estàndards i esquemes (sovint coneguts com a esquemes d'extensió) invocats pel disseny de metadades.

<mets:mets xmlns:mets=”http://www.loc.gov/standards/mets/ ” xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance ” xmlns:dc=”http://dublincore.org/documents/dces/ ” xmlns:xlink=”http://www.w3.org/TR/xlink/ ” xmlns:dcterms=”http://dublincore.org/documents/dcmi-terms/ ” xmlns:dcmitype=”http://purl.org/dc/dcmitype ” xmlns:tel=”http://www.theeuropeanlibrary.org/metadatahandbook/telterms.html ” xmlns:mods=”http://www.loc.gov/standards/mods/ ” xmlns:cld=”http://www.ukoln.ac.uk/metadata/rslp/schema/ ” xmlns:blap=”http://labs.bl.uk/metadata/blap/terms.html ” xmlns:marcrel=”http://id.loc.gov/vocabulary/relators.html ” xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#type ” xmlns:blapsi=”http://sounds.bl.uk/blapsi.xml ” xmlns:namespace-prefix=”blapsi”>

Figura 2: Conjunt d’espais de noms emprats en el perfil METS de la British Library per a registres sonors

3.6.2 Aquestes especificacions intel·ligents o metallenguatges s'engloben en XML amb el metallenguatge anomenat XML schema (esquema XML)11 , successor del metallenguatge DTD (Definition Type Document). Encara és fàcil trobar exemples de DVD atesa la relativa simplicitat de la seva compilació. L'esquema XML es defineix en un fitxer propi amb extensió *.xsd (XML Schema Definition) i haurà de tenir el seu propi espai de nom al qual es poden referir les diferents operacions i implementacions. Els esquemes requereixen coneixement expert per a la seva compilació. Sortosament hi ha eines de codi obert que permeten inferir automàticament un esquema a partir d'un document XML ben estructurat. També hi ha eines que converteixen fitxers XML en altres formats habituals com PDF o RTF (Word), i viceversa. D'altra banda, els fitxers XSLT permeten visualitzar esquemes XML de manera idealitzada. Els esquemes i dominis d'identificadors corresponents a metadades descriptives són analitzats amb detall en l'apartat 3.9. «Metadades descriptives. Perfils d'aplicació, Dublin Core (DC)».

3.6.3 Com a resum de tot l'anterior, podem dir que un esquema XML o DTD descriu una estructura XML que etiqueta o marca contingut textual en el format propi d'un fitxer codificat en XML. El fitxer (o instància) contindrà un o més dominis de noms o identificadors que representaran l'esquema estès, responsable al seu torn d'ampliar l'estructura XML desenvolupable.


11  Un esquema XML defineix la sintaxi de qualsevol llenguatge basat en XML. (n. dels t.)

3.7 Metadades administratives. Metadades de preservació

3.7.1 La informació descrita en aquesta secció fa referència a la categoria de metadades administratives. Aquestes metadades reiteren (o dupliquen) la informació recollida a la capçalera del fitxer de dades d'àudio i codifiquen la informació operativa necessària. Mitjançant la lectura de la capçalera i l'associació de l'extensió del fitxer a un cert tipus de programari, tot sistema informàtic pot reconèixer el fitxer i utilitzar-lo conseqüentment. No obstant això, atès que les extensions de fitxers són en el millor dels casos indicadors ambigus de la funcionalitat del fitxer en qüestió, caldrà també referenciar la informació de capçalera i d'extensió en un fitxer a part amb l'objectiu de facilitar la gestió i el futur accés al fitxer. Els camps descriptius d'informació explícita, incloent tipus i versions, poden ser obtinguts automàticament a partir de les capçaleres del fitxer i usats per omplir els camps del sistema de gestió de metadades. Si avui dia o en el futur un sistema operatiu no inclogués la capacitat de reproduir, posem per cas, un fitxer amb extensió *.wav o de llegir una instància en *.xml, el programari en qüestió seria en definitiva incapaç de reconèixer l'extensió del fitxer i no hi podria accedir o determinar-ne el tipus. Gràcies al fet d'explicitar aquesta informació en un registre propi de metadades, possibilitem a futurs usuaris l'ús d'aquestes metadades de preservació com a clau d'accés a les dades d'informació. L'AES (Audio Engineering Society) desenvolupa en el marc de AES-X098B l'estàndard AES57 «Estàndard per metadades d'àudio - estructures d'objectes d'àudio per a preservació i restauració» per codificar aquesta aspiració.

3.7.2 Tot i que encara estan en desenvolupament, ja hi ha registres de formats que seran útils en el procés de categoritzar i validar formats de fitxers com a tasca prèvia a l'ingrés de dades. Cal esmentar PRONOM, un registre tècnic en xarxa mantingut pel TNA (The National Archives, Regne Unit) que inclou formats de fitxers i que es pot emprar conjuntament amb una altra eina del TNA anomenada DROID (Digital Record Object Identification) capaç de realitzar la identificació automatitzada de diversos formats de fitxers i de generar les conseqüents metadades. La Harvard University  als Estats Units proposa les eines GDFR (Global Digital Format Registry) i JHOVE (JSTOR/Harvard Object Validation Environment) per a la identificació, validació i caracterització d'objectes digitals, amb serveis comparables a favor de la compilació de metadades de preservació. En qualsevol cas, la recopilació d'informació precisa sobre el format dels fitxers és clau per a una preservació reeixida a llarg termini.

3.7.3 El més important és que tots els aspectes de la preservació i transferència dels fitxers d'àudio, inclosos tots els paràmetres tècnics s’avaluïn i conservin curosament. Això inclou totes les mesures subsegüents dutes a terme per salvaguardar el document d'àudio en el curs de la seva vida. Encara que gran part de les metadades a què ens referim aquí es poden generar posteriorment, els registres de la creació del fitxer d'àudio digital i dels canvis potencials que pugui patir el seu contingut s’han de crear en el mateix moment en què l’esdeveniment es produeix. Les metadades històriques tenen com a funció rastrejar la integritat de l'objecte d'àudio. En el cas d'emprar el format BWF (Broadcast Wave File) les metadades es poden registrar al fragment (o chunk) BEXT de la capçalera del mateix fitxer d'àudio, a manera d'historial de la codificació. Aquesta informació és part vital de les recomanacions que PREMIS fa sobre metadades de preservació. L'experiència ens mostra que els ordinadors són capaços de produir copioses quantitats de dades tècniques a partir del procés de digitalització. Sovint convindrà destil·lar aquestes dades per sintetitzar les metadades dignes de preservació. Hi ha propostes de categories d'elements en aquest sentit com és el cas d'AudioMD ((http://www.loc.gov/rr/mopic/avprot/audioMD_v8.xsd), un esquema estès desenvolupat per la Library of Congress (EUA), o bé l’AES audioObject XML schema, proposta que en el moment de la redacció d'aquest capítol es trobava en revisió com a estàndard.

3.7.4 En el procés de digitalització de col·leccions heretades, els esquemes poden ser útils no només per a descriure el fitxer digital sinó també l’original físic. En el moment de generar les metadades descriptives d'un objecte cal evitar tota ambigüitat possible: cal descriure l'obra, la seva manifestació original i les seves subsegüents versions digitals sense defugir la necessitat de distingir clarament què es descriu en cada instància. PREMIS distingeix en diversos components la seqüència de canvis associant-los amb esdeveniments  i  vinculant al llarg del temps les metadades que en resulten.

3.8 Metadades estructurals. METS

3.8.1 Les dades multimèdia basades en una seqüència temporal sovint resulten molt complexes. Un enregistrament de camp, per exemple, pot consistir en una seqüència d'esdeveniments (cançons, danses, rituals) acompanyats per imatges i notes de camp. Una entrevista d'història oral de certa durada distribuïda entre diversos fitxers WAV pot anar acompanyada de fotografies dels participants en l'entrevista i de transcripcions escrites o anàlisis lingüístiques. Les metadades estructurals proveeixen un inventari de tots els fitxers rellevants a més d'informació sobre relacions externes i internes, incloent-hi preferències en la seqüenciació de la informació (com per exemple, els actes i escenes d'un enregistrament operístic). L'estàndard METS (Metadata Encoding and Transmission Standard, actualment en la seva versió 1.9), amb les seves seccions de mapa estructural (structMap) i d'agrupació de fitxers (fileGrp) està demostrant àmpliament la seva capacitat en contextos audiovisuals (vegeu la figura 3).

 

                                                               
Fig 3: components d'una instància METS i un possible conjunt de relacions entre ells

 

3.8.2 Els components o seccions d'una instància METS són:

3.8.2.1 Una capçalera descriu l'objecte METS, amb informació, per exemple, sobre qui, quan i per què va ser creat l'objecte. La informació de capçalera fa possible la correcta gestió del fitxer METS.

3.8.2.2 La secció de metadades descriptives conté informació sobre el recurs d'informació que representa l'objecte digital, amb la intenció de facilitar el descobriment d'aquest objecte.

3.8.2.3 El mapa estructural, representat per les fulls individuals i detalls, encarregat d'ordenar en una jerarquia consultable els fitxers digitals que componen l'objecte.

3.8.2.4 La secció de fitxers de contingut que declara quins fitxers digitals constitueixen l'objecte. Els fitxers poden estar incrustats en el mateix objecte o únicament referenciats.

3.8.2.5 La secció de metadades administratives que conté informació sobre els fitxers digitals declarats en la secció de fitxers de contingut. Aquesta secció es subdivideix en:

3.8.2.5.1 metadades tècniques que especifiquen les característiques tècniques del fitxer

3.8.2.5.2 metadades d'origen que especifiquen la font de la captura (per exemple, una captura directa o una transparència de 4x5 reformatada)

3.8.2.5.3 metadades de procedènciadigital que especifiquen els canvis que el fitxer ha patit des de la seva concepció

3.8.2.5.4 metadades de drets que especifiquen les condicions legals d'accés a l'objecte digital.

3.2.8.6 Les seccions de metadades tècniques, metadades d'origen i metadades de procedència digital aporten la informació corresponent a la preservació digital.

3.2.8.7 Cal esmentar l'última de les seccions d'una instància METS, la secció de comportament, no plasmada en la figura 3 i que associa fitxers executables amb l'objecte METS. Per exemple, un objecte METS pot comptar amb una certa peça de codi per a provocar l'accés (o visionat), i la secció de comportament faria referència precisament a aquest codi.

3.8.3 Pot passar que les metadades estructurals necessitin representar objectes professionals addicionals:

3.8.3.1 informació d'usuari (autenticació)

3.8.3.2 drets i llicències (com cal emprar o es pot emprar un objecte digital)

3.8.3.3 polítiques (com realitza l'arxiu la selecció d'objectes)

3.8.3.4 serveis (drets d'autor i autoritzacions)

3.8.3.5 organitzacions (col·laboracions, parts interessades, fonts de finançament)

3.8.4 Aquests objectes addicionals es poden representar per fitxers referenciats a adreces específiques o URL (Uniform Resource Locators). Les metadades es poden acompanyar d'anotacions aclaridores per a usuaris humans.

3.9 Metadades descriptives. Perfils d'aplicació, Dublin Core (DC)

3.9.1 Històricament, la major part dels esforços dedicats pel sector de l’arxivística a les metadades han estat destinats a les metadades descriptives, com una branca natural de la catalogació tradicional. No obstant això, sembla clar que dedicar massa atenció a aquesta àrea (desenvolupant, per exemple, etiquetes descriptives i vocabularis controlats fins a un nivell de refinament molt localitzat) a costa d'altres consideracions ja descrites més amunt pot provocar limitacions o defectes del sistema en conjunt. La figura 4 ens mostra les variades interdependències que s'han d'establir, on les metadades descriptives representen només una de les subcategories entre tots els elements en joc.

  

TCA fig 3.8.2

Fig 4: Metadades descriptives simples (cortesia de Dempsey, CLIR/DLF primer, 2005)

3.9.2 La interoperabilitat ha de ser un component clau en qualsevol estratègia de metadades. Qualsevol sistema elaborat de forma independent per un equip propi per a ser un repositori d'arxiu és la recepta perfecta per a una baixa productivitat, alt cost i mínim impacte. El resultat serà una reserva particular de metadades incapaç d'estendre's. El domini de les metadades descriptives és sens dubte un exemple clàssic de la màxima de Richard P. Gabriel «el que és pitjor, és millor». Gabriel va predir correctament que, entre dos llenguatges de programació, un d’elegant però complex i l'altre de maldestre però simple, el segon es propagaria a més velocitat i, en conseqüència, un major nombre d'usuaris s'interessaria per millorar aspectes d'aquest segon llenguatge en detriment del primer. Un exemple d'això el constitueix la ràpida i satisfactòria adopció de Dublin Core (DC), inicialment considerat una opció improbable per part dels professionals a causa de la seva rigorosa simplicitat.

 
3.9.3 La missió de la DCMI (Dublin Core Metadata Initiative) ha estat facilitar la troballa de recursos a través d'Internet gràcies al desenvolupament d'estàndards de metadades que permetin la descoberta entre diferents dominis de coneixement, i amb aquest objectiu defineix marcs per a la interoperabilitat de categories de metadades i facilita el desenvolupament de metadades específiques per a una comunitat o una disciplina concreta. Per això s'ha proposat un vocabulari de només quinze elements amb els quals descriure un recurs, elements pensats per a cobrir amb economia de mitjans les tres categories de metadades. Cap d'aquests elements no és obligatori. Tots ells són repetibles, encara que qui ho implementi pugui aportar les seves pròpies especificacions en perfils d'aplicació (vegeu el punt 3.9.8). El nom de Dublin es deu a l'origen del vocabulari, proposat en el primer taller organitzat a la ciutat de Dublin, Ohio (Estats Units) l'any 1995. El terme Core, traduïble com a centre o nucli, respon al fet que els seus elements són genèrics i d'ampli abast, utilitzables per a descriure un ample ventall de recursos. L'ús de DC ha gaudit d'un ampli suport durant més d'una dècada i els seus quinze elements descriptors han estat formalment avalats en els següents estàndards: ISO Standard 15836-2003 de febrer de 2003 [ISO15836 http://dublincore.org/documents/dces/#ISO15836 ] NISO Standard Z39.85-2007, de maig de 2007 [NISOZ3985, http://dublincore.org/documents/dces/#NISOZ3985 ], i IETF RFC 5013, d'agost de 2007 [RFC5013 http://dublincore.org/documents/dces/#RFC5013 ].

La taula 1 (a sota) llista els quinze elements de DC amb les seves definicions oficials abreujades i possibles interpretacions en un context audiovisual.

Element DC Definició Interpretació audiovisual
Títol Nom donat a un recurs Títol principal associat a l'enregistrament
Matèries i Paraules clau Tema (topic) del recurs Principals temes tractats
Descripció Informe sobre el recurs Notes explicatives, sumari d'entrevistes, descripcions de contextos culturals o de l'entorn, llistat de continguts
Creador Entitat responsable principal de la creació del recurs Nom del creador del fitxer, no pas autors o compositors de les obres enregistrades
Editor Entitat responsable de fer el recurs accessible No es tracta de l'editor del document original que s'ha digitalitzat. Normalment l'editor és el mateix que el creador
Contribuïdor Entitat responsable de fer contribucions al recurs Qualsevol nom de persona o font de so. S'ha qualificar amb el  paper que hi té (per exemple, intèrpret, executant, tècnic de so)
Data Data concreta o període de temps associat amb un esdeveniment en el cicle de vida d'un recurs No pas la data d'enregistrament del document, sinó una data associada al recurs en qüestió
Tipus Naturalesa o gènere del recurs Domini del recurs, però no pas el seu gènere musical. Per exemple, "so", però no "jazz"
Format Format del fitxer, mitjà físic o dimensions del recurs descrit Format del fitxer digital, no pas el suport o continent físic original
Identificador del recurs Referència unívoca a un recurs en un context donat Possiblement l'identificador universal de recurs o IUR12 del fitxer de so
Font Recurs relacionat del qual es deriva el recurs descrit Referència a un recurs del qual es deriva el recurs descrit
Llengua Llengua del recurs Llengua del recurs
Relació Recurs relacionat Referència a objectes relacionats
Cobertura El tema espacial o temporal del recurs, la possible aplicació espacial del recurs o la jurisdicció sota la qual el recurs és rellevant Allò que l’enregistrament exemplifica, sigui una característica cultural, com per exemple un dialecte, o cançons tradicionals
Drets Informació sobre els drets de i sobre el recurs Informació sobre els drets de i sobre el recurs

 Taula 1: DC de 15 elements

 

3.9.4 Els elements de Dublin Core han estat expandits per a abastar noves propietats. Aquestes propietats es coneixen com a termes DC. Un cert nombre d'aquests elements o termes addicionals són útils per a la descripció de mitjans basats en la reproducció temporal:

 

Element DC Definició Interpretació audiovisual
Alternatiu Qualsevol tipus de títol emprat com a substitut o alternativa al títol formal del recurs. Subtítol Títol alternatiu; per exemple, traducció, pseudònim o ordenació alternativa dels elements del títol genèric
Extensió Grandària o durada del recurs Grandària i durada del fitxer
Extensió original Manifestació física o digital del recurs Grandària o durada dels enregistraments del recurs original
Espacial Característiques espacials del contingut intel·lectual del recurs Ubicació de l'enregistrament, incloent-hi coordenades topogràfiques per a interfícies de mapes
Temporal Característiques temporals del contingut intel·lectual del recurs Ocasió en què es va realitzar l'enregistrament
Creat Data de creació del recurs Data d'enregistrament o qualsevol altra data significativa en el cicle de vida d'un enregistrament

Taula 2: Selecció de termes DC rellevants

 

3.9.5 Els implementadors de DC poden escollir entre els quinze elements de la seva variant original, dc:variant (com per exemple en http://purl.org/dc/elements/1.1/creator) o bé entre els termes de la variant estesa, dctermes: variant (per exemple en http://purl.org/dc/terms/creator) en funció dels requisits d'aplicació. Amb el temps s'espera —i el DCMI ho fomenta— un ús estès dels termes semànticament més precisos dctermes:propietats, més encara si el marc RDF esdevé part de l'estratègia de metadades. Aquests termes faciliten el processament automatitzat de metadades.

3.9.6 Fins i tot en la seva forma expandida, el DC pot ser que no tingui la granularitat requerida per a un arxiu especialitzat en contingut audiovisual. L'element contribuent, per exemple, haurà d'explicitar el paper exercit en el procés concret d’enregistrament per a evitar, donat el cas, l'habitual confusió entre intèrprets i compositors, o entre actors i dramaturgs.

<dcterms:contribuïdor>
<marcrel:CMP>Beethoven,Ludwig van,1770-1827</marcrel:CMP>
<marcrel:INT>Quartet Pascal</marcrel:INT>
</dcterms:contribuïdor>
<dcterms:contribuïdor>
<marcrel:ORA>Greer,Germaine,1939-(dona)</ marcrel:ORA>
<marcrel:ORA>McCulloch,Joseph,1908-1990(home)</ marcrel:ORA>
</dcterms: contribuïdor>

El primer exemple etiqueta "Beethoven" com el compositor (CMP) i el "Quartet Pascal" com l'intèrpret (INT). El segon exemple etiqueta tots dos contribuents, Greer i McCulloch, com a oradors o conferenciants (ORA) encara que no aporta prou granularitat per a determinar quin és l'entrevistador i quin l'entrevistat. Aquesta informació detallada s'hauria d'especificar en algun altre camp de metadades (element DC) com ara la descripció o el títol.

3.9.7 En aquest aspecte podrien preferir-se altres esquemes, incloure’ls com una extensió addicional d'esquema (tal com s'ha vist a la figura 2). Per exemple, MODS (Metadata Object Description Esquema o esquema de descripció d'objectes de metadades, http://www.loc.gov/standards/mods/) permet més granularitat en els noms i la seva vinculació amb fitxers d'autoritat, reflex de la seva derivació de l'estàndard MARC:

name

 

Subelements:

namePart

   Attribute: type (date, family, given, termsOfAddress)

 displayForm

affiliation

role

   roleTerm

       Attributes: type (code, text); authority

       (vegeu: http://www.loc.gov/standards/sourcelist/)

   description

 

Attributes: ID; xlink; lang; xml:lang; script; transliteration 

type (enumerated: personal, corporate, conference)

authority (vegeu: http://www.loc.gov/standards/sourcelist/)

3.9.8 En el marc de METS és admissible la inclusió de més d'un conjunt de metadades descriptives en funció del compliment de diferents propòsits. Tindríem, per exemple, el DC (per al compliment del protocol OAI-MPH) a més de MODS —un conjunt de metadades més sofisticat— per al compliment d'altres iniciatives i en particular per a l'intercanvi de registres amb sistemes codificats en MARC. L'habilitat d'incorporar diferents estàndards és un dels punts forts de METS.

3.9.9 Sota el control del DCMI, Dublin Core Metadata Initiative, es segueix desenvolupant el DC D'una banda, la seva capacitat per a entrellaçar recursos es veu reforçada mitjançant la seva interrelació amb eines semàntiques en xarxa com són RDF (vegeu Nilsson et al, DCMI 2008). D'altra banda, l'associació formal des de 2009 amb RDA (Resource Description & Access http://www.collectionscanada.gc.ca/jsc/rda.html) incrementa la rellevància de DC en el sector de l’arxivística tradicional. Atès que RDA es considera el successor de AACR (Anglo-American Cataloguing Rules), aquest particular desenvolupament pot comportar implicacions estratègiques per als arxius audiovisuals que formen part de biblioteques nacionals i universitàries. També per als arxius de radiodifusió i televisió les iniciatives de DCMI tenen la seva repercussió. En el moment de la redacció d'aquest document, l’EBU (Unió europea de ràdio i televisió) completa el desenvolupament de l’EBU CORE Metadata Set, un nucli de metadades basat en —i compatible amb— l'estàndard Dublin Core.

3.9.10 Pot donar-se el cas que l'arxiu vulgui modificar (expandir, adaptar) el nucli d'elements de metadades. Aquests conjunts modificats, basats en un o més esquemes d'espais de noms ( com ara MODS i/o IEEE LOM així com també DC) es coneixen com a perfils d'aplicació. Tots els elements en un perfil d'aplicació s'obtenen de recursos externs com poden ser diferents esquemes d'espais de noms. Si els implementadors desitgen crear "nous" elements no categoritzats en cap altre esquema, com ara rols de contribuïdor no disponibles en el grup de ponents o relators de MARC (agents no humans com ara espècies, màquines, entorns) han de declarar llavors el seu propi esquema d'espai de nom i assumir la responsabilitat de mantenir-lo.

3.9.11 Els perfils d'aplicació inclouen una llista d'espais de nom juntament amb els seus localitzadors uniformes13 (preferiblement URL permanents, PURL). Aquests URL s'indiquen en cada instància o entrada de metadades. A aquests URL els segueixen una llista de cada element de dades juntament amb els seus possibles valors i tipus de contingut. Aquests valors es poden regular mitjançant regles internes o addicionals, vocabularis controlats com tesaurus o glossaris de, per exemple, noms i gèneres d'instruments, fitxers d'autoritat o noms i matèries personals. El perfil d'aplicació ha d'especificar també esquemes obligatoris per a elements particulars com dates (any-mes-dia) i coordenades geogràfiques. Aquestes representacions estandarditzades de localització i temps permetran mostrar informació sobre mapes i línies de temps en sistemes d'informació no textual.

Nom del terme Títol
URI (identificador uniforme del recurs) http://purl.org/dc/elements/1.1/title
Etiqueta Títol
Definit per http://dublincore.org/documents/dcmi-terms/
Definició de la font Nom atorgat al recurs
Definició a BLAP-S Títol o component d'una obra
Comentaris a BLAP-S Si no hi ha títol disponible, se’n construeix un que es derivi del recurs o proveïdor [no hi ha títol]. Se segueixen les pràctiques habituals de catalogació. Per a títols en altres idiomes s’utilitza el refinament alternatiu. Quan les dades es derivin del catàleg del BL Sound Archive, el títol equivaldrà a un dels següents camps de títol en el següent ordre jeràrquic: títol de l'obra (1), títol del document (2), títol de la col·lecció (3) , títol del producte (4), espècies originals (5), títol de difusió (6), títol curt (7), sèrie publicada (8), sèrie no publicada (9)
Tipus de terme Element
Afinaments  
Afinat per Alternatiu
Disposa d'esquema de codificació  
Obligació Obligatori
Ocurrència No repetible

 Figura 5. Part del perfil d'aplicació de la British Library per al so, BLAP-S

 

Espais de noms emprats en aquest perfil d'aplicació:

DCMI Metadata Terms http://dublincore.org/documents/dcmi-terms/
RDF http://www.w3.org/RDF/
MODS Elements http://www.loc.gov/standards/mods/
TEL terms http://www.theeuropeanlibrary.org/metadatahandbook/telterms.html
BL Terms http://labs.bl.uk/metadata/blap/terms.html
MARCREL http://id.loc.gov/vocabulary/relators.html

3.9.12 El perfil d'aplicació incorpora per tant elements d'un diccionari de dades (un fitxer que defineix l'organització bàsica d'una base de dades fins al nivell de camps individuals i tipus de camps) o fins i tot de diferents diccionaris de dades que poden ser mantinguts per un arxiu individual o compartits per una comunitat d'arxius. El diccionari de dades PREMIS (http://www.loc.gov/standards/PREMIS/v2/PREMIS-2-0.pdf, actualment en la seva versió 2), referit exclusivament a metadades de preservació, és un dels de més projecció. Els seus nombrosos elements es coneixen com a «unitats semàntiques». Les metadades de preservació aporten informació sobre la procedència, l’activitat de preservació i les característiques tècniques de les dades, així com ajuda en els processos de verificació de l'autenticitat de l'objecte digital. El Grup de Treball de PREMIS va editar el seu Diccionari de Dades per a metadades de preservació al juny de 2005 i recomana el seu ús en tots els repositoris de preservació  més enllà del tipus de material arxivat i les estratègies de preservació desenvolupades.

3.9.13 Gràcies a la definició de perfils d'aplicació i, cosa que és més important, a la seva declaració pública, els implementadors poden compartir informació sobre els seus esquemes per col·laborar en tasques universals com són la preservació a llarg termini.

 


12  De l'anglès URI, Universal Resource Identifier. (n. dels t.)

13  Més habitualment URL, de l'anglès Uniform Resource Locator. (n. dels t.)

3.10 Fonts de metadades

3.10.1 Els arxius no haurien d'aspirar a crear tota l'estructura de metadades descriptives des de zero per ells mateixos (és a dir, a la manera d'abans). De fet, donat el cicle de vida inherent i entrellaçat entre recursos i metadades, aquesta idea és impracticable. Hi ha diverses fonts de metadades, especialment pel que fa a metadades descriptives, fet que ha de ser explotat per a abaratir costos i generar riquesa a través de la diversificació de les tipologies d'entrada. Hi ha tres principals fonts de metadades descriptives: professionals, contributives i intencionals (Dempsey, 2007), que poden ser desplegades en paral·lel.

3.10.2 Les fonts professionals fan referència a bases de dades històriques, fitxers d'autoritat i vocabularis controlats, formats tancats de gran valor pel que fa a materials publicats o replicats. Aquestes fonts, especialment catàlegs d'arxiu, són notòriament incompletes i incapaces d'interoperar sense l'ajut de sofisticats programes de conversió i complexos protocols. Hi ha en la indústria de la radiodifusió i l’enregistrament —en el sector audiovisual clàssic en general— gairebé tants estàndards en operació com bases de dades independents. La manca d'un identificador universal per al sector audiovisual, com és el codi ISBN per al sector editorial , és un impediment històric. Després de dècades de desenvolupament discogràfic encara no hi ha consens sobre què constitueix un catàleg d'enregistraments: és una pista o tema individual, o bé una seqüència de pistes el que configura una unitat intel·lectual, com ara una obra musical multiseccionada o un treball literari? És el conjunt de pistes en un portador únic o un conjunt de portadors? En altres paraules, és el suport físic la unitat de catalogació? Evidentment, una agència que hagi optat per una definició de major granularitat trobarà molt més senzilla i reeixida l'exportació de les seves metadades històriques cap a la seva nova infraestructura de metadades. Les exportacions amb redundància basades en Z39.50 (http://www.loc.gov/z3950/agency/, protocol per a l'obtenció categoritzada d'informació) i SRW/SRU (protocol per a la recerca i obtenció d'informació via URL estandarditzades, amb resposta estandarditzada en XML) continuaran aportant un cert grau d'èxit, com ho farà l'habilitat dels ordinadors per a recollir metadades a partir d'un recurs central. No obstant això, caldrà fer l'aposta per sistemes més efectius en el procés de la producció compartida de recursos capaços d'identificar i descriure noms, matèries, llocs, períodes de temps i obres.

3.10.3 Fonts contributives fan referència a contingut generat pels  usuaris. Un fenomen destacable en els darrers temps és l'emergència de molts  llocs a Internet que promouen la generació, agregació i extracció de metadades per part d'usuaris, en un procés el resultat del qual permet al seu torn establir recomanacions, preferències (rànquings) i relacions entre recursos. És el cas, per exemple, de YouTube i LastFM. Aquests llocs web aporten valor pel fet de revelar relacions entre les persones i entre les persones i els recursos, alhora que donen informació sobre els recursos mateixos. Les biblioteques ha començat ja a experimentar amb aquestes propostes i s'entreveuen avantatges palpables en el fet de permetre als usuaris finals incrementar les metadades de fonts professionals. L'anomenada Web 2.0, amb les seves característiques orientades a facilitar la contribució i sindicació de dades per part dels usuaris, està convertint aquestes pràctiques en habituals en els sistemes de gestió de continguts.

3.10.4 Les fonts intencionals fan referència a la recollida de dades a partir de l'ús reiterat dels recursos, amb la intenció de millorar-ne el descobriment. El concepte es manlleva del sector comercial: les recomanacions del portal Amazon, per exemple, basades en l'anàlisi de paràmetres agregats de les seleccions de compra. Es poden usar algorismes similars per a puntuar i classificar objectes en un recurs. Aquest tipus de dades són ja un factor clau per a l'èxit de certs llocs web i han obert el camí per a la gestió de quantitats ingents de dades d'informació complexa.

3.11 Necessitats futures de desenvolupament

3.11.1 Malgrat el camí recorregut fins ara, la gestió de metadades segueix essent una ciència immadura. Aquest capítol espera haver mostrat com un cert nombre de pedres angulars (diccionaris de dades, esquemes, ontologies, codificacions) ja han estat erigides per a facilitar als investigadors l'accessibilitat al contingut audiovisual, així com l'ambició de la nostra professió des de fa molt temps de salvaguardar la seva persistència. Per a aconseguir un progrés més ràpid serà necessari establir un marc comú entre els sectors públic i comercial, així com entre les diferents categories d'arxius audiovisuals, cadascun dels quals s'ha mantingut ocupat ideant les seves pròpies eines i estàndards.

3.11.2 S'ha assolit un cert grau d'èxit amb la recollida automàtica de metadades a partir dels recursos. Cal fer més, tenint en compte que els actuals processos manuals no permeten una bona escalabilitat. La producció de metadades no sembla sostenible si no es redueixen costos en el procés. «No hauríem d'afegir cost i complexitat, que és el que acostuma a passar quan el desenvolupament es basa en múltiples canals consensuats que responen als imperatius de només una part de l'entorn del servei» (Dempsey, 2005).

3.11.3 El problema de la conciliació entre bases de dades, és a dir, la capacitat d'un sistema per a entendre que certs ítems són semànticament idèntics tot i que es puguin representar de maneres diferents, continua essent una qüestió oberta. S'està investigant en aquest sentit, tot i que la solució global sembla quedar encara lluny. La qüestió és significativa per a la gestió de la persistència en el model OAIS, com el següent exemple ens demostra. L'expressió semàntica que ens indica que Wolfgang Amadeus Mozart és el compositor de la major part del Requiem (K.626) es representa de manera totalment diferent en el model conceptual FRBR (Functional Requirements for Bibliographic Records) comparat amb una llista simple de termes de DCMI (Dublin Core). Així, en el DCMI "compositor" és un afinament de "contribuïdor" i "Mozart" és la seva propietat. En el FBRB, en canvi, "compositor" és una relació entre una persona física i una obra artística. L'ús de vocabularis controlats és una manera d'assegurar que W.A. Mozart representa la mateixa persona que Mozart.