Presentación sobre los metadatos dentro del curso "Acceso abierto, repositorios y metadatos" impartido al Personal del Servicio de Biblioteca de la Universidad de La Laguna en noviembre de 2013
6. Objetivo: Encontrar información relevante en Internet
Problema: Los métodos automáticos para identificar
recursos en la red (robots de búsqueda y metabuscadores)
recuperan gran cantidad de información pero con poca
precisión
Causa: Los documentos de la red carecen de datos
suficientes de descripción
7. Descripciones normalizadas de recursos que
sirven para que éstos puedan ser
correctamente identificados y recuperados en
sistemas de información digital
¿Qué son los metadatos?
8. Normalizadas: Los datos responden a unas “normas” (que
se denominan esquemas de metadatos)
Recursos: Los datos se refieren a recursos, documentos u
objetos, que puede ser tanto físicos como lógicos
(digitales)
Identificados y recuperados: La finalidad de los
metadatos es facilitar la localización de los documentos
mediante las diferentes herramientas de recuperación de la
información
9. ● Permiten indizar gran cantidad de datos de
diferentes tipos sin necesidad de utilizar un gran
ancho de banda ya que se indiza la representación
del objeto y no el objeto en sí
● Ayudan a describir y recuperar recursos en la red,
ya que analizan el contenido del recurso en
profundidad
● Comparten e integran recursos de información
heterogéneos y localizados en sitios muy diversos
● Pueden controlar el acceso a información
restringida
¿Para qué sirven los metadatos?
11. Formalmente, los metadatos adoptan la forma de registros, que presentan
secuencias de pares “atributo” - “valor".
Los atributos son las características o propiedades genéricas de una clase de
objetos que se han de representar, mientras que los valores son propios y
distintivos de cada recurso.
Registros de metadatos
Atributos Valores
Nombre o título Sitio web de la Universidad de La Laguna
Autor Universidad de La Laguna
Fecha o fecha de actualización 2013
Localización (URL) http://www.ull.es
Tema Educación Superior, Universidades, Canarias
12. Conjunto de reglas y elementos que constituyen un modelo de
metadatos.
Recogen cuáles son las características más representativas de los
objetos que tratan de describir, así como la forma de elaborar los
registros de metadatos correspondientes.
Establecen los elementos y orden en que habrán de disponerse éstos,
así como el formato de etiquetado o codificado de los metadatos.
Ofrecen recomendaciones de uso de los elementos, de vocabularios
especializados o acepciones específicas de términos en determinados
dominios
Esquemas de metadatos
13. Dos maneras:
● Interna (embedded metadata), mediante integración en
el código fuente del recurso. Se suelen generar en el
momento de creación de los recursos
Descripción mediante metadatos
17. ● Externa (stand-alone metadata). Se generan con
posterioridad
○ fichero separado de meta-información
○ campos de una base de datos que mantiene un
enlace al documento descrito; se suele usar para
dar acceso a recursos externos
Descripción externa
21. Los metadatos pueden generarse por diversos métodos:
● Por el propio autor/creador del recurso, con la ayuda de
herramientas creadas “ex profeso” para la generación
automática de metadatos
● Por la organización que gestiona los recursos de
información (P. ej., editores de bases de datos)
● Por un servicio de información, es decir, creadores
externos a través de medios humanos (bibliotecarios,
por ejemplo) o automáticos
Generación de metadatos
22. Capacidad de dos o más sistemas o
componentes para intercambiar información
y usar la información que han intercambiado
Interoperabilidad
23. Significa
● Capacidad de los sistemas para trabajar entre sí en
tiempo real.
● Capacidad del software para trabajar en diferentes
sistemas.
● Capacidad de los datos para ser intercambiados entre
diferentes sistemas (portabilidad).
Interoperabilidad
24. Requiere
● Formatos estandarizados de documentos.
● Formatos estandarizados de metadatos.
● Formatos estandarizados de protocolos de
comunicación y recuperación.
● Medios estandarizados de autenticación y seguridad.
Interoperabilidad
26. La Interoperabilidad se garantiza por medio
del uso de estándares.
Los estándares son documentos que contienen
especificaciones técnicas u otros criterios precisos, de
modo que aquellos materiales productos, procesos y
servicios que los cumplan sean compatibles entre sí.
Interoperabilidad y estándares
27. Estándares: identificación y localización
DOI (Digital Object Identifier). trata de proporcionar enlaces
permanentes a los recursos a los que se refiere
10.5678/ISBN-0-7645-4889-4
URI (Universal Resource Identifier): cadena de caracteres que
identifican a un recurso en la red. El más común es el URL (Uniform
Resource Locator)
http://www.ull.es/view/institucional/ull/La_Institucion/es
Código de la organización Código específico del recurso
Protocolo de comunicación Nombre de dominio Ruta de la página
28. Estándares: lenguajes de marcado
HTML (HyperText Markup Language)
● trata de facilitar la publicación de contenidos en la web mediante su
codificación con etiquetas (tags)
● formato no propietario, independiente de plataformas
● falta de capacidad expresiva, orientado a la presentación de los documentos
y no a su contenido
● número limitado de etiquetas
XML (eXtensible Markup Language)
● ofrece un modelo para representar el contenido informativo de los recursos de
manera que éste sea fácilmente procesable por distintas aplicaciones
● permite diferenciar entre la forma de presentación de los documentos, su
estructura y su contenido informativo
● número ilimitado de etiquetas
RDF (Resource Description Framework)
● sistema para expresar las relaciones entre los datos (sujeto-predicado-objeto)
● orientado a representar la semántica implícita en los documentos de manera
que ésta pueda ser procesada y “comprendida” por máquinas
● generalmente se basa en XML
29. Estándares: protocolos
Z39.50
● utilizado principalmente en el ámbito bibliotecario
● permite realizar búsquedas en distintos catálogos de bibliotecas
● permite intercambiar registros
OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting)
● permite intercambiar registros de metadatos de publicaciones académicas
entre los distintos repositorios
● “harvesting” o “recolección” de registros de metadatos hacia una base de
datos centralizada que actúa como intermediaria entre los repositorios
que los contienen y el usuario final.
30. Estándar Dublin Core (ISO 15836:2003)
Problema:
● La creciente cantidad de documentos electrónicos disponibles en la red
imposibilita su tratamiento profesional
Objetivo:
● Facilitar que los propios autores dieran un tratamiento documental básico
a los contenidos que publican en la web con mínimas garantías de poder
ser recuperados mediante motores de búsqueda
31. Estándar Dublin Core: características
Sigue cuatro principios:
1. Simplicidad de creación y mantenimiento: mínimo número de elementos.
2. Interdisciplinariedad. Los elementos se encuentran en documentos de
distintas disciplinas
3. Alcance internacional. Existen versiones en varias lenguas.
4. Extensibilidad. Se puede adaptar en función de las necesidades
mediante los denominados “perfiles de aplicación”, que posibilitan el uso
del esquema DC junto con elementos procedentes de otros esquemas u
otros de creación local (denominadas “extensiones”).
Se compone de 15 elementos:
● Todos están al mismo nivel jerárquico.
● Todos ellos son opcionales y repetibles tantas veces como sea preciso.
● El orden en que se presenten es indiferente.
32. DC Simple y DC Cualificado
DC Simple:
● 15 elementos que sirven para describir un recurso informativo de manera
genérica
DC Cualificado:
● 15 elementos del DC Simple + 7 elementos adicionales + 33
subelementos (cualificadores)
● los cualificadores matizan, especifican o precisan (no extienden) el
alcance de los elementos
33. DC Simple: Elementos
title [Título]: Nombre por el que formalmente se conoce el recurso.
creator [Creador]: Persona o entidad responsable de la creación del recurso o la versión del mismo
de que se trata.
subject [Materia]: Tema de que trata el recurso.
description [Descripción]: Descripción, a texto libre, del contenido del recurso.
publisher [Editor]: Entidad responsable de la publicación del recurso.
contributor [Colaborador]: Persona o entidad con responsabilidad parcial en la creación del
recurso.
date [Fecha]: Fecha de creación o publicación del recurso.
type [Tipo de recurso]: Naturaleza del recurso, en función de su contenido.
format [Formato]: Naturaleza del recurso, en función de sus características técnicas.
34. DC Simple: Elementos
identifier [Identificador]: Referencia para la identificación inequívoca del recurso (URI, URL, DOI,
etc,)
source [Fuente]: Referencia al identificador del recurso del que se deriva el recurso descrito.
language [Idioma]: Idioma o idiomas empleados en el recurso.
relation [Relación]: Referencia al identificador del recurso o recursos con los que está relacionado
el recurso descrito.
coverage [Cobertura]: Alcance espacial, temporal o jurisdiccional asociado al contenido del recurso.
rights [Derechos]: Datos relativos al régimen de protección de derechos de autor que afecta al uso
del recurso descrito.
35. Ventajas y desventajas del uso de
metadatos en la Web
En la Web, la recuperación de la información se hace, principalmente, a través
de la interrogación a las grandes bases de datos que conforman los
buscadores.
Interrogación: proceso mediante el cual un sistema es capaz de hacer
coincidir las estrategias de
búsqueda introducidas por un usuario con las representaciones de los
documentos que la base contiene.
Precisión (relevancia): grado de adecuación de una respuesta documental a
una necesidad de información concreta.
36. Ventajas y desventajas del uso de
metadatos en la Web
Ventajas del uso de metadatos en la recuperación de información en la Web:
1. Su capacidad para representar el contenido de los documentos textuales
mejor que los propios documentos y que las representaciones
automáticas que de ellos efectúan los buscadores.
2. La mejora de la precisión de los sistemas de recuperación, posibilitando
la prestación de servicios “inteligentes”.
3. La posibilidad de representar el contenido de documentos no textuales,
tales como imágenes, sonidos o vídeos, que no se prestan fácilmente a
técnicas de indización automática.
37. Ventajas y desventajas del uso de
metadatos en la Web
Inconvenientes:
1. Su creación, eminentemente manual, frente al V3 (Volumen, Variedad y
Volatilidad) que caracteriza la Web, hace que su coste sea elevado.
2. Su aplicación no resulta especialmente eficaz si no es en entornos
delimitados, finitos de la Web.
3. Puede ser objeto de usos malintencionados. Por ejemplo, mediante el uso
de en las metaetiquetas “keywords” o “description” de términos que no se
correponden con el cntenido pero que hacen que el recurso aparezca
bien posicionado.
38. Metadatos y Web semántica
Web semántica: una extensión de la web actual, en la que se otorga a la
información significado bien definido, mejorando las posibilidades de que los
ordenadores y las personas trabajen de forma cooperativa.
Los recursos web deben estar dotados de anotaciones semánticas
comprensibles para las máquinas (esto es, metadatos) con objeto de
desarrollar servicios sofisticados basados en técnicas automáticas de
recuperación de información.
Herramientas:
● XML
● RDF
● Agentes basados en ontologías (vocabularios)
39. Metadatos y Web 2.0
Web 2.0: una extensión de la web actual, en la que en la que el soporte
tecnológico tiende a hacerse invisible, facilitando la publicación de contenidos
y la comunicación entre los usuarios.
El usuario pasa a ocupar un primer plano, en el que desempeña un papel
activo
Sistemas sencillos de asignación de metadatos a los recursos por parte de
sus autores
Ventaja: facilidad de uso.
Inconveniente: falta de rigor y precisión.
40.
41.
42.
43. Aplicaciones en bibliotecas
Una biblioteca es una unidad o sistema de información que presta servicios de
mediación de acceso a la información y los documentos
La biblioteca actual combina los soportes tradicionales con los nuevos
soportes de información
digitales (de contenido textual, imágenes, sonidos, videos, etc.).
La biblioteca ha ido avanzando en el desarrollo de distintos estándares que
posibiliten una adecuada gestión de recursos de información para la
prestación de dichos servicios.
44. Aplicaciones en bibliotecas: MODS
MODS (Metadata Object Description Schema)
Esquema XML para la descripción de recursos, a medio camino entre el MARC 21 y el Dublin Core.
● Es más sofisticado y completo que DC.
● No es tan complejo como el formato MARC.
● Presenta un mayor grado de compatibilidad con MARC que cualquier otro esquema, por lo que
la pérdida de datos entre conversiones es menor.
● Es más amigable que MARCXML
Se emplea:
● Como extensión de METS.
● Para generar descripciones de recursos que posibiliten su recolección (OAI-PMH).
● Como formato admitido por el protocolo SRU (Search/Retrieval via URL,para la
interoperabilidad de datos de registros y su recuperación en sistemas distribuidos.
● Como elemento de convergencia entre descripciones MARC y otras descripciones en lenguaje
XML.
● Para la descripción de recursos en XML de manera más sencilla que con MARC.
● Para generar registros de metadatos que deban ser empaquetados junto a recursos
electrónicos.
La conversión de registros de metadatos de MARC a MODS no se hace de forma directa, sino que
se ha de realizar previamente una conversión de MARC a MARCXML y de ahí a MODS.
46. Aplicaciones en bibliotecas: METS
METS (Metadata Encoding and Transmission Standard)
Especificación para la descripción, gestión e intercambio de todo tipo de recursos que puedan ser
albergados en repositorios y bibliotecas digitales.
Componentes:
● Encabezamiento (metsHdr). Información relativa a la creación del documento: nombre del
archivo, fecha de creación y modificación del mismo, nombre del responsable, etc.
● Metadatos descriptivos (dmdSec). Tipo de material, idioma, etc.
● Metadatos administrativos (amdSec). Dispone de cuatro subcomponentes: metadatos
técnicos, derechos de acceso y uso, origen, y metadatos de conservación.
● Directorio de archivos (fileSec). Registro de todos los ficheros que componen el recurso.
● Mapa estructural (structMap). Especifica las relaciones jerárquicas y estructurales entre los
ficheros que componen el recurso
● Enlaces estructurales (structLink). Recoge los hiperenlaces entre los ficheros indicados en
el mapa estructural.
● Comportamiento (behaviorSec). Por ejemplo, tipo de aplicación necesaria para utilizar el
recurso
47.
48. Aplicaciones en bibliotecas: PREMIS
PREMIS (Preservation Metadata: Implementation Strategies)
Estándar para almacenar la información necesaria para la conservación adecuada de un objeto
digital