Innerhalb des LAUDATIO-Workshops fand am 8.Oktober am Institut für deutsche Sprache und Linguistik eine Entwicklersession zu Gemeinsamkeiten und Nachnutzungsmöglichkeiten in Forschungsdatenrepositorien statt.
Vortragende: D.Zielke (CMS HU-Berlin) Technische (Weiter-)Entwicklungen im LAUDATIO-Repository, R.Claussnitzer (SLUB Dresden) Migration und Weiterentwicklung von Qucosa als Grundlage für sächs. Repositorien, D.Withanage (UB Heidelberg) Entwicklung eines Annotations-Frameworks für Bilder
Linked Open Data Pilotprojekt Österreich - LOD Pilot AT
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepositorien
1. http://www.laudatio-repository.org
1
LAUDATIO-Workshop
Entwicklersession zu Gemeinsamkeiten
in Forschungsdatenrepositorien
Technische (Weiter-)Entwicklung LAUDATIO-Repository für
historische Textkorpora
8. Oktober 2014, Berlin
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
2. http://www.laudatio-repository.org
2
$whoami
Dennis Zielke LAUDATIO-Repository Entwickler
Source code auf Github: https://github.com/DZielke/laudatio
Weitere Projekte:
http://repositoryranking.org/
http://de.linkedin.com/pub/dennis-zielke/
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
3. http://www.laudatio-repository.org
3
Komplexe Datenstruktur TEI XML P5
Deutsche historische Texte und
ihre linguistischen Annotationen
einschließlich aller Dialekte
vom 9. bis 19. Jahrhundert
• Metadaten zum Korpus
• Dokumente
• Annotationen
• Bearbeitungsschritte
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
5. http://www.laudatio-repository.org
5
Open-Source-Technologien
• CakePHP 2.4-Framework
• Fedora 3.6 für die Datenhaltung und Speicherung
• Fedora REST-Schnittstelle zum Datenaustausch
• ElasticSearch als Suchengine
• REST-Schnittstelle zum Datenaustausch
• Externer PID-Webservice zur Verwaltung der Persistent Identifier
(handle)
• Third party Open Source libraries auf Github
• http://tinyurl.com/lf26u97
• Flat-Design (HTML5, CSS3) work in progress
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
6. http://www.laudatio-repository.org
6
Entwickeln/Testen/Prüfen
• Technische Infrastruktur:
• 2 Virtuelle Maschinen
• Ubuntu 14.04
• jeweils 2 CPUs und 12 GB RAM Arbeitsspeicher (skalierbar)
• Ausfallsicherheit durch Monitoring mithilfe von Nagios am
CMS
• Versionsverwaltungssystem: Git
• verschiedene nützliche Tools z. B. Git Bash und GitWeb
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
7. • Entwicklungsumgebung: PhpStorm 7.1.3
• Ticketsystem: Redmine
• ES-HEAD-PlugIn: Testen von Mapping, Facetten, Nested Facets
• FedoraAdmin Client: Testen und Prüfen der Datastreams in Fedora
http://www.laudatio-repository.org
7
Entwickeln/Testen/Prüfen
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
9. http://www.laudatio-repository.org
9
Nachnutzungsmöglichkeiten
Module:
• Anbindung an externen PID-Webservice
• Datenhaltung im Fedora-Repository
• GUI-Client für die Suche
• Erweiterbares IndexMapping für ElasticSearch und automatische Schema-Validierung
• nutzbar für weitere Formate
• Einbindung Frontend-Editor für Redakteure
• Adminbereich
• Nutzermanagement
• Authentifizierung LDAP, HTTP-Login
• Konfiguration
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
10. http://www.laudatio-repository.org
10
Ausblick
• Anbindung an das HU-Medienrepositorium via API-Upload Plugin
• Implementierung eines Metadateneditors
• Migration von Fedora 3.6 zu Fedora 4
• Unterstützung weiterer Metadatenformate, je nach Bedarf der
jeweiligen Disziplin
• Bereitstellung einer OAI-PMH Schnittstelle zur Anbindung an
externe Datenaggregatoren
Dennis Zielke
Computer- und Medienservice, Humboldt-Universität zu Berlin, 8. Oktober 2014
12. Qucosa Project
Aufbau eines Cross Media Repository
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden slub-dresden.de
https://creativecommons.org/licenses/by/4.0/
13. $ whoami
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Ralf Claussnitzer
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek
Dresden (SLUB)
IT Abteilung seit 2008
Software Entwicklung und -Architektur
WWW
• @claussni
• github.org/claussni
•
Ralf Claussnitzer | @claussni
14. Ausgangspunkt
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Institutionelles Repositorium Qucosa
Mandantenfähig
• Universitäten, Hochschulen, Forschungsinstitute, Bibliotheken
Basierend auf OPUS 4 und TYPO3
• Two-Tier: Web Service Backend + CMS Frontend
− Einfache IR Software
− Komplexes Content Management System
Status Quo
• End-Of-Project = End-Of-Resources
• Veraltetet PHP Codebasis
• Nachfrage nach neuen/zeitgemäßen Features
• Resource Discovery System hat Recherchemaske nicht abgelöst
Ralf Claussnitzer | @claussni
15. Gesamtlösung für alle Digitalen Objekte - 1
Anforderungen Hochschulschriftenserver
Entwicklung von Pre-Print, über Post-Print-Volltext zu Gold Open
Access
Fokussierung auf Dissertationen im PDF Format
Sekundär auch Bilder und Tondokumente, DVD
Oft Einbettung in Webseiten der Universität
Integration mit anderen System „drangestrickt“
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Anforderungen der DNB
OAI-PMH
Spezielles Protokoll mit inhaltlichen Aspekten: xMetaDissPlus
Pflichtexemplarrecht und Administrative Workflows
Ralf Claussnitzer | @claussni
16. Gesamtlösung für alle Digitalen Objekte - 2
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Digitalisate
Behandlung bisher getrennt von Repositorien in „Digitalen
Sammlungen“ und Bilddatenbanken
Born Digitals und Retrodigitalisiate teilen sich viele Eigenschaften
(URIs, Dateien, Präsentation im Web)
Datenqualität deutlich homogener (Bilder, Beschreibungsformate wie
METS/MODS)
Metadatenerfassung meist ausreichend standardisiert
Ralf Claussnitzer | @claussni
17. Gesamtlösung für alle Digitalen Objekte - 3
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Sammlung vs. Langzeitarchivierung
Möglichst umfassende Sammlung von Netzpublikationen erfordert
Verringerung der (technischen) Qualitätsanforderungen
(echte) Langzeitarchivierung erfordert aber hohe Qualität
Umwandlung nicht immer möglich (oder erlaubt)
Definition von Service Levels
Nutzer schon bei der Abgabe Informieren
Ralf Claussnitzer | @claussni
Gute
Archivierbarkeit
Schlechte
Archivierbarkeit
Keine
Archivierbarkeit
18. Perspektiven
Born-Digitals und Retrodigitalisate gleichartig behandeln
Digitale Objekte mit Metadaten und Anhängen
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Metadatenstandards voll ausnutzen
Weg von Bibliothekarisch (/Katalog-) orientierten Datenbankschemata
Organisatorisch-Technische Vorteile
Verringerung der Systemvielfalt
Weniger Technologien; Mehr Transparenz
Ralf Claussnitzer | @claussni
19. Warum Fedora?
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Fedora fokusiert auf Infrastruktur
Out-of-the-box Software fokussiert IR Anwendungsfälle und GUI
• Hohes Abstraktionsniveua
Loose gekoppelte Dienste als Systemmodell
Speicherung unabhängig vom Metadatenschema
Unsere Anforderungen
Weiterentwicklung des Metadatenschemas
Vielzahl an Medientypen
Veraltetet Speicherinfrastruktur
• Vollständige Migration ist keine Option
• Möglichkeit von irreperablen Inkonsistenzen
Ralf Claussnitzer | @claussni
20. Architekturansatz - 1
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Fedora
API-A OAI
API-M JMS
SWORD
API
Elasticsearch
River
API
Internet
OAI
Proai 1
Proai 2
Proai …n
TYPO3
Presentation Administration
Services
…
Ralf Claussnitzer | @claussni
21. Architekturansatz - 2
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Weitere Verbesserungen
Konsequente Verwendung von Message Bus Konzepten
• SOA mit Microservices
Ablösung des Elasticsearch River Index
• ES Rivers werden nicht mehr unterstützt
Apache Camel / SLUB d:swarm Projekt
• Datentransformation
• Nachrichten Routing
Fedora 4.x
• Workspaces (Entwürfe)
• Hierarchische Datenbank
• Federated Storage
Ralf Claussnitzer | @claussni
22. Stand der Entwicklungen
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 09.10.2014
slub-dresden.de
Fedora 3.8.0-RC1 als Repository
Generisch, Schemaunabhängig
ElasticSearch 1.2.x
Cluster-fähiger Suchindex (Lucene Core, REST API)
Indexierung der Daten mit Fedora River (Eigenentwicklung)
Fedora 4
nächster großer Schritt, aber: Fundamental anderes Konzept
Migration von Fedora 3.x erst mit Fedora 4.1 geplant
Generisches Messaging und Application Integration
SLUB Datenmanagement Plattform d:swarm für Suchindex
Ralf Claußnitzer, IT SLUB, (@claussni)
23. Nachnutzung der Ergebnisse
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 2014-09-19, Fedora User Group Meeting
slub-dresden.de
Open Source
Projektergebnisse auf GitHub
https://github.com/slub
Lizensierung
GPLv3
• TYPO3 Frontend
Apache License 2.0
• Fedora Komponenten; Java Services
• Elasticsearch River
Andere Open Source Lizenzen
• Für Erweiterungen bestehender Fedora Commons Dienste
Ralf Claussnitzer | @claussni
25. Gesamtlösung für alle digitalen Objekte
Anforderung: Open Access Publishing Plattform
• Weniger qualifizierte erschlossene Beiträge bedeuten mehr Aufwand für die
Bearbeiter, mehr Nachfragen, mehr Änderungen
• Unter Umständen müssen Publikationsanfragen abgelehnt werden (keine
Thematische Einschränkung, aber inhaltliche)
• Unklare Lizenzsituation bzw. Patentsituation kann zum Veranlassen einer
Sperrung führen
• Häufig müssen Embargofristen beachtet werden (Konflikt mit Abgabe und
Ablieferungspflicht DNB)
• Neue Veröffentlichung -> neue bibliothekarische Metadaten (schwierig bei
einfachen Datenbankkonstruktionen)
• Dubletten (Erkennung? Repository muss potentielle Kandidaten finden und den
Administratoren vorschlagen)
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 09.10.2014
slub-dresden.de
Ralf Claußnitzer, IT SLUB, (@claussni)
26. Gesamtlösung für alle digitalen Objekte
Anforderung: Elektronische Pflichtexemplare (1)
• Gesetzliche geforderte Abgabe aller elektronisch Publikationen an die Bibliothek
• Basis: Pflichtexemplarrecht
„Zweck des Pflichtexemplarrechtes ist heute vorrangig die möglichst
vollständige Archivierung aller Veröffentlichungen eines Landes als Zeugnis des
kulturellen Schaffens, ihre bibliografische Dokumentation und die
Zugänglichmachung für die Allgemeinheit. Die Bibliotheken sind deshalb
gesetzlich dazu verpflichtet, Pflichtexemplare auf unbegrenzte Zeit
aufzubewahren und eine Nationalbibliographie zu erstellen.“
(*) http://de.wikipedia.org/wiki/Pflichtexemplar
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 09.10.2014
slub-dresden.de
Ralf Claußnitzer, IT SLUB, (@claussni)
27. Gesamtlösung für alle digitalen Objekte
Anforderung: Elektronische Pflichtexemplare (2)
§ 7 Beschaffenheit von Netzpublikationen und Umfang der Ablieferungspflicht
(1) Unkörperliche Medienwerke (Netzpublikationen) sind in marktüblicher Ausführung und
in mit marktüblichen Hilfsmitteln benutzbarem Zustand abzuliefern. Eine Pflicht zur
Ablieferung besteht nicht, wenn die Ablieferungspflichtigen im Rahmen des § 16 Satz 2
des Gesetzes über die Deutsche Nationalbibliothek mit der Bibliothek vereinbaren, die
Netzpublikationen zur elektronischen Abholung bereitzustellen. Für die Ablieferung von
Netzpublikationen gilt § 2 Abs. 3 entsprechend; für die Bereitstellung zur elektronischen
Abholung gilt § 2 Abs. 3 Satz 1 entsprechend.
(2) Die Ablieferungspflicht umfasst auch alle Elemente, Software und Werkzeuge, die in
physischer oder in elektronischer Form erkennbar zu den ablieferungspflichtigen
Netzpublikationen gehören, auch wenn sie für sich allein nicht der Ablieferungspflicht
unterliegen. Dies gilt insbesondere für nicht marktübliche Hilfsmittel, die eine
Bereitstellung und Benutzung der Netzpublikationen erst ermöglichen und bei den
Ablieferungspflichtigen erschienen sind. Sie sind zusammen mit den Netzpublikationen
abzuliefern oder zur elektronischen Abholung bereitzustellen.
http://www.gesetze-im-internet.de/pflav/__7.html
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 09.10.2014
slub-dresden.de
Ralf Claußnitzer, IT SLUB, (@claussni)
28. Gesamtlösung für alle digitalen Objekte
Anforderung: Elektronische Pflichtexemplare (3)
• Nicht nur Open Access Publikationen
• Portale mit unterschiedlich lizensiertem Inhalt
• Formatqualität? Archivierbarkeit?
• Rechtliche Bedingungen? Keine freie Verfügbarkeit bei gleichzeitiger
Ablieferungspflicht über öffentliche Schnittstellen?
• Wie dem Pflichtexemplar-Gesetz genügen?
• Bibliothek kann Veröffentlichung im archivierbaren Format fordern,
aber diese Forderung durchzusetzen ist oft nicht praktikabel
• Schulung und Hilfe anbieten
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 09.10.2014
slub-dresden.de
Ralf Claußnitzer, IT SLUB, (@claussni)
29. Vorhandene Workflows vernetzen
• Workflows zur Bearbeitung von elektronischen Publikationen
meist sehr individuell und Erfassungs-fokussiert
• Werkzeuge sind entsprechend spezialisiert
• Workflows für Digitalisate auf Durchsatz optimiert -> ohne
Automatisierung ist dem Aufkommen eines
Digitalisierungszentrums nicht beizukommen
• Produktion der digitalen Objekte unterschiedlich. Verwaltung und
Präsentation hingegen sehr ähnlich!
• Technische Workflows:
− Archivierung, Backup, Migration, Datenhaltung, Bereitstellung
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 09.10.2014
slub-dresden.de
Ralf Claußnitzer, IT SLUB, (@claussni)
30. Verschiedene Präsentationsformate
• Liegen digitale Objekte in bekannten Formaten vor, können
automatische (on-demand) Umwandlungen erfolgen, z.B. PDF
als ePUB ausliefern
• Digitalisate werden bereits in herunterladbaren PDFs angeboten
• Inhaltsverzeichnisse, wenn Strukturmetadaten das hergeben
• Weiter denkbar:
− Video Anzeige
− Bildvorschau (Thumbnails)
− Audio Streaming
− OCR Text Einbettung
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden 09.10.2014
slub-dresden.de
Ralf Claußnitzer, IT SLUB, (@claussni)
31. Fedora4- Open Annotation
Framework
Dulip Withanage - University Library
Ruprecht-Karls University, Heidelberg
33. Digitalisierung Prozess-Status
● Digitalisierte Sammlungen
○ http://digi.ub.uni-heidelberg.de/diglit/cpg848/0390?template=ubhd
● DWork - Erfassung von Digitale Metadaten
● Diglit : Präsenstationsmodul
● Webbasiert
● Läuft in Apache Server mit Perl CGI Skripte
● Backend ist ein mysql Datenbank
34. Digitalisierung - Anforderungen
● Erstellung Annotation durch Forscher
● Importieren komplexer Annotationen von unterschiedlichen Disziplinen
● Kommentare funktionen für alle
● Bild-teile Annotationen
● Erstellung beliebiger Relationen zwischen mehrere Annotationen.
● Interface soll multi-geräte unterstützen
● Suche
● Indizierung in solr index
● Annotationen müssen in andere Programme integrierbar sein
● Langzeitarchivierung
36. Fedora 4 Status
● In Entwicklung (bis 2016)
● Beta Version 3
● Aber stabil
● Standalone & in Container
○ Tomcat Java Servlet Engine
37. Fedora 4 Eigenschaften
● Importieren und Exportieren in jcr/xml
Format (java content repository
specification)
● JCR - Daten als Baumstruktur für Knoten
○ single- und multi-value properties Link
○ Schema Unterstützung
39. Open Annotation Daten-definition
in turtle format
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
<> dc:format "text/html" .
<> dc:title "Mein Titel" .
<> a oa:Annotation ;
oa:hasBody _:oa_tag1;
oa:hasSource <digi:/cpg848/0390> ;
dc:description“ Weit hinten, hinter den Wortbergen, fern der Länder ….” .
_:oa_tag1 a oa:SemanticTag ;
oax:hasSemanticTag gnd:118529579 ;
oa:hasBody "Einstein, Albert";
oa:hasTarget _:oa_body .
40. Technische Zusammenfassung
Annotation Struktur = Sammlung Struktur.
http://digi.ub.uni-heidelberg.de:8080/fedora/rest/de/uni-heidelberg/ub/digi//diglit/cpg848/0390/
● Per fcr:export werden alle Annotationen zu einem Bild exportiert.
http://digi.ub.uni-heidelberg.de:8080/fedora/rest/de/uni-heidelberg/ub/digi//diglit/cpg848/0390/fcr:export
● XML Datei wird in einem json Objekt umgewandelt.
● Mit Hilfe von einem Angular Script wird die Darstellung realisiert.
● Bildausschnitten - HTML5 Canvas
● Authentifizierung
○ über Shibboleth Server werden die Server verzeichnisse geschützt.