In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise kontinuierlich, sei es bei Dienstleistern oder beim Aufsetzen einer eigenen OCR-Render-Farm. Die flächendeckende Bereitstellung von OCR-Volltexten scheint demnach zum Greifen nahe – der Durchbruch lässt jedoch aus Sicht der NutzerInnen weiter auf sich warten.
Einer der Hauptgründe dafür liegt in der komplizierten Orchestrierung der OCR-Workflows. Wirft man einen Blick auf die Details, so zerfasert der vermeintlich übersichtliche Dreiklang aus Digitalisierung, OCR und Indexierung/Bereitstellung schnell in 10 oder auch 20 Einzelschritte mit komplexen Abhängigkeiten. Selbst wenn diese Herausforderungen gemeistert wurden, stehen die nächsten Aufgaben an: Prozesse für die kontinuierliche Verbesserung der Volltexte (auch durch NutzerInnen/Croudsourcing) sowie Rückkanäle für veredelte Volltexte – etwa durch Normdatenauszeichnung – in die Repositorien sind weitestgehend Neuland.
Der Impulsvortrag wird das Problembewusstsein dafür zu schärfen, dass die OCR-Erkennungsqualität an sich zwar ein hochrelevanter Aspekt ist - im Orchester der Operationalisierung durch die Institutionen und Projekte aber nur als einer von vielen zu begreifen ist. Wenn das Projekt einer nationalen Volltext-Initiative gelingen soll, muss die gesamte Prozesskette Beachtung finden.
5. Vorbereitung für OCR
14.03.2014 | S. 5
Welche Sprache hat das Dokument?
Welche Schrift (Fraktur / Antiqua)?
Datum
abweichende Schreibweisen /
Historische Lexika
Region
unverlässliche Daten
hierzu im OPAC...?
6. Die Produktivität der Digitalisierung steigt an
unseren Einrichtungen kontinuierlich
14.03.2014 | S. 6
Jahre
ScansproTag
7. Um die Tagesproduktion durch OCR
bearbeiten zu können muss diese ebenfalls
skalieren
14.03.2014 | S. 7
Jahre
ScansproTag
OCR
8. 14.03.2014 | S. 8
Tagesaktuelle OCR für Strukturdatenerfassung
9. 14.03.2014 | S. 9
Tagesaktuelle OCR für Strukturdatenerfassung
10. Das Problem ist nicht nur die
Tagesproduktion...
14.03.2014 | S. 10
Jahre
ScansproTag
OCR
11. 14.03.2014 | S. 11
Jahre
ScansproTag
OCR
ArchivallerbisherigenScans
...sondern unser bestehender Berg der letzten
12 Jahre
12. Massen-OCR
Beispiel: Staatsbibliothek zu Berlin
Ca. 15 Mio. Images vorliegend
OCR-Dauer pro Image und CPU: ca. 20 Sekunden
(optimistischer Wert)
Ca. 3.472 Tage oder 9,5 Jahre
Ziel: 5 Tage also ca. Faktor 700
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 12
21. Datenformate TEI: Eine Datei pro Dokument
mit Pagebreaks im XML
14.03.2014 | S. 21
Scans
ALTO
TEI
<pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
22. Datenmanagement – viele Importformate
14.03.2014 | S. 22
Import
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR
23. Datenmanagement – nur ein Zentralformat?
14.03.2014 | S. 23
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
Zentralformat?
Import Archiv
hOCR
24. Datenmanagement – auf jeden Fall flexible
Exportformate benötigt
14.03.2014 | S. 24
Zentralformat?
PDF
TEI
Mobi
ePub
LaTeX
hOCR
Markdown
...
Import ExportArchiv
ALTO
TEI
Finereader
XML
LaTeX
PDF
...
hOCR
26. Quelle für Agilität: Korrekturen
Nutzerfreundliches Crowdsourcing direkt im
Browser
Bessere OCR-Engines
bei tendenziell sinkenden Preisen
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 26
27. Quelle für Agilität: Veredelung
Normdaten
Personen
Orte
Zeit
Schlagwörter
Annotationen
Referenzen
...
Erfolgen nicht zwangsläufig in unseren
Oberflächen sondern in VREs, ...
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 27
28. Problemfelder agiler Volltextdaten
Gleichermaßen für Korrekturen wie Veredelung
Langzeitarchivierung (etwa: Updates auf
langsamen Tape-Speicher)
Persistente Adressierung
Versionierung?
14.03.2014 |Workflow Volltextgenerierung über OCR
Ralf Stockmann
S. 28
29. Lösung: Volltexte auf GitHub?!
(unser Grundgesetz ist schon da...)
S. 29
http://gg.docpatch.org
32. Identifizierte Aktionsfelder
1. Pretest-Werkzeuge um Fehler/Lücken im OPAC
auszugleichen
2. Interoperabilitätsbibliothek für Volltextformate
3. Getrennte (?) Strategien für
den Abbau des vorhandenen Scan-Berges
die laufende Produktion in den Einrichtungen
4. Robuste und transparente Workflows zur
Anbindung von
eigenen Renderfarmen
zentralen Renderfarmen
Dienstleistern
...auch in Mischformen
5. Konzepte um die Agilität von Volltexten mit
dem Bedürfnis nach seriösem
Datenmanagement zu versöhnen
33. 14.03.2014 | S. 33
Projekte werden
nicht aufgrund schlechter
OCR-Qualität
scheitern –
sondern aufgrund
nicht verstandener und
wenig beherrschter
Workflows
Workflow Volltextgenerierung über OCR
Ralf Stockmann