SlideShare a Scribd company logo
1 of 60
Download to read offline
Hochschule der Medien



                        Anreichern, abgleichen,
                              verknüpfen
                                        Anwendungsideen
                                     für das Werk-Clustering
Heidrun Wiesenmüller




                           (Beitrag im Workshop „Anwendung von
                         Clustering-Verfahren zur Verbesserung und
                                 Analyse von Katalogdaten“)


                        13.03.2013       5. Kongress Bibliothek & Information Deutschland   Folie 1
Hochschule der Medien

                        Agenda

                        1. Individualisierung
                        2. Differenzierung von Normsätzen
                        3. Maschinell erstellte Werk-Normsätze
                        4. Optimierungspotenziale für das Clustering
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 2
Hochschule der Medien

                        Agenda

                        1. Individualisierung
                        2. Differenzierung von Normsätzen
                        3. Maschinell erstellte Werk-Normsätze
                        4. Optimierungspotenziale für das Clustering
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 3
Hochschule der Medien
                        Individualisierung von Personen
                        • in angloamerikanischer Welt schon immer üblich
                          Lebensdaten sind sogar Teil der Ansetzungsform
                        • von RAK ursprünglich nicht vorgesehen
                          in deutschsprachigem Raum erst seit einigen Jahren
                          praktiziert
                        • erheblicher Aufwand für die Erschließung
                          Differenzieren von Autoren, Erfassen zusätzlicher
                          Informationen, Bearbeiten von Altdaten (z.B. Auflösen
                          von „Sammeltöpfen“)
Heidrun Wiesenmüller




                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 4
Beispiel für Individualisierung
                           dreimal „Heiner Müller“




13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 5
Hochschule der Medien
                        Probleme bei Individualisierung
                        • Altdaten
                          bisher nur zum Teil aufgearbeitet
                        • Informationen nicht ausreichend bzw. gesichert
                          Individualisierung z.T. anhand der vorliegenden Angaben
                          nicht möglich, Zuordnen zu vorhandenen Datensätzen oft
                          schwierig, keine Zeit für zusätzliche Recherchen
                        • Verzicht auf Individualisierung
                          aus unterschiedlichen Gründen (z.B. keine Zeit,
Heidrun Wiesenmüller




                          mangelnde Erfahrung mit GND bei kleinen Bibliotheken)
                        • ohne manuelle Bearbeitung eingespielte Fremddaten
                          z.B. E-Book-Pakete, Daten für Nationallizenzen
                          (oft ganz ohne Verknüpfung zu Personensätzen)
                                  bisher noch sehr unvollkommen umgesetzt

                          13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 6
Hochschule der Medien
                        Chance für Werk-Clustering
                        • Verfasser auf Werk-Ebene angesiedelt
                          auch bei Herausgebern von Aufsatzbänden u.ä. möglich
                        • ein einziger Datensatz aus dem Cluster genügt
                          wenn in irgendeinem Verbund eine Ausgabe mit einem
                          individualisierten Satz verknüpft ist, kann dies für alle
                          anderen Mitglieder im Cluster übernommen werden
                        • kann auch zum Auffinden von Fehlern dienen
                          z.B. könnte nach Fällen gesucht werden, in denen zwei
Heidrun Wiesenmüller




                          Mitglieder desselben Clusters mit unterschiedlichen
                          individualisierten Personensätzen verknüpft sind
                        • Einbezug angloamerikanischer Daten
                          könnte die Ergebnisse weiter verbessern



                          13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 7
SWB


                                                                         GBV




• SWB: nicht individualisiert
• GBV: individualisiert
  (ebenso DNB und HBZ)

                    GND-Satz
      13.03.2013      5. Kongress Bibliothek & Information Deutschland     Folie 8
GBV




                                                                         SWB


• SWB: individualisiert
• GBV: nicht indiv. (so
  auch HBZ und OBV)

      13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 9
SWB

• SWB: nur Online-Ausgabe, dort nicht individualisiert
  (so auch im GBV und OBV)
• Daten von E-Book-Paketen
  werden häufig eingekauft und ohne intellektuelle Nach-
  bearbeitung eingespielt




      13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 10
HBZ
    • HBZ: nur Druck-Ausgabe,
      dort Tp-Satz


• HBZ:
  nur Druck-Ausg.,
  dort individualisiert




        13.03.2013        5. Kongress Bibliothek & Information Deutschland   Folie 11
GBV




                                           im selben Verbund:
                                           E-Book-Ausgabe ohne
                                           Individualisierung,
                                           Druckausgabe mit!




13.03.2013   5. Kongress Bibliothek & Information Deutschland    Folie 12
GBV




                                           Variante:
                                           E-Book-Ausgabe steht
                                           nicht unter Ansetzungs-
                                           form, sondern unter
                                           einer Verweisungsform
                                           (im Tp-Satz enthalten)




13.03.2013   5. Kongress Bibliothek & Information Deutschland    Folie 13
Hochschule der Medien

                                                               SWB:
                                                               Titel dieser Person sind
                                                               auf nicht weniger als
                                                               drei Normsätze verteilt
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 14
Hochschule der Medien



                                             SWB:
                                             Beispiel für einen „Sammeltopf“ (Tn-
                                             Satz für einen gängigen Namen), mit
                                             dem über 600 Titel verknüpft sind
Heidrun Wiesenmüller




                        • bisher manuelle Bearbeitung
                          sehr aufwendig, im laufenden Betrieb kaum zu leisten
                        • Clustering könnte helfen
                          könnte künftig ein weitgehend automatisches
                          „Auseinandernehmen“ solcher Sammeltöpfe ermöglichen

                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 15
Ausschnitt aus Trefferliste
                                      zum „Sammeltopf“



                      bei DNB individualisiert:
                      Kunsthistoriker, geb. 1936


                    bei DNB individualisiert:
                    Historiker, geb. 1956



                  bei DNB individualisiert:
                  Theologe, geb. 1950


13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 16
SWB



                                              HBZ




dasselbe Werk:
einmal verknüpft mit Kunsthistoriker, geb. 1947, einmal
verknüpft mit Kunsthistoriker, geb. 1936 (so auch DNB).
Hier kann etwas nicht stimmen!
 13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 17
Hochschule der Medien
Heidrun Wiesenmüller                                                                           Wikipedia




                                     Recherche ergibt:
                                     beide Zuordnungen sind falsch, der Richtige ist
                                     ein Dritter (für den es ebenfalls Datensatz gibt)
                        13.03.2013          5. Kongress Bibliothek & Information Deutschland       Folie 18
SWB




        Zwei Ausgaben von Middlemarch:
        E-Book-Ausgabe aus Nationallizenz-Daten,
        dort ist nur der Name als Text eingetragen
13.03.2013       5. Kongress Bibliothek & Information Deutschland    Folie 19
SWB




                                                                    LoC
Alleinbesitz im SWB:
individualisierende Informationen könnten aus
angloamerikanischen Daten übernommen werden

   13.03.2013    5. Kongress Bibliothek & Information Deutschland   Folie 20
Hochschule der Medien
                        Kataloge
                        Individualisierungsinfos bisher kaum genutzt:
                        • in manchen Katalogen zumindest Anzeige beim Titel
                          z.B. über Klick auf spezielles Icon
                        • in Trefferlisten i.d.R. bisher nicht genutzt
                          Titel aller gleichnamigen Autoren zusammengeworfen
                          (Ausnahme: Freiburger Katalog plus)
                        • Suche vom Titel aus: unterschiedlich realisiert
                          entweder nur Anzeige der mit dieser Person verknüpften
Heidrun Wiesenmüller




                          Titel (Problem: ergibt evtl. nur Teil der relevanten Titel)
                          oder Recherche nach Titeln aller gleichnamigen Personen

                                 bei besserer Qualität der Daten wären auch
                                 verbesserte Katalog-Funktionen möglich

                          13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 21
Beispiel für Individualisierung
                           dreimal „Heiner Müller“




13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 22
Suche nach Heiner Müller: Personen werden
                        in der Trefferliste „zusammengeworfen“
Hochschule der Medien




                                                                      der Verfasser von
                                                                      Unterrichtsmaterialien




                                                                               der Schriftsteller
Heidrun Wiesenmüller




                                                                                           SWB



                          13.03.2013    5. Kongress Bibliothek & Information Deutschland    Folie 23
reales Beispiel:
                                                                   http://www.viaf.org


                                                                    Lösungsweg 1:
                                                                    Vorschläge bei
                                                                    der Eingabe




                                            Müller, Heiner
                                             1925-1995 / Schriftsteller
                                            Müller, Heiner
                                             1970- / Arzt
                                            Müller, Heiner
                                             1982- / Publizist von Unterrichts-
                                             materialien für die Schule
                                            Müller, Heiner
                                             weitere Personen dieses Namens
                                            Müller, Heinrich
fiktiv (Designstudie),                       1873-1956 / Lehrer
                                            Müller, Heinrich
Basis: HEIDI-Katalog                         1845-1910 / Apotheker
der UB Heidelberg
          13.03.2013     5. Kongress Bibliothek & Information Deutschland          Folie 24
Lösungsweg 2: Drill-down

                                                                           Treffer einschränken auf:

                                                                           Müller, Heiner
                                                                            1925-1995 / Schriftsteller
                                                                           Müller, Heiner
                                                                            1970- / Arzt
                                                                           Müller, Heiner
                                                                            1982- / Publizist von
                                                                            Unterrichtsmaterialien
                                                                            für die Schule
                                                                           Müller, Heiner
                                                                            weitere Personen
                                                                            dieses Namens




fiktiv (Designstudie), Basis: SWB



          13.03.2013           5. Kongress Bibliothek & Information Deutschland             Folie 25
umgesetzt im Katalog
                                   plus der UB Freiburg




13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 26
Hochschule der Medien

                        Agenda

                        1. Individualisierung
                        2. Differenzierung von Normsätzen
                        3. Maschinell erstellte Werk-Normsätze
                        4. Optimierungspotenziale für das Clustering
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 27
Hochschule der Medien
                        Angloamerikanische Tradition
                        Stärkere Differenzierung bei Normdaten, z.B.:
                        • Pseudonyme
                          schreibt jemand teils unter einem Pseudonym, teils unter
                          seinem wirklichen Namen (oder unter mehreren Pseudo-
                          nymen), so werden unterschiedliche „bibliographische
                          Identitäten“ angenommen
                        • Person in offizieller Funktion
                          Unterscheidung zwischen einer Person als Amtsträger
                          und derselben Person als „Privatmann/-frau“
Heidrun Wiesenmüller




                                Aufspaltung in mehrere Normdatensätze
                                mit Siehe-auch-Verweisung (5XX)
                                dagegen bei uns jeweils nur ein Normsatz


                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 28
Hochschule der Medien




                        Normdatensatz 1 (Personensatz, stark gekürzt):
Heidrun Wiesenmüller




                        100 1# |a Hobb, Robin
                        500 1# |a Lindholm, Megan

                        • Autorin veröffentlicht teils unter dem Pseudonym „Robin
                          Hobb“, teils unter „Megan Lindholm“


                           13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 29
Hochschule der Medien




                        Normdatensatz 2 (Personensatz, stark gekürzt):
Heidrun Wiesenmüller




                        100 1# |a Lindholm, Megan
                        500 1# |a Hobb, Robin




                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 30
Hochschule der Medien




                                                                          Beispiel für Titel
                                                                          am Normsatz 1
Heidrun Wiesenmüller




                        Beispiel für Titel
                        am Normsatz 2

                          13.03.2013         5. Kongress Bibliothek & Information Deutschland   Folie 31
GND
Hochschule der Medien
Heidrun Wiesenmüller




                        GND: nur ein Datensatz, der für alle Titel verwendet
                        wird; Pseudonym ist eine normale Verweisung (400)

                         13.03.2013     5. Kongress Bibliothek & Information Deutschland     Folie 32
Hochschule der Medien




                        Normdatensatz 1 (Personensatz, stark gekürzt):
Heidrun Wiesenmüller




                        100 0# |a Benedict |b XVI, |c Pope, |d 1927-
                        400 1# |a Ratzinger, Joseph, |d 1927-
                        510 2# |a Catholic Church |b Pope (2005-2013 :
                               Benedict XVI)



                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 33
Beispiel für einen Titel
                                                              am Normsatz 1
Hochschule der Medien
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 34
Hochschule der Medien




                        Normdatensatz 2 (Körperschaftssatz, stark gekürzt):
Heidrun Wiesenmüller




                        110 2# |a Catholic Church. |b Pope (2005-2013 :
                               Benedict XVI)
                        500 0# |a Benedict |b XVI, |c Pope, |d 1927-




                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 35
Hochschule der Medien                                         Beispiel für einen Titel
                                                              am Normsatz 2
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 36
Hochschule der Medien
                        RDA-Umstieg
                        • Wenn entschieden wird, RDA voll zu implementieren
                          Aufspaltung der betroffenen Normsätze sowie neue
                          Zuordnung nötig
                        • Clustering könnte Zuordnungsprozess unterstützen
                          alle Ausgaben eines Werkes sollten am selben Normsatz
                          hängen
                        • Einbezug angloamerikanischer Daten ins Clustering
                          könnte bei korrekter Zuordnung helfen
Heidrun Wiesenmüller




                          13.03.2013    5. Kongress Bibliothek & Information Deutschland   Folie 37
Hochschule der Medien

                        Agenda

                        1. Individualisierung
                        2. Differenzierung von Normsätzen
                        3. Maschinell erstellte Werk-Normsätze
                        4. Optimierungspotenziale für das Clustering
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 38
Hochschule der Medien
                        Clustering von Ausgaben
                        • bisher nur als Funktion von Recherchesystemen
                          nicht „fest verdrahtet“, sondern durch Algorithmen erzeugt

                                                                             Primo Mannheim
Heidrun Wiesenmüller




                                funktioniert jeweils nur in bestimmten System
                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 39
Hochschule der Medien
                        Datentechnische Verknüpfung
                        bisher nur in wenigen Fällen praktiziert:
                        • Verknüpfung von Ausgaben nur in besonderen Fällen
                          z.B. parallele Druck- und Online-Ausgabe
Heidrun Wiesenmüller




                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 40
Hochschule der Medien
                        Werknormsätze
                        • in Formalerschließung bisher nur für Musik-Werke
                          werden manuell erstellt und verknüpft



                                                                     nicht nur Text, sondern
                                                                     echte Verknüpfung
Heidrun Wiesenmüller




                          13.03.2013    5. Kongress Bibliothek & Information Deutschland   Folie 41
Hochschule der Medien                                         zugehöriger Normsatz
                                                              für das Werk in der GND
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 42
Hochschule der Medien
                        RDA
                        • basiert auf FRBR
                          Abbildung der Primärbeziehungen zwischen einem Werk,
                          seinen Expressionen, Manifestationen und Exemplaren ist
                          grundsätzlich angestrebt
                        • wichtig ist insbesondere die Beziehung zum Werk
                          das „manifestierte Werk“ ist ein Kern-Element
                          (d.h. muss stets erfasst werden)
                        • RDA erlaubt zwar ein Weitermachen wie bisher
                          in der sog. „composite description“ kann die Beschreibung
Heidrun Wiesenmüller




                          der Manifestation mit Informationen der Werk- und
                          Expressionsebene kombiniert werden
                        • aber: wünschenswert wären Werk-Verknüpfungen
                          jedoch: manuelle Erstellung und Verknüpfung wäre zu
                          aufwendig, nötig ist maschinelle Lösung
                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 43
Hochschule der Medien
                        Automatische Werkverknüpfung
                        Grundidee für den Ablauf:
                        1. Erstellen von Werkclustern
                           gemäß Pfeffer-Algorithmus (evtl. noch optimiert)
                        2. Extrahieren werkrelevanter Informationen
                           jeweils aus dem Gesamtcluster
                        3. maschinelles Erzeugen eines Werknormsatzes
                           gemäß festgelegter Ableitungsregeln (z.B. könnte das
                           Jahr der frühesten Manifestation im Cluster als Jahr des
Heidrun Wiesenmüller




                           Werkes behandelt werden)
                        4. maschinelles Eintragen der Identnummer des Werks
                           bei allen Titelsätzen, die zum Cluster gehören



                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 44
1100   1972
                        1500   ger
Hochschule der Medien


                        2000   3-7940-2607-1
                        3000   !PPN!Hacker, Rupert*1935-*
                        4000   Bibliothekarisches Grundwissen$hRupert Hacker
                        4030   München-Pullach [u.a.]$nVerl. Dokumentation
                        4060   368 S.                    Beispiel 1:
                        1100 2008                         zwei Mitglieder desselben
                        1500 ger                          Clusters (SWB, gekürzt)
                        2000 978-3-598-11771-8
                        3000 !PPN!Gantert, Klaus*1968-*
Heidrun Wiesenmüller




                        3001 !PPN!Hacker, Rupert*1935-*
                        4000 Bibliothekarisches Grundwissen$hKlaus Gantert;
                        Rupert Hacker
                        4020 8., vollst. neu bearb. und erw. Aufl.
                        4030 München$nSaur
                        4060 414 S.
                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 45
Hochschule der Medien
                                        aus dem Cluster erzeugter Werknormsatz

                        005   Tu7                        neuer Code „7“: maschinell
                        006   http://d-nb.info/gnd/xyz erstellt aus Clustering
                        008   wit
                        011   f
                                                  neues Nutzungskennzeichen „q“:
                        012   q
                                                  für maschinelle Verknüpfungen
                        035   gnd/xyz
                        130   Bibliothekarisches Grundwissen
                        377   ger
                        500   !PPN!Hacker, Rupert*1935-* $4aut1
Heidrun Wiesenmüller




                        500   !PPN!Gantert, Klaus*1968-* $4auta
                        548   $c1972$4datj




                         13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 46
Hochschule der Medien
                                        aus dem Cluster erzeugter Werknormsatz

                        005   Tu7
                        006   http://d-nb.info/gnd/xyz
                                                            Werktitel: Sachtitel der
                        008   wit
                                                            frühesten Manifestation
                        011   f
                        012   q
                        035   gnd/xyz
                        130   Bibliothekarisches Grundwissen
                        377   ger
                        500                      mutmaßliche Sprache des Werks
                              !PPN!Hacker, Rupert*1935-* $4aut1
Heidrun Wiesenmüller




                        500                      (nur deutsche Manifestationen)
                              !PPN!Gantert, Klaus*1968-* $4auta
                        548   $c1972$4datj

                                                   Jahr der frühesten Manifestation
                                                   als mutmaßliches Jahr des Werks

                         13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 47
Hochschule der Medien
                                        aus dem Cluster erzeugter Werknormsatz

                        005   Tu7
                        006   http://d-nb.info/gnd/xyz
                        008   wit
                        011   f                           erster Verfasser der
                        012   q                           frühesten Manifestation
                        035   gnd/xyz
                        130   Bibliothekarisches Grundwissen
                        377   ger
                        500   !PPN!Hacker, Rupert*1935-* $4aut1
Heidrun Wiesenmüller




                        500   !PPN!Gantert, Klaus*1968-* $4auta
                        548   $c1972$4datj
                                                                      weiterer Verfasser (aus
                                                                      späterer Manifestation)

                         13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 48
Hochschule der Medien
                                                alle Mitglieder des Clusters werden
                                                mit Werknormsatz verknüpft
                        1100 2008
                        1500 ger
                        2000 978-3-598-11771-8
                        3000 !PPN!Gantert, Klaus*1968-*
                        3001 !PPN!Hacker, Rupert*1935-*
                        3012 !PPN!Bibliothekarisches Grundwissen / Hacker,
                        Rupert*1935-*
                        4000 Bibliothekarisches Grundwissen$hKlaus Gantert;
                        Rupert Hacker
Heidrun Wiesenmüller




                        4020 8., vollst. neu bearb. und erw. Aufl. zum Werk-
                                                      Verknüpfung
                        4030 München$nSaur            normsatz über Identnummer
                        4060 414 S.




                          13.03.2013    5. Kongress Bibliothek & Information Deutschland   Folie 49
1100   2012
                        1500   eng
Hochschule der Medien


                        2000   978-1-4087-0420-2
                        3000   !PPN!Rowling, Joanne K.*1965-*
                        4000   The @casual vacancy$hJ. K. Rowling
                        4030   London$nLittle, Brown
                        4060   503 S.                   Beispiel 2:
                        1100 2012                       zwei Mitglieder desselben
                        1500 ger$ceng                   Clusters (SWB, gekürzt)
                        2000 978-3-551-58888-3
                        3000 !PPN!Rowling, Joanne K.*1965-*
Heidrun Wiesenmüller




                        3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]
                        3211 The @casual vacancy <dt.>
                        4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.
                        Rowling. Aus dem Engl. von Susanne Aeckerle ...
                        4030 Hamburg$nCarlsen
                        4060 574 S.
                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 50
Hochschule der Medien
                                         aus dem Cluster erzeugter Werknormsatz

                        005   Tu7
                        006   http://d-nb.info/gnd/xyz
                        008   wit                  Werktitel: Einheitssachtitel
                        011   f
                        012   q
                        035   gnd/xyz
                        130   The @casual vacancy
                        377   eng
                        430   Ein @plötzlicher Todesfall$vger
Heidrun Wiesenmüller




                        500   !PPN!Rowling, Joanne K.*1965-* $4aut1
                        548   $c2012$4datj
                                                 Sachtitel einer Manifestation, der
                                                 nicht mit Werktitel übereinstimmt
                                                 (mit Sprachcode)

                         13.03.2013       5. Kongress Bibliothek & Information Deutschland   Folie 51
Hochschule der Medien
                                                alle Mitglieder des Clusters werden
                                                mit Werknormsatz verknüpft
                        1100 2012
                        1500 ger$ceng
                        2000 978-3-551-58888-3
                        3000 !PPN!Rowling, Joanne K.*1965-*
                        3010 !PPN!Aeckerle, Susanne*1942-*[Übers.]
                        3211 The @casual vacancy <dt.>
                        3212 !PPN!The @casual vacancy / Rowling,
                        Joanne K.*1965-*
                        4000 Ein @plötzlicher Todesfall$dRoman$hJ. K.
Heidrun Wiesenmüller




                        Rowling. Aus dem Engl. von Susanne Aeckerle ...
                        4030 Hamburg$nCarlsen       Verknüpfung zum Werk-
                        4060 574 S.                 normsatz über Identnummer




                          13.03.2013    5. Kongress Bibliothek & Information Deutschland   Folie 52
Hochschule der Medien
                        offene Fragen
                        • intellektuell erstellter Werknormsatz vorhanden
                          (z.B. aus Sacherschließung), Feststellen durch Abgleich
                          der maschinell erstellten Werknormätze mit GND;
                          Merging oder Verknüpfung der beiden Normsätze?
                        • Werke mit nur einer Manifestation (Einer-Cluster)
                          sollte auch in diesen Fällen ein Werknormsatz angelegt
                          werden?
                        • technische Umsetzbarkeit
Heidrun Wiesenmüller




                          lässt sich das geschilderte Szenario unter den derzeitigen
                          technischen Rahmenbedingungen (mehreren Verbund-
                          kataloge) umsetzen?




                          13.03.2013     5. Kongress Bibliothek & Information Deutschland   Folie 53
Hochschule der Medien

                        Agenda

                        1. Individualisierung
                        2. Differenzierung von Normsätzen
                        3. Maschinell erstellte Werk-Normsätze
                        4. Optimierungspotenziale für das Clustering
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 54
Hochschule der Medien
                        Optimierungsmöglichkeiten
                        • bisher sehr scharfes Clustern
                          z.B. exakte Übereinstimmung von Sachtitel und Zusätzen
                          notwendig

                                vermeidet Fehl-Zusammenführungen
                                umgekehrt: nicht alles wird zusammengeführt

                        Verbesserungsansätze:
                        • Einbezug von Verweisungsformen
Heidrun Wiesenmüller




                          z.B. Person einmal „Hills, John“, einmal „Hills, John R.“
                        • Auswertung von Fußnoten
                          insbes. bei Titeländerungen
                        • keine 100%-ige Übereinstimmung bei Zusätzen
                          diese ändern sich vergleichsweise oft

                          13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 55
Hochschule der Medien                                  Fußnote bei Titeländerung
                                                       als Text oder mit Verknüpfung
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 56
Hochschule der Medien                       Unterschiede bei Zusätzen
                                            Zusatz fehlt in manchen Ausgaben




                                                                                        SWB
Heidrun Wiesenmüller




                        13.03.2013   5. Kongress Bibliothek & Information Deutschland         Folie 57
Unterschiede bei Zusätzen
                vier deutsche Ausgaben, drei Varianten

                                                                SWB




13.03.2013   5. Kongress Bibliothek & Information Deutschland   Folie 58
Unterschiede bei Zusätzen
                drei Ausgaben, drei Varianten
                (z.T. auch erfassungsbedingt)




                                                                   SWB

   Verfeinerung des Algorithmus sinnvoll
   evtl. mit intellektueller Überprüfung, wenn
   das System sich nicht sicher ist


13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 59
Hochschule der Medien




                                        Vielen Dank für
                                     Ihre Aufmerksamkeit!


                                Kontakt: wiesenmueller@hdm-stuttgart.de
Heidrun Wiesenmüller




                        13.03.2013      5. Kongress Bibliothek & Information Deutschland   Folie 60

More Related Content

Viewers also liked

Offshore indoog feb 2013 (1)
Offshore indoog feb 2013 (1)Offshore indoog feb 2013 (1)
Offshore indoog feb 2013 (1)Dinar Indriana
 
11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...
11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...
11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...Artistic Education
 
Dog app fill 10-09
Dog app   fill 10-09Dog app   fill 10-09
Dog app fill 10-09catbug
 
Portafolio de psicomoticidad
Portafolio de psicomoticidadPortafolio de psicomoticidad
Portafolio de psicomoticidadjkique22
 
Fotonovela Convivencia
Fotonovela ConvivenciaFotonovela Convivencia
Fotonovela Convivenciaaebustaj
 
Programa fiestas de Coslada 2014
Programa fiestas de Coslada 2014Programa fiestas de Coslada 2014
Programa fiestas de Coslada 2014Anika Díaz
 
131008 maniobra asesoria de comunicación estratégica
131008 maniobra asesoria de comunicación estratégica131008 maniobra asesoria de comunicación estratégica
131008 maniobra asesoria de comunicación estratégicamaniobra
 
Relatório Anual Endeavor 2010-2009
Relatório Anual Endeavor 2010-2009Relatório Anual Endeavor 2010-2009
Relatório Anual Endeavor 2010-2009peinvestimento
 
Traspaso fluido de la television digital en base a la experiencia japonesa
Traspaso fluido de la television digital en base a la experiencia japonesaTraspaso fluido de la television digital en base a la experiencia japonesa
Traspaso fluido de la television digital en base a la experiencia japonesaGerson Chavarria Vera
 
Presentación Fonsecon CLAUDIA GÓMEZ.ptx
Presentación Fonsecon CLAUDIA GÓMEZ.ptxPresentación Fonsecon CLAUDIA GÓMEZ.ptx
Presentación Fonsecon CLAUDIA GÓMEZ.ptxClaudia Gómez
 
Boletín 1..
Boletín 1..Boletín 1..
Boletín 1..hucatcix
 
Four Secrets to Making Things Crowd Worthy
Four Secrets to Making Things Crowd WorthyFour Secrets to Making Things Crowd Worthy
Four Secrets to Making Things Crowd WorthyBryan Kramer
 
Cortine del Friuli medievale
Cortine del Friuli medievaleCortine del Friuli medievale
Cortine del Friuli medievaleComune Udine
 
Calabash, an open-source automated testing technology for native mobile, by K...
Calabash, an open-source automated testing technology for native mobile, by K...Calabash, an open-source automated testing technology for native mobile, by K...
Calabash, an open-source automated testing technology for native mobile, by K...Codemotion
 

Viewers also liked (18)

Break dance
Break danceBreak dance
Break dance
 
Offshore indoog feb 2013 (1)
Offshore indoog feb 2013 (1)Offshore indoog feb 2013 (1)
Offshore indoog feb 2013 (1)
 
11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...
11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...
11th MODERN AND CONTEMPORARY ART. TECH TOOL WORKSHOP. PROYECTO ARTE Y FILOSOF...
 
Dog app fill 10-09
Dog app   fill 10-09Dog app   fill 10-09
Dog app fill 10-09
 
Portafolio de psicomoticidad
Portafolio de psicomoticidadPortafolio de psicomoticidad
Portafolio de psicomoticidad
 
Fotonovela Convivencia
Fotonovela ConvivenciaFotonovela Convivencia
Fotonovela Convivencia
 
Programa fiestas de Coslada 2014
Programa fiestas de Coslada 2014Programa fiestas de Coslada 2014
Programa fiestas de Coslada 2014
 
Catálogo Paragon-Project Management
Catálogo Paragon-Project ManagementCatálogo Paragon-Project Management
Catálogo Paragon-Project Management
 
131008 maniobra asesoria de comunicación estratégica
131008 maniobra asesoria de comunicación estratégica131008 maniobra asesoria de comunicación estratégica
131008 maniobra asesoria de comunicación estratégica
 
Relatório Anual Endeavor 2010-2009
Relatório Anual Endeavor 2010-2009Relatório Anual Endeavor 2010-2009
Relatório Anual Endeavor 2010-2009
 
Traspaso fluido de la television digital en base a la experiencia japonesa
Traspaso fluido de la television digital en base a la experiencia japonesaTraspaso fluido de la television digital en base a la experiencia japonesa
Traspaso fluido de la television digital en base a la experiencia japonesa
 
Presentación Fonsecon CLAUDIA GÓMEZ.ptx
Presentación Fonsecon CLAUDIA GÓMEZ.ptxPresentación Fonsecon CLAUDIA GÓMEZ.ptx
Presentación Fonsecon CLAUDIA GÓMEZ.ptx
 
Boletín 1..
Boletín 1..Boletín 1..
Boletín 1..
 
Four Secrets to Making Things Crowd Worthy
Four Secrets to Making Things Crowd WorthyFour Secrets to Making Things Crowd Worthy
Four Secrets to Making Things Crowd Worthy
 
Goticos
GoticosGoticos
Goticos
 
Cortine del Friuli medievale
Cortine del Friuli medievaleCortine del Friuli medievale
Cortine del Friuli medievale
 
Acceso Directo de Memoria
Acceso Directo de MemoriaAcceso Directo de Memoria
Acceso Directo de Memoria
 
Calabash, an open-source automated testing technology for native mobile, by K...
Calabash, an open-source automated testing technology for native mobile, by K...Calabash, an open-source automated testing technology for native mobile, by K...
Calabash, an open-source automated testing technology for native mobile, by K...
 

Heidrun Wiesenmüller: Anreichern, abgleichen, verknüpfen - Anwendungsideen für das Werk-Clustering

  • 1. Hochschule der Medien Anreichern, abgleichen, verknüpfen Anwendungsideen für das Werk-Clustering Heidrun Wiesenmüller (Beitrag im Workshop „Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten“) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 1
  • 2. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das Clustering Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 2
  • 3. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das Clustering Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 3
  • 4. Hochschule der Medien Individualisierung von Personen • in angloamerikanischer Welt schon immer üblich Lebensdaten sind sogar Teil der Ansetzungsform • von RAK ursprünglich nicht vorgesehen in deutschsprachigem Raum erst seit einigen Jahren praktiziert • erheblicher Aufwand für die Erschließung Differenzieren von Autoren, Erfassen zusätzlicher Informationen, Bearbeiten von Altdaten (z.B. Auflösen von „Sammeltöpfen“) Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 4
  • 5. Beispiel für Individualisierung dreimal „Heiner Müller“ 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 5
  • 6. Hochschule der Medien Probleme bei Individualisierung • Altdaten bisher nur zum Teil aufgearbeitet • Informationen nicht ausreichend bzw. gesichert Individualisierung z.T. anhand der vorliegenden Angaben nicht möglich, Zuordnen zu vorhandenen Datensätzen oft schwierig, keine Zeit für zusätzliche Recherchen • Verzicht auf Individualisierung aus unterschiedlichen Gründen (z.B. keine Zeit, Heidrun Wiesenmüller mangelnde Erfahrung mit GND bei kleinen Bibliotheken) • ohne manuelle Bearbeitung eingespielte Fremddaten z.B. E-Book-Pakete, Daten für Nationallizenzen (oft ganz ohne Verknüpfung zu Personensätzen) bisher noch sehr unvollkommen umgesetzt 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 6
  • 7. Hochschule der Medien Chance für Werk-Clustering • Verfasser auf Werk-Ebene angesiedelt auch bei Herausgebern von Aufsatzbänden u.ä. möglich • ein einziger Datensatz aus dem Cluster genügt wenn in irgendeinem Verbund eine Ausgabe mit einem individualisierten Satz verknüpft ist, kann dies für alle anderen Mitglieder im Cluster übernommen werden • kann auch zum Auffinden von Fehlern dienen z.B. könnte nach Fällen gesucht werden, in denen zwei Heidrun Wiesenmüller Mitglieder desselben Clusters mit unterschiedlichen individualisierten Personensätzen verknüpft sind • Einbezug angloamerikanischer Daten könnte die Ergebnisse weiter verbessern 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 7
  • 8. SWB GBV • SWB: nicht individualisiert • GBV: individualisiert (ebenso DNB und HBZ) GND-Satz 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 8
  • 9. GBV SWB • SWB: individualisiert • GBV: nicht indiv. (so auch HBZ und OBV) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 9
  • 10. SWB • SWB: nur Online-Ausgabe, dort nicht individualisiert (so auch im GBV und OBV) • Daten von E-Book-Paketen werden häufig eingekauft und ohne intellektuelle Nach- bearbeitung eingespielt 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 10
  • 11. HBZ • HBZ: nur Druck-Ausgabe, dort Tp-Satz • HBZ: nur Druck-Ausg., dort individualisiert 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 11
  • 12. GBV im selben Verbund: E-Book-Ausgabe ohne Individualisierung, Druckausgabe mit! 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 12
  • 13. GBV Variante: E-Book-Ausgabe steht nicht unter Ansetzungs- form, sondern unter einer Verweisungsform (im Tp-Satz enthalten) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 13
  • 14. Hochschule der Medien SWB: Titel dieser Person sind auf nicht weniger als drei Normsätze verteilt Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 14
  • 15. Hochschule der Medien SWB: Beispiel für einen „Sammeltopf“ (Tn- Satz für einen gängigen Namen), mit dem über 600 Titel verknüpft sind Heidrun Wiesenmüller • bisher manuelle Bearbeitung sehr aufwendig, im laufenden Betrieb kaum zu leisten • Clustering könnte helfen könnte künftig ein weitgehend automatisches „Auseinandernehmen“ solcher Sammeltöpfe ermöglichen 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 15
  • 16. Ausschnitt aus Trefferliste zum „Sammeltopf“ bei DNB individualisiert: Kunsthistoriker, geb. 1936 bei DNB individualisiert: Historiker, geb. 1956 bei DNB individualisiert: Theologe, geb. 1950 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 16
  • 17. SWB HBZ dasselbe Werk: einmal verknüpft mit Kunsthistoriker, geb. 1947, einmal verknüpft mit Kunsthistoriker, geb. 1936 (so auch DNB). Hier kann etwas nicht stimmen! 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 17
  • 18. Hochschule der Medien Heidrun Wiesenmüller Wikipedia Recherche ergibt: beide Zuordnungen sind falsch, der Richtige ist ein Dritter (für den es ebenfalls Datensatz gibt) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 18
  • 19. SWB Zwei Ausgaben von Middlemarch: E-Book-Ausgabe aus Nationallizenz-Daten, dort ist nur der Name als Text eingetragen 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 19
  • 20. SWB LoC Alleinbesitz im SWB: individualisierende Informationen könnten aus angloamerikanischen Daten übernommen werden 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 20
  • 21. Hochschule der Medien Kataloge Individualisierungsinfos bisher kaum genutzt: • in manchen Katalogen zumindest Anzeige beim Titel z.B. über Klick auf spezielles Icon • in Trefferlisten i.d.R. bisher nicht genutzt Titel aller gleichnamigen Autoren zusammengeworfen (Ausnahme: Freiburger Katalog plus) • Suche vom Titel aus: unterschiedlich realisiert entweder nur Anzeige der mit dieser Person verknüpften Heidrun Wiesenmüller Titel (Problem: ergibt evtl. nur Teil der relevanten Titel) oder Recherche nach Titeln aller gleichnamigen Personen bei besserer Qualität der Daten wären auch verbesserte Katalog-Funktionen möglich 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 21
  • 22. Beispiel für Individualisierung dreimal „Heiner Müller“ 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 22
  • 23. Suche nach Heiner Müller: Personen werden in der Trefferliste „zusammengeworfen“ Hochschule der Medien der Verfasser von Unterrichtsmaterialien der Schriftsteller Heidrun Wiesenmüller SWB 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 23
  • 24. reales Beispiel: http://www.viaf.org Lösungsweg 1: Vorschläge bei der Eingabe Müller, Heiner 1925-1995 / Schriftsteller Müller, Heiner 1970- / Arzt Müller, Heiner 1982- / Publizist von Unterrichts- materialien für die Schule Müller, Heiner weitere Personen dieses Namens Müller, Heinrich fiktiv (Designstudie), 1873-1956 / Lehrer Müller, Heinrich Basis: HEIDI-Katalog 1845-1910 / Apotheker der UB Heidelberg 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 24
  • 25. Lösungsweg 2: Drill-down Treffer einschränken auf: Müller, Heiner 1925-1995 / Schriftsteller Müller, Heiner 1970- / Arzt Müller, Heiner 1982- / Publizist von Unterrichtsmaterialien für die Schule Müller, Heiner weitere Personen dieses Namens fiktiv (Designstudie), Basis: SWB 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 25
  • 26. umgesetzt im Katalog plus der UB Freiburg 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 26
  • 27. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das Clustering Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 27
  • 28. Hochschule der Medien Angloamerikanische Tradition Stärkere Differenzierung bei Normdaten, z.B.: • Pseudonyme schreibt jemand teils unter einem Pseudonym, teils unter seinem wirklichen Namen (oder unter mehreren Pseudo- nymen), so werden unterschiedliche „bibliographische Identitäten“ angenommen • Person in offizieller Funktion Unterscheidung zwischen einer Person als Amtsträger und derselben Person als „Privatmann/-frau“ Heidrun Wiesenmüller Aufspaltung in mehrere Normdatensätze mit Siehe-auch-Verweisung (5XX) dagegen bei uns jeweils nur ein Normsatz 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 28
  • 29. Hochschule der Medien Normdatensatz 1 (Personensatz, stark gekürzt): Heidrun Wiesenmüller 100 1# |a Hobb, Robin 500 1# |a Lindholm, Megan • Autorin veröffentlicht teils unter dem Pseudonym „Robin Hobb“, teils unter „Megan Lindholm“ 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 29
  • 30. Hochschule der Medien Normdatensatz 2 (Personensatz, stark gekürzt): Heidrun Wiesenmüller 100 1# |a Lindholm, Megan 500 1# |a Hobb, Robin 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 30
  • 31. Hochschule der Medien Beispiel für Titel am Normsatz 1 Heidrun Wiesenmüller Beispiel für Titel am Normsatz 2 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 31
  • 32. GND Hochschule der Medien Heidrun Wiesenmüller GND: nur ein Datensatz, der für alle Titel verwendet wird; Pseudonym ist eine normale Verweisung (400) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 32
  • 33. Hochschule der Medien Normdatensatz 1 (Personensatz, stark gekürzt): Heidrun Wiesenmüller 100 0# |a Benedict |b XVI, |c Pope, |d 1927- 400 1# |a Ratzinger, Joseph, |d 1927- 510 2# |a Catholic Church |b Pope (2005-2013 : Benedict XVI) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 33
  • 34. Beispiel für einen Titel am Normsatz 1 Hochschule der Medien Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 34
  • 35. Hochschule der Medien Normdatensatz 2 (Körperschaftssatz, stark gekürzt): Heidrun Wiesenmüller 110 2# |a Catholic Church. |b Pope (2005-2013 : Benedict XVI) 500 0# |a Benedict |b XVI, |c Pope, |d 1927- 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 35
  • 36. Hochschule der Medien Beispiel für einen Titel am Normsatz 2 Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 36
  • 37. Hochschule der Medien RDA-Umstieg • Wenn entschieden wird, RDA voll zu implementieren Aufspaltung der betroffenen Normsätze sowie neue Zuordnung nötig • Clustering könnte Zuordnungsprozess unterstützen alle Ausgaben eines Werkes sollten am selben Normsatz hängen • Einbezug angloamerikanischer Daten ins Clustering könnte bei korrekter Zuordnung helfen Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 37
  • 38. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das Clustering Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 38
  • 39. Hochschule der Medien Clustering von Ausgaben • bisher nur als Funktion von Recherchesystemen nicht „fest verdrahtet“, sondern durch Algorithmen erzeugt Primo Mannheim Heidrun Wiesenmüller funktioniert jeweils nur in bestimmten System 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 39
  • 40. Hochschule der Medien Datentechnische Verknüpfung bisher nur in wenigen Fällen praktiziert: • Verknüpfung von Ausgaben nur in besonderen Fällen z.B. parallele Druck- und Online-Ausgabe Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 40
  • 41. Hochschule der Medien Werknormsätze • in Formalerschließung bisher nur für Musik-Werke werden manuell erstellt und verknüpft nicht nur Text, sondern echte Verknüpfung Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 41
  • 42. Hochschule der Medien zugehöriger Normsatz für das Werk in der GND Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 42
  • 43. Hochschule der Medien RDA • basiert auf FRBR Abbildung der Primärbeziehungen zwischen einem Werk, seinen Expressionen, Manifestationen und Exemplaren ist grundsätzlich angestrebt • wichtig ist insbesondere die Beziehung zum Werk das „manifestierte Werk“ ist ein Kern-Element (d.h. muss stets erfasst werden) • RDA erlaubt zwar ein Weitermachen wie bisher in der sog. „composite description“ kann die Beschreibung Heidrun Wiesenmüller der Manifestation mit Informationen der Werk- und Expressionsebene kombiniert werden • aber: wünschenswert wären Werk-Verknüpfungen jedoch: manuelle Erstellung und Verknüpfung wäre zu aufwendig, nötig ist maschinelle Lösung 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 43
  • 44. Hochschule der Medien Automatische Werkverknüpfung Grundidee für den Ablauf: 1. Erstellen von Werkclustern gemäß Pfeffer-Algorithmus (evtl. noch optimiert) 2. Extrahieren werkrelevanter Informationen jeweils aus dem Gesamtcluster 3. maschinelles Erzeugen eines Werknormsatzes gemäß festgelegter Ableitungsregeln (z.B. könnte das Jahr der frühesten Manifestation im Cluster als Jahr des Heidrun Wiesenmüller Werkes behandelt werden) 4. maschinelles Eintragen der Identnummer des Werks bei allen Titelsätzen, die zum Cluster gehören 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 44
  • 45. 1100 1972 1500 ger Hochschule der Medien 2000 3-7940-2607-1 3000 !PPN!Hacker, Rupert*1935-* 4000 Bibliothekarisches Grundwissen$hRupert Hacker 4030 München-Pullach [u.a.]$nVerl. Dokumentation 4060 368 S. Beispiel 1: 1100 2008 zwei Mitglieder desselben 1500 ger Clusters (SWB, gekürzt) 2000 978-3-598-11771-8 3000 !PPN!Gantert, Klaus*1968-* Heidrun Wiesenmüller 3001 !PPN!Hacker, Rupert*1935-* 4000 Bibliothekarisches Grundwissen$hKlaus Gantert; Rupert Hacker 4020 8., vollst. neu bearb. und erw. Aufl. 4030 München$nSaur 4060 414 S. 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 45
  • 46. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 neuer Code „7“: maschinell 006 http://d-nb.info/gnd/xyz erstellt aus Clustering 008 wit 011 f neues Nutzungskennzeichen „q“: 012 q für maschinelle Verknüpfungen 035 gnd/xyz 130 Bibliothekarisches Grundwissen 377 ger 500 !PPN!Hacker, Rupert*1935-* $4aut1 Heidrun Wiesenmüller 500 !PPN!Gantert, Klaus*1968-* $4auta 548 $c1972$4datj 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 46
  • 47. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 006 http://d-nb.info/gnd/xyz Werktitel: Sachtitel der 008 wit frühesten Manifestation 011 f 012 q 035 gnd/xyz 130 Bibliothekarisches Grundwissen 377 ger 500 mutmaßliche Sprache des Werks !PPN!Hacker, Rupert*1935-* $4aut1 Heidrun Wiesenmüller 500 (nur deutsche Manifestationen) !PPN!Gantert, Klaus*1968-* $4auta 548 $c1972$4datj Jahr der frühesten Manifestation als mutmaßliches Jahr des Werks 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 47
  • 48. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 006 http://d-nb.info/gnd/xyz 008 wit 011 f erster Verfasser der 012 q frühesten Manifestation 035 gnd/xyz 130 Bibliothekarisches Grundwissen 377 ger 500 !PPN!Hacker, Rupert*1935-* $4aut1 Heidrun Wiesenmüller 500 !PPN!Gantert, Klaus*1968-* $4auta 548 $c1972$4datj weiterer Verfasser (aus späterer Manifestation) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 48
  • 49. Hochschule der Medien alle Mitglieder des Clusters werden mit Werknormsatz verknüpft 1100 2008 1500 ger 2000 978-3-598-11771-8 3000 !PPN!Gantert, Klaus*1968-* 3001 !PPN!Hacker, Rupert*1935-* 3012 !PPN!Bibliothekarisches Grundwissen / Hacker, Rupert*1935-* 4000 Bibliothekarisches Grundwissen$hKlaus Gantert; Rupert Hacker Heidrun Wiesenmüller 4020 8., vollst. neu bearb. und erw. Aufl. zum Werk- Verknüpfung 4030 München$nSaur normsatz über Identnummer 4060 414 S. 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 49
  • 50. 1100 2012 1500 eng Hochschule der Medien 2000 978-1-4087-0420-2 3000 !PPN!Rowling, Joanne K.*1965-* 4000 The @casual vacancy$hJ. K. Rowling 4030 London$nLittle, Brown 4060 503 S. Beispiel 2: 1100 2012 zwei Mitglieder desselben 1500 ger$ceng Clusters (SWB, gekürzt) 2000 978-3-551-58888-3 3000 !PPN!Rowling, Joanne K.*1965-* Heidrun Wiesenmüller 3010 !PPN!Aeckerle, Susanne*1942-*[Übers.] 3211 The @casual vacancy <dt.> 4000 Ein @plötzlicher Todesfall$dRoman$hJ. K. Rowling. Aus dem Engl. von Susanne Aeckerle ... 4030 Hamburg$nCarlsen 4060 574 S. 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 50
  • 51. Hochschule der Medien aus dem Cluster erzeugter Werknormsatz 005 Tu7 006 http://d-nb.info/gnd/xyz 008 wit Werktitel: Einheitssachtitel 011 f 012 q 035 gnd/xyz 130 The @casual vacancy 377 eng 430 Ein @plötzlicher Todesfall$vger Heidrun Wiesenmüller 500 !PPN!Rowling, Joanne K.*1965-* $4aut1 548 $c2012$4datj Sachtitel einer Manifestation, der nicht mit Werktitel übereinstimmt (mit Sprachcode) 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 51
  • 52. Hochschule der Medien alle Mitglieder des Clusters werden mit Werknormsatz verknüpft 1100 2012 1500 ger$ceng 2000 978-3-551-58888-3 3000 !PPN!Rowling, Joanne K.*1965-* 3010 !PPN!Aeckerle, Susanne*1942-*[Übers.] 3211 The @casual vacancy <dt.> 3212 !PPN!The @casual vacancy / Rowling, Joanne K.*1965-* 4000 Ein @plötzlicher Todesfall$dRoman$hJ. K. Heidrun Wiesenmüller Rowling. Aus dem Engl. von Susanne Aeckerle ... 4030 Hamburg$nCarlsen Verknüpfung zum Werk- 4060 574 S. normsatz über Identnummer 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 52
  • 53. Hochschule der Medien offene Fragen • intellektuell erstellter Werknormsatz vorhanden (z.B. aus Sacherschließung), Feststellen durch Abgleich der maschinell erstellten Werknormätze mit GND; Merging oder Verknüpfung der beiden Normsätze? • Werke mit nur einer Manifestation (Einer-Cluster) sollte auch in diesen Fällen ein Werknormsatz angelegt werden? • technische Umsetzbarkeit Heidrun Wiesenmüller lässt sich das geschilderte Szenario unter den derzeitigen technischen Rahmenbedingungen (mehreren Verbund- kataloge) umsetzen? 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 53
  • 54. Hochschule der Medien Agenda 1. Individualisierung 2. Differenzierung von Normsätzen 3. Maschinell erstellte Werk-Normsätze 4. Optimierungspotenziale für das Clustering Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 54
  • 55. Hochschule der Medien Optimierungsmöglichkeiten • bisher sehr scharfes Clustern z.B. exakte Übereinstimmung von Sachtitel und Zusätzen notwendig vermeidet Fehl-Zusammenführungen umgekehrt: nicht alles wird zusammengeführt Verbesserungsansätze: • Einbezug von Verweisungsformen Heidrun Wiesenmüller z.B. Person einmal „Hills, John“, einmal „Hills, John R.“ • Auswertung von Fußnoten insbes. bei Titeländerungen • keine 100%-ige Übereinstimmung bei Zusätzen diese ändern sich vergleichsweise oft 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 55
  • 56. Hochschule der Medien Fußnote bei Titeländerung als Text oder mit Verknüpfung Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 56
  • 57. Hochschule der Medien Unterschiede bei Zusätzen Zusatz fehlt in manchen Ausgaben SWB Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 57
  • 58. Unterschiede bei Zusätzen vier deutsche Ausgaben, drei Varianten SWB 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 58
  • 59. Unterschiede bei Zusätzen drei Ausgaben, drei Varianten (z.T. auch erfassungsbedingt) SWB Verfeinerung des Algorithmus sinnvoll evtl. mit intellektueller Überprüfung, wenn das System sich nicht sicher ist 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 59
  • 60. Hochschule der Medien Vielen Dank für Ihre Aufmerksamkeit! Kontakt: wiesenmueller@hdm-stuttgart.de Heidrun Wiesenmüller 13.03.2013 5. Kongress Bibliothek & Information Deutschland Folie 60