Datenquellen
Aus welchen Daten setzt sich der Knowledge Graph zusammen?
Der Knowledge Graph besteht aus Daten verschiedener Sammlungen aus verschiedenenen Quelldatenbanken, die mit bekannten Vokabularen angereichert werden.
Eine Liste von Sammlungen befindet sich hier.
Die technischen Details der Aufnahme von neuen Datenbanken und Sammlungen sowie Update-Verfahren befinden sich noch in Entwicklung.
Anforderungen an Datenlieferungen
- Lieferung ausschließlich in RDF oder als XML Lightweight Information Describing Objects (LIDO)
- Zur Integration von RDF-Daten in den Property Graphen muss das CIDOC Concept Reference Modell (CRM) verwendet werden oder die verwendeten Ontologien auf CRM gemappt sein
- Beschreiben einer Minimalmenge an Datenfeldern, um eine bestimmte Datenqualität zu erfüllen und durchsuchbare Datensets zu erzeugen; das Minimaldatenset und die ObjectOntology als dessen RDF-serialisrung werden im Konsortium noch erarbeitet.
- Verwendung von etablierten Vokabularen oder zumindest URIs statt Freitextfeldern
- Versionierung der Metadaten, sinnvoll bei Aktualisierung des Datenbestands für den KG
- Angaben von Rechteinhabern, Herausgeber und Lizenzen (bspw. Creative Commons) für eine Nachnutzung
- Verwendung von Normdaten-URI zur eindeutigen Zuweisung von Personen, Geografika u. s. w. (bspw. GND, VIAF, Wikidata, Geonames, historischen Gazeteers, …)
- Weitere Daten der unterstützten Terminologien und Ontologien werden herausgefiltert und gesondert eingespielt.
Beispiele
Datenlieferung der Klassik Stiftung Weimar
- aktuell noch LIDO 1.0, Export orientiert an LIDO für die Deutsche Digitale Bibliothek
- Auszug aus der Museumsdatenbank, einer KSW-eigenentwickelten Oracle-Datenbank, die für Portallieferungen einen LIDO-Export anbietet
- ca. 30.000 Datensätze, die auch im Online-Katalog “Digitale Sammlungen der Museen” der Klassik Stiftung Weimar veröffentlicht sind, werden verwendet (mdb_datendump_n4o_export_true), ohne zugehörige Bilddateien (digitale Repräsentationen der Objekte)
- testweise nach Sprint im Juli ca. 30 Datensätze der grafischen Sammlung gesendet, im für den August terminierten Sprint 2 wird die ereignisbasierte Ausgabe angepasst