Datenquellen

Aus welchen Daten setzt sich der Knowledge Graph zusammen?

Der Knowledge Graph besteht aus Daten verschiedener Sammlungen aus verschiedenenen Quelldatenbanken, die mit bekannten Vokabularen angereichert werden.

Eine Liste von Sammlungen befindet sich hier.

Die technischen Details der Aufnahme von neuen Datenbanken und Sammlungen sowie Update-Verfahren befinden sich noch in Entwicklung.

Anforderungen an Datenlieferungen

Lieferung ausschließlich in RDF oder als XML Lightweight Information Describing Objects (LIDO)
Zur Integration von Daten muss das CIDOC Concept Reference Modell (CRM) verwendet werden oder die verwendeten Ontologien auf CRM gemappt sein
Beschreiben einer Minimalmenge an Datenfeldern, um eine bestimmte Datenqualität zu erfüllen und durchsuchbare Datensets zu erzeugen; das Minimaldatenset und die ObjectOntology als dessen RDF-serialisrung werden im Konsortium noch erarbeitet.
Verwendung von etablierten Vokabularen oder zumindest URIs statt Freitextfeldern
Versionierung der Metadaten, sinnvoll bei Aktualisierung des Datenbestands für den KG
Angaben von Rechteinhabern, Herausgeber und Lizenzen (bspw. Creative Commons) für eine Nachnutzung
Verwendung von Normdaten-URI zur eindeutigen Zuweisung von Personen, Geografika u. s. w. (bspw. GND, VIAF, Wikidata, Geonames, historischen Gazeteers, …)
Weitere Daten der unterstützten Terminologien und Ontologien werden herausgefiltert und gesondert eingespielt.

aktuell noch LIDO 1.0, Export orientiert an LIDO für die Deutsche Digitale Bibliothek
Auszug aus der Museumsdatenbank, einer KSW-eigenentwickelten Oracle-Datenbank, die für Portallieferungen einen LIDO-Export anbietet
ca. 30.000 Datensätze, die auch im Online-Katalog “Digitale Sammlungen der Museen” der Klassik Stiftung Weimar veröffentlicht sind, werden verwendet (mdb_datendump_n4o_export_true), ohne zugehörige Bilddateien (digitale Repräsentationen der Objekte)
testweise nach Sprint im Juli ca. 30 Datensätze der grafischen Sammlung gesendet, im für den August terminierten Sprint 2 wird die ereignisbasierte Ausgabe angepasst