Datenmodell
Teilgraphen
Die RDF-Datenbank ist in mehrere Graphen unterteilt:
Jede Sammlung von Forschungsdaten wird über eine URI der Form
https://graph.nfdi4objects.net/collection/ID
identifiziert, beispielsweise https://graph.nfdi4objects.net/collection/4. Die Sammlung kann als ganzes aktualisiert und einzeln oder zusammen mit anderen Inhalten abgefragt werden.Der Graph https://graph.nfdi4objects.net/collection/ enthält Informationen über die einzelnen Sammlungen.
Vokabulare und Ontologien sind in eigenen Graphen verwaltet, deren URI der BARTOC-URI des jeweiligen Vokabulars entspricht, beispielsweise http://bartoc.org/en/node/1940 für Wikidata und http://bartoc.org/en/node/1644 für CIDOC-CRM.
Der Graph https://graph.nfdi4objects.net/terminology/ enthält Informationen über Vokabulare.
Sofern kein konkreter Graph angegeben ist, gelten Abfragen über die Gesamtheit aller Graphen.
Struktur der Inhalt
Aus den Lieferungen von Sammlungen werden prinzipiell alle syntaktisch korrekten RDF-Daten übernommen. Allerdings werden einige Triples herausgefiltert und einige URIs umgeschrieben, um unnötige Uneinheitlichkeiten zu vermeiden (siehe Datenimport). Es gibt ist also kein einheitliches Datenmodell vorgeschrieben.
Dieses Kapitel ist nichtmehr aktuell!
Im Folgenden das Datenbankschema des Property Graphen beschrieben. Die RDF-Daten im Triple-Store folgend dagegen bislang keinen Schema sondern werden so eingespielt wie sie geliefert werden.
Als Sammlungsübergeifendes Datenmodell wird CIDOC-CRM (CRM) verwendet. Weitere Ontologien müssen auf CRM gemappt werden. Darüber hinaus werden eine Reihen von etablierten Vokabularen wie ICONCLASS, GND und die LIDO-Terminologien unterstützt.
Modellierung
Die Modellierung ist noch nicht abgeschlossen! Überlegungen zur Abbildung von CRM in RDF befinden sich hier.
Vokabulare
Die konkrete Modellierung und Implementierung ist noch in Arbeit.
Ausgewählte kontrollierte Vokabulare werden zentral in den Property Graphen eingespielt. Das Datenmodell dafür basiert auf CIDOC-CRM und SKOS mit folgenden Bestandteilen:
Vokabulare haben die Property
uri
mit der BARTOC-URI des Vokabulars als Wert und die LabelE32_Authority_Document
(E32 Authority Document) sowieConceptScheme
zur Markierung, dass sie als Vokabular eingespielt wurden.Konzepte haben eine Property
uri
und können unterschiedliche Label haben. Der allgemein Fall istE55_Type
. (E55 Type). Darüber hinaus erhalten sie das LabelConcept
zur Markierung, dass sie aus einem Vokabular statt aus einer Lieferung von Forschungsdaten stammen.Konzepte werden ihrem Vokabular mit dem Kanten-Label
inScheme
zugeordnet. Die entsprechende inverse CRM-Property P71 lists wird nicht verwendet.Konzepte können mit den Kanten-Labeln
broader
miteinander verknüpft werden. Die entsprechende CRM-Property P127 has broader term wird nicht verwendet.Konzepte können eine interne ID oder Notation haben (Property
notation
)Konzepte sollten Benennungen haben (Property
label
undlabelLang
)
Darüber könnten folgende CRM-Bestandteile eine Rolle spielen:
- P150 defines typical part of, ein Spezialfall von
skos:related
. - P2 has type
- P137 exemplifies die inverse Relation von
skos:example
.
GND-Datensatz zu “Schleswig-Holstein”:
gnd :ConceptScheme :E32_Authority_Document # GND
uri: http://bartoc.org/en/node/430
sh :Concept :E55_Type :E42_Identifier # Schleswig-Holstein
uri: https://d-nb.info/gnd/4052692-6
sh -> gnd :inScheme