Grundlagen

Wesentliche Grundbegriffe zum Verständnis des Knowledge Graphen

Zur Nutzung des Knowledge Graphen ist das Verständnis einiger Grundbegriffe notwendig:

Weitere technischen Details und Hintergründe finden sich im Kapitel zur Systemarchitektur.

Knowledge Graph

In einem Knowledge Graph (auch Wissensgraph) sind Informationen strukturiert und stark miteinander vernetzt gespeichert. Ein Beispiel hierfür ist ein Netzwerk aus Personen, die durch Verwandschaft und andere Beziehungen miteinander verknüpft sind. Jeder Graph besteht aus Knoten und Kanten. So lassen sich beispielsweise Personen durch Knoten und Beziehungen durch Kanten repräsentieren.

Weitere Details hängen von der technischen Umsetzung des Knowledge Graphen ab. Eines der am häufigsten verwendeten Datenbankmodelle ist das RDF-Datenmodell mit Triple Stores. Darüber hinaus gibt es einige Knowledge Graphen mit eigenem Datenbankmodell, beispielsweise Wikidata auf Grundlage von des Wikibase-Modells.

Die Inhalte eines Knowledge Graphen besteht aus einem Schema, optional einigen Vokabularen und dem Datenbestand als eigentlichem Datenbankinhalt. Einzelne “Datensätze” gibt es aufgrund der Graphstruktur nicht.

Datenbankmodell

Triple Store

Ein Triple Store ist eine Graphendatenbank in der Daten dem RDF-Modell nach in Form von so genannten Triplen gespeichert werden. Jedes Tripel entspricht in der Regel einer Kante im Graphen und besteht aus Subjekt, Prädikat und Objekt. Als Abfragesprache für RDF-Daten in Triple Stores dient SPARQL.

Datenbankinhalt

Schema

Das Datenbankschema oder Datenmodell eines Knowledge Graphen bestimmt welche Arten von Knoten, Kanten und weiterer Inhalte im Graph enthalten sein dürfen. Das Schemas basiert auf dem abstrakten Datenmodell CIDOC-CRM. Details zu den Schemas finden sich im Kapitel Datenbankschema.

Neben dem Schema von Graphdatenbanken gibt Schemas zur Validierung der Datenformate gelieferter Daten und Vokabulare.

Im Schema ist beispielsweise vorgegeben, dass es für Messungen Knoten der Klasse E16_Measurement und für Zeiträume Knoten der Klasse E52_Time_Span gibt.

Datenbestand

Der Datenbestand ist der eigentliche Inhalt des gemeinsamen Knowledge Graphen von NFDI4IObjekts. Er wird im Gegensatz zu Schema und Vokabularen laufend durch Lieferungen von Sammlungen Forschungsdaten aktualisiert, die in den Graphen integriert werden.

Vokabular

Vokabulare sind vorgegebene Listen von Entitäten oder Werten. Sie sind in Form von Identifikatoren, Datentypen und/oder Knoten und Kanten zwar Teil des Knowledge-Graphen gehören aber eher nicht zum eigentlichen Datenbestand. Vokabulare werden nur in unregelmäßign Abständen und zentral aktualisiert. Sie dürfen nicht durch Lieferungen von Sammlungen überschrieben werden. Weitere Informationen finden sich in den Kapiteln zu Vokabularen und zu Mappings.

TippBeispiele

Häufig verwendete Vokabulare sind die Gemeinsame Normdatei (GND), das Klassifizierungssystem Iconclass und die Normdateien des Getty Research Institute. Darüber hinaus gibt es zahlreiche Spezial-Vokabulare wie zum Beispiel die Hornbostel-Sachs-Klassifikation der Musikinstrumente.

Sammlung

Der Datenbestand des Knowledge Graphen von NFDI4IObjekts ist in so genannte Sammlungen unterteilt. Einige Sammlungen bestehen aus einzelnen Datensätzen, andere aus einer zusammengefassten Lieferung von Daten. Weitere Informationen zu Sammlungen und Lieferungen finden sich im Kapitel Datenquellen.

Datenformate

Zur Integration in den Datenbestand des Knowledge Graphen können Daten grundsätzlich in LIDO oder in RDF geliefert werden. Darüber hinaus gibt es spezielle Formate für Vokabulare und Mappings.

LIDO

Lightweight Information Describing Objects (LIDO) ist ein XML-Format aus dem Museumsbereich (siehe LIDO in der Formatdatenbank).

RDF

RDF-Daten können in verschiedenen Serialisierungen vorkommen, die sich verlustfrei ineinander überführen lassen (siehe RDF in der Formatdatenbank). Im Gegensatz zu allgemeinen Graph-Daten enthalten RDF-Daten global eindeutige URIs als Identifikatoren. Außerdem lassen sich RDF-Daten aus unterschiedlichen Quellen immer zusammenführen. Sofern kein einheitliches Schema verwendet wird, ist das Ergebnis allerdings uneinheitlich.