Grundlagen

Grundbegriffe zum Verständnis des Knowledge Graphen

Zur Nutzung des Knowledge Graphen ist das Verständnis einiger Grundbegriffe notwendig:

Ein Knowledge Graph enthält Informationen in Form eines Graphen aus Knoten und Kanten.
Ein Triple Store ist eine Datenbanktechniken zur Verwaltung von Knowledge Graphen in der Strukturierungssprache RDF.
Vokabulare sind Listen von Entitäten zur Verknüpfung unterschiedlicher Daten.

Weitere technischen Details und Hintergründe finden sich im Kapitel zur Systemarchitektur.

Zur Integration in den Knowledge Graphen können Daten grundsätzlich in LIDO oder in RDF geliefert werden. Darüber hinaus gibt es spezielle Formate für Vokabulare und Mappings.

Knowledge Graph

In einem Knowledge Graph (auch Wissensgraph) sind Informationen strukturiert und stark miteinander vernetzt gespeichert. Ein Beispiel hierfür ist ein Netzwerk aus Personen, die durch Verwandschaft und andere Beziehungen miteinander verknüpft sind. Jeder Graph besteht aus Knoten und Kanten. So lassen sich beispielsweise Personen durch Knoten und Beziehungen durch Kanten repräsentieren.

Weitere Details hängen von der technischen Umsetzung des Knowledge Graphen ab. Eines der am häufigsten verwendeten Datenbankmodelle ist das RDF-Datenmodell mit Triple Stores. Darüber hinaus gibt es einige Knowledge Graphen mit eigenem Datenbankmodell, beispielsweise Property-Graphen oder Wikidata mit eigenem Datenbankmodell.

Einzelne “Datensätze” gibt es aufgrund der Graphstruktur nicht.

Triple Store

Ein Triple Store ist eine Graphendatenbank in der Daten dem RDF-Modell nach in Form von so genannten Triplen gespeichert werden. Jedes Tripel entspricht in der Regel einer Kante im Graphen und besteht aus Subjekt, Prädikat und Objekt. Als Abfragesprache für RDF-Daten in Triple Stores dient SPARQL.

Sammlung

Der Datenbestand des Knowledge Graphen von NFDI4IObjekts ist in so genannte Sammlungen unterteilt. Einige Sammlungen bestehen aus einzelnen Datensätzen, andere aus einer zusammengefassten Lieferung von Daten. Weitere Informationen zu Sammlungen und Lieferungen finden sich im Kapitel Sammlungen.

LIDO

Lightweight Information Describing Objects (LIDO) ist ein XML-Format aus dem Museumsbereich (siehe LIDO in der Formatdatenbank).

RDF

RDF-Daten können in verschiedenen Serialisierungen vorkommen, die sich verlustfrei ineinander überführen lassen (siehe RDF in der Formatdatenbank). Im Gegensatz zu allgemeinen Graph-Daten enthalten RDF-Daten global eindeutige URIs als Identifikatoren. Außerdem lassen sich RDF-Daten aus unterschiedlichen Quellen immer zusammenführen. Sofern kein einheitliches Schema verwendet wird, ist das Ergebnis allerdings uneinheitlich.