Aufgabenstellung zum Software-Praktikum im Sommersemester 2012


LGM-2 – Webfrontend zum Interlinking von geographischen RDF-Daten basierend auf Active Learning

Betreuer: Konrad Höffner

Das Semantische Web ermöglicht eine einfache Datenintegration über das Setzen von (RDF-)Links. In vielen Fällen sind die Datenmengen zu groß, um die Links manuell zu erstellen. Daher gibt es Werkzeuge wie z.B. LIMES[1] und SILK[2], welche diese Aufgabe bei Eingabe einer Konfigurationsdatei ("Link-Spezifikation") durchführen. Solch eine Link-Spezifikation beschreibt, welche Eigenschaften der Daten, welche Metriken und welche Schwellwerte zur Berechnung der Links herangezogen werden sollen. Dabei sind diese Konfigurationsparameter kritisch für die Quantität und Qualität der resultierenden Links.

Bisher mussten die Parameter in einem iterativen Prozess manuell vorgegeben und basierend auf den Resultaten angepasst werden. Neuere Ansätze wie RAVEN[3] setzen auf Active Learning (Relevance Feedback): Zunächst wird dem Benutzer eine Auswahl an Link-Kandidaten präsentiert, welche er als richtig oder falsch bewerten kann. Ein Algorithmus passt basierend auf diesen Bewertungen die Parameter einer Link-Spezifikation an. Darauf basierend kann eine neue verfeinerte Menge an Link-Kandidaten generiert und dem Benutzer angezeigt werden, bis dieser mit dem Ergebnis zufrieden ist. Im speziellen Fall von geographische Daten, wie z.B. Städten und Restaurants, kann dem Benutzer die Auswertung der Link-Kandidaten durch deren Darstellung auf einer Karte erleichtert werden.

Ausgeschrieben wird die Implementierung einer Webapplikation, welche eine Benutzeroberfläche für das Interlinking von geographischen Daten basierend auf Active Learning bietet.

Dabei sollen vor allem folgende Punkte umgesetzt werden:


[1] http://aksw.org/Projects/limes
[2] http://www4.wiwiss.fu-berlin.de/bizer/silk/
[3] ISWC 2011 Ontology Matching Workshop Paper about RAVEN: http://jens-lehmann.org/files/2011/raven.pdf