Aufgabenstellung zum Software-Praktikum im Sommersemester 2012


BOA – Framework zur Identifikation von Entitäten und Datentypen in Fließtext

Betreuer: Daniel Gerber, Dr. Axel Ngonga

Beschreibung: Linked Data Quellen wurden bisher meist aus strukturierten Daten extrahiert. Jedoch liegen 80% der Daten im Web in unstrukturierter Form vor. Das BOA Framework [1] implementiert einen iterativen Ansatz zur Extraktion von Wissen aus unstrukturierten Daten. Die BOA zugrunde liegende Idee ist das Finden von natürlichsprachlichen Mustern, welche Prädikate aus dem Linked Data Web ausdrücken. Diese Muster werden dann genutzt, um Instanzwissen aus natürlichsprachlichem Text zu extrahieren.

Ausgeschrieben wird die Entwicklung eines generischen Frameworks zur Extraktion von Prädikatenwerten aus unstrukturierten Daten. Dabei liegt der Fokus auf der Extraktion von Datentypen wie Daten, Distanzen, Temperaturen, etc. Zusätzlich sollen Oberflächenformen für existierende Daten generiert werden können. Das Framework soll so entwickelt werden, dass weitere Extraktionsmodule (z.B. FOX [2] für Named Entities, Module für andere Datentypen) als Plugins integriert werden können. Zusätzlich soll eine einfache Oberfläche entwickelt werden, mit der die Software konfiguriert und bedient werden kann.

[1] http://boa.aksw.org
[2] http://fox.aksw.org