Fakten
Leitung
Margret Plank
Projektbearbeitung
Dr. Sven Strobel
Laufzeit
1. Dezember 2013 – 31. März 2014
Das Projekt hatte zum Ziel, ein englisches Fachvokabular für die Verschlagwortung der englischsprachigen Videos des AV-Portals der TIB zu gewinnen, und zwar mit Hilfe eines Mappings der GND-Sachbegriffe auf die DBpedia und andere Normdaten.
Beschreibung
Die Videos des AV-Portals der TIB werden mit insgesamt 63.356 GND-Sachbegriffen aus Naturwissenschaft und Technik automatisch verschlagwortet. Neben den deutschsprachigen Videos verfügt das AV-Portal der TIB auch über zahlreiche englischsprachige Videos. Die GND enthält zu den in der AV-Portal-Wissensbasis verwendeten Sachbegriffen nur sehr wenige englische Bezeichner. Es fehlte demnach ein englisches Indexierungsvokabular, mit dem die englischsprachigen Videos automatisch verschlagwortet werden konnten. Die Lösung des Problems sah wie folgt aus: Die englischen Bezeichner sollten über ein Mapping der GND-Sachbegriffe auf andere Datensätze gewonnen werden, die eine englische Übersetzung der Begriffe enthalten. Die verwendeten Mappingstrategien nutzten die DBpedia, LCSH, MACS-Ergebnisse sowie den WTI-Thesaurus. Am Ende wurde für 35.025 GND-Sachbegriffe (mindestens) ein englischer Bezeichner ermittelt. Diese englischen Bezeichner können für die automatische Verschlagwortung der englischsprachigen Videos unmittelbar herangezogen werden. 11.694 GND-Sachbegriffe konnten zwar nicht ins Englische ‚übersetzt‘, aber immerhin mit einem Oberbegriff assoziiert werden, der eine englische Übersetzung hat. Diese Assoziation dient der Erweiterung der Suchergebnisse.
Kooperationen
Hasso-Plattner-Institut für Softwaresystemtechnik, Potsdam
Weiterführende Links
- Englischsprachige Erweiterung des TIB AV-Portals. Ein GND-DBpedia-Mapping zur Gewinnung eines englischen Begriffssystems.
- Wie das TIB AV-Portal Englisch lernte. Eine englische Übersetzung für Sachbegriffe der AV-Portal-Wissensbasis.
- Semantische Suche nach wissenschaftlichen Videos. Automatische Verschlagwortung durch Named Entity Recognition