Automated interlinking of speech radio archives

Contents:

  • 1. Introduction
  • 2. Related work
  • 3. Background
  • 4. Automated tagging of speech audio
  • 5. Evaluation
  • 6. Conclusion and further work
  • References

Het handmatig ontsluiten van radioprogramma’s is steeds moeilijker vol te houden voor de BBC. Daarom hebben zij een aanpak ontwikkeld voor het automatisch indexeren. Het resultaat is een semantische tagger en omvat automatische spraakherkenning, het verwerken van de transcripts (met een ‘Enhanced Topic Vector Space Model’ worden uit de transcripts kandidaat trefwoorden afgeleid, gedisambigueerd en gerangschikt naar relevantie) en het vertalen van de herkende concepten in tags die het hele programma classeren. Door gebruik te maken van trefwoorden uit DBpedia (in SKOS) kunnen de catalogusbeschrijvingen onderdeel gaan uitmaken van het Semantische Web.Na evaluatie van de automatisch gegenereerde trefwoorden door documentalisten en in vergelijking met commerciële tagging software noemen de auteurs deze nieuwe aanpak veelbelovend.Het verbeteren van de kwaliteit van de spraakherkenning en het automatisch herkennen van items binnen een programma, zijn enkele verbeterpunten.Deze paper hoort bij een presentatie voor de workshop Linked Data on the Web (LDOW2012).

Gedetailleerde beschrijving van de wijze waarop zij radioprogramma’s automatisch kunnen ontsluiten.
Nuttig voor programmeurs die overwegen om zelf een tagger te ontwikkelen met bijvoorbeeld een eigen thesaurus of een andere bron voor gecontroleerde trefwoorden (controlled vocabulary).