Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News

Contents:

1. Introduction
2. Speech Recognition
3. Topical Segmentation
4. Key-phrase Extraction
5. Search of the Web for Related Documents
6. Manual Annotation
7. Creating Story Index Documents
8. Semantic Annotation
9. Search and Retrieval of Broadcasts
10. Evaluation of Rich News Annotator
11. Future Developments
12. Conclusion
References

In het kader van het Europese onderzoeksproject PrestoSpace is het ‘Rich News system’ gebouwd om radio- en televisienieuwsuitzendingen automatisch te beschrijven op basis van relevante webpagina’s. De onderzoeksvraag is: hoe met software een goede inhoudelijke beschrijving te maken van een radio- of televisieuitzending. De combinatie van automatische spraakherkenning met gerelateerde teksten van het WWW blijkt kwalitatief goede beschrijvingen op te kunnen leveren. Het systeem produceert semantische beschrijvingen die deel kunnen uitmaken van het Semantic Web. Dit systeem ontsluit Engelstalig nieuws. Met de juiste vertaaltools en de beschikbaarheid van een geschikte tekstuele bron die de inhoud van de uitzendingen in een andere taal goed weergeeft, is het systeem ook inzetbaar voor het effectief toegankelijk maken van uitzendingen in andere talen dan het Engels, aldus de onderzoekers.

Een voor het veld interessant onderzoek, omdat het aantoont dat de performance van het informatiesysteem als geheel goed bruikbaar is, ook al zijn de drie belangrijkste componenten (automatisch segmenteren op onderwerp, extractie van sleutelfrases en het zoeken naar gerelateerde webpagina’s) van het beschrijvingsproces ieder op zichzelf foutgevoelig.