Supporting human-machine interaction by robust automatic speech recognition
- Aiming towards a reliable interaction between humans and machines, this thesis focuses on automatic speech recognition. The work starts with an investigation of acoustic challenge-response tests that are used as a security measure on the Internet to make the abuse of services harder. Based on this, novel kinds of tests are developed that exhibit a higher degree of usability and security than the current ones. Furthermore, several speech signal enhancement methods are discussed to lower the error rate of automatic speech recognition systems under noisy acoustic conditions. The last part of this work deals with the integration of acoustic and visual information in multi-modal speech recognition systems that are based on deep neural networks. Our results show that an additional reliability measure used for controlling the multi-modal integration leads to clearly improved recognition rates.
- Im Hinblick auf die zuverlässige Interaktion zwischen Mensch und Maschine bildet die automatische Spracherkennung den Kern dieser Arbeit. Die Arbeit beginnt mit der Untersuchung von akustischen Challenge-Response-Tests, die im Internet als Sicherheitsinstrument verwendet werden, um den Missbrauch von Diensten zu erschweren. Hierauf basierend werden neuartige Tests entwickelt, die ein höheres Maß an Benutzbarkeit und Sicherheit aufweisen als bisher. Des Weiteren werden diverse Methoden der Sprachsignalverbesserung diskutiert, um die Fehlerrate von automatischen Spracherkennungssystemen unter gestörten akustischen Bedingungen zu verringern. Der letzte Teil dieser Arbeit behandelt die Integration von akustischen und visuellen Informationen in multimodalen Spracherkennungssystemen, die auf neuronalen Netzen basieren. Es wird gezeigt, dass die durch ein zusätzliches Verlässlichkeitsmaß gesteuerte Integration der Modalitäten zu deutlich verbesserten Erkennungsraten führt.
Author: | Hendrik MeutznerGND |
---|---|
URN: | urn:nbn:de:hbz:294-63294 |
DOI: | https://doi.org/10.13154/294-6329 |
Referee: | Dorothea KolossaORCiDGND, Thorsten HolzORCiDGND |
Document Type: | Doctoral Thesis |
Language: | English |
Date of Publication (online): | 2019/03/12 |
Date of first Publication: | 2019/03/12 |
Publishing Institution: | Ruhr-Universität Bochum, Universitätsbibliothek |
Granting Institution: | Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik |
Date of final exam: | 2018/11/20 |
Creating Corporation: | Fakultät für Elektrotechnik und Informationstechnik |
GND-Keyword: | Automatische Spracherkennung; Captcha; Maschinelles Lernen; Mensch-Maschine-Kommunikation; Sprachverarbeitung |
Dewey Decimal Classification: | Technik, Medizin, angewandte Wissenschaften / Elektrotechnik, Elektronik |
faculties: | Fakultät für Elektrotechnik und Informationstechnik |
Licence (German): | Keine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht |