Supporting human-machine interaction by robust automatic speech recognition

  • Aiming towards a reliable interaction between humans and machines, this thesis focuses on automatic speech recognition. The work starts with an investigation of acoustic challenge-response tests that are used as a security measure on the Internet to make the abuse of services harder. Based on this, novel kinds of tests are developed that exhibit a higher degree of usability and security than the current ones. Furthermore, several speech signal enhancement methods are discussed to lower the error rate of automatic speech recognition systems under noisy acoustic conditions. The last part of this work deals with the integration of acoustic and visual information in multi-modal speech recognition systems that are based on deep neural networks. Our results show that an additional reliability measure used for controlling the multi-modal integration leads to clearly improved recognition rates.
  • Im Hinblick auf die zuverlässige Interaktion zwischen Mensch und Maschine bildet die automatische Spracherkennung den Kern dieser Arbeit. Die Arbeit beginnt mit der Untersuchung von akustischen Challenge-Response-Tests, die im Internet als Sicherheitsinstrument verwendet werden, um den Missbrauch von Diensten zu erschweren. Hierauf basierend werden neuartige Tests entwickelt, die ein höheres Maß an Benutzbarkeit und Sicherheit aufweisen als bisher. Des Weiteren werden diverse Methoden der Sprachsignalverbesserung diskutiert, um die Fehlerrate von automatischen Spracherkennungssystemen unter gestörten akustischen Bedingungen zu verringern. Der letzte Teil dieser Arbeit behandelt die Integration von akustischen und visuellen Informationen in multimodalen Spracherkennungssystemen, die auf neuronalen Netzen basieren. Es wird gezeigt, dass die durch ein zusätzliches Verlässlichkeitsmaß gesteuerte Integration der Modalitäten zu deutlich verbesserten Erkennungsraten führt.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Hendrik MeutznerGND
URN:urn:nbn:de:hbz:294-63294
DOI:https://doi.org/10.13154/294-6329
Referee:Dorothea KolossaORCiDGND, Thorsten HolzORCiDGND
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2019/03/12
Date of first Publication:2019/03/12
Publishing Institution:Ruhr-Universität Bochum, Universitätsbibliothek
Granting Institution:Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik
Date of final exam:2018/11/20
Creating Corporation:Fakultät für Elektrotechnik und Informationstechnik
GND-Keyword:Automatische Spracherkennung; Captcha; Maschinelles Lernen; Mensch-Maschine-Kommunikation; Sprachverarbeitung
Dewey Decimal Classification:Technik, Medizin, angewandte Wissenschaften / Elektrotechnik, Elektronik
faculties:Fakultät für Elektrotechnik und Informationstechnik
Licence (German):License LogoKeine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht