Supporting human-machine interaction by robust automatic speech recognition

Meutzner, Hendrik

Supporting human-machine interaction by robust automatic speech recognition

Aiming towards a reliable interaction between humans and machines, this thesis focuses on automatic speech recognition. The work starts with an investigation of acoustic challenge-response tests that are used as a security measure on the Internet to make the abuse of services harder. Based on this, novel kinds of tests are developed that exhibit a higher degree of usability and security than the current ones. Furthermore, several speech signal enhancement methods are discussed to lower the error rate of automatic speech recognition systems under noisy acoustic conditions. The last part of this work deals with the integration of acoustic and visual information in multi-modal speech recognition systems that are based on deep neural networks. Our results show that an additional reliability measure used for controlling the multi-modal integration leads to clearly improved recognition rates.
Im Hinblick auf die zuverlässige Interaktion zwischen Mensch und Maschine bildet die automatische Spracherkennung den Kern dieser Arbeit. Die Arbeit beginnt mit der Untersuchung von akustischen Challenge-Response-Tests, die im Internet als Sicherheitsinstrument verwendet werden, um den Missbrauch von Diensten zu erschweren. Hierauf basierend werden neuartige Tests entwickelt, die ein höheres Maß an Benutzbarkeit und Sicherheit aufweisen als bisher. Des Weiteren werden diverse Methoden der Sprachsignalverbesserung diskutiert, um die Fehlerrate von automatischen Spracherkennungssystemen unter gestörten akustischen Bedingungen zu verringern. Der letzte Teil dieser Arbeit behandelt die Integration von akustischen und visuellen Informationen in multimodalen Spracherkennungssystemen, die auf neuronalen Netzen basieren. Es wird gezeigt, dass die durch ein zusätzliches Verlässlichkeitsmaß gesteuerte Integration der Modalitäten zu deutlich verbesserten Erkennungsraten führt.

Metadaten
Author:	Hendrik Meutzner GND
URN:	urn:nbn:de:hbz:294-63294
DOI:	https://doi.org/10.13154/294-6329
Referee:	Dorothea Kolossa ORCiD GND, Thorsten Holz ORCiD GND
Document Type:	Doctoral Thesis
Language:	English
Date of Publication (online):	2019/03/12
Date of first Publication:	2019/03/12
Publishing Institution:	Ruhr-Universität Bochum, Universitätsbibliothek
Granting Institution:	Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik
Date of final exam:	2018/11/20
Creating Corporation:	Fakultät für Elektrotechnik und Informationstechnik
GND-Keyword:	Automatische Spracherkennung; Captcha; Maschinelles Lernen; Mensch-Maschine-Kommunikation; Sprachverarbeitung
Dewey Decimal Classification:	Technik, Medizin, angewandte Wissenschaften / Elektrotechnik, Elektronik
faculties:	Fakultät für Elektrotechnik und Informationstechnik
Licence (German):	Keine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht

RUB » Bibliotheksportal

Supporting human-machine interaction by robust automatic speech recognition

Download full text files

Export metadata

Additional Services