Cognitive models for acoustic and audiovisual sound source localization
- Many common applications like intelligent personal assistants and teleconferencing systems require an accurate localization of sound sources in their environment. In this thesis, three novel approaches to sound source localization will be presented. The first approach is proposed in the context of audiovisual localization of sound sources. Hereby, estimating the position of sound sources can be improved by incorporating additional visual information. Subsequently, the second part of this thesis introduces a closed-loop feedback control system for robotics applications. This system is based on psychoacoustic evidence that human listeners utilize head movements to refine the localization of sound sources. The last part of this work proposes an algorithm for determining the direct sound direction-of-arrival in reverberant environments. This yields an improved sound source localization performance in challenging acoustic environments with large reverberation time.
- Viele alltägliche Anwendungen wie Sprachassistenten und Telefonkonferenzsysteme sind auf eine effiziente Lokalisation von Schallquellen angewiesen. In dieser Arbeit werden drei neuartige Ansätze zur Schallquellenlokalisation vorgestellt. Der erste Ansatz ist im Bereich der audiovisuellen Lokalisation von Schallquellen angesiedelt. Durch zusätzliche visuelle Informationen ist es möglich, die Ortung von Schallquellen speziell in akustisch stark gestörten Umgebungen zu verbessern. Ausgehend von der Erkenntnis, dass menschliche Hörer Kopfbewegungen nutzen um die Ortung von Schallquellen zu verbessern, wird im zweiten Teil dieser Arbeit ein System vorgestellt, das dieses Verhalten als Regelkreises für Anwendungen in der Robotik nachbildet. Im letzten Teil wird dann ein Verfahren zur Bestimmung der Einfallsrichtung des Direktschalls in Umgebungen mit Nachhall eingeführt. Hierdurch wird die nachfolgende Schallquellenlokalisation insbesondere in Umgebungen mit starkem Nachhall optimiert.
Author: | Christopher SchymuraORCiDGND |
---|---|
URN: | urn:nbn:de:hbz:294-69877 |
DOI: | https://doi.org/10.13154/294-6987 |
Referee: | Dorothea KolossaORCiDGND, Boaz RafaelyGND |
Document Type: | Doctoral Thesis |
Language: | English |
Date of Publication (online): | 2020/02/13 |
Date of first Publication: | 2020/02/13 |
Publishing Institution: | Ruhr-Universität Bochum, Universitätsbibliothek |
Granting Institution: | Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik |
Date of final exam: | 2019/11/12 |
Creating Corporation: | Fakultät für Elektrotechnik und Informationstechnik |
GND-Keyword: | Graphisches Modell; Robotik; Kausalanalyse; Akustische Signalverarbeitung; Optische Signalverarbeitung |
Dewey Decimal Classification: | Technik, Medizin, angewandte Wissenschaften / Elektrotechnik, Elektronik |
faculties: | Fakultät für Elektrotechnik und Informationstechnik |
Licence (German): | Keine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht |