LDL-AURIS: a wide model of isolated, inflected spoken word recognition

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/162616
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1626168
Dokumentart: Dissertation
Erscheinungsdatum: 2025-03-03
Sprache: Englisch
Fakultät: 5 Philosophische Fakultät
Fachbereich: Allgemeine u. vergleichende Sprachwissenschaft
Gutachter: Baayen, R. Harald (Prof. Dr.)
Tag der mündl. Prüfung: 2023-09-01
DDC-Klassifikation: 400 - Sprache, Linguistik
Schlagworte: Neuronales Netz , Sprache , Modellierung , Sprachverstehen , Wort , Englisch , Amerikanisches Englisch , Semantik , Bedeutung
Freie Schlagwörter:
spoken word recognition
wide neural networks
error-driven learning
computational modelling
American English media
auditory embeddings
semantic embeddings
linear mappings
morphology
plurality
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

In dieser Dissertation habe ich untersucht, in wie weit Wide-Learning-Netzwerke robust genug sind, um die Erkennung von gesprochenen Wörtern zu modellieren, die in isolierter Form direkt aus Aufnahmen mit sehr verrauschten, hochgradig variablen und unvollkommen ausgerichteten Annotationen extrahiert wurden. Von besonderem Interesse für das WIDE-Projekt, in dessen Rahmen die in dieser Dissertation beschriebene Forschung stattfand, ist die Frage, ob ein Modell zur Erkennung menschlicher gesprochener Wörter ohne die Verwendung von Phonemen erfolgreich sein kann. Die ersten beiden Studien lieferten übereinstimmende Beweise dafür, dass einfache Wide-Learning-Netzwerke eine vielversprechende Leistung abliefern, gemessen an der Genauigkeit. Die zweite Studie zeigte die Wichtigkeit der richtigen Wahl von Input- und Output-Repräsentationen in Wide-Learning-Netzwerken. Verfeinerte Merkmale mit kontinuierlichen Werten, die diskrete Input- und Output-Features ersetzten, trugen wesentlich dazu bei, um ein Overfitting des Netzwerkes erheblich zu reduzieren. Um den Input für das Modell zu generieren, wurde ein Merkmalsextraktionsalgorithmus entwickelt, der das Audiosignal in einen hochdimensionalen reellwertigen Raum einbettet. Hinsichtlich der Ausgabedarstellungen wurden Worteinbettungen verwendet -- meines Wissens zum ersten Mal in einem kognitiven Modell der Spracherkennung. Das vorgeschlagene Modell konzeptualisiert den lexikalischen Zugriff als einen Gang durch den semantischen Raum auf der Grundlage von Bottom-up-Audioinformationen. Durch die schrittweise Präsentation des Sprachsignals entsteht ein Wettbewerb um die Erkennung zwischen mehreren Kandidaten. Die dritte Studie untersuchte die Output-Repräsentation, um das Vokabular der Modelle auf flektierte Wörter zu erweitern. In der computationalen Semantik wird Pluralität für englische Substantive typischerweise mit einem einzigen Verschiebungsvektor modelliert. Bei näherer Betrachtung stellte sich jedoch heraus, dass die Verschiebungsvektoren für Englisch systematisch mit der semantischen Klasse variieren, zu der das Grundwort gehört. Diese Abhängigkeit von semantische Klassen erinnert an Sprachen wie Suaheli und Kiowa, in denen sie teilweise grammatikalisiert ist. Die abschließende Studie zeigte, dass Pluralvektoren, die von semantischen Klassen abhängen, ähnlicher ihren Audioeinbettungen sind als Pluralvektoren, die auf Grundlage von Singularvektoren mithilfe einer allgemeinen linearen Abbildung konstruiert werden. Diese Dissertation zeigt, dass einfache Wide-Learning-Netzwerke die Erkennung von isolierten Wörtern überraschend gut modellieren. Eine einfache Zuordnung zwischen Audio und Semantik ohne Phoneme unterstützen eine beträchtliche Isomorphie zwischen den Form- und Bedeutungsräumen. Das Modell zeigt auch eine gewisse Produktivität, da es bis zu einem gewissen Grad ungesehene Audio-Token bekannter Wörter verstehen kann. Für die Erkennung von Wörtern im Kontext durch Wide-Learning-Netzwerke ist jedoch eine Weiterentwicklung erforderlich.

Abstract:

In this dissertation, I investigated whether wide-learning networks are robust enough to model isolated spoken word recognition directly from speech with very noisy, highly variable, and imperfectly aligned data. Of special interest to the WIDE project, within which the research reported in this dissertation took place, is whether a model for human spoken word recognition can be successful without making use of phone units. The first two studies provided converging evidence that simple wide networks deliver promising performance as gauged by accuracy. The second study revealed the importance of the proper choice of input and output representations in wide networks. Refined continuous-valued features replacing discrete input and output features were essential to substantially reduce overfitting. With respect to the input to the model, a feature extraction algorithm was developed that embeds the audio signal in a high-dimensional real-valued space. With respect to the output representations, word embeddings were employed, to my knowledge, for the first time in a cognitive model of spoken word recognition. The proposed model conceptualizes lexical access as a walk through the semantic space based on bottom-up auditory information. Competition for recognition among multiple candidates emerges as the speech signal is gradually revealed to the model. The third study investigated the output representation carefully to extend the models' vocabulary to inflected words. In computational semantics, plurality for English nouns is typically modeled with a single shift vector. However, upon closer inspection, it turned out that the shift vectors for English vary systematically with the semantic class to which the base word belongs. This conditioning by semantic class is reminiscent of languages such as Swahili and Kiowa in which conditioning by semantic class is partly grammaticalized. The final study showed that plural vectors that are conditioned on semantic class are more similar to their audio embeddings compared to plural vectors that are constructed from their singular vectors with a general linear mapping. This dissertation shows that simple wide linear networks without phone units model isolated spoken word recognition surprisingly well. Simple mappings between audio and semantics support considerable isomorphy between the form and meaning spaces. The model also shows some productivity, in that it can understand to some extent unseen audio tokens of known words. However, further development will be necessary for the recognition of words in context by wide models.

Das Dokument erscheint in: