Data-driven deep modeling and training for automatic speech recognition

Pavel Golik

Data-driven deep modeling and training for automatic speech recognition

Pavel Golik

Published: 01 Jan 2020, Last Modified: 19 Feb 2025undefined 2020EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Viele der aktuell besten Systeme zur automatischen Spracherkennung basieren heute auf hybriden Hidden Markov Modellen (HMM), die auf Wahrscheinlichkeistschätzung durch das akustische und das Sprachmodell angewiesen sind. Der auf dynamischer Programmierung basierte Decoder benutzt diese Größen, um die wahrscheinlichste Wortfolge zu finden, die zu einem gegebenen Audio-Signal passt. Dafür müssen die Parameter des akustischen Modells zuvor auf transkribierten Aufnahmen trainiert werden. Das akustische Training steht im Fokus dieser Arbeit. Das Eingabesignal wird üblicherweise als Folge von relativ niedrigdimensionalen reelwertigen Vektoren repräsentiert, die die Energieverteilung in kurzen Analysefenstern erfassen. Die konventionelle Extraktion akustischer Merkmale basiert auf Zeit-Frequenz-Analyse des eindimensionalen Eingabesignals, die mithilfe von Kurzzeit-Fourier-Transformation oder einer Filterbank berechnet wird. Im ersten Teil dieser Arbeit werden wir uns mit der folgenden Frage befassen: in welchem Ausmaß kann die Merkmalsextraktion vom akustischen Modell anhand von transkribierten Aufnahmen gelernt werden, ohne die genaue Verarbeitungsschritte explizit vorgegeben zu bekommen? Wir werden zeigen, dass ein künstliches neuronales Netz die Verteilung über die Zustände des HMM aus zeitlicher Wellenform lernen kann. Des Weiteren zeigen wir, dass die Eingabeschicht eines trainierten neuronalen Netzes ebenfalls eine Zeit-Frequenz-Analyse des Eingabesignals durchführt. Von dieser Interpretation inspiriert, werden wir die vollständig verbundene Eingabeschicht durch eine Faltungsschicht ersetzen, da Faltung eine natürliche Operation zur Filterung von Zeitsignalen darstellt und sehr gut geeignet ist, um zeitinvariante Muster zu repräsentieren. Obwohl die Erkennungsgenauigkeit eines solchen Systems noch nicht ganz an die einer manuellen Merkmalsextraktion heranreicht, zeigen wir, dass die Fehlerraten insgesamt sehr ähnlich sind. Im zweiten Teil beschäftigen wir uns mit der Zielfunktion, die beim Trainieren von neuronalen Netzen optimiert wird. Es wird oft angenommen, dass die Softmax-Operation in der Ausgabeschicht des Modells die Minimierung von Kreuzentropie erfordert. Dabei ist kein theoretischer Grund für eine solche Notwendigkeit bekannt. Es ist bekannt, dass sowohl Kreuzentropie als auch die mittlere quadratische Abweichung eine obere Schranke bilden für die Differenz zwischen dem Bayes'schen Fehler und dem Modellfehler (d.h. die Differenz, die dadurch entsteht, dass die Entscheidung anhand eines Modells und nicht der wahren Verteilung getroffen wird). Wir werden demonstrieren, dass es durchaus möglich ist, ein hybrides akustisches Modell mit Softmax mittels Minimierung der mittleren quadratischen Abweichung zu trainieren. Wir werden die Konvergenz analysieren und durch Initialisierung mit einem mit Kreuzentropie vortrainierten Modell verbessern. Im dritten Teil untersuchen wir verschiedene Strategien zur Verwendung von i-vectors für die Adaption des akustischen Modells. Wir zeigen, dass die i-vectors die Wortfehlerrate auf mehreren Evaluationscorpora konsistent reduzieren. Wir analysieren die Integrationsmöglichkeiten und die Parametrisierung der i-vector Extraktion. Im vierten und letzten Teil dieser Arbeit wenden wir diese und andere Methoden zur akustischen Modellierung auf die Schlagwortsuche an. Dabei konzentrieren wir uns auf Sprachen mit geringer Resourcen-Verfügbarkeit, für die es nur eine sehr begrenzte Menge an transkribierten Aufnahmen und anderen linguistischen Resourcen gibt. Wir stellen eine Reihe von Experimenten vor, die im Rahmen des internationalen Projektes IARPA Babel durchgeführt wurden. Dabei stehen die multilingualen ``Flaschenhals-Merkmale'' im Mittelpunkt, die mithilfe von speziell entworfenen neuronalen Netzen erstellt werden, sowie Methoden zum teil-überwachten akustischen Training, graphemischer Aussprachemodellierung und Schlagwortsuche von Begriffen, die zuvor vom System nicht beobachtet wurden. Many of today's state-of-the-art automatic speech recognition (ASR) systems are based on hybrid hidden Markov models (HMM) that rely on neural networks to provide acoustic and language model probabilities. A dynamic programming decoder then uses these probabilities to find and output the most likely sequence of words for a given input audio signal. As one of the prerequisites, the acoustic model needs to be trained on a collection of transcribed recordings: this acoustic training is the main focus of this thesis. Commonly, the input signal is represented as a sequence of relatively low-dimensional feature vectors that capture the distribution of short-time energy within a sliding analysis window. The process of conventional feature extraction is based on time-frequency decomposition of the one-dimensional input signal using either Fourier transform or a bank of band pass filters. The first part of this thesis centers around the question: to which extent can the feature extraction be learned by the acoustic model from transcribed audio data, without manually specifying a pre-processing pipeline? We will show that not only can a neural network learn to classify the HMM states from the raw time signal, but also learn to perform the time-frequency decomposition in its input layer. Inspired by this finding, we will replace the fully-connected input layer by a convolutional layer that is well suited to assist the neural network in learning shift-invariant patterns, and whose operation can be interpreted as filtering in time. Such models show very similar error rates, while not yet outperforming the hand-crafted feature extraction pipeline. In the second part, we will investigate the objective function that is optimized during the supervised acoustic training. While it is commonly believed that softmax normalization in the output layer requires the training to minimize the negative log posterior probability of the data (cross entropy), there is no reason to assume that it cannot be done with other objective functions. In fact, both cross entropy and squared error can be shown to be upper bound of the difference between the Bayes error and the model error (i.e. the difference that arises when the decision rule relies on a model instead of the true probability). We will demonstrate how a hybrid acoustic model can be trained using squared error criterion, and its accuracy improved by initializing it with a model pre-trained with the cross entropy criterion. In the third part of this study, we will investigate how i-vectors can be used for acoustic adaptation, and show that they can help obtain a consistent reduction of word error rate on multiple tasks. Additionally, we will outline a careful analysis of different integration strategies as well as of the parameters of the i-vector extraction pipeline. Finally, in the fourth part of this thesis we will apply these and other methods to the task of speech recognition and keyword search on low-resource languages. The limited amount of available resources makes the acoustic training extremely challenging. We will present a series of experiments performed in the scope of the IARPA Babel project that make heavy use of multilingual bottleneck features and explore techniques such as semi-supervised training, graphemic pronunciation modeling, and handling of keywords not observed during training. Golik, Pavel; Ney, Hermann; Häb-Umbach, Reinhold

Loading