CITEC Central Lab Facilities
CITEC
British Flag   German Flag

Text-To-Speech (TTS)

Bei Text-To-Speech Systemen handelt es sich um Sprachsynthese Systeme, die eine künstlich sprechende Stimme erzeugen. Für die Realisierung gibt es verschiedene Ansätze, wobei die häufigste Variante zweistufig ist. Hierdurch wird Flexibilität erreicht, denn grundsätzlich stehen für jeden Verarbeitungsschritt mehrere Programme zur Auswahl und es können auch beliebig eigene Programme und Skripte zwischengeschaltet werden.

Die Einsatzgebiete für TTS sind vielfältig und reichen von Telekommunikationsdiensten (z.B. Bahn, Kino) über computergestütztes Lernen von Fremdsprachen oder die Unterstützung Sehbehinderter bis hin zur Mensch-Maschine-Kommunikation, wo die gesprochene Sprache Barrieren zwischen Mensch und Computer überbrücken kann.

Nicht zuletzt finden TTS Systeme aber auch Einsatz in der Forschung, wo sie eine hervorragende Laborumgebung für linguistische Experimente liefern, z.B. bei empirischen Untersuchungen zur Rezeption von Handlungsanweisungen. Die Aufnahme der Sprachdaten durch einen Sprecher bringt hier eine Reihe von Nachteilen, die durch das Verwenden einer künstlichen Stimme vermieden werden können.
Sehr problematisch bei Aufnahmen natürlicher Sprecher sind Reproduzierbarkeit bzw. kleine Änderungen im Text. Mit TTS kann einerseits der gesprochene Text jederzeit exakt reproduziert werden. Andererseits können auch Änderungen am gesprochenen Text genauso unproblematisch vorgenommen werden, wie im geschriebenen Text. Die unveränderten Satzteile bleiben davon vollständig unbeeinflusst.
Ein anderes Problem ist die Auswertung der Versuchsergebnisse im Bezug auf die Sprechdaten. Hierfür ist die Kenntnis der exakten Anfangs- und Endzeiten der einzelnen Wörter nötig. Im Fall von Sprachdaten, die durch einen Sprecher gesprochen wurden, ist es nötig, diese Zeiten manuell aus den Audiodateien zu gewinnen. Dieses Vorgehen stellt bei langen Texten bzw. einer Vielzahl von Handlungsanweisungen einen erheblichen Arbeitsaufwand dar. Zudem sind die ermittelten Zeiten nicht sehr genau und es kann bei unterschiedlichen Bearbeitern auch zu einer abweichenden Interpretation bei den Wortübergängen kommen. Hier zeigen sich sehr deutlich die Vorteile einer synthetisch erzeugten Stimme. Schon aus der Phonembeschreibung lassen sich die Wortdauern einschließlich Anfangs- und Endpunkt ermitteln. Die resultierenden Audiodateien sind zudem unverrauscht, d.h. Pausen lassen sich sehr deutlich, auch automatisch, erkennen.

[top] Software für den Txt-To-Speech Prozess

Die bei uns verwendete Sprachsynthese, die aus einem gegebenen Text eine Audiodatei erzeugt, basiert auf den Programmen txt2pho und mbrola. Ihre jeweiligen Ergebnisse werden schrittweise an folgendem Beispielsatz gezeigt:

Jetzt die rote Klammer an der langen Leiste befestigen und die gelbe an der kurzen Leiste befestigen!

[top] Weitere Software

Folgende Skripte und Programme finden schließlich Einsatz, um zusätzlich Start- und Endzeiten der einzelnen Wörter, sowie ihre Dauer zu ermitteln:

Das Ergebnis bildet zusammen mit der Phonembeschreibung des txt2pho die Basis für folgendes Perl-Skript: Es hat sich herausgestellt, dass sich die Berechnung der Zeiten mit zunehmender Textlänge immer weiter von den tatsächlichen Zeiten aus der Audiodatei entfernt. Ursache dafür ist, dass keine Pausen zwischen den einzelnen Wörtern einberechnet werden. Außerdem sind teilweise sind auch die berechneten Wortlängen nicht ganz identisch mit den tatsächlich gesprochenen Wörtern.
Abhilfe hierfür bietet folgendes java-Programm: Schließlich besteht mit folgendem Skript die Möglichkeit, txt2pho und mbrola in einem Aufruf mit den übergebenen Textdateien zu starten und auch die Wortdauern gleich mit berechnen zu lassen: