Text-to-Speech Technologie

Was ist Sprachsynthese?

Sprachsynthese ist die künstliche Nachbildung natürlicher Sprache. Sprachliche Äußerungen werden vom Computer generiert. Sie werden nicht aus einer zuvor aufgenommenen Menge von Äußerungen abgespielt, sondern jeweils aktuell erzeugt.

Wie kommt die Stimme ins Programm?

Die erste Frage ist, was eigentlich das „Synthetische“ an der Sprachsynthese ist. Der Voice Reader von Linguatec basiert auf ausführlichen Sprachaufnahmen ausgebildeter Sprecher. Die Stimmen sind also nicht künstlich, sondern wurden aus den Stimmen professioneller menschlicher Sprecher erzeugt!

Dieses Tonmaterial wird dann in kleine Einheiten zerteilt, sog. Units. Das können einzelne Laute, sog. Phoneme, sein, z.B. A und E, aber auch Diphthonge wie EI oder AU und sogar ganze Silben. Das ist wichtig, weil je nach Umgebung der gleiche Buchstabe anders klingen kann. Z.B. kommt in dem Wort „geben“ zweimal der Buchstabe E vor, er wird aber jedes Mal ganz anders ausgesprochen.

Die Units werden dann durch recht aufwändige Algorithmen konkatenativ zu einem neuen, flüssigen Audiotext zusammengefügt. Das ist die eigentliche Synthese. „Synthese“ heißt im engeren Sinn „Zusammensetzung“. Dazu ist ein bestimmtes Textverständnis notwendig, damit das Ergebnis möglichst natürlich klingt. Einfach ist da noch die Regel, dass sich die Stimme bei einem Fragezeichen heben, bei einem Satzendepunkt senken soll. Damit aber auch im Satzinneren eine natürliche Sprachmelodie (Prosodie) herrschen kann, muss das Programm wissen, wo das Subjekt im Satz ist, denn dieses Wort trägt eine stärkere Betonung. Diese Analyseverfahren sind natürlich deutlich komplexer. Da geht’s dem Programm wie den Lateinschülern!

Wofür ist die Text-to-Speech Technologie verwendbar?

Ursprünglich wurde Sprachsynthese primär verwendet für Blinde, um sich Texte vorlesen zu lassen sowie für Sprechbehinderte, um mit ihrer Umwelt zu kommunizieren. Durch die erheblichen Qualitätsverbesserungen, die in den letzten Jahren erzielt wurden, wird die Sprachsynthese in immer breiteren Anwendungsfällen eingesetzt. Dies gilt für Situationen, wo kein oder kein geeignetes Display zur Verfügung steht, um sich Texte anzeigen zu lassen, z.B. bei Telefonansagen oder Verkehrsdurchsagen in öffentlichen Verkehrsmitteln. Darüber hinaus in Situationen, in denen die Augen schon mit anderen Aufgaben beschäftigt sind und man zusätzliche Informationen benötigt, z.B. Navigationsansagen beim Autofahren oder vertonte Reiseführer.

In letzter Zeit findet Text-to-Speech verstärkten Einsatz bei der Vertonung von eLearning Anwendungen. Zum einen sind die Kosten spürbar geringer als beim Gang ins Tonstudio mit einem professionellen Sprecher. Zum anderen ist die Produktion erheblich schneller, da der Autor der Lerneinheit gleichzeitig auch die Vertonung erstellen kann. Auch beim Lernen von Fremdsprachen hat sich die Sprachsynthese bewährt. Neuere Untersuchungen haben ergeben, dass das gleichzeitige Lesen und Hören zu einem höheren Lernerfolg führt.

Welche Ansätze zur Sprachsynthese existieren?

Es existieren unterschiedliche Ansätze der Sprachsynthese, z.B.: Text-To-Speech- und Concept-To-Speech-Synthese.

Die Concept-To-Speech-Synthese enthält eine Generierungskomponente, die eine Äußerung aus semantischem, pragmatischem und Diskurs- Wissen generiert. Aus dieser Äußerung kann dann direkt das Sprachsignal erzeugt werden.
Die Concept-To-Speech-Synthese kann z.B. in Dialogsystemen verwendet werden. Überall da allerdings, wo Text die Eingabe ist, muss Text-To-Speech-Synthese (TTS) eingesetzt werden.
Bei der Text-to-Speech-Synthese ist der zu sprechende Text vorgegeben, er wird nicht vom System erzeugt. Er muss allerdings analysiert und interpretiert werden, um die korrekte Aussprache und Betonung zu ermitteln (etwa: eine Frage statt einer Aussage zu produzieren).

Wie ist ein Text-to-Speech-System aufgebaut?

Die Text-To-Speech-Synthese erfolgt in mehreren Stufen. Das TTS-System erhält als Eingabe einen Text, der, bevor daraus ein Sprachsignal erzeugt werden kann, zunächst analysiert (Textanalyse) und dann in eine phonetische Beschreibung transformiert werden muss. Danach wird in einem weiteren Schritt die Prosodie generiert. Aus den dann vorliegenden Informationen kann das Sprachsignal entstehen.

Die Textanalyse besteht aus mehreren Schritten:
- Zunächst wird der Text in Token segmentiert. Die Token-Wort-Konvertierung bildet die orthographische Form des Token. Hier wird für das Token „Nr.“ durch Expansion die orthografische Form „Nummer“ gebildet, das Token „12“ erhält die orthographische Form „zwölf“ und „1997“ wird in „neunzehnhundertsiebenundneunzig“ transformiert. Dass diese Expansion unter Umständen nicht so leicht ist, sieht man am Beispiel der Zahl „1“: Je nachdem, was sie bezeichnet, muss sie unterschiedlich expandiert werden, im Fall einer Hausnummer zu „eins“, in „1 Kilogramm“ zu „ein“; in der Äußerung „1 Katze jagt 1 Hund“, sollte „1“ zuerst zu „eine“ und dann zu „einen“ expandiert werden.
- Während der Textanalyse wird auch die Umgebung eines Tokens analysiert: Bei Abkürzungen wie „tgl.“ weiß man ohne Kontextanalyse nicht, ob sie zu „täglich“, „tägliche“, „täglichem“, „täglichen“, „täglicher“ oder „tägliches“ expandiert werden sollen. Die Kontextanalyse wird im Deutschen auch benötigt, um Betonungen zu disambiguieren: z.B. „modern“ und „modern“, die anhand ihrer Schreibweise nicht unterschieden werden können.
Nachdem die Textanalyse abgeschlossen ist, können Ausspracheregeln angewendet werden. Buchstaben können nicht 1:1 in Phoneme überführt werden, da die Entsprechung nicht immer parallel verläuft. Ein einzelner Buchstabe kann in bestimmten Umgebungen keinem (z.B. „h“ in „geht“) oder mehreren Phonemen („x“ in „Fixkosten“) entsprechen. Außerdem können mehrere Buchstaben einem Phonem entsprechen („ch“ in „ich„). Buchstaben können in unterschiedlichen Umgebungen unterschiedlich ausgesprochen werden („s“ in „Stadt“ vs. in „Sachen“). Und das gleiche Phonem kann durch unterschiedliche Buchstaben zustande kommen („Rat“ vs. „Rad„). Um die Aussprache von Wörtern zu bestimmen gibt es zwei Strategien:
– In wörterbuchbasierten Lösungen mit morphologischer Komponente werden so viele Morpheme wie möglich in einem Lexikon gespeichert. Vollformen werden durch Flexions-, Derivations- und Kompositionsregeln erfasst. Alternativ wird ein Vollformenlexikon aufgebaut, das alle möglichen Wortformen speichert. Die Aussprache derjenigen Wörter, die nicht im Lexikon eingetragen sind, wird durch Ausspracheregeln bestimmt.
– In einer regelbasierten Lösung werden aus dem phonologischen Wissen von Wörterbüchern Ausspracheregeln generiert.
Nur Wörter, die in ihrer Aussprache eine absolute Ausnahme bilden, werden in ein Ausnahmewörterbuch aufgenommen.
Die beiden Ansätze unterscheiden sich sehr in der Größe ihrer Lexika, dasjenige der wörterbuchbasierten Lösungen ist um ein Vielfaches größer als das Ausnahmewörterbuch der regelbasierten Lösungen. Wörterbuchbasierte Lösungen können eventuell genauer sein als regelbasierte Lösungen, wenn sie ein genügend großes phonetisches Wörterbuch zur Verfügung haben.
Wenn die Aussprache der Wörter bestimmt ist, folgt die Prosodiegenerierung. Der Grad der Natürlichkeit eines TTS-Systems ist abhängig von prosodischen Faktoren wie der Intonationsmodellierung (Phrasierung und Akzentuierung), Amplitudenmodellierung und der Dauermodellierung (dazu gehören Lautdauer und Pausendauer, wodurch sich die Silbendauer und das Sprechtempo ergeben). Prosodische Merkmale haben verschiedene Funktionen: Durch sie kann z.B. der Fokus eines Satzes erkannt werden, d.h. dass eine Konstituente als wichtig oder neu hervorgehoben wird. Außerdem sind sie zuständig für die Segmentierung eines Satzes. Sie können Beziehungen zwischen Satzteilen oder Sätzen herstellen und bestimmen den Satzmodus (Aussagesatz – Fragesatz). Syntaktische Informationen sind von besonderer Bedeutung für die Prosodiegenerierung. Durch das Wissen über die syntaktische Struktur eines Satzes kann für die meisten Sätze die Prosodie berechnet werden. Für einige Sätze jedoch ist semantische und pragmatische Information wichtig: Sätze, die in ihrer syntaktischen Struktur ambig sind, erhalten oft je nach betonter Komponente eine andere Bedeutung. Die Position des Fokus ist vor allem in verneinten Sätzen wichtig: die Komponente, auf die sich die Verneinung bezieht, sollte durch Betonung hervorgehoben werden (z.B. in Maria ist nicht mit dem Auto nach Hamburg gefahren.). Semantisches und pragmatisches Wissen steht jedoch nur wenigen TTS-Systemen zur Verfügung.
Die Daten aus dem Sprachverarbeitungsmodul werden an das Signalverarbeitungsmodul übergeben. Hier passiert die eigentliche Synthese, bei der ein Audiosignal generiert wird. Bei der konkatenativen Synthese erfolgt hier Einheitenauswahl und -verkettung. Für die einzelnen Laute werden aus einer Datenbank die passendsten Kandidaten (falls mehrere geeignete Kandidaten vorhanden sind) ausgewählt und aneinandergehängt.