Automatische Übersetzung – Technologische Grundlagen des Personal Translator

Seit über 20 Jahren treibt bei Linguatec ein Team von Sprachwissenschaftlern, Computerlinguisten und Informatikern die Entwicklung der Übersetzungstechnologie voran und hat den Personal Translator damit zu einem der führenden Programme in diesem Bereich gemacht.
Personal Translator 20 - Automatische ÜbersetzungFür die Entwicklung des neuronalen Kontextnetzes hat Linguatec über Monate deutsche und fremdsprachige Dokumente eingelesen und mithilfe modernster Analyseprogramme ausgewertet.

Das Linguatec-Korpus ist eine Textsammlung mit dem kaum vorstellbaren Umfang von über 1,55 Milliarden Wortformen (ausgedruckt ergäbe das einen Papierstapel von 125 m Höhe) und gehört damit zu dem weltweit größten Textkorpora überhaupt.
Erst dieses gigantische Textkorpus hat den innovativen Einsatz eines neuronalen Netzes in einem Übersetzungsprogramm ermöglicht.

Automatische Übersetzung  mit dem Personal Translator – Grammatik und Arbeitsweise

Übersetzen mit der Intelligenz neuronaler Netze

Der Personal Translator 20 ist ein PC-basiertes Übersetzungssystem, das zusätzlich zur strikt regelbasierten Übersetzungstechnik eine völlig neu entwickelte Komponente enthält, die nach dem Prinzip neuronaler Netze die assoziativen Denkprozesse des menschlichen Gehirns simuliert und für die Übersetzung nutzbar macht. Während sich die regelbasierte Übersetzung ganz auf einen einzelnen Satz konzentriert, analysiert das neuronale Netz auch den Kontext und transferiert ihn in ein semantisches Netz.
Das neuronale Netz des Personal Translator greift immer dann in die Übersetzung ein, wenn der regelbasierte Ansatz kein oder nur ein unscharfes Ergebnis liefert. Dies kommt vor allem bei den folgenden Funktionen zum Tragen:

  • Der Themenerkenner ordnet einem Dokument automatisch die richtigen Sachgebiete zu und sorgt dafür, dass ggf. anstelle der normalsprachlichen Übersetzung (z. B. board = Brett) ein passender Fachbegriff (Aufsichtsrat in einem wirtschaftlichen Kontext) gewählt wird.
  • Der Namenskenner identifiziert automatisch Eigennamen von Personen, Orten oder Organisationen, damit diese ohne Probleme in die Übersetzung übernommen werden können.
  • Der neuronale Transfer kann bei Mehrdeutigkeiten dank der Kontextanalyse auch dann eine korrekte Übersetzung anbieten, wenn der aktuelle Satz keinen Ansatzpunkt für die Anwendung einer Regel bietet; z. B. He holds a bill in his hand (bill = Rechnung oder Geldschein) oder Er stand vor der Bank (Bank = bench oder bank). – Der von Linguatec entwickelte neuronale Transfer wurde international zum Patent angemeldet.

Das intelligente Hybridverfahren, das beim Personal Translator erstmals zum Einsatz kommt und die regelbasierte Übersetzungstechnik mit einem neuronalen Netzwerk kombiniert, führt bei mehrdeutigen Wörtern, unscharfen Ausdrücken, Eigennamen und unvollständigen Sätzen zu einer deutlichen Verbesserung der Übersetzungsleistung und reduziert den manuellen Bearbeitungsaufwand spürbar.

Die Slot-Grammatik

Die regelbasierte Übersetzungstechnologie, die dem Personal Translator zugrunde liegt, basiert auf den Prinzipien der Slot-Grammar, einer ursprünglich von IBM entwickelten grammatischen Beschreibungsmethode. Die Grundidee der Slot-Grammar ist, dass jeder Satz und jedes Satzglied ein zentrales Element (den Kopf) und Modifikatoren hat. Für jeden Kopf kann bestimmt werden, was für Stellen (Slots) für Modifikatoren (Fillers) verfügbar sind. Die Slots können einerseits durch die Wortart bestimmt sein und andererseits durch das Wort selbst. So kann fast jedes Substantiv durch Adjektive modifiziert werden, aber nur bestimmte Substantive durch Ergänzungen mit der Präposition an, zum Beispiel: Nachricht an die Firma. Die von einzelnen Wörtern abhängigen Slots müssen im Wörterbuch bei der Definition des Wortes angegeben werden, da sonst ausgangssprachliche Sätze nicht richtig analysiert und demzufolge auch nicht richtig übersetzt werden können.

Slots

Der zentrale Begriff des Slot-Grammar-Systems ist der Slot (deutsch: freie Stelle, Leerstelle). Die Slot-Grammar geht davon aus, dass jedem Wort bestimmte Slots eigen sind. Dabei muss jede Bedeutung eines Wortes berücksichtigt werden. Denn beispielsweise hat das englische Wort house als Verb andere Slots als wenn es als Substantiv verwendet wird. Der Begriff Slot ist verwandt mit herkömmlichen Begriffen wie Ergänzung, Komplement, Objekt und Attribut.
Die Slots werden durch Satzglieder gefüllt (Fillers), die einzelne Wörter oder auch ganze Sätze sein können. Zum Beispiel legt das Verb schenken fest, dass der Schenkende im Satz als Subjekt auftritt, der Beschenkte als Dativobjekt, das Verschenkte als Akkusativobjekt:
Er schenkt dem Kind ein Auto.
Slots, die zu einem bestimmten Wort gehören, werden im Wörterbuch bei eben diesem Wort vermerkt. Da ein Wort mehrere Slots haben kann, spricht man vom Slotrahmen (oder der Rektion) dieses Worts. Bei dem Verb schenken besteht der Slotrahmen aus Subjekt, Akkusativobjekt, Dativobjekt.
Slots können optional sein wie Akkusativ- und Dativobjekt bei schenken oder obligatorisch wie das Akkusativobjekt von verursachen. Optionale Slots können leer bleiben, obligatorische müssen immer gefüllt sein, damit ein vollständiger Satz entsteht.

Fillers

Slots (Leerstellen) können durch unterschiedliche Satzglieder gefüllt werden. Diese werden Fillers genannt und müssen für die jeweiligen Slots bei jedem Wort angegeben werden.
Bei einem Verb wie schenken sind Akkusativ- und Dativobjekt Nominalgruppen (Satzglieder, deren Kopf ein Substantiv ist). Anders das Verb vergessen, dessen Akkusativobjekt-Slot außer durch Nominalgruppen auch durch dass-Sätze und Infinitivsätze gefüllt werden kann:

Er hat das Prinzip vergessen.
Er hat vergessen, dass das Prinzip gilt.
Er hat vergessen, das Prinzip zu beachten.

Arbeitsweise des Personal Translator

Der Personal Translator zerlegt einen Text in einzelne Sätze (manchmal auch Bruchstücke von Sätzen), und geht dann satzweise vor. Dabei wird ein Satz zunächst in einzelne Wörter zerlegt. Diese werden auf Grundformen zurückgeführt und im Wörterbuch nachgeschlagen. Dabei werden den Wörtern ihre grammatischen Eigenschaften und die Möglichkeiten der Übersetzung zugeordnet. Anschließend findet eine syntaktische Analyse des Satzes statt, bei der der Satz in seine einzelnen Bestandteile (Satzglieder) zerlegt wird. Die eigentliche Übersetzung findet dann in zwei Phasen statt, erst der lexikalische Transfer, der aufgrund der Übersetzungsbedingungen jedem Wort seine im Kontext gültige Übersetzung zuordnet, und dann der strukturelle Transfer, der für die korrekte Wortstellung in der Übersetzung sorgt und andere notwendige strukturelle Veränderungen vornimmt (siehe auch Zuordnung zwischen ausgangs- und zielsprachlichen Ergänzungen und Transformationen). Schließlich werden die korrekten Wortformen erzeugt, und die Übersetzung wird in ihre endgültige Form gebracht.

Zuordnung zwischen ausgangs- und zielsprachlichen Ergänzungen

Für die Übersetzung eines Satzes müssen nicht nur die Entsprechungen der Wörter in der Ausgangs- und der Zielsprache sondern auch die jeweiligen Slotrahmen bekannt sein. Für die deutschen und englischen Slots (Ergänzungen) sind Standardentsprechungen festgelegt. So ist dem deutschen Akkusativobjekt das direct object im Englischen als Standardentsprechung zugeordnet.

Zum Beispiel:
begleiten   –   Subjekt, Akkusativobjekt
accompany   –   subject, direct object

Anders bei folgendem Beispiel:
bedürfen   –   Subjekt, Genitivobjekt
require   –   subject, direct object

Zu Genitivobjekten gibt es keine standardmäßige Entsprechung.

Transformationen

Deutsche und englische Sätze, die Übersetzungen voneinander sind, unterscheiden sich oft in ihrer syntaktischen Struktur. Bei der Übersetzung werden deshalb im Personal Translator in solchen Fällen Transformationen angewendet, um die gewünschte strukturelle Veränderung zu bewirken. Es gibt zwei Arten von Transformationen:

  • Lexikalische Transformationen, die an konkrete lexikalische Einheiten gebunden sind. Die jeweiligen Transformationen sind im Wörterbuch des Personal Translator bei den betreffenden Wörtern bzw. Ausdrücken erfasst.
  • Strukturelle Transformationen, die allgemeine strukturelle Unterschiede zwischen Deutsch und Englisch beschreiben. Sie sind Bestandteil der Transferkomponente des Personal Translator.

Beispiele für strukturelle Transformationen:

Verbendstellung in deutschen Nebensätzen gegenüber normaler Wortstellung im Englischen:
Englisch: It is good that he has come.
Deutsch: Es ist gut, dass er gekommen ist.

Umschreibung mit do in englischen Fragesätzen:
Englisch: Did you answer the letter?
Deutsch: Beantworteten Sie den Brief?

Umschreibung der Negation mit do:
Englisch: I didn’t answer the letter.
Deutsch: Ich beantwortete den Brief nicht.

Vorangestellte Objekte im Deutschen:
Deutsch: Diesen Brief beantwortete ich nicht.
Englisch: I didn’t answer this letter.

Konstruktionen mit Modalverben:
Deutsch: Er hatte das Buch nicht lesen wollen.
Englisch: He hadn’t wanted to read the book.

Lexikalische Transformationen

Wörter oder Konstruktionen können nicht immer so übersetzt werden, dass sich Wortart und Slotrahmen genau entsprechen. Im Personal Translator gibt es lexikalische Transformationen, mit deren Hilfe eine große Anzahl struktureller Unterschiede zwischen deutschen und englischen Konstruktionen behandelt werden können.

Manche Verben verlangen in der Ausgangssprache kein Objekt, wohl aber in der Zielsprache.
Beispiele dafür gibt es reichlich:
Englisch: He golfed.
Deutsch: Er spielte Golf.

Englisch: I bank at Barclay’s.
Deutsch: Ich habe ein Konto bei Barclay.

Englisch: I inconvenienced him.
Deutsch: Ich bereitete ihm Umstände.

Englisch: He hiccuped.
Deutsch: Er hatte Schluckauf.

Eine englische Konstruktion mit prädikativem Adjektiv kann oft durch ein deutsches Verb wiedergegeben werden:
Englisch: He is aware of the new situation.
Deutsch: Er weiß von der neuen Situation.

Einem englischen Subjekt kann ein deutsches Dativobjekt und dem Akkusativobjekt das Subjekt entsprechen, wobei bei like auch die Wortstellung unterschiedlich ist, bei lack nicht:
Englisch: I like it that the vase is red.
Deutsch: Es gefällt mir, dass die Vase rot ist.

Englisch: I lack money.
Deutsch: Mir fehlt Geld.

Bei Verben, die in transitiver Verwendung kausative Bedeutung haben, wie drop, erscheint im Deutschen lassen, wofür es im englischen Satz keine direkte Entsprechung gibt.
Englisch: He dropped it.
Deutsch: Er ließ es fallen.

Englisch: You should hear me out.
Deutsch: Sie sollten mich ausreden lassen.

Einige englische Konstruktionen mit Infinitiv werden im Deutschen besser durch ein Adverbwiedergegeben:
Englisch: I like to read books.
Deutsch: Ich lese gerne Bücher.

Englisch: She happened to find the book he lost last week.
Deutsch: Sie fand zufällig das Buch, das er letzte Woche verlor.

Einige Verben in Passivkonstruktionen werden im Deutschen im Aktiv-Reflexiv wiedergegeben.
Englisch: He said that he was injured.
Deutsch: Er sagte, dass er sich verletzte.

Für die Wortdefinition im Personal Translator steht die häufigste lexikalische Transformation zur Verfügung, die have mit sein übersetzt.
Englisch: She has walked to the house.
Deutsch: Sie ist zum Haus gegangen.