Multilinguales Linguatec Korpus

Hintergrund

In den letzten Jahren hat sich in der Sprachwissenschaft und der Computerlinguistik die Erkenntnis durchgesetzt, dass neben normativen Regelungen der Sprache auch die Aspekte des Sprachgebrauchs ein wesentliches Ziel der Sprachbeschreibung sein müssen. Zu diesem Zweck ist damit begonnen worden, große Textkorpora zu sammeln und für die sprachwissenschaftliche Arbeit zur Verfügung zu stellen.

Diesem Umstand kommt die technologische Entwicklung entgegen, die es mittlerweile gestattet, große Textmengen auf Computern zu speichern und zu verwalten.

Zweck der korpusgestützten Computerlinguistik ist es, den tatsächlichen Sprachgebrauch zu modellieren, die häufig auftretenden Phänomene auch tatsächlich abzudecken, und nicht vor lauter Ausnahmen die Regeln zu übersehen. Auf diese Weise wird nicht nur die Qualität der Programme besser, sondern auch ihre Erstellung effektiver.

Das Linguatec Korpus

Linguatec hat in diesem Rahmen ein eigenes Textkorpus aufgebaut. Es besteht aus Beispieltexten in vielen Sprachen; Schwerpunkte sind Deutsch, Englisch und Französisch, aber auch andere Sprachen sind vertreten.

Die Quellen des Korpus sind vielfältig, um eine breite Abdeckung zu gewährleisten:

allgemeine Texte, wie man sie im Web finden kann; zu diesem Zweck wurde eine besondere Vereinbarung mit Google getroffen
nachrichtliche Texte, wie sie von Zeitungen und Nachrichtenagenturen verbreitet werden
spezielle Fachtexte aus verschiedenen Fachgebieten, wie sie z.B. von den Linguatec-Kunden bearbeitet werden; speziell im Bereich der Fachtexte ist Korpusarbeit wichtig, wegen der hohen und ständig wachsenden Zahl von Fachbegriffen im KFZ-Wesen, im Maschinenbau, in der Medizin usw.

Diese Korpusdaten werden mit modernen von Linguatec entwickelten Techniken behandelt (Sprachenerkenner, Satzsegmentierer, Themenerkenner usw.); sie dienen als Referenz etwa bei der Wörterbucharbeit, oder der Erstellung von Grammatiken (häufige Konstruktionen usw.). Auf diese Weise wird das Korpus nach Sprachen sortiert und in kleinere Einheiten (üblicherweise Sätze) zerlegt; das Korpus besteht zur Zeit aus ca. 50 Millionen solcher Einheiten.

Um eine gewisse Repräsentanz zu haben, ist eine signifikante Korpusgröße erforderlich. Das Linguatec-Korpus besteht aus über 1,75 Milliarden laufenden Wortformen, aus dem Englischen, Deutschen, Französischen, Spanischen, Italienischen und Portugiesischen. Es wird ständig erweitert.

Nutzen am Beispiel der Wörterbucharbeit

Frühere Generationen von Wissenschaftlern haben viele Begriffe tradiert, die sich in Wörterbüchern finden, aber nicht unbedingt in der Alltagssprache.

Neu geprägte Begriffe („Elchtest“) haben oft erst nach Jahren den Weg in die Wörterbücher gefunden. Aber wenn sie einmal aufgenommen sind, entwickeln sie eine erstaunliche Überlebensfähigkeit.
Bei mehrsprachigen Wörterbüchern werden oft, auch in renommierten Glossaren, Übersetzungen angegeben, für die es in den Milliarden Webseiten, die Google verwaltet, keinen einzigen Beleg gibt; d.h. es handelt sich um Erfindungen bzw. Wünsche der Autoren, und ein ausländischer Partner wird nicht verstehen, was der Übersetzer meint, wenn solche Übersetzungen verwendet werden.

Linguatec verwendet bei der Wörterbucharbeit mehrsprachige Korpora, um sicherzustellen,

dass häufig auftretende Begriffe auch wirklich in den Wörterbüchern enthalten sind; so wird der Abdeckungsgrad der Wörterbücher und damit die Qualität der Analysekomponenten erhöht;
dass Übersetzungen auch wirklich verwendet werden; die Übersetzungen werden unter Berücksichtigung von Frequenzangaben ausgewählt, um zu vermeiden, dass Spezialfälle mehr Gewicht bekommen, als ihnen zusteht.

Der größte Nutzen besteht jedoch zur Zeit darin, bei der Auswahl von Übersetzungs-Alternativen die begrifflichen Kontexte zu berücksichtigen, wie sie sich nur in einem großen Korpus auffinden lassen. Diese Technik ist unter dem Begriff „neuronaler Transfer“ von Linguatec entwickelt und international zum Patent angemeldet worden.