Maschinelle Sprachübersetzung in Europa - Stand der Forschung

Winfried Lenders, Bonn

Gliederung:

1. Einleitung
2. Überblick über die Geschichte der maschinellen Übersetzung
3. Grundlegende Strategien und Methoden
4. Grenzen der maschinellen Übersetzung
5. Human aided machine translation und machine aided human translation
6. Maschinelle Übersetzung und Translation Manager
7. Die gegenwärtige Situation in Europa


1. Einleitung

Anfang dieses Jahres erschien in der Zeitschrift "The European" ein Artikel mit der Überschrift "Kafka loses something in translation". In diesem Artikel wurde über ein Angebot der amerikanischen on-line-Firma Compuserve berichtet, maschinelle Übersetzungen mit Englisch als Quellsprache oder Zielsprache zur Verfügung zu stellen. Als Beispiel hatten die Herausgeber von The European einige Sätze aus Franz Kafkas Roman "Der Prozeß" mit ihrem System übersetzt. Als erstes übersetzten sie den originalen deutschen Text ins Englische, dann den Text einer Englischen Humanübersetzung ins Französische und schließlich, da man kein Übersetzungssystem mit dem Sprachenpaar Deutsch-Französisch verfügbar hatte, eine französische Humanübersetzung der Erzählung mit dem maschinellen System zunächst ins Englische und von da ins Deutsche. Auf diese Weise standen drei natürlich-sprachlichen Texten (dem deutschen Original und zwei Humanübersetzungen) drei maschinelle Übersetzungen des gleichen poetischen Textes zum Zweck des Vergleichs gegenüber.

Abbildung 1

In dem genannten Artikel wurde die Meinung vertreten, daß der poetische Stil Franz Kafkas dem maschinellen Übersetzungssystem offenbar einige Schwierigkeiten bereitete, da dieses System wohl eher für technische Texte entwickelt worden sei. Darüber hinaus wurde erklärt, daß im Augenblick menschliche Übersetzer wohl noch nicht um ihren Job fürchten müßten. Diese Einschätzung der gegenwärtigen Möglichkeiten der maschinellen Sprachübersetzung ist sicherlich korrekt. Aber sie charakterisiert nur einen Teil der derzeitigen Lage. Die derzeitige Lage wird im weiteren Verlauf des Artikels genauer beschrieben. Dort bemerkt Alicia Cregg, die Autorin des Beitrags, daß die maschinellen Übersetzungssysteme noch weit davon entfernt seien, perfekt zu sein. Sie könnten mit einem Stück Dichtung oder sogar mit einer Werbebroschüre noch nicht fertig werden. Aber sie seien geeignet, den Übersetzungsprozeß zu beschleunigen, vor allem wenn es sich um technische Dokumente handele, in denen ein relativ begrenztes und spezialisiertes Vokabular vorherrsche.

Aus diesem Zitat ist ersichtlich, daß offenbar maschinelle Übersetzung heutzutage schon eingesetzt werden kann und auch von zahlreichen Firmen und Übersetzungsbüros eingesetzt wird.

Um die gegenwärtige Situation der maschinellen Übersetzung in Europa exakter zu beschreiben und die weiteren Aussichten dieses Gebiets beurteilen zu können, ist es zunächst erforderlich, einen Blick auf die Geschichte der maschinellen Übersetzung und auf ihre grundlegenden Strategien und Methoden zu werfen.


2. Überblick über die Geschichte der maschinellen Übersetzung

Abbildung 2

Obwohl die Idee, eine mechanische Vorrichtung für die Übersetzung von einer Sprache in eine andere zu schaffen, in der Geschichte des Menschen mehrfach aufgetreten ist, ist es realistisch, die ersten Überlegungen zur maschinellen Sprachübersetzung in die Zeit unmittelbar nach dem zweiten Weltkrieg anzusiedeln. Am Beginn der maschinellen Sprachübersetzung stand die Überlegung, daß Sprache eine berechenbares Phänomen sein könnte. Dieses Verständnis von Sprache entstand im Kontext der amerikanischen Informationstheorie (Shannon, Weaver). Die Informationstheoretiker glaubten, die Übersetzung von einer Sprache in eine andere mit statistischen Methoden bewerkstelligen zu können.

Unter heutigen Gesichtspunkten kann man sich die Geschichte der maschinellen Übersetzung von diesen Anfängen her in fünf Phasen vorstellen:


Erste Phase: 1945-1954: Wort-für-Wort-Übersetzung

Wichtigste Ereignisse: 1952: Konferenz am MIT. Wichtigstes Ergebnis dieser Konferenz war die Einsicht, daß man Worthäufigkeiten, Wahrscheinlichkeiten und die syntaktischen Regelmäßigkeiten der Sätze näher untersucht werden müßten.
1954:

Georgetown-IBM-Experiment (Russisch-Englisch)

Vorführung maschinelle Übersetzung am Beispiel von 49 ausgewählten Sätzen aus dem Gebiet der Chemie. Das Übersetzungssystem benutzte eine Wörterbuch und lediglich sechs syntaktische Regeln (vgl. Hutchins, 71 ff.). Im Georgetown-Experiment aus ganzem wurden vier einzelne Projekte vorgeführt, von denen eines zu dem späteren Systran-System wurde.

Zweite Phase: 1954-1967: Einführung der syntaktischen Analyse

1966/67: ALPAC-Report: Bericht des Automatic Language Processing Advisory Committee, in welchem die bis dahin erzielten Ergebnisse der maschinellen Übersetzung zusammengefaßt und bewertet wurden.

Hauptsächliche Ergebnisse dieser Bewertung:

Aus dem ALPAC-Report ergaben sich beträchtliche Konsequenzen für die weitere Forschung und Entwicklung:


Vierte Phase: 1974-1995: Eurotra und die Integration der gesprochenen Sprache

Anregungen aus dem Bereich kommerzieller Übersetzungssysteme, insbesondere von SYSTRAN, sowie der Bedarf der Europäischen Gemeinschaft führten zur Idee einer neuen Generation maschineller Übersetzungssysteme.

Motivation:

seit 1963: SYSTRAN ist in den USA als kommerzielles System verfügbar.
seit 1976: SYSTRAN wird bei der Europäischen Gemeinschaft eingeführt.
1982 Beginn des EUROTRA-Projekts, an welchem sich Forschergruppen aus 9 Ländern beteiligten und in welchen 72 Sprachenpaare bearbeitet wurden.
1982 Beginn der Förderung der maschinellen Sprachübersetzung durch die japanische Regierung und durch die japanische Industrie. In Japan wurden viele Übersetzungsprojekte begonnen, deren Ziel es war, die Sprachbarriere zwischen dem Japanischen und den Europäischen Sprache zu überwinden.
seit 1988: Integration der gesprochenen Sprache: Dolmetschsysteme.

2 Hauptprojekte: ALR in Japan (seit 1988)
Verbmobil in Deutschland (seit 1992)


Fünfte Phase: 1994 ff.: PC-Versionen maschineller Übersetzungssysteme, Internetsysteme und breite Vermarktung der MT


3. Grundlegende Strategien und Methoden

Wie man aus der Geschichte der maschinellen Sprachübersetzung ersehen konnte, stand am Beginn der Entwicklung die Idee, man könne übersetzen, indem man einfach die Wörter der Quellsprache durch Wörter der Zielsprache ersetzt. Um die einfachste Wort-für-Wort-Übersetzung zu verbessern, wurde dieses Verfahren ergänzt durch ein einfaches Umordnen der Wortfolge in der Zielsprache. Diese Methode stellt insgesamt eine erste grundlegende Strategie maschineller Übersetzung dar, die man auch die Methode der direkten Übersetzung nennt.

Abbildung 3: Direkte Systeme (aus Hutchins/Somers)

Mit der Methode der direkten Übersetzung, angewandt auf beliebige Texte, konnte man nur unvollständige und fehlerhafte Übersetzungen erzielen. Obwohl dabei die unterschiedliche Wortfolge in den Sätzen verschiedener Sprachen bis zu einem gewissen Grade berücksichtigt wurde, mußten andere strukturelle Merkmale der verschiedenen Sprache außer Acht bleiben. Insbesondere arbeiten direkte Systeme nicht mit einer Zwischenrepräsentation des quellsprachlichen Textes. Dies ist der Grund dafür daß Mehrdeutigkeiten der Wörter und Wortformen sowie strukturelle Mehrdeutigkeiten der Sätze in diesen Systemen nicht erkannt werden. Vor allem aber ist in diesen einfachen Systemen, die linguistische gesehen sehr arm ausgestattet sind, die Begriffliche Ebene der Sprache unberücksichtigt.

Aufgrund dieser Unzulänglichkeiten mußte die direkte Methode durch Verfahren einer wirklichen linguistischen Analyse der Quellsprache und synthese in der Zielsprache ergänzt werden. Die Analyse der quellsprachlichen Sätze muß dabei zu einer strukturellen und funktionalen Beschreibung des gesamten Textes führen. Nur aufgrund einer solchen linguistischen Beschreibung ist es möglich, für mehrdeutige Wörter die korrekten zielsprachlichen équivalente zu ermitteln und korrekte zielsprachliche Sätze zu generieren. Durch diesen Prozeß der linguistischen Beschreibung der Sätze wird so etwas wie eine Zwischenebene zwischen Quell- und Zielsprache erzeugt. Dies ist der Grund dafür, daß man diese Systeme indirekte Systeme nennt.

Die bekannteste graphische Darstellung indirekter Systeme ist das Übersetzungsdreieck. Dieses Dreieck symbolisiert den Weg, der in einem Übersetzungsprozeß zu durchlaufen ist. Er führt vom ursprünglichen Text der Quellsprache über verschiedene Phasen der linguistischen Analyse, über verschiedene Zwischenebenen linguistischer Beschreibung und über mehrere Phasen linguistischer Synthese zu einem zielsprachlichen Text.

Abbildung 4: Das Übersetzungsdreieck

Der Prozeß der indirekten Übersetzung hat zwei Varianten:

Die erste Variante ist das Interlingua-Modell. In diesem Modell wird der Quelltext analysiert und in eine Repräsentationssprache übersetzt, aus der der Zieltext direkt generiert wird. Die Zwischenrepräsentation, die interlinguale Darstellung des Quelltextes, enthält alle Information, die für die Generierung des Zieltextes nötig ist, ohne daß dabei auf den Originaltext zurückgeblickt wird (vgl. Hutchins/Somers S. 73). In Interlingua-Systemen wird also bei der Synthese eines zielsprachlichen Satzes auf die sprachliche Struktur des quellsprachlichen Satzes nicht zurückgegriffen; primär ist die Invarianz in den inhaltlichen Aspekten.

Die Zwischenrepräsentation stellt in diesem Fall eine Art interlingualer Repräsentation dar. D.h., es handelt sich um eine Repräsentation, die von der Ausgangs- und Zielspracheunabhängig ist. Man kann sich die Interlingua als eine Art Logiksprache vorstellen, oder auch als Universalsprache, wie sie in der Europäischen Philosophie des 17. Jahrhunderts vorgeschlagen wurde. Man kann darunter aber auch eine Begriffssprache verstehen, die für alle Menschen gleich sein soll.

Das Interlingua Modell ist höchst attraktive für multilinguale Übersetzung und für die Übersetzung zwischen Sprachen, die in ihrem Vokabular und in ihrer Grammatik sehr stark voneinander abweichen, wie es z.B. für das Japanische und das Deutsche der Fall ist.

Die zweite Variante der indirekten Übersetzung ist das Transfer-Modell.

In Transfersystemen spielt sich der Übersetzungsprozess in drei Phrasen ab, der Analyse, dem Transfer und der Synthese.

Während der ersten Phase wird der quellsprachliche Text analysiert und eine Zwischenrepräsentation des quellsprachlichen Textes erstellt.

In der zweiten Phase wird die Zwischenrepräsentation des quellsprachlichen Textes in die Zwischenrepräsentation des zielsprachlichen Textes überführt.

In der dritten Phase wird aus dem Zwischenrepräsentation des zielsprachlichen Textes der zielsprachliche Text selbst generiert.

Der wichtigste Unterschied zwischen den beiden Varianten der indirekten Systeme, dem Transfer-Modell, und dem Interlingua-Modell, besteht darin, daß in einem Transfermodell die Zwischenrepräsentationen nicht sprachabhängig sind, während sie in einem Interlingua-Modell sprachunabhängig sind.

Es gibt Übersetzungstheorien, die diesen Dreischritt von Analyse, Transfer und Synthese als grundlegend für jeden Übersetzungsprozeß ansehen, für die auch jeder menschliche Übersetzer nach diesem Dreischritt verfährt (z.B. Nida 1968).

Die meisten heute verfügbaren Übersetzungssysteme arbeiten nach dem Transfer-Modell. Aus diesem Grund soll dieser Typ im folgenden genauer betrachtet werden, und zwar vor allem in seiner Analysephase.

3.1 Die Analysephase im einzelnen

Während der Analysephase wird der zu übersetzende Text hinsichtlich seines Wortschatzes und seiner Struktur analysiert. Das bedeutet, daß wir drei Ebenen der Analyse unterscheiden, die häufig in der folgenden Weise bezeichnet werden:

morphologische Analyse
syntaktische Analyse und
semantische Analyse.

Im EUROTRA-System, das ich als Beispiel heranziehen möchte, heißen diese Phasen der linguistischen Analyse, die zu einer Zwischenstruktur des Quelltextes führen:

Eurotra morphological structure
Eurotra constituent structure
Eurotra relational structure und
Eurotra interface structure.

Auf jeder dieser Ebenen müssen zum einen zu jedem Wort des Textes möglichst viele Angaben zum Teil aus Wörterbüchern hinzugefügt werden.

Wie die linguistische Beschreibung eines Satzes in einem maschinellen System aussieht, sei an einem Beispielsatz gezeigt, der dem Beispielset des EUROTRA-Projekts entnommen ist.

Der Satz lautet: documents exist

Dieser Satz wird durch drei Bearbeitungsphasen hindurchgeführt. Dabei werden die morphologische, die oberflächen-syntaktische Struktur und die relationale oder tiefensyntaktische Struktur ermittelt. Resultat ist eine Repräsentation des Satzes in einer sog. Interfacestruktur.

Während der morphologischen Analyse wird dem Satz soviel Information über jedes einzelne Wort zugefügt, wie erreichbar ist. Diese Information wird aus einem Wörterbuch in Verbindung mit einer morphologischen Analyse, vor allem einer Flexionsanalyse, gewonnen.

Die morphologische Beschreibung unseres Beispielsatzes wird aus den zwei folgenden lexikalischen Einträgen erzeugt:

{lex=exist,lu=exist,cat=v,nb=pl,person=three,ms_tense=present}
{lex=documents,lu=ducument,cat=n,nb=pl,person=three}

Die Angaben dieser Einträge sind - wie alle anderen Strukturen in EUROTRA - als sog. Attribut-Wert-Paare dargestellt. Dabei bedeutet 'lex' das Attribut für 'word-form', 'lu' bedeutet 'lexical unit', 'cat' ist 'category', 'nb' steht für 'number', 'ms_tense' für 'morpho-syntactic tense', 'v' bedeutet 'verb' und 'sg' bedeutet 'singular' (Allegranza et al. p. 20).

Das Ergebnis der morphologischen Analyse und der Wörterbuchsuche ist die 'intermediäre' EUROTRA morphological structure. Diese sieht wie eine einfache Konkatenation der lexikalischen Einträge aus:

EMS {cat=s}[
{lu=document, cat=n, nb=pl, person=three}
{lu=exist, cat=v, nb=pl, person=three,ms_tense=present}]

Wichtiger als die morphologische, ist die syntaktische Analyse. Während der syntaktischen Analyse werden die Beziehungen zwischen den einzelnen Wörtern und die Konstituenten eines Satzes auf der Grundlage der morphologischen Informationen linguistisch beschrieben. Das Ergebnis der Analyse besteht zunächst in einer Beschreibung der syntaktischen Struktur des betreffenden Satzes, in der festgestellt wird, welche Wörter des Satzes zu Nominalgruppen und Verbalgruppen zusammengefaßt werden können, ob und welche Nebensätze es gibt, auf welche Satzteile sich diese beziehen bzw. an der Stelle welcher Satzteile sie stehen. Dieses Ergebnis wird in einer Struktur dargestellt, die man als Eurotra Constituent Structure (ECS) bezeichnet:

ECS {cat=s} [
{cat=np, nb=pl, person=three}
[ {lu=document, cat=n, nb=pl, person=three} ]
{cat=vp, nb=pl, person=three}
[ {lu=exist, cat=v, nb=pl, person=three} ] ]

Weiterhin soll die Beschreibung Angaben über die syntaktische Funktionen der Konstituenten enthalten, also z.B. angeben, welche Gruppen als Subjekt, Prädikat, Objekt etc. fungieren. Diese syntaktischen Funktionen werden über Regeln ermittelt, die die folgende Repräsentation erzeugen, die als Abhängigkeitsstruktur (Eurotra Relational Structure, ERS) bezeichnet wird:

ERS {cat=s}
[{sf=gov,lu=exist,cat=v,nb=pl, person=three,ers_frame=subj}
{sf=subj,cat=np,nb=pl,person=three}
[{lu=document,sf=gov,cat=n,nb=pl,person=three} ] ]

In dieser Abhängigkeitsstruktur fungiert das Verb exist als governer des Satzes. Das Verb, exist, ist durch ein Attribute 'ers_frame' charakterisiert, welches als Wert 'subj' trägt. Durch dieses Attribut-Wert-Paar 'ers_frame=subj' wird angezeigt, daß das Verb exist intransitiv ist und daß das Programm nach einer einzigen Nominalgruppe zu suchen hat, die die Bedingungen des Subjekts erfüllt.

Wenn die Relationale Struktur vorliegt, so wird in einem letzten Schritt die EUROTRA Interface Structure hergestellt. Diese Struktur benutzt Frames, wie es die ERS tut, aber, anders als diese, konstituieren die Frames der IS nicht Beziehungen der grammatischen Oberfläche, sondern tiefensyntaktische Argumente. In diesem Sinne kann das Tiefensubjekt eines Satzes in der Interface Structure vom Subjekt in der ERS verschieden sein.

So ist z.B. in dem Satz

The committee put the proposal on the agenda.

the committee Subjekt in der ERS und Tiefensubjekt in der IS.

Aber in dem Satz

The proposal was put on the agenda by the committee.

ist proposal Subjekt der ERS, aber committee ist Tiefensubjekt in der IS.

Verschiedene Sätze wie

The delegates seem to accept the proposal.

und

It seems that the delegates accept the proposal.

haben die gleiche Interfacestruktur, die man auch eine Tiefenstruktur nennen könnte.

Die Interfacestruktur stellt eine Argument-Struktur dar, die durch die Zahl der Slots oder Argumente der lexikalischen Kategorien bestimmt ist, die in den Satz vertreten sind. Als Tiefenstruktur ist sie sehr weit entfernt oder sogar unabhängig von der ursprünglichen quellsprachlichen Repräsentation.

Da die Eurotra Relational Structure und die Interface-Struktur dem gleichen Frame-Konzept folgen, ist diskutiert worden, ob man sie nicht vereinigen könnte. Ein Hauptgrund dafür, eine eigenständige ERS-Ebene zu erhalten, bestand darin, daß diese Ebene noch Information enthält, die für eine Interface-Struktur völlig irrelevant ist. Aus diesem Grund hat man sich dafür entschieden, eine Interface-Struktur zu haben, die soweit wie möglich von den charakteristischen Merkmalen einer Einzelsprache wie Flexion und Wortfolge entfernt sein sollte.

In der Interface-Struktur liegt als Ergebnis des Analyseprozesses der Satz der Quellsprache in einer linguistisch explizit beschriebenen Form vorliegt. Das heißt, daß sämtliche erreichbaren strukturellen Informationen über den Satz und sämtliche erreichbaren lexikalischen Spezifikationen der Elemente des Satzes (der Wörter und Satzteile) explizit und eindeutig ermittelt worden sind.

3.2 Die Synthese-Phase

In der Synthesephase wird mit den gefundenen Übersetzungsäquivalenten eine korrekte zielsprachliche éußerung aufgebaut. Dabei werden die Übersetzungsäquivalente, die in Transferwörterbüchern gefunden wurden, sowie strukturelle Information aus der Analysephase verwendet.

3.3 Die Rolle des Lexikons in der maschinellen Übersetzung

Aus dem obigen Beispiel sieht man, daß der korrekten und vollständigen lexikalischen Information im Übersetzungsprozess eine entscheidende Bedeutung zukommt. Das Lexikon stellt in allen Phasen der Übersetzung die benötigten Informationen bereit, und es muß alles darauf ankommen, die für einen Anwendungsfall richtigen Lexeme zur Verfügung zu haben. Welche Bedeutung eines Wortes in einer quellsprachlichen Formulierung vorliegt und in welche zielsprachliche Bedeutung sie zu übersetzen ist, hängt von vielen Faktoren ab, von der zu wählenden sprachlichen Varietät, z.B. einer bestimmten Fach- oder Sondersprache, vom Kontext, von der Situation, von Zweck der Aussage usw.

Das folgende Beispiel zeigt zwei Einträge für das deutsche Wort 'verabschieden' aus dem IS-Wörterbuch von EUROTRA, das ins Englische als 'pass' oder 'discharge' übersetzt werden mag (z.B. für die Sätze "Der Rat verabschiedet den Beschluß" und "Möllemann wird verabschiedet"):

Beispieleinträge für verabschieden1 (z.B. in 'Der Rat verabschiedet den Beschluß') und verabschieden2 ('Kohl verabschiedet Möllemann)' :

verabschieden1=

(gov,{cat=v,prefix=nil,lu=verabschieden,vfeat=nstat,

sft={info=sem},

sfm={temp=bounded,bounded=achiev},val=two,

frame={arg1={sr=agent,sft={abstract=abstr,abstr=phen,phen=soc,

     soc=inst,anim=hum}},

arg2={sr=affected,sft={info=sem,abstract=abstr,anim

=nil}}}}).[ ].

verabschieden2=

(gov,{cat=v,prefix=nil,lu=verabschieden,vfeat=nstat,

sfm={temp=bounded,bounded=achiev},val=two,

frame={arg1={sr=agent,sft={anim=hum}},

arg2={sr=affected,sft={anim=hum,info=nil}},

arg3=nil}}).[ ].

Für den ersten Satz "Der Rat verabschiedet den Beschluß" muß die Analyse es ermöglichen, die erste Lesart von verabschieden auszuwählen. Dies ist aufgrund der 'frame information' möglich, die aus der jeweiligen Argumentstruktur des Verbs besteht. Im ersten Fall wird als erstes Argument unter anderem ein abstraktes Agens (agent, abstract) gefordert und als zweites eine betroffene abstrakte Entität (affected, abstract); im zweiten Fall dagegen ist das erste Argument durch den semantischen Rahmen auf einen menschlichen Agenten (human agent) eingeschränkt, während das zweite Argument eine betroffenes menschliches Wesen (affected, human) sein muß.

Wegen der ungeheuer großen innersprachlichen Ambiguitäten und zwischensprachlichen Polysemien im Bereich der Wörter ist das Problem der Wörterbuchherstellung bis heute noch immer das Hauptproblem der maschinellen Übersetzung. Wörterbücher sind immer noch der "Flaschenhals" der Übersetzungssysteme.


4. Grenzen der maschinellen Sprachübersetzung

Stellen wir die Frage, wo MÜ mit Gewinn eingesetzt werden kann, so sollten wir zunächst in Gedächtnis rufen, daß Übersetzung ein Kommunikationsprozess ist, allerdings meist ein Kommunikationsprozess bei abwesendem Autor, in welchem die Möglichkeit zur Rückfrage, die Möglichkeit des Aushandelns bei Meinungsverschiedenheiten etc. nicht gegeben ist.

Nach Popovic, Translation as Communication, 1977, heißt übersetzen in diesem Sinn, auch die Beziehung zum Leser, die Einflußnahme des Lesers auf den Übersetzungsakt einzubeziehen. Der Übersetzer ist zugleich Leser eines Textes und Autor eines neuen Textes. Er ist sozusagen eingebettet in zwei kulturelle und literarische Codes, den des Autors, den er übersetzt und den des Lesers, für den er übersetzt. Der Übersetzer steht gleichsam in einem doppelten Interpretationsprozess, der zum einen sein Verstehen des Autors, zum anderen die an ihn gerichteten Erwartungen der Leser betrifft.

Dies gilt vor allem für den literarischen Übersetzer. Der literarische Übersetzer übersetzt, indem er seinen Text interpretiert. Der übersetzte Text stellt danach eine Art Sekundärkommunikation dar, die jedoch für den, der das Original nicht kennt, zur Primärkommunikation wird.

Der Übersetzer ersetzt den Originaltext durch einen neuen Text. Diese Ersetzung ist möglich, weil es

- intertextuelle Invarianten und
- variable Textelemente

zwischen Original und Übersetzung gibt.

Diese invariablen und variablen Elemente sind auf drei Ebenen angesiedelt:

- der linguistischen Ebene,
- der stilistischen und
- der thematischen Ebene.

Im Falle der literarischen Übersetzung steht die stilistische Ebene im Vordergrund; die linguistische Ebene steht gleichsam im Dienste der stilistischen Ebene. Im einzelnen heißt dies, daß sich Literatur zum Zwecke einer großen stilistischen Variabilität einer ungeheueren sprachlichen Komplexität bedient. Diese hängt mit der lexikalischen Homonymie, Polysemie und Homographie, mit den sprachlichen Mechanismen der Bedeutungserweiterung und Bedeutungsverschiebung (Metapher) sowie mit der syntaktischen Vielfalt der Sprachen zusammen. Man ist sich heute in der Forschung zur maschinellen Sprachübersetzung einige, daß eine qualitativ hochstehende, vollautomatische Übersetzung in beliebigen Gebieten aufgrund dieser ungeheuren Vielfalt der sprachlichen Möglichkeiten nicht realistisch ist.

Realistischer ist maschinelles Übersetzen in den Fachsprachen. Im Bereich der Fachsprachen besteht erfolgreiches Übersetzen darin, den grundlegenden thematischen Wesenszügen des Originals treu zu bleiben, während die linguistischen und stilistischen Wesenszüge unwesentlich sind. In den Fachsprachen ist das Vokabular weitgehend eindeutig und damit zwischen den Sprachen (interlingual) invariant, weil Fachbegriffe und Fachterminologien durch die Theorien der jeweiligen Fächer definiert sind. Schon heute sind daher maschinelle Sprachübersetzungssysteme, von denen inzwischen mehrere kommerziell angeboten werden, bei einer größeren Zahl von Firmen und bei Behörden, etwa bei der Kommission der EG oder der Bundesbahn, installiert, und arbeiten dort auch mit einigem Erfolg.

Gemeinsam ist diesen Systemen, daß sie anfangs nur mit einem Grundwortschatz ausgestattet sind, z.B. mit einem umfassenden Lexikon der Verben und der Funktionswörter. Der Hauptwortschatz muß vom Erwerber des System für sein spezielles Anwendungsfeld zusammengestellt werden; durch geeignete Hilfsprogramm wird dies erleichtert. So muß z.B. im Umfeld der Bahn-Terminologie in einem dt.-frz. Wörterbuch festgelegt werden, daß chemin de fer als Eisenbahn, quai als Bahnsteig, voie als Gleis übersetzt wird (vgl. Intercity 3/92). Ohne das Spezialwörterbuch würde hier Weg des Eisens, Kai und Weg stehen. Ob z.B. quai als Gleis oder als Kai zu übersetzen ist, dies aus dem Kontext zu entscheiden, wie es jedem menschlichen Übersetzer auf Anhieb gelingt, ist bis heute ein relativ großes Problem, das in der fachsprachlichen maschinellen Übersetzung durch die Wahl des richtigen Lexikons umgangen wird.

Daß damit das Problem aber nur umgangen wird, treten in der Praxis fachsprachlicher maschineller Übersetzung immer wieder Probleme und erheiternde Übersetzungsergebnisse auf.

Fehler durch falsche Wörterbucheinstellung:

un marche de taille continentale = ein Markt von continentalem Umfang
falsche Übersetzung in einem EG-Text: continental waste (=taille) market
(taille im Sinne von Schnitt, Abfall beim Schneiden)

Abbau -- shut_down, statt: reduction
Band -- volume, statt: tape
Bedeutung -- meaning, statt: importance
Die Leitung wurde verlegt - The mangagement was killed
einführen - import, statt: introduce

Fehler bei der Übersetzung von Komposita:

Arm band uhr -- poor tape clock -- bracelet clock
Barzahlung -- nightclub payment, statt cash payment
Vorschlaghammer -- proposal hammer


5. Human aided machine translation und machine aided human translation

Um Übersetzungsfehler dieser Art auszumerzen oder gar nicht erst entstehen zu lassen, sehen diese kommerziellen Systeme die menschliche Beteiligung am Übersetzungsprozess vor, und zwar entweder vor, zwischen oder im Anschluß an den maschinellen Prozess. Man spricht hier von preediting, intermediate editing oder postediting. Das heißt mit anderen Worten, daß es auch in der fachsprachlichen Übersetzung vollautomatische Systeme letztlich nicht gibt, sondern nur halbautomatische Systeme oder maschinengestützte Übersetzungssysteme.

Man sieht heute in der fachbezogenen Übersetzung die Möglichkeiten der maschinellen Systeme irgendwo zwischen den zwei Extremen der vollautomatischen Übersetzung und der menschlichen Übersetzung, wobei der Abstand des maschinell Möglichen zur Humanübersetzung wohl beträchtlich sein dürfte.


6. MT und TM (Machine Translation und Translation Memory)

Es gibt noch weitere Vereinfachungen, die in der Praxis dazu dienen, Übersetzungssysteme effektiver einzusetzen. Eine dieser Vereinfachungen ist die Benutzung sogenannter Translation Memories (Übersetzungsspeicher). Ein Translation Memory ist ein Computerspeicher, in welchem ausgeführte Übersetzungen abgelegt und bei Bedarf für weitere Übersetzungen abgerufen werden können. Ein solches Translation memory muß in eine geeignete Arbeitsumgebung eingebettet sein; es sollte mit einem maschinellen Übersetzungssystem verknüpft sein, das den Eingriff eines menschlichen Bearbeiters erlaubt. In einem solchen Translation Memory werden nicht nur idiomatische Wendungen, sondern auch Phrasen, die häufig in technischer Umgebung erscheinen, aufgeführt. Es handelt sich dabei nicht nur um volle Sätze, sondern auch um Bruchstücke von Sätzen (Phrasen).

Translation Memories sind dabei keineswegs an die Grenzen der natürlichen Sprache gebunden. Wichtig ist nur, daß Sätze, Bruchstücke von Sätzen oder ganze Paragraphen gespeichert werden, die ein gewisses Wiederholungspotential aufweisen. Andererseits ist die Verwendung von Translation Memories nur bei Textsorten sinnvoll, wo ein bestimmtes Potential an Wiederholungen zu erwarten ist. Dieses Wiederholungspotential kann heute durch statistische und strukturelle Methoden ermittelt werden.

In den gewerblich angebotenen Übersetzungssystemen werden häufig noch weitere wesentliche Vereinfachungen vorgenommen. So werden die Autoren von Texten angehalten, sich im Vokabular und in der Syntax der Sprache zu beschränken. Die reguläre Syntax wird durch eine reduzierte Syntax ersetzt, die z.B. nur Hauptsätze erlaubt, keine Relativsätze oder andere komplexere Satzmuster. Auf diese Weise werden Autoren instruiert, ihre Texte einfacher und klarer zu formulieren, und das heißt, auf die Belange der zu erwartenden maschinellen Übersetzung Rücksicht zu nehmen, und schließlich wird der Wortschatz meist auf den Fachwortschatz und wenige allgemeinsprachliche Wörter begrenzt.

Fassen wir zusammen:

Man kann im allgemeinen sagen, daß in den heutigen maschinellen Übersetzungssystemen mittels einer intensiven linguistische Beschreibung morphologische und syntaktische Mehrdeutigkeiten, relativ leicht aufgelöst werden können, so daß die maschinelle Übersetzung im Bereich der Fachsprachen erreichbar erscheint. Schwierigkeiten bereiten jedoch die zahlreichen Mehrdeutigkeiten, Lesarten, Bedeutungsverschiebungen, die nur mit sehr komplizierten Mitteln explizit beschreiben werden können und meist nur aus dem Kontext eines Satzes oder aus den Erfahrungen oder Wahrnehmungen des Autors aufgelöst werden können. Zur Auflösung von Mehrdeutigkeiten im Sinne einer interpretierenden Übersetzung muß man in weitaus größerem Umfang semantisches Wissen und Weltwissen sowie die vielfachen Vagheiten der natürlichen Sprachen berücksichtigen.

Bis heute sind in Maschinellen Übersetzungssystemen gerade diese für den interpretierenden Verstehensprozeß unerläßlichen Informationskomplexe nur unzureichend repräsentiert. Dies ist der Grund dafür, daß es viele Skeptiker gibt, die meinen, maschinelle Übersetzungs systeme seien den Aufwand, den man betreibt, um sie zu entwickeln und zu konstruieren, nicht wert. Auf der anderen Seite gibt aber tatsächliche Fortschritte und praktische Anwendungen, durch die die gegenwärtige Situation der maschinellen Übersetzung in Europa charakterisiert ist. Diese soll im folgenden Abschnitt abschließend im Überblick beschreiben werden.


7. Die gegenwärtige Situation der maschinellen Sprachübersetzung in Europa

Die gegenwärtige Situation der maschinellen Sprachübersetzung in Europa kann durch die folgenden Stichworte charakterisiert werden:

7.1 Maschinelle Übersetzung in der Post-Eurotra-éra

Als erstes kann man feststellen, daß Forschung und Entwicklung in Europa einen Stand erreicht haben, den man als den der Post-Eurotra-éra bezeichnen kann. Während des Jahrzehnts von 1982 bis 1992 konzentrierte sich die Forschung zur maschinellen Übersetzung in Europa auf ein großes Projekt, auf das EUROTRA-Projekt. Dieses Projekt sollte, so war die ursprüngliche Idee, zu einem Prototypen eines Übersetzungssystems führen, der letztlich zu einem kommerziellen Produkt werden sollte. Dieses Ziel wurde aus vielen Gründen nicht erreicht. Einer dieser Gründe waren die Schwierigkeiten, die in der Koordination der Arbeit von mehr als 10 verschiedenen Gruppen liegen, die noch dazu ohne wirkliche kommerzielle Motivation arbeiten. Ein anderer Grund für das Scheitern von EUROTRA war die sicherlich noch nicht ausreichende Leistungsfähigkeit der Computer zur schnellen Analyse und Synthese von Text in Realzeit.

Eine der wichtigsten Einsichten der Eurotra-Forschung war allerdings die Erkenntnis, daß eine High Quality Machine Translation ohne menschliches Pre- oder Postediting unmöglich sein dürfte und daß die künftige Forschung sich darauf zu konzentrieren habe, bessere lexikalische und grammatische Resourcen zu schaffen. Wir haben daher, als Konsequenz des EUROTRA-Projekt, zur Zeit in Europa eine Vielzahl von Gruppen, die an verschiedenen Aspekte der Sprachtechnologie arbeiten, zum Beispiel am Problem des automatischen Tagging, der morphologischen Analyse, der grammatischen Werkzeuge etc. Die EUROTRA-Initiative hat die Verarbeitung komplexerer Sprachstrukturen, die Sprachtechnologie und das language engineering in Europa erheblich vorangebracht.

Während des EUROTRA-Jahrzehnts haben verschiedene Firmen ihre Übersetzungssysteme weiterentwickelt. Eine dieser Firmen war SIEMENS, die in den späten 70er Jahren die Ergebnisse eines amerikanischen maschinellen Übersetzungssystems, das an der Universität Austin, Texas, durchgeführt worden war, übernommen hatten. Während der gesamten EUROTRA-Periode hat SIEMENS an diesem System weiterentwickelt und daraus ein tatsächliches Produkt gemacht. Das System kam unter dem Namen METAL auf den europäischen Markt und wurde über 20 mal bei bedeutenden Industriefirmen in Deutschland installiert.

Gleichzeitig wurde während der EUROTRA-Dekade das amerikanische System SYSTRAN von der Europäischen Kommission in Luxemburg gekauft und gründlich überarbeitet. Die Überarbeitung bezog sich sowohl auf die linguistischen Grundlagen des Systems als auch auf die Zahl der Sprachenpaare.

Schließlich ist die EUROTRA-éra durch einen unglaublichen Fortschritt in der Computer-Technologie gekennzeichnet, der das heutige Bild der maschinellen Übersetzung bestimmt.

7.2 Miniaturisierung und Popularisierung durch low cost-Systeme

Zweitens ist die gegenwärtige Situation dadurch charakterisiert, daß während des letzten Sommers preiswerte maschinelle Übersetzungssysteme auf den markt gekommen sind, die von jedermann auf einem PC installiert und benutzt werden können.

Abbildung: low cost systems

Diese Systems sind von in Deutschland bekannten Verlagshäusern, nämlich Langenscheidt und Klett, herausgebracht worden, die auf dem Gebiet der Übersetzungshilfen, besonders in der Form von Wörterbüchern, renommiert sind. Hinter den Übersetzungssystemen dieser beiden Verlage verbergen sich Entwicklungen großer Computerfirmen wie SIEMENS und IBM. Dem System T1 von Langenscheidt liegt das von SIEMENS entwickelte METAL-System zugrunde, hinter dem Personal Translator von Klett (Pons) verbirgt sich eine Entwicklung von IBM (Translation Manager). Diese beiden wichtigen Produkte werden durch einige weitere PC-Systeme mit unterschiedlicher Leistungsfähigkeit ergänzt.

7.3 Verfügbare High end-Systeme

Abbildung: high end systems

Drittens ist die Lage dadurch charakterisiert, daß weiterhin umfassende Übersetzungssysteme angeboten werden, die sich von den low cost-Systemen vor allem dadurch unterscheiden, daß sie einen kompletten Wörterbuchservice enthalten. Das heißt, daß Spezialwörterbücher für Anwender, Terminologiedatenbanken und Translation Memories bereitgestellt werden, einschließlich der notwendigen Unterstützung durch die Lieferfirma, während im Falle der Low cost-Systeme z.B. die Wörterbücher von den Anwendern in jedem Einzelfall selbst zu erstellen und die Systeme zu optimieren sind.

7.4 Wachsende Bedeutung von Translation Memory-Systemen

Abbildung: translation memory systems

7.5 Maschinelle Übersetzung als Internet-Dienst

Abbildung: internet systems

Wie schon eingangs am Beispiel des Übersetzungsdienstes der Fa. Compuserve gezeigt, bieten inzwischen weltweit mehrere Firmen maschinellen Übersetzung im Internet an. In Europa gehören dazu Lernout und Houspie und TRADOS, die vor allem eine Übersetzungsunterstützung anbieten oder anbieten wollen. Vollautomatische Übersetzung ausreichender Qualität ist hier allerdings vorerst auch nicht zu erwarten.

7.6 Forschung und Entwicklung auf dem Gebiet der Dolmetschsysteme

Als letztes Merkmal der Post Eurotra-éra ist auf die in Deutschland seit mehr als vier Jahren laufende Forschung zur Entwicklung eines Übersetzungssystems für gesprochene Sprache aufmerksam zu machen. Es handelt sich um das Projekt VERBMOBIL, das 1992 begonnen wurde und im Jahr 2000 abgeschlossen sein soll. In diesem Projekt geht es darum, für einen begrenzten Bereich mündliche Dialoge verschiedensprachiger Sprecher durch maschinelle Hilfen zu unterstützen. So soll z.B. ein deutscher Benutzer, der sich in Japan zu einer Konferenz anmelden will, einen telefonischen Dialog in englischer Sprache führen können, wobei ihm Verbmobil bei Übersetzungsproblemen hilft. Der japanische Partner bzw. die Partnerin soll ebenfalls in englischer Sprache kommunizieren und gleichfalls durch das maschinelle System bei Übersetzungsproblemen unterstützt werden. Das Ziel von Verbmobil ist also eine Verständigung zwischen Deutschen und Japanern, mit Englisch als Zwischensprache. Allerdings werden in Deutschland nur die Teile des Systems entwickelt, in denen es um Deutsch und Englisch geht, während ein korrespondierendes Projekt in Japan die Teile bearbeitet, die mit Japanisch und Englisch zu tun haben. Das Hauptproblem von Verbmobil besteht in der Erkennung und Generierung gesprochener Sprache, ein Problem, das in diesem Projekt erstmals für Europa mit dem Problem der maschinellen Sprachübersetzung verbunden worden ist. Da der Sprachausschnitt zumindest vorerst sehr begrenzt ist (Anmeldung zu einer Konferenz), sind die linguistischen Probleme nicht sehr groß. Es ist zu erwarten, daß im Jahre 2000 ein Prototyp vorgeführt werden kann, der aber von einer kommerziellen Verwendung noch weit entfernt sein dürfte.


8. Literatur

Bruderer, Herbert E.: Handbuch der maschinellen und maschinenunterstützten Sprachübersetzung. München/New York 1978.

Hutchins, W.J.: Machine Translation. Past, present, future.New York etc. 1986.

Hutchins, W.J. & Harold L. Somers: An Introduction to Machine Translation. London et al.: Academic Press, 1992.

Melby, Alan: Creating an Environment for the Translator. In: Machine Translation Today: The State of the Art, ed.M.King, Ediburgh: Univ. Press, 1987, 124-132.

Narita, Hajime: Koosureba-Tsukaeru Kikai-Honyaku. Babel Press, 1997 (to appear)

ders.: Honyaku-Sofuto-no Sekai. Aktualisierte Ausgabe. Koodansha, 1997 (to appear)

Nagao, Makoto and Takenori Makino: Konpyuta de honyaku suru. Tokyo: Kyoritsu Shuppan. 1995.

Nida, Eugene A.: Science of Translation. In: Answar D. Stil (Hrsg.): Language Structure and Translation. Essays by Eugene A. Nida. Stanford 1975, 79-101. Dt. Übers. v. W. Wilss: Das Wesen des Übersetzens. In: Wills, W. (Hrsg.): Übersetzungswissenschaft. Darstadt 1981, 123-147. (Artikel ist ein Vortrag von 1968)

Popovic, Anton: Translation as Communication. In: A. Popovic/I. DÇnes (Hrsg.): Translation as Comparison. Nitra 1977, 5-24. Dt. Übersetzung "Übersetzung als Kommunikation". In: Wilss, Wolfram (Hrsg.): Übersetzungswissenschaft. Darmstadt 1981 (wiss. Buchgesellschaft), 92-111.

Schwanke, Martina: Maschinelle Übersetzung. Ein Überblick über Theorie und Praxis. Berlin et al.: Springer 1991.

Tophoven, Elmar: Bericht aus der Werkstatt. In: Klaus Birkenhauer (Hg.): Übersetzer über Das Übersetzen. In: Der Übersetzer. Monatszeitschrift des Verbandes deutschsprachiger Übersetzer (VdÜ).

Tsujii, Jun-ichi: Machine Translation: Research and Trends. In: BÝtori/Lenders/Putschke: Handbuch 'Computerlinguistik'. Berlin 1989, 652-669


Abbildungen

low cost systems

name firm language pairs price DM remarks
low cost systems T1Standard 3.0
T1 3.0 plus
Langenscheidt E<--->G 298,-
398,-
PC-version of METAL (Siemens); T1 plus with enhanced dictionary
profi-version is announced for end of 1997
Personal Translator PT and PT Plus IBM,Rheinbaben &
Busch, Klett
E<--->G 195,-
498,-
machine translation system with integrated IBM translation memory
Power Translator
PT de Luxe
PT professional
Globalink, Fairfax,VA,
USA
E<--->G 295,-
?
?
PC-Versions of a MT-system with encreasing functionality and complexity
GLOBEDISK Trasnlation
Assistant
Globalink, Accent G->E,F,I,S
E,G,I,S ->G
198,- dictionaries must be bought extra; no syntactic analysis; special texts,
business correspondence;
SYSTRAN Professional SYSTRAN A.C., Paris ~1000,- originally developed for IBM-mainframe; 28 language pairs on mainframe;
9 language pairs on PC-version

high end systems

name firm language pairs price DM remarks
high end systems LOGOS LOGOS, Eschborn G->E,F,I
E->G,F,S,I
> 45 000,- server-client-system; special texts; techn. Documentation; translation memory EUROLANG Optimizer can be integrated
SYSTRAN SYSTRAN, La Jolla and SYSTRAN A.C., Paris E->
F,G,I,P,S
F,G,J,S,R
->E
?? used for F <---> E in the french Minitel service special texts, technical documentation
EU-MÜ-System translation service of the European Kommission 17 pairs
5 source languages
no commercial product based on a completely reinstalled version of Systran in-house development of the EU since 1976
METAL GMS, Munich (SIEMENS) G->E,F,S,Da, E ->G,S
F->E
F<-->N
>20 000,- system has been transfered to PC size together with Langenscheidt (see T1). The functions of the METAL system will be integrated into the professional PC version in the near future.
Transcend Intergraph, USA; TRADOS, Stutttgart E->G,S,F,I,
P,
S, F, G -> E
> 10 000,- technical documentation; manuals

internet systems

name firm language pairs price DM remarks
internet systems Compuserve/Linguistic Systems E-> F,G
F,G -> E
$ 3 for 100 words
Lernout & Hauspie, Speechproducts, Belgium
MultiTerm Web Interface TRADOS
LOGOS announced for 1997
Web Translator Globalink E->G,F,S 150,- translates simple texts

tranlation memory systems

name firm language pairs price remarks
tranlation memory systems TranslationManager IBM, Stuttgart nearly all European languages > 1000,- different versions for various purposes and computer platforms
Translator s Workbench TRADOS, Stuttgart nearly all European languages > 4000 translation memory, translation tool & TRADOS MultiTerm Terminology database; integrated search facilities for the internet
EUROLANG Optimizer Sonovision Itep Technologies, Maisons-Alfort, France nearly all European languages > 8000 translation memory and terminology database
TRANSIT Star, Böblingen nearly all European languages 3950,- supports all popular word processors

research and development systems

name firm language pairs price remarks
research and development systems
Verbmobil German firms like Siemens, Daimler Benz and researchinstitutions D<--->E speech translation in a restricted domain