MEINRADs Blog

Was sind „unsaubere“ Dateien?

Geschrieben von Meinrad Reiterer | 16. Dezember 2021

Haben Sie ein Übersetzungsbüro schon einmal von „unsauberen Dateien“ reden hören und sich gefragt, was das bedeutet? MEINRAD erklärt, welche Elemente der Textgestaltung die Übersetzung behindern und damit zusätzliche Kosten verursachen.

Viele Dateien, die auf den ersten Blick optisch tadellos aussehen, sind beim genaueren Hinsehen nicht „nach allen Regeln der Kunst“ aufgebaut und formatiert. Etwaige kleinere Unpässlichkeiten sind im Ausgangsdokument meist noch keine Tragik, ihre Tragweite zeigt sich erst bei der Übersetzung.

Übersetzungen im CAT-Tool

Hintergrund ist, dass moderne Übersetzungsbüros mit CAT-Tools arbeiten. Das heißt, die Übersetzer übersetzen nicht direkt in der jeweiligen Datei, sondern im CAT-Tool. Nur so können Translation Memories und Termdatenbanken genutzt und aufgebaut werden. Vereinfacht ausgedrückt wird die Datei vom Projektmanager ins CAT-Tool importiert, dort vom Übersetzer übersetzt und anschließend vom Projektmanager wieder exportiert. Das bedeutet, dass das CAT-Tool die Übersetzung im selben Format wieder „ausspuckt“.

Was ist das Problem mit „unsauberen“ Dateien?

So weit, so gut. Das Problem ist: Wird bei der Texterstellung nicht sauber und damit nicht übersetzungsfreundlich gearbeitet, kann es zu unliebsamen Folgen kommen. Im Ausgangstext sieht optisch alles mehr oder weniger sauber aus, da der Ersteller des Dokuments es für diese Sprache ausgelegt hat und entsprechend (umständlich) layoutiert hat. Aber wehe, es kommt dann zu einem Textzuwachs in der Übersetzung, wie es in der Regel oft der Fall ist. Dann sind folgende „Klassiker“ das Resultat:

  • abgeschnittene Texte in Textfeldern,
  • Texte, die über Seitenränder hinausragen
  • unnatürliche Abstände durch Arbeiten mit Leerzeichen statt Tabulatoren

Weitere Probleme können sein:

  • Dateien können aufgrund der übersetzungsunfreundlichen Gestaltung ohne entsprechende Vorbereitung gar nicht erst importiert werden.
  • Der Text ist im CAT-Tool so abgetrennt, dass die Gefahr von fehlerhaften Übersetzungen steigt (Beispiel: Harte Zeilenumbrüche in eigentlich zusammengehörenden Wortgruppen / Sätzen), weil der Übersetzer nicht erkennen kann, dass diese Wörter eigentlich zusammengehören.

Vor- und Nachbearbeitung nötig

Um eine akzeptable zielsprachliche Datei zu erhalten, fallen bei unsauberen Dateien entweder manuelle Vor- oder Nachbereitungsarbeiten an. Entweder Sie optimieren die Dateien selbst, oder das Übersetzungsbüro erledigt das für Sie. Im letzteren Fall werden aber vermutlich, je nachdem, was rahmenvertraglich festgelegt ist, Zusatzkosten anfallen. Und: Diese zusätzlichen Arbeiten können den Start der Übersetzung verzögern, was bei dringenden Projekten natürlich schwer wiegt. Daher: Lieber von Anfang an vermeiden und bereits bei der Erstellung der Dokumente an die Übersetzung denken.

Das Einmaleins für übersetzungsgerechte Dateigestaltung

Eine Grundregel für übersetzungsgerechte Dateien ist, dass sie (bis auf Excel-Dateien), einsprachig sein sollten. Sind in einer Datei mehrere Sprachen vorhanden und muss daher erst herausgesucht werden, welche Teile übersetzt werden müssen, bedeutet dies unweigerlich einen manuellen Arbeitsaufwand. Eine weitere Grundregel lautet, dass Texte in einem editierbaren Format vorliegen müssen, um sie ins CAT-Tool importieren zu können (dazu mehr hier). Jeglicher nicht editierbare Text – beispielsweise in Grafiken, die aus anderen Programmen oder Dateien herauskopiert wurden – müsste händisch abgetippt werden.

Hier einige klassische Beispiele von unsauberen Dateien:

 

Microsoft Word

Harter Zeilenumbruch (Hard Returns)

Leerräume und (mehrfache) Tabulatoren

Spalten durch Leerzeichen

Größe von Textfeldern

Tabellengestaltung

Nicht gruppierte Grafiken

Manuelle Inhaltsverzeichnisse / Seitenzahlen

Microsoft Excel

Unsaubere Ausgangstexte

Unpassende vorhandene Übersetzungen

Unvorteilhafter Aufbau

Microsoft Power Point 

Textzuwachs bedenken

Mehrsprachige Übersetzungen in Tabellen

PDF-Dateien

Gescannte PDF-Dokumente

Übergänge, falsche Trennungen von Wörtern/Sätzen

 

Microsoft Word

Harte Zeilenumbrüche (Hard Returns)

Harte Zeilenumbrüche in Word (wie auch in vielen weiteren Programmen) führen im CAT-Tool dazu, dass ein neues Segment begonnen wird. Werden also mitten in Sätzen, die eigentlich in der nächsten Zeile weitergehen, harte Zeilenumbrüche zur Formatierung benutzt, werden diese Sätze im CAT-Tool geteilt. Solche Sätze müssen vom Projektmanager händisch zusammengezogen werden, damit der Übersetzer sie richtig übersetzen kann und sie auch sinnvoll im Translation Memory gespeichert werden können. Häufig wird besonders in Textfeldern Text auf diese Weise formatiert.

 

↑ Zurück zur Übersicht 

Leerräume und (mehrfache) Tabulatoren

Werden Leerräume und mehrfache Tabulatoren zur Formatierung genutzt, führt das zu einer Verschiebung, sobald es zu einer Änderung der Textlänge durch die Übersetzung kommt. Dann sieht nichts mehr so aus, wie im Ausgangstext und es bedarf einer händischen Korrektur.

 

So bitte nicht! In diesem Beispiel wurden die Einzüge mithilfe von Leerzeichen, Tabulatoren und weiche Zeilenumbrüche (Soft Returns) gemacht.

↑ Zurück zur Übersicht 

Spalten durch Leerzeichen

Für die Erstellung von Spalten sollte die entsprechende Funktion in Word verwendet werden, wenn man ein Chaos in der Übersetzung vermeiden möchte.

 

 

In diesem Beispiel würde der fett gedruckte Text in Zeile 7 im CAT-Tool NICHT nach Zeile 6 angezeigt werden, er wäre kombiniert mit der ersten nicht fett gedruckten Zeile von der linken Spalte, was völlig falsch wäre. Der Übersetzer sieht den Satz im CAT-Tool so:

 

 

Hier müsste die Ausgangsdatei vor dem Import korrigiert werden, um eine korrekte Übersetzung zu ermöglichen.

Die Grundregel lautet: Alles, was kein korrekt formatierter Fließtext ist und irgendwie nicht den gängigen Regeln folgt (wie Formatierungen durch Leerzeichen statt Tabstopps, Formatierung durch Umbrüche mitten in Sätzen/Wörtern), bereitet Probleme beim Übersetzen.

↑ Zurück zur Übersicht 

Größe von Textfeldern

Auch dieser Punkt betrifft mehrere Programme, nicht nur Word. Textfelder sollten größer sein als es der Text eigentlich bräuchte. Somit schafft man Platz für die Übersetzung, die je nach Sprache etwas länger sein kann als der Originaltext. So müssen die Textfelder nicht erst nach der Übersetzung händisch größer gezogen werden. Kommt es dann bei der Übersetzung zu einer Texterweiterung, wird der Text vollständig angezeigt. So kann ein nachträgliches Größerziehen vermieden werden.

Hier ist das Textfeld größer, als für den deutschen Text nötig, sodass dann bei einem eventuellen Längenzuwachs in der Übersetzung der komplette Text zu sehen ist.

↑ Zurück zur Übersicht 

Tabellengestaltung

Werden Tabellen händisch gezeichnet und mit Tabulatoren, Leerzeichen und Bindestrichen „gestaltet“, führt dies im CAT-Tool zu einem unübersetzbaren Wirrwarr.

 

 

Ansicht im CAT-Tool, in dem der Übersetzer übersetzt:

 

 

Hier sollten die Tabellenfunktion von Word sowie bedingte Trennstriche verwendet werden, sodass die Wortteile, die zusammengehören, im CAT-Tool nicht getrennt werden und der Übersetzer die Wörter richtig übersetzen kann.

↑ Zurück zur Übersicht

Nicht gruppierte Grafiken

Werden beschreibende Textfelder von Grafiken nicht gruppiert, passiert es nach dem Export der Übersetzung oftmals, dass sich alles verschiebt und die Pfeile, die auf ein bestimmtes Bauteil weisen, plötzlich ganz woanders hin zeigen.

↑ Zurück zur Übersicht

Manuelle Inhaltsverzeichnisse / Seitenzahlen

Wenn Inhaltsverzeichnisse nicht mit der entsprechenden Funktion in Word erstellt werden, sondern manuell, müssen nach der Übersetzung sämtliche Seitenzahlen überprüft werden, anders kann eine korrekte Darstellung nicht garantiert werden. Dies trifft auch bei händisch erstellten Verweisen auf andere Seiten zu. Sobald der Text durch einen Längenzuwachs in der Übersetzung nicht mehr auf derselben Seite steht, ist die Seitenzahl falsch.

Keine gute Idee ist es ebenso, ein automatisch erstelltes Inhaltsverzeichnis nachträglich manuell zu bearbeiten und zum Beispiel Seitenzahlen zu ändern oder Zwischentitel (die im Text gar nicht vorkommen) einzufügen. Diese werden vom CAT-Tool nicht erkannt und meist merkt man erst nach der Übersetzung, dass es unübersetzte Teile gibt.

↑ Zurück zur Übersicht

Microsoft Excel

Mit Microsoft Excel bietet sich unter anderem die Möglichkeit, Texte in mehreren Sprachen in einem Dokument zu verwalten (jeweils in einer eigenen Spalte) und zu übersetzen. Sollte es bereits bestehende Übersetzungen von einzelnen Zellen geben, können diese wahlweise importiert oder ignoriert werden (sie bleiben dann im übersetzten Dokument bestehen). Auch eine Excel-Datei muss sauber sein, um sie ohne großen Aufwand übersetzen zu können.

Unsaubere Ausgangstexte

Achten Sie darauf, dass in der Spalte, die den Ausgangstext enthält, auch wirklich nur eine Sprache enthalten ist. Gerade bei schier endlosen Excel-Listen, die über Jahre entstanden sind, kommt oftmals eine Mischung von Begriffen vor (zum Beispiel: deutsche Begriffe in einer ansonsten englischen Liste). Dies führt nicht nur zu unsauberen Einträgen im Translation Memory (ein Translation Memory ist immer nur für eine Ausgangssprache und eine Zielsprache gedacht), sondern evt. auch zu Rückfragen und macht vielleicht sogar eine vorherige Zwischenübersetzung nötig.

 

In dieser Excel-Liste herrscht ein mehrsprachiges Chaos in der Ausgangsspalte A – Englisch und Deutsch ist gemischt, außerdem korrelieren die vorhandenen Übersetzungen in den Spalten B und C augenscheinlich nicht immer mit dem Ausgangstext.

 

Beispiel: Wenn ein Text vom Englischen ins Japanische gehen soll, immer wieder aber auch deutsche Begriffe auftauchen und das dem Projektmanager nicht sofort auffällt, wird sich spätestens bei der Übersetzung der Übersetzer melden und fragen, was mit diesen Texten passieren soll. Schwierig wird es vor allem dann, wenn der Übersetzer kein Deutsch spricht. Dann müssten sämtliche deutschen Texte zuvor ins Englische übersetzt werden, was wiederum mit zusätzlichen Kosten verbunden ist. Hinzu kommt, dass das Herausfiltern von anderssprachigen Textteilen nicht vom Computer gemacht werden kann. Der Projektmanager muss sich durch die Excel-Liste scrollen und die Texte heraussuchen. Dass das bei einer langen Liste viel Zeit in Anspruch nehmen kann, liegt auf der Hand.

↑ Zurück zur Übersicht

Unpassende vorhandene Übersetzungen

Immer wieder gibt es in Excel-Dateien schon vorhandene Übersetzungen, die „so belassen werden“ sollen und nur der fehlende Rest soll übersetzt werden. Bei genauerem Hinsehen entdeckt der Projektmanager nicht selten, dass die Übersetzung augenscheinlich überhaupt nicht mit der Ausgangsspalte korreliert. Auch hier müsste man händisch heraussuchen, welche Übersetzungen unpassend sind – oder, noch besser – alle vorhandenen Übersetzungen überprüfen lassen.

↑ Zurück zur Übersicht 

Unvorteilhafter Aufbau

Mehrsprachige Excel-Tabellen sollten möglichst einfach aufgebaut sein, nämlich so, dass in jeder Zeile ein Satz/eine Wortgruppe steht und zusammengehörende Textteile nicht über mehrere Zellen gehen. Auch ein nachträgliches Zusammenziehen von Zeilen in nur einer Sprache ist problematisch, wie am nachfolgenden Beispiel ersichtlich:

 

In der DE-Spalte wurden Zeile 4 und 5 zusammengezogen, im EN-ist das nicht der Fall. Aus diesem Grund kann hier kein multilingualer Import im CAT-Tool erfolgen. Der Computer kann mit einer solchen mangelnden Deckungsgleichheit nichts anfangen. Es müsste in diesem Fall händisch auch Spalte B entsprechend formatiert werden.

 

 

Diese Datei ist einsprachig. Der Text in Spalte A in Zeile 2 geht bis in Zeile 3. Ein Blick ins CAT-Tool zeigt das Problem (rechter Screenshot): Der Text wird nicht zusammenhängend importiert, es ist Text der Spalten B und C dazwischen, sodass es der Übersetzer schwer hat. 

↑ Zurück zur Übersicht

Microsoft Power Point

Gerade in Programmen wie Microsoft Power Point nutzen Dokumentersteller gerne die vielfältigen Möglichkeiten zur ansprechenden Gestaltung von Präsentationen und sparen nicht mit der Verwendung verschiedenster Design-Elemente, Grafiken etc. Auch hier gilt: In der Sprache, in der das Dokument erstellt wurde, ist das kein Problem, erst, wenn die Datei übersetzt werden soll, kann es zu Schwierigkeiten und einem längeren Nachbearbeitungsaufwand kommen.

Textzuwachs bedenken

Gerade bei Power Point-Folien ist es wichtig, den Textzuwachs in diversen Sprachen bei der Erstellung einzuberechnen. Auf Power Point-Folien hat in der Regel nicht so viel Text Platz (und er muss auch noch in einer größeren Schriftart dargestellt werden), daher tendiert man dazu, jeden Platz zu nutzen. Wird die Präsentation dann zum Beispiel ins Französische oder Russische übersetzt, kann man davon ausgehen, dass viele Texte über die Seitenränder ragen und nicht mehr in die vorhergesehenen Textfelder passen. Daher: Power-Point-Folien nie bis zum Äußersten mit Text und Grafiken „vollstopfen“ und Textfelder entsprechend groß ziehen, wenn man sich Formatierungsarbeiten nach der Übersetzung ersparen will.

 

In diesem Beispiel wird deutlich, wie wichtig es ist, dass die einzelnen Einträge auch in der Übersetzung exakt an der Stelle sind, an der sie im Deutschen sind. Eine Sommerurlaubszeit im Oktober/November hätte wenig Sinn. Daher sollte bei der Erstellung ein möglicher Textzuwachs in der Übersetzung einkalkuliert werden und das Textfeld entsprechend groß gestaltet werden.

↑ Zurück zur Übersicht

Mehrsprachige Übersetzungen in Tabellen

Abgesehen von Microsoft Excel, sind Tabellen für die Übersetzung von mehreren Sprachen immer mit zusätzlichem Aufwand verbunden. Die Übersetzungen können nicht automatisch in die dafür vorgesehenen Zellen eingefügt werden, sondern der Projektmanager muss diese händisch hineinkopieren. Dass das nicht nur ein langwieriger, sondern auch fehleranfälliger Prozess ist, versteht sich von selbst.

 

In diesem Beispiel müsste der übersetzte Text händisch in die Folien kopiert werden, um eine einzige Präsentation zu erhalten, anstatt je eine für DE, EN, IT und FR. Zusätzlich ist in diesem Beispiel problematisch, dass der Platz knapp bemessen ist. Die Übersetzungen der letzten Zeile werden vermutlich nicht mehr Platz haben, der Text müsste verkleinert, aufgeteilt oder gekürzt werden.

↑ Zurück zur Übersicht

PDF-Dateien

PDF-Dateien sind leider immer mit zusätzlicher Arbeit für das Übersetzungsbüro verbunden, da der Text nicht editierbar ist. Wie eingangs schon erwähnt, ist dies aber eine Voraussetzung, um den Text ins CAT-Tool importieren zu können. Um das zu ermöglichen, muss die Datei erst einmal konvertiert werden. Und das funktioniert, je nach Dokumentgestaltung und -aufbau, oft mehr schlecht als recht.

„Normale Fließtexte“, die zuvor in Word erstellt wurden, lassen sich meist ohne Probleme konvertieren. Schwieriger wird es, sobald Tabellen, Diagramme, Grafiken o. Ä. eingebaut sind. Hier werden im Zuge der Konvertierungen Abschnittswechsel eingefügt, die man dann nicht mehr so einfach löschen kann, ohne die Formatierung gänzlich zu „zerstören“. Etliche Texte werden auch gar nicht als solche erkannt und somit nicht (korrekt) konvertiert. Sie fehlen dann im CAT-Tool und stehen nicht für die Übersetzung zur Verfügung (das bedeutet, sie müssen vorher händisch abgetippt werden und nach der Übersetzung wieder händisch ins Dokument „gebastelt“ werden). Im Klaren sein muss man sich auch darüber, dass automatische Inhaltsverzeichnisse und interne Verweise im konvertierten Dokument nicht mehr funktionieren, sie müssen nach der Übersetzung händisch angepasst werden.

Gescannte PDF-Dokumente

Besonders problematisch sind eingescannte Dateien und handschriftliche Vermerke. Hier gibt es in der Regel große Schwierigkeiten bei der Konvertierung. Meist werden gewisse Buchstaben (oft Umlaute, Zahlen etc.) nicht korrekt erkannt und somit besteht die Gefahr von fehlerhaften Übersetzungen. Hier müsste die gesamte Datei vor der Übersetzung von einem Menschen überprüft und mit dem Original verglichen werden, damit der Ausgangstext korrekt und eine adäquate Übersetzung möglich ist.

↑ Zurück zur Übersicht

Übergänge, falsche Trennungen von Wörtern/Sätzen

Wenn die Software nicht zuverlässig erkennen kann, dass Wörter/Buchstaben eigentlich zusammengehören und sie trennt, zum Beispiel durch Umbrüche, Abschnittswechsel, Tabulatoren etc., führt dies dazu, dass der Text im CAT-Tool nicht mehr richtig angezeigt wird. Es könnte also sein, dass der erste Teil eines Satzes in einem Segment im CAT-Tool steht und der zweite Teil an irgendeiner anderen Stelle. In so einem Fall ist es dem Übersetzer dann nicht mehr möglich, eine sinnvolle Übersetzung zu erstellen, denn er weiß ja gar nicht, dass dieser Satz woanders weitergeht. Teilweise ist dies auch bei Sätzen am Ende einer Seite so. Von der Software wird nicht erkannt, dass diese auf der nächsten Seite weitergehen und erst dort zu Ende sind. Dies kann bedeuten, dass die Sätze im CAT-Tool dann einfach aufhören und das Ende des Satzes an einer anderen Stelle steht.

 

 

Hier sollte der Satz „Perfect solutions for the medical device and diagnostics industries” eigentlich in einem Segment im CAT-Tool stehen. Stattdessen wurde er auf zwei Segmente aufgeteilt (und das auch noch recht unvorteilhaft) mit einem völlig aus dem Zusammenhang gerissenen Wort Applications dazwischen. Dies ist einer schlechten Texterkennung im Zuge der Konvertierung einer PDF-Datei geschuldet.

 

Neben der längeren Vorbereitung von PDF-Dateien ist es in der Regel auch so, dass nach der Übersetzung ein Nachbearbeitungsaufwand anfällt, um halbwegs schön layoutierte Dateien zu erhalten.

Abhängig von der Qualität der PDF-Datei und dem Ergebnis, das dem Ersteller des Dokuments vorschwebt, ist bei PDF-Dateien ein mitunter beträchtlicher zusätzlicher Arbeitsaufwand zu erwarten. Versuchen Sie, wann immer es möglich ist, Dateien im Originalformat zu schicken.

↑ Zurück zur Übersicht

 

Dies waren nur einige von unzähligen Beispielen zur Illustration von „unsauberen“ Dateien. Unser Tipp: Berücksichtigen Sie im Idealfall schon bei der Erstellung Ihrer Dokumente, dass diese übersetzt werden müssen und gestalten diese dementsprechend.

 

 

 

Titelbild: © Adobe Stock