Számítógéppel támogatott fordítás

A számítógéppel támogatott fordítás (angolul: computer-assisted translation, CAT) szövegek ember által végzett, de számítógéppel támogatott fordítása egyik nyelvről a másikra.

Számítógéppel támogatott fordítás kontra gépi fordítás

A CAT-programok nem maguk fordítanak, hanem az emberi fordítót támogatják a munkájában. A gépi fordítás ezzel szemben automatikusan, ember beavatkozása nélkül jön létre.

A technikákat olykor keverik; egyes fordítóirodák mérsékelt árakon gép által előállított, majd emberi fordító által ellenőrzött (korrigált) fordítást is kínálnak.

Előnyei

ügyfél- vagy ágazatspecifikus terminológia használata
(a gépi fordítással szemben:) jobb megfelelőség
kollaboratív munka megkönnyítése
rövid átfutási idő
olcsóság
jobb költségkontroll

Kompenensek

A CAT-rendszerek általában a következő részekből állnak:

Fordítómemória (Translation-Memory-System)
Terminológiai adatbázis
Konverterek szövegszerkesztő- és Desktop Publishing-programokhoz
Alignment-eszközök, amelyekkel már létező fordítások (összetartozó forrás- és célnyelvi szövegek) is betáplálhatók a mondattárba.
Projektmanagement- és munkafolyamat-komponensek

Fordítómemória vagy fordítói mondattár

A fordítómemória vagy fordítói mondattár (ang. translation memory, röv. TM) egy adatbázis strukturált mondatokkal és azok fordításaival.

Adatbázis-struktúra

Az adatbázisok alapvetően kétféleképpen épülhetnek fel:

Léteznek olyan adatbázisok, amelyekben a mentett szegmensek összetartozó szövegek [kiindulási- (forrás-) és célnyelvi szövegek]. Előnyük, hogy nem elszigetelt mondatokat mentenek, hanem minden mondatot a szövegkörnyezetével együtt. Az adatbázis-lekérdezés témákra szűkíthető, így a fordító gyorsabban kiválaszthatja a megfelelő találatot.
Másrészt vannak adatbázisok, amelyekben a szegmensek több mondatból vagy egész bekezdésekből állnak, amelyeket elszigetelten, tehát a forrásszöveg szövegkörnyezete nélkül mentenek el.

Gyakorlati munka

A gyakorlatban a fordítói mondattárral való munka azzal kezdődik, hogy importálnak egy (szövegszerkesztő programból származó) forrás-szöveget. Az alkalmazás olyan megfogalmazásokat keres az adatbázisban, amelyek egy állítható azonossági értéknél találóbbak, és fordításként felkínálja azokat. Ezeket a szerkesztő személy elfogadhatja, elutasíthatja vagy módosítva beemelheti a készülő fordításába. Ha nincs megfelelő szegmens, a szerkesztő új fordítást is begépelhet, amelyet az ilyen alkalmazások automatikusan elmentenek a meglévő szegmensek közé. Ettől fogva az alkalmazás a hasonló szegmensek előfordulásakor ez utóbbi megoldást is fel fogja kínálni. Ha a szegmenseket további adatokkal látják el, az később segít a több megfejtés közötti választásban. Ilyenek például:

az elmentett fordítás szerzője (létrehozott / módosított szegmens)
keletkezés/módosítás dátuma
a megfogalmazás gyakorisága
a megfogalmazás szövegkörnyezete
további osztályozó adatok

Ezeket az alkalmazás vagy automatikusan rendeli a szegmenshez, vagy a fordító személy adja meg manuálisan.

Annak felismeréséhez, hogy a keresett szöveg mennyire hasonlít egy már mentett kiindulási szegmenshez, az alkalmazás a szöveg betűsorozatain kívül az írásjeleket, szóközöket, sortöréseket és akár a formázásokat is értékelheti.

Műszaki jellemzők

Általában a TM-rendszerek rendelkeznek olyan funkciókkal, amelyek a tárolt forrásmondatokat számoktól, dátumoktól, mértékegységektől vagy tulajdonnevektől függetlenül is képesek felismerni.

A hasonló forrásszegmensek felkutatása különböző keresőalgoritmusok segítségével történik, amelyek a hasonlóságot legtöbbször százalékban becsülik meg.

A szövegszerkesztő- és DTP-alkalmazásokból származó szövegeket a TM-rendszerek számára szűrő- és kicsomagoló alkalmazások állítják rendelkezésre, amelyek kiolvassák az adott file (pl. DOCX vagy INDD) hasznos tartalmát. Ennek eredményeképpen egy tagelt (kijelölésekkel ellátott) file-t kapunk, amelyben a fordítandó tartalom speciális kijelölések (tagek) között van. Ezeket a layout-tageket a rendszer védi, illetve elrejti, nehogy véletlenül felülírják vagy megváltoztassák. Szoftverek fordításánál (lokalizálásnál) a programkód ezáltal megvédhető az akaratlan változtatástól. A kijelölések abban segítik a fordítás után működésbe lépő szűrőprogramot, hogy a szövegeket ismét a megfelelő helyre tegyék a kimeneti file-ba, és alkalmazzák a formázásokat (félkövér, dőlt stb.) a kész szöveg megfelelő helyein. A legtöbb TM-rendszer rendelkezik olyan szerkesztővel, amely megkönnyíti a munkát az ilyen tagelt file-okkal.

A különböző TM-rendszerek közötti adatcserénél a fordítói memóriákat a TMX-formátumon keresztül (Translation Memory eXchange) és a projekteket az XML Localization Interchange File Format (XLIFF) lehet transzferálni. Ezek nyílt formátumok, a legtöbb professzionális fejlesztőcég támogatja őket. Mivel a rendszer tartalma erősen függ a mindenkori szegmentálás módjától és a TMX-formátum definíciója tág teret hagy az értelmezésnek, az adatátvitel általában veszteségekkel jár.

Terminológiai adatbázis

A terminológiai adatbázis egy speciális terminológiák kezelésére szolgáló adatbázis. A felhasználási célok az egyszerű szótáraktól és glosszáriumoktól kezdve a strukturált tezauruszokig terjedhetnek.

A terminológiai adatbázisok segítik mind a szerkesztőségi, mind a fordítói munkát. Segítenek az egyértelmű, konzisztens és ellenőrzött szak- és vállalati terminológia használatában és a „tiltott” terminológia kerülésében (pl. idegen gyártók termékmegjelölései). Fordítás során felkínálják a felhasználónak a kifejezések célnyelvi megfelelőit. Több rendszer a desktop-változaton kívül webes komponenssel is rendelkezik a terminológiák intra- vagy internetes eléréséhez.

Az adatok nyelvészeti információkon túl (mint a szófaj, nem, szám) szakmai (mint a szakterület) és metainformációkat is tartalmaznak (pl. forrás), valamint példákat a szövegkörnyezetre. Fontos, hogy az adatok jól strukturáltak és automatikusan feldolgozhatók legyenek.

Import/export formátumok

Gyártófüggetlen transzferformátumként keletkezett az SGML-alapú MARTIF (Machine-Readable Terminology Interchange Format) ld. ISO 12200:1999-10. Az XML-alapon keletkezett TermBase eXchange (TBX) formátumot az ISO 30042:2008-12 szabvány írja le. Emellett a legtöbb terminológiai adatbázis további adatformátumot is támogat, ilyenek pl. a CSV vagy a Microsoft Excel, hogy a felhasználók létező terminológialistákat emelhessenek át az adatbázisba, vagy hogy adatbázisbeli terminológiát exportálhassanak.

Alkalmazás

A következő, közel sem kimerítő felsorolás tartalmazza a legfontosabb, a piacon elérhető alkalmazásokat.

Alkalmazás	Támogatott formátumok	Operációs rendszer	Licenc
Across	MS Office-file-ok, DXF, RTF, TXT, TeX, HTML, XML, SGML, Adobe FrameMaker, InDesign és InCopy, BroadVision QuickSilver, QuarkXPress, EXE, DLL, Resource Script-file-ok, Microsoft.NET, MSI, INI, OCX, SCR, CPL, NLS, PO, MC, Java Properties, forrásfile-ok Android-, iPhone- és BlackBerry-Appekhez	Windows	szabadalmazott
MemoQ	MS Office-file-ok, XLIFF, ttx, sdlxliff, Text, XML, HTML, OpenOffice, Java (.properties), Windows NET (.resx), Adobe Indesign, Adobe Framemaker, AuthorIT, Typo 3, Visio, PDF, TMX-file-ok feldolgozása. STAR Transit- és SDL-Trados-Projektek feldolgozása	Windows, hivatalos támogatás a Parallels által	szabadalmazott
SDL Trados	MS Office-file-ok, OpenOffice, InDesign, QuarkXPress, PageMaker, Interleaf, Framemaker, HTML, SGML, XML, XLIFF, TMX, TBX, SVG	Windows	szabadalmazott
Wordfast Classic / Pro	MS Office-file-ok (Windowsra és Macre); címkézett dokumentumok	Classic: MS Office Word-Addin Pro-verzió: platform-független (Java)	szabadalmazott

További információk

Uta Seewald-Heeg, "Der Einsatz von Translation-Memory-Systemen am Übersetzerarbeitsplatz" (2005) (PDF; 3,1 MB)
S, Guillardeau, "Freie Translation Memory Systeme für die Übersetzungspraxis" (2009) (PDF; 2 MB)
Bővebben a gépi fordításról: történet, módszerek, aktualitások (2018)
CAT-rendszerek, -eszközök és -szabványok áttekintése Archiválva 2018. január 25-i dátummal a Wayback Machine-ben

Informatikai portál • összefoglaló, színes tartalomajánló lap