翻譯記憶

本页使用了标题或全文手工转换
维基百科,自由的百科全书

翻譯記憶(英語:Translation Memory,縮寫為TM),又稱翻譯記憶體翻譯記憶庫,是電腦程式軟體的資料庫,用來輔助人工翻譯

有時,使用翻譯記憶庫的軟體也常被稱為 TMM (Translation Memory Managers)或者譯者的工作臺(translator's Workstation)。

翻譯記憶庫多見於電腦輔助翻譯工具、文字編輯程式、專用術語管理系統(Terminology Management Systems)、多語辭典、甚至是純機器翻譯的輸出之中。

一個翻譯記憶單元包含了源語言的一個句段(segment)以及其所對應的翻譯。這些句段可以是文字區塊、章節、一個或是數個句子、或是詞語。個別的字詞常被視為專用術語來處理,一般而言不在翻譯記憶的領域之中(即使翻譯記憶庫依舊可以包含單一字詞為其翻譯記憶單元)。

研究顯示,市場上已有很多公司,使用了翻譯記憶庫的技術,來輔助建立多語言文件。

使用翻譯記憶庫

譯者首先提供一段來源文字(亦即要拿來被翻譯的文字)給翻譯記憶庫,程式會先分析這段文字,試著在資料庫裏找尋既有的翻譯區段是否與過去曾經翻譯過的文字相符。如果找到相符的舊有翻譯(legacy translation pairs),則會呈現出來給譯者檢閱。譯者可以選擇接受舊有的翻譯、拒絕、或是加以修改。若加以修改,則修改的版本也會被記錄並存進資料庫裏。

某些翻譯記憶庫系統只會搜尋 100% 相符的文字,也就是說:只會將新的來源文字與資料庫內做精確的比對,只有完全相符的資料才會被提出。也有其他的系統會使用模糊比對原理來找尋相似的區段,並且會用特別的標記呈現給譯者使其易於辨認。有一點很重要的是一般的翻譯記憶系統只會從其資料庫裏搜尋來源語言。

完全無相似(no match)的文字區段將必須由譯者手動的翻譯。這些新翻譯的文字區段會被存進資料庫裏,則未來的翻譯將有可能因為來源文字重複出現而可以馬上被採用。

翻譯記憶庫在文章字詞重複相當高的情況之下將可運作的相當好,例如一些技術文件或是手冊。翻譯記憶庫對於翻譯一個從過去既有文件逐步增修的狀況來說也很有幫助。一般而言,翻譯記憶庫在文學或是創意文件裏不會被考慮採用,主要是因為這些類型的文章其重複性相當低。然而,也有人認為這些重複性極低的文字仍就值得加以蒐集,例如在用語索引(concordance)的搜尋時便可派上用場。其他蒐集翻譯記憶庫的幫助也可在品質驗證校閱時有所幫助(利用翻譯記憶庫,可以很簡單的將來源語言與目標語言匯出,使其每行一對,並且以 tab 分隔來源與目標,便於確認有無未翻文字,或是使譯者便於校閱)。

當翻譯記憶庫被持續的使用在適當的文字上一段時間之後,其將可為譯者省下不少的工作量。

主要的優勢

翻譯記憶針對技術文件或是具有特定辭彙的文章來說是最合適的。其優勢包含:

  • 確保文件完整的被翻譯(翻譯記憶不接受記憶區段裏的目標語言無資料)
  • 確保翻譯文件的一致性,包含通用定義、語法或措詞、以及專用術語。這針對多個譯者同時在翻譯一個專案或文件時相當重要。
  • 使譯者不須自行處理眾多不同檔案格式的檔案,僅需面對翻譯記憶庫軟體提供的界面或是單一的檔案格式便可進行翻譯。
  • 加速整體翻譯的速度,即翻譯記憶庫已「記憶」先前已翻譯過的素材,譯者針對重複的文字僅需翻譯一次。
  • 降低長時間的翻譯專案的開銷;以使用手冊為例,警告訊息這類大量重複的文字僅需被翻譯一次,便重複被使用。
  • 針對大型文件的專案而言,即使在首次翻譯時翻譯記憶庫的使用效益並不明顯,但當進行該專案的衍生專案(例如文件的修訂版)時,翻譯記憶庫的使用便可大幅節省翻譯的時間與金錢。

主要的障礙

使用翻譯記憶所面臨主要的困難與缺點包含如下:

  • 「翻譯記憶」的概念是基於:文句過去的翻譯可以被「回收再利用」。然而,翻譯的其中一個原則是,譯者必須翻譯文字所要表達的訊息(即意譯),而不是翻譯片段的句子。(常見翻譯記憶的使用皆是以一句作為一個翻譯單元(Translation Unit)或翻譯區間(Translation Segment),使得翻譯具有前後文關係的文件時容易變成是單獨翻譯多個句子後再加以組合)。
  • 翻譯記憶軟體並不是很容易的可以套用至既有的翻譯或是本土化(Localization)的流程之中。為了要使翻譯記憶的使用能夠有更大的效益,翻譯流程必須被重新規劃。
  • 翻譯記憶軟體並不支援所有的文件格式,可用的文件過濾器不見得支援所有的檔案類型。
  • 使用翻譯記憶軟體有其學習曲線必須克服,此外,軟體本身尚須被客製化以發揮最大效益。
  • 若部份的翻譯流程,被外包給不在公司的自由翻譯家(Freelance Translator),這些譯者必須擁有特定的軟體,可以開啟由翻譯記憶軟體所產生的檔案格式,才能進行翻譯。
  • 一些具備完整功能的翻譯記憶軟體往往每一個授權要價 500-2,500 美元 (以現今匯率計算約為新台幣一萬五~九萬之間),可視為一項值得考慮的投資。然而,有些程式開發者也製作免費或相當低價的所謂的譯者版給單一的譯者,使其可以開啟由完整版所建立的檔案以進行翻譯。(市面上依舊有一些免費軟體共享軟體提供了 TM 的功能,但目前皆未取得較大的市場佔有率。)
  • 要將使用者過去的翻譯匯入翻譯記憶庫裏,以及相關的教育訓練等所帶來的開銷,也變成一種值得考慮的投資。
  • 維護翻譯記憶庫,在多數的例子裏,仍舊需要不少人工的步驟,而不當的維護將導致 TM 相符度的顯著降低,其可用性與品質也相對受到影響。
  • 如同前述,翻譯記憶軟體不見得適用於字詞或文句很少有重複的文件類型,或是在歷次修訂版中不會包含部份更新的狀況。技術文件通常最適合使用翻譯記憶,然而市場行銷或是創意文句並不適合。
  • 翻譯記憶庫裏所儲存的記錄並不保證正確;如果某一特定區段的翻譯並不正確,則這不正確的翻譯將會在下一次相同或近似的來源文字裏再次被回收使用,這導致問題將會持續存在。

翻譯記憶庫(軟體)的功能

離線功能

匯入

這功能是用來將外部的文字與翻譯從文字檔傳輸到翻譯記憶庫裏。匯入功能的來源檔案可以是原生檔案,也可以是其他業界標準的翻譯記憶檔案。有時有些翻譯記憶庫是以其他形式儲存,則必須透過一些格式轉換才能進行匯入。

分析

分析的過程可以再細分為下面幾項:

文句分析(Textual parsing)
辨識文句的標點符號相當重要,例如必須要能正確的辨認文句結尾的句點與縮寫的句點,正確的判定文句結尾的位置。其他應視為文句段落的標點符號或是標記也必須盡量的被辨識出來,例如在多數的狀況之下問號、驚歎號等也是文句結尾的判定之一,很多狀況之下像是冒號、換行符號等也會被作為文句段落的辨識標記。在譯者正式開始翻譯之前通常都要先對文句進行標記,該動作是將不須被翻譯的符號或是段落給予特定標記,將必須被翻譯的文句給予另一種標記。
句法分析(Linguistic parsing)
句法分析旨在減少文句中基本形態字詞的數量,做法是從文章中萃取出專用術語、詞組等。
區段化(Segmentation)
其目的是找出最有用的翻譯單元(Translation Unit)。區段化有點類似文句分析,他是在單一語言下進行,並使用可定義的規則來進行表面的分析,例如可定義哪些特定類型的符號或是標記應被納入翻譯單元裏,哪些符號應被視為結束一個翻譯單元的點。舉例來說,一個冒號的前後文可以視為一個完整的段落(翻譯單元),但在一些狀況下冒號前後也會被拆解為兩個翻譯單元。假設譯者手動改變了翻譯單元,例如合併了某兩個翻譯單元為一個,或是將一個翻譯單元拆解為兩個或多個,則下一次的文件版本更新將會喪失這個翻譯單元的相符性,因為下一版本仍就會以既定的規則來對文件進行區段化。
平行對齊(Alignment)
這是將來源語言與目標語言文字平行對應對齊的工作。區段化的標準將會影響平行對齊的效果,通常也得仰賴好的平行對齊演算法來校正區段化的錯誤。
專用術語抽出
前一版本的詞語辭典可被拿來使用,或是再行針對既有的文件抽取未知的術語。通常可以藉由文字分析的統計來抽出這些詞語,例如從文字的重複性來加以分析。

匯出

線上功能

萃取

更新

自動翻譯

共同作業

文字記憶

「文字記憶」(Text Memory)是基於LISA OSCAR xml:tm 標準页面存档备份,存于互联网档案馆)而定義的。文件記憶包含了作者(譯者)的記憶與翻譯記憶。

作者(譯者)記憶

在創作(翻譯)的過程中,每一個文字單元都會被賦予一個唯一的辨識碼。文字單元是構成文句的一個子集。

翻譯記憶

在翻譯過程中,唯一個辨識碼會被記憶下來,如此則目標語言的文件皆會被一一的對應到每一個文字單元的層級。如果來源文件隨後被更改而異動,則文件裏沒有異動的文字單元將可直接的被轉一到新的目標語言版本而不須譯者而額外的檢閱、翻譯等互動。這是翻譯記憶裏的「精確」(exact)或是「完美」(perfect)相符的概念。「xml:tm」也提供了文件內對應匯入與模糊比對的機制。

翻譯記憶相關標準

TMX

Translation Memory Exchange format(翻譯記憶交換格式),TMX標準實現不同翻譯軟體供應商之間翻譯記憶庫的互換,為翻譯社群所採納的匯入匯出翻譯記憶的最佳辦法。目前最新的版本是1.4b,允許從TMX資料重建來源文件和目標文件。

TBX

Termbase Exchange format(Termbase交換格式),該標準允許含有詳細詞彙資訊的術語資料作互換。TBX的資料結構架構由ISO 12620、ISO 12200、以及ISO Committee Draft 16642(別名TMF,Terminological Markup Framework)所提供。ISO 12620 提供完整定義的「資料類別」清單,其中包含可做為項目類型或預定值的標準化名稱。ISO 12200 (亦稱為MARTIF) 提供TBX核心結構的基礎。

SRX

Segmentation Rules Exchange format(分段規則交換格式)。SRX的目的是加強TMX標準,以便可以更有效率地使用在應用程式之間交換的翻譯記憶資料。

GMX

GILT Metrics. GILT stands for 全球化(Globalization)、國際化(Internationalization)、本地化(Localization)與翻譯(Translation)。

OLIF

Open Lexicon Interchange Format页面存档备份,存于互联网档案馆).

XLIFF

XML Localisation Interchange File Format页面存档备份,存于互联网档案馆)(XML本地化交換檔案格式)。其目的是提供所有當地語系化提供者都能瞭解的單一檔案交換格式。XLIFF是業界使用XML格式來交換資料時的慣用方式。

TransWS

Translation Web Services页面存档备份,存于互联网档案馆)(翻譯線上服務).

xml:tm

xml:tm

參見

桌上翻譯記憶軟體

一般譯者通常使用桌上翻譯記憶工具來完成翻譯工作。桌上翻譯記憶工具是適用於翻譯用途的工具,就如同文書處理程式是適用於寫作的工具。

自由且開放原始碼的軟體(FOSS)

  • OmegaT,跨平台的電腦輔助翻譯工具。沒有語言限制(來源和目標)。直接支援MS Office 2007格式、OpenOffice.org格式、OpenDocument Format(ODF)、DocBook XML、(X)HTML、HTML Help Compiler files(HTML幫助編譯文件)、純文字文件、java .properties、PO。授權形式:GPL。需求環境:Java JRE
  • Open Language Tools,跨平台的電腦輔助翻譯工具,沒有語言限制(來源和目標)。以自有格式(compressed XLIFF 1.0)運作,提供多種格式相互轉換:HTML、DocBook SGML、JSP、XML(需要設定檔)、OpenOffice.org 格式、Open Document Format、純文字、PO、java .properties、Java RessourceBundle、Mozilla .DTD 資源檔、授權形式:CDDL。需求環境:Java JRE
  • Transolution页面存档备份,存于互联网档案馆),跨平台的電腦輔助翻譯工具。沒有語言限制(來源和目標)。支援XLIFF檔案,授權形式:GPL。需求環境:Python

專屬但是免費的軟體

  • Appletrans页面存档备份,存于互联网档案馆), Mac OSX computer aided translation tool. No language limitations (source and target). Supports RTF, HTML, XML. No access to source.
  • MemoQ 4Free, Windows computer aided translation tool. Some languages not supported in source (including Japanese, Chinese, Korean). Supports MS formats (.doc, .xls, .ppt, .rtf), HTML, plain text, TTX, Framemaker .mif files. Free of charge version available, no access to source. Requires .NET 2.0
  • Wordfast Anywhere页面存档备份,存于互联网档案馆)- 是Wordfast的雲端版本的翻譯記憶的軟體。支持多種格式文件(包括PDF),可以免費註冊使用。

專屬且要付費的軟體

集中式翻譯記憶

集中式翻譯記憶系統將TM儲存於中央伺服器。

自由軟體


非免費軟體

外部资料