雙語對齊:ABBYY Aligner & Tmxmall對齊平台

  1. 工具簡介

1.1 ABBYY Aligner工具簡介

ABBYY Aligner是一款翻譯對齊的軟體,可以根據用戶的設置自動實現雙語對齊,還可以將翻譯的內容在軟體上編輯,支持多個國家的語言。同時,其還支持統計功能,可以顯示對齊總數,及已經完成、錯誤的內容,方便查看本地對齊處理的結果。

1.1.1 高質量的平行文本對齊

ABBYY的開發者專門為ABBYY Aligner 2.0開發了詞彙數據庫。ABBYY Aligner 2.0可以更精確的將文本分成一些片段,並且通過順序將其與文本中的翻譯相匹配,找到最好的匹配部分,從而能夠得出更好更精確的翻譯對齊,為人工校對對齊節省時間。

1.1.2 文件格式要求簡單

ABBYY Aligner 2.0的文本導入操作簡單,直接從文本複製到編輯者窗口就可以進行編輯。

1.1.3 保存結果適用性強

ABBYY Aligner 2.0在翻譯記憶格式(TMX 1.4b 標準版)或RTF格式保存結果。TMX(翻譯記憶可變換格式)是一個實際上被所有的翻譯記憶系統支持的國際標準。當以TMX格式保存ABBYY Aligner 2.0文件時,這個結果可以在其他應用程式上被重新使用,例如CAT(電腦輔助的翻譯)工具,這個是被廣大翻譯者所使用的。並且,對齊的結果可以被存為RTF格式。RTF格式是一個轉換文本文檔的標準格式,並且被許多微軟的產品支持。

1.1.4 界面簡潔

ABBYY Aligner 2.0擁有簡單直白的界面,能夠讓使用者更快地明白它的主要元素,使用其工作起來更舒適、更快速、更有效率。

1.2 Tmxmall工具簡介

Tmxmall是一個網頁版線上收費雙語語料對齊平台,屬於上海一者資訊科技有限公司,由來自百度和華為的核心技術人員於2015年11月創建,隨著不斷的發展完善,現具備以下特點:支持單/雙文檔對齊;支持46種語言,2070種語言對;智能對齊,能自動識別「一對多」,「多對一」,「多對多」等模式;支持多種格式,包括docx,xlsx,pptx,pdf,txt等36種等主流格式的導入;支持tmx,xlsx,txt,docx等四種格式的導出;設有高級功能:完全重複句一鍵去除;一句多譯句對一鍵篩選;原文與譯文內容一鍵篩選;檢索詞快速定位;還可以提取術語,與語帆術語寶強強聯合,在語料庫對齊后可實現雙語術語的智能提取與導出。

  1. 教程

以《反傾銷期終複審調查規則》雙語文件為例,介紹ABBYY Aligner和Tmxmall語料對齊功能。

2.1 ABBYY Aligner操作教程

2.1.1 打開ABBYY Aligner,導入雙語文件

首先要導入雙語文件,有兩種方式:直接將文本複製粘貼到源語文本和目標語文本框中;或者在「文件」欄中選擇分別打開源語和目標語文件。

(1)首界面

(2)導入雙語文件

將要對齊的雙語文本word進行拖拽導入該軟體,雙語文本,

導入雙語文本後的界面,

2.1.2 對齊雙語文件

點擊「Align」鍵進行自動對齊

2.1.3 合併

對齊文檔中有的句段需要進行合併,可以選中兩個句段

並點擊工具欄中的「Merge」進行合併

2.1.4 拆分

對對齊的句段進行拆分時,滑鼠放在要拆分的位置

點擊工具欄的「split fragment」,

2.1.5 上移和下移

上移,點擊「up」

下移,點擊「down」

2.1.6 高亮對齊

將想要對齊的不同部分進行高亮顯示,選中的兩處分別點擊「Mark」

然後點擊「Match」,進行對齊,對齊后效果如圖

2.1.7 刪除空行與所有空行

對於空格的句段可以選中後點擊工具欄的「delete」即可。

若想刪除文件里所有空行,點擊「Actions」中的「Delete All Empty Lines」即可。

2.1.8 保存

若對齊完成,可以點擊「save」保存,下次可以直接打開繼續編輯

2.1.9 導出

點擊「export to TMX」,可以導出tmx格式的平行語料庫,在Trados等CAT工具中可以使用,也可以用專門的tmx編輯工具打開語料庫進行檢索、編輯等。

或是點擊「File」中的「export to RTF」,導出的格式可以在word文檔等微軟軟體中使用。

以上就是ABBYY Aligner的雙語對齊功能使用教程。

2.2 Tmxmall操作教程

2.2.1 打開Tmxmall網頁,導入雙語文件

首先打開界面,有兩種模式,分別是單文檔對齊和雙文檔對齊,單文檔對齊是單個文件中同時有原文和譯文的對照,只需導入該文件即可進行對齊;雙文檔對齊是指原文和譯文在不同的兩個文件中,需要分別在原文欄和譯文欄導入文件。

將要對齊的雙語文件進行導入

2.2.2 對齊雙語文件,點擊「對齊」進行自動對齊。

2.2.3 對需要處理的地方可進行「合併」,「拆分」,「上移」,「下移」等操作

如ABBYY Aliner的「Merge」, 「split」,「up」和「down」等操作。

2.2.4 線上編輯,查找替換

Tmxmall將查找的詞彙加紅,突出顯示,還可以線上進行語料編輯。

2.2.5 術語提取,點擊「提取術語」

可根據詞頻篩選術語,默認詞頻為1,可將篩選詞頻後術語進項導出

2.2.6 導出,點擊「導出」

可根據需要,導出tmx, xlsx, docx, txt等格式。

  1. 學習心得

通過學習ABBYY Aligner和Tmxmall雙語對齊工具,可以處理的源文件形式涵括了docx、xml、pdf、txt、html等多種文檔格式,有利於平常我們自己製作雙語語料文件,還可以為機器輔助翻譯工具導入平行語料,使用起來非常方便。在使用這兩種款軟體時,筆者將兩個語料對齊工具進行了對比,得出了以下結論。

首先,導入的對齊文檔不同。Tmxmall有單文檔對齊和雙文檔對齊導入模式,可以處理單文檔內雙語文件的對齊,而ABBYY Aligner只有雙文檔對齊模式,只能將要對齊的文本中兩種語言分別導入。此外,ABBYY Aligner還可以用複製粘貼的方式來導入文本,而Tmxmall沒有該功能,只能以文件的形式進行導入。

第二,導出的文檔格式不同。ABBYY Aligner導出為TMX通用格式,或者RTF格式;而Tmxmall可以導出導出tmx, xlsx, docx, txt等格式。

第三,調換功能。Tmxmall有調換功能,可以同行進行左右調換;而ABBYY Aligner只能進行不同行的左右調換,不能進行同行的左右調換。

第四,查找檢索功能。Tmxmall可對對齊文檔進行查找檢索,而ABBYY Aligner則沒有該功能。

第五,術語提取功能。Tmxmall可對文檔進行術語提取,而ABBYY Aligner則沒有該功能。

綜上,兩款原料對齊工具各有其優缺點,可根據實際需求來選擇最合適的工具進行語料對齊。