全球常見語料庫處理和應用工具

語料庫是語料構成的集合,要進行語料庫的處理和應用離不開語料工具。接下來為大家介紹一下語料處理步驟中所需的幾類常用工具。

語料採集工具

我們建語料庫所需的語料可能有多種來源,如:網頁、電子文檔、紙質材料等。因此在採集不同來源的語料時我們需要使用不同的工具。
其中,ABBYY FineReader、天若OCR文字識別等OCR識別軟體可用於處理紙質材料或其他不可編輯的材料;Teleport Ultra, TextForever等軟體常用於處理網頁材料。

1)ABBYY FineReader

ABBYY FineReader是一款專業OCR軟體,可以進行文件識別、自動保留排版格式,後臺批處理識別等功能。用戶可以利用ABBYY FineReader進行對不可編輯文本的掃描,如圖像、PDF等格式的語料(如下圖所示),以獲取Microsoft Word等格式的可編輯的文檔。

官方下載地址:https://abbyy.store/

2)天若OCR文字識別

天若OCR文字識別是一款界面簡潔、功能強大的OCR識別軟體,可將圖片中的文本轉換成可編輯文本,將表格識別後轉換成可編輯表格,進行識別翻譯、截圖及截圖標註等,處理圖像或PDF等格式語料極為方便,基本操作如下圖所示。

官網軟體下載:https://ocr.tianruo.net/

3)Teleport Ultra

Teleport Ultra擁有直觀的界面,可以在一個項目中處理多個伺服器,使用正則表達式指定要爬行的包含區域和排除區域,批量獲取網頁數據資訊。在語料搜集過程中,我們可以利用Teleport Ultra軟體搜集網站中語料資源,根據軟體嚮導的提示,經過簡單的操作,便可以迅速獲取大量資料。

官網軟體下載:
https://www.tenmax.com/company/downloads.htm

4)TextForever

TextForever可以用來進行文本HTML到TXT 的轉換、文件切分、文檔合併、文本提取、TXT 文件分行、HTML 代碼整理等功能。在使用Teleport Ultra軟體提取網頁中的語料後,我們可以使用TextForever軟體對所獲取的語料進行格式處理,搜集所需格式的語料,兩個軟體的搭配使用使得語料搜集過程更加方便快捷。

下載途徑參考:
https://pc.qq.com/detail/8/detail_3448.html

語料清洗工具

語料清洗指去除語料中的噪音,包括不符合規範的格式、符號、內容等。北京外國語大學中國外語教育研究中心專職研究員許家金博士,將格式清洗錯誤分為文字元號類、空格段落類、標點符號類。
語料清洗過程中可涉及的軟體有Microsoft Word、EmEditor、Notepad++、文本整理器、庫酷、斑斕科技小助手等。

1) Microsoft Word

微軟Word是微軟公司開發的一款文字處理軟體。相信大家日常辦公都會或多或少用到它,其實它還有許多隱藏技能,今天為大家介紹其中之一——語料清洗。
具體來說,利用Ctrl+H快捷鍵調出查找與替換對話框(如下圖所示),點擊「更多」,單擊勾選「通配符」,藉助通配符快速清洗語料。

2) EmEditor

EmEditor是一個輕量級、可擴展、易於使用的Windows文本編輯器,適用於Windows系統。EmEditor在64位和32位版本中都可用。我們可以在EmEditor軟體中利用正則表達式快速清洗語料,具體操作是導入文本後,點擊「搜索」,單擊「替換」,再勾選「正則表達式」(如下圖所示),利用正則表達式清洗語料。

3) Notepad++

Notepad++是一款與EmEditor類似的軟體,Notepad++是Windows作業系統下的一套免費的文本編輯器,有完整的中文化接口及支持多國語言編寫的功能(UTF8技術)。同樣,我們也可以藉助它,並利用正則表達式清洗語料,操作與EmEditor類似。

官網軟體下載:https://notepad-plus-plus.org/downloads/

4)文檔整理器

文檔整理器是一款使用方便的語料清洗軟體,內含多種快捷鍵,不需要手動輸入正則表達式或通配符進行語料清洗,功能豐富,操作簡單,是一款較好語料清洗工具。

5)庫酷

庫酷是一款功能豐富的語料清洗軟體,含多種快捷鍵,用戶只需要根據自身需求點擊對應快捷鍵即可,清洗語料速度快,也是一款不錯的語料清洗軟體,值得推薦。

6)斑斕科技小助手

斑斕科技小助手是一款基於VBA的Word小工具,與庫酷和文檔整理器不同的是,它可以直接在word中使用,功能豐富,提供各種快捷鍵(如下圖所示),操作簡單方便,為語料處理提供極大的幫助。

官方軟體下載:http://edu.bon-lion.com/bon-lion-helper/

語料對齊工具

語料對齊一般指的是雙語或多語文本的平行對齊,一般以「一對一」對齊為主,也存在「一對二」或「一對多」平行文本的對齊,目前應用最為廣泛的語料對齊是句級語料對齊。

常見的語料對齊工具包含兩類:一類是CAT軟體自帶的工具,包括Trados的對齊文檔、memoQ的Livedocs等,另一類是獨立的工具,包括ABBYY Aligner、Tmxmall等。一般來說,CAT自帶的語料工具有些局限,這裡主要介紹獨立的語料對齊工具。

1)ABBYY Aligner

ABBYY Aligner 2.0是一個專業的工具對齊並行文本和創建翻譯記憶數據庫,提供了編輯對齊結果的功能,並可以保存為TMX格式,以便在CAT工具中進一步使用,可以提高工作效率。

2)Tmxmall

Tmxmall是一款線上語料對齊工具,語料對齊方便用戶調整對齊結果,其自主研發的智能對齊算法可以自動對齊原文,支持46種語言,2070種語言對,極大提高語料對齊效率。

官方下載地址:https://www.tmxmall.com/

語料檢索工具

語料檢索指的是對語料中的詞、句或結構進行檢索,可以獲得詞頻、詞密度、詞表、搭配、關鍵詞單等,以便對語料進行分析研究。在此過程中有AntConc, ParaConc等可供使用。

1)AntConc

AntConc是一款免費的單語語料檢索工具,支持Windows, MacOS等系統,具有索引、索引定位、詞叢、搭配、詞表和關鍵詞單等多種功能,界面簡單,方便用戶操作,可以極大提高語料檢索的效率。

官方下載地址:
https://www.laurenceanthony.net/software/antconc/

2)ParaConc

ParaConc是一款雙語或多語平行語料庫建設與檢索工具,具有語料對齊、平行文本預覽功能、平行文本檢索、檢索行排序、詞頻統計、搭配提取等功能,可以用於語料檢索、對比分析、語言學習和翻譯研究培訓等。

官網下載地址:https://paraconc.com/

總結

語料工具有很多,在語料採集、清洗、對齊、檢索等各個過程有不同的軟體可供我們使用。面對形形色色的工具,我們不需要貪多,要選擇適合自己的工具並熟練運用,形成自己的一套語料處理體系,無論是對日常學習,還是對學術研究,都有重要的意義。