DocFetcher:本地文檔全文快速搜索神器

工具簡介

DocFetcher是一個免費開源且跨平台的桌面文檔內容搜索工具,它能瀏覽你所有文件內容,進行全文搜索,類似百度硬碟或Google硬碟。當只記住某個文件里的一些內容卻忘記文件名時,該工具就非常有效了。

(DocFetcher下載地址:https://docfetcher.sourceforge.io/zh/

描述
DocFetcher是一個開源桌面搜索應用程式:它允許您搜索計算機上的文件內容。— 您可以將其視為Google的本地文件。該應用程式在Windows,Linux和OS X上運行,並在Eclipse Public License下提供。

基本用法
下面的螢幕截圖顯示了主用戶界面。查詢在(1)的文本字段中輸入。搜索結果顯示在結果窗格中的(2)處。(3)中的預覽窗格顯示了結果窗格中當前所選文件的純文本預覽。文件中的所有匹配項都以黃色突出顯示。

您可以按最小和/或最大文件大小(4),按文件類型(5)和按位置(6)過濾結果。(7)處的按鈕分別用於打開手冊,打開首選項和最小化程式到系統托盤中。

DocFetcher要求您為要搜索的文件夾創建所謂的索引。下面將詳細介紹索引及其工作原理。簡而言之,索引允許DocFetcher非常快速地(以毫秒為單位)找出哪些文件包含特定的單詞集,從而大大加快了搜索速度。以下螢幕截圖顯示了DocFetcher用於創建新索引的對話框:

單擊此對話框右下角的「運行」按鈕可啟動索引編制。索引過程可能需要一段時間,具體取決於要編制索引的文件的數量和大小。一個好的經驗法則是每分鐘200個文件。

雖然創建索引需要時間,但每個文件夾只需執行一次。此外,在文件夾內容發生變化後更新索引比創建它快得多 — 它通常只需要幾秒鐘。

主要特點
便攜版:DocFetcher的可移植版本可在Windows,Linux 和 OS X上運行。這個有用的內容在本頁後面有更詳細的描述。
64位支持:支持32位和64位作業系統。
Unicode支持:DocFetcher為所有主要格式提供堅如磐石的Unicode支持,包括Microsoft Office,OpenOffice.org,PDF,HTML,RTF和純文本文件。
存檔支持:DocFetcher支持以下存檔格式:zip,7z,rar和整個tar。系列。可以自定義zip存檔的文件擴展名,允許您根據需要添加更多基於zip的存檔格式。此外,DocFetcher可以處理無限制的存檔嵌套(例如,包含帶有rar存檔的7z存檔的zip存檔……等等)。 在源代碼文件中搜索:可以自定義DocFetcher識別純文本文件的文件擴展名,因此您可以使用DocFetcher搜索任何類型的源代碼和其他基於文本的文件格式。(這與可自定義的zip擴展相結合非常有效,例如,用於在Jar文件中搜索Java源代碼。) Outlook PST文件:DocFetcher允許搜索Outlook電子郵件,Microsoft Outlook通常存儲在PST文件中。 HTML對的檢測:默認情況下,DocFetcher會檢測HTML文件對(例如名為「foo.html」的文件和名為「foo_files」的文件夾),並將該對視為單個文檔。這個功能一開始看起來似乎沒用,但事實證明,當你處理HTML文件時,這會大大提高搜索結果的質量,因為HTML文件夾中的所有「混亂」都會從結果中消失。 基於正則表達式的文件從索引中排除:您可以使用正則表達式從索引中排除某些文件。例如,要排除Microsoft Excel文件,可以使用如下的正則表達式:..xls
Mime類型檢測:您可以使用正則表達式為某些文件啟用「mime-type detection」,這意味著DocFetcher將嘗試檢測其實際文件類型,而不僅僅是通過查看文件名,還可以通過偷看文件內容。這對於文件擴展名錯誤的文件很方便。
強大的查詢文法:除了「OR」,「AND」和「NOT」之類的基本結構之外,DocFetcher還支持以下內容:通配符,短語搜索,模糊搜索(「查找類似單詞「),鄰近搜索(」這兩個單詞應該相距最多10個單詞「),提昇(」增加文檔的權重「)
支持的文檔格式
Microsoft Office (doc, xls, ppt)
Microsoft Office 2007 及更新版本 (docx, xlsx, pptx, docm, xlsm, pptm)
Microsoft Outlook (pst)
OpenOffice.org (odt, ods, odg, odp, ott, ots, otg, otp)
Portable Document Format (pdf)
EPUB (epub)
HTML (html, xhtml, …)
TXT and other plain text formats (customizable)
富文本文件 (rtf)
AbiWord (abw, abw.gz, zabw)
Microsoft Compiled HTML Help (chm)
MP3 Metadata (mp3)
FLAC Metadata (flac)
JPEG Exif Metadata (jpg, jpeg)
Microsoft Visio (vsd)
Scalable Vector Graphics (svg)
Comparison To Other Desktop Search Applications
與其他桌面搜索應用程式相比,DocFetcher在這裡脫穎而出:

無廢話:我們努力保持DocFetcher的用戶界面整潔,無垃圾。沒有廣告或「你想註冊……?」 彈出窗口。您的Web瀏覽器,註冊表或系統中的任何其他位置都沒有安裝任何無用的東西。

隱私:DocFetcher不會收集您的私人數據。永遠。任何對此有疑問的人都可以查看可公開訪問的源代碼

永遠免費:由於DocFetcher是開源的,你不必擔心程式會變得過時和不受支持,因為源代碼將始終存在。說到支持,你得到的消息是,DocFetcher的主要商業競爭對手之一Google桌面在2011年停產嗎?好…

跨平台:與許多競爭對手不同,DocFetcher不僅可以在Windows上運行,還可以在Linux和OS X上運行。因此,如果您想要從Windows框移動到Linux或OS X,DocFetcher將在另一邊等待您。

便攜式:DocFetcher的最大優勢之一是其便攜性。基本上,使用DocFetcher,您可以構建一個完整的,完全可搜索的文檔存儲庫,並將其隨身攜帶在USB驅動器上。更多內容將在下一節中介紹。

僅對您需要的內容進行索引:在DocFetcher的商業競爭對手中,似乎傾向于推動用戶索引整個硬碟機 — 也許是為了試圖從所謂的「愚蠢」用戶那裡拿走儘可能多的決定,或者更糟糕的是,試圖收穫更多的用戶數據。但實際上,假設大多數人*不希望將整個硬碟機編入索引似乎是安全的:這不僅浪費了索引時間和磁盤空間,而且還會使搜索結果與不需要的文件混亂。因此,DocFetcher僅對您明確要編制索引的文件夾編制索引,並在此基礎上為您提供了大量過濾選項。

便攜式文檔存儲庫
DocFetcher的一個突出特點是它可以作為便攜式版本使用,它允許您創建便攜式文檔存儲庫 — 一個完全索引和完全可搜索的所有重要文檔的存儲庫,您可以自由移動。

使用示例:您可以使用此類存儲庫執行各種操作:您可以隨身攜帶USB驅動器,將其刻錄到CD-ROM上進行存檔,將其放入加密卷(建議:TrueCrypt),通過雲端存儲服務(如DropBox等)在多臺計算機之間進行同步。由於DocFetcher是開源的,您甚至可以重新分發您的存儲庫:如果您願意,可以上傳它並與世界其他地方共享。

索引如何工作
本節試圖基本瞭解索引是什麼以及它是如何工作的。

文件搜索的天真方法:文件搜索的最基本方法是在執行搜索時逐個訪問特定位置的每個文件。這適用於filename-only搜索,因為分析文件名非常快。但是,如果要搜索文件的contents,它將無法正常工作,因為全文提取是比文件名分析更昂貴的操作。

基於索引的搜索:這就是為什麼作為內容搜索者的DocFetcher採用一種稱為索引的方法:基本思想是人們需要搜索的大多數文件(例如,超過95%)都是很少修改或根本不脩改。因此,不是在每次搜索的每個文件上進行全文提取,而是對所有文件執行文本提取只需,並從所有提取的文本創建所謂的index。這個索引有點像字典,它允許通過牠們包含的單詞快速查找文件。

電話簿類比:作為類比,考慮在電話簿中查找某人的電話號碼(「索引」),而不是撥打每個可能的電話號碼,以查明是否有效在另一端的人是你正在尋找的人。— 通過電話呼叫某人並從文件中提取文本都可以被視為「昂貴的操作」。此外,人們不經常更改電話號碼的事實類似於計算機上的大多數文件很少被修改的事實。

索引更新:當然,索引僅反映索引文件創建時的狀態,而不一定是文件的最新狀態。因此,如果索引沒有保持最新,您可能會得到過時的搜索結果,就像電話簿過時一樣。但是,如果我們可以假設大多數文件很少被修改,那麼這應該不是什麼大問題。此外,DocFetcher能夠自動更新其索引:(1)當它運行時,它會檢測更改的文件並相應地更新其索引。(2)當它沒有運行時,後臺的一個小守護進程將檢測到變化並保留一個要更新的索引列表; 然後,DocFetcher將在下次啟動時更新這些索引。你不擔心守護進程:

使用方法介紹

1 創建索引

由於大量負載情況下直接搜索文檔很慢,DocFetcher需要創建索引來加速搜索。創建索引,先右鍵單擊左側的「搜索範圍」區域,然後選擇「從文件夾創建索引」。

它可以針對希望搜索的文件夾建立索引。以搜索桌面文件中的內容為例,選擇桌面文件夾後,會彈出配置窗口。如無特殊需求,默認即可,單擊「運行」按鈕並等待索引文檔的完成。

創建索引可能需花費一些時間。當出現「總耗用時間」字樣時,說明文件索引已經創建成功,建立好後就可以重複使用了。

2 搜索

1)在搜索欄輸入要搜索的內容並敲擊迴車即可查詢,例如輸入「醫療體系」,點擊搜索。

2)結果窗口與預覽窗口:搜索結果如圖所示

在結果窗格下方可以找到預覽窗格。在結果窗格中選擇一個文件,預覽窗格將顯示文件內容的純文本預覽。預覽窗口下黃色顯示的內容就是文本中所搜索的內容,同時可以使用向上和向下按鈕從一個事件跳轉到上一個或下一個出現的位置。

3 排序

可以通過單擊任何結果窗格的列標題來更改結果的排序。例如,要按文件名對結果進行排序,就單擊「文件名」標題。

單擊相同的標題兩次將按相反的順序排序。

也可以通過拖放操作來更改列的順序:例如,如果希望將「文件名」作為第一列,只需將「文件名」列標題拖到左側即可。

4 過濾

頁面的左側可以看到用於過濾結果的各種控件:(1)最小/最大文件大小、(2)文檔類型、(3)搜索範圍。三者都可對搜索範圍進行改變,比如選擇某個文件夾,甚至文件夾下面的某些文件夾來縮小搜索範圍。例如只從「翻譯實踐」文件里搜索,那麼需要選中「翻譯實踐」選項,同時取消選中「文件」、「期末作業」等選項。相應地搜索結果也會發生變化。

5 更新索引

對於建立好的索引也需要定期更新。當索引文件夾中的文件被添加,刪除或修改(也就是桌面文件有變化的時候),則相應的索引必須更新,否則搜索結果可能會過時。

6 學習心得

DocFetcher這款文件搜索工具支持常見的doc、pdf、ppt、txt、html等格式,對文件內容進行搜索的速度非常快。而我們常見的搜索工具還有Everything以及Listary等。Everything可對文件快速搜索;Listary不僅可以對文件進行快速搜索,而且啟動速度快,還可以搜索軟體應用從而快速打開軟體,並且可與文件資源管理器配合使用。我們今天所瞭解的這款搜索工具的亮點就是在於不記得文件名稱的情況下,也能根據文件里的某些內容搜索出需要的文件。所以,搜索軟體各有亮點,選擇所需的就是最好的,同時熟練使用各種搜索軟體也是翻譯學習者必備的技能之一。