gptpdf:使用GPT解析PDF為Markdown

連結:https://github.com/CosmosShadow/gptpdf

gptpdf是一個利用大型視覺語言模型(如GPT-4o)將PDF檔案解析為Markdown格式的工具。它透過PyMuPDF庫辨識非文本區網網域,並使用OpenAI API進行內容解析,幾乎可以完美地處理排版、數學公式、表格、圖片和圖表等。平均成本為每頁0.013美元,具有高效和低成本的特點。

需求人群:

  • gptpdf適合需要將PDF文檔轉換為Markdown格式的開發者和研究人員,特別是那些需要處理包含複雜排版和多媒體內容的文檔的使用者。它可以幫助他們快速地將PDF內容轉換為易於編輯和分享的格式。

使用場景示例:

  • 將學術論文PDF轉換為Markdown,方便在GitHub上分享和討論
  • 將包含圖表和圖片的技術文檔轉換為Markdown,用於線上釋出和協作編輯
  • 將PDF格式的報告轉換為Markdown,用於在部落格或文檔管理系統中釋出

產品特色:

  • 使用PyMuPDF解析PDF檔案,標記非文本區網網域
  • 利用OpenAI API與大型視覺語言模型進行互動
  • 將PDF中的文本內容轉換為Markdown格式
  • 支援數學公式、表格、圖片和圖表的解析
  • 提供示例和測試腳本,方便使用者理解和使用
  • 支援自訂解析速度,根據機器效能調整工作進程數

使用教學:

1. 安裝gptpdf庫

2. 準備OpenAI API金鑰

3. 使用`parse_pdf`函式,傳入PDF檔案路徑和API金鑰

4. 獲取解析後的Markdown內容和圖片路徑

5. 檢視生成的Markdown檔案和儲存的圖片

6. 根據需要進一步編輯或釋出Markdown內容

返回頂端