連結:https://github.com/CosmosShadow/gptpdf
gptpdf是一個利用大型視覺語言模型(如GPT-4o)將PDF檔案解析為Markdown格式的工具。它透過PyMuPDF庫辨識非文本區網網域,並使用OpenAI API進行內容解析,幾乎可以完美地處理排版、數學公式、表格、圖片和圖表等。平均成本為每頁0.013美元,具有高效和低成本的特點。
需求人群:
- gptpdf適合需要將PDF文檔轉換為Markdown格式的開發者和研究人員,特別是那些需要處理包含複雜排版和多媒體內容的文檔的使用者。它可以幫助他們快速地將PDF內容轉換為易於編輯和分享的格式。
使用場景示例:
- 將學術論文PDF轉換為Markdown,方便在GitHub上分享和討論
- 將包含圖表和圖片的技術文檔轉換為Markdown,用於線上釋出和協作編輯
- 將PDF格式的報告轉換為Markdown,用於在部落格或文檔管理系統中釋出
產品特色:
- 使用PyMuPDF解析PDF檔案,標記非文本區網網域
- 利用OpenAI API與大型視覺語言模型進行互動
- 將PDF中的文本內容轉換為Markdown格式
- 支援數學公式、表格、圖片和圖表的解析
- 提供示例和測試腳本,方便使用者理解和使用
- 支援自訂解析速度,根據機器效能調整工作進程數
使用教學:
1. 安裝gptpdf庫
2. 準備OpenAI API金鑰
3. 使用`parse_pdf`函式,傳入PDF檔案路徑和API金鑰
4. 獲取解析後的Markdown內容和圖片路徑
5. 檢視生成的Markdown檔案和儲存的圖片
6. 根據需要進一步編輯或釋出Markdown內容