Crawlee:Python 網路爬蟲和瀏覽器自動化庫

連結:https://github.com/apify/crawlee-python

Crawlee 是一個用於構建可靠爬蟲的 Python 網路爬蟲和瀏覽器自動化庫,提取資料用於AI、LLMs、RAG或GPTs。它提供了統一的接口來處理 HTTP 和無頭瀏覽器爬取任務,支援自動並行爬取,基於系統資源進行調整。Crawlee 用 Python 編寫,包含型別提示,增強了開發體驗並減少了錯誤。它具備自動重試、整合代理輪換和會話管理、可配置的請求路由、持久化 URL 佇列、可插拔的儲存選項等功能。相較於 Scrapy,Crawlee 提供了對無頭瀏覽器爬取的原生支援,擁有簡潔優雅的接口,並且完全基於標準的非同步 IO。

需求人群:

  • Crawlee 適合需要構建資料爬取和網頁自動化工具的開發者。無論是需要從靜態 HTML 頁面還是依賴使用者端 JavaScript 生成內容的動態網站中提取資料,Crawlee 都能夠提供強大的支援。它的易用性和靈活性使其成為資料科學家、機器學習工程師和 web 開發者的理想選擇。

使用場景示例:

  • 使用 BeautifulSoupCrawler 高效提取 HTML 內容資料。
  • 利用 PlaywrightCrawler 處理 JavaScript 重型網站的資料抓取。
  • 透過 Crawlee CLI 快速啟動和配置新的爬蟲專案。

產品特色:

  • 統一的 HTTP 和無頭瀏覽器爬取接口
  • 基於系統資源的自動並行爬取
  • Python 型別提示,增強開發體驗
  • 自動錯誤重試和防屏蔽功能
  • 整合代理輪換和會話管理
  • 可配置的請求路由和持久化 URL 佇列
  • 支援多種資料和檔案儲存方式
  • 健壯的錯誤處理機制

使用教學:

安裝 Crawlee: pip install crawlee

根據需要安裝額外的依賴,例如 beautifulsoup 或 playwright

使用 Crawlee CLI 建立新的爬蟲專案: pipx run crawlee create my-crawler

選擇一個範本並根據專案需求進行配置

編寫爬蟲邏輯,包括資料提取和連結抓取

執行爬蟲並觀察結果

返回頂端