Skip to main content
Version: 3.6

介绍

Crawlee覆盖了你从端到端的爬取和抓取,并帮助你构建可靠、快速的网页抓取工具

你的网络爬虫将呈现出类似人类的行为,并且即使使用默认配置,也能够避开现代浏览器的机器人保护系统的监测。Crawlee为你提供了在网页上进行链接爬取、数据抓取和可读取的持久存储格式等工具,而无需担心技术细节。如果默认设置不符合要求,Crawlee还提供了其丰富的配置选项,你几乎可以进行任何的调整以满足项目需求。

你将会学到什么

介绍的目标是为Crawlee的重要功能提供一步一步的指南。它将引导你,从创建最简单的只在控制台打印文本的爬虫,到可以收集网站上链接并提取数据功能齐备的爬虫。

🛠 特性

  • 单一接口用于HTTP和无头浏览器r爬取
  • 将爬取的URL进行持续队列(广度优先和深度优先)
  • 可插拔的表格和文件数据存储
  • 根据系统资源自动扩展
  • 集成代理更换和会话管理
  • 可定制化的钩子函数生命周期
  • CLI启动项目
  • 可配置的路由错误处理重试机制
  • Dockerfiles部署
  • 用强类型语言TypeScript编写

👾 HTTP爬取

  • 零配置的HTTP2支持,甚至适用于代理
  • 自动生成类似浏览器的头部信息
  • 复制浏览器的TLS指纹
  • 集成快速HTML解析器的Cheerio和JSDOM
  • 是的,你也可以抓取JSON API

💻 真实浏览器爬取

  • JavaScript渲染截图
  • 无头浏览器可见浏览器支持
  • 零配置生成类人指纹
  • 自动浏览器管理
  • 使用PlaywrightPuppeteer相同的接口
  • 支持ChromeFirefoxWebkit等众多浏览器

下一节

在下一课中,你将学习安装Crawlee并如何使用Crawlee CLI初始化项目。