介绍
Crawlee覆盖了你从端到端的爬取和抓取,并帮助你构建可靠、快速的网页抓取工具
你的网络爬虫将呈现出类似人类的行为,并且即使使用默认配置,也能够避开现代浏览器的机器人保护系统的监测。Crawlee为你提供了在网页上进行链接爬取、数据抓取和可读取的持久存储格式等工具,而无需担心技术细节。如果默认设置不符合要求,Crawlee还提供了其丰富的配置选项,你几乎可以进行任何的调整以满足项目需求。
你将会学到什么
介绍的目标是为Crawlee的重要功能提供一步一步的指南。它将引导你,从创建最简单的只在控制台打印文本的爬虫,到可以收集网站上链接并提取数据功能齐备的爬虫。
🛠 特性
- 单 一接口用于HTTP和无头浏览器r爬取
- 将爬取的URL进行持续队列(广度优先和深度优先)
- 可插拔的表格和文件数据存储
- 根据系统资源自动扩展
- 集成代理更换和会话管理
- 可定制化的钩子函数生命周期
- 用CLI启动项目
- 可配置的路由、错误处理和重试机制
- Dockerfiles部署
- 用强类型语言TypeScript编写
👾 HTTP爬取
- 零配置的HTTP2支持,甚至适用于代理
- 自动生成类似浏览器的头部信息
- 复制浏览器的TLS指纹
- 集成快速HTML解析器的Cheerio和JSDOM
- 是的,你也可以抓取JSON API
💻 真实浏览器爬取
- JavaScript渲染和截图
- 无头浏览器和可见浏览器支持
- 零配置生成类人指纹
- 自动浏览器管理
- 使用Playwright和Puppeteer相同的接口
- 支持Chrome,Firefox,Webkit等众多浏览器
下一节
在下一课中,你将学习安装Crawlee并如何使用Crawlee CLI初始化项目。