Version: 3.6

介绍

Crawlee覆盖了你从端到端的爬取和抓取，并帮助你构建可靠、快速的网页抓取工具

你的网络爬虫将呈现出类似人类的行为，并且即使使用默认配置，也能够避开现代浏览器的机器人保护系统的监测。Crawlee为你提供了在网页上进行链接爬取、数据抓取和可读取的持久存储格式等工具，而无需担心技术细节。如果默认设置不符合要求，Crawlee还提供了其丰富的配置选项，你几乎可以进行任何的调整以满足项目需求。

你将会学到什么

介绍的目标是为Crawlee的重要功能提供一步一步的指南。它将引导你，从创建最简单的只在控制台打印文本的爬虫，到可以收集网站上链接并提取数据功能齐备的爬虫。

🛠 特性

单一接口用于HTTP和无头浏览器r爬取
将爬取的URL进行持续队列（广度优先和深度优先）
可插拔的表格和文件数据存储
根据系统资源自动扩展
集成代理更换和会话管理
可定制化的钩子函数生命周期
用CLI启动项目
可配置的路由、错误处理和重试机制
Dockerfiles部署
用强类型语言TypeScript编写

👾 HTTP爬取

零配置的HTTP2支持，甚至适用于代理
自动生成类似浏览器的头部信息
复制浏览器的TLS指纹
集成快速HTML解析器的Cheerio和JSDOM
是的，你也可以抓取JSON API

💻 真实浏览器爬取

JavaScript渲染和截图
无头浏览器和可见浏览器支持
零配置生成类人指纹
自动浏览器管理
使用Playwright和Puppeteer相同的接口
支持Chrome，Firefox，Webkit等众多浏览器

在下一课中，你将学习安装Crawlee并如何使用Crawlee CLI初始化项目。

你将会学到什么​

🛠 特性​

👾 HTTP爬取​

💻 真实浏览器爬取​

下一节​

你将会学到什么

🛠 特性

👾 HTTP爬取

💻 真实浏览器爬取

下一节