基本设置
要在你自己的计算机上运行Crawlee,你首先需要满足以下先决条件:
- 已安装 Node.js 16.0版本 或更高版本。
- 访问 Node.js 网站 进行下载,或使用 fnm
- 已安装 NPM,或选择使用其他的包管理器。
- NPM随Node.js捆绑安装,所以你已经安装了Node.js,应该已经拥有了NPM。如果没有,请重新安装 Node.js。
如果不确定,请通过运行来确认先决条件:
node -v
npm -v
创建一个新项目
Crawlee最快、最好创建新项目的方法是使用Crawlee CLI。你可以使用npx
实用程序来下载和运行CLI - 它已嵌入在crawlee
包中:
npx crawlee create my-crawler
将会显示一个提示,询问你选择模板。Crawlee是用TypeScript编写的,所以如果你熟悉它,选择TypeScript模板将为你提供更好的代码补全和静态类型检查,但也可以自由地使用JavaScript。从功能上讲,它们是相同的。
让我们选择第一个名为Getting started example的模板。该命令将在当前工作目录中创建一个名为my-crawler的新目录,会此文件夹中添加package.json并安装所有必要的依赖项。它还会添加示例源代码,你可以立即运行。
让我们试一试!
cd my-crawler
npm start
当Crawlee启动并开始抓取Crawlee网站时,你将在终端中看到日志消息。
INFO PlaywrightCrawler: Starting the crawl
INFO PlaywrightCrawler: Title of https://crawlee.dev/ is 'Crawlee · Build reliable crawlers. Fast. | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/examples is 'Examples | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core is '@crawlee/core | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core/changelog is 'Changelog | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/quick-start is 'Quick Start | Crawlee'
你可以随时在终端中来终止爬取。
CTRL+C
运行可见浏览器爬虫
Playwright控制的浏览器以无头模式运行(没有可见窗口)。你可以通过取消注释爬虫构造函数中的headless: false
选项来切换到可见模式。在开发阶段,当你想要查看浏览器中发生了什么时,这是很有用的。
// 取消注释此选项以查看浏览器窗口。
headless: false
当你再次运行示例时,一秒钟后会打开一个Chromium浏览器窗口。在窗口中,你将看到页面快速变化,因为爬虫正在工作。
note
为了展示,我们已经减慢了爬虫的速度,但请放心,在实际使用中它运行得非常快。


下一节
下一课将教你如何创建一个非常简单的网络爬虫,并在构建过程中解释Crawlee组件。