Skip to main content
Version: 3.6

基本设置

要在你自己的计算机上运行Crawlee,你首先需要满足以下先决条件:

  1. 已安装 Node.js 16.0版本 或更高版本。
  2. 已安装 NPM,或选择使用其他的包管理器。
    • NPM随Node.js捆绑安装,所以你已经安装了Node.js,应该已经拥有了NPM。如果没有,请重新安装 Node.js。

如果不确定,请通过运行来确认先决条件:

node -v
npm -v

创建一个新项目

Crawlee最快、最好创建新项目的方法是使用Crawlee CLI。你可以使用npx实用程序来下载和运行CLI - 它已嵌入在crawlee包中:

npx crawlee create my-crawler

将会显示一个提示,询问你选择模板。Crawlee是用TypeScript编写的,所以如果你熟悉它,选择TypeScript模板将为你提供更好的代码补全和静态类型检查,但也可以自由地使用JavaScript。从功能上讲,它们是相同的。

让我们选择第一个名为Getting started example的模板。该命令将在当前工作目录中创建一个名为my-crawler的新目录,会此文件夹中添加package.json并安装所有必要的依赖项。它还会添加示例源代码,你可以立即运行。

让我们试一试!

cd my-crawler
npm start

当Crawlee启动并开始抓取Crawlee网站时,你将在终端中看到日志消息。

INFO  PlaywrightCrawler: Starting the crawl
INFO PlaywrightCrawler: Title of https://crawlee.dev/ is 'Crawlee · Build reliable crawlers. Fast. | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/examples is 'Examples | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core is '@crawlee/core | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/api/core/changelog is 'Changelog | API | Crawlee'
INFO PlaywrightCrawler: Title of https://crawlee.dev/docs/quick-start is 'Quick Start | Crawlee'

你可以随时在终端中来终止爬取。

CTRL+C

运行可见浏览器爬虫

Playwright控制的浏览器以无头模式运行(没有可见窗口)。你可以通过取消注释爬虫构造函数中的headless: false选项来切换到可见模式。在开发阶段,当你想要查看浏览器中发生了什么时,这是很有用的。

// 取消注释此选项以查看浏览器窗口。
headless: false

当你再次运行示例时,一秒钟后会打开一个Chromium浏览器窗口。在窗口中,你将看到页面快速变化,因为爬虫正在工作。

note

为了展示,我们已经减慢了爬虫的速度,但请放心,在实际使用中它运行得非常快。

An image showing off Crawlee scraping the Crawlee website using Puppeteer/Playwright and ChromiumAn image showing off Crawlee scraping the Crawlee website using Puppeteer/Playwright and Chromium

下一节

下一课将教你如何创建一个非常简单的网络爬虫,并在构建过程中解释Crawlee组件。