通过npm
安装
$ npm install puppeteer-crawler -g
下面的例子爬取百度首页上面的链接,并保存为pdf格式。
puppeteer-crawler start --url http://www.baidu.com --level 1 --target ***
或者像下面这样,使用互动的方式输入
puppeteer-crawler start
? 请输入爬取的url http://www.baidu.com
? 请输入爬取的层级 1
? 请输入存储目录 E:\Users\code\puppeteer-crawler
? 保存文件格式 pdf
注意安装依赖puppeteer
的时候会去谷歌下载chrome,需要自备梯子翻墙。
没有梯子的同学可以在环境变量中添加变量PUPPETEER_SKIP_CHROMIUM_DOWNLOAD
值为true
,然后手动从这里下载,在包puppeteer
下面新建文件夹.local-chromium/win64-version
,version的值可以在包puppeteer
下面的package.json
文件中找到。把下载的chrome包解压到该文件夹即可。