GitHub - yangnianbing/puppeteer-crawler: 学习使用puppeteer，做了一个爬虫，指定的url保存为pdf，用来爬电子书不错

安装

通过npm安装

$ npm install puppeteer-crawler -g

示例

下面的例子爬取百度首页上面的链接，并保存为pdf格式。

puppeteer-crawler start --url http://www.baidu.com --level 1 --target ***

或者像下面这样，使用互动的方式输入

puppeteer-crawler start
? 请输入爬取的url http://www.baidu.com
? 请输入爬取的层级 1
? 请输入存储目录 E:\Users\code\puppeteer-crawler
? 保存文件格式 pdf

注意安装依赖puppeteer的时候会去谷歌下载chrome,需要自备梯子翻墙。没有梯子的同学可以在环境变量中添加变量PUPPETEER_SKIP_CHROMIUM_DOWNLOAD值为true,然后手动从这里下载，在包puppeteer下面新建文件夹.local-chromium/win64-version,version的值可以在包puppeteer下面的package.json文件中找到。把下载的chrome包解压到该文件夹即可。

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.gitignore		.gitignore
README.md		README.md
index.js		index.js
package-lock.json		package-lock.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

安装

示例

About

Releases

Packages

Languages

yangnianbing/puppeteer-crawler

Folders and files

Latest commit

History

Repository files navigation

安装

示例

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages