-
Notifications
You must be signed in to change notification settings - Fork 76
基于nodejs的分布式爬虫客户端使用(Deprecated)
ninthakeey edited this page Sep 1, 2018
·
1 revision
2018-04-28更新:由于Mongo数据源不再维护,该教程已经废弃
代码的下载需要 git ,没有的可到 官网 下载安装 代码的运行需要 nodejs ,没有的可到 官网 下载安装
- 找一个空文件夹,按住
shift
点鼠标右键,在此处打开 cmd/powershell 命令窗口
- Win7 可能没有这种快捷方式,按 Win+R
cmd
然后手动cd
过去也是一样的 - 如果你想手动添加这个快捷方式,可以去看 IAsimov 写的教程
然后在命令窗口输入
git clone https://github.com/uupers/BiliSpider.git
cd BiliSpider/node-spider-dist
npm install
出现这个就表示安装成功(Warning 可以无视)
在刚刚打开的 cmd/powershell 窗口中,键入
node client
- 如果程序显示
Start to fetch member info.
,说明程序正常运行 - 如果程序报
SyntaxError XX
,可能是 nodejs 版本太旧,请到 官网 下载最新版安装
然后,如果程序报 Unhandled promise rejection
等等,请尝试访问 45.32.68.44:16123
看能否看到 Hello World
,如果不能就 GG,可能是你所在的网络有端口访问限制(校园网之类的)
-
如果程序显示
Get package XX, fetch mids [XX001, XY000]
,说明在正常爬取了 -
如果程序每隔一段时间显示
Send package XX
然后继续领新的任务,说明爬虫正顺利地自动化工作ing~
数据存放在 栗子球
的 VPS 服务器上,想欣赏自己的劳动成果的话,可使用任意mongo客户端(e.g. mongodb compass)连接
mongodb://spiderrd:[email protected]:37017/bilibili_spider
这个账号是只读权限的,需要写权限账号的话,可以向 栗子球
同学要
ps : 使用python远程访问请参考connect_to_remote_mongodb_demo.ipynb
ps2:如果你只是想获取UP主的用户信息的话,可以使用以下连接
mongodb://spiderrd:[email protected]:37017/up_info
里面已经包含了150万的UP主用户信息