Skip to content

基于nodejs的分布式爬虫客户端使用(Deprecated)

ninthakeey edited this page Sep 1, 2018 · 1 revision

2018-04-28更新:由于Mongo数据源不再维护,该教程已经废弃

准备

代码的下载需要 git ,没有的可到 官网 下载安装 代码的运行需要 nodejs ,没有的可到 官网 下载安装

Coding

  1. 找一个空文件夹,按住 shift 点鼠标右键,在此处打开 cmd/powershell 命令窗口
  2. Win7 可能没有这种快捷方式,按 Win+R cmd 然后手动 cd 过去也是一样的
  3. 如果你想手动添加这个快捷方式,可以去看 IAsimov 写的教程

然后在命令窗口输入

git clone https://github.com/uupers/BiliSpider.git
cd BiliSpider/node-spider-dist
npm install

出现这个就表示安装成功(Warning 可以无视)

运行

在刚刚打开的 cmd/powershell 窗口中,键入

node client
  • 如果程序显示 Start to fetch member info. ,说明程序正常运行
  • 如果程序报 SyntaxError XX,可能是 nodejs 版本太旧,请到 官网 下载最新版安装

然后,如果程序报 Unhandled promise rejection 等等,请尝试访问 45.32.68.44:16123 看能否看到 Hello World,如果不能就 GG,可能是你所在的网络有端口访问限制(校园网之类的)

  • 如果程序显示 Get package XX, fetch mids [XX001, XY000] ,说明在正常爬取了

  • 如果程序每隔一段时间显示 Send package XX 然后继续领新的任务,说明爬虫正顺利地自动化工作ing~

数据访问

数据存放在 栗子球 的 VPS 服务器上,想欣赏自己的劳动成果的话,可使用任意mongo客户端(e.g. mongodb compass)连接

mongodb://spiderrd:[email protected]:37017/bilibili_spider

这个账号是只读权限的,需要写权限账号的话,可以向 栗子球 同学要

ps : 使用python远程访问请参考connect_to_remote_mongodb_demo.ipynb

ps2:如果你只是想获取UP主的用户信息的话,可以使用以下连接

mongodb://spiderrd:[email protected]:37017/up_info

里面已经包含了150万的UP主用户信息