该项目主要用来抓取接码平台的手机号,使用基于redis的bloom filter 接码号码平台现在属于黑色产业,号码被用来接受各个网站的验证码,平台上抓取的手机号可以百分百认定为羊毛党手机号。
- python3
- redis
- requests
- 先
down
或者clone
下来 - 在项目根目录新建
data
、logs
、pids
三个文件夹 - 最后
python3 spiders/main.py
, 有两个运行参数选择start_all
一次开启所有任务pids
根据pid
情况管理运行任务heart_beat
心跳检测停止的spider
,重新启动spider
,默认时长5 min
,在main.py
设置
pre.py
文件为预上线代码,支持其他spiders运行时上线新spider测试,(测试记得注释掉bloom过滤代码,以免影响生产 环境过滤),ok以后,cp pre.py xxx(newSpiderName).py
,到达心跳间隔,自动会启动demo.py
为功能测试文件_xxx(spider_name).py
下划线开头的是上线后代码后期异常需要整改的文件
- 配置文件在
defaults.py
- 项目目前采用单线程,接码平台借口也不适合用多线程
- 网络请求目前采用
requests
,也未封装成下载器,尚待改进 - 未根据pids文件夹pid文件判断运行,实测效果很不理想,改调用shell获取pid,暂时未注释掉相关代码