Skip to content

engigu/yzm_phone_crawl

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

简介

该项目主要用来抓取接码平台的手机号,使用基于redis的bloom filter 接码号码平台现在属于黑色产业,号码被用来接受各个网站的验证码,平台上抓取的手机号可以百分百认定为羊毛党手机号。

运行环境

  • python3
  • redis
  • requests

食用方法

  • down或者clone下来
  • 在项目根目录新建 datalogspids 三个文件夹
  • 最后python3 spiders/main.py, 有两个运行参数选择
    • start_all 一次开启所有任务
    • pids 根据pid情况管理运行任务
    • heart_beat 心跳检测停止的spider,重新启动spider,默认时长5 min,在main.py设置

spiders文件夹下文件状态

  • pre.py文件为预上线代码,支持其他spiders运行时上线新spider测试,(测试记得注释掉bloom过滤代码,以免影响生产 环境过滤),ok以后,cp pre.py xxx(newSpiderName).py,到达心跳间隔,自动会启动
  • demo.py为功能测试文件
  • _xxx(spider_name).py 下划线开头的是上线后代码后期异常需要整改的文件

配置

  • 配置文件在defaults.py

Other

  • 项目目前采用单线程,接码平台借口也不适合用多线程
  • 网络请求目前采用requests,也未封装成下载器,尚待改进
  • 未根据pids文件夹pid文件判断运行,实测效果很不理想,改调用shell获取pid,暂时未注释掉相关代码

平台

Releases

No releases published

Packages

No packages published