Skip to content

本仓库收集整理爬虫相关资源,开发语言以Java为主

Notifications You must be signed in to change notification settings

wellgone/awesome-java-crawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 

Repository files navigation

awesome-java-crawler

本仓库收集整理Java爬虫相关资源

非浏览器Java爬虫框架

基于浏览器核心的爬虫框架

  • Selenium - 应用最广泛的浏览器自动化测试框架,支持所有主流浏览器
  • PhantomJS(javascript) - 基于WebKet核心的无头浏览器。已经停止维护
  • Puppeteer(javascript) - 提供基于Chrome开发工具协议控制Chrome浏览器的高层开发API
  • Chrome Devtools Protocol - Chrome开发工具协议相关资源
  • CDP4J - Java版本的开发工具协议支持库。注意本库为商业授权
  • Tampermonkey - 浏览器脚本管理器,也可用于浏览器自动化控制

Java爬虫实例

Java网络框架

  • java-curl - CURL命令行工具的纯java实现,功能全面,特别适合爬虫
  • httpclient - 历史悠久的Apache HTTP开源库
  • okhttp - 目前流行的HTTP开源库,可用于Android
  • retrofit - 基于okhttp的高层HTTP库,提供基于注解的API

请求应答解析

  • jsoup - 网络请求,HTML解析,CSS Selector/xPath查询
  • Jackson - JSON解析
  • Gson - JSON解析
  • dom4j - XML解析

代理IP

验证码破解

抓包分析,请求拦截等工具

  • Fiddler - Windows平台上常用抓包工具,可以分析HTTPS,可C#编程自行扩展
  • Charles - Mac上可用的抓包工具
  • LittleProxy-MITM - 基于LittleProxy,可编程扩展的Java代理服务器
  • proxyee - 国人作品,支持HTTPS代理
  • 抓包工具大全 - 猫厂、鹅厂都有,看来大厂都喜欢造轮子

页面Javascript跟踪分析

其它工具

  • CURL - 最常用的命令行请求模拟工具,Windows下可以通过Cygwin安装,也可以直接用java-curl
  • HTTPBIN.ORG - 一个网站,可根据需求模拟各种HTTP应答,也可用于验证代理的匿名性(透明/匿名/高匿)
    • curl -x <proxy>:<port> https://httpbin.org/get?show_env=1 - 如果X-Forwarded-For和origin不一致,表明使用了非匿名代理
  • 淘宝IP地址库
    • http://ip.taobao.com/service/getIpInfo.php?ip=11.206.34.204 - 查询给定IP的归属地
    • curl http://ip.taobao.com/service/getIpInfo2.php -x <proxy>:<port> -d "ip=myip" - 查询当前主机的公网IP归属地,这个命令可以验证代理IP是否可用
  • IP138 - 查询IP归属地、手机号段等
  • 在线UA库 - 各种真实浏览器UserAgent列表
  • WEB前端助手 - Chrome插件,提供大量实用工具,如JSON格式化,编解码等

参考和资源

概念与思路

Chrome浏览器相关

Android逆向相关:xposed等

About

本仓库收集整理爬虫相关资源,开发语言以Java为主

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published