编程语言 Java
https://github.com/apache/nutch
Apache Nutch 的镜像,高扩展、可伸缩的开源网络爬虫项目
编程语言 Java
https://github.com/internetarchive/heritrix3
Heritrix 是互联网档案馆的开源网络爬虫项目
官网 https://webarchive.jira.com/wiki/display/Heritrix
编程语言 Java
https://github.com/yasserg/crawler4j
Java 开源网络爬虫
编程语言 Java
https://github.com/code4craft/webmagic
Java 编写的可伸缩开源网络爬虫框架
编程语言 Python
https://github.com/scrapy/scrapy
Python 编写的快速高水平的开源网络爬虫框架
编程语言 Java
Java HTML 解析器,使用 CSS、jQuery 类似的选择器
编程语言 PHP
https://github.com/symfony/dom-crawler https://github.com/symfony/css-selector
Symfony 的组件,使用 CSS、XPath 选择器