Skip to content

Latest commit

 

History

History
58 lines (33 loc) · 1.08 KB

网络爬虫资料.md

File metadata and controls

58 lines (33 loc) · 1.08 KB

Apache Nutch

编程语言 Java

https://github.com/apache/nutch

Apache Nutch 的镜像,高扩展、可伸缩的开源网络爬虫项目

官网 http://nutch.apache.org/

Heritrix

编程语言 Java

https://github.com/internetarchive/heritrix3

Heritrix 是互联网档案馆的开源网络爬虫项目

官网 https://webarchive.jira.com/wiki/display/Heritrix

crawler4j

编程语言 Java

https://github.com/yasserg/crawler4j

Java 开源网络爬虫

WebMagic

编程语言 Java

https://github.com/code4craft/webmagic

Java 编写的可伸缩开源网络爬虫框架

官网 http://webmagic.io/

Scrapy

编程语言 Python

https://github.com/scrapy/scrapy

Python 编写的快速高水平的开源网络爬虫框架

jsoup

编程语言 Java

https://github.com/jhy/jsoup

Java HTML 解析器,使用 CSS、jQuery 类似的选择器

官网 https://jsoup.org/

symfony/dom-crawler & symfony/css-selector

编程语言 PHP

https://github.com/symfony/dom-crawler https://github.com/symfony/css-selector

Symfony 的组件,使用 CSS、XPath 选择器

官网 https://symfony.com/