Skip to content

Latest commit

 

History

History
33 lines (24 loc) · 634 Bytes

README.md

File metadata and controls

33 lines (24 loc) · 634 Bytes

概述

爬虫: 爬取英文官方文档, 统计其中英语单词出现的频率, 并按降序排列, 用于英语学习

使用

下载:

$ git clone https://github.com/cnlzxin/spider.git

运行:

$ cd ./spider/
$ scrapy crawl docs	# 生成 docs.json 文件

数据处理:

$ python3 docs2dict.py	# 在同目录下生成 dict_.json 文件

TODO

  • Golang 官方文档 进行统计
  • 可以爬取任意英文网站文档
  • 数据获取和处理一步到位
  • 使用Web展示(Django)
  • 添加词根/义, 删除简单词
  • 多线程 && 代理池
  • 分布式