企查查的防爬很厉害,所以只能是利用代码自动化一些复制粘贴的程序。
极验(Geetest)还是得手动,要留意定时跳出的验证框。
数据中仍存在不及时、不准确、重复的信息。
场景:获得养老行业的公司信息
- 数据处理_不爬网.py - 得到自己关注机构的投融资事件
- 投资项目词云_old.py - 创建投资项目词云(输入为主营业务概述的excel表格)
相关附件:- 月度主营业务汇总_sample.xlsx
- cn_stopwords_sample.txt
- unicorn_sample.jpg
- 数据处理可视化_old.py - 原始版本数据处理,可视化为投融资事件热力图
网页版动态文件:养老相关品牌产品地区分布.html