Skip to content

Latest commit

 

History

History
19 lines (12 loc) · 879 Bytes

README.md

File metadata and controls

19 lines (12 loc) · 879 Bytes

some-crawl

下面介绍一下各个著名网站防爬取的方法:

1 网易云音乐

  想要的东西在异步加载嵌套在iframe里面的,并且 网页上只显示src="about:blank" 

2 去哪儿网--聪明你的旅行

  机票价格网页源代码上于界面显示不一致
  正常字体是0123456789,在去哪儿官方的字体里被替换成了图片里的

###现在很多页面的内容都是采用ajax异步加载进来的,所以可以研究一下框架selenium,网易云音乐和去哪儿都可以利用这个框架爬取数据

3 蜜罐,确认是爬虫之后,返回虚假数据

4 乱码。关键信息不是正常字符,而是通过图片或者乱码来展示

5 IT桔子,当判别出爬虫之后会返回“F**k you! Spider”....咋想的 o_O!

6 携程的机票价格是每位数字拼成对应的价格