some-crawl 下面介绍一下各个著名网站防爬取的方法: 1 网易云音乐 想要的东西在异步加载嵌套在iframe里面的,并且 网页上只显示src="about:blank" 2 去哪儿网--聪明你的旅行 机票价格网页源代码上于界面显示不一致 正常字体是0123456789,在去哪儿官方的字体里被替换成了图片里的 ###现在很多页面的内容都是采用ajax异步加载进来的,所以可以研究一下框架selenium,网易云音乐和去哪儿都可以利用这个框架爬取数据 3 蜜罐,确认是爬虫之后,返回虚假数据 4 乱码。关键信息不是正常字符,而是通过图片或者乱码来展示 5 IT桔子,当判别出爬虫之后会返回“F**k you! Spider”....咋想的 o_O! 6 携程的机票价格是每位数字拼成对应的价格