Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

整个数据获取的过程是有漏洞的 #15

Open
ddv12138 opened this issue Oct 25, 2019 · 0 comments
Open

整个数据获取的过程是有漏洞的 #15

ddv12138 opened this issue Oct 25, 2019 · 0 comments

Comments

@ddv12138
Copy link

首先,链家现在会封ip的,然后按照你这里的逻辑最后抓取的数据会有很大问题,以武汉为例
  1. 第一步是要有武汉的经纬度信息和区域编码来获取武汉下面的区一级信息,比如汉口,武昌,这些都是国家统一标准,很好获取,这里没问题。
  2. 第二步你拿到区一级信息,用区一级的边界属性以类似打点法的手段去循环请求来获取该区下小区的信息,这个时候问题就出来了,链家返回是该坐标值附近一定范围内的小区信息,包括不在该区内的,而且链家后台可能有分表分库处理,小区的id会重复,这就导致不同的数据相互覆盖或者相同的数据重复。
  3. 在获取小区和房屋信息时都存在的一个问题是服务器返回的json字符串的格式不是固定的,表示数据的部分有时候是obj有时候是array,统一的获取方法会导致数据丢失。
    我自己参照你的代码用java重写了一份,解决了上述问题,但是被封ip还有一些性能问题没有解决
    我的项目
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant