Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

안녕하세요! Daum Cafe 크롤링에 대한 게시물 잘봤습니다! #1

Open
kkoon9 opened this issue Oct 6, 2018 · 8 comments

Comments

@kkoon9
Copy link

kkoon9 commented Oct 6, 2018

질문 드리고 싶은데 답변 가능할까요???

@DevSusu
Copy link
Owner

DevSusu commented Oct 6, 2018

@kkoon9 네 말씀하세요

@kkoon9
Copy link
Author

kkoon9 commented Nov 8, 2018

git 사용에 익숙하지 않아서 답글 달린 것을 이제 봤습니다!
크롤링에 대해 관심이 생겨서 책 한권 공부를 마쳤습니다.
혹시 다음 카페 내의 원하는 키워드만 추출할 수 있을까요?
예를 들어서 "떡볶이" 라는 키워드를 가진 게시물이나 댓글을 크롤링하는 상황을 말씀 드린겁니다!

@DevSusu
Copy link
Owner

DevSusu commented Nov 9, 2018

네 가능합니다 다만 카페의 경우 테마를 정하기에 따라 HTML 태그나 CSS가 조금씩 바뀔 수 있습니다. 이 코드의 경우 정보를 수집하려는 대상 카페가 한 개라 다른 카페에도 적용하려면 CSS 선택자를 조금 범용적으로 수정할 필요는 있을 것 같습니다.

@kkoon9
Copy link
Author

kkoon9 commented Nov 9, 2018

감사합니다!
읽기 권한 즉, id와 pw가 있어야 크롤링이 가능한 사이트는 따로 권한을 부여해야 제대로된 크롤링이 가능한건가요??
제가 wget를 이용해서 검색어:다이소 를 쳐서 나온 결과물 크롤링을 하려고 했는데 제대로 된 결과가 나오지 않아서요!

@DevSusu
Copy link
Owner

DevSusu commented Nov 9, 2018

네 다음 카페에서 회원에게 공개하는 자료를 크롤링하기 위해 만들어서 그렇습니다.
비회원도 볼 수 있는 게시글이라면 id, pw가 필요없지만, 현재 로직은 무조건 로그인을 하고 시작하는걸로 되어있습니다. wget을 쓰신다면 그 결과물 안에 원하는 내용이 있는지를 먼저 확인해보시면 될듯합니다.

@kkoon9
Copy link
Author

kkoon9 commented Nov 9, 2018

감사합니다! DevSusu님은 ubuntu환경에서 크롤링을 구현해보신 적도 있으신가요?

@DevSusu
Copy link
Owner

DevSusu commented Nov 9, 2018

네 있습니다 우분투 한정적인 기능은 아니지만 python urllib, beautifulsoup 라이브러리를 썼던 것 같네요!
이 저장소에서는 selenium을 썼는데 이 경우는 브라우저를 가상화 하는것이라 페이지에서 동적으로 컨텐츠를 불러오는 경우나 스크린샷을 찍는 등의 기능이 필요해서 썼습니다. 그럴 필요가 없고 정적인 데이터를 더 빠르게 모으는 것이 목적이라면 말씀하신 wget과 같이 HTTP Request를 통한 크롤링이 더 좋을 것 같아요.

@kkoon9
Copy link
Author

kkoon9 commented Nov 9, 2018

많은 도움이 됐습니다!!
감사합니다~~~

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants