Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

refactor: 게시글 타입 별 크롤러를 통합 크롤러로 만든다. #79

Open
Laeng opened this issue Jan 6, 2024 · 0 comments
Open
Assignees
Labels
뉴스 뉴스 도메인 💎 핵심기능 핵심 기능에 관한 작업 🗣 회의 회의에 관한 작업 🙋‍♀️ 제안 제안에 관한 작업 🛠 수정 수정에 관한 작업

Comments

@Laeng
Copy link
Member

Laeng commented Jan 6, 2024

이슈 내용

현재 크롤러는 공홈 게시글 타입마다 크롤러를 만들 수 있도록 준비되어 있습니다.
각 게시글 타입마다 맞춤 크롤러를 만드는 것도 효과적인 방식이라는 것에 동의하나 우려스러운 점이 있습니다.

  • RSI 공홈은 점진적으로 개선 작업을 수행하는 것으로 보임, 원활한 크롤링을 위해 맞춤형 크롤러의 업데이트를 위한 꾸준한 모니터링 요구 발생
  • 게시글 타입별 맞춤형 크롤러 제작과 게시글 타입 분류 기능 제작 필요로 인한 공수 증가

저는 이러한 사항을 해소하고, 런칭 이후 운영 소요를 줄이고 싶어 다음과 같이 모든 게시글을 아우를 수 있는 크롤러를 만들고자 합니다.

  • 기존과 동일하게 Jsoup 활용
  • head 태그중 title 또는 open graph protocol 의 title 에서 추출
  • body 내 .page-wrapper 클래스 내부 요소 추출
  • serializable 가능한 객체 상태로 반환

이를 통해 content translation 시 텍스트를 쉽게 추출하고 주입할 수 있도록 하며, 반복적인 Jsoup 의 파싱 작업을 줄이고, 맞춤형 크롤러의 개발 공수 및 크롤러 타입 선택을 위한 기능 개발을 줄일 수 있을 것으로 예상합니다.

@Laeng Laeng added 뉴스 뉴스 도메인 🛠 수정 수정에 관한 작업 💎 핵심기능 핵심 기능에 관한 작업 🗣 회의 회의에 관한 작업 🙋‍♀️ 제안 제안에 관한 작업 labels Jan 6, 2024
@Laeng Laeng self-assigned this Jan 6, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
뉴스 뉴스 도메인 💎 핵심기능 핵심 기능에 관한 작업 🗣 회의 회의에 관한 작업 🙋‍♀️ 제안 제안에 관한 작업 🛠 수정 수정에 관한 작업
Projects
None yet
Development

When branches are created from issues, their pull requests are automatically linked.

1 participant