Skip to content

Latest commit

 

History

History
41 lines (29 loc) · 1.93 KB

README.md

File metadata and controls

41 lines (29 loc) · 1.93 KB

data-handler

handbag website img_url crawling & h5py amazon handbag dataset to jpg converter python code

prerequisite

$ pip install -r requirements.txt



file

jupyter notebook file

각 task에 따른 jupyter notebook file 입니다.

  • h5py_to_jpg_convert.ipynb : 약 137000장의 amazon handbag h5py 파일을 자신의 local에 jpg 형태로 변환하여 저장시켜주는 코드입니다.
  • web_crawling_bag.ipynb : online handbag website의 img_url을 html에서 source를 찾아내어 list에 저장하고 이를 csv로 만들어주는 코드입니다.
  • web_crawling_bag_2.ipynb : online handbag website의 img_url을 html에서 source를 찾아내어 list에 저장하고 이를 csv로 만들어주는 코드입니다.(하나의 jupyter notebook file로는 가독성이 뛰어나지 않을 것 같아 분리하였습니다.)
  • practice_pandas.ipynb : pandas library를 이용하여 여러 data를 handling하는 코드입니다.

data

data/bag_image_url_csv

각 website로부터 가져온 img_url이 csv 형태로 저장되어 있습니다. 또한 't_'로 시작하는 csv 는 column의 형태로 저장되어있던 csv를 transposed 시킨 csv 입니다.

error

  • 한국 쇼핑몰

    • 한국 쇼핑몰의 경우 data 자체의 수가 적어 여러개의 사이트를 돌아다니면서 일일이 크롤링 해야한다는 단점이 있음

    • 하나의 division 안에 mouseover / mouseout 과 같이 마우스가 올라갈 때마다 사진이 바뀌는 사이트가 존재 -꺼내면 하나의 이미지밖에 나오지 않음

    • 무신사의 경우 이미지 크기가 너무 작아 포기하였음

  • 해외 쇼핑몰

    • 대부분의 해외 쇼핑몰은 page 별로 나누어져있지 않고 밑으로 내리면 load data가 되도록 홈페이지가 구성되어 있음

    • HTTP 접근 자체를 막아놓아 403이나 406의 error를 발생하는 사이트가 많음