Skip to content

This repository provides site parsing fix-price.com through the Scrappy framework, which has dynamic loading of prices, marketing tags, and availability of goods in stores (there is no display via Java Script in Scrapy).

Notifications You must be signed in to change notification settings

Pythonshik0/ParsScapy

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

В данном репозитории представлен парсинг сайта fix-price.com через framework Scrapy, в котором присутствует динамическая загрузка цен, маркетинговых тэгов, наличии товаров в магазинах (отображение через Java Script).

  1. Scrapy - это фреймворк для парсинга веб-страниц, который работает с HTML и XML. Он не выполняет JavaScript, поскольку Scrapy не является браузером и не обладает функциональностью для интерпретации и выполнения JavaScript.
  2. Многие современные веб-сайты используют динамическую загрузку данных через JavaScript, что означает, что содержимое страницы может изменяться или дополняться после загрузки. В таких случаях Scrapy может иметь ограничения в получении всех данных на странице, если они генерируются с помощью JavaScript.

Два пункта выше говорят нам о том, что мы не можем через Scrapy "спарсить" цену и тд., так как они являются динамически отображаемыми

pruf1 fruf2

*На данных скринах видно, что данные, такие как цена, отображаются динамически и мы не сможем спарсить их через scrapy

Мое решение:

1) Использование библиотеки Puppeteer или Playwrith (асинхронные библиотеки для парсинга с взаимодействием с браузером на выбор).

2) Использование Java Script запросов на страницу через fetch (Доступно в Puppeteer или Playwrith).

3) Запуск 3+ потоков через 1 браузер путем перебора ссылок на товары.

Запуск данного проекта на SCRAPY

1)Установите requirements.txt >> pip install -r requirements.txt

2) Перейдите C:\Users\User\PycharmProjects\ScrapyParsProject\scrapypars_fixprice\scrapypars_fixprice\spiders

3) Введите команду >> scrapy crawl second_spiders -O second.json

4) Ожидайте парсинга 3 категорий, они будут представлены в second.json

About

This repository provides site parsing fix-price.com through the Scrappy framework, which has dynamic loading of prices, marketing tags, and availability of goods in stores (there is no display via Java Script in Scrapy).

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages