Парсинг скрипт для каталога маркетплейса

Этот проект автоматизирует сбор данных с динамического каталога и формирует удобную базу для аналитики, мониторинга ассортимента и дальнейшей загрузки в CRM или BI-инструменты. Скрипт адаптирован под фильтрацию по заданным критериям и выгрузку в нужный формат.

Технологии

Стек проекта

Для надежной работы с динамическими страницами использован Playwright, а для точного извлечения данных из HTML — BeautifulSoup. Такой подход позволяет объединить устойчивую навигацию по сайту и гибкий парсинг структуры контента.

Python Playwright BeautifulSoup CSV / Excel / JSON Google Sheets API

Процесс

Как устроен пайплайн

1. Открытие динамического каталога и имитация действий пользователя для подгрузки карточек.

2. Сбор HTML-структуры и извлечение целевых полей по заданному критерию.

3. Очистка, нормализация и сохранение данных в выбранном формате для дальнейшей работы команды.