6 февраля 2020
14 мин на чтение
69956

Что такое парсинг и как правильно парсить

Нет времени читать?

Нажимая на кнопку "Отправить", вы даёте своё согласие на обработку персональных данных.


Что такое парсинг данных должен знать каждый владелец сайта, планирующий серьёзно развиваться в бизнесе. Это явление настолько распространено, что рано или поздно с парсингом может столкнуться любой. Либо как заказчик данной операции, либо как лицо, владеющее объектом для сбора информации, то есть ресурсом в Интернете.

К парсингу в российской бизнес-среде часто наблюдается негативное отношение. По принципу: если это не незаконно, то уж точно аморально. На самом деле из его грамотного и тактичного использования каждая компания может извлечь немало преимуществ.

Наши продукты помогают вашему бизнесу оптимизировать расходы на маркетинг
Узнать подробнее

Что такое парсинг

Глагол “to parse” в дословном переводе не означает ничего плохого. Делать грамматический разбор или структурировать — действия полезные и нужные. На языке всех, кто работает с данными на сайтах это слово имеет свой оттенок.

Парсить — собирать и систематизировать информацию, размещенную на определенных сайтах, с помощью специальных программ, автоматизирующих процесс.

Если вы когда-либо задавались вопросом, что такое парсер сайта, то вот он ответ. Это программные продукты, основной функцией которых является получение необходимых данных, соответствующих заданным параметрам.

Законно ли использовать парсинг

После выяснения что такое парсинг, может показаться, что это нечто, не соответствующее нормам действующего законодательства. На самом деле это не так. Законом не преследуется парсинг. Зато запрещены:

  • взлом сайта (то есть получение данных личных кабинетов пользователей и т. п.);
  • DDOS-атаки (если на сайт в результате парсинга данных ложится слишком высокая нагрузка);
  • заимствование авторского контента (фотографии с копирайтами, уникальные тексты, подлинность которых заверена у нотариуса и т. п. лучше оставить на их законном месте).

Парсинг законен, если он касается сбора информации, находящейся в открытом доступе. То есть всего, что можно и так собрать вручную.

Парсеры просто позволяют ускорить процесс и избежать ошибок из-за человеческого фактора. Поэтому «незаконности» в процесс они не добавляют.

Другое дело, как владелец свежесобранной базы распорядится подобной информацией. Ответственность может наступить именно за последующие действия.

Для чего нужен парсинг

Что такое парсить сайт разобрались. Переходим к тому, зачем же это может понадобиться. Здесь открывается широкий простор для действий.

Основная проблема современного Интернета — избыток информации, которую человек не в состоянии систематизировать вручную.

Парсинг используется для:

  • Анализа ценовой политики. Чтобы понять среднюю стоимость тех или иных товаров на рынке, удобно использовать данные по конкурентам. Однако если это сотни и тысячи позиций, собрать их вручную оперативно невозможно.
  • Отслеживания изменений. Парсинг можно осуществлять на регулярной основе, например, каждую неделю, выявляя на что повысились цены в среднем по рынку и какие новинки появились у конкурентов.
  • Наведения порядка на своём сайте. Да, так тоже можно. И даже нужно, если в интернет-магазине несколько тысяч товаров. Найти несуществующие страницы, дубли, неполное описание, отсутствие определенных характеристик или несоответствие данных по складским остаткам тому, что отображается на сайте. С парсером быстрее.
  • Наполнения карточек товаров в интернет-магазине. Если сайт новый, счёт обычно идёт даже не на сотни. Вручную на это уйдёт непозволительно количество времени. Часто используют парсинг с иностранных сайтов, переводят полученные тексты автоматизированным методом, после чего получают практически готовые описания. Иногда то же проделывают с русскоязычными сайтами, а полученные тексты изменяют с помощью синонимайзера, но за это можно получить санкции от поисковых систем.
  • Получения баз потенциальных клиентов. Существует парсинг, связанный с составлением, например, списка лиц, принимающих решения, в той или иной отрасли и городе. Для этого может применяться личный кабинет на сайтах поиска работы с доступом к актуальным и архивным резюме. Этичность дальнейшего использования подобной базы каждая компания определяет самостоятельно.
caltouch-platform

Сквозная аналитика

 от 990 рублей в месяц
  • Автоматически собирайте данные с рекламных площадок, сервисов и CRM в удобные отчеты
  • Анализируйте воронку продаж от показов до ROI
  • Настройте интеграции c CRM и другими сервисами: более 50 готовых решений
  • Оптимизируйте свой маркетинг с помощью подробных отчетов: дашборды, графики, диаграммы
  • Кастомизируйте таблицы, добавляйте свои метрики. Стройте отчеты моментально за любые периоды

Достоинства парсинга

Они многочисленны. По сравнению с человеком парсеры могут:

  • собирать данные быстрее и в любом режиме, хоть круглосуточно;
  • следовать всем заданным параметрам, даже очень тонким;
  • избегать ошибок от невнимательности или усталости;
  • выполнять регулярную проверку по заданному интервалу (каждую неделю и т. п.);
  • представить собранные данные в любом необходимом формате без лишних усилий;
  • равномерно распределять нагрузку на сайт, где проходит парсинг (обычно одна страница за 1-2 секунды), чтобы не создавать эффект DDOS-атаки.

Ограничения при парсинге

Есть несколько вариантов ограничений, которые могут затруднить работу парсера:

  • По user-agent. Это запрос, в котором программа сообщает сайту о себе. Парсеры банят многие веб-ресурсы. Однако в настройках данные можно изменить на YandexBot или Googlebot и отсылать правильные запросы.
  • По robots.txt, в котором прописан запрет для индексации поисковыми роботами Яндекса или Google (ими мы представились сайту выше) определенных страниц. Необходимо задать в настройках программы игнорирование robots.txt.
  • По IP-адресу, если с него в течение долгого времени поступают на сайт однотипные запросы. Решение — использовать VPN.
  • По капче. Если действия похожи на автоматические, выводится капча. Научить парсеры распознавать конкретные виды достаточно сложно и дорогостояще.

Какую информацию можно парсить

Спарсить можно всё, что есть на сайте в открытом доступе. Чаще всего требуются:

  • наименования и категории товаров;
  • основные характеристики;
  • цена;
  • информация об акциях и новинках;
  • тексты описания товаров для их последующего переделывания «под себя» и т. п.

Изображения с сайтов технически спарсить тоже можно, но, как уже упоминалось выше, если они защищены авторским правом, лучше не нужно. Нельзя собирать с чужих сайтов личные данные их пользователей, которые те вводили в личных кабинетах

caltouch-platform

Модуль е-коммерс

Аналитика для интернет-магазина
От 990 рублей в месяц
  • Автоматически собирайте данные с рекламных площадок, сервисов и CRM в удобные отчеты
  • Отслеживайте корзины, звонки, заявки и продажи с них с привязкой к источнику
  • Постройте полную воронку продаж от бюджета на рекламу до ROI
  • Отслеживайте какие категории и бренды чаще покупают

Алгоритм работы парсинга

Принцип действия программы зависит от целей. Но схематично он выглядит так:

  • Парсер ищет на указанных сайтах или по всему Интернету данные, соответствующие параметрам.
  • Информация собирается и производится первоначальная систематизация (её глубина также определяется при настройке);
  • Из данных формируется отчёт в формате, соответствующем требуемым критериям. Большинство современных парсеров мультиформатны и могут успешно работать хоть с PDF, хоть с архивами RAR, хоть с TXT.

Способы применения

Основных способов применения парсинга существует два:

  • анализировать свой сайт, внося в него необходимые улучшения;
  • анализировать сайты конкурентов, заимствуя оттуда основные тенденции и конкретные характеристики товаров.

Обычно оба варианта работают в тесной связке друг с другом. Например, анализ ценовых позиций у конкурентов отталкивается от имеющегося диапазона на собственном сайте, а обнаруженные новинки сопоставляются с собственной товарной базой и т. п.

Как парсить данные

Для парсинга данных можно выбрать один из двух форматов:

  • воспользоваться специальными программами, которых на рынке существует немало;
  • написать их самостоятельно. Для этого может применяться практически любой язык программирования, например, PHP, C++, Python/

Если требуется не вся информация по странице, а только что-то определенное (наименования товаров, характеристики, цена), используется XPath.

XPath – это язык, на котором формируются запросы к XML-документам и их отдельным элементам.

С помощью его команд необходимо определить границы будущего парсинга, то есть задать как парсить данные с сайта — полностью или выборочно.

Чтобы определить XPath конкретного элемента необходимо:

  • Перейти на страницу любого товара на анализируемом сайте.
  • Выделить цену и щелкнуть по выделению правой кнопкой мыши.
  • В открывшемся окне выбрать пункт «Посмотреть код».
  • После появления с правой стороны экрана кода, нажать на три точки с левой стороны от выделенной строки.
  • В меню выбрать пункт “Copy”, затем “Copy XPath”.
Копирование XPath

Пример определения XPath элемента на сайте интернет-магазина обуви Holtz

Как спарсить цену

Задаваясь вопросом «Парсинг товаров — что это?», многие подразумевают именно возможность провести ценовую разведку на сайтах конкурентов. Цены парсят чаще всего и действовать необходимо следующим образом. Скопированный в примере выше код ввести в программу-парсер, которая подтянет остальные данные на сайте, соответствующие ему.

Чтобы парсер не ходил по всем страницам и не пытался найти цены в статьях блога, лучше задать диапазон страниц. Для этого необходимо открыть карту XML (добавить /sitemap.xmlв адресную строку сайта после названия). Здесь можно найти отсылки к разделам с ценами — обычно это товары (products) и категории (categories), хотя называться они могут и по-другому.

Как спарсить характеристики товаров

Здесь всё достаточно просто. Определяются коды XPath для каждого элемента, после чего они вносятся в программу. Так как технические характеристики у одинаковых товаров будут совпадать, можно настроить автозаполнение своего сайта на основе полученной информации.

Как парсить отзывы (с рендерингом)

Процесс сбора отзывов на других сайтах с целью переноса их к себе вначале выглядит похожим образом. Необходимо определить XPath для элемента. Однако далее возникают сложности. Часто дизайн выполнен так, что отзывы появляются на странице именно в тот момент, когда пользователь прокручивает её до нужного места.

В этом случае необходимо изменить настройки программы в пункте Rendering и выбрать JavaScript. Так парсер будет полностью воспроизводить сценарий движения по странице обычного пользователя, а отзывы получит путём выполнения скриншота.

Как парсить структуру сайта

Парсинг структуры — полезное занятие, поскольку помогает узнать, как устроен сайт конкурентов. Для этого необходимо проанализировать хлебные крошки (breadcrumbs):

  • Навести курсор на любой элемент breadcrumbs;
  • Нажать правую кнопку мыши и повторить действия по копированию XPath.

Далее действие необходимо выполнить для других элементов структуры.

Заключение
Парсинг сайтов — что это? Зло для владельцев сайтов или полезный инструмент для бизнеса. Скорее второе, ведь без кропотливого сбора данных не обходится ни один глубокий анализ конкурентов. Парсинг помогает ускорить процесс, снять с человека нагрузку бесконечной рутинной работы и избежать ошибок, вызванных переутомлением.
Использовать парсинг — абсолютно законно, особенно если знать все сопутствующие нюансы. А возможности этого инструмента практически безграничны. Спарсить можно почти всё — нужно только знать как.

Оцените
Поделитесь с друзьями
Что нового в интернет-маркетинге?
Главное в ежемесячной рассылке
Нажимая на кнопку "Подписаться", вы даёте своё согласие на обработку персональных данных.
У вас есть интересный материал?
Опубликуйте статью в нашем блоге
Опубликовать статью
Рекомендуем прочитать
Хотите получить актуальную подборку кейсов?
Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900р.
[contact-form-7 404 "Not Found"]
Callday.Connect
Конференция про маркетинг для интеграторов
Записаться
У нас тут cookies…
На сайте используются файлы cookies. Продолжая использование сайта, вы соглашаетесь с этим. Подробности об обработке ваших данных — в политике конфиденциальности.