+7 (950) 415-93-78

Механизм сбора информации. Яндекс и Google нас тоже парсит?


Механизм сбора информации довольно прост. Бот парсинга обращается к сайту, а именно к целевой странице сайта, получает HTML-код этой страницы, анализирует ее на предмет данных, которые были заданны этому боту для поиска, при обнаружении он их копирует и сохраняет в свою базу данных. На этом работа по парсингу заканчивается.

Как вы думаете, каким образом Яндекс и Google индексируют сайты, занося с постоянной периодичностью вновь появившиеся страницы  или убирая несуществующие из индексации? Да, они как раз именно парсят сайты, чтобы получить данных и проиндексировать их у себя в поиске, и никак иначе. 

Также, если на сайте присутствует файл robots.txt, это своего рода приглашение для поисковых систем, он определяет какие страницы можно парсить, а какие нет. Что касается наших ботов, они также в первую очередь смотря на файл robots.txt и, если страница запрещена для парсинга, конечно же, он ее не трогает. Отсюда ответ уважаемым заказчикам: если информация на сайте запрещена для парсинга в robots.txt, то мы ее не парсим. Но в действительности ассортимент всегда открыт на интернет-магазинах для того, чтобы поисковики могли его индексировать, и проблем с парсингом данной информации не возникает.

В следующей статье мы расскажем вам какую информацию можно парсить, а какую нет.

 

Опишите ваш заказ

Оформить заказ

ТоварЦена