Социальная сеть vk.com Куценко Дмитрий. Создание сайтов в Белгороде dWkbelg.ru Социальная сеть odnoklassniki.ru Куценко Дмитрий. Создание сайтов в Белгороде dWkbelg.ru

СОЗДАНИЕ, ПОДДЕРЖКА И ПРОДВИЖЕНИЕ САЙТОВ

Как правильно настроить индексирование сайта в поисковых системах

Как правильно настроить индексирование сайта в поисковых системах

На первый взгляд может показаться, что в этом нет ничего сложного. Настроили robots.txt, разместили sitemap - ждем обновления базы данных поисковой системы. А что делать, если появились дубли страниц или некоторые страницы веб-ресурса каким-то образом не проиндексировались роботом-поисковиком? Как можно несколько сайтов объединить в один без потери трафика? Почему могут возникнуть сложности с перенаправлением и для реализации какого вида целей какие редиректы подходят? Почему на сайт заходит робот-поисковик, а при отображении страницы выдается 404-ая или 503-я ошибка?

Как происходит процесс индексирования?

Индексирование – это процесс получения информации о страницах/разделах/категориях и других составляющих сайта с последующим добавлением данных в базу данных поисковой системы.

Чтобы правильно настроить индексирование сайта, следует пройти по каждому этапу этого процесса, так как зная каждый из них, можно понять, каким образом решить  возникшую проблему.

Индексация состоит из нескольких последовательных действий:

1. Робот-поисковик узнает о новой странице или сайте. Это может происходить различными способами, но основных из них два:

 - это внешние ссылки на сторонних источниках (например, добавили сайт и данные о вашей организации в «2GIS», «Яндекс. Справочник» и т.д.);

 - алгоритм поиска нашел и проанализировал файл sitemap.

2. Затем роботом планируется обход страницы.

3. На третьем шаге происходит анализ новой страницы - сначала бот-поисковик запрашивает данные новой страницы со стороны сервера. Уже тут могут возникнуть сложности, связанные, например, с малой мощностью серверного оборудования хостинг-провайдера. Если это так, то система сервера просто не даст пройти роботу далее и на этом индексирование закончится, информация в базу данных поисковой системы не поступит. Чтобы просмотреть, всё ли в порядке на этом этапе, достаточно воспользоваться сервисом «Яндекс. Вебмастер». 

Основное, что нас интересует - "код статуса ответа страницы"

Наиболее популярные статусы страниц:

«200» означает, что страница доступна и ее необходимо проиндексировать, потом внести в базу данных поисковой системы;

«404» дает понять как роботу, так и серверу, что страница удалена и анализировать нечего;

«301» или наиболее часто встречающееся определение «301-ый редирект». Говорит роботу-анализатору о том, что страница и ее содержимое перенесены и находятся на другой странице сайта;

Код «304» означает, что страница не менялась с момента последнего обращения, индексировать ее нет необходимости;

Статус «503» - сервер временно недоступен. Может возникать, например, в случаях, когда проводятся технические или регламентные работы на сайте. Если поисковой робот придет в это время для анализа веб-ресурса, то он видит данный статус и придет позже, спустя некоторое время.

 

После того, как алгоритм, анализирующий сайт, узнал о статусе страницы, он решает что с ней делать дальше. Если у него есть возможность произвести индексирование именно сейчас, он к этому приступает. На этом этапе происходит занесение данных о содержимом страницы (мета-теги, описание, тайтл, контент, картинки и другие элементы) в память.

Затем информация передается в БД поисковой системы, которая через некоторое время обновляется и выдаёт определенную на основе многих параметров позицию проиндексированной странице.

 

Robots.txt

Это файл, который можно отредактировать в любом текстовом редакторе. Преимущество и одновременно необходимость в нём состоим в том, что он прописывает строгие инструкции для роботов поиска различных поисковых систем. Располагают роботс.тхт в корневой папке сайта.

Наиболее популярные ошибки, возникающие при работе с данным файлом:

- закрытие действительно нужных страниц сайта. Чаще всего эта ошибка связана с незнанием всех аспектов и нюансов правильного заполнения;

- использование кириллических символов (не допускается);

- одни и те же правила для разных роботов. Нюанс, о котором часто забывают. Согласитесь, что даже на вид «Яндекс» и «Google» сильно отличаются друг от друга. Что тогда говорить о внутренних алгоритмах ранжирования и поисковых роботах? Соответственно, и правила надо прописывать разные, так как один бот их примет, а другой даже не обратит внимания.

- использование директивы «crawl-delay» (определяет частоту запросов поискового бота и часто используется в тех случаях, когда сервер подвержен сильной нагрузке) без необходимости. Реальный пример: на сайт-визитку, располагающийся на самом дешевом хостинге, добавили каталог, содержащий около 10.000 товаров! Робот-поисковик начал скачивать и анализировать информацию и из-за ее объема перестал успевать ее обрабатывать. Многие страницы стали недоступны, выдавая 404-ую ошибку. В этом случае логичное решение – выставить директиву «crawl-delay».

 

По материалам https://akiwa.ru/blog/kak-pravilno-nastroit-indeksirovanie-sayta-v-poiskovykh-sistemakh/