Файл robots.txt и мета-тег robots - правильный роботс и его проверка

При самостоятельном продвижении и раскрутке сайта важно не только создание уникального контента, но так же и правильная индексация ресурса поисковиками - от этого зависит весь дальнейший успех продвижения.

Ответственнен за это, конечно же, файл robots.txt и похожий на него по названию мета-тег роботс, которые помогают запретить индексирование на сайте того, что не содержит основного контента (исключить файлы движка, запретить индексацию дублей контента) и именно о них и пойдет речь ниже...

Почему так важно управлять индексацией сайта

Надо четко понимать, что при использовании системы управления сайтом не все содержимое сайта должно быть доступно роботам поисковых систем.

Хотя бы потому, что потратив время на индексацию файлов движка сайта (а их может быть тысячи), до основного контента поисковик может добираться долго ))) Дело в том, что он не будет сидеть на вашем ресурсе до тех пор, пока полностью не занесет его в индекс. Есть лимиты на число страниц и исчерпав их, он уйдет на другой сайт!

Если не прописать определенные правила поведения в файте robots.txt для этих ботов, то в индекс поисковиков попадет множество страниц, не имеющих отношения к значимому содержимому ресурса, а также может произойти многократное дублирование контента (по разным ссылкам будет доступен один и тот же, либо сильно пересекающийся контент), что поисковики не любят.

Хорошим решением будет запрет всего лишнего. С помощью файла robots.txt можно влиять на процесс индексации сайта Яндексом и Google. И представляет он из себя обычный текстовый файл, который можно создать и в дальнейшем редактировать в любом текстовом редакторе.

Поисковый бот будет искать этот файл в корневом каталоге ресурса и если не найдет, то будет добавлять в индекс всё, до чего сможет дотянуться. Поэтому после написания требуемого роботса, его нужно сохранить в корневую папку (например, с помощью Ftp клиента Filezilla) так, чтобы он был доступен по такому адресу:

https://dWkbelg.ru/robots.txt

Кстати, если вы хотите узнать как выглядит этот файл у того или иного проекта в сети, достаточно будет дописать к его URL главной страницы окончание вида /robots.txt. Это может быть полезно для понимания того, что в нём должно быть.

Однако при этом надо учитывать, что для разных движков этот файл будет выглядеть по-разному (папки движка, которые нужно запрещать индексировать, будут называться по-разному в разных CMS). Поэтому, если необходимо определиться с лучшим вариантом роботса, допустим для Вордпресса, то и изучать нужно только блоги, построенные на этом движке (и желательно имеющие приличный поисковый трафик).

Как можно запретить индексацию отдельных частей сайта и контента?

Robots.txt — самый высокоуровневый способ, потому что позволяет задать правила индексации для всего сайта целиком (как его отдельных страниц, так и целых каталогов). Он является методом, поддерживаемым всеми поисковиками и ботами сети. Но его директивы вовсе не являются обязательными для исполнения. Например, Гугл не критично смотрит на запреты в robots.txt — для него авторитетнее одноименный мета-тег.

Мета-тег robots имеет влияние только на страницу, где он прописан. В нём можно запретить индексацию и переход робота по находящимся в этом документе ссылкам. Он тоже является полностью валидным и поисковики будут учитывать указанные в нем значения. Для Гугла этот метод имеет больший вес, чем файл роботса в корне сайта.

Тег Noindex и атрибут rel="nofollow" - самый низкоуровневый способ влияния на индексацию. Они позволяют закрыть от индексации отдельные фрагменты текста (noindex) и не учитывать вес передаваемый по ссылке. Они не валидны (их нет в стандартах).

Важно понимать, что даже «стандарт» (валидные директивы robots.txt и одноименного мета-тега) являются необязательным к исполнению. Если робот «вежливый», то он будет следовать заданным вами правилам. Но вряд ли вы сможете при помощи такого метода запретить доступ к части сайта роботам, ворующим у вас контент или сканирующим сайт по другим причинам.

Вообще, роботов (ботов, пауков, краулеров) существует большое множество. Какие-то из них индексируют контент (как например, боты поисковых систем или воришек). Есть боты, проверяющие ссылки, обновления, зеркалирование, проверяющие микроразметку и т.д. и т.п.

Большинство роботов хорошо спроектированы и не создают каких-либо проблем для владельцев сайтов. Но если бот написан дилетантом или «что-то пошло не так», то он может создавать существенную нагрузку на сайт, который он обходит. Кстати, пауки вовсе на заходят на сервер подобно вирусам — они просто запрашивают нужные им страницы удаленно (по сути это аналоги браузеров, но без функции просмотра страниц)...

По материалам https://ktonanovenkogo.ru/seo/uluchshaem-indeksaciyu-sajta-poiskovikami-robots-txt-dlya-joomla-smf-wordpress-chast-2.html

СОЗДАНИЕ, ПОДДЕРЖКА И ПРОДВИЖЕНИЕ САЙТОВ

Файл robots.txt и мета-тег robots - правильный роботс и его проверка

Почему так важно управлять индексацией сайта

Как можно запретить индексацию отдельных частей сайта и контента?