Правильное использование метатега ROBOTS для поисковых систем

Гугл разъяснил вопросы о том, как поисковый бот трактует метатег ROBOTS.

Множественные значения content-параметра

Рекомендуется заключать все значения параметра content в один метатег. Это сделает его более удобным для чтения и уменьшит вероятность противоречий. Например:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Если страница содержит несколько метатегов одного типа, то Гугл-бот объединит их, т.е., например,

<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="NOFOLLOW">

будет распознано точно так же, как

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Если значения противоречат друг другу, во внимание будет принят наиболее строгий. Так, если страница содержит метатеги

<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="INDEX">

то бот подчинится значению NOINDEX.

Излишние значения content-параметра

По умолчанию Гугл-бот будет индексировать страницу и все ссылки на ней. Поэтому нет никакой необходимости помечать страницы значениями content-параметра INDEX или FOLLOW.

Нацеливание метатега ROBOTS непосредственно на Google-бота

Чтобы предоставить инструкции для всех поисковых систем, установите название метатега как “ROBOTS”. Чтобы указать инструкции только для Гугл-бота назовите метатег как “GOOGLEBOT”. Если Вы хотите создать разные инструкции для разных поисковых систем, то лучше использовать специальные метатеги для каждой поисковой системы, а не общий метатег ROBOTS в сочетании со специфическими для конкретной поисковой машины.

Google-бот понимает любую комбинацию верхнего и нижнего регистров. Поэтому каждый из следующих метатегов интерпретируется им одинаково:

<meta name="ROBOTS" content="NOODP">
<meta name="robots" content="noodp">
<meta name="Robots" content="NoOdp">

Если у Вас есть несколько значений content-параметра, то между ними нужно поставить запятую, но при этом неважно, добавите Вы также пробелы или нет. Поэтому следующие метатеги интерпретируются одинаково:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

Если вы используете и файл robots.txt, и метатеги ROBOTS

Если между параметрами файла robots.txt и метатегом есть противоречия, то Гугл-бот последует наиболее строгим из них. Если более конкретно, то:

  • Если Вы блокируете страницы через robots.txt, Google-бот никогда не будет сканировать их и никогда не будет читать метатеги этих страниц.
  • Если страница не запрещена к индексации в robots.txt, но заблокирована с помощью метатега, Google-бот откроет ее, прочитает метатеги, и впоследствии не станет индексировать.

Валидные значения параметра content метатега ROBOTS

  • NOINDEX – запрещает индексацию страницы.
  • NOFOLLOW – запрещает Google-боту следовать по любым ссылкам на странице. (Заметьте, что это отличается от параметра NOFOLLOW, применяемого для ссылок, который запрещает Google-боту проходить по отдельным ссылкам.)
  • NOARCHIVE – предотвращает кэширование копии страницы для ее исключения из результатов поиска.
  • NOSNIPPET – запрещает появления описания страницы в результатах поиска, так же как предотвращает ее кэширование.
  • NOODP – блокирует использование описания страницы, которое берется из dmoz.org для отображения в результатах поиска.
  • NONE – эквивалентно “NOINDEX, NOFOLLOW”.

Несколько слов о значении “NONE”

Как определено в robotstxt.org, следующее означает NOINDEX, NOFOLLOW:

<META NAME="ROBOTS" CONTENT="NONE">

Однако, некоторые веб-мастера используют этот тег для указания ботам отсутствия каких-либо ограничений и тем самым непреднамеренно блокируют содержание страниц для всех поисковых систем.

Ваш комментарий будет первым

Жирный текст

Ссылка

Цитата

Внутристрочный код

CSS-код

HTML-код

JavaScript-код

PHP-код