Количество страниц, сканируемых Google-ботом

Отчет об активности Гугл-бота, представляемый в центре веб-мастеров, показывает количество страниц Вашего сайта, просканированных роботом за последние 90 дней.

После появления функционала, отображающего такие статистические данные, веб-мастера стали интересоваться вопросом: «Почему количество страниц, зафиксированных в данном отчете может быть выше общего числа страниц на сайте?».

Число сканируемых Гугл-ботом страниц Вашего сайта основывается на множестве факторов, включая следующие:

  • страницы, о которых он уже знает;
  • ссылки с других веб-страниц, расположенных как в пределах Вашего сайта, так и на других сайтах;
  • страницы, указанные в Вашем файле Sitemap.

Точнее говоря, Googlebot получает доступ не к страницам сайта, а к ссылкам на них. Одна и та же страница часто может быть доступна по нескольким урлам. Вот наглядный пример того, что главная страница сайта может быть доступна по одному из следующих четырех адресов:

  • http://www.example.com/
  • http://www.example.com/index.html
  • http://example.com
  • http://example.com/index.html

Хотя все урлы ведут на одну и ту же страницу, все четыре варианта могут быть использованы во входящих ссылках на нее. Следовательно, когда Googlebot переходит по данным ссылкам, все четыре страницы фиксируются в отчете об активности бота.

Другие варианты урлов также могут провести к множеству ссылок для одной страницы. Например, если страница имеет несколько якорей:

  • http://www.example.com/mypage.html#heading1
  • http://www.example.com/mypage.html#heading2
  • http://www.example.com/mypage.html#heading3

И динамически сгенерированные страницы часто могут быть получены по разным урлам, например:

  • http://www.example.com/furniture?type=chair&brand=123
  • http://www.example.com/hotbuys?type=chair&brand=123

Как Вы уже поняли, в результате данных обстоятельств, число ссылок, просканированных Гугл-ботом может быть значительно выше количества всех страниц Вашего сайта.

Безусловно, Вы хотели бы, чтобы на странице результатов поиска выводился только один вариант ссылки. Не беспокойтесь – это именно так и происходит. Алгоритмы Гугла выбирают только один вариант, и Вы можете повлиять на этот процесс несколькими способами.

Редирект на желаемый вариант URL’a

Сделать это можно, используя 301 (постоянный) редирект. В первом примере, который показывает четыре ссылки на главную страницу сайта, Вы можете перенаправить index.html на www.example.com/. Также Вы можете перенаправить example.com на www.example.com чтобы любая ссылка, представленная в одном варианте, редиректилась в другой вариант. Редирект в последнем случае может быть организован и другим способом, при использовании функции «Основной домен» в центре веб-мастеров. (Если Вы одновременно применяете 301 редирект, то убедитесь, что в настройках указали верный вариант домена.)

Блокировка нежелательных вариантов ссылок через robots.txt

Для динамических страниц можно заблокировать нежелательные варианты, задав необходимые параметры в файле robots.txt. (Не все поисковые системы распознают данные директивы, для других искалок могут быть актуальны свои настройки). Например, если в третьем примере требуется индексировать первый вариант ссылки и заблокировать вариант с “hotbuys”, то для этого необходимо добавить следующую директиву в robots.txt:

User-agent: Googlebot
Disallow: /hotbuys?*

Чтобы удостовериться в правильности внесенной записи, воспользуйтесь инструментом «анализ robots.txt» в центре веб-мастеров. Укажите директиву и URL сайта, на котором она проверятся, в соответствующие поля формы и кликните на кнопку «Проверить», после чего будет представлен результат проверки.

Вы можете не беспокоиться о ссылках на якори, поскольку в то время, как Googlebot сканирует каждую ссылку, алгоритмы Гугла индексируют линки без якорей.

Даже если Вы не воспользуетесь примерами, приведенными выше, помните, что алгоритмы Гугла работают очень хорошо при выборе вариантов ссылок, отображаемых в серпе.

* * *

Компания “Натуральная жизнь” предлагает продукцию, созданную на природной основе, например: натуральная косметика из органики (ее также называют живой), которая будет питать ваш организм всеми целебными свойствами растений.

Комментарии (1)

  1. 30 июня 2010 г. в 09:53

    Интересно было почитать,
    хороший у вас блог

Ваш комментарий

Жирный текст

Ссылка

Цитата

Внутристрочный код

CSS-код

HTML-код

JavaScript-код

PHP-код