Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом

Как уже известно, начать монетизировать свой сайт или блог в РУнете сегодня возможно всем и каждому, причем не легко, а очень легко, будь только в наличии этот самый блог или сайт с ненулевыми показателями пузомерок популярных поисковых систем.

Но, вероятно, многие веб-мастера при добавлении новой площадки в систему SAPE сталкиваются с тем, что сайт не проходит модерацию в виду отсутствия некоторых из добавленного списка страниц в индексе поисковых систем Яндекс и Google.

При этом нам, веб-мастерам, не предоставлен такой инструмент, который бы позволил легко и непринужденно вычислить такие страницы и удалить из списка в несколько кликов. Ведь ручная проверка страниц (а их может быть очень много) — весьма непростая задача. Однако есть выход из такой ситуации — автоматизировать процесс проверки непроиндексированных ссылок сторонними средствами, о чем и поговорим ниже.

Удаление страниц, непроиндексированных Яндексом (спасибо минскому бомжу)

Если Ваш сайт не прошел модерацию по причине «не все страницы сайта проиндексированы в ПС Яндекс«, то выполняем следующие действия:

  1. Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
  2. Экспортируем все страницы сайта — соответствующая ссылка внизу на странице «страницы» (сорри за калабмур :).
  3. Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
  4. Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше). Хотя тот же минский бомж беспроблемно проверил 2,5 тыс. линков, здесь надо быть осторожным, иначе придется вручную проверять все ссылки, кликая на «YAP» в САПЕ.
  5. Жмем «Проверить» и ждем, когда прочекаются все ссылки.
  6. Копируем результат в Excel и сортируем данные по столбику с цифрами.
  7. Заходим в САПЕ через Internet Explorer (в данном случае обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
  8. Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
  9. Вставляем ссылки в форму «Введите УРЛы страниц…» на странице, с которой делали экспорт в самом начале, и нажимаем «Поставить галочки!». В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
  10. Выбираем «Удалить страницы до переиндексации» и нажимаем «ОК».
  11. После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.

Удаление страниц, непроиндексированных Гуглом

Вот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось — пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.

Если Ваш сайт не прошел модерацию по причине «не все страницы сайта проиндексированы в ПС Google«, то выполняем следующие действия:

  1. Набираем в поисковой форме Гугла allinurl:domain.com site:domain.com, где вместо domain.com подставляем имя своего домена (пример). Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске).
  2. Создаем php-файл с таким кодом:
    <?php
    
     $contents = file_get_contents("http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images");
     $pattern = "|<h2 class=r><a href=\"(.*?)\" class=l|is";
     preg_match_all($pattern, $contents, $out, PREG_PATTERN_ORDER);
     for($i = 0; $i < count($out[1]); $i ++){
     echo $out[1][$i]."<br />";}
    
    ?>
    

    Заменяем ссылку в 3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.

  3. Теперь нужно запустить этот файл либо через свой сайт, либо через «Денвер» (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
  4. Копируем ссылки и сохраняем, например, в блокноте.
  5. Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
  6. Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
  7. В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее — просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
  8. После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ через Internet Explorer.
  9. Вставляем ссылки в форму «Введите УРЛы страниц…», нажимаем «Поставить галочки!». Теперь внимание! Поскольку мы «выдрали» из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку «Поставить галочки!» помеченными становятся проиндексированные Гуглом страницы. Не забывайте об этом!
  10. Поэтому теперь нам остается инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
  11. Как только отметили нужные страницы, выбираем «Удалить страницы до переиндексации» и нажимаем «ОК».
  12. После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.

На этом все. Желаю удачной работы с SAPE.

Буду рад услышать в комментах альтернативные способы автопроверки страниц на индексацию в Яндексе и Гугле, если, конечно, таковые имеются.

* * *

Студия «Lores IT» предлагает услуги юридическим и физическим лицам — компьютерный сервис (м. Тульская). Здесь осуществляется ремонт и настройка компьютеров и ноутбуков квалифицированными специалистами, а также обслуживание компьютерных сетей.

Комментарии (33)
  1. 1

    [quote post=»53″]# Экспортируем все страницы сайта — соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).[/quote]
    спасибо за статью.
    но вот это я не понял. я просто скопировал карту сайта своего и руками убрал все лишнее.
    как список ссылок получить со своего сайта?

  2. 2

    Мотивированный чувак, ссылки нужно брать не со своего сайта, а прямо в сапе, там на странице со списком всех найденных сапой страниц есть соответствующая ссылка на экспорт.

  3. 3

    Привет Dimox, тут задался вопросом вот удалять непроиндексированные страницы можно. А как добавлять новые страницы, которые проиндексированы яндексом но не попали в sape на первоначальном этапе?

  4. 4

    Allmanmak, нужно подавать заявку на переиндексацию.

  5. 5
    Virtual

    Тоже недавно один сайт не прошел модерацию, ну стал искать способы как бы попроще удалить непроиндексированные страницы и нашел одну программку. С нею все проще, включил и занимайся своими делами. Через полчасика проверил, нажал на одну кнопочку — все непроиндексированные страницы удалились.

  6. 6

    «Поставить галки» отлично работает в Опере 9.25

  7. 7

    Ну теперь-то конечно уже может работать. Но на момент написания статьи в последней версии Оперы это не работало.

  8. 8
    Стас

    Здраствуйте dimox!
    Спасибо, я всю информацию понял. Но. Я хочу узнать полный список проиндексированных страниц на моем сайте Яндексом. Подскажите мне пожалуйста т.к. Яндекс показывает первую тысячу.
    С уважением Стас!

  9. 9

    К сожалению, не знаю, как это сделать.

  10. 10
    Active

    [quote post=»53″]2 зачем этот гемор со скриптом то? есть ведь
    http://www.google.com/ie?q=&num=100&hl=ru
    который выдает 100 результатов и уже очищанный от сниппетов.[/quote]
    Так ведь речь идет о страницах проиндексированных Яндексом, а не Google.
    А вообще ссылка полезная.

  11. 11
    Дмитрий

    http://www.google.com/ie?q=&num=100&hl=ru
    извиняюсь а как запрос вводить чтобы без сниппетов ссылки выдавались?
    и еще вопрос, для яндекса аналогичным образом можно как нить получить ссылки?

  12. 12

    На сегодня для проверки страниц в яндексе актуальна _http://www.yccy.ru/

  13. 13

    Метод подустарел уже конечно. Сейчас это без проблем по нажатию одной кнопки делает плагин для ФФ Sape Webmaster.