Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом

Как уже известно, начать монетизировать свой сайт или блог в РУнете сегодня возможно всем и каждому, причем не легко, а очень легко, будь только в наличии этот самый блог или сайт с ненулевыми показателями пузомерок популярных поисковых систем.

Но, вероятно, многие веб-мастера при добавлении новой площадки в систему SAPE сталкиваются с тем, что сайт не проходит модерацию в виду отсутствия некоторых из добавленного списка страниц в индексе поисковых систем Яндекс и Google.

При этом нам, веб-мастерам, не предоставлен такой инструмент, который бы позволил легко и непринужденно вычислить такие страницы и удалить из списка в несколько кликов. Ведь ручная проверка страниц (а их может быть очень много) — весьма непростая задача. Однако есть выход из такой ситуации — автоматизировать процесс проверки непроиндексированных ссылок сторонними средствами, о чем и поговорим ниже.

Удаление страниц, непроиндексированных Яндексом (спасибо минскому бомжу)

Если Ваш сайт не прошел модерацию по причине «не все страницы сайта проиндексированы в ПС Яндекс«, то выполняем следующие действия:

  1. Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
  2. Экспортируем все страницы сайта — соответствующая ссылка внизу на странице «страницы» (сорри за калабмур :).
  3. Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
  4. Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше). Хотя тот же минский бомж беспроблемно проверил 2,5 тыс. линков, здесь надо быть осторожным, иначе придется вручную проверять все ссылки, кликая на «YAP» в САПЕ.
  5. Жмем «Проверить» и ждем, когда прочекаются все ссылки.
  6. Копируем результат в Excel и сортируем данные по столбику с цифрами.
  7. Заходим в САПЕ через Internet Explorer (в данном случае обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
  8. Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
  9. Вставляем ссылки в форму «Введите УРЛы страниц…» на странице, с которой делали экспорт в самом начале, и нажимаем «Поставить галочки!». В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
  10. Выбираем «Удалить страницы до переиндексации» и нажимаем «ОК».
  11. После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.

Удаление страниц, непроиндексированных Гуглом

Вот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось — пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.

Если Ваш сайт не прошел модерацию по причине «не все страницы сайта проиндексированы в ПС Google«, то выполняем следующие действия:

  1. Набираем в поисковой форме Гугла allinurl:domain.com site:domain.com, где вместо domain.com подставляем имя своего домена (пример). Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске).
  2. Создаем php-файл с таким кодом:
    <?php
    
      $contents = file_get_contents("http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images");
      $pattern = "|<h2 class=r><a href=\"(.*?)\" class=l|is";
      preg_match_all($pattern, $contents, $out, PREG_PATTERN_ORDER);
      for($i = 0; $i < count($out[1]); $i ++){
        echo  $out[1][$i]."<br />";}
    
    ?>
    

    Заменяем ссылку в 3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.

  3. Теперь нужно запустить этот файл либо через свой сайт, либо через «Денвер» (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
  4. Копируем ссылки и сохраняем, например, в блокноте.
  5. Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
  6. Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
  7. В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее — просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
  8. После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ через Internet Explorer.
  9. Вставляем ссылки в форму «Введите УРЛы страниц…», нажимаем «Поставить галочки!». Теперь внимание! Поскольку мы «выдрали» из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку «Поставить галочки!» помеченными становятся проиндексированные Гуглом страницы. Не забывайте об этом!
  10. Поэтому теперь нам остается инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
  11. Как только отметили нужные страницы, выбираем «Удалить страницы до переиндексации» и нажимаем «ОК».
  12. После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.

На этом все. Желаю удачной работы с SAPE.

Буду рад услышать в комментах альтернативные способы автопроверки страниц на индексацию в Яндексе и Гугле, если, конечно, таковые имеются.

* * *

Студия «Lores IT» предлагает услуги юридическим и физическим лицам — компьютерный сервис (м. Тульская). Здесь осуществляется ремонт и настройка компьютеров и ноутбуков квалифицированными специалистами, а также обслуживание компьютерных сетей.

Комментарии (33)

  1. 9 ноября 2007 г. в 15:10

    Все понял Dimox? спасибо.

  2. supreme666
    19 декабря 2007 г. в 03:03

    что-то как-то слишком запутанно, sape сам проверяет страницы и показывает те которые проиндексированы — зачем такой гемор???

  3. 19 декабря 2007 г. в 13:40

    supreme666, ничего запутанного. Видимо вы с этим не сталкивались, либо не понимаете сути. Сапа проверяет сама, но среди всех страниц часто бывают такие, которые поисковиками не проиндексированы. Об том и речь, чтобы исключить такие страницы, иначе сайт не пройдет модерацию.

  4. 24 января 2008 г. в 15:17

    дааа….
    1 если у меня сайт на 1kk страниц? в индексе примерно 45k?
    2 зачем этот гемор со скриптом то? есть ведь
    http://www.google.com/ie?q=&num=100&hl=ru
    который выдает 100 результатов и уже очищанный от сниппетов.
    просто бирём,
    открываем мазилу,
    проходим по этой ссылке,
    вводим site:domain.com,
    получаем сотку резалтов,
    нажимаем правой кнопкой мыши прям там
    жмём «Информация о странице»
    и копируем 100 нужных нам ссылок. они подряд идти будут.

  5. 24 января 2008 г. в 16:38

    Где же вы раньше были? Если бы я раньше знал эту ссылку, естесственно, не написал бы весь этот гемор со скриптом? :) Спасибо за ссылку! Теперь будем знать.

  6. 24 января 2008 г. в 17:14

    то же самое можно сделать и в опере.
    открыть страницу.
    зайти tools -> links
    выделить нужные ссылки (работает поиск)
    и сделать copy.
    и все )
    и никакой мороки со скриптами

  7. 3 февраля 2008 г. в 00:42

    Весьма полезная заметка. я лично этого не знал.

  8. 13 февраля 2008 г. в 23:06

    [quote post=»53″]# Экспортируем все страницы сайта — соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).[/quote]
    спасибо за статью.
    но вот это я не понял. я просто скопировал карту сайта своего и руками убрал все лишнее.
    как список ссылок получить со своего сайта?

  9. 13 февраля 2008 г. в 23:37

    Мотивированный чувак, ссылки нужно брать не со своего сайта, а прямо в сапе, там на странице со списком всех найденных сапой страниц есть соответствующая ссылка на экспорт.

  10. 21 февраля 2008 г. в 10:24

    Привет Dimox, тут задался вопросом вот удалять непроиндексированные страницы можно. А как добавлять новые страницы, которые проиндексированы яндексом но не попали в sape на первоначальном этапе?

  11. 21 февраля 2008 г. в 15:18

    Allmanmak, нужно подавать заявку на переиндексацию.

  12. Virtual
    25 февраля 2008 г. в 14:46

    Тоже недавно один сайт не прошел модерацию, ну стал искать способы как бы попроще удалить непроиндексированные страницы и нашел одну программку. С нею все проще, включил и занимайся своими делами. Через полчасика проверил, нажал на одну кнопочку — все непроиндексированные страницы удалились.

  13. 19 марта 2008 г. в 22:53

    «Поставить галки» отлично работает в Опере 9.25

  14. 20 марта 2008 г. в 01:25

    Ну теперь-то конечно уже может работать. Но на момент написания статьи в последней версии Оперы это не работало.

  15. Стас
    21 апреля 2008 г. в 16:31

    Здраствуйте dimox!
    Спасибо, я всю информацию понял. Но. Я хочу узнать полный список проиндексированных страниц на моем сайте Яндексом. Подскажите мне пожалуйста т.к. Яндекс показывает первую тысячу.
    С уважением Стас!

  16. 21 апреля 2008 г. в 19:54

    К сожалению, не знаю, как это сделать.

  17. Active
    8 мая 2008 г. в 21:35

    [quote post=»53″]2 зачем этот гемор со скриптом то? есть ведь
    http://www.google.com/ie?q=&num=100&hl=ru
    который выдает 100 результатов и уже очищанный от сниппетов.[/quote]
    Так ведь речь идет о страницах проиндексированных Яндексом, а не Google.
    А вообще ссылка полезная.

  18. Дмитрий
    13 августа 2008 г. в 05:08

    http://www.google.com/ie?q=&num=100&hl=ru
    извиняюсь а как запрос вводить чтобы без сниппетов ссылки выдавались?
    и еще вопрос, для яндекса аналогичным образом можно как нить получить ссылки?

  19. 10 ноября 2008 г. в 03:45

    На сегодня для проверки страниц в яндексе актуальна _http://www.yccy.ru/

  20. 16 ноября 2009 г. в 00:29

    Метод подустарел уже конечно. Сейчас это без проблем по нажатию одной кнопки делает плагин для ФФ Sape Webmaster.

Ваш комментарий

Жирный текст

Ссылка

Цитата

Внутристрочный код

CSS-код

HTML-код

JavaScript-код

PHP-код