Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом
Как уже известно, начать монетизировать свой сайт или блог в РУнете сегодня возможно всем и каждому, причем не легко, а очень легко, будь только в наличии этот самый блог или сайт с ненулевыми показателями пузомерок популярных поисковых систем.
Но, вероятно, многие веб-мастера при добавлении новой площадки в систему SAPE сталкиваются с тем, что сайт не проходит модерацию в виду отсутствия некоторых из добавленного списка страниц в индексе поисковых систем Яндекс и Google.
При этом нам, веб-мастерам, не предоставлен такой инструмент, который бы позволил легко и непринужденно вычислить такие страницы и удалить из списка в несколько кликов. Ведь ручная проверка страниц (а их может быть очень много) – весьма непростая задача. Однако есть выход из такой ситуации – автоматизировать процесс проверки непроиндексированных ссылок сторонними средствами, о чем и поговорим ниже.
Удаление страниц, непроиндексированных Яндексом (спасибо минскому бомжу)
Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Яндекс“, то выполняем следующие действия:
- Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
- Экспортируем все страницы сайта – соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).
- Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
- Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше). Хотя тот же минский бомж беспроблемно проверил 2,5 тыс. линков, здесь надо быть осторожным, иначе придется вручную проверять все ссылки, кликая на “YAP” в САПЕ.
- Жмем “Проверить” и ждем, когда прочекаются все ссылки.
- Копируем результат в Excel и сортируем данные по столбику с цифрами.
- Заходим в САПЕ через Internet Explorer (в данном случае обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
- Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
- Вставляем ссылки в форму “Введите УРЛы страниц…” на странице, с которой делали экспорт в самом начале, и нажимаем “Поставить галочки!”. В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
- Выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
- После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.
Удаление страниц, непроиндексированных Гуглом
Вот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось – пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.
Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Google“, то выполняем следующие действия:
- Набираем в поисковой форме Гугла
allinurl:domain.com site:domain.com
, где вместоdomain.com
подставляем имя своего домена (пример). Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске). - Создаем php-файл с таким кодом:
<?php $contents = file_get_contents("http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images"); $pattern = "|<h2 class=r><a href=\"(.*?)\" class=l|is"; preg_match_all($pattern, $contents, $out, PREG_PATTERN_ORDER); for($i = 0; $i < count($out[1]); $i ++){ echo $out[1][$i]."<br />";} ?>
Заменяем ссылку в 3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.
- Теперь нужно запустить этот файл либо через свой сайт, либо через “Денвер” (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
- Копируем ссылки и сохраняем, например, в блокноте.
- Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
- Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
- В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее – просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
- После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ через Internet Explorer.
- Вставляем ссылки в форму “Введите УРЛы страниц…”, нажимаем “Поставить галочки!”. Теперь внимание! Поскольку мы “выдрали” из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку “Поставить галочки!” помеченными становятся проиндексированные Гуглом страницы. Не забывайте об этом!
- Поэтому теперь нам остается инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
- Как только отметили нужные страницы, выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
- После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.
На этом все. Желаю удачной работы с SAPE.
Буду рад услышать в комментах альтернативные способы автопроверки страниц на индексацию в Яндексе и Гугле, если, конечно, таковые имеются.
* * *
Студия “Lores IT” предлагает услуги юридическим и физическим лицам – компьютерный сервис (м. Тульская). Здесь осуществляется ремонт и настройка компьютеров и ноутбуков квалифицированными специалистами, а также обслуживание компьютерных сетей.
Комментарии (33)
[quote post=”53″]# Экспортируем все страницы сайта – соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).[/quote]
спасибо за статью.
но вот это я не понял. я просто скопировал карту сайта своего и руками убрал все лишнее.
как список ссылок получить со своего сайта?
Мотивированный чувак, ссылки нужно брать не со своего сайта, а прямо в сапе, там на странице со списком всех найденных сапой страниц есть соответствующая ссылка на экспорт.
Привет Dimox, тут задался вопросом вот удалять непроиндексированные страницы можно. А как добавлять новые страницы, которые проиндексированы яндексом но не попали в sape на первоначальном этапе?
Allmanmak, нужно подавать заявку на переиндексацию.
Тоже недавно один сайт не прошел модерацию, ну стал искать способы как бы попроще удалить непроиндексированные страницы и нашел одну программку. С нею все проще, включил и занимайся своими делами. Через полчасика проверил, нажал на одну кнопочку – все непроиндексированные страницы удалились.
“Поставить галки” отлично работает в Опере 9.25
Ну теперь-то конечно уже может работать. Но на момент написания статьи в последней версии Оперы это не работало.
Здраствуйте dimox!
Спасибо, я всю информацию понял. Но. Я хочу узнать полный список проиндексированных страниц на моем сайте Яндексом. Подскажите мне пожалуйста т.к. Яндекс показывает первую тысячу.
С уважением Стас!
К сожалению, не знаю, как это сделать.
[quote post=”53″]2 зачем этот гемор со скриптом то? есть ведь
http://www.google.com/ie?q=&num=100&hl=ru
который выдает 100 результатов и уже очищанный от сниппетов.[/quote]
Так ведь речь идет о страницах проиндексированных Яндексом, а не Google.
А вообще ссылка полезная.
http://www.google.com/ie?q=&num=100&hl=ru
извиняюсь а как запрос вводить чтобы без сниппетов ссылки выдавались?
и еще вопрос, для яндекса аналогичным образом можно как нить получить ссылки?
На сегодня для проверки страниц в яндексе актуальна _http://www.yccy.ru/
Метод подустарел уже конечно. Сейчас это без проблем по нажатию одной кнопки делает плагин для ФФ Sape Webmaster.