Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом
Как уже известно, начать монетизировать свой сайт или блог в РУнете сегодня возможно всем и каждому, причем не легко, а очень легко, будь только в наличии этот самый блог или сайт с ненулевыми показателями пузомерок популярных поисковых систем.
Но, вероятно, многие веб-мастера при добавлении новой площадки в систему SAPE сталкиваются с тем, что сайт не проходит модерацию в виду отсутствия некоторых из добавленного списка страниц в индексе поисковых систем Яндекс и Google.
При этом нам, веб-мастерам, не предоставлен такой инструмент, который бы позволил легко и непринужденно вычислить такие страницы и удалить из списка в несколько кликов. Ведь ручная проверка страниц (а их может быть очень много) - весьма непростая задача. Однако есть выход из такой ситуации - автоматизировать процесс проверки непроиндексированных ссылок сторонними средствами, о чем и поговорим ниже.
Удаление страниц, непроиндексированных Яндексом (спасибо минскому бомжу)
Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Яндекс“, то выполняем следующие действия:
- Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
- Экспортируем все страницы сайта - соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).
- Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
- Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше). Хотя тот же минский бомж беспроблемно проверил 2,5 тыс. линков, здесь надо быть осторожным, иначе придется вручную проверять все ссылки, кликая на “YAP” в САПЕ.
- Жмем “Проверить” и ждем, когда прочекаются все ссылки.
- Копируем результат в Excel и сортируем данные по столбику с цифрами.
- Заходим в САПЕ через Internet Explorer (в данном случае обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
- Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
- Вставляем ссылки в форму “Введите УРЛы страниц…” на странице, с которой делали экспорт в самом начале, и нажимаем “Поставить галочки!”. В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
- Выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
- После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.
Удаление страниц, непроиндексированных Гуглом
Вот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось - пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.
Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Google“, то выполняем следующие действия:
- Набираем в поисковой форме Гугла allinurl:domain.com site:domain.com, где вместо domain.com подставляем имя своего домена (пример). Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске).
- Создаем php-файл с таким кодом:
1
2
3
4
5
6
7
8
9<?php
$contents = file_get_contents("http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images");
$pattern = "|<h2 class=r><a href=\"(.*?)\" class=l|is";
preg_match_all($pattern, $contents, $out, PREG_PATTERN_ORDER);
for($i = 0; $i < count($out[1]); $i ++){
echo $out[1][$i]."<br />";}
?>Заменяем ссылку в 3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.
- Теперь нужно запустить этот файл либо через свой сайт, либо через “Денвер” (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
- Копируем ссылки и сохраняем, например, в блокноте.
- Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
- Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
- В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее - просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
- После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ через Internet Explorer.
- Вставляем ссылки в форму “Введите УРЛы страниц…”, нажимаем “Поставить галочки!”. Теперь внимание! Поскольку мы “выдрали” из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку “Поставить галочки!” помеченными становятся проиндексированные Гуглом страницы. Не забывайте об этом!
- Поэтому теперь нам остается инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
- Как только отметили нужные страницы, выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
- После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.
На этом все. Желаю удачной работы с SAPE.
Буду рад услышать в комментах альтернативные способы автопроверки страниц на индексацию в Яндексе и Гугле, если, конечно, таковые имеются.
* * *
Студия “Lores IT” предлагает услуги юридическим и физическим лицам - компьютерный сервис (м. Тульская). Здесь осуществляется ремонт и настройка компьютеров и ноутбуков квалифицированными специалистами, а также обслуживание компьютерных сетей.
http://www.google.com/ie?q=&num=100&hl=ru
извиняюсь а как запрос вводить чтобы без сниппетов ссылки выдавались?
и еще вопрос, для яндекса аналогичным образом можно как нить получить ссылки?
На сегодня для проверки страниц в яндексе актуальна _http://www.yccy.ru/
Метод подустарел уже конечно. Сейчас это без проблем по нажатию одной кнопки делает плагин для ФФ Sape Webmaster.