Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом
Как уже известно, начать монетизировать свой сайт или блог в РУнете сегодня возможно всем и каждому, причем не легко, а очень легко, будь только в наличии этот самый блог или сайт с ненулевыми показателями пузомерок популярных поисковых систем.
Но, вероятно, многие веб-мастера при добавлении новой площадки в систему SAPE сталкиваются с тем, что сайт не проходит модерацию в виду отсутствия некоторых из добавленного списка страниц в индексе поисковых систем Яндекс и Google.
При этом нам, веб-мастерам, не предоставлен такой инструмент, который бы позволил легко и непринужденно вычислить такие страницы и удалить из списка в несколько кликов. Ведь ручная проверка страниц (а их может быть очень много) - весьма непростая задача. Однако есть выход из такой ситуации - автоматизировать процесс проверки непроиндексированных ссылок сторонними средствами, о чем и поговорим ниже.
Удаление страниц, непроиндексированных Яндексом (спасибо минскому бомжу)
Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Яндекс“, то выполняем следующие действия:
- Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
- Экспортируем все страницы сайта - соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).
- Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
- Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше). Хотя тот же минский бомж беспроблемно проверил 2,5 тыс. линков, здесь надо быть осторожным, иначе придется вручную проверять все ссылки, кликая на “YAP” в САПЕ.
- Жмем “Проверить” и ждем, когда прочекаются все ссылки.
- Копируем результат в Excel и сортируем данные по столбику с цифрами.
- Заходим в САПЕ через Internet Explorer (в данном случае обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
- Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
- Вставляем ссылки в форму “Введите УРЛы страниц…” на странице, с которой делали экспорт в самом начале, и нажимаем “Поставить галочки!”. В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
- Выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
- После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.
Удаление страниц, непроиндексированных Гуглом
Вот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось - пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.
Если Ваш сайт не прошел модерацию по причине “не все страницы сайта проиндексированы в ПС Google“, то выполняем следующие действия:
- Набираем в поисковой форме Гугла allinurl:domain.com site:domain.com, где вместо domain.com подставляем имя своего домена (пример). Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске).
- Создаем php-файл с таким кодом:
1
2
3
4
5
6
7
8
9<?php
$contents = file_get_contents("http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images");
$pattern = "|<h2 class=r><a href=\"(.*?)\" class=l|is";
preg_match_all($pattern, $contents, $out, PREG_PATTERN_ORDER);
for($i = 0; $i < count($out[1]); $i ++){
echo $out[1][$i]."<br />";}
?>Заменяем ссылку в 3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.
- Теперь нужно запустить этот файл либо через свой сайт, либо через “Денвер” (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
- Копируем ссылки и сохраняем, например, в блокноте.
- Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
- Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
- В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее - просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
- После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ через Internet Explorer.
- Вставляем ссылки в форму “Введите УРЛы страниц…”, нажимаем “Поставить галочки!”. Теперь внимание! Поскольку мы “выдрали” из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку “Поставить галочки!” помеченными становятся проиндексированные Гуглом страницы. Не забывайте об этом!
- Поэтому теперь нам остается инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
- Как только отметили нужные страницы, выбираем “Удалить страницы до переиндексации” и нажимаем “ОК”.
- После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.
На этом все. Желаю удачной работы с SAPE.
Буду рад услышать в комментах альтернативные способы автопроверки страниц на индексацию в Яндексе и Гугле, если, конечно, таковые имеются.
* * *
Студия “Lores IT” предлагает услуги юридическим и физическим лицам - компьютерный сервис (м. Тульская). Здесь осуществляется ремонт и настройка компьютеров и ноутбуков квалифицированными специалистами, а также обслуживание компьютерных сетей.
Спасибо! Отличный пост!
Как раз недавно не прошло модерацию пара сайтов по этой причине :) Будем восстанавливать :)
Спасибо за отзыв!
Желаю успешного восстановления ;).
к сожалениею спецутилита выдает непонятные результаты, типа 448 или 647 возле проверенных ссылок
может есть еще подобные программы ?
Не пугайтесь, здесь все нормально. Эти цифры означают количество вхождений данной части ссылки среди других ссылок на сайте. Я именно так это понял (конечно, могу и ошибиться).
Для примера. Есть на сайте следующие ссылки:
site.ru/page/1
site.ru/page/11
site.ru/page/15
site.ru/page/19
В таком случае напротив первой ссылки будет цифра 4, поскольку следующие 3 ссылки содержат вхождение этой. А напротив последних трех, соответственно, будут стоять цифры 1.
а я это делаю так:
http://5an.kz/?n=187 :)
Здорово, San, надо будет испробовать. Спасибо за инфу.
Я может не вьехал, но после вставки урлов в окно, жму Проставить галочки! - и выводится сообщение - Отмечено страниц: 0
Где я ошибся, подскажи если можешь?
Allmanmak, данное действие обязательно необходимо выполнять в браузере Internet Explorer. Возможно, в этом причина.
Да нет Dimox, я использовл IE.
Может еще какие действия нужно сделать - удалить старые ссылки например. нет?
По идее все должно работать. Удостоверьтесь, что ссылки, которые вы пытаетесь удалить, присутствуют в списке проиндексированных системой. Больше не вижу причин. Не понял, что за старые ссылки.
Привет. Оказывается Сапа категорически против урлов типа http://www.domain.com
Обязательно должен быть вид http://domain.com
Еще вопрос, что значит -
10. инвертировать отмеченные галками страницы
Ну и в следствие пункт 11 не понятен до конца.
Ps
извини, за дотошность ;)
Инвертировать отмеченные галками страницы - значит те страниц, на которых стоят галки, убратить их, и наоборот - на страницах, на которых галки не стоят, поставить их. В результате получаем отмеченные страницы, которые и нужно удалить.
Все понял Dimox? спасибо.
что-то как-то слишком запутанно, sape сам проверяет страницы и показывает те которые проиндексированы - зачем такой гемор???
supreme666, ничего запутанного. Видимо вы с этим не сталкивались, либо не понимаете сути. Сапа проверяет сама, но среди всех страниц часто бывают такие, которые поисковиками не проиндексированы. Об том и речь, чтобы исключить такие страницы, иначе сайт не пройдет модерацию.
дааа….
1 если у меня сайт на 1kk страниц? в индексе примерно 45k?
2 зачем этот гемор со скриптом то? есть ведь
http://www.google.com/ie?q=&num=100&hl=ru
который выдает 100 результатов и уже очищанный от сниппетов.
просто бирём,
открываем мазилу,
проходим по этой ссылке,
вводим site:domain.com,
получаем сотку резалтов,
нажимаем правой кнопкой мыши прям там
жмём “Информация о странице”
и копируем 100 нужных нам ссылок. они подряд идти будут.
Где же вы раньше были? Если бы я раньше знал эту ссылку, естесственно, не написал бы весь этот гемор со скриптом? :) Спасибо за ссылку! Теперь будем знать.
то же самое можно сделать и в опере.
открыть страницу.
зайти tools -> links
выделить нужные ссылки (работает поиск)
и сделать copy.
и все )
и никакой мороки со скриптами
Весьма полезная заметка. я лично этого не знал.
[quote post=”53″]# Экспортируем все страницы сайта - соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).[/quote]
спасибо за статью.
но вот это я не понял. я просто скопировал карту сайта своего и руками убрал все лишнее.
как список ссылок получить со своего сайта?
Мотивированный чувак, ссылки нужно брать не со своего сайта, а прямо в сапе, там на странице со списком всех найденных сапой страниц есть соответствующая ссылка на экспорт.
Привет Dimox, тут задался вопросом вот удалять непроиндексированные страницы можно. А как добавлять новые страницы, которые проиндексированы яндексом но не попали в sape на первоначальном этапе?
Allmanmak, нужно подавать заявку на переиндексацию.
Тоже недавно один сайт не прошел модерацию, ну стал искать способы как бы попроще удалить непроиндексированные страницы и нашел одну программку. С нею все проще, включил и занимайся своими делами. Через полчасика проверил, нажал на одну кнопочку - все непроиндексированные страницы удалились.
“Поставить галки” отлично работает в Опере 9.25
Ну теперь-то конечно уже может работать. Но на момент написания статьи в последней версии Оперы это не работало.
Здраствуйте dimox!
Спасибо, я всю информацию понял. Но. Я хочу узнать полный список проиндексированных страниц на моем сайте Яндексом. Подскажите мне пожалуйста т.к. Яндекс показывает первую тысячу.
С уважением Стас!
К сожалению, не знаю, как это сделать.
[quote post=”53″]2 зачем этот гемор со скриптом то? есть ведь
http://www.google.com/ie?q=&num=100&hl=ru
который выдает 100 результатов и уже очищанный от сниппетов.[/quote]
Так ведь речь идет о страницах проиндексированных Яндексом, а не Google.
А вообще ссылка полезная.
http://www.google.com/ie?q=&num=100&hl=ru
извиняюсь а как запрос вводить чтобы без сниппетов ссылки выдавались?
и еще вопрос, для яндекса аналогичным образом можно как нить получить ссылки?
На сегодня для проверки страниц в яндексе актуальна _http://www.yccy.ru/
Метод подустарел уже конечно. Сейчас это без проблем по нажатию одной кнопки делает плагин для ФФ Sape Webmaster.