Как исключить из SAPE страницы, непроиндексированные Яндексом и Гуглом
Как уже известно, начать монетизировать свой сайт или блог в РУнете сегодня возможно всем и каждому, причем не легко, а очень легко, будь только в наличии этот самый блог или сайт с ненулевыми показателями пузомерок популярных поисковых систем.
Но, вероятно, многие веб-мастера при добавлении новой площадки в систему SAPE сталкиваются с тем, что сайт не проходит модерацию в виду отсутствия некоторых из добавленного списка страниц в индексе поисковых систем Яндекс и Google.
При этом нам, веб-мастерам, не предоставлен такой инструмент, который бы позволил легко и непринужденно вычислить такие страницы и удалить из списка в несколько кликов. Ведь ручная проверка страниц (а их может быть очень много) — весьма непростая задача. Однако есть выход из такой ситуации — автоматизировать процесс проверки непроиндексированных ссылок сторонними средствами, о чем и поговорим ниже.
Удаление страниц, непроиндексированных Яндексом (спасибо минскому бомжу)
Если Ваш сайт не прошел модерацию по причине «не все страницы сайта проиндексированы в ПС Яндекс«, то выполняем следующие действия:
- Качаем спец утилиту для проверки индексации Яндексом (прежде, чем юзать, рекомендую прочитать дисклеймер на сайте).
- Экспортируем все страницы сайта — соответствующая ссылка внизу на странице «страницы» (сорри за калабмур :).
- Открываем в Excel’e, копируем все ссылки, вставляем в программу-чекер.
- Дабы уменьшить вероятность бана Яндексом Вашего IP-адреса при авточеке всех ссылок (а их у Вас может быть и 300, и 1000 или еще больше) советую поставить задержку между запросами, отличную от нуля (если страниц не так уж много, можно и побольше). Хотя тот же минский бомж беспроблемно проверил 2,5 тыс. линков, здесь надо быть осторожным, иначе придется вручную проверять все ссылки, кликая на «YAP» в САПЕ.
- Жмем «Проверить» и ждем, когда прочекаются все ссылки.
- Копируем результат в Excel и сортируем данные по столбику с цифрами.
- Заходим в САПЕ через Internet Explorer (в данном случае обязательно, т.к. проставление галок по списку ссылок не работаете в Опере и FireFox).
- Копируем из отсортированного в Excel’е списка только те ссылки, напротив которых стоит ноль или вообще ничего не стоит.
- Вставляем ссылки в форму «Введите УРЛы страниц…» на странице, с которой делали экспорт в самом начале, и нажимаем «Поставить галочки!». В результате все ссылки, непроиндексированные Яндексом, становятся помеченными.
- Выбираем «Удалить страницы до переиндексации» и нажимаем «ОК».
- После чего через форму обратной связи пишем письмо с просьбой отмодерировать домен.
Удаление страниц, непроиндексированных Гуглом
Вот здесь несколько сложнее. Поскольку готового авточекера нет (по крайней мере, мне он не известен), пришлось искать возможный способ автоматизации. Решение нашлось — пропарсить выдачу с помощью php-скрипта, чтобы получить список проиндексированных страниц.
Если Ваш сайт не прошел модерацию по причине «не все страницы сайта проиндексированы в ПС Google«, то выполняем следующие действия:
- Набираем в поисковой форме Гугла
allinurl:domain.com site:domain.com
, где вместоdomain.com
подставляем имя своего домена (пример). Оптимальным для нашего случая будет указание выдачи 50 результатов на страницу (настраивается в расширенном поиске). - Создаем php-файл с таким кодом:
<?php $contents = file_get_contents("http://www.google.com/search?as_q=&hl=ru&num=50&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&as_epq=domain+com&as_oq=&as_eq=&lr=&as_ft=i&as_filetype=&as_qdr=all&as_occt=url&as_dt=i&as_sitesearch=domain.com&as_rights=&safe=images"); $pattern = "|<h2 class=r><a href=\"(.*?)\" class=l|is"; preg_match_all($pattern, $contents, $out, PREG_PATTERN_ORDER); for($i = 0; $i < count($out[1]); $i ++){ echo $out[1][$i]."<br />";} ?>
Заменяем ссылку в 3-й строке кода на свою (которая находится в адресной строке браузера). Больше в коде ничего не трогаем.
- Теперь нужно запустить этот файл либо через свой сайт, либо через «Денвер» (к инету должны быть при этом подключены). В результате запуска скрипта на экран выведется список из первых 50-ти ссылок.
- Копируем ссылки и сохраняем, например, в блокноте.
- Далее открываем в Гугле следующую страницу результатов, копируем ссылку из адресной строки браузера в скрипт и снова его запускаем (не забываем записывать список полученных ссылок).
- Повторяем эти действия до тех пор, пока не пропарсим все страницы результатов Гугла для Вашего домена.
- В определенный момент парсинга может случиться так, что скрипт выведет не 50 ссылок, а меньше, хотя Гугл показывает 50. Я делал в этом случае следующее — просто сохранил на свой компьютер эту страницу и подставлял в скрипт уже ее, а не ссылку из Гугла.
- После того, как пропарсили все страницы и сохранили список полученных ссылок, заходим в САПЕ через Internet Explorer.
- Вставляем ссылки в форму «Введите УРЛы страниц…», нажимаем «Поставить галочки!». Теперь внимание! Поскольку мы «выдрали» из Гугла ссылки, которые им проиндексированы (а не наоборот, как было с Яндексом), то после нажатия на кнопку «Поставить галочки!» помеченными становятся проиндексированные Гуглом страницы. Не забывайте об этом!
- Поэтому теперь нам остается инвертировать отмеченные галками страницы (если страниц много, то это будет немного муторно).
- Как только отметили нужные страницы, выбираем «Удалить страницы до переиндексации» и нажимаем «ОК».
- После этого через форму обратной связи пишем письмо с просьбой отмодерировать домен.
На этом все. Желаю удачной работы с SAPE.
Буду рад услышать в комментах альтернативные способы автопроверки страниц на индексацию в Яндексе и Гугле, если, конечно, таковые имеются.
* * *
Студия «Lores IT» предлагает услуги юридическим и физическим лицам — компьютерный сервис (м. Тульская). Здесь осуществляется ремонт и настройка компьютеров и ноутбуков квалифицированными специалистами, а также обслуживание компьютерных сетей.
Комментарии (33)
Все понял Dimox? спасибо.
что-то как-то слишком запутанно, sape сам проверяет страницы и показывает те которые проиндексированы — зачем такой гемор???
supreme666, ничего запутанного. Видимо вы с этим не сталкивались, либо не понимаете сути. Сапа проверяет сама, но среди всех страниц часто бывают такие, которые поисковиками не проиндексированы. Об том и речь, чтобы исключить такие страницы, иначе сайт не пройдет модерацию.
дааа….
1 если у меня сайт на 1kk страниц? в индексе примерно 45k?
2 зачем этот гемор со скриптом то? есть ведь
http://www.google.com/ie?q=&num=100&hl=ru
который выдает 100 результатов и уже очищанный от сниппетов.
просто бирём,
открываем мазилу,
проходим по этой ссылке,
вводим site:domain.com,
получаем сотку резалтов,
нажимаем правой кнопкой мыши прям там
жмём «Информация о странице»
и копируем 100 нужных нам ссылок. они подряд идти будут.
Где же вы раньше были? Если бы я раньше знал эту ссылку, естесственно, не написал бы весь этот гемор со скриптом? :) Спасибо за ссылку! Теперь будем знать.
то же самое можно сделать и в опере.
открыть страницу.
зайти tools -> links
выделить нужные ссылки (работает поиск)
и сделать copy.
и все )
и никакой мороки со скриптами
Весьма полезная заметка. я лично этого не знал.
[quote post=»53″]# Экспортируем все страницы сайта — соответствующая ссылка внизу на странице “страницы” (сорри за калабмур :).[/quote]
спасибо за статью.
но вот это я не понял. я просто скопировал карту сайта своего и руками убрал все лишнее.
как список ссылок получить со своего сайта?
Мотивированный чувак, ссылки нужно брать не со своего сайта, а прямо в сапе, там на странице со списком всех найденных сапой страниц есть соответствующая ссылка на экспорт.
Привет Dimox, тут задался вопросом вот удалять непроиндексированные страницы можно. А как добавлять новые страницы, которые проиндексированы яндексом но не попали в sape на первоначальном этапе?
Allmanmak, нужно подавать заявку на переиндексацию.
Тоже недавно один сайт не прошел модерацию, ну стал искать способы как бы попроще удалить непроиндексированные страницы и нашел одну программку. С нею все проще, включил и занимайся своими делами. Через полчасика проверил, нажал на одну кнопочку — все непроиндексированные страницы удалились.
«Поставить галки» отлично работает в Опере 9.25
Ну теперь-то конечно уже может работать. Но на момент написания статьи в последней версии Оперы это не работало.
Здраствуйте dimox!
Спасибо, я всю информацию понял. Но. Я хочу узнать полный список проиндексированных страниц на моем сайте Яндексом. Подскажите мне пожалуйста т.к. Яндекс показывает первую тысячу.
С уважением Стас!
К сожалению, не знаю, как это сделать.
[quote post=»53″]2 зачем этот гемор со скриптом то? есть ведь
http://www.google.com/ie?q=&num=100&hl=ru
который выдает 100 результатов и уже очищанный от сниппетов.[/quote]
Так ведь речь идет о страницах проиндексированных Яндексом, а не Google.
А вообще ссылка полезная.
http://www.google.com/ie?q=&num=100&hl=ru
извиняюсь а как запрос вводить чтобы без сниппетов ссылки выдавались?
и еще вопрос, для яндекса аналогичным образом можно как нить получить ссылки?
На сегодня для проверки страниц в яндексе актуальна _http://www.yccy.ru/
Метод подустарел уже конечно. Сейчас это без проблем по нажатию одной кнопки делает плагин для ФФ Sape Webmaster.