Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем “сопли” в поиске

Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем “сопли” в поиске

Вам нужен сайт? Тогда создание и продвижение сайтов в Санкт-Петербурге – это то, что вам нужно. Доверьтесь профессионалам.

Привет! Часто мы сталкиваемся с тем, что в результате выдачи нашего сайта бывают “мусорные” страницы. Наиболее правильно удалить страницу из индекса в Яндексе с помощью файла robots.txt, о котором я уже писал. Но, к сожалению, Google игнорирует данный файл и все равно “засовывает” некоторые ненужные страницы в индекс (чаще всего в дополнительный, об этом ниже). Поэтому данный урок посвящен прежде всего Гуглу, но Яндекса тоже мы немного коснемся.

Как узнать, есть ли ненужные страницы (“сопли”) в индексе?

Ручной режим

Открываем Google и вбиваем туда фразу site:wpnew.ru, где вместо wpnew.ru Вы, конечно, вбиваете свой адрес сайта:

Вообще, чтобы не держать в голове все эти разные операторы разных поисковых систем, я предпочитаю пользоваться RDS bar. Заходим на наш сайт, нажимаем на кнопку “Анализ сайта”:

И там вы увидите, сколько страниц в индексе Яндекса и в Google:

В идеале эти цифры должны быть очень похожими, практически одинаковыми. То есть тут должны примерно те цифры, которые равняются количеству постов на Вашем блоге. Если это интернет-магазин, то посложнее, так как часто бывает необходимость засовывать страницы с фильтрами или др. параметрами в индекс. И Яндекс, и Google “кушают” их по-разному.

В скобках на скриншоте выше вы видите значение “99%” – это показатель того, какой процент находится в ОСНОВНОМ индексе Google. Есть также страницы в дополнительном индексе, в моем случае это 1%. Такие страницы не участвуют в поиске.

В идеале процент основного индекса должен быть равным 100% или стремиться к этому числу. Если у вас этот процент маленький и очень много страниц в дополнительном индексе, не стоит паниковать, рвать и метать, как любят делать это некоторые. Спокойно сделайте действия описанные ниже.

В RDS Bar нажимаем непосредственно на саму цифру:

И открывается Google со страницами, которые в индексе:

Здесь переходим на последние страницы, тыкая на последние предлагаемые страницы:

Если страниц в индексе довольно много, так можно потерять кучу времени, листая страницы в индексе. Поэтому смотрим на URL, который меняется при переходе на другие страницы, там можно увидеть значение start:

И можно заметить следующую последовательность: если мы находимся на 14-ой странице, там отображается цифра 130, если на 15, то цифра 140 и т.д. То есть данное значение будет принимать цифру по этой формуле:

Значение start=№ страницы*10-10

Если нам нужно попасть на 100 страницу, нам нужно в адресную строку после start ввести 990.

Не боимся, вбиваем цифру ту же самую 990, к примеру:

И вы попадете на последние страницы в индексе Google (если это не конец, введите большее число), и там увидите фразу:

По умолчанию вы видите только страницы в индексе, которые располагаются в основном индексе (то есть те страницы, которые несут информативную ценность по мнению Google). Чтобы увидеть, все страницы вместе с дополнительным индексом, кликните по фразе “repeat the search with the omitted results included”.

Теперь вас снова должно отбросить на первую страницу. Повторяем шаг выше, чтобы попасть на последние страницы в индексе:

Если посмотреть чуть выше, вы увидите, что страниц было 54, сейчас стало 59. То есть 5 страниц выдачи – это дополнительный индекс Google и данные страницы не несут никакой информационной пользы по мнению Google (чаще всего это дубли страниц, служебные или еще что-то).

Таких страниц может быть просто куча. В одно время у меня было в мусоре более 15 000 страниц. 🙂

Автоматический режим

Совсем недавно (после написания этой статьи) я написал новый урок про то, как можно автоматически найти ненужные страницы в индексе с помощью программы ComparseR.

Как удалить ненужные страницы с индекса Google

Подстраницы, архивы, метки и пр.
  1. Я настоятельно рекомендую поставить себе плагин WordPress SEO. Про это говорил уже не раз. Это лучший SEO плагин для Вордпресс. В нем переходим во вкладку “SEO” -> “Заголовки и метаданные”.
  2. Переходим во вкладку “Таксономии”, там в разделе “Метки” ставим галочку напротив “noindex, follow”, чтобы исключить из индекса страницы с метками (это, конечно, если вы не продвигаете сайт с помощью меток, как я писал):
  3. Потом переходите во вкладку “Архивы”, там ставите галочку напротив “Add noindex, follow to the author archives” и “Add noindex, follow to the date-based archives”:
  4. Дальше переходите во вкладку “Остальное” и ставите галочку “Noindex для подстраниц и архивов”:
  5. Нажимаем “Сохранить изменения”.
Как удалить Replytocom из индекса

Если у вас на сайте древовидные комментарии, в индексе также могут быть страницы с replytocom. Вообще, у меня вместе с ними было 17 000 страниц в индексе, удалив их из индекса на данный момент в Google пока осталось около 2000 страниц. Удалялись долго, почти год. То есть ненужные страницы выпадали по-тихоньку из индекса.

Подобные страницы очень легко удалить с помощью того же самого плагина WordPress SEO by Yoast.

  1. Переходим во вкладку SEO -> Расширенный:
  2. Переходим во вкладку “Постоянные ссылки”, там ставим галочку напротив “Удалить переменные ?replytocom”:
  3. Сохраняем изменения и наслаждаемся, как Google начнет сам исключать из индекса подобные страницы.
Страницы с feed

На некоторых сайтах вообще не нужен RSS. Там есть смысл в его отключении. С помощью RSS может попасть всякий шлак в индекс, подобие этого:

Открываем файл functions.php и туда вставляем вот этот код (вставляем перед закрывающим ?>):

Теперь, если мы увидим страницы вида site.ru/stranica.html/blabla/feed и перейдем на нее, нас перебросит на главную страницу сайта. И Google вскоре исключит подобные страницы из индекса.

Также можно сделать, чтобы перебрасывало не на главную страницу, а на какую-нибудь выбранную (страницу подписки, допустим). Для этого в коде вместо:

где http://site.ru/podpiska – любая страница, которую вы пропишите.

Как удалить сайт из индекса

Бывает необходимость в том, что сайт молодой и нужно поставить запрет на индексацию до того времени, пока не удалятся “стандартные посты”, которые не уникальны, не поменяется шаблон на новый и не добавится десяток страниц по теме. Все это, обычно делается для того, чтобы поисковые системы “скушали” сайт и понимали какая тематика его, направление, структура и пр. с самого начала.

Чтобы исключить весь сайт из индекса, добавьте в header.php до закрывающегося head вот этот код:

Это подойдет, если нужно скрыть определенную html страницу тоже. Например, у вас сверстан какой-либо лэндинг на отдельной html странице, отдельно от Вашего шаблона и вам не нужно, чтобы он попал в индекс.

Как ускорить удаление страниц из индекса поисковых систем

Сделанные выше манипуляции исключат появление ненужных страниц в будущем. Старые тоже будут сами “отваливаться” с индекса, но не так быстро, как хотелось бы, если кто-то хочет ускорить процесс и ненужных страниц в дополнительном индексе не так много, то можно поработать немного ручками.

Google
  1. Заходим в панель инструментов Google. Там переходим на наш сайт, вкладка “Индекс Google” -> “Статус индексирования”:
  2. Здесь можно увидеть, как ненужные страницы выпадают из индекса. То есть общее количество страниц в индексе регулярно уменьшается. Чтобы ускорить процесс удаления страниц из индекса, просто переходим во вкладку “Удалить URL-адреса”:
  3. Там нажимаем на кнопку “Создать новый запрос на удаление”: Обратите внимание, в robots.txt обязательно должно быть прописано правило, которое запрещает индексировать данное содержимое. То есть то, если вы хотите что-то удалить, URL должен стоять под запретом в robots.txt, иначе страница не удалится из индекса.
  4. Например, у меня в индексе была страница wpnew.ru/category/lichnoe/page/5, ее вставляю в поле и нажимаю “Продолжить”:
  5. В следующем окне, можно выбрать между: удаление только 1 страницы или целого каталога:
  6. Если требуется удалить только страницу, выбираем “Удалить страницу из результатов поиска и из кеша” и нажимаем “Отправить запрос”. Вы увидите подобное уведомление:
  7. Повторюсь, должно быть прописано правило в robots.txt, который запрещает индексировать данную страницу. В моем случае это вот это правило:
  8. Также вы можете удалить сразу каталог ненужных страниц из индекса. Для этого вставляем не конкретный URL, а к примеру что-то подобное со “звездочкой”:
  9. Тем самым, удалится целая рубрика и то, что в ней содержится. Обычно страницы пропадают из индекса в течении 1-х суток. Сроки могут достигать и до 1-ой недели.
Яндекс

В Яндексе принцип такой же. Заходим в “Удалить URL” и там вбиваем URL ненужной страницы, которая попала в индекс Яндекса:

Чтобы страница удалилась из индекса, необходимо, чтобы страница была удалена физически (то есть отдавала 404 ошибку, к примеру), либо также была запрещена к индексации с помощью robots.txt или другими способами. Яндекс также удалит страницу из индекса, правда у нее это происходит обычно дольше, чем с Google.

С помощью программы ComparseR

Все эти “ускорения” по удалению страниц с индекса можно сделать с помощью великолепной программы ComparseR и не нужно будет сидеть и забивать по одному URL в панели вебмастеров. Программа может позволить удалить ненужные страницы за 1-2 минуты. Очень удобно.

Вывод

В этом уроке я продемонстрировал то, как удалить “мусорные” страницы из индекса, их еще называют “сопли”. Их удаляться рекомендуется, но не стоит делать целую драму из этого. А то я помню, как многие истерили по поводу replytocom, мол это какая-то ну ОЧЕНЬ серьезная проблема, грубейшая ошибка в SEO. Я бы это так не назвал, это слишком сильное преувеличение. Просто стремитесь к чистоте поиска, чтобы у Вас на сайте было все пушисто и гладко.

Спасибо за внимание, до скорой встречи! Будут вопросы – с радостью отвечу в комментариях. Пока!

📎📎📎📎📎📎📎📎📎📎