|
Многие вебмастера рано или поздно сталкиваются с необходимостью удалить из поисковой системы страницы сайта, которые попали туда по ошибке, перестали быть актуальными, являются дублями или содержат конфиденциальную информацию клиентов (причины могут быть разные). Яркий пример тому уже нашумевшая ситуация с Мегафоном, смс-ки пользователей которого проиндексировал Яндекс, ситуация с интернет-магазинами, когда в поиске можно было найти личную информацию клиентов и подробности их заказов, ситуация с банками и транспортными компаниями и так далее… Не будем касаться в этой статье причин описанных выше казусов, а рассмотрим, как удалить из Яндекса или Google ненужные страницы. Подразумевается, что они пренадлежат вашему сайту, в противном случае необходимо связываться с владельцем нужного ресурса с соответствующей просьбой. 5 способов удаления страниц из поисковых результатов 1. 404 ошибка Один из простых способов удаления страницы из поиска это удаление её со своего сайта, с условием, что в дальнейшем, при обращении по старому адресу, сервер выдавал 404-ую ошибку, означающую, что страницы не существует. HTTP/1.1 404 Not Found В данном случае придётся подождать, пока робот ещё раз не зайдёт на страницу. Иногда это занимает значительное время, в зависимости от того, как она попала в индекс. Если страница при удалении её из поиска должна существовать на сайте, то данный способ не подходит, лучше использовать другие, представленные ниже. 2. Файл robots.txt Очень популярный метод закрыть от индексации целые разделы или отдельные страницы это использование корневого файла robots.txt. Существует множество мануалов, как правильно настроить этот файл. Здесь приведём лишь несколько примеров. Закрыть раздел администраторской панели от попадания её в индекс поисковиков: User-Agent: * Disallow: /admin/ Закрыть определенную страницу от индексации: User-Agent: * Disallow: /my_emails.html # закрытие страницы my_emails.html Disallow: /search.php?q=* # закрытие страниц поиска В случае с robots.txt тоже придётся ждать переиндексации, пока робот не выкинет из индекса страницу или целый раздел. При этом, некоторые страницы могут остаться в индексе, если причиной их попадания туда было несколько внешних ссылок. Данный метод неудобно использовать в случае необходимости удаления разных страниц из разных разделов, если невозможно составить общий шаблон для директивы Disallow в robots.txt. 3. Мета-тег robots Это альтернатива предыдущего метода, только правило задаётся непосредственно в HTML-коде страницы, между тегами .
Удобство мета-тега в том, что его можно добавить на все нужные страницы (с помощью системы управления), попадание которых нежелательно в индекс поисковика, оставляя файл robots.txt при этом простым и понятным. Недостаток данного метода лишь в том, что его сложно внедрить для динамического сайта, использующего один шаблон header.tpl, если отсутствуют специальные навыки. 4. Заголовки X-Robots-Tag Данный метод используют зарубежные поисковые системы, в том числе Google, как альтернативу предыдущему методу. У Яндекса пока нет официальной информации о поддержке этого http-заголовка, но возможно, в ближайшее время будет. Суть его использования очень похожа на мета-тег robots, за исключением того, что запись должна находиться в http-заголовках, которые не видны в коде страницы. X-Robots-Tag: noindex, nofollow В некоторых, часто неэтичных, случаях его использование очень удобно (например, при обмене ссылками и скрытии страницы линкопомойки). 5. Ручное удаление из панели для вебмастеров Наконец последний, и самый быстрый способ удаления страниц из индекса – это их ручное удаление. Яндекс: http://webmaster.yandex.ru/delurl.xml Google: https://www.google.com/webmasters/tools/
Автор: Сергей Кокшаров в Новичкам, 28/07/2011 Другие новости по теме:
Как заставить Yandex, Google, Rambler проиндексировать сайтОптимизация сайта под ЯндексКак быть и что делать, если сайт выпал из индекса?Фильтры ЯндексаGoogle и тематика сайта |