Да, есть и такой файл. Его назначение – закрывать от индексации поисковыми системами определенные файлы и каталоги сайта. А так как сама индексация сайта и его страниц поисковыми системами вещь весьма темная и неоднозначная, то и о важности наличия файла robots.txt в сайтах споры идут непрерывно. В том числе и о том, нужен ли файл robots.txt для WordPress блогов. Причем, впрочем как всегда, мнения высказываются диаметрально противоположные.
Одни говорят, что файл robots.txt просто необходим, так как поисковый робот, обращаясь к сайту, в первую очередь запрашивает именно этот файл. И если его не найдет, то просто не будет индексировать страницы сайта. Поэтому если Вы создаете свой сайт с расчетом на индексацию его поисковыми системами, то делайте вывод сами.
Однако есть и мнение, что файл robots.txt на индексацию страниц сайта поисковыми системами никакого влияния не оказывает. И приводят примеры сайтов без файла robots.txt, которые прекрасно индексируются и входят в топ выдачи как Яндекса так и Гугла. При этом замечая, что нужно больше обращать внимания на оптимизацию сайта под поисковые системы, правильно подбирать ключевые слова и больше внимания уделять содержанию сайта. Совет, в общем-то, правильный. Но что мешает сделать файл robots.txt и поставить его на сайт или блог, тем самым решив вопрос — нужен он или нет? Даже если Вы считаете, что Вам нечего скрывать на Вашем сайте от поисковых систем, создайте пустой файл.
Так что же представляет собой файл robots.txt? Это обычный текстовый файл, который должен находиться в корневой директории сайта, так как роботы поисковых систем ищут его только в корневом каталоге. Поэтому размещать его в подкаталогах бессмысленно. Исходя из вышесказанного, делаем вывод:
- всю информацию о запретах на индексирование подкаталогов сайта нужно собрать в едином файле robots.txt
- файл этот должен находиться в «корне» сайта
Как создать правильный robots.txt файл? В Блокноте Widows. Если Вы создаете пустой файл – просто сохраните его с именем robots, набранным маленькими буквами. Если же Вы хотите закрыть какие-либо файлы или папки на Вашем сайте от индексации поисковыми системами, то пройдется немного поработать над текстом файла или найти готовый в Интернете. Хотите поработать? Тогда Вам нужно ВОТ СЮДА.
Я же сейчас хочу остановиться на файле robots.txt для WordPress блога. Зачем WordPress блогу этот файл и что там скрывать от поисковых роботов? А Вы видели, сколько в движке папок и файлов со скриптами, системными файлами и.т.д.? В идеале, поисковая система должна индексировать только страницы Вашего блога, согласны? Значит, все остальное должно быть закрыто от индексации с целью предотвращения дублирования контента, выдачи поисковиками ошибок, индексации несуществующих страниц ну так далее.
Как нам создать файл robots.txt для WordPress блога? Есть два варианта – сделать самому или найти в Интернете. Второй вариант естественно намного проще, да и вариантов правильного файла robots.txt для WordPress блогов Вам предложат очень много. И у каждого будет «самый лучший». Что я Вам могу предложить. В свое время я взял готовый robots.txt на сайте Кактуса (Установка WordPress на локальный хостинг DENWER ) когда скачал оттуда же движок WordPress. И не жалею. Пока все в порядке. Тем более, это файл рекомендуемый авторами WordPress. Вот он:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads # Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* # Internet Archiver Wayback Machine User-agent: ia_archiver Disallow: / # digg mirror User-agent: duggmirror Disallow: / Sitemap: http://www.askapache.com/sitemap.xml
Скопируйте его в Блокнот Windows и сохраните под именем robots. В последней строке текста поставьте адрес своего сайта. И все. Закачайте его на Ваш сайт в корневой каталог.
Если сомневаетесь, что сделали все правильно, то файл robots.txt для WordPress блога, как впрочем и любого другого, можно легко проверить. Поисковые системы позволяют и рекомендуют это делать. Например, в Яндексе. Здесь просто нужно указать адрес Вашего сайта, щелкнуть Загрузить robots.txt с сайта и щелкнуть — Проверить. Если есть ошибки – Яндекс Вам их покажет.
Спасибо за статью. Она помогла мне понять зачем и как создать файл robots.txt, поскольку с помощью другого плагина WordPress я заметил что Гугл индексирует таки не нужные страницы, надеюсь это исправить. Еще раз спасибо.
А зачем закрывать от индексации эти страницы? поясните пожалуйста неопытному.
Для поисковых систем, основной показатель качества сайта, это уникальный текстовый контент. Чем больше у сайта страниц с качественным, уникальным контентом, тем выше его ранг. Для поисковых систем, страницы сайта – это все, что находится в папке WWW, то есть и файлы движка WordPress. Кроме того, что это в основном специфичные, системные файлы, какая у них может быть уникальность, если движок растиражирован по миллионам сайтов? Вот потому их и закрывают от индексации.
Спасибо за помощь! тока скажите еще пожалуйста, а где найти корневой каталог? перебробывала все способы. На этом я зависла )
На реальном хостинге корневой каталог это папка в которой находятся файлы и папки Вашего сайта. В случае с WordPres — папки и файлы движка
Почему-то Яндекс пишет при проверке про неккоректность URL, я ввела название своего сайта,незнаю в чем проблема.Подскажите пожалуйста
Скачаю и установлю себе. Спасибо.
Некорректный формат URL файла Sitemap
Тоже самое пишет, в чем проблем ?
А с Денвера псевдо сай индексируется?
Скажите, пожалуйста, а где корень сайта?
Папка хостинга, в которой находится сайт
Добрый день! Проверяла robots через яндекс веб мастер у меня показало ошибки. Что это значит и как исправить? 1. user agent обнаружена неизвестная директива, 2: Disallow: /wp-login.php перед правилом нет директивы User-agent
В самом начале файла вставьте строку:
User-agent: *