ruSKweb.ru

"Самая хорошая работа – это высокооплачиваемое хобби"

Генри Форд

Настройка robots.txt для WordPress.

robot

Правильно настроенный  robots.txt  обеспечивает грамотную индексацию нашему сайту, неправильный же может совсем убрать его из обзора поисковиков) Поэтому обязательно нужно уделить этому вопросу должное внимание.

Если вы заметили, что в индексе поисковиков откуда-то обнаруживаются дубликаты ваших постов, или какие-то непонятные страницы, то проблема наверняка именно в robots.txt.

Нередко замечал даже у довольно крупных и раскрученных сайтов и блогов ошибки в данном файлике.

Но прежде чем создавать robots.txt некоторые из вас(новички) могут задаться вопросом – а что собственно это за зверь такой?

Что такое robots.txt и зачем он нужен?

Это обычный txt-файлик, который расположен в корневом каталоге ваше сайта. Главным образом  robots.txt нужен для того, что бы ограничивать доступ поисковиков к некоторым страницам вашего сайта, т.е. что бы они не  индексировались.

Вы скажите, зачем же мне что-то прятать от поисковых роботов, я хочу, что бы мой сайт был в поиске! Однако уверяю вас, практически на любом сайте есть что укрыть от всевидящего ока, особенно сайты на CMS WordPress :)

В первую очередь это служебные разделы вашего сайта и дубликаты страниц (которых Worpress плодит очень много)

Ну согласитесь, зачем поисковику нужно копаться в админской зоне, или скажем в папке с установленными плагинами. Так же нужно обязательно прятать повторяющиеся страницы.

Откуда берутся дубликаты страниц в Worpress? Да отовсюду :)

Это архивы страниц по меткам, это архивы по дате, архивы по авторам, по категориям (рубрикам) В результате, если не закрыть их от индексации поисковиков, то в поисковой выдаче могут появиться много вариантов одних и тех же страниц.

Чем это может мне навредить, спросите вы? Ну, во-первых, проиндексировать 50 страниц, или 300 страниц , есть разница. Вы значительно ускорите индексацию своего сайта, убрав все лишнее и оставив только самое нужное.

Кроме того, робот может проиндексировать ненужные страницы, а до нужных так и не добраться, или же добраться но очень нескоро.

Так же у вас могут быть личные страницы, которые вы не хотите выставлять на всеобщее обозрение.

Стоит задуматься и о том, что бы скрывать и комментарии от индексации, если их очень много и они не особо модерируются.

Помимо прочего в robots.txt указывается главное зеркало вашего сайта.  URL сайта может выглядеть как www.sait.ru или просто sait.ru и для поисковиков это два разных сайта.

Что бы узнать какое у вашего сайта главное зеркало наберите его в браузере с www, и если URL измениться  и www исчезнет в адресной строке, то ваше главное зеркало sait.ru Если же останется www.sait.ru то это  и есть главное зеркало. Разумеется вместо sait.ru подставляем адрес своего сайта.

Еще  в нем указывается местоположение карты сайта для поисковиков sitemap.xml. Что это такое и как ее создавать я писал в предыдущем уроке , если вы не делали sitemap, то обязательно сделайте!

Как создать правильный robots.txt для WordPress.

Вот так выглядит мой robots.txt на данный момент:


User-agent: *
 Disallow: /cgi-bin
 Disallow: /wp-admin
 Disallow: /wp-includes
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: */comments
 Disallow: /page
 Disallow: /trackback
 Disallow: */trackback
 Disallow: */*/trackback
 Disallow: */*/feed/*/
 Disallow: */feed
 Disallow: /*?*
 Disallow: /category
 Disallow: /wp-login.php
 Disallow: /tag

User-agent: Yandex
 Disallow: /cgi-bin
 Disallow: /wp-admin
 Disallow: /wp-includes
 Disallow: /wp-content/plugins
 Disallow: /wp-content/cache
 Disallow: /wp-content/themes
 Disallow: */comments
 Disallow: /page
 Disallow: /trackback
 Disallow: */trackback
 Disallow: */*/trackback
 Disallow: */*/feed/*/
 Disallow: */feed
 Disallow: /*?*
 Disallow: /category
 Disallow: /wp-login.php
 Disallow: /tag

 Host: ruskweb.ru

 Sitemap: http://ruskweb.ru/sitemap.xml
 Sitemap: http://ruskweb.ru/sitemap.xml.gz

 

Можете скопировать в свой файл robots.txt, практически все настройки стандартные, убирают дубликаты страниц и закрывают админскую зону, в которую не нужно совать нос) Единственное что вы можете открыть комментарии если хотите, удалив строчки 8 и 26   Disallow: */comments.

Если же у вас вообще нет   robots.txt то создайте его в блокноте и поместите в корень вашего сайта.

Тут читаем что такое корень сайта и как копировать файлы на ваш сайт.

Важно! Не забудьте изменить  адрес сайта в последних трех строчках  на ваш собственный.

Перед созданием такого robots.txt обязательно включите ЧПУ, иначе будут проблемы с индексацией сайта!

И немного о том что мы там прописали.

User-agent:  определяет к какому поисковику относятся правила.

В строке Disallow: мы закрываем доступ поисковикам к разделам сайта.

В строке  Host: указываем главное зеркало своего сайта.

В строке Sitemap:  мы указываем местоположение карты сайта sitemap.xml

Проверить работу файла можно в инструментах для Вебмастера Яндекс или Google.

В Яндексе нужный нам раздел находится в Настройка индексирования – Анализ robots.txt 

анализ robots.txt

Загружаем robots.txt с сайта, и можем проверять работу.

проверка robots.txt

Возле списка URL жмем кнопку добавить и вписываем все адреса с сайта, доступ к которым хотим проверить. К примеру проверим доступны ли записи(а они должны быть доступны) и проверим закрыты ли метки. Добавляем адреса, и жмем кнопку Проверить.

Как видите в результатах проверки, все работает как нужно, посты индексируются как и положено, а доступ к архивам запрещен. Причем там же указывается каким правилом.

По аналогии, если вы пользуетесь Гугловскими инструментами, там все тоже самое делаем.

Ну вот собственно и все, мы сделали большое дело для нашего нового блога таким маленьким тестовым файликом :)

Если есть какие-то вопросы, не стесняйтесь, задавайте в комментариях, постраюсь вам помочь)

Понравилась статья? Жми лайк:

33 комментариев

  1. Светлана пишет:

    Добрый день!
    Очень много пишут о том, зачем нужен robots.txt, как его подогнать под свой сайт и все… А где же главное – КАК поместить его в корень сайта? Я очень даже новичок и мне эта операция совершенна непонятна.

    [Ответить]

    Сергей Кобзарь отвечает:

    Здравствуйте Светлана.
    Спасибо за замечание, сейчас дополню статью. Иногда забываю что блог читают в первую очередь новички)
    Корень сайта это главная папка предоставляемая провайдером, в которой и располагаются файлы вашего сайта. У разных хостингов она может называться по разному, у меня, к примеру, это public_html/ у некоторых это может быть www/. Туда и нужно копировать robots.txt
    Подробней вы можете прочитать в этом уроке http://ruskweb.ru/osnovyi/chto-takoe-koren-sayta-nastroyka-ftp-klienta.html

    [Ответить]

  2. Дмитрий пишет:

    Привет.
    Еще желательно указать главное зеркало сайта в панели Вебмастера Яндекс
    Хотя, директива host тоже самое делает

    [Ответить]

    Сергей Кобзарь отвечает:

    Здравствуйте Дмитрий, только о вас вспоминали недавно =)
    Да, там много чего интересного. У меня проблем с Яндекс.вебмастером не было, он отлично с host зеркало взял. А вот с гуглом пришлось повозиться

    [Ответить]

  3. Дмитрий пишет:

    По какому поводу вспоминали? )

    [Ответить]

    Сергей Кобзарь отвечает:

    гадости всякие говорили :D

    [Ответить]

  4. Дмитрий пишет:

    И такое бывает)

    [Ответить]

    Сергей Кобзарь отвечает:

    Ну если серьезно то вас привели в пример как человека достигшего успеха без SEO =)
    http://ruskweb.ru/internet-zarabotok/zarabotok-v-internete-konkurs-s-prizovyim-fondom-1111.html#comment-145

    [Ответить]

  5. Дмитрий пишет:

    Да я давно уже не заморачиваюсь по этому поводу)
    Каждый день баню всяких придурков. А раньше переживал. Думал, что не так : )

    Письмо приглашение дошло?

    [Ответить]

    Сергей Кобзарь отвечает:

    нене, мы вас наоборот нахваливали, сео и правда не сегодня так завтра может загнуться, или изменится до неузнаваемости после смены алгоритмов)

    да пришло, спасибо. как раз ответ пишу)

    [Ответить]

    Babenko отвечает:

    Что-то вы уж слишком плохого мнения о seo. Загнуться оно не сможет, еще очень долгое время. Изменится – да, но и это произойдет не скоро. Изменения возможны не столь масштабные, поэтому делать надо СДЛ и все будет норм :)

    [Ответить]

    Сергей Кобзарь отвечает:

    ну я имел ввиду загнется в том виде, в котором оно есть сейчас – вроде продвижения покупными ссылками и т.д.
    как раньше загнулось продвижение каталогами и спамом ключей.
    разумеется само сео никуда не денется)

    [Ответить]

  6. Тамара пишет:

    Сергей! У меня роботс другой, от школы Старт Ап. Заменять на Ваш?Что-то боюсь. Я с тем роботсом достаточно давно. А если надо заменить, тогда как :удалить прежний и поставить этот?

    [Ответить]

    Сергей Кобзарь отвечает:

    Тамара тут все индивидуально конечно, приведенный мной robots вполне стандартный и ничего страшного наделать не должен) закрывает метки и рубрики от индексации.

    покажите мне ваш роботс, я гляну и скажу уже как лучше. можете на почту скинуть

    [Ответить]

    Babenko отвечает:

    Согласен, от вашего шаблона многое зависит :) Хотя в большинстве случаев они похожи, поэтому я думаю, что можете оставить свой robots. Ведь в Start up не вафли сидят :)

    [Ответить]

  7. Fil пишет:

    Хорошая статья….будем заниматься)))

    [Ответить]

    Сергей Кобзарь отвечает:

    Если будешь экспериментировать с настройками, то советую проверять в инструментах вебмастера работоспособность роботса)
    Загоняешь в форму пару ссылок которые должны быть открытыми и пару ссылок которые не должны индексироваться и проверяй

    [Ответить]

  8. Kristina пишет:

    Вот у меня возник вопрос оставлять ли открытыми комментарии в роботс? Если комментарии осмысленные и по делу, а еще и с ключевыми словами – они, я думаю, только помогут оптимизировать статью. Тем более робот будет видеть, что идет живое обсуждение. Даже где-то читала, что комментами можно повышать рейтинг своей статьи в поисковой выдаче. Тем более иногда могут люди из ПС зайти по фразам, которые находятся в комментах. А какие отрицательные моменты не закрытых комментов?

    [Ответить]

    Сергей Кобзарь отвечает:

    Кристина тут сложно сказать… вообще мне кажется комментарии и так и так будут читаться, потому что они на одной странице со статьей, а в роботс просто закрываются якорные ссылки на комменты. У меня раньше были закрыты, сейчас открыл. Если комменты по теме, без флуда и спама, то думаю только на пользу идут. А все лишнее можно просто удалять)

    [Ответить]

  9. Oleg пишет:

    Привет. Спасибо за полезную ин-фу. Такой вопрос, а что конкретно закрывает такая конструкция:

    Disallow: /category/*/*

    Чем она будет отличаться от такой:

    Disallow: /category

    [Ответить]

    Сергей Кобзарь отвечает:

    Приветствую Олег.

    На страницах категорий существует пагинация, т.е. разбиение на несколько страниц если постов слишком много с навигацией типа /category/page/2/ 3, 4, 5 и т.д.
    Вот их то мы и закрываем за компанию. По сути Disallow: /category тоже закрывает пагинацию и саму страницу категорий, выполняет те же функции. Но Disallow: /category/*/* более наглядно что ли =) А так разницы нет

    [Ответить]

    Oleg отвечает:

    Спасибо, с этим все понятно.
    Еще немного нубский вопрос.
    Хочу удалить на сайте архив по месяцам, полностью. Убираю виджет соответствующий в админке, но по url архивы остаются доступны.
    Можно ли их удалить как-то через админку, чтоб выдавало ошибку 404?

    [Ответить]

    Сергей Кобзарь отвечает:

    Да архивы можно отключить, через код в function.php

    add_filter( 'request', 'disable_datetime_queries' );
    /**
    * Проверяет, содержится ли в URL требование получить архив постов по датам. Если так, то вместо этого архива будет выводиться страница 404.
    *
    * Функция навешивается на фильтр-хук 'request'
    */
    function disable_datetime_queries( $args )
    {

    foreach ( array('second', 'minute', 'hour', 'day', 'monthnum', 'year', 'w', 'm') as $key)
    {
    if ( array_key_exists($key, $args) AND isset($args[$key]) )
    {
    return array( 'error' => '404' );
    }
    }

    return $args;
    }

    [Ответить]

    Oleg отвечает:

    У меня есть файл functions.php в моей теме.

    Нужно вставить этот код туда?

    [Ответить]

    Сергей Кобзарь отвечает:

    да, вставлять между < ?php и ?>

    [Ответить]

    Oleg отвечает:

    Спасибо!

    [Ответить]

  10. Oleg пишет:

    Еще вопрос по теме robots.txt
    Надо ли закрывать пагинацию страниц самих записей блога и как это сделать?

    Таким образом:

    Disallow: /page

    Или еще каким?

    [Ответить]

    Сергей Кобзарь отвечает:

    Да, так можно закрыть пагинацию записей на главной. А надо ли – вопрос. Если у вас с индексацией порядок, настроена карта сайта – как обычная так и xml, если идут твиты ретвиты и т.д. то можно закрыть.

    [Ответить]

    Oleg отвечает:

    Да нет, пока вообще мало что есть. Просто не хочется, чтоб всякая ненужная ерунда в индекс лезла. Я пока изучаю вопрос.

    [Ответить]

  11. Владимир пишет:

    Валидатор файлов Sitemap мне ответил. Файл Sitemap не должен быть главной страницей сайта.А где его поставить не знаю,я пока ещё даже и не чайник,а на много хуже.Подскажите пжалуйста. :cry:

    [Ответить]

  12. Алексей пишет:

    Сергей, добрый день! Такой вопрос, если я категории, т.е. рубрики выношу в меню сайта в таком случае мне необходимо убрать из robots.txt строки Disallow: /category и отразится ли каким-то образом на СЕО-продвижении сайта? Спасибо!)

    [Ответить]

    Сергей Кобзарь отвечает:

    Добрый день. Только если вы хотите, что бы поисковик находил в поиске эти самые страницы рубрик. Если же там ничего ценного нет кроме дублей (в большинстве случаев так и есть) то смело закрывайте

    [Ответить]

Оставить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: