Robots.txt для сайта Wordpress! Скачай бесплатно!
Опубликовано: 01.09.2018
Добрый день коллеги! В одной из предыдущих статей я вещал о самостоятельной seo оптимизации сайта и говорил, что это очень большая тема и супер подробно каждый пункт в рамках 1-2 двух статей раскрыть в полной мере невозможно.
Помните такое? Так вот, сегодня я хочу раскрыть по подробнее один из самых важных пунктов внутренней оптимизации веб-ресурса. Сегодня будем говорить о файле robots.txt для сайта WordPress. Прочитав статью от начала и до конца, вы узнаете:
Содержание:
1. Что такое файл robots.txt и для чего он нужен?
Как установить файл robots txt на wordpress (видео-урок № 7)
2. Где находится файл robots.txt и как его создать? 3. 8 популярных ошибок, которые допускают начинающие веб-мастера 4. Правильный и проверенный robots.txt для сайта WordPress 5. Описание значения строк файла robots.txt
Кстати, для тех товарищей кто не хочет разбираться в этом файле со странным названием, а желает просто взять готовый и проверенный вариант для своего интернет-проекта, я дам ссылку на скачивание своего рабочего файла robots.txt для сайта WordPress.
Я использую его с 2013 года на всех своих веб-ресурсах созданных на WP и за все время он отлично себя зарекомендовал. Естественно я стараюсь быть в тренде и при необходимости вношу в него правки с учетом нововведений поисковых систем и seo.
Свой файл я собирал очень долго, брал шаблоны с успешных сайтов, которые находятся в ТОПе, скачивал у блогеров, просил у ребят на seo форумах, а потом все это анализировал, взял самое лучшее из каждого и вот он простой, эффективный, рабочий роботс. Итак, давайте начнём с определения.
Что такое файл robots.txt и для чего он нужен?
Robots.txt – это системный, внутренний файл сайта, созданный в обычном текстовом блокноте, который представляет из себя пошаговую инструкцию для поисковых машин, которые ежедневно посещают и индексирует веб-ресурс.
Каждый web-мастер должен знать значение этого важного элемента внутренней оптимизации и уметь его грамотно настраивать. Наличие данного файла обязательное условия для правильного и качественного seo.
Ещё такой нюанс, если у вашего сайта имеется несколько поддоменов, то у каждого из них, в корневом каталоге на сервере должен быть свой роботс. Кстати, данный файл является дополнением к Sitemaps (карта сайта для ПС), дальше в статье вы узнаете об этом более подробно.
У каждого сайта есть разделы, которые можно индексировать и которые нельзя. В роботсе, как раз таки можно диктовать условия для поисковых роботов, например, сказать им, чтобы они индексировали все страницы сайта с полезным и продающим контентом, но не притрагивались к папкам движка, к системным файлам, к страницам с данными аккаунтов пользователей и т.д.
Ещё в нем можно дать команду поисковой машине, соблюдать определенный промежуток времени между загрузкой файлов и документов с сервера во время индексирования, а также он прекрасно решает проблему наличия дублей (копий контента вашего сайта).
А сейчас, я хочу с вами поделиться небольшим секретом , о котором, кстати, знают не все веб-мастера. Если вы создали и настроили robots.txt, то не думайте, что вы властелин поисковых роботов, знайте и помните, что он позволяет лишь частично управлять индексированием сайта .
Наш отечественный поисковый гигант Яндекс строго и ответственно соблюдает прописанные инструкции и правила, а вот американский товарищ Гугл, не добросовестно к этому относится и в легкую может проиндексировать страницы и разделы на которых стоит запрет, а потом ещё и добавить в поисковую выдачу.
Где находится файл robots.txt и как его создать?
Этот товарищ располагается в корневом каталоге сайта , для наглядности смотрите ниже картинку со скриншотом моего каталога на сервере. Если вы устанавливаете WordPress на хостинге через функцию «Установка приложений», об этом я рассказывал в статье « Как установить WordPress на хостинг? Полное руководство по установке! », то файл роботс создается автоматически по умолчанию в стандартном, не доработанном виде.
Создается он на рабочем столе, с помощью обычного, текстового блокнота, который имеет расширение файла .txt. Кстати, рекомендую использовать прогу Notepad++ для редактирования и создания текстовых файлов, очень удобно.
Закачать на сервер его можно, например, с помощью ftp используя программы Filezilla или Total Commander . Если вы хотите посмотреть, как выглядит данный файл на каком-то сайте или на своем, то наберите в браузере адрес http://имя_сайта/robots.txt.
8 популярных ошибок, которые допускают начинающие веб-мастера
1.Путаница в написании правил. Пожалуй это самая популярная ошибка в рунете.
Неправильный вариант: User-agent: /
Disallow: GooglebotПравильный вариант:
User-agent: Googlebot Disallow: /2. Написание целого списка папок в одном правиле . Некоторые ребята умудряются сделать запрет индексации папок в одной строчке.
Неправильный вариант: Disallow: /wp-admin /wp-login.php /xmlrpc.php /wp-includes
Правильный вариант:
Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /xmlrpc.php3. Имя файла роботс большими буквами . Здесь я думаю понятно, всегда пишем название только маленькими буквами.
Неправильный вариант: Robots.txt
ROBOTS.TXTПравильный вариант:
robots.txt4. Написание пустой строки в директиве User-agent
Неправильный вариант:
User-agent: Disallow:Правильный вариант:
User-agent: * Disallow:5. Неправильно написанная ссылка в правиле «Host» . Нужно писать линк без указания протокола http:// и без слеша на конце /
Неправильный вариант: User-agent: Yandex
Disallow: /wp-content/plugins Host: http://www.ivan-maslov.ru/Правильный вариант:
User-agent: Yandex Disallow: /wp-content/plugins Host: www.ivan-maslov.ru6. Написание длинной колбасы с перечислением каждого файла . Чтобы этого не случилось, просто закрываем папку от индексации целиком.
Неправильный вариант: User-agent: Yandex
Disallow: /Brend/Armani.html Disallow: /Brend/Chanel.html Disallow: /Tur/Thailand.html Disallow: /Tur/Vietnam.html Disallow: /Tur/Egypt.htmlПравильный вариант:
User-agent: Yandex Disallow: /Brend/ Disallow: /Tur/7. Отсутствие в роботсе правила Disallow . По общепринятому стандарту поисковых систем, данная инструкция является обязательной, если вы не собираетесь ничего запрещать, тогда просто оставьте её пустой. Ок?
Неправильный вариант: User-agent: Googlebot
Host: www.ivan-maslov.ruПравильный вариант:
User-agent: Googlebot Disallow: Host: www.ivan-maslov.ru8. Не указывают слеши в каталогах
Неправильный вариант:
User-agent: Googlebot Disallow: ivanПравильный вариант:
User-agent: Googlebot Disallow: /ivan/Правильный и проверенный robots.txt для сайта WordPress
А сейчас, я предлагаю вам ознакомится содержанием кода файла роботс, разобраться в каждой его директиве. а затем скачать готовый вариант.
User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads Crawl-delay: 5 Host: ivan-maslov.ru Sitemap: http:///sitemap.xml Sitemap: http:///sitemap.xml.gz User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: Mail.Ru Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ User-agent: Mediapartners-Google Disallow: User-Agent: YaDirectBot Disallow:>> Скачать файл robots.txt для сайта WordPress
Описание значения строк файла robots.txt:
« User-agent: * » — правила, прописанные ниже будут относится ко всем поисковым системам и их роботам, кроме Яндекса и Google « User-agent: Yandex » — правила, прописанные ниже будут относится к поисковому гиганту Яндекс и всем его поисковым роботам (ПР) « User-agent: Googlebot » — правила, прописанные ниже будут относится к поисковому гиганту Гугл и всем его ПР « User-agent: Mail.Ru » — правила, прописанные ниже будут относится к поисковому гиганту Майл ру и всем его ПР « Disallow :» — условие запрещающее индексирование « Allow: » — условие разрешающее индексирование « *» — звездочка означает допущение абсолютно любой и даже пустой последовательности символов « $» — дает возможность делать исключение для определенных файлов и каталогов в правиле « Host: vas-domen.ru » — данное правило используется только стариком Яндексом и указывает ему главное зеркало вашего сайта (www.sait.ru или sait.ru) « User-agent: Googlebot-Image » — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием изображений « User-agent: YandexImages » — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием изображений « User-agent: Mediapartners-Google » — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием страниц и объявлений с рекламой AdSense. Напомню, что мы прописали там «Disallow:» это позволит подбирать более релевантные объявления и избежать ошибок индексирования. Если вы в будущем собираетесь размещать рекламу от Гугла или уже размещаете, то прописывайте такие правила сразу, чтобы на верочку было все ок, а то потом забудете. « User-Agent: YaDirectBot » — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием страниц и объявлений с рекламой Яндекс Директ. В остальном все тоже самое, что писал в предыдущем пункте. « Sitemap: » — правило, в котором указывается ссылка на местоположение файла с картой сайта sitemap.xml. « Crawl-delay :» — полезное правило, которое снижает нагрузку на сервер, когда ПР очень часто заходят в гости к вашему сайту, здесь мы задаем время в секундах и говорим этим неугомонным товарищам, чтобы сканировали наш веб-ресурс не чаще, чем 1 раз в 5 секунд.Ну вот мы и рассмотрели значение всех строк, если этой информации вам мало, то дополнительно рекомендую почитать справку Яндекса . Кстати, скачать полностью готовый файл robots.txt для сайта WordPress, можно — здесь . Не забудьте поменять в нём строчки:
ссылку на Sitemap
главное зеркало web-ресурса в директиве «Host:»После того, как вы сделали все настройки и загрузили свой роботс в корневую папку сайта, обязательно проверьте его на ошибки , если вы скачали мой вариант, то можете не проверять, я уже это сделал, там всё чётко
Вот на всякий случай парочка классных сервисов для анализа и проверки на ошибки файла robots.txt:
Проверяем robots.txt в инструментах Яндекс Вебмастер: http://webmaster.yandex.ru/robots.xml
Проверяем robots.txt в интсрументах Гугла: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ruНу и напоследок, хочу обратить ваше внимание на то, что файл robots.txt для сайта WordPress важное звено в seo оптимизации , между вашим web-ресурсом и поисковыми роботами. С его помощью, вы можете влиять на индексацию сайта . Друзья, помните об этом и используйте свой роботс грамотно, ведь в seo не бывает мелочей.
Остались вопросы — пишите их в комментах, постараюсь ответить в ближайшее время. А какие инструкции используете вы в своем файле robots.txt из выше перечисленных?
Если вам понравилась статья, рекомендуйте её своим друзьям и подписывайтесь на рассылку блога. Увидимся в следующих постах, до связи ????
С уважением, Иван Маслов
Сегодня | Завтра | ||
USD | 32.62 | 32.50 | |
EUR | 39.90 | 39.92 |
Обменник | Переходов |
Wmchanger | 6 |
E-Market | 5 |
WMtoCash.com | 4 |
Str-Money | 3 |
Hot-Change | 3 |
Вы можете получить WMR-бонус в размере 0,01-0,10 WMR на свой кошелек 1 раз в сутки | |
Кошелек
|
|
Код
|
|
Обмен Webmoney |