http://wm-monitoring.ru/ ')) {alert('Спасибо за то что установили нашу кнопку! =)');} else {alert('Очень жаль! =(');}"> http://wm-monitoring.ru/

Главная Новости

Robots.txt для сайта Wordpress! Скачай бесплатно!

Опубликовано: 01.09.2018

видео Robots.txt для сайта Wordpress! Скачай бесплатно!

Настройка файла robots txt для вордпресс

Добрый день коллеги! В одной из предыдущих статей я вещал о самостоятельной seo оптимизации сайта и говорил, что это очень большая тема и супер подробно каждый пункт в рамках 1-2 двух статей раскрыть в полной мере невозможно.



Помните такое? Так вот, сегодня я хочу раскрыть по подробнее один из самых важных пунктов внутренней оптимизации веб-ресурса. Сегодня будем говорить о файле robots.txt для сайта WordPress. Прочитав статью от начала и до конца, вы узнаете:

Содержание:

1. Что такое файл robots.txt и для чего он нужен?


Как установить файл robots txt на wordpress (видео-урок № 7)

2. Где находится файл robots.txt и как его создать?

3. 8 популярных ошибок, которые допускают начинающие веб-мастера

4. Правильный и проверенный robots.txt для сайта WordPress

5. Описание значения строк файла robots.txt

Кстати, для тех товарищей кто не хочет разбираться в этом файле со странным названием, а желает просто взять готовый и проверенный вариант для своего интернет-проекта, я дам ссылку на скачивание своего рабочего файла robots.txt для сайта WordPress.

Я использую его с 2013 года на всех своих веб-ресурсах созданных на WP и за все время он отлично себя зарекомендовал. Естественно я стараюсь быть в тренде и при необходимости вношу в него правки с учетом нововведений поисковых систем и seo.

Свой файл я собирал очень долго, брал шаблоны с успешных сайтов, которые находятся в ТОПе, скачивал у блогеров, просил у ребят на seo форумах, а потом все это анализировал, взял самое лучшее из каждого и вот он простой, эффективный, рабочий роботс. Итак, давайте начнём с определения.

Что такое файл robots.txt и для чего он нужен?

Robots.txt – это системный, внутренний файл сайта, созданный в обычном текстовом блокноте, который представляет из себя пошаговую инструкцию для поисковых машин, которые ежедневно посещают и индексирует веб-ресурс.

Каждый web-мастер должен знать значение этого важного элемента внутренней оптимизации и уметь его грамотно настраивать. Наличие данного файла обязательное условия для правильного и качественного seo.

Ещё такой нюанс, если у вашего сайта имеется несколько поддоменов, то у каждого из них, в корневом каталоге на сервере должен быть свой роботс. Кстати, данный файл является дополнением к Sitemaps (карта сайта для ПС), дальше в статье вы узнаете об этом более подробно.

У каждого сайта есть разделы, которые можно индексировать и которые нельзя. В роботсе, как раз таки можно диктовать условия для поисковых роботов, например, сказать им, чтобы они индексировали все страницы сайта с полезным и продающим контентом, но не притрагивались к папкам движка, к системным файлам, к страницам с данными аккаунтов пользователей и т.д.

Ещё в нем можно дать команду поисковой машине, соблюдать определенный промежуток времени между загрузкой файлов и документов с сервера во время индексирования, а также он прекрасно решает проблему наличия дублей (копий контента вашего сайта).

А сейчас, я хочу с вами поделиться небольшим секретом , о котором, кстати, знают не все веб-мастера. Если вы создали и настроили robots.txt, то не думайте, что вы властелин поисковых роботов, знайте и помните, что он позволяет лишь частично управлять индексированием сайта .

Наш отечественный поисковый гигант Яндекс строго и ответственно соблюдает прописанные инструкции и правила, а вот американский товарищ Гугл, не добросовестно к этому относится и в легкую может проиндексировать страницы и разделы на которых стоит запрет, а потом ещё и добавить в поисковую выдачу.

Где находится файл robots.txt и как его создать?

Этот товарищ располагается в корневом каталоге сайта , для наглядности смотрите ниже картинку со скриншотом моего каталога на сервере. Если вы устанавливаете WordPress на хостинге через функцию «Установка приложений», об этом я рассказывал в статье « Как установить WordPress на хостинг? Полное руководство по установке! », то файл роботс создается автоматически по умолчанию в стандартном, не доработанном виде.

Создается он на рабочем столе, с помощью обычного, текстового блокнота, который имеет расширение файла .txt. Кстати, рекомендую использовать прогу Notepad++ для редактирования и создания текстовых файлов, очень удобно.

Закачать на сервер его можно, например, с помощью ftp используя программы Filezilla или Total Commander . Если вы хотите посмотреть, как выглядит данный файл на каком-то сайте или на своем, то наберите в браузере адрес http://имя_сайта/robots.txt.

8 популярных ошибок, которые допускают начинающие веб-мастера

1.Путаница в написании правил. Пожалуй это самая популярная ошибка в рунете.

Неправильный вариант:

User-agent: /

Disallow: Googlebot

Правильный вариант:

User-agent: Googlebot

Disallow: /

2. Написание целого списка папок в одном правиле . Некоторые ребята умудряются сделать запрет индексации папок в одной строчке.

Неправильный вариант:

Disallow: /wp-admin /wp-login.php /xmlrpc.php /wp-includes

Правильный вариант:

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /xmlrpc.php

3. Имя файла роботс большими буквами . Здесь я думаю понятно, всегда пишем название только маленькими буквами.

Неправильный вариант:

Robots.txt

ROBOTS.TXT

Правильный вариант:

robots.txt

4. Написание пустой строки в директиве User-agent

Неправильный вариант:

User-agent:

Disallow:

Правильный вариант:

User-agent: *

Disallow:

5. Неправильно написанная ссылка в правиле «Host» . Нужно писать линк без указания протокола http:// и без слеша на конце /

Неправильный вариант:

User-agent: Yandex

Disallow: /wp-content/plugins

Host: http://www.ivan-maslov.ru/

Правильный вариант:

User-agent: Yandex

Disallow: /wp-content/plugins

Host: www.ivan-maslov.ru

6. Написание длинной колбасы с перечислением каждого файла . Чтобы этого не случилось, просто закрываем папку от индексации целиком.

Неправильный вариант:

User-agent: Yandex

Disallow: /Brend/Armani.html

Disallow: /Brend/Chanel.html

Disallow: /Tur/Thailand.html

Disallow: /Tur/Vietnam.html

Disallow: /Tur/Egypt.html

Правильный вариант:

User-agent: Yandex

Disallow: /Brend/

Disallow: /Tur/

7. Отсутствие в роботсе правила Disallow . По общепринятому стандарту поисковых систем, данная инструкция является обязательной, если вы не собираетесь ничего запрещать, тогда просто оставьте её пустой. Ок?

Неправильный вариант:

User-agent: Googlebot

Host: www.ivan-maslov.ru

Правильный вариант:

User-agent: Googlebot

Disallow:

Host: www.ivan-maslov.ru

8. Не указывают слеши в каталогах

Неправильный вариант:

User-agent: Googlebot

Disallow: ivan

Правильный вариант:

User-agent: Googlebot

Disallow: /ivan/

Правильный и проверенный robots.txt для сайта WordPress

А сейчас, я предлагаю вам ознакомится содержанием кода файла роботс, разобраться в каждой его директиве. а затем скачать готовый вариант.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads Crawl-delay: 5 Host: ivan-maslov.ru Sitemap: http:///sitemap.xml Sitemap: http:///sitemap.xml.gz User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: Mail.Ru Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s=* Disallow: /*?* Disallow: /search* Disallow: */trackback/ Disallow: */*/trackback Disallow: */feed Disallow: */*/feed/*/ Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /tag Disallow: /category/*/* Allow: /wp-content/uploads User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ User-agent: Mediapartners-Google Disallow: User-Agent: YaDirectBot Disallow:

>> Скачать файл robots.txt для сайта WordPress

Описание значения строк файла robots.txt:

« User-agent: * » — правила, прописанные ниже будут относится ко всем поисковым системам и их роботам, кроме Яндекса и Google « User-agent: Yandex » — правила, прописанные ниже будут относится к поисковому гиганту Яндекс и всем его поисковым роботам (ПР) « User-agent: Googlebot » — правила, прописанные ниже будут относится к поисковому гиганту Гугл и всем его ПР « User-agent: Mail.Ru » — правила, прописанные ниже будут относится к поисковому гиганту Майл ру и всем его ПР « Disallow :» — условие запрещающее индексирование « Allow: » — условие разрешающее индексирование « *» —  звездочка означает допущение абсолютно любой и даже пустой последовательности символов « $» — дает возможность делать исключение для определенных файлов и каталогов в правиле « Host: vas-domen.ru » — данное правило используется только стариком Яндексом и указывает ему главное зеркало вашего сайта (www.sait.ru или sait.ru) « User-agent: Googlebot-Image » —  правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием изображений « User-agent: YandexImages » —  правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием изображений « User-agent: Mediapartners-Google » — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием страниц и объявлений с рекламой AdSense. Напомню, что мы прописали там «Disallow:» это позволит подбирать более релевантные объявления и избежать ошибок индексирования. Если вы в будущем собираетесь размещать рекламу от Гугла или уже размещаете, то прописывайте такие правила сразу, чтобы на верочку было все ок, а то потом забудете. « User-Agent: YaDirectBot » — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием страниц и объявлений с рекламой Яндекс Директ. В остальном все тоже самое, что писал в предыдущем пункте. « Sitemap: » — правило, в котором указывается ссылка на местоположение файла с картой сайта sitemap.xml. « Crawl-delay :» — полезное правило, которое снижает нагрузку на сервер, когда ПР очень часто заходят в гости к вашему сайту, здесь мы задаем время в секундах и говорим этим неугомонным товарищам, чтобы сканировали наш веб-ресурс не чаще, чем 1 раз в 5 секунд.

Ну вот мы и рассмотрели значение всех строк, если этой информации вам мало, то дополнительно рекомендую почитать справку Яндекса . Кстати, скачать полностью готовый файл robots.txt для сайта WordPress, можно — здесь . Не забудьте поменять в нём строчки:

ссылку на Sitemap

главное зеркало web-ресурса в директиве «Host:»

После того, как вы сделали все настройки и загрузили свой роботс в корневую папку сайта, обязательно проверьте его на ошибки , если вы скачали мой вариант, то можете не проверять, я уже это сделал, там всё чётко

Вот на всякий случай парочка классных сервисов для анализа и проверки на ошибки файла robots.txt:

Проверяем robots.txt в инструментах Яндекс Вебмастер: http://webmaster.yandex.ru/robots.xml

Проверяем robots.txt в интсрументах Гугла: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru

Ну и напоследок, хочу обратить ваше внимание на то, что файл robots.txt для сайта WordPress важное звено в seo оптимизации , между вашим web-ресурсом и поисковыми роботами. С его помощью, вы можете влиять на индексацию сайта . Друзья, помните об этом и используйте свой роботс грамотно, ведь в seo не бывает мелочей.

Остались вопросы — пишите их в комментах, постараюсь ответить в ближайшее время. А какие инструкции используете вы в своем файле robots.txt из выше перечисленных?

Если вам понравилась статья, рекомендуйте её своим друзьям и подписывайтесь на рассылку блога. Увидимся в следующих постах, до связи ????

С уважением, Иван Маслов

Карта
rss