Инструменты пользователя

Инструменты сайта


robots

Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

robots [2019/02/11 21:12]
robots [2020/06/13 13:46] (текущий)
Строка 1: Строка 1:
 +====== Современный работающий пример robots.txt для Wordpress  ======
 +~~Title: Настройка robots.txt для SEO ~~
 +
 +{{htmlmetatags>
 +metatag-description=(Файл robots.txt, ограничения доступа к содержимому роботам, должен находится в корневом каталоге вашего сайта.)
 +}}
 +
 +Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP.
 +
 +**robots.txt** — файл ограничения доступа к содержимому роботам на [[HTTP]]- сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт [[Sitemaps]], который служит прямо противоположной цели: облегчать роботам доступ к содержимому.
 +{{ ::robots.txt.jpg?nolink |}}
 +Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.
 +
 +Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.
 +
 +Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:<file>
 +<поле>:<необязательный пробел><значение><необязательный пробел>
 +</file> где поле — это либо User-agent, либо Disallow.
 +
 +Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.
 +<note important>На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. [[URL]] -ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.</note>
 +
 +===== Примеры =====
 +  * **Запрет доступа всех роботов ко всему сайту**:
 +<code>
 +User-agent: *
 +Disallow: /
 +</code>
 +  * **Запрет доступа определенного робота к каталогу /private/**:
 +<code>
 +User-agent: googlebot
 +Disallow: /private/
 +</code>
 +  * **robots.txt для [[http://wiki.dieg.info/dokuwiki#dokuwiki_sitemapxml_i_nastrojka_jandeks|DokuWiki]] и Яндекса**
 +  * Разрешить доступ всех роботов ко всему сайту<file bash robots.txt>
 +User-agent: *
 +Allow: /
 +</file>
 +
 +
 +====== Проверка синтаксиса robots.txt ======
 +
 +Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.
 +
 +    * [[http://webmaster.yandex.ru/robots.xml|Служба Яндекса (выполняет только проверку синтаксиса)]] (рус.)
 +    * [[https://www.google.com/webmasters/tools/siteoverview?hl=ru|Google webmasters tools]] (позволяет проверить разрешения для каждой отдельной страницы) (рус.)
 +
 +Существует специализированная поисковая система [[http://botseer.ist.psu.edu|BotSeer]], которая позволяет осуществлять поиск по файлам robots.txt.
 +
 +====== Рабочий СЛОЖНЫй пример robots.txt в 2020 году для Wordpess ======
 +
 +Он достаточно сложный и лучше его использовать в образовательных целях. Я обычно использую более простой вариант robots.txt.
 +
 +Не забудьте заменить your_domen на имя вашего домена
 +<file bash robots.txt>
 +User-agent: *
 +Disallow: /wp-login.php
 +Disallow: /wp-register.php
 +Disallow: /xmlrpc.php
 +Disallow: /wp-admin
 +Disallow: /shop
 +Disallow: /?s=
 +Disallow: /cgi-bin
 +Disallow: /trackback
 +Disallow: */trackback
 +Disallow: */*/trackback
 +Disallow: */feed
 +Disallow: */feed/*
 +Disallow: /*?*
 +Allow: /wp-content/uploads/
 +Allow: /wp-content/*.js$
 +Allow: /wp-content/*.css$
 +Allow: /wp-includes/*.js$
 +Allow: /wp-includes/*.css$
 +Allow: /wp-content/themes/*.css
 +Allow: /wp-content/plugins/*.css
 +Allow: /wp-content/uploads/*.css
 +Allow: /wp-content/themes/*.js
 +Allow: /wp-content/plugins/*.js
 +Allow: /wp-content/uploads/*.js
 +Allow: /wp-includes/css/
 +Allow: /wp-includes/js/
 +Allow: /wp-includes/images/
 +Allow: /wp-content/uploads/
 +Allow: /wp-admin/admin-ajax.php
 +
 +User-agent: Yandex
 +Disallow: /wp-login.php
 +Disallow: /wp-register.php
 +Disallow: /xmlrpc.php
 +Disallow: /wp-admin
 +Disallow: /shop/
 +Disallow: /?s=
 +Disallow: /cgi-bin
 +Disallow: /trackback
 +Disallow: */trackback
 +Disallow: */*/trackback
 +Disallow: */feed
 +Disallow: */feed/*
 +Disallow: /*?*
 +Allow: /wp-content/uploads/
 +Allow: /wp-content/*.js$
 +Allow: /wp-content/*.css$
 +Allow: /wp-includes/*.js$
 +Allow: /wp-includes/*.css$
 +Allow: /wp-content/themes/*.css
 +Allow: /wp-content/plugins/*.css
 +Allow: /wp-content/uploads/*.css
 +Allow: /wp-content/themes/*.js
 +Allow: /wp-content/plugins/*.js
 +Allow: /wp-content/uploads/*.js
 +Allow: /wp-includes/css/
 +Allow: /wp-includes/js/
 +Allow: /wp-includes/images/
 +Allow: /wp-content/uploads/
 +Allow: /wp-admin/admin-ajax.php
 +
 +User-agent: Googlebot-Image
 +Allow: /wp-content/uploads/
 +
 +User-agent: YandexImages
 +Allow: /wp-content/uploads/
 +
 +Host: https://your_domen/
 +Sitemap: https://your_domen/sitemap_index.xml
 +</file>
 +====== Рабочий ПРОСТОЙ пример robots.txt в 2020 году для Wordpess ======
 +
 +<note tip>Используешь Wordpress? Я тебе рекомендую использовать этот [[https://wow2.top/clearfy-pro/|супер-мега-функциональный плагин]] в том числе и для создания robots.txt</note>
 +
 +
 +Директива host уже не нужна! 12 марта 2018 года Яндекс в своем блоге для вебмастеров анонсировал скорое прекращение поддержки директивы Host, а уже 20 марта констатировал сей факт, сопроводив его новыми подробными инструкциями по переезду с помощью [[url_redirection|301-го редиректа]]. 
 +
 +Яндекс наконец-то хоть как-то унифицирует свою деятельность, а то достал своими заморочками.
 +<file bash robots.txt>
 +User-agent: *
 +Disallow: /wp-admin
 +Disallow: /wp-includes
 +Disallow: /wp-content/plugins
 +Disallow: /wp-content/cache
 +Disallow: /wp-json/
 +Disallow: /xmlrpc.php
 +Disallow: /readme.html
 +Disallow: /*?
 +Disallow: /?s=
 +Allow: /*.css
 +Allow: /*.js
 +Sitemap: https://catsplanet.club/sitemap_index.xml
 +</file>
 +
 +===== Ссылки =====
 +
 +  * [[wpru>robots.txt]]
 +  * [[wpru>Википедия:Самые активные боты]]