Различия

Показаны различия между двумя версиями страницы.


Предыдущая версия
robots [2025/07/06 12:39] (текущий) – внешнее изменение 127.0.0.1
Строка 1: Строка 1:
 +====== Современный работающий пример robots.txt для Wordpress  ======
 +~~Title: Настройка robots.txt для SEO ~~
 +
 +{{htmlmetatags>
 +metatag-description=(Файл robots.txt, ограничения доступа к содержимому роботам, должен находится в корневом каталоге вашего сайта.)
 +}}
 +
 +Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP.
 +
 +**robots.txt** — файл ограничения доступа к содержимому роботам на [[HTTP|HTTP]]- сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт [[Sitemaps]], который служит прямо противоположной цели: облегчать роботам доступ к содержимому.
 +{{ ::robots.txt.jpg?nolink |}}
 +
 +===== Обязательно ли использовать на сайте файл robots.txt? =====
 +
 +Использование файла добровольно. Когда робот Googlebot посещает сайт, сначала он пытается найти файл robots.txt. Отсутствие файла robots.txt, метатегов robots или HTTP-заголовков X-Robots-Tag обычно не влияет на нормальное сканирование и индексирование сайта.
 +
 +Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.
 +
 +Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.
 +
 +В файле указываются директивы User-agent, Disallow и Allow, которые задают правила, какие роботы и какие части сайта они могут или не могут индексировать. Однако директивы в этом файле являются рекомендациями и не гарантируют полное исключение страниц из индексации, особенно если на них есть внешние ссылки.
 +
 +<panel type="danger">⚠️ Важно разместить файл в корневом каталоге сайта, чтобы он был доступен по адресу https://mysite.com/robots.txt. Правильная настройка влияет на индексацию сайта и защиту приватных разделов.</panel>
 +==== Синтаксис ====
 +
 +Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:<file>
 +<поле>:<необязательный пробел><значение><необязательный пробел>
 +</file> где поле — это либо User-agent, либо Disallow.
 +
 +Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.
 +<panel type="default">На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. [[URL|URL]] -ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.</panel>
 +
 +  * Каждая группа User-Agent должна быть разделены пустой строкой.
 +  * Символ хэш (#) может быть использован для комментариев в файле robots.txt: для текущей строки всё что после # будет игнорироваться.
 +  * Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.
 +
 +Регулярные выражения: для более гибкой настройки своих директив вы можете использовать 2 символа
 +
 +  * * (звездочка) – означает любую последовательность символов
 +  * $ (знак доллара) – означает конец строки
 +===== Как закрыть сайт от индексирования поисковыми системами Google, Яндекс? =====
 +
 +Запрет доступа всех роботов  ко всему сайту в файле robots.txt - это и есть закрытие от индексирования сайта
 +<code>
 +User-agent: *
 +Disallow: /
 +</code>
 +<panel type="danger">Обратите внимание, что **правила в robots.txt являются рекомендациями, а не строгими запретами**. Большинство поисковых систем будут следовать этим указаниям, но они не обязаны этого делать. Если вам нужно строго контролировать доступ к определенным страницам, лучше использовать другие методы, такие как [[autentifikacija|аутентификация]] или [[http-autentifikacija|настройки доступа]] на уровне сервера.</panel>
 +Поэтому добавляем в мета-тег в раздел head.
 +<file html>
 +<meta name="robots" content="noindex, nofollow"/>
 +</file>
 +Вот теперь мы точно закрыли сайт от индексирования! Удачно вам выпасть из индекса! =)
 +
 +
 +
 +===== Как полностью приостановить сканирование моего сайта на некоторое время в ПС Google? =====
 +Официальное руководство Google рекомендует:
 +
 +Для временной приостановки сканирования всех URL следует отобразить для них код ответа HTTP 503 (в том числе и для файла robots.txt). Робот Google будет периодически пытаться получить доступ к файлу robots.txt до тех пор, пока он не станет вновь доступен. Не рекомендуется запрещать сканирование путем внесения изменений в файл robots.txt.
 +===== Проверка синтаксиса robots.txt =====
 +
 +Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.
 +
 +    * [[http://webmaster.yandex.ru/robots.xml|Служба Яндекса (выполняет только проверку синтаксиса)]]
 +    * [[https://search.google.com/search-console/not-verified?original_url=/search-console/settings/robots-txt|Google webmasters tools]] (позволяет проверить разрешения для каждой отдельной страницы)
 +
 +===== Как запретить индексацию динамические страниц? =====
 +Добавить для всех ботов запрет на индексацию URL в которых есть знак вопроса.
 +
 +<file bash>
 +User-agent: *
 +...
 +Disallow: /*?*
 +Disallow: /*&*
 +</file>
 +Эти правила говорят поисковым системам не индексировать страницы, URL которых содержит ? или &, что обычно является признаком динамически генерируемой страницы.
 +===== Рабочий СЛОЖНЫй пример robots.txt в 2020 году для Wordpess =====
 +
 +Он достаточно сложный и лучше его использовать в образовательных целях. Я обычно использую более простой вариант robots.txt.
 +
 +Не забудьте заменить your_domen на имя вашего домена
 +<file bash robots.txt>
 +User-agent: *
 +Disallow: /wp-login.php
 +Disallow: /wp-register.php
 +Disallow: /xmlrpc.php
 +Disallow: /wp-admin
 +Disallow: /shop
 +Disallow: /?s=
 +Disallow: /cgi-bin
 +Disallow: /trackback
 +Disallow: */trackback
 +Disallow: */*/trackback
 +Disallow: */feed
 +Disallow: */feed/*
 +Disallow: /*?*
 +Allow: /wp-content/uploads/
 +Allow: /wp-content/*.js$
 +Allow: /wp-content/*.css$
 +Allow: /wp-includes/*.js$
 +Allow: /wp-includes/*.css$
 +Allow: /wp-content/themes/*.css
 +Allow: /wp-content/plugins/*.css
 +Allow: /wp-content/uploads/*.css
 +Allow: /wp-content/themes/*.js
 +Allow: /wp-content/plugins/*.js
 +Allow: /wp-content/uploads/*.js
 +Allow: /wp-includes/css/
 +Allow: /wp-includes/js/
 +Allow: /wp-includes/images/
 +Allow: /wp-content/uploads/
 +Allow: /wp-admin/admin-ajax.php
 +
 +User-agent: Yandex
 +Disallow: /wp-login.php
 +Disallow: /wp-register.php
 +Disallow: /xmlrpc.php
 +Disallow: /wp-admin
 +Disallow: /shop/
 +Disallow: /?s=
 +Disallow: /cgi-bin
 +Disallow: /trackback
 +Disallow: */trackback
 +Disallow: */*/trackback
 +Disallow: */feed
 +Disallow: */feed/*
 +Disallow: /*?*
 +Allow: /wp-content/uploads/
 +Allow: /wp-content/*.js$
 +Allow: /wp-content/*.css$
 +Allow: /wp-includes/*.js$
 +Allow: /wp-includes/*.css$
 +Allow: /wp-content/themes/*.css
 +Allow: /wp-content/plugins/*.css
 +Allow: /wp-content/uploads/*.css
 +Allow: /wp-content/themes/*.js
 +Allow: /wp-content/plugins/*.js
 +Allow: /wp-content/uploads/*.js
 +Allow: /wp-includes/css/
 +Allow: /wp-includes/js/
 +Allow: /wp-includes/images/
 +Allow: /wp-content/uploads/
 +Allow: /wp-admin/admin-ajax.php
 +
 +User-agent: Googlebot-Image
 +Allow: /wp-content/uploads/
 +
 +User-agent: YandexImages
 +Allow: /wp-content/uploads/
 +
 +Host: https://your_domen/
 +Sitemap: https://your_domen/sitemap_index.xml
 +</file>
 +===== Рабочий ПРОСТОЙ пример robots.txt в 2020 году для Wordpess =====
 +
 +<note tip>Используешь [[Wordpress|Wordpress]]? Я тебе рекомендую использовать этот [[https://wow2.top/clearfy-pro/|супер-мега-функциональный плагин]] в том числе и для создания robots.txt</note>
 +
 +
 +Директива host уже не нужна! 12 марта 2018 года Яндекс в своем блоге для вебмастеров анонсировал скорое прекращение поддержки директивы Host, а уже 20 марта констатировал сей факт, сопроводив его новыми подробными инструкциями по переезду с помощью [[url_redirection|301-го редиректа]]. 
 +
 +Яндекс наконец-то хоть как-то унифицирует свою деятельность, а то достал своими заморочками.
 +<file bash robots.txt>
 +User-agent: *
 +Disallow: /wp-admin
 +Disallow: /wp-includes
 +Disallow: /wp-content/plugins
 +Disallow: /wp-content/cache
 +Disallow: /wp-json/
 +Disallow: /xmlrpc.php
 +Disallow: /readme.html
 +Disallow: /*?
 +Disallow: /?s=
 +Allow: /*.css
 +Allow: /*.js
 +Sitemap: https://catsplanet.club/sitemap_index.xml
 +</file>
 +
  

📌 Удобный подбор VPS по параметрам доступен на DIEGfinder.com - официальном инструменте проекта DIEG. Это часть единой экосистемы, созданной для того, чтобы помочь быстро найти подходящий VPS/VDS сервер для любых задач хостинга.

📌 Для тестирования скриптов, установщиков VPN и Python-ботов рекомендуем использовать надежные VPS на короткий срок. Подробнее о быстрой аренде VPS для экспериментов - читайте здесь.

💥 Подпишись в Телеграм 💥 и задай вопрос по сайтам и хостингам бесплатно!