Различия
Показаны различия между двумя версиями страницы.
Предыдущая версия | |||
— | robots [2025/07/06 12:39] (текущий) – внешнее изменение 127.0.0.1 | ||
---|---|---|---|
Строка 1: | Строка 1: | ||
+ | ====== Современный работающий пример robots.txt для Wordpress | ||
+ | ~~Title: Настройка robots.txt для SEO ~~ | ||
+ | |||
+ | {{htmlmetatags> | ||
+ | metatag-description=(Файл robots.txt, ограничения доступа к содержимому роботам, | ||
+ | }} | ||
+ | |||
+ | Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP. | ||
+ | |||
+ | **robots.txt** — файл ограничения доступа к содержимому роботам на [[HTTP|HTTP]]- сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта / | ||
+ | {{ :: | ||
+ | |||
+ | ===== Обязательно ли использовать на сайте файл robots.txt? ===== | ||
+ | |||
+ | Использование файла добровольно. Когда робот Googlebot посещает сайт, сначала он пытается найти файл robots.txt. Отсутствие файла robots.txt, метатегов robots или HTTP-заголовков X-Robots-Tag обычно не влияет на нормальное сканирование и индексирование сайта. | ||
+ | |||
+ | Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин. | ||
+ | |||
+ | Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, | ||
+ | |||
+ | В файле указываются директивы User-agent, Disallow и Allow, которые задают правила, | ||
+ | |||
+ | <panel type=" | ||
+ | ==== Синтаксис ==== | ||
+ | |||
+ | Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: | ||
+ | < | ||
+ | </ | ||
+ | |||
+ | Сравнение производится методом простого поиска подстроки. Например, | ||
+ | <panel type=" | ||
+ | |||
+ | * Каждая группа User-Agent должна быть разделены пустой строкой. | ||
+ | * Символ хэш (#) может быть использован для комментариев в файле robots.txt: для текущей строки всё что после # будет игнорироваться. | ||
+ | * Каталоги и имена файлов чувствительны к регистру: | ||
+ | |||
+ | Регулярные выражения: | ||
+ | |||
+ | * * (звездочка) – означает любую последовательность символов | ||
+ | * $ (знак доллара) – означает конец строки | ||
+ | ===== Как закрыть сайт от индексирования поисковыми системами Google, Яндекс? | ||
+ | |||
+ | Запрет доступа всех роботов | ||
+ | < | ||
+ | User-agent: * | ||
+ | Disallow: / | ||
+ | </ | ||
+ | <panel type=" | ||
+ | Поэтому добавляем в мета-тег в раздел head. | ||
+ | <file html> | ||
+ | <meta name=" | ||
+ | </ | ||
+ | Вот теперь мы точно закрыли сайт от индексирования! Удачно вам выпасть из индекса! =) | ||
+ | |||
+ | |||
+ | |||
+ | ===== Как полностью приостановить сканирование моего сайта на некоторое время в ПС Google? ===== | ||
+ | Официальное руководство Google рекомендует: | ||
+ | |||
+ | Для временной приостановки сканирования всех URL следует отобразить для них код ответа HTTP 503 (в том числе и для файла robots.txt). Робот Google будет периодически пытаться получить доступ к файлу robots.txt до тех пор, пока он не станет вновь доступен. Не рекомендуется запрещать сканирование путем внесения изменений в файл robots.txt. | ||
+ | ===== Проверка синтаксиса robots.txt ===== | ||
+ | |||
+ | Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб. | ||
+ | |||
+ | * [[http:// | ||
+ | * [[https:// | ||
+ | |||
+ | ===== Как запретить индексацию динамические страниц? | ||
+ | Добавить для всех ботов запрет на индексацию URL в которых есть знак вопроса. | ||
+ | |||
+ | <file bash> | ||
+ | User-agent: * | ||
+ | ... | ||
+ | Disallow: /*?* | ||
+ | Disallow: /*&* | ||
+ | </ | ||
+ | Эти правила говорят поисковым системам не индексировать страницы, | ||
+ | ===== Рабочий СЛОЖНЫй пример robots.txt в 2020 году для Wordpess ===== | ||
+ | |||
+ | Он достаточно сложный и лучше его использовать в образовательных целях. Я обычно использую более простой вариант robots.txt. | ||
+ | |||
+ | Не забудьте заменить your_domen на имя вашего домена | ||
+ | <file bash robots.txt> | ||
+ | User-agent: * | ||
+ | Disallow: / | ||
+ | Disallow: / | ||
+ | Disallow: /xmlrpc.php | ||
+ | Disallow: /wp-admin | ||
+ | Disallow: /shop | ||
+ | Disallow: /?s= | ||
+ | Disallow: /cgi-bin | ||
+ | Disallow: /trackback | ||
+ | Disallow: */trackback | ||
+ | Disallow: */ | ||
+ | Disallow: */feed | ||
+ | Disallow: */feed/* | ||
+ | Disallow: /*?* | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | |||
+ | User-agent: Yandex | ||
+ | Disallow: / | ||
+ | Disallow: / | ||
+ | Disallow: /xmlrpc.php | ||
+ | Disallow: /wp-admin | ||
+ | Disallow: /shop/ | ||
+ | Disallow: /?s= | ||
+ | Disallow: /cgi-bin | ||
+ | Disallow: /trackback | ||
+ | Disallow: */trackback | ||
+ | Disallow: */ | ||
+ | Disallow: */feed | ||
+ | Disallow: */feed/* | ||
+ | Disallow: /*?* | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | Allow: / | ||
+ | |||
+ | User-agent: Googlebot-Image | ||
+ | Allow: / | ||
+ | |||
+ | User-agent: YandexImages | ||
+ | Allow: / | ||
+ | |||
+ | Host: https:// | ||
+ | Sitemap: https:// | ||
+ | </ | ||
+ | ===== Рабочий ПРОСТОЙ пример robots.txt в 2020 году для Wordpess ===== | ||
+ | |||
+ | <note tip> | ||
+ | |||
+ | |||
+ | Директива host уже не нужна! 12 марта 2018 года Яндекс в своем блоге для вебмастеров анонсировал скорое прекращение поддержки директивы Host, а уже 20 марта констатировал сей факт, сопроводив его новыми подробными инструкциями по переезду с помощью [[url_redirection|301-го редиректа]]. | ||
+ | |||
+ | Яндекс наконец-то хоть как-то унифицирует свою деятельность, | ||
+ | <file bash robots.txt> | ||
+ | User-agent: * | ||
+ | Disallow: /wp-admin | ||
+ | Disallow: / | ||
+ | Disallow: / | ||
+ | Disallow: / | ||
+ | Disallow: /wp-json/ | ||
+ | Disallow: /xmlrpc.php | ||
+ | Disallow: / | ||
+ | Disallow: /*? | ||
+ | Disallow: /?s= | ||
+ | Allow: /*.css | ||
+ | Allow: /*.js | ||
+ | Sitemap: https:// | ||
+ | </ | ||
+ | |||
📌 Удобный подбор VPS по параметрам доступен на DIEGfinder.com - официальном инструменте проекта DIEG. Это часть единой экосистемы, созданной для того, чтобы помочь быстро найти подходящий VPS/VDS сервер для любых задач хостинга.
📌 Для тестирования скриптов, установщиков VPN и Python-ботов рекомендуем использовать надежные VPS на короткий срок. Подробнее о быстрой аренде VPS для экспериментов - читайте здесь.
💥 Подпишись в Телеграм 💥 и задай вопрос по сайтам и хостингам бесплатно!7 Самых Популярных Статей
- Как запустить скрипты и веб-приложения на Python
- Что такое страны TIER 1,2,3
- 7 способов сравнения файлов по содержимому в Windows или Linux
- Установка и тестирование веб-панели HestiaCP
- Nginx простые примеры конфигурации
- top, htop, atop определение загрузки ОС (Load average, LA)
- Использование rsync в примерах
7 Самых Популярных Обзоров
- Хостинг для Python-скриптов и приложений
- ТОП 4 лучших антидетект браузеров (Бесплатные & Платные)
- Подборка купонов (промокоды) на хостинг, антидетект браузеры
- Обзор THE.Hosting (PQ Hosting): надежный хостинг с профессиональной поддержкой
- Хостинг в России
- Хостинг в Европе
- Обзор браузера Dolphin {anty} для мультиаккаунтинга