Инструменты пользователя

Инструменты сайта


Боковая панель

.

robots

Современный работающий пример robots.txt для Wordpress

Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP.

robots.txt — файл ограничения доступа к содержимому роботам на Методы и структура протокола HTTP- сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому. Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent, либо Disallow.

Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.

На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Что такое ссылка URL -ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Как закрыть сайт от индексирования поисковыми системами Google, Яндекс?

Запрет доступа всех роботов ко всему сайту в файле robots.txt - это и есть закрытие от индексирования сайта

User-agent: *
Disallow: /
Но директивы которые прописываются в robots.txt это рекомендации поисковому роботу, а не строгие правила. Известны случаи когда сайт закрытый в robots.txt попадал в индекс.

Поэтому добавляем в мета-тег в раздел head.

<meta name="robots" content="noindex, nofollow"/>

Вот теперь мы точно закрыли сайт от индексирования! Удачно вам выпасть из индекса! =)

  • Запрет доступа определенного робота к каталогу /private/:
User-agent: googlebot
Disallow: /private/
  • robots.txt для DokuWiki и Яндекса
  • Разрешить доступ всех роботов ко всему сайту
    robots.txt
    User-agent: *
    Allow: /

Проверка синтаксиса robots.txt

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.

Существует специализированная поисковая система BotSeer, которая позволяет осуществлять поиск по файлам robots.txt.

Рабочий СЛОЖНЫй пример robots.txt в 2020 году для Wordpess

Он достаточно сложный и лучше его использовать в образовательных целях. Я обычно использую более простой вариант robots.txt.

Не забудьте заменить your_domen на имя вашего домена

robots.txt
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /shop
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */feed
Disallow: */feed/*
Disallow: /*?*
Allow: /wp-content/uploads/
Allow: /wp-content/*.js$
Allow: /wp-content/*.css$
Allow: /wp-includes/*.js$
Allow: /wp-includes/*.css$
Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Allow: /wp-includes/images/
Allow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php
 
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /shop/
Disallow: /?s=
Disallow: /cgi-bin
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */feed
Disallow: */feed/*
Disallow: /*?*
Allow: /wp-content/uploads/
Allow: /wp-content/*.js$
Allow: /wp-content/*.css$
Allow: /wp-includes/*.js$
Allow: /wp-includes/*.css$
Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Allow: /wp-includes/images/
Allow: /wp-content/uploads/
Allow: /wp-admin/admin-ajax.php
 
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: YandexImages
Allow: /wp-content/uploads/
 
Host: https://your_domen/
Sitemap: https://your_domen/sitemap_index.xml

Рабочий ПРОСТОЙ пример robots.txt в 2020 году для Wordpess

Используешь Wordpress? Я тебе рекомендую использовать этот супер-мега-функциональный плагин в том числе и для создания robots.txt

Директива host уже не нужна! 12 марта 2018 года Яндекс в своем блоге для вебмастеров анонсировал скорое прекращение поддержки директивы Host, а уже 20 марта констатировал сей факт, сопроводив его новыми подробными инструкциями по переезду с помощью 301-го редиректа.

Яндекс наконец-то хоть как-то унифицирует свою деятельность, а то достал своими заморочками.

robots.txt
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Sitemap: https://catsplanet.club/sitemap_index.xml

Ссылки

Kwork.ru - услуги фрилансеров от 500 руб.
robots.txt · Последнее изменение: 2020/08/19 23:12 — darkfire