Почему это важно
Robots.txt – это текстовый файл с набором инструкций для поисковых роботов, который управляет правилами индексации сайтов. С его помощью можно обозначить для поисковых систем, какие страницы стоит проиндексировать в первую очередь (например, раздел «Новости компании», так как он часто обновляется) и какие страницы закрыты для индексирования (например, результаты внутреннего поиска, так как это может привести к дублированию данных в поисковой системе и ухудшению показателей ранжирования сайта). Подробней о дубликатах данных читайте в Рыбе «Дублируемый контент – как вовремя найти и обезвредить дубли».
Файл Robots.txt должен находиться в корне сайта и быть доступен по адресу:
http://site.ru/robots.txt
Если у вашего сайта несколько поддоменов (это сайты 3-го уровня, например: http://ru.site.com), то для каждого поддомена следует писать свой robots.txt.
Как создать robots.txt?
Robots.txt – простой текстовый файл. Внимание: имя файла должно содержать только маленькие буквы (то есть имена «Robots.txt» и «ROBOTS.TXT» - неправильные). Ещё одно ограничение robots.txt – размер файла. У Google это до 500 кб, у Яндекса до 32 кб. Если ваш robots.txt превышает эти размеры, то он может работать некорректно.
Более подробные требования к оформлению файла прописаны в справках поисковых систем: для Google и для «Яндекс».
Какие директивы существуют?
Директива «User-agent»
Директива, указывающая, для какого поискового робота написаны правила.
Примеры использования:
User-agent: * – для всех поисковых роботов
User-agent: Yandex – для поискового робота Yandex
User-agent: Googlebot – для поискового робота Google
User-agent: Yahoo – для поискового робота Yahoo
Рекомендуется использовать:
User-agent: *
Ниже мы рассмотрим примеры директив, как и для чего стоит их использовать.
Директива «Disallow»
Директива, запрещающая индексацию определённых файлов, страниц или категорий.
Эта директива применяется при необходимости закрыть дублирующие страницы (например, если это интернет-магазин, то страницы сортировки товаров, или же, если это новостной портал, то страницы печати новостей).
Также данная директива применима к «мусорным для поисковых роботов страницам». Такие страницы, как: «регистрация», «забыли пароль», «поиск» и тому подобные, – не несут полезности для поискового робота.
Примеры использования:
Disallow: /*sort – при помощи спец символа «*», мы даём понять поисковому роботу, что любой url, содержащий «SORT», будет исключён из индекса поисковой системы. Таким образом, в интернет-магазине мы сразу избавимся от всех страниц сортировки (учтите, что в некоторых CMS системах построение url сортировок может отличаться).
Disallow: /*print.php – аналогично сортировке мы исключаем все страницы «версия для печати».
Disallow: */telefon/ – в данном случае мы исключаем категорию «телефон», то есть url, содержащие «/telefon/».
Пример исключённых в данном случае url:
Пример не исключённых url в данном случае:
Disallow: /search – в данном случае мы исключим все страницы поиска, url которых начинаются с «/search». Давайте рассмотрим на примере исключенных страниц поиска:
Примеры не исключённых url в данном случае:
Disallow: / – закрыть весь сайт от индексации.
Рекомендуется использовать Disallow со специальным символом «*» для исключения большого количества страниц дублей.
Директива «Allow»
Директива, разрешающая индексировать страницы (по умолчанию поисковой системе открыт весь сайт для индексации). Данная директива используется с директивой «Disallow».
Важно: директива «allow» всегда должна быть выше директивы «disallow».
Пример №1 использования директив:
Allow: /user/search
Disallow: *search
В данном случае мы запрещаем поисковому роботу индексировать страницы «поиска по сайту», за исключением страниц «поиска пользователей».
Пример №2 использование директив:
Allow: /nokia
Disallow: *telefon
В данном случае, если url-структура страниц такого типа:
Мы закрываем все телефоны от индексации, за исключением телефонов «nokia».
Такая методика, как правило, редко используется.
Директива «sitemap»
Данная директива указывает поисковому роботу путь к карте сайта в формате «XML».
Директива должна содержать в себе полный путь к файлу.
Sitemap: http://site.ru/sitemap.xml
Рекомендации по использованию данной директивы: проверьте правильность указанного адреса.
Директива «Host»
Данная директива позволяет указать главное зеркало сайта. Ведь для поисковой системы это два разных сайта.
В данной директиве необходимо указывать главное зеркало сайта в виде:
Host: www.site.ru
Либо:
Host: site.ru
Пример полноценного robots.txt
User-Agent: *
Disallow: /cgi-bin
Disallow: /*sort=*
Sitemap: http://www.site.ru/sitemap.xml
Host: www.site.ru
Корректность работы файла проверяется согласно правилам поисковых систем, в которых указаны правильные и актуальные директивы (ПС могут обновлять требования, поэтому важно следить за тем, чтобы ваш robots.txt оставался актуальным). Конечную проверку файла можно провести с помощью верификатора. В Google – это robots.txt Tester в панели инструментов для веб-мастеров, в ПС «Яндекс» - Анализ robots.txt.
Выводы
Инструкция robots.txt – важный момент в процессе оптимизации сайта. Файл позволяет указать поисковому роботу, какие страницы не следует индексировать. Это, в свою очередь, позволяет ускорить индексации нужных страниц, отчего повышается общая скорость индексации сайта.
Необходимо помнить, что robots.txt – это не указания, а только рекомендации поисковым системам.