Чому це важливо
Robots.txt - це текстовий файл з набором інструкцій для пошукових роботів, який управляє правилами індексації сайтів. З його допомогою можна позначити для пошукових систем, які сторінки варто проіндексувати в першу чергу (наприклад, розділ «Новини компанії», так як він часто оновлюється) і які сторінки закриті для індексування (наприклад, результати внутрішнього пошуку, так як це може призвести до дублюванню даних в пошуковій системі і погіршення показників ранжування сайту). Детальніше про дублікати даних читайте в Рибі «Дубльований контент - як вчасно знайти і знешкодити дублі».
Файл Robots.txt повинен знаходитися в корені сайту і бути доступним за адресою:
http://site.ru/robots.txt
Якщо у вашого сайту кілька піддоменів (це сайти третього рівня, наприклад: http://ru.site.com), то для кожного піддомену слід писати свій robots.txt.
Як створити robots.txt?
Robots.txt - простий текстовий файл. Увага: ім'я файлу повинно містити тільки маленькі літери (тобто імена «Robots.txt» і «ROBOTS.TXT» - неправильні). Ще одне обмеження robots.txt - розмір файлу. У Google це до 500 кб, у Яндекса до 32 кб. Якщо ваш robots.txt перевищує ці розміри, то він може працювати некоректно.
Більш детальні вимоги до оформлення файлу прописані в довідках пошукових систем: для Google і для «Яндекс».
Які директиви існують?
Директива «User-agent»
Директива, яка вказує, для якого пошукового робота написані правила.
Приклади використання:
User-agent: * – для всіх пошукових роботів
User-agent: Yandex – для пошукового робота Yandex
User-agent: Googlebot – для пошукового робота Google
User-agent: Yahoo – для пошукового робота Yahoo
Рекомендується використовувати:
User-agent: *
Нижче ми розглянемо приклади директив, як і для чого варто їх використовувати.
Директива «Disallow»
Директива, яка забороняє індексацію певних файлів, сторінок або категорій.
Ця директива застосовується при необхідності закрити дубльовані сторінки (наприклад, якщо це інтернет-магазин, то сторінки сортування товарів, або ж, якщо це новинний портал, то сторінки друку новин).
Також дана директива застосовується до «сміттєвих для пошукових роботів сторінкок». Такі сторінки, як: «реєстрація», «забули пароль», «пошук» і тому подібні, - не несуть користі для пошукового робота.
Приклади використання:
Disallow: /*sort – за допомогою спец символу «*», ми даємо зрозуміти пошуковому роботу, що будь-який url, що містить «SORT», буде виключений з індексу пошукової системи. Таким чином, в інтернет-магазині ми відразу позбудемося всіх сторінок сортування (врахуйте, що в деяких CMS системах побудова url сортувань може відрізнятися).
Disallow: /*print.php – аналогічно сортуванні ми виключаємо всі сторінки «версія для друку».
Disallow: */telefon/ – в даному випадку ми виключаємо категорію «телефон», тобто url, що містять «/ telefon /».
Приклад виключених в даному випадку url:
Приклад не виключених url в даному випадку:
Disallow: /search – в даному випадку ми виключимо всі сторінки пошуку, url яких починаються з «/ search». Давайте розглянемо на прикладі виключених сторінок пошуку:
Приклад не виключених url в даному випадку:
Disallow: / – закрити весь сайт від індексації.
Рекомендується використовувати Disallow зі спеціальним символом «*» для виключення великої кількості сторінок дублів.
Директива «Allow»
Директива, що дозволяє індексувати сторінки (за замовчуванням пошуковій системі відкритий весь сайт для індексації). Дана директива використовується з директивою «Disallow».
Важливо: директива «allow» завжди повинна бути вище директиви «disallow».
Приклад №1 використання директив:
Allow: /user/search
Disallow: *search
У даному випадку ми забороняємо пошуковому роботу індексувати сторінки «пошуку по сайту», за винятком сторінок «пошуку користувачів».
Приклад №2 використання директив:
Allow: /nokia
Disallow: *telefon
В даному випадку, якщо url-структура сторінок такого типу:
Ми закриваємо всі телефони від індексації, за винятком телефонів «nokia».
Така методика, як правило, рідко використовується.
Директива «sitemap»
Дана директива вказує пошуковому роботу шлях до карти сайту у форматі «XML».
Директива повинна містити в собі повний шлях до файлу.
Sitemap: http://site.ru/sitemap.xml
Рекомендації по використанню даної директиви: перевірте правильність зазначеної адреси.
Директива «Host»
Дана директива дозволяє вказати головне дзеркало сайту. Адже для пошукової системи це два різних сайту.
У даній директиві необхідно вказувати головне дзеркало сайту у вигляді:
Host: www.site.ru
Або:
Host: site.ru
Приклад повноцінного robots.txt
User-Agent: *
Disallow: /cgi-bin
Disallow: /*sort=*
Sitemap: http://www.site.ru/sitemap.xml
Host: www.site.ru
Коректність роботи файлу перевіряється згідно з правилами пошукових систем, в яких вказані правильні й актуальні директиви (ПС можуть оновлювати вимоги, тому важливо стежити за тим, щоб ваш robots.txt залишався актуальним). Кінцеву перевірку файлу можна провести за допомогою верифікатора. У Google - це robots.txt Tester в панелі інструментів для веб-майстрів, в ПС «Яндекс» - Аналіз robots.txt.
Висновки
Інструкція robots.txt - важливий момент в процесі оптимізації сайту. Файл дозволяє вказати пошуковому роботу, які сторінки не слід індексувати. Це, у свою чергу, дозволяє прискорити індексації потрібних сторінок, від чого підвищується загальна швидкість індексації сайту.
Необхідно пам'ятати, що robots.txt - це не вказівки, а тільки рекомендації пошуковим системам.