Robots.txt - важливі етапи при створенні та перевірці

Чому це важливо

Robots.txt - це текстовий файл з набором інструкцій для пошукових роботів, який управляє правилами індексації сайтів. З його допомогою можна позначити для пошукових систем, які сторінки варто проіндексувати в першу чергу (наприклад, розділ «Новини компанії», так як він часто оновлюється) і які сторінки закриті для індексування (наприклад, результати внутрішнього пошуку, так як це може призвести до дублюванню даних в пошуковій системі і погіршення показників ранжування сайту). Детальніше про дублікати даних читайте в Рибі «Дубльований контент - як вчасно знайти і знешкодити дублі».

Файл Robots.txt повинен знаходитися в корені сайту і бути доступним за адресою: 

http://site.ru/robots.txt

Якщо у вашого сайту кілька піддоменів (це сайти третього рівня, наприклад: http://ru.site.com), то для кожного піддомену слід писати свій robots.txt.

Як створити robots.txt?

 Robots.txt - простий текстовий файл. Увага: ім'я файлу повинно містити тільки маленькі літери (тобто імена «Robots.txt» і «ROBOTS.TXT» - неправильні). Ще одне обмеження robots.txt - розмір файлу. У Google це до 500 кб, у Яндекса до 32 кб. Якщо ваш robots.txt перевищує ці розміри, то він може працювати некоректно.

Більш детальні вимоги до оформлення файлу прописані в довідках пошукових систем: для Google і для «Яндекс».

Які директиви існують?

Директива «User-agent»

Директива, яка вказує, для якого пошукового робота написані правила.

Приклади використання:

User-agent: * – для всіх пошукових роботів

User-agent: Yandex – для пошукового робота Yandex

User-agent: Googlebot – для пошукового робота Google

User-agent: Yahoo – для пошукового робота Yahoo

Рекомендується використовувати:

User-agent: *

Нижче ми розглянемо приклади директив, як і для чого варто їх використовувати.

Директива «Disallow»

Директива, яка забороняє індексацію певних файлів, сторінок або категорій.

Ця директива застосовується при необхідності закрити дубльовані сторінки (наприклад, якщо це інтернет-магазин, то сторінки сортування товарів, або ж, якщо це новинний портал, то сторінки друку новин).

Також дана директива застосовується до «сміттєвих для пошукових роботів сторінкок». Такі сторінки, як: «реєстрація», «забули пароль», «пошук» і тому подібні, - не несуть користі для пошукового робота.

Приклади використання:

Disallow: /*sort – за допомогою спец символу «*», ми даємо зрозуміти пошуковому роботу, що будь-який url, що містить «SORT», буде виключений з індексу пошукової системи. Таким чином, в інтернет-магазині ми відразу позбудемося всіх сторінок сортування (врахуйте, що в деяких CMS системах побудова url сортувань може відрізнятися).

Disallow: /*print.php – аналогічно сортуванні ми виключаємо всі сторінки «версія для друку».

Disallow: */telefon/ –  в даному випадку ми виключаємо категорію «телефон», тобто url, що містять «/ telefon /».

Приклад виключених в даному випадку url:

Приклад не виключених url в даному випадку:

Disallow: /search – в даному випадку ми виключимо всі сторінки пошуку, url яких починаються з «/ search». Давайте розглянемо на прикладі виключених сторінок пошуку:

Приклад не виключених url в даному випадку:

Disallow: / – закрити весь сайт від індексації.

Рекомендується використовувати Disallow зі спеціальним символом «*» для виключення великої кількості сторінок дублів.

Директива «Allow»

Директива, що дозволяє індексувати сторінки (за замовчуванням пошуковій системі відкритий весь сайт для індексації). Дана директива використовується з директивою «Disallow».

Важливо: директива «allow» завжди повинна бути вище директиви «disallow».

Приклад №1 використання директив:

Allow: /user/search

Disallow: *search

У даному випадку ми забороняємо пошуковому роботу індексувати сторінки «пошуку по сайту», за винятком сторінок «пошуку користувачів».

Приклад №2 використання директив:

Allow: /nokia

Disallow: *telefon

В даному випадку, якщо url-структура сторінок такого типу:

Ми закриваємо всі телефони від індексації, за винятком телефонів «nokia».

Така методика, як правило, рідко використовується.

Директива «sitemap»

Дана директива вказує пошуковому роботу шлях до карти сайту у форматі «XML».

Директива повинна містити в собі повний шлях до файлу.

Sitemap: http://site.ru/sitemap.xml

Рекомендації по використанню даної директиви: перевірте правильність зазначеної адреси.

Директива «Host»

Дана директива дозволяє вказати головне дзеркало сайту. Адже для пошукової системи це два різних сайту.

У даній директиві необхідно вказувати головне дзеркало сайту у вигляді:

Host: www.site.ru

Або:

Host: site.ru

Приклад повноцінного robots.txt

User-Agent: *

Disallow: /cgi-bin

Disallow: /*sort=*

Sitemap: http://www.site.ru/sitemap.xml

Host: www.site.ru

Коректність роботи файлу перевіряється згідно з правилами пошукових систем, в яких вказані правильні й актуальні директиви (ПС можуть оновлювати вимоги, тому важливо стежити за тим, щоб ваш robots.txt залишався актуальним). Кінцеву перевірку файлу можна провести за допомогою верифікатора. У Google - це robots.txt Tester в панелі інструментів для веб-майстрів, в ПС «Яндекс» - Аналіз robots.txt.

Висновки

Інструкція robots.txt - важливий момент в процесі оптимізації сайту. Файл дозволяє вказати пошуковому роботу, які сторінки не слід індексувати. Це, у свою чергу, дозволяє прискорити індексації потрібних сторінок, від чого підвищується загальна швидкість індексації сайту.

 

Необхідно пам'ятати, що robots.txt - це не вказівки, а тільки рекомендації пошуковим системам.

Якщо ви хочете працювати з нами,
давайте почнемо з обговорення завдання

Обговорити задачу

Отримуйте новини інтернет-маркетингу

Тільки корисна інформація від експертів Promodo

Отримуйте новини інтернет-маркетингу