Як знайти і видалити дублі сторінок на сайті

Дублікати: в чому небезпека?
Небезпеку виникнення дублів можна показати на простому віддаленому прикладі: подивіться на картинку справа і скажіть, який із 2-х зображених плодів найбільш релевантний запиту «червоне яблуко».
Складно, чи не так? Адже вони однаково релевантні запиту, а обрати нас просять один, той, який відповідає максимально точно.
Повертаючись до сайтів: у тій же ситуації опиняється і пошукова система, коли їй потрібно обрати з двох однакових сторінок одну і показати її в результатах видачі.
Звісно, пошуковик враховує й інші параметри під час ранжування, такі як зовнішні та внутрішні посилання, поведінка користувачів, але факт залишається фактом: з 2-х однаково червоних яблук, Google чи Yandex потрібно обрати одне. В цьому і полягає вся складність.
Виникнення такої дилеми може призвести до різних негативних наслідків:
  1. Зниження релевантності основної посадкової сторінки, а значить, і зниження позицій ключових слів.
  2. «Скачків» позицій ключових слів за рахунок постійної зміни релевантної прив’язки з одної сторінки на іншу.
  3. Загального зниження в ранжуванні, коли проблема набуває масштабів не окремих URL, а всього сайту.
Саме подібна небезпека змушує SEO-оптимізаторів звертати особливу увагу на пошук і усунення сторінок-дублікатів на етапі внутрішньої оптимізації.
Якими бувають дублі?
Перед тим, як почати процес пошуку дублів, треба визначитися з тим, що вони бувають 2-х типів, а значить, процес пошуку і боротьби з ними буде дещо відрізнятися. Так, зокрема, виділяють:
  • Повні дублі – коли одна і та ж сторінка розташована за двома і більше адресами.
  • Часткові дублі – коли певна частина контенту дублюється на ряді сторінок, але вони вже не є повними копіями.
Повні дублікати – звідки вони беруться?
1. Одна і та ж сторінка за адресою з «www» і без «www». Таку проблему ще часто називають: «Не обрано головне дзеркало сайту».
2. Дублі головної сторінки за адресами:    
Один із цих URL може бути адресою головної сторінки за замовчуванням.
3. Дублі, згенеровані реферальним посиланням. 
Коли користувач приходить за URLза адресою з параметром «?ref=…», повинно відбуватися автоматичне перенаправлення на URL без параметра, що, на жаль, часто забувають реалізовувати розробники.
4.Помилки, пов’язані з ієрархією URL, які призводять до виникнення дублів.
Так, наприклад, один і той же товар може бути доступний за чотирма різними URL-адресами:
Некоректне налаштування сторінки 404 помилки, що призводить до виникнення «безкінечних дублів» сторінок виду:
http://mysite.com/olololo-test-olololo 
 де текст, виділений синім – це будь-який набір латинських символів і цифр.
6. Сторінки з utm-мітками і параметрами «gclid».
Дані мітки потрібні для того, щоб передавати деякі додаткові дані в системі контекстної реклами і статистики. Незважаючи на те, що, по ідеї, вони повинні індексуватися пошуковими системами, часто можна зустріти повний дубль сторінки з utm-міткою у видачі.
Повні дублі становлять серйозну небезпеку з точки зору SEO, тому що критично сприймаються пошуковими системами і можуть призвести до серйозних втрат у ранжуванні і навіть до накладення фільтру, що песимізує весь сайт.
Часткові дублікати – що собою являють?
Як і у випадку з повними дублями, часткові виникають, перш за все, через особливості CMS сайту, але значно складніше виявляються. Крім того, їх важче позбутися, але про це трохи нижче, а поки що найбільш розповсюджені варіанти:
 1. Сторінки пагінації, сортування, фільтрів
Як правило, певним чином змінюючи товарний асортимент, що виводиться на сторінці категорії магазину, сторінка змінює свій URL (фактично всі випадки, коли виведення не організоване за допомогою скриптів). При цьому SEO-текст, заголовки, часто і мета-дані – не змінюються. Наприклад:

http://mysite.com/catalog/category/ - стартова сторінка категорії товарів

http://mysite.com/catalog/category/?page=2 – сторінка пагінації

При тому, що URL адреса змінилася і пошукова система буде індексувати його як окрему сторінку, основний SEO-контент буде продубльований.

2. Сторінки відгуків, коментарів, характеристик

Досить часто можна зустріти ситуацію, коли під час вибору відповідної вкладки на сторінці товару, відбувається додавання параметру в URL- адресу, але сам контент фактично не змінюється, а просто відкривається новий таб.

3. Версії для друку, PDF для скачування

Ці сторінки повністю дублюють цінний SEO-контент основних сторінок сайту, але мають спрощену версію через відсутність великої кількості рядків коду, що забезпечує роботу функціоналу. Наприклад:  

http://mysite.com/main/hotel/al12188 — сторінка готелю  http://mysite.com/main/hotel/al12188/print — ЧБ версія для друку  http://mysite.com/main/hotel/al12188/print?color=1 — Кольорова версія для друку.

Выдача Google:

Выдача Yandex:
4. Html зліпки сторінок сайту, організованих за допомогою технології AJAX
Знайти їх можна, замінивши в оригінальній URl-адресі сторінки «!#» на «?_escaped_fragment_=». Як правило, в індекс такі сторінки потрапляють лише тоді, коли були допущені помилки в імплементації методу індексації AJAX сторінок шляхом перенаправлення бота на сторінку-зліпок і робот обробляє дві URL-адреси: основний та його html-версію.
Основна частина часткових дублів у тому, що вони не призводять до різких втрат у ранжуванні, а роблять це поступово і непомітно для власників сайту. Тобто знайти їхній вплив складніше, і вони можуть систематично, протягом тривалого часу «отруювати життя» оптимізатору.
За допомогою яких інструментів шукати дублі
Існує кілька інструментів для пошуку дублів:
Моніторинг видачі за допомогою оператора «site:»
Відобразивши на сторінці SERP всі проіндексовані URL, які беруть участь у пошуку, можна візуально детектувати повтори і різного роду «сміття».
Десктопні програми-парсери
Можу порекомендувати три зручні та інформативні програми Screaming Frog Seo SpiderNetpeak SpiderXenu. Запускаючи власних ботів до вас на сайт, програми вивантажують повний список URL-адрес, які можна відсортувати за співпадінням тегу «Title» або «Description» і, таким чином, виявити можливі дублі.
Приклад звіту з виявлення потенційних дублів з Netpeak Spider

В Serpstat також можна знайти потенційні дублі. Він знаходить сторінки з дубльованими Title и Description.

Пошукова консоль Google
В Google Search Console у вкладці «Оптимізація html» можна подивитися список сторінок з повторюваними мета-описами, тобто список потенційних дублів.

Ручний пошук безпосередньо на сайті 

Досвідчені веб-майстри здатні вручну виявити більшість дублів протягом пари хвилин, просто спробувавши різні варіації URL-адрес в означених вище проблемних місцях.

Як побороти і чим? 

Способів боротьби з дублікатами не так уже і багато, але всі вони потребують від вас залучення фахівців-розробників, або наявності відповідних знань. Фактично ж арсенал для «викорчування» дублів зводиться до:

1. Їхнього фізичного видалення – хороше рішення для статичних дублів.

2. Заборони індексації дублів у файлі «robots.txt» - підходить для боротьби зі службовими сторінками, які частково дублюють контент основних посадкових.

3. Налаштування 301 редиректів у файлі-конфігураторі «.htacces» — хороше рішення для випадку з рефф-мітками і помилками в ієрархії URL.

4. Встановлення тегу«rel=canonical» - найкращий варіант для сторінок пагінації, фільтрів і сортувань, utm-сторінок.

Приклад встановлення тегу на сторінці пагінації:

 
5. Встановлення тегу «meta name="robots" content="noindex, nofollow"» — рішення для друкованих версій, табів з відгуками про товар.

Висновки

Часто вирішення проблеми криється в налаштуванні самого движка, а тому основним завданням оптимізатора є не стільки усунення, скільки виявлення повного списку часткових і повних дублів і постановка грамотного ТЗ виконавцю.

Запам’ятайте наступне:

  1. Повні і часткові дублі можуть понизити позиції сайту у видачі не лише в масштабах URL, а й усього домену.
  2. Повні дублі – це коли одна і та ж сторінка розташована за 2 і більше адресами. Часткові дублі – це коли певна частина контенту дублюється на ряді сторінок, але вони вже не є повними копіями.
  3. Повні дублікати неважко знайти і усунути. Найчастіше причина їхньої появи залежить від особливостей CMS сайту і навиків SEO розробників сайту.
  4. Часткові дублікати знайти складніше, і вони не призводять до різких втрат у ранжуванні, однак роблять це поступово і непомітно для власників сайту.
  5. Щоб знайти часткові і повні дублі сторінок, можна використовувати моніторинг видачі за допомогою пошукових операторів, спеціальні програми-парсери, пошукову консоль Google і ручний пошук на сайті.
  6. Позбавлення сайту від дублів зводиться до їхнього фізичного усунення, заборони індексації дублів у файлі «robots.txt», налаштуванні 301 редиректів, встановленню тегів «rel=canonical» і «meta name="robots" content="noindex, nofollow"». Маючи досить повний перелік основних проблемних зон, а також рекомендації щодо інструментів, які можна використовувати для їхнього аналізу, вам буде нескладно провести пошук дублікатів на ресурсі та зробити перший крок в бік їхнього повного усунення.

Я бажаю вам успіхів на цьому шляху!

Стаття опублікована на ресурсі https://serpstat.com/

Якщо ви хочете працювати з нами,
давайте почнемо з обговорення завдання

Отримати консультацію

Отримуйте новини інтернет-маркетингу

Тільки корисна інформація від експертів Promodo

Якщо ви хочете працювати з нами,
давайте почнемо з обговорення завдання

Отримати консультацію

Отримуйте новини інтернет-маркетингу