Как бороться с дублями страниц

Одинаковый контент на страницах – это опасность для любого сайта и серьезная проблема для SEO. Казалось бы, что в этом страшного? Одинаковый контент может привести попасть под санкции систем Яндекс и Google, понизив позиции. Дубли необходимо быстро находить, удалять и не допускать повторных появлений.

Виды дублей

Существует два вида дублей: полные и неполные

Полные дубли

Полные дубли – страницы, полностью повторяющие контент. Они ухудшают ранжирование и к ним плохо относятся поисковые системы.

Фактически, полные дубли – самая частая и серьезная проблема. Обычно, это страница, доступная по нескольким адресам: техническому адресу, через другую категорию, с параметрами в URL. То есть она получилась в результате неправильной настройки CMS.

Пример полного дублирования:

  • https://sobaka.com/index.php?page=catalog
  • https://sobaka.com/catalog

Неполные дубли

Неполные дубли – страницы, выборочно дублирующие фрагменты контента. Их тяжелее обнаружить, особенно если у вас интернет-магазин, где много схожих по описанию товаров. К тому же URL у неполных дублей разный.

В чем опасность дублей?

Скриншот из Яндекс.Вебмастера сайта с серьезными проблемами и дублированием контента.

Наложение санкций

В худшем случае поисковые системы исключают ваш сайт, в лучшем – снизят ранжирование страниц на поиске. Это происходит из-за того, что робот не понимает, что вы ведете технические работы или у вас серьезные проблемы, поэтому плодиться несколько одинаковых страниц. Чем больше таких страниц, тем больше поисковые боты думают, что сайт не достоин быть в выдаче.

Увеличение времени на обход страниц

При множестве дублей робот может так и не добраться до основного контента. Особенно опасно на сайтах, где сотни/тысячи страниц. В поисковике не будет отображаться желаемая страница. Вы вкладываете силы и время на продвижение одной страницы, но это не будет давать должного результата.

Проблема с индексацией

В Яндекс Вебмастере можно увидеть проблему с индексацией. Когда ваши страницы добавляются/удаляются, то в поисковой выдаче нет постоянства. Дубли сменяют друг друга и не успевают набрать достаточного веса, чтобы показываться по поисковым запросам.

Низкие позиции в поисковых системах

Страницы с одинаковым контентом отвечают на одинаковые запросы. Поисковая система не может определиться, что важней, а в худшем случае, вообще не покажет никакую. Ведь есть сайты конкурентов с конкретными страницами, отвечающими на данный запрос.

Причины возникновения дублей

  1. CMS “плодит” дубли – самая распространенная проблема. Например, материал был написан для нескольких рубрик, но их домены входят в адрес сайта. Возникает следующая ошибка:
    1. sobaka.site.com/number1/info
    2. sobaka.site.com/number2/info
  2. Невнимательность так же может привести к дублям. Например, если вы просто скопировали страницу и забыли запретить индексирование на вторую.
  3. Технические разделы могут возникнуть из-за CMS. Например, когда на сайте есть разделы, фильтры, каталоги и подкаталоги. На Bitrix или Joomla могут сгенерироваться сайты с одной и той же информацией.
  4. В интернет-магазинах товар часто находится в нескольких категория и доступен по разным URL:
    1. magazin.com/category1/product1
    2. magazin.com/category1/subcategory1/product1
    3. magazin.com/product1/
    4. magazin.com/category2/product1
  5. Технические ошибки возникают при ошибочной генерации ссылок и настройках в разных CMS случаются ошибки, которые приводят к дублированию страниц. Может произойти зацикливание: sobaka.com/tools/tools/tools/…/…/…

Ошибка:

  • sobaka.com/rubric.php
  • sobaka.com/rubric.php?ajax=Y

Поиск дублей страниц

Ручной поиск

  1. Первое, что можно сделать для быстрого обнаружения – сделать поиск по запросу «site:ваш сайт» в Яндекс/Google и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.
  2. Конкретно для систем Google можно воспользоваться расширенным поиском. Необходимо ввести сайт с конкретной страницей – гугл выдаст дубли страниц. Так проходим по каждой странице на сайте.
  3. Еще один надежный способ обнаружения – ручной ввод возможных адресов сайта.

Популярные варианты дублирования страниц

Заходим на какую-нибудь страницу своего сайта и начинаем экспериментировать:

http://site.ru/category/post1- исходный адрес, на который мы перешли в процессе навигации по сайту. Все остальные варианты должны либо исправиться автоматически на этот адрес, либо выдать, что страница не существует.

http://www.site.ru/category/post1

http://site.ru/category/post1.html 

http://site.ru/category/post1.php

http://site.ru/category/post1/index.php

http://site.ru/category/post1/index.html

http://site.ru/post1/ — часто страница доступна в нескольких категориях и без категории

http://site.ru/category/post1?param=234234

http://site.ru/category/post1/index.php

http://site.ru/category/post1— (добавляем и убираем косую черту в конце, это тоже считается разный адрес)

Обычно, если проблема есть, то этих проверок достаточно.

Яндекс Вебмастер

Простой способ найти дубли через Яндекс Вебмастер

  1. Переходим в Вебмастер и нажимаем СТРАНИЦЫ В ПОИСКЕ
  2. Выбираем ПОСЛЕДНИЕ ИЗМЕНЕНИЯ
  3. Выгружаем архив – смотрим на статус страниц. Если обнаружен дубль, тогда вы увидите DUPLICATE.
Поиск дублей через Яндекс Вебмастер

Можно не выгружать, а воспользоваться фильтром прямо в Яндекс.Вебмастер и просматривать существующие дубли прямо в браузере онлайн.

Выбираем фильтр по статусу «Дубль»

Google Search Console

Через Google Search Console дубликаты можно увидеть еще быстрее.

  1. Заходим на вкладку ПОКРЫТИЕ
  2. Выбираем ИСКЛЮЧЕННЫЕ и смотрим на сведения
  3. В списке будут указаны страницы, которые являются копией.
Поиск дублей через Google Console

Как избавиться от дублей

Естественно, все зависит от движка, который вы используете. В большинстве случаев следует применять следующие действия.

  • Скрыть дубли от поисковых роботов (одна страница = одна ссылка), и исключить все остальные варианты страниц.
  • Настройка Redirect 301 всех вариантов на одну существующую страницу.
  • Запретить индексацию адресам с GET-параметрами в robot.txt
  • Поставить re=canonical для страниц фильтров, каталогов, пагинцаций и т.п

Программы и сервисы для нахождения дублей

Рассмотрим популярные программы и сервисы для проверки дублей онлайн или на своем компьютере.

Парсер проиндексированных страниц от PromoPult

https://promopult.ru/tools/indexing_analysis.html

Интерфейс сервиса проверки проиндексированных страниц

Сервис позволяет быстро сопоставлять проиндексированные страницы Яндекса и Google.

Сервис Apollon

https://apollon.guru/

Проверяем предыдущий сервис на варианты дублей. Оказалось много!

Сервис позволяет быстро находить дубли с помощью перебора распространенных вариантов дублирования и показывает, на какую страницу происходит редирект.

Сервис Siteliner

https://www.siteliner.com/

Проверка в сервисе Siteliner

Сервис проверяет сайт на дубли онлайн и показывает количество оригинального контента и дублированного. Так же можно скачать полный список проиндексированных страниц.

Бесплатная тариф дает проверить 250 самых важных страниц вашего веб-сайта на основе внутренней структуры ссылок. Этого достаточно для большинства сайтов малого бизнеса и самостоятельной проверки.

Программа XENU

http://home.snafu.de/tilman/xenulink.html

Скриншот сканирования в программе Xenu

Через XENU можно провести проверку сайта и найти дубликаты страниц. Достаточно просто ввести URL. XENU найдет полные и частичные дубли сайта. Программа очень старая и не обновляется, но со своей работой справляется. Полностью бесплатна, легко сканирует большие сайты.

Программа Screaming Frog SEO Spider

www.screamingfrog.co.uk/seo-spider/

Найдены полные и частичные дубли страниц.

«Лягушка» — мощный инструмент для SEO-оптимизаторов . Сканирование 500 страниц происходит бесплатно, остальное – требует платной подписки. Находит полные и частичные дубли, но это всего лишь маленькая доля полезных вещий, которые позволяет делать программа.

Выводы

Дублирование страниц — серьезная проблема, особенно если сайт находится на SEO-продвижении. Это не надуманная проблема и в кабинетах вебмастеров Яндекс и Гугл есть предупреждения о дублировании контента.

Дубли можно легко найти с помощью программ. Если это технические страницы, то их желательно удалить. Если страницы важны для пользователя, то можно просто закрыть от индексации.

Самые простой способ перестраховаться от дублирования страниц — это использование метатега Canonical для указания основного адреса.

Илья Пронин

Илья Пронин

специалист по SEO продвижению

Обсуждение и вопросы:

0 Комментариев
Оставить комментарий

Ваш адрес email не будет опубликован.