Как найти дубли страниц на сайте. Проблема дублирования страниц.

Одинаковый контент на страницах – это опасность для любого сайта и серьезная проблема для SEO. Казалось бы, что в этом страшного? Одинаковый контент может привести попасть под санкции систем Яндекс и Google, понизив позиции. Дубли необходимо быстро находить, удалять и не допускать повторных появлений.

Виды дублей

Существует два вида дублей: полные и неполные

Полные дубли

Полные дубли – страницы, полностью повторяющие контент. Они ухудшают ранжирование и к ним плохо относятся поисковые системы.

Фактически, полные дубли – самая частая и серьезная проблема. Обычно, это страница, доступная по нескольким адресам: техническому адресу, через другую категорию, с параметрами в URL. То есть она получилась в результате неправильной настройки CMS.

Пример полного дублирования:

https://sobaka.com/index.php?page=catalog
https://sobaka.com/catalog

Неполные дубли

Неполные дубли – страницы, выборочно дублирующие фрагменты контента. Их тяжелее обнаружить, особенно если у вас интернет-магазин, где много схожих по описанию товаров. К тому же URL у неполных дублей разный.

В чем опасность дублей?

Скриншот из Яндекс.Вебмастера сайта с серьезными проблемами и дублированием контента.

Наложение санкций

В худшем случае поисковые системы исключают ваш сайт, в лучшем – снизят ранжирование страниц на поиске. Это происходит из-за того, что робот не понимает, что вы ведете технические работы или у вас серьезные проблемы, поэтому плодиться несколько одинаковых страниц. Чем больше таких страниц, тем больше поисковые боты думают, что сайт не достоин быть в выдаче.

Увеличение времени на обход страниц

При множестве дублей робот может так и не добраться до основного контента. Особенно опасно на сайтах, где сотни/тысячи страниц. В поисковике не будет отображаться желаемая страница. Вы вкладываете силы и время на продвижение одной страницы, но это не будет давать должного результата.

Проблема с индексацией

В Яндекс Вебмастере можно увидеть проблему с индексацией. Когда ваши страницы добавляются/удаляются, то в поисковой выдаче нет постоянства. Дубли сменяют друг друга и не успевают набрать достаточного веса, чтобы показываться по поисковым запросам.

Низкие позиции в поисковых системах

Страницы с одинаковым контентом отвечают на одинаковые запросы. Поисковая система не может определиться, что важней, а в худшем случае, вообще не покажет никакую. Ведь есть сайты конкурентов с конкретными страницами, отвечающими на данный запрос.

Причины возникновения дублей

CMS “плодит” дубли – самая распространенная проблема. Например, материал был написан для нескольких рубрик, но их домены входят в адрес сайта. Возникает следующая ошибка:
1. sobaka.site.com/number1/info
2. sobaka.site.com/number2/info
Невнимательность так же может привести к дублям. Например, если вы просто скопировали страницу и забыли запретить индексирование на вторую.
Технические разделы могут возникнуть из-за CMS. Например, когда на сайте есть разделы, фильтры, каталоги и подкаталоги. На Bitrix или Joomla могут сгенерироваться сайты с одной и той же информацией.
В интернет-магазинах товар часто находится в нескольких категория и доступен по разным URL:
1. magazin.com/category1/product1
2. magazin.com/category1/subcategory1/product1
3. magazin.com/product1/
4. magazin.com/category2/product1
Технические ошибки возникают при ошибочной генерации ссылок и настройках в разных CMS случаются ошибки, которые приводят к дублированию страниц. Может произойти зацикливание: sobaka.com/tools/tools/tools/…/…/…

Ошибка:

sobaka.com/rubric.php
sobaka.com/rubric.php?ajax=Y

Поиск дублей страниц

Ручной поиск

Первое, что можно сделать для быстрого обнаружения – сделать поиск по запросу «site:ваш сайт» в Яндекс/Google и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.
Конкретно для систем Google можно воспользоваться расширенным поиском. Необходимо ввести сайт с конкретной страницей – гугл выдаст дубли страниц. Так проходим по каждой странице на сайте.
Еще один надежный способ обнаружения – ручной ввод возможных адресов сайта.

Яндекс Вебмастер

Простой способ найти дубли через Яндекс Вебмастер

Переходим в Вебмастер и нажимаем СТРАНИЦЫ В ПОИСКЕ
Выбираем ПОСЛЕДНИЕ ИЗМЕНЕНИЯ
Выгружаем архив – смотрим на статус страниц. Если обнаружен дубль, тогда вы увидите DUPLICATE.

Можно не выгружать, а воспользоваться фильтром прямо в Яндекс.Вебмастер и просматривать существующие дубли прямо в браузере онлайн.

Google Search Console

Через Google Search Console дубликаты можно увидеть еще быстрее.

Заходим на вкладку ПОКРЫТИЕ
Выбираем ИСКЛЮЧЕННЫЕ и смотрим на сведения
В списке будут указаны страницы, которые являются копией.

Как избавиться от дублей

Естественно, все зависит от движка, который вы используете. В большинстве случаев следует применять следующие действия.

Скрыть дубли от поисковых роботов (одна страница = одна ссылка), и исключить все остальные варианты страниц.
Настройка Redirect 301 всех вариантов на одну существующую страницу.
Запретить индексацию адресам с GET-параметрами в robot.txt
Поставить re=canonical для страниц фильтров, каталогов, пагинцаций и т.п

Программы и сервисы для нахождения дублей

Рассмотрим популярные программы и сервисы для проверки дублей онлайн или на своем компьютере.

Парсер проиндексированных страниц от PromoPult

https://promopult.ru/tools/indexing_analysis.html

Интерфейс сервиса проверки проиндексированных страниц

Сервис позволяет быстро сопоставлять проиндексированные страницы Яндекса и Google.

Сервис Apollon

https://apollon.guru/

Проверяем предыдущий сервис на варианты дублей. Оказалось много!

Сервис позволяет быстро находить дубли с помощью перебора распространенных вариантов дублирования и показывает, на какую страницу происходит редирект.

Сервис Siteliner

https://www.siteliner.com/

Сервис проверяет сайт на дубли онлайн и показывает количество оригинального контента и дублированного. Так же можно скачать полный список проиндексированных страниц.

Бесплатная тариф дает проверить 250 самых важных страниц вашего веб-сайта на основе внутренней структуры ссылок. Этого достаточно для большинства сайтов малого бизнеса и самостоятельной проверки.

Программа XENU

http://home.snafu.de/tilman/xenulink.html

Через XENU можно провести проверку сайта и найти дубликаты страниц. Достаточно просто ввести URL. XENU найдет полные и частичные дубли сайта. Программа очень старая и не обновляется, но со своей работой справляется. Полностью бесплатна, легко сканирует большие сайты.

Программа Screaming Frog SEO Spider

www.screamingfrog.co.uk/seo-spider/

Найдены полные и частичные дубли страниц.

«Лягушка» — мощный инструмент для SEO-оптимизаторов . Сканирование 500 страниц происходит бесплатно, остальное – требует платной подписки. Находит полные и частичные дубли, но это всего лишь маленькая доля полезных вещий, которые позволяет делать программа.

Выводы

Дублирование страниц — серьезная проблема, особенно если сайт находится на SEO-продвижении. Это не надуманная проблема и в кабинетах вебмастеров Яндекс и Гугл есть предупреждения о дублировании контента.

Дубли можно легко найти с помощью программ. Если это технические страницы, то их желательно удалить. Если страницы важны для пользователя, то можно просто закрыть от индексации.

Самые простой способ перестраховаться от дублирования страниц — это использование метатега Canonical для указания основного адреса.

Как бороться с дублями страниц