Дублирование контента

Одной из серьезных проблем, на которые стоит обратить внимание при продвижении сайта — это дублированный контент. Он может стать причиной проблем с позициями, падения посещаемости и даже бана сайта.

Почти у любого сайта, который я брал в работу, были проблемы с дублированием. Проблема дублирования контента идет от разработчиков, которые не обращают внимание на этот момент, так как это обычно не мешает удобному использованию сайта.

Что такое дубли и дублирование на сайте?

Для начала отделим ворованный контент от дублей. На самом деле, ворованный контент тоже можно считать дублем страницы, но страницы на чужом сайте. К счастью, если вы занимаетесь своим сайтом сами, то вспомните если копировали чужие тексты или их части, а это очень плохо, поэтому никогда этого не делайте (кроме случаев, когда вы понимаете зачем).

Дубли бывают:

Четкие дубли

Когда полностью одинаковая страница находится по разным адресам вашего сайта (а чаще всего, когда страница имеет несколько разных адресов).

Примеры:

  • http://site/category/post1
  • http://site/post1
  • http://www.site/post1

Нечеткие дубли

Когда часть текста повторяется на разных страницах. Например, если товары разные (разные адреса станиц, разные названия и т.п.), но поле с описанием у них всех одинаковое. Или какой-то текст повторяется на всех страницах сайта.

Как узнать, что у вас серьезные проблемы с дублированием страниц?

Самый просто способ, это сделать поиск по запросу «site:ваш сайт» в поисковых системах и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.

Если страниц заметно больше, чем есть на сайте, то скорей всего у вас проблема. (Но еще может оказаться, что проиндексировались страницы из служебных разделов, тогда проблема в правильной настройке robots.txt.)

Если страниц заметно меньше, то это тоже может свидетельствовать о проблеме с дублированием, но диагнозов намного больше (неправильная настройка сервера, ворованный контент, контент не несущий информации, переспам и т.п.)

Как находить дубли на сайте?

Самый надежный способ, зная распространенные виды дублей, проверить свой сайт, вручную подставляя адреса возможных дублей. Давайте проверим на практике. Заходим на какую-нибудь страницу своего сайта и начинаем экспериментировать:

http://site.ru/category/post1- исходный адрес, на который мы перешли в процессе навигации по сайту. Все остальные варианты должны либо исправиться автоматически на этот адрес, либо выдать, что страница не существует.

http://www.site.ru/category/post1

http://site.ru/category/post1.html 

http://site.ru/category/post1.php

http://site.ru/category/post1/index.php

http://site.ru/category/post1/index.html

http://site.ru/post1/ — часто страница доступна в нескольких категориях и без категории

http://site.ru/category/post1?param=234234

http://site.ru/category/post1/index.php

http://site.ru/category/post1— (добавляем и убираем косую черту в конце, это тоже считается разный адрес)

Обычно, если проблема есть, то этих проверок достаточно.

Еще есть хорошая программа Xenu, которой можно просканировать сайт, а потом отсортировать найденные страницы по заголовкам. Повторяющиеся заголовки — это потенциальные дубли. Но даже если это просто повторяющиеся заголовки — такого не должно быть. Title и H1 должны быть уникальны на всем сайте.

Чем грозит дублирование контента?

Самое страшное — ваш сайт может быть исключен из поиска. Особенно, если фактически страниц очень мало, а дублей десятки и сотни. Т.к. поисковик не понимает, что у вас проблема с настройками и думает, что вы пытаетесь наделать много страниц, которые не несут никакой пользы.

Кроме того, получается что в ответ на определенный запрос вместо одной страницы, на сайте есть несколько страниц, и грубо говоря, вся польза от одной страницы размывается на все ее дубли, вместо того, чтобы быть одной хорошей страницей и отвечать на конкретный запрос. Т.е. продвигать такую страницу очень сложно и требует усилий пропорциональных количеству дублей.

Как бороться с дублями?

  • С помощью robots.txt (ссылка в начале статьи)
  • C помощью 301 редиректа (будет отдельный материал)
  • С помощью rel=canonical (будет отдельный материал)

Еще прочитать:

8 комментариев

  1. Дмитро

    Сейчас очень проблематично не дублировать контент! Так как в интернете миллионы похожего контента и он отличается пару словами!! а так делать как написано в статье это супеР! А дубли это очень плохо для сайта!

  2. дмитрий

    даже не думал что дублирование играет такую важную роль в раскрутке сайта. огромное спасибо за полезную информацию.

  3. MoreMan

    Я воспользовался помощью этого сайта и понял, что много записей на моем сайте это недобросовестная работа. Сейчас я провожу зачистку, Спасибо вам большое.

  4. Евгений

    Эта проблема встречается довольно часто, если нет защиты на сайте, то контент нещадно воруют, так что не пожалейте денег на его защиту!

  5. eduardgolub

    Мне кажется риск потерять сайт слишком большой, чтобы заниматься этим.

  6. Сергей

    Это ясно, лучше текст писать или самому или изменить его до неузнаваемости. Можно также на биржах контента заказать копирайтинг или рерайтинг.

  7. Натали

    Мне понравилась статья! Исчерпывающий ответ на проблему дублей на сайте! Делаем как описано и не будет никаких проблем! Это точно проверено уже не на одном сайте!!

  8. Анна

    Теперь поняла наконец, почему поисковик убирает сайт из поиска при дублировании. К сожалению, это довольно частая проблема, и бороться с ней приходится, не покладая рук.

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *