Одной из серьезных проблем, на которые стоит обратить внимание при продвижении сайта — это дублированный контент. Он может стать причиной проблем с позициями, падения посещаемости и даже бана сайта.
Почти у любого сайта, который я брал в работу, были проблемы с дублированием. Проблема дублирования контента идет от разработчиков, которые не обращают внимание на этот момент, так как это обычно не мешает удобному использованию сайта.
Что такое дубли и дублирование на сайте?
Для начала отделим ворованный контент от дублей. На самом деле, ворованный контент тоже можно считать дублем страницы, но страницы на чужом сайте. К счастью, если вы занимаетесь своим сайтом сами, то вспомните если копировали чужие тексты или их части, а это очень плохо, поэтому никогда этого не делайте (кроме случаев, когда вы понимаете зачем).
Дубли бывают:
Четкие дубли
Когда полностью одинаковая страница находится по разным адресам вашего сайта (а чаще всего, когда страница имеет несколько разных адресов).
Примеры:
- http://site/category/post1
- http://site/post1
- http://www.site/post1
Нечеткие дубли
Когда часть текста повторяется на разных страницах. Например, если товары разные (разные адреса станиц, разные названия и т.п.), но поле с описанием у них всех одинаковое. Или какой-то текст повторяется на всех страницах сайта.
Как узнать, что у вас серьезные проблемы с дублированием страниц?
Самый просто способ, это сделать поиск по запросу «site:ваш сайт» в поисковых системах и посмотреть количество найденных страниц. Такой запрос выводит все страницы с вашего сайта, попавшие в индекс поисковика.
Если страниц заметно больше, чем есть на сайте, то скорей всего у вас проблема. (Но еще может оказаться, что проиндексировались страницы из служебных разделов, тогда проблема в правильной настройке robots.txt.)
Если страниц заметно меньше, то это тоже может свидетельствовать о проблеме с дублированием, но диагнозов намного больше (неправильная настройка сервера, ворованный контент, контент не несущий информации, переспам и т.п.)
Как находить дубли на сайте?
Самый надежный способ, зная распространенные виды дублей, проверить свой сайт, вручную подставляя адреса возможных дублей. Давайте проверим на практике. Заходим на какую-нибудь страницу своего сайта и начинаем экспериментировать:
http://site.ru/category/post1- исходный адрес, на который мы перешли в процессе навигации по сайту. Все остальные варианты должны либо исправиться автоматически на этот адрес, либо выдать, что страница не существует.
http://www.site.ru/category/post1
http://site.ru/category/post1.html
http://site.ru/category/post1.php
http://site.ru/category/post1/index.php
http://site.ru/category/post1/index.html
http://site.ru/post1/ — часто страница доступна в нескольких категориях и без категории
http://site.ru/category/post1?param=234234
http://site.ru/category/post1/index.php
http://site.ru/category/post1/ — (добавляем и убираем косую черту в конце, это тоже считается разный адрес)
Обычно, если проблема есть, то этих проверок достаточно.
Еще есть хорошая программа Xenu, которой можно просканировать сайт, а потом отсортировать найденные страницы по заголовкам. Повторяющиеся заголовки — это потенциальные дубли. Но даже если это просто повторяющиеся заголовки — такого не должно быть. Title и H1 должны быть уникальны на всем сайте.
Чем грозит дублирование контента?
Самое страшное — ваш сайт может быть исключен из поиска. Особенно, если фактически страниц очень мало, а дублей десятки и сотни. Т.к. поисковик не понимает, что у вас проблема с настройками и думает, что вы пытаетесь наделать много страниц, которые не несут никакой пользы.
Кроме того, получается что в ответ на определенный запрос вместо одной страницы, на сайте есть несколько страниц, и грубо говоря, вся польза от одной страницы размывается на все ее дубли, вместо того, чтобы быть одной хорошей страницей и отвечать на конкретный запрос. Т.е. продвигать такую страницу очень сложно и требует усилий пропорциональных количеству дублей.
Как бороться с дублями?
- С помощью robots.txt (ссылка в начале статьи)
- C помощью 301 редиректа (будет отдельный материал)
- С помощью rel=canonical (будет отдельный материал)
0 Комментариев