Как не допустить дублированный контент в WordPress

Сама проблема дублированного контента возникла недавно, когда поисковики стали наказывать сайты за использование дублированного контента. Давайте разберемся в начале, что такое дублированный контент?

Дублированный контент – одинаковый текст или часть текста, к которому можно обратиться по разным URL. Дублированный контент может располагаться как в пределах одного ресурса, так и на просторах всего интернет.

Проиллюстрирую:

Дублированный контент в WordPress

  1. Ссылка на созданный пост имеет вид http://www.site.ru/post.html
  2. Многие блоггеры используют кроспостинг для повышения тематической ссылочной массы и для быстрой индексации, возьмем, к примеру, бесплатные блоги на livejornal, ссылка будет выглядеть так: http://site.livejornal.ru/post.html
  3. Если у вас украли статью или вы сами разместили ее на каком-либо ресурсе с обратной ссылкой, опять же тот же текст можно прочесть по новой ссылке: http://www.othersite.ru/post.html
  4. Часто на главной странице своего сайта выводят несколько последних статей в полном виде. Получается дубль текста вашего поста по ссылке: http://www.site.ru/
  5. Если статей много, то создается постраничная навигация, новые статьи вытесняют старые статьи на последующие страницы. Если вы используете полный вывод статьи на главной, то ваш пост можно будет прочитать по ссылке:  http://www.site.ru/page.html/page/2
  6. Такая же ситуация, как и с главной страницей, и для Рубрик сайта. Если вы отдаете статьи полностью в Рубрики, значит, появляется новая ссылка со страницы рубрики: http://www.site.ru/category/
  7. Страницы архива также, как и рубрики, дублируют контент: http://www.site.ru/2010/, но при этом, даже если у вас выводится часть статьи или цитата, то в архиве вы все равно получите дублирующую ссылку вида: http://www.site.ru/2010/post.html
  8. Страницы тегов полностью аналогичны страницам рубрик: http://www.site.ru/tag/nametag/
  9. В этот комплект дублей добавляет еще свою ссылку Поиск по сайту: http://www.site.ru/?s=search
  10. И даже на самой странице поста можно получить как минимум 2 ссылки, дублирующих контент:
    1. Ссылка появляется при большом количестве комментариев и включении режима постраничной навигации по комментариям, вида: http://www.site.ru/page.html/comment-page-1#comments
    2. Ссылка появляется если у вас длинная статья, и вы решили разделить ее на несколько частей тегом <!—nextpage—>, который вставляет постраничную навигацию еще в сам пост. Ссылка на 2 страницу поста будет иметь вид: http://www.site.ru/page.html/2

Что в результате?

В результате, при неумелом пользовании функционалом WordPress, вы рискуете получить как минимум 8 дублирующих ссылок одной статьи внутри самого ресурса + дубли с размещения статей на внешних ресурсах.

Как правильно настроить и организовать ваш блог на WordPress, не создавая дублированного контента?



Начнем по порядку пунктов указанному выше:

  1. На страницах постов, статических страницах, всегда используйте мета-тег rel=’canonical’. Он позволяет указать поисковикам правильный источник контента внутри сайта и для многих внешних ресурсов.
  2. Старайтесь при кроспостинге, все-таки не отдавать всю статью ресурсу. Урежьте ее как минимум до 50%. Обязательно проставляйте ссылки на источник, 2-3 штуки, с разными анкорами. Если есть возможность изменять на мета-теги на кроспостинговом ресурсе, уберите мета-тег rel=’canonical’.
  3. Если вы размещаете статью на внешних ресурсах и нет возможности ее уникализировать, действуйте по принципу п.1 + измените хотя бы некоторые абзацы вашего текста. Обязательно проставляйте обратные ссылки на вашу статью – источник и сам блог. Эта рекомендация часто помогает при воровстве контента. Т.к. многие воры копируют контент на автомате,специальными скриптами и в большинстве случаев ссылки не затираются.
  4. Практически с самого начала существования WordPress, разработчиками был продуман функционал, который позволял вывести на главной текст на вашу статью без дублирования контента.
    Зайдите на страницу редактора в админ – панели WordPress. На странице, под самим редактором найдете вкладку «Цитата (Excerpt)». Вот она и предназначена для вывода анонса статьи на главной, в рубриках, архиве, поиске и т.д. При создании статьи используйте это поле для создания уникального анонса статьи, который будет мотивировать посетителя кликнуть по ссылке «Читать далее» и прочесть вашу статью.
    Кроме исключения дублей у поля «Цитата», есть еще одна полезная особенность, этот текст вы можете оптимизировать под ключевые слова необходимые для Главной, Рубрики и т.д.
  5. Постраничную навигацию, навигацию по комментариям, Архивы, Теги, поиск по сайту лучше всего закрыть от индексации в robots.txt:
    Disallow: */comments*
    Disallow: /search
    Disallow: /?s=*
    Disallow: /author/*
    Disallow: /tag/*
    Disallow: /trackback
    Disallow: /20*/*
    Disallow: /page/*
    Disallow: /comment-page*
    Disallow: /*?replytocom*
  1. От дублирования контента в Рубриках избавляемся тем же способом, как и для Главной страницы блога. Либо закрыть и ее от индексации. Решать вам.
  2. Осталась одна ссылка – дубль, возникающая при разделении страницы на части и создающая постраничную навигацию для самого поста. Как с ней бороться, пока не знаю. Мой совет, постарайтесь не использовать этот функционал. Лучше разделите статью на реальные части и создайте для каждой части отдельный пост.

При шаблонном подходе, на страницах вашего сайта вы всегда найдете дублирующий контент.



Например:

  • Виджеты в сайдбаре
  • Шапка и подвал сайта
  • Какие-то вставки в самом посте.

Важно, чтобы на каждой странице внутри вашего сайта, всегда были уникальны:

  1. Заголовок страницы (title).
  2. Мета – тег описания страницы (description).
  3. Как минимум (мое мнение) 50% совокупного текстового наполнения страницы.

Все остальные страницы сайта, которые формируют свой контент на основании текста самих постов, должны быть закрыты от индексации.

При таком подходе, у вас наименьшие шансы получить наказание от поисковиков за дублированный контент.

Мифы связанные с дублированным контентом:

  1. Ссылка с «якорем» типа http://www.site.ru/page.html#якорь создает дублированный контент для поисковиков.
    Это утверждение не верно, т.к. данный якорь всего лишь позиционирует страницу в окне браузера при переходе по ссылке и не является динамическим параметром. Поисковики давно уже научились отличать «якоря» от динамических параметров ссылок. Поэтому использование ссылок «Читать далее» в WordPress более чем безопасно.
  2. Новый мета-тег <link rel=’canonical’ href=’ http://www.site.ru/page.html ‘ /> спасет весь мир и решит проблему дублированного контента.
    К сожалению и это утверждение не верно. Представьте ситуацию, когда вы создали статью, а кто-то ее украл в течении часа, например используя ваш RSS, и разместил у себя на новой странице сайта. У него также появится мета-тег rel=’canonical’. Если рейтинги вашего сайта примерно одинаковые, как вы думаете, как поисковики определят первоисточник? Тот к кому придет первым робот, тот и будет в выигрыше. Стопроцентного решения данной проблемы нет. Если для вас это важно, Google вам в помощь.
    Данный мета-тег скорее помогает решить проблему с дублированным контентом в пределах одного ресурса. Используя собирающие страницы сайта (рубрики, архивы, теги, поиск по сайту, главная) важно следить, чтобы у этих страниц данный тег отсутствовал. Тогда, присутствие rel=’canonical’ только в страницах статей дает весомые гарантии уникальности вашего контента.
  3. Рерайт или синонимизация сделает текст уникальным.
    К счастью, поисковики научились распознавать и рерайт. Большинство сайтов использующих рерайт, банят в течении 1-2 месяцев. Я одно время увлекся рерайтом, даже купил не дешевый софт. Мое мнение, качественный и быстрый рерайт, на сегодняшний день, написание новой – уникальной статьи на ту же тему. Все остальное — впустую потраченное время.

Спонсор поста:
Агентство «ИДЕАЛ» – один из лидеров современного рынка поискового продвижение сайта в Украине.

P.S. В этой статье, я старался доступным языком объяснить, что такое дублированный контент в WordPress и как от него можно избавиться внутренним функционалом платформы. Если я что-то  упустил или вы знаете еще проблемные места в WordPress, создающие дублированный контент, добро пожаловать в комментарии.

Жду ваших вопросов.


Нашел ошибку в тексте? Выдели ее мышкой и нажми Система Orphus
СЛЕДИТЕ ЗА НОВОСТЯМИ Подписаться на мой Twitter
Автор:Олег МедынскийРубрика: Раскрутка блога
Разрешается перепечатка статьи с обязательным указанием открытой ссылки на источник.

КОММЕНТАРИИ К СТАТЬЕ

  1. 2.1

    Спасибо за статью, все время хотел покончить с дублирующим контентом в wordpress, даже плагин all in one seo не полностью закрывает дублирующие страницы, так, что обязательно закрывайте от индексации ваши дубли страниц иначе будут санкции от поисковиков вплоть до АГС. Удачи.

    • 2.2

      МаксСпасибо за статью, все время хотел покончить с дублирующим контентом в wordpress, даже плагин all in one seo не полностью закрывает дублирующие страницы, так, что обязательно закрывайте от индексации ваши дубли страниц иначе будут санкции от поисковиков вплоть до АГС. Удачи.

      Сам не очень разбираюсь и хочу узнать как закрыть только дубли? Но так чтобы новости (на сайте в основном они) нормально видел робот?

  2. 2.3

    Ситуация:

    В краткой новости, которая доступна на главной страницы или в категории есть две ссылки, которые ведут на полную новость. Одна в заголовке, а вторая имеет анкор «Читать далее». Лучше во вторую добавить якорь или оставить так.

    Прочитав статью понял, что в индексе должны быть лишь:
    — главная страница (желательно с уникальными анонсами);
    — категории (желательно с уникальными анонсами);
    — новости;
    — статические страницы.

    Все остальное стало быть нужно закрывать, а в идеале оставлять только новости.

    Также интересует момент относительно хедера, сайдбаров и футера, которые содержат разные элементы, как меню и подобное, их стоит обрамлять тэгом ноуиндекс? Будет ли от от этого толк для Яндекса? И как быть с Гуглом?

    Спасибо.

    • 2.4

      1. Якорь не обязателен, и по моему мнению не нужен. На уникальность ссылки не влияет.
      2. В идеале, в индексе по логике должны быть:
      Главная страница.
      Страницы статей.
      Статические страницы.
      Остальные страницы могут быть расценены дублями.
      3.

      стоит обрамлять тегом ноуиндекс? Будет ли от от этого толк для Яндекса? И как быть с Гуглом?

      Хороший вопрос. Сейчас много споров на эту тему. Я сам пока пытаюсь найти правильный ответ тестируя разные варианты. Мое мнение, в идеале закрывать все лишнее и дублирующее нужно, но пока этот процесс трудоёмкий.
      К сожалению такого функционала для Гугла нет.

  3. 2.5

    Спасибо за пост. Мне очень помогло, у самого на блоге была проблема дублирующегося контента

  4. 2.6

    А если просто использовать плагин напримен platinum seo — жить мне кажется будет попроще, закрываете категории и метки , архивы в nofollow и вот пожалуйста дублей не будет и каноникал там есть

    • 2.7

      К сожалению platinum seo закрывает только страницы, но ссылки на эти страницы не закрывает. А также в постраничке он не меняет тайтлы и т.д.

  5. 2.8

    Скажите пожалуйста! Не происходит ли у меня дублирования контента? В моих шаблонах the_content есть в index.php, single.php, page.php. А the_excerpt в archive.php. Скажите быть может нужно the_excerpt добавить и в index.php. А также у меня на станицах анонсов нет тега more, анонсы постов сокращены и в конце стоит лишь символ […] к тому же не являющийся ссылкой. Это нормально?

    • 2.9

      the_content показывает полную статью. Если вывод контента на главной и в разделах происходит через the_content то это дубль. На главной, в разделах, архивах, метках и т.д. лучше использовать the_excerpt. Причем в редакторе в поле «Цитата» создавать уникальный текст.
      По поводу «more». Посетитель должен четко понимать куда кликнуть чтобы прочитать полную версию статьи. Мое мнение, у кратких постов должна быть ссылка «Читать далее…»

  6. 2.10

    Хах… Даже особо не задумывался об этом… А сейчас набрал в Гугле предложение из текста одного из своих постов — и вижу несколько страниц — оказывается, категории индексируются :)
    Вопрос: а если сейчас категории закрыть от индексации — дубликаты из Гугла сами со временем выпадут?
    P.S. Олег, если шаблон авторский — респект, конечно, но одна вещь упущена: нет даты поста, приходится по комментам примерно дату прикидывать — актуальта тема или нет…

    • 2.11

      Да, со временем закрытые страницы выпадут из индекса.
      У блогов считается стандартом ставить дату публикации поста. Лучше когда дата есть, но не обязательно. Вам решать.

  7. 2.12

    Олег, здравствуйте! Удалила из закладок все блоги и сайта по ВордПресс, кроме Вашего: он самый, на мой взгляд, полезный. Спасибо Вам огромное! Подскажите, пожалуйста, а что такое для Гугла т.н. «сопли»? Это и есть дублированный контент?

    • 2.13

      Сопли — Google Supplemental Index. То есть, это второстепенная база индекса у Google. Сам Google заявляет что такой базы не существует, но многие оптимизаторы опытным путем доказывают что она есть. Если говорить о дублированном контенте, то часто данный контент находится как раз в этом второстепенном индексе, либо вообще вне индекса.

  8. 2.14

    Ага, то есть — борьба с дублир. контентом, фактически и есть борьба с этим «симптомом простуды»! Спасибо большое за разъяснение!

    • 2.15

      Образно да. Чем меньше дублированного, не интересного, контента будет, тем меньше страниц сайта будет в соплях.

  9. 2.16

    привет
    а подскажите — как проверить, у меня индексируются по 2 раза или нет?
    это про статьи, которые в правой колонке..
    а то очень смущает этот момент..

    • 2.17

      Привет. В панели Яндекс вебмастер проверьте какие страницы в индексе. Если присутствуют по 2 раза значить индексируются

  10. 2.18

    Здравствуйте хотел бы спросить про постраничную навигаци, у меня на главной странице отображаются последние записи также как у вас, вы пишите что нужно закрыть ее от индексации, но в вашем роботе не закрыта, можно как то по другому решить эту проблему?

    • 2.19

      Закрывайте ссылки в nofollow и сами страницы

  11. 2.20

    Вопрос про пагинацию статей и их индексированию, помогите пожалуйста.

    Использую в длинных постах , и так статья разделяется на страницы, типа
    site.com/blogpost, и вторая страница site.com/blogpost/2.

    Проблема в том что я не хочу чтобы вторые или последуюшие страницы индексировались так как формируется дубликатный контент (по тайтлу и комментариям).

    Есть два варианта, в последуюших сраницах чтобы добавлялось автоматои ноиндекс. Или второй вариант что в подстраницах добавлялся каноникал главного урл.

    не подскажете как это сделать?

    • 2.21

      В двух словах не подскажу. Закройте страницы в robots.txt и желательно спец функциями перехватывать вывод постранички и закрывать ссылки в nofollow

  12. 2.22

    Здравствуйте, Олег! Согласна с предыдущими комментаторами, что Ваша статья на эту тему одна из лучших в интернете. Долго искала материал на тему «дублированный контент» и наконец, у Вас получила полную и понятную информацию.
    Олег, у меня к Вам вопрос. В Яндекс- мастере у меня индексируются не только посты, но и картинки. А так как я ставлю ключевые слова данной статьи, то получаются страницы с одинаковым названием.
    Например, http://site.ru/gfdhjg/html — статья
    http://site.ru/gfdhjg/html/yuiotr — картинка к ней
    Является это дублированным контентом? И как с ним бороться.
    Благодарю за ответ.

    • 2.23

      По сути это не дублированный контент, но ваша картинка получается без текста на отдельной странице. Для поисковиков это плохо. Я бы рекомендовал вам закрывать такие ссылки в nofollow и страницу в robots.txt

  13. 2.24

    Спасибо огромное за ответ. Если Вас не затруднит, не могли бы Вы подсказать что прописать в robots.txt. Если я напишу вот так будет правильно?
    Disalow:wp-content/uploads/*/*/*

  14.  


Ваши вопросы, замечания, пожелания и предложения, по работе сайта, пишите на E-mail.