Дублирующийся контент или подробно о канонизации

Иван Никитин и партнерыНовостиSEOДублирующийся контент или подробно о канонизации

Дублированный контент на веб-сайте возникает в ситуации, когда один и тот же или очень похожий контент доступен по нескольким URL-адресам. Дублирующийся контент может появляться на сайте по следующим причинам, например, сосуществование версий сайта с разными протоколами HTTP и HTTPS, с элементом www и без него, ввиду наличия страниц с UTM-метками и по другим причинам.

Дублирующиеся страницы могут вызывать проблемы, поскольку поисковым машинам не всегда просто выбрать, какую версию страницы следует индексировать и отображать пользователям в результатах выдачи.

Как мы можем решить эти проблемы и указать поисковым системам, какие страницы приоритетны?

Одной из техник, которую мы выполняем на протяжении многих лет является канонизация (или нормализация).

Страницы-дубли на сайте

Возможные причины дублирования контента

Ниже вы найдете список распространенных проблем, которые приводят к созданию страниц-дубликатов:

1. Альтернативные версии сайта:

  • Версии сайта с разными протоколами HTTP и HTTPS, например: http://example.com и https://example.com
  • Страницы префиксом www и без префикса www, например: https://www.example.com и https://example.com
  • В URL есть или отсутствует / (слеш) в конце адреса, например: https://www.example.com/page/ и https://www.example.com/page
  • Мобильная версия и десктопная версия, например: m.example.com и example.com

2. Один и тот же контент доступен по нескольким URL-адресам:

Это часто происходит из-за применения фильтров и сортировки, особенно, на сайтах электронной коммерции. Например, когда URL https://www.example.com/dog-products/red-harness/ и https://www.example.com/category-dog/red-harness/ отображают идентичный контент.

3. GET-параметры и UTM-метки:

Часто URL различаются значениями GET-параметров, при этом контент одинаков.

Например, такими параметрами могут быть UTM-метки:
https://example.com/page?utm_source=link&utm_medium=cpc&utm_campaign=new

А также параметры AMP-страницы: http://example.com/page?AMP

4. Версии сайта для разных регионов:

Например, контент, предназначенный для пользователей из США и Великобритании, находится по разным URL-адресам, но фактически является одним и тем же контентом на одном и том же языке.

Пример, https://en-us.example.com/ и https://en-gb.example.com

5. Скопированный(или синдицированный) контент

Публикация контента на других веб-сайтах может привести к дублированию.

6. Демоверсия сайта

Не редко поисковым роботам доступна демоверсия сайта.

Что такое нормализация (canonicalization)?

В SEO нормализация представляет собой процесс указания поисковым машинам предпочтительной(канонической) версии страницы, т.е. той страницы, которую вы хотите, чтобы поисковые системы показывали пользователям.

Если вы видите, что страницы-дубли ранжируются лучше, чем предпочтитаемая вами версия, внедрение аннотации link с атрибутом rel=”canonical” поможет разрешить ситуацию.

Элемент link с атрибутом rel=”canonical” (также известный как канонический элемент) – это фрагмент кода, размещаемый в разделе head HTML-страницы, который указывает поисковой системе Google предпочтительную версию страницы.

Вот как выглядит этот код на веб-сайте:

<link rel="canonical" href="https://ivannikitin.com/" />

Если у вас есть доступ к настройкам сервера, то для того, чтобы указать канонический URL, вместо элемента HTML можно использовать HTTP-заголовок с атрибутом rel=”canonical” .

Зачем нужна нормализация?

Поисковые системы имеют возможность обнаруживать и игнорировать дубликаты, тогда почему нам нужно заморачиваться этим вопросом?

– Поисковые системы действительно часто правильно выбирают кононическую страницу, но в ряде случаев совершают ошибки.

Наличие дубликатов страниц может привести к путанице для поисковых систем: некоторые страницы могут быть проигнорированы, другим может быть уделено больше внимания, а некоторые страницы могут вообще не появиться в результатах поиска.

Нормализация вносит порядок в эту путаницу и гарантирует, что из любых дублирующихся страниц поисковые системы корректно выберут и отобразят в результатах поиска именно предпочтительную страницу.

Указывая предпочтительную страницу с помощью канонических элементов, вы даете поисковым системам четкие указания относительно того, какой версии контента отдать приоритет.

Как Google определяет каноническую версию страницы?

Когда Google обнаруживает несколько страниц, которые кажутся похожими во время индексирования, робот выбирает в качестве канонической ту из них, контент которой он интерпретирует как наиболее полный и полезный для пользователя. Но как Google это определяет? Согласно документации Google, они учитывают следующие факторы:

Мобильная и десктопная версии страницы

При индексировании с приоритетом мобильного контента (mobile-first indexing) Google предпочтет отдать приоритет мобильной версии страницы в результатах поиска над версией настольного компьютера, даже если десктопная версия указана канонической. Все больше пользователей заходят в Интернет с мобильных устройств, и Google стремится обеспечить лучший пользовательский опыт на мобильных устройствах.

HTTPS и HTTP

При определении канонических ссылок Google отдает предпочтение защищенным страницам HTTPS, хотя есть исключения, о которых вы можете прочитать здесь.

URL-адреса без параметров запроса и URL-адреса с параметрами

Google предпочитает более короткие и понятные URL-адреса, поскольку считает их более удобными для пользователя. Например, адрес https://www.womenintechseo.com/mentorship/ получит более высокий приоритет по сравнению с https://www.womenintechseo.com/blog/mentorship?2023=july/.

Веб-страницы вместо PDF-файлов и других форматов файлов

Google обычно выбирает веб-страницы в качестве канонических версий страниц, поскольку они более доступны для пользователей, чем PDF-файлы или другие форматы файлов.

Язык

Если вы создали страницы, ориентированные на разные языки и местоположения, Google может выбрать в качестве канонической версию страницы, соответствующую языку запроса пользователя. Например, если пользователь выполняет поиск на французском языке, Google выберет французскую страницу в качестве канонической.

Общие сигналы качества страницы

Google оценивает различные сигналы при выборе канонической страницы, включая пользовательский опыт (UX), экспертизу, авторитетность, доверие (EEAT) и соответствие языку. Страницы, которые демонстрируют сильные сигналы в этих областях, имеют более высокий шанс быть выбранными в качестве канонической версии.

Оптимизируя предпочитаемые нами страницы в соответствии с указаниями Google, мы повышаем шансы того, Google выберет правильную каноническую страницу

Технические факторы, которые помогают отправить более сильный канонический сигнал

Канонический элемент (canonical element) является самым простым способом сообщить Google, что существует версия данной страницы, которую вы хотели бы проиндексировать.

Включение в <head> HTML-страницы канонического элемента <link rel=”canonical”href=https://www.example.com/> действует как сигнал, но поскольку канонический элемент является лишь подсказкой, а не директивой, то иногда игнорируется Google, например, см скриншот ниже:

Скриншот из GSC, отчет об индексации, ноябрь 2023 года. Каноническая ссылка, выбранная Google не совпадает с выбором пользователя.

Как передать в Google Поиск канонический URL? Следуйте рекомендациям ниже, чтобы отправить более сильные сигналы нормализации Google:

1. HTTPS:

Google предпочитает безопасные страницы (HTTPS) небезопасным (HTTP). Хотя для Google HTTPS-страницы являются приоритетными по умолчанию, вы можете явным образом указать, что именно HTTPS-версия должна быть канонической. Для этого выполните одно из следующих действий:

  • Добавьте переадресацию с HTTP-страницы на HTTPS.
  • Используйте переадресацию со страницы HTTP на страницу HTTPS с помощью элемента link с атрибутом rel="canonical".
  • Используйте технологию HSTS.

2. Простая структура URL(Clean” URL Structure):

Простые удобные для пользователя URL-адреса без избыточных параметров или деталей пагинации являются сигналом для Google, что эти страницы следует рассматривать в проиритете. Упрощение структуры URL предпочтительной для вас страницы усиливает канонический сигнал.

3. Внутренняя ссылочная структура:

Внутренние ссылки указывают на важность и актуальность ваших страниц. Убедитесь, что внутренние ссылки ведут только на каноническую версию (а не на не-канонические версии).

4. Аннотация hreflang:

Включение аннотаций hreflang на ваших страницах сообщает Google о вашем местоположении и/или языковом геотаргетинге. Это помогает обеспечить предоставление наиболее релевантной версии страницы.

Включение аннотаций hreflang на ваши страницы сообщает Google о вашем местоположении и/или языковом таргетинге. Это гарантирует, что будет отображаться наиболее релевантная версия страницы.

5. Карта сайта:

Включение URL-адресов в вашу карту сайта указывает Google, что вы считаете эти страницы ценными и заслуживающими приоритетного индексирования. Поэтому размещение канонического URL в карте сайта усиливает канонические сигналы для Google.

6. Внешние ссылки:

Когда другие веб-сайты ссылается на вашу предпочтительную страницу, это является мощным сигналом для Google, сообщающим о том, что пользователи находят ваш контент ценным и полезным. Если вы занимаетесь PR или другими видами построения ссылочного профиля, убедитесь, что вы проставляете ссылки именно на канонические версии ваших страниц.

7. 301-перенаправления:

Будьте внимательны! 301-перенаправления следует рассматривать только в случае, если нет твердых оснований для сосуществования нескольких версий страницы, и ваша цель – окончательное объединение этих версий. Внедрение 301-перенаправления не только обеспечит маршрутизацию пользователей на правильную версию страницы, но также передаст ссылочный вес и другие сигналы ранжирования выбранной странице.

Все эти факторы можно комбинировать, тем самым повышая их эффективность.

Аудит вашего сайта на предмет канонических ошибок

скриншот отчета Canonicals в Screaming Frog

Как узнать, есть ли у вашего сайта проблемы с канонизацией? Выполните следующие действия:

  • Изучите канонические статусы страниц: начните со сканирования вашего веб-сайта при помощи соответствующего инструмента, такого как, например, Screaming Frog.
  • Изучите полученные данные. Откройте вкладку «Canonicals» в инструменте, чтобы просмотреть сводные данные, включая процент канонизированных страниц (Canonicalised), т.е. страниц которые имеют канонический URL-адрес, отличный от самого себя, а также отсутствующих канонических страниц (Missing), страниц содержащих канонический URL самой страницы (Self Referencing), множественных канонических страниц (Multiple) и неиндексируемых канонических страниц. Анализ этих данных даст ценную информацию и поможет выявить потенциальные проблемы с канонизацией.
  • Экспортируйте все страницы и убедитесь правильно ли реализованы канонические теги и указывают ли они на нужные страницы.


  • Проверьте возможность сканирования и индексации: убедитесь, что выбранные вами канонические страницы доступны для сканирования и индексации, страницы должны отдавать 200 ответ.
  • Проверьте Google Search Console: крайне важно обеспечить соблюдение поисковыми системами канонических подсказок. Вы можете продолжить исследование, изучив отчет в Google Search Console (GSC) – “Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают.”



    Скриншоты из GSC – Канонические версии страницы, выбранные Google и пользователем, не совпадают.
  • Исследуйте несоответствия: если аудит выявляет случаи, когда канонические подсказки не соблюдаются или страницы не ранжируются должным образом, копайте глубже, чтобы понять причины этого. Проверьте URL-адреса, чтобы определить, какую страницу Google предпочитает предпочитаемой вами канонической.
  • Усиление канонических сигналов. Оцените, обладают ли канонические страницы всеми факторами, которые способствуют сильному каноническому сигналу. Возможно, вам захочется вернуться к этому списку.
  • Бонус! Рассмотрите возможность внедрения самоссылающихся канонических тегов для всех канонических версий страниц. Это может показаться излишним, но это может быть полезно: если в какой-то момент в будущем изменения на сайте приведут к добавлению параметров к этим URL-адресам, это может вызвать новые проблемы с дублирующимся контентом, поэтому лучше предотвратить это до того, как это произойдет.
Изображение блок-схемы аудита канонизации

Изображение блок-схемы аудита канонизации

Методы нормализации

Google поддерживает аннотации link с атрибутом rel canonical, как описано в документе RFC 6596. Аннотации link с атрибутом rel=”canonical” можно добавить двумя способами:

  • внедрив элемент link с атрибутом rel=”canonical” на HTML-страницу;
  • указав атрибут rel=”canonical” в HTTP-заголовке link

Включите тег link с атрибутом rel=”canonical” в раздел <head> дублирующихся HTML-страниц, укажите в нем предпочтительную версию. Вот пример:

<html>

<head>

<title>Red Dog Harnesses</title>

<link rel="canonical" href="https://example.com/dog-products/red-harness" />

<!-- other elements -->

</head>

<!-- rest of the HTML →

Используйте абсолютные пути при реализации канонического тега, а не относительные пути. Например, используйте: https://www.dogstore/dog-harness/red-harness/, а не Dogstore/dog-harness/red-harness/.

Тег link с атрибутом rel=”canonical” можно внедрить с помощью кода JavaScript, хотя мы не рекомендуем этого делать. Если вы решите реализовать канонизацию на основе JavaScript, следуйте этому руководству.

HTTP-заголовок с атрибутом rel=”canonical”

Для таких документов, как PDF-файлы, XLX, документы Word, изображения или видео, вы можете внедрить канонический URL в заголовок HTTP. Для этого метода требуется доступ к файлу конфигурации вашего сервера.

Если ваш контент публикуется в разных форматах, например PDF или Microsoft Word, и у каждого свой URL, то из HTTP-заголовка с атрибутом rel=”canonical” робот Googlebot сможет получить канонический URL файлов, которые не относятся к HTML.

Например, добавив этот HTTP-заголовок в версию в формате .docx, можно обозначить, что канонической является версия документа в формате PDF, а не .docx:

Вот пример:

HTTP/1.1 200 OK
Content-Length: 19
...
Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"
...

Распространенные канонические ошибки, которых следует избегать

Размещение тега canonical в HTML-элемент <body>

Информация о вашей странице, включая канонические теги, должна быть добавлена в раздел <head>. Канонические теги в разделе <body> будут игнорироваться Google. Проверка того, где появляются ваши канонические теги, поможет вам определить, не переместился элемент канонической ссылки в основной раздел ваших страниц.

Канонизация страниц пагинации

Многие люди предпочитают канонизировать страницы пагинации, чтобы избежать конкуренции, поскольку они часто имеют схожий контент. Однако это может помешать обнаружению и индексированию отдельных страниц, на которые есть ссылки из серии пронумерованных страниц. Если это вас беспокоит, вместо этого рекомендуется реализовать самоссылающиеся канонические теги на страницах пагинации.

Отправка противоречивых канонических сигналов

Если вы установили канонический тег для конкретной страницы, а затем включили другой вариант этой страницы в карту сайта или внутреннюю ссылку на этот вариант, это отправит противоречивый сигнал и может заставить поисковые системы подумать: «О! Они определенно запутались, я проигнорирую тег canonical и выберу каноническую версию самостоятельно!».

Канонизация междоменного скопированного контента

Раньше канонизация скопированного контента считалась нормальной практикой. Однако недавно Google обновил свою документацию, заявив, что: «Элемент канонической ссылки не рекомендуется использовать тем, кто хочет предотвратить дублирование своего контента партнерами по распространению, поскольку страницы часто сильно отличаются».

Согласно обновленной документации Google, наиболее эффективное решение — блокировать партнерами индексацию синдицированного контента.

Сокращенный перевод статьи Dealing with Duplicate Content: Canonicalization in Detail, автор Ebere Jonathan

Добавить комментарий