Новости

Как быстро идентифицировать дублирующийся контент при сканировании сайта

  1. Хотите быть в курсе последних тенденций поиска?
  2. Хотите быть в курсе последних тенденций поиска?

Эта статья представляет собой простое описание того, как использовать сканер сайтов SEO для быстрой идентификации дублированного контента. Существует множество инструментов, но Screaming Frog, безусловно, является одним из самых популярных и мощных скребков, и он является пауком для этого урока.

Первый шаг к сканированию любого сайта - это настройка. Ограничьте просматриваемые страницы любым удобным для вас способом, поскольку, как правило, в интересах всех, чтобы не царапать весь Интернет.

Показанные выше параметры были выбраны для этого примера сканирования Costco.com. Ограничивая «Общий лимит поиска», Screaming Frog будет сканировать только первые 100 URL-адресов, с которыми сталкивается.

После того, как параметры были указаны, введите адрес сайта и нажмите «Пуск». В большинстве инструментов сканирования URL-адреса отображаются по запросу. Когда процесс завершится, нажмите «Экспорт».

Когда процесс завершится, нажмите «Экспорт»

Хотя Screaming Frog использовался для получения списка результатов, показанного ниже, можно использовать любой инструмент, который может запрашивать, анализировать и экспортировать эти данные:

  • Адрес
  • Код состояния
  • Заголовок страницы
  • Метаданные
  • Мета Обновить
  • канонический

Адрес   Код состояния   Заголовок страницы   Метаданные   Мета Обновить   канонический

В простоте есть красота, и этот отчет определенно прост, но эффективен. Справа от кодов состояния находится заголовок страницы, отсортированный по возрастанию и с выделенными дублирующимися значениями (с использованием условного форматирования в Excel). Столбцы справа от заголовков страниц показывают, содержат ли эти страницы директивы, поисковые системы последует

  • Метаданные: будут отображаться любые мета-метки роботов Noindex
  • Meta Refresh: иногда используется для перенаправления пользователей
  • Канонический: используется на дублирующих (или подмножественных) страницах для указания на авторитетный или ранжирующий URL

Продолжая методологию выявления дублирующегося контента, сканируя столбец «Заголовки страниц» и ища дубликаты, выделенные розовым цветом, мы находим то, что выглядит как дубликаты страниц обслуживания клиентов на изображении, показанном выше.

http://www.costco.com/customer-service.html
http://www.costco.com/customer-service.html?cm_re=Common-_-Top_Nav-_-Customer_Service

Если взглянуть направо, то очевидно, что метаданные и метаобновление не используются, но оба содержат каноническое значение:

http://www.costco.com/customer-service.html

Это отличные новости! Это означает, что они используют самореферентные каноники справиться хотя бы с некоторым их дублированием.

Теперь, просматривая оставшуюся часть этих данных, мы знаем, что может быть много случаев, когда происходит то же самое, так что может быть проще искать случаи, когда существуют повторяющиеся заголовки страниц, но каноническое пусто. Для больших наборов данных было бы неплохо использовать фильтры для достижения этой цели, но, поскольку это всего лишь пример сканирования, вы можете увидеть ниже, что это довольно очевидно.

Для больших наборов данных было бы неплохо использовать фильтры для достижения этой цели, но, поскольку это всего лишь пример сканирования, вы можете увидеть ниже, что это довольно очевидно

Подожди, что это там, Костко? Похоже, они забыли использовать свою каноническую стратегию для домашней страницы!

http://www.costco.com/
http://www.costco.com/?cm_re=Common-_-Top_Nav-_-Home
http://www.costco.com/TopCategories?langId=-1&storeId=10301&catalogId=10701

Добавление этих дублирующих страниц в Open Site Explorer и Majestic SEO не выявило обратных ссылок, но, поскольку эти страницы внутренне связаны и доступны для навигации, у пользователей определенно есть возможность ссылаться на них и возможность разделения ссылок. В соответствии с передовой практикой они должны добавить каноническую ссылку на домашнюю страницу, чтобы убедиться, что все свойства индексации URL-адресов, содержащих параметры отслеживания, объединены на своем законном месте - на странице рейтинга.

Сканеры сайта должны использоваться с осторожностью! Сайт можно сломать, если он сканируется слишком быстро. При этом они играют ключевую роль в выявлении проблем на сайте, имеющих отношение к SEO, а также в понимании масштаба, в котором происходит конкретная проблема.

Хотите быть в курсе последних тенденций поиска?

Получить лучшие идеи и новости от наших экспертов по поиску.

Хотите быть в курсе последних тенденций поиска?

Получить лучшие идеи и новости от наших экспертов по поиску.

Хотите быть в курсе последних тенденций поиска?
Хотите быть в курсе последних тенденций поиска?
Html?
Подожди, что это там, Костко?
Com/?
Com/TopCategories?
Хотите быть в курсе последних тенденций поиска?
Хотите быть в курсе последних тенденций поиска?