Спросите SEO-специалиста: как не дать результатам фильтрации съедать бюджет сканирования

<стр>Узнайте, как оптимизировать бюджет сканирования вашего веб-сайта и предотвратить потребление ценных ресурсов сканирования результатами фильтрации.

Сегодняшний вопрос Вопрос по SEO поступил от Михала из Братиславы, который спрашивает:

“У меня есть клиент, у которого есть веб-сайт с фильтрами, основанными на местоположениях на карте. Когда посетитель перемещается по карте, создается новый URL-адрес с фильтрами. Их нет в карте сайта. Однако в Search Console содержится более 700 000 URL-адресов (не проиндексированных), и они съедают бюджет сканирования.

<п>Как лучше всего избавиться от этих URL-адресов? Моя идея состоит в том, чтобы сохранить базовое местоположение ‘index, Follow’ и вновь созданные URL-адреса окруженной области с фильтрами переключаются на ‘noindex, no Follow’. Также отметьте окруженные области каноническими обозначениями базовой локации + дезавуируйте нежелательные ссылки.”

<стр>Отличный вопрос, Михал, и хорошие новости! Ответ легко реализовать.

<п>Во-первых, давайте посмотрим, что вы пытаетесь применить, и применим это к другим ситуациям, например к электронной коммерции и издателям. Таким образом, больше людей смогут получить пользу. Затем перейдите к своим стратегиям выше и закончите решением.

Что такое бюджет сканирования и как создаются параметры, которые тратят его впустую

Если вы не уверены, что Михал имеет в виду под бюджетом сканирования, это термин, который используют некоторые SEO-профессионалы. используйте, чтобы объяснить, что Google и другие поисковые системы будут сканировать только определенное количество страниц вашего сайта, прежде чем он остановится.

Если ваш краулинговый бюджет используется для малоценных, тонких или неиндексируемых страниц, ваши хорошие страницы и новые страницы могут быть не найдены при сканировании.

Если они не найдены, они могут не быть проиндексированы или обновлены. Если они не проиндексированы, они не смогут принести вам SEO-трафик.

Вот почему так важно оптимизировать бюджет сканирования для повышения эффективности.

<п>Михал поделился примером того, как <сильный>“худой” URL-адреса с точки зрения SEO создаются по мере того, как клиенты используют фильтры.

Удобство для пользователя приносит пользу, но с точки зрения SEO страница, основанная на местоположении, была бы лучше. Это относится и к электронной коммерции, и к издателям.

В интернет-магазинах будет выполняться поиск по таким цветам, как красный или зеленый, а также по таким товарам, как футболки и картофельные чипсы.

Они создают URL-адреса с параметрами, подобными фильтру поиска местоположений. Их также можно создавать, используя фильтры по размеру, полу, цвету, цене, вариациям, совместимости и т. д. в процессе покупок.

Отфильтрованные результаты помогают конечному пользователю, но напрямую конкурируют со страницей коллекции, и коллекция будет иметь вид “нетонких” версия.

<п>У издателей то же самое. Кто-то может находиться на SEJ и искать SEO или PPC в поле поиска и получить отфильтрованный результат. В отфильтрованном результате будут статьи, но категория публикации, вероятно, будет лучшим результатом для поисковой системы.

<п>Эти отфильтрованные результаты могут быть проиндексированы, поскольку ими делятся в социальных сетях или кто-то добавляет их в качестве комментария в блоге или на форуме, создавая сканируемую обратную ссылку. Это также может быть ответ сотрудника службы поддержки клиентов на вопрос в блоге компании или любым другим способом.

Сейчас цель состоит в том, чтобы поисковые системы не тратили время на сканирование версий “thin”, поэтому вы сможете максимально эффективно использовать свой краулинговый бюджет.

Разница между индексированием и сканированием

Прежде чем мы перейдем к предлагаемым идеям и решениям, необходимо усвоить еще одну вещь – разница между индексированием и сканированием.

<п>Страницы могут сканироваться, но не индексироваться. Проиндексированные страницы, скорее всего, были просканированы и, скорее всего, будут просканированы снова для поиска обновлений и ответов сервера.

Но не все проиндексированные страницы будут приносить трафик или попадать на первую страницу, потому что они могут не быть лучшим ответом на искомые запросы.

<стр>Теперь давайте перейдем к эффективному использованию краулингового бюджета для подобных решений.

Использование Meta Robots или X Robots

Первое решение, на которое указал Михал, — это директива “index,follow”. Это говорит поисковой системе индексировать страницу и переходить по ссылкам на ней. Это хорошая идея, но только если отфильтрованный результат — идеальный опыт.

Насколько я вижу, это не тот случай, поэтому я бы рекомендовал сделать это “noindex,follow.” <п>Noindex сказал бы: «Это не официальная страница, но продолжайте сканировать мой сайт, здесь вы найдете хорошие страницы».

И если у вас правильно настроено главное меню и внутренние навигационные ссылки, паук, надеюсь, продолжит их сканировать.

Canonicals для решения проблемы нерационального бюджета на сканирование

Канонические ссылки используются, чтобы помочь поисковым системам узнать, какую официальную страницу индексировать.

Если продукт существует в трех категориях по трем отдельным URL-адресам, только один должен быть “официальный”версию, поэтому два дубликата должны иметь каноническую ссылку на официальную версию. Официальный должен иметь каноническую ссылку, указывающую на себя. Это относится к отфильтрованным местоположениям.

Если поиск местоположения приведет к появлению нескольких страниц городов или районов, результатом, скорее всего, будет дубликат официальной страницы, указанной в вашей карте сайта.

Пусть отфильтрованные результаты указывают на каноническую ссылку на главную страницу фильтрации, а не на самоссылку, если содержимое на странице остается таким же, как исходная категория.

Если контент попадает на вашу локализованную страницу в тех же местах, вместо этого укажите каноническую страницу на эту страницу.

В большинстве случаев отфильтрованная версия наследует страницу, на которой вы выполняли поиск или фильтрацию, поэтому каноническая версия должна указывать именно на нее.

Если вы одновременно используете noindex и имеете каноническую ссылку на себя, что является излишним, это становится конфликтующим сигналом.

То же самое относится и к тому, когда кто-то ищет товар по названию на вашем сайте. Результат поиска может конкурировать с фактической страницей продукта или услуги.

С помощью этого решения вы говорите пауку не индексировать эту страницу, потому что ее не стоит индексировать, но это также официальная версия. Делать это бессмысленно.

<п>Вместо этого используйте каноническую ссылку, как я упоминал выше, или не индексируйте результат и укажите каноническую на официальную версию.

Отключить для повышения эффективности сканирования

Отказ не имеет ничего общего с эффективностью сканирования, если только пауки поисковых систем не находят ваш “thin& рдкво; страницы через спам-обратные ссылки.

<п>Инструмент отклонения от Google — это способ сказать: «Эй, эти обратные ссылки — спам, и мы не хотим, чтобы они нам навредили». Пожалуйста, не засчитывайте их в авторитет нашего сайта.

В большинстве случаев это не имеет значения, поскольку Google хорошо обнаруживает спам-ссылки и игнорирует их.

Вы не хотите добавлять свой сайт и свои URL-адреса в инструмент отклонения. Вы сообщаете Google, что ваш сайт является спамом и ничего не стоит.

Кроме того, отправка обратных ссылок для отклонения не помешает пауку увидеть то, что вы хотите, и не хотите, чтобы их сканировали, поскольку это делается только для того, чтобы сказать, что ссылка с другого сайта является спамом.

Отказ не поможет повысить эффективность сканирования или сэкономить бюджет на сканирование.

Как повысить эффективность бюджета сканирования

Ответ: robots.txt. Таким образом вы сообщаете конкретным поисковым системам и паукам, что сканировать.

Вы можете включить папки, которые вы хотите, чтобы они сканировали, рекламируя их как “allow,” и вы можете сказать <сильный>“disallow” на отфильтрованных результатах, запретив тег “?” или “&” символ или любой другой, который вы используете.

Если некоторые из этих параметров необходимо сканировать, добавьте основное слово, например “?filter=location” или конкретный параметр.

Robots.txt позволяет определять пути сканирования и работать над эффективностью сканирования. После того, как вы это оптимизировали, посмотрите на свои внутренние ссылки. Ссылка с одной страницы вашего сайта на другую.

<стр>Они помогают паукам находить самые важные страницы и узнавать, о чем каждая из них.

Внутренние ссылки включают:

Вы также можете использовать карту сайта, если у вас большой сайт, и пауки не находят нужные вам страницы с приоритетом.

Надеюсь, это поможет ответить на ваш вопрос. Это то, что я получаю часто – ты не единственный, кто застрял в такой ситуации.