8 распространенных проблем с файлом Robots.txt и amp; И как их исправить

<стр>Узнайте о наиболее распространенных проблемах с файлом robots.txt, о том, какое влияние они могут оказать на ваш веб-сайт и результаты поиска, а также о том, как их исправить. <п> <изображение fetchpriority="высокий" src="https://www.searchenginejournal.com/wp-content/uploads/2022/02/common-robots.txt-issues-620a5e42a0256-sej-760x400.png" ширина = "760" высота="400" alt="8 распространенных проблем с файлом Robots.txt и способы их устранения" srcset="https://www.searchenginejournal.com/wp-content/uploads/2022/02/common-robots.txt-issues-620a5e42a0256-sej-1520x800.png 1.5x" />

Robots.txt — это полезный и мощный инструмент, позволяющий проинструктировать сканеров поисковых систем о том, как вы хотите, чтобы они сканировали ваш сайт. Управление этим файлом — ключевой компонент хорошего технического SEO.

<п>Оно не всесильно – по словам самого Google, «это не механизм, позволяющий не допустить веб-страницу к Google»; – но это может помочь предотвратить перегрузку вашего сайта или сервера запросами сканеров.

Если на вашем сайте есть этот блокировщик сканирования, вы должны быть уверены, что он используется правильно.

Это особенно важно, если вы используете динамические URL-адреса или другие методы, которые генерируют теоретически бесконечное количество страниц.

<п>В этом руководстве мы рассмотрим некоторые наиболее распространенные проблемы с файлом robots.txt, их влияние на ваш веб-сайт и ваше присутствие в результатах поиска, а также способы устранения этих проблем, если вы считаете, что они возникли.

Но сначала давайте бегло взглянем на robots.txt и его альтернативы.

Что такое robots.txt?

Robots.txt использует текстовый формат и размещается в корневом каталоге вашего веб-сайта.

Он должен находиться в самом верхнем каталоге вашего сайта. Поисковые системы просто проигнорируют его, если вы поместите его в подкаталог.

<п>Несмотря на свою огромную мощь, robots.txt зачастую является относительно простым документом, и базовый файл robots.txt можно создать за считанные секунды с помощью такого редактора, как Блокнот. Вы можете весело провести время с ними и добавить дополнительные сообщения, чтобы пользователи могли их найти.

Изображение автора, февраль 2024 г.

Есть и другие способы достижения тех же целей, для которых обычно используется файл robots.txt.

Отдельные страницы могут включать метатег robots в самом коде страницы.

Вы также можете использовать HTTP-заголовок X-Robots-Tag, чтобы влиять на то, как (и будет ли) контент отображаться в результатах поиска.

Что может сделать robots.txt?

Robots.txt может достигать различных результатов в различных типах контента:

Сканирование веб-страниц можно заблокировать.

Они по-прежнему могут появляться в результатах поиска, но у них не будет текстового описания. Содержимое страницы, не являющееся HTML, также не будет сканироваться.

<п><сильный>Медиа-файлы можно заблокировать в результатах поиска Google.

Включает изображения, видео и аудиофайлы.

Если файл является общедоступным, он все равно будет “существовать” онлайн, его можно просматривать и на него можно ссылаться, но этот личный контент не будет отображаться в результатах поиска Google.

Ресурсные файлы, такие как неважные внешние скрипты, могут быть заблокированы.

<п>Но это означает, что если Google просканирует страницу, для загрузки которой требуется этот ресурс, робот Googlebot “увидит” версия страницы, как если бы этот ресурс не существовал, что может повлиять на индексацию.

Вы не можете использовать robots.txt, чтобы полностью заблокировать появление веб-страницы в результатах поиска Google.

Для этого необходимо использовать альтернативный метод, например, добавить метатег noindex в заголовок страницы.

Насколько опасны ошибки в robots.txt?

Ошибка в robots.txt может иметь непредвиденные последствия, но зачастую это не конец света.

Хорошая новость заключается в том, что исправив файл robots.txt, вы сможете быстро и (обычно) полностью восстановиться после любых ошибок.

“Веб-сканеры, как правило, очень гибки и обычно не подвержены влиянию мелких ошибок в файле robots.txt. В общем, худшее, что может случиться, — это то, что неправильные [или] неподдерживаемые директивы будут игнорироваться.

Имейте в виду, что Google не может читать мысли при интерпретации файла robots.txt; нам нужно интерпретировать полученный нами файл robots.txt. Тем не менее, если вы знаете о проблемах в файле robots.txt, их обычно легко исправить.”

8 распространенных ошибок в файле Robots.txt

<ол>

Robots.txt не находится в корневом каталоге.

Плохое использование подстановочных знаков.

Noindex в robots.txt.

Заблокированные скрипты и таблицы стилей.

Нет URL-адреса карты сайта.

<ли>Доступ к сайтам разработки.

Использование абсолютных URL-адресов.

Устарело иamp;amp; Неподдерживаемые элементы.

Если ваш веб-сайт ведет себя странно в результатах поиска, файл robots.txt — хорошее место для поиска ошибок, синтаксических ошибок и нарушений правил.

Давайте рассмотрим каждую из вышеперечисленных ошибок более подробно и выясним, как убедиться, что у вас правильный файл robots.txt.

<х3>1. Robots.txt отсутствует в корневом каталоге

<п>Поисковые роботы смогут обнаружить файл, только если он находится в вашей корневой папке.

Вот почему между .com (или эквивалентным доменом) вашего веб-сайта и ‘robots.txt’ должна быть только косая черта. имя файла в URL-адресе вашего файла robots.txt.

Если там есть подпапка, ваш файл robots.txt, вероятно, не виден поисковым роботам, и ваш веб-сайт, вероятно, ведет себя так, как будто файла robots.txt вообще не существует.

Чтобы решить эту проблему, переместите файл robots.txt в корневой каталог.

Стоит отметить, что для этого вам потребуется root-доступ к вашему серверу.

Некоторые системы управления контентом загружают файлы на “media” подкаталог (или что-то подобное) по умолчанию, поэтому вам может потребоваться обойти это, чтобы разместить файл robots.txt в нужном месте.

<х3>2. Плохое использование подстановочных знаков

Robots.txt поддерживает два подстановочных знака:

<ул>

Звездочка (*) – представляет любые экземпляры допустимого персонажа, например Джокера в колоде карт. .

Знак доллара ($) – обозначает конец URL-адреса, позволяя применять правила только к последней части URL-адреса, например к расширению типа файла.

Применять минималистский подход к использованию подстановочных знаков важно, так как они могут наложить ограничения на гораздо более широкую часть вашего веб-сайта.

Также относительно легко заблокировать доступ роботов со всего сайта с помощью неудачно расположенной звездочки.

Протестируйте правила с подстановочными знаками с помощью инструмента тестирования robots.txt, чтобы убедиться, что они ведут себя должным образом. Будьте осторожны с использованием подстановочных знаков, чтобы случайно не заблокировать или не разрешить слишком многое.

<х3>3. Noindex в robots.txt

Этот вариант чаще встречается на веб-сайтах, которым больше нескольких лет.

<п>Google прекратил соблюдать правила noindex в файлах robots.txt с 1 сентября 2019 г.

Если ваш файл robots.txt был создан до этой даты или содержит инструкции noindex, вы, скорее всего, увидите эти страницы проиндексированными в результатах поиска Google.

Решением этой проблемы является реализация альтернативного метода “noindex” метод.

Одним из вариантов является метатег robots, который вы можете добавить в заголовок любой веб-страницы, которую хотите запретить Google индексировать.

<х3>4. Заблокированные скрипты и таблицы стилей

Может показаться логичным заблокировать доступ сканеров к внешним JavaScript и каскадным таблицам стилей (CSS).

Однако помните, что роботу Googlebot необходим доступ к файлам CSS и JS, чтобы “видеть” ваши HTML и PHP-страницы правильно.

Если ваши страницы ведут себя странно в результатах Google или кажется, что Google видит их неправильно, проверьте, не блокируете ли вы доступ сканера к необходимым внешним файлам.

Простое решение этой проблемы — удалить из файла robots.txt строку, которая блокирует доступ.

Или, если у вас есть файлы, которые нужно заблокировать, вставьте исключение, которое восстанавливает доступ к необходимому CSS и JavaScript.

<х3>5. Нет URL-адреса XML-карты сайта

Это больше касается SEO, чем чего-либо еще.

Вы можете включить URL-адрес вашей XML-карты сайта в файл robots.txt.

Поскольку это первое место, куда робот Google смотрит при сканировании вашего веб-сайта, это дает сканеру преимущество в знании структуры и основных страниц вашего сайта.

<п>Хотя это не является строго ошибкой – поскольку отсутствие карты сайта не должно отрицательно влиять на фактическую основную функциональность и внешний вид вашего веб-сайта в результатах поиска – все же стоит добавить URL-адрес карты сайта в robots.txt, если вы хотите ускорить свои усилия по SEO.

<х3>6. Доступ к сайтам разработки

Блокировать сканеров на вашем действующем веб-сайте нельзя, но также разрешать им сканировать и индексировать ваши страницы, которые все еще находятся в разработке.

Лучше всего добавить инструкцию запрета в файл robots.txt строящегося веб-сайта, чтобы широкая публика не увидела его, пока он не будет завершен.

Также крайне важно удалить инструкцию запрета при запуске готового веб-сайта.

<п>Забыть удалить эту строку из файла robots.txt — одна из самых распространенных ошибок среди веб-разработчиков; это может помешать правильному сканированию и индексации всего вашего сайта.

Если кажется, что ваш сайт разработки получает реальный трафик или ваш недавно запущенный веб-сайт не очень хорошо работает в поиске, найдите правило запрета универсального пользовательского агента в файле robots.txt:<бр> <бр> Пользовательский агент: *
<бр> Запретить: /
<бр> Если вы видите это, когда не должны (или не видите, когда должны), внесите необходимые изменения в файл robots.txt и убедитесь, что внешний вид вашего веб-сайта при поиске обновляется соответствующим образом.<х3>7. Использование абсолютных URL-адресов

Хотя использование абсолютных URL-адресов в таких вещах, как канонические файлы и hreflang, является лучшей практикой, для URL-адресов в файле robots.txt верно обратное.

Использование относительных путей в файле robots.txt — рекомендуемый подход для указания того, какие части сайта не должны быть доступны сканерам.

Это подробно описано в документации Google robots.txt, где указано:

Каталог или страница относительно корневого домена, которые могут сканироваться только что упомянутым пользовательским агентом.

<п>Когда вы используете абсолютный URL-адрес, нет никакой гарантии, что сканеры интерпретируют его должным образом и что правило запрета/разрешения будет соблюдено.

<х3>8. Устаревший & Неподдерживаемые элементы

Хотя правила для файлов robots.txt не сильно изменились за прошедшие годы, часто включаются два элемента:

<ул>

Задержка сканирования.

Безиндекс.

<п>Хотя Bing поддерживает задержку сканирования, Google ее не поддерживает, но веб-мастера часто указывают ее. Раньше вы могли задавать настройки сканирования в Google Search Console, но в конце 2023 года эта возможность была удалена.

Google объявила, что прекратит поддержку директивы noindex в файлах robots.txt в июле 2019 года. До этой даты веб-мастера могли использовать директиву noindex в своем файле robots.txt.

Это не получило широкой поддержки и не было стандартизировано, и предпочтительным методом noindex было использование on-page robots или мер x-robots на уровне страницы.

Как исправить ошибку в robots.txt

<п>Если ошибка в файле robots.txt оказывает нежелательное влияние на внешний вид вашего веб-сайта при поиске, первым делом нужно исправить файл robots.txt и убедиться, что новые правила оказывают желаемый эффект.

Некоторые инструменты SEO-сканирования помогут вам не ждать, пока поисковые системы просканируют ваш сайт в следующий раз.

Если вы уверены, что файл robots.txt ведет себя должным образом, вы можете попытаться как можно скорее выполнить повторное сканирование вашего сайта.

Такие платформы, как Google Search Console и Bing Webmaster Tools, могут помочь.

Отправьте обновленную карту сайта и запросите повторное сканирование всех страниц, которые были ошибочно исключены из списка.

К сожалению, вы подчиняетесь роботу Googlebot – нет никакой гарантии относительно того, сколько времени может потребоваться, чтобы недостающие страницы снова появились в поисковом индексе Google.

Все, что вы можете сделать, это принять правильные меры, чтобы максимально сократить это время, и продолжать проверку, пока робот Googlebot не внедрит исправленный файл robots.txt.

<ч2>Заключительные мысли

Что касается ошибок robots.txt, профилактика всегда лучше, чем лечение.

На большом веб-сайте, приносящем доход, случайный подстановочный знак, который удаляет весь ваш сайт из Google, может немедленно повлиять на прибыль.

Редактирование файла robots.txt должно быть тщательно выполнено опытными разработчиками, дважды проверено и – где это уместно – – подлежит второму мнению.

Если возможно, протестируйте в редакторе песочницы перед публикацией на реальном сервере, чтобы избежать непреднамеренного возникновения проблем с доступностью.

<п>Помните: когда случается худшее, важно не паниковать.

Диагностируйте проблему, внесите необходимые исправления в файл robots.txt и повторно отправьте карту сайта для нового сканирования.

Надеюсь, ваше место в поисковых рейтингах будет восстановлено в течение нескольких дней.