По-прежнему ли файл robots.txt актуален в эпоху искусственного интеллекта? Узнайте, почему этот файл имеет решающее значение для управления сканированием сайта и предотвращения распространенных ошибок.
Robots.txt только что исполнилось 30 лет – сигнал экзистенциального кризиса! Как и многие, кто добился крупного счета 3:0, он задается вопросом, актуален ли он по-прежнему в современном мире искусственного интеллекта и продвинутых алгоритмов поиска.
<стр>Внимание, спойлер: это определенно так!стр>
Давайте посмотрим, почему этот файл по-прежнему играет ключевую роль в управлении сканированием вашего сайта поисковыми системами, как правильно его использовать и какие распространенные ошибки следует избегать.
Что такое файл robots.txt?
Файл robots.txt предоставляет сканерам, таким как Googlebot и Bingbot, инструкции по сканированию вашего сайта. Подобно карте или справочнику при входе в музей, он действует как набор инструкций при входе на веб-сайт, включая подробную информацию о:стр> <ул>
Каким сканерам разрешен/запрещен вход?
Любые ограниченные области (страницы), которые не следует сканировать.
Приоритетные страницы для сканирования – через объявление карты сайта XML.
мкл> <п>Его основная роль заключается в управлении доступом сканеров к определенным областям веб-сайта путем указания того, какие части сайта являются «закрытыми». Это помогает гарантировать, что сканеры сосредоточатся на наиболее актуальном контенте, а не будут тратить бюджет сканирования на малоценный контент.
Хотя файл robots.txt направляет сканеры, важно отметить, что не все боты следуют его инструкциям, особенно вредоносные. Но для большинства законных поисковых систем соблюдение директив robots.txt является стандартной практикой.
Что содержится в файле robots.txt?
Файлы Robots.txt состоят из строк директив для сканеров поисковых систем и других ботов.
Действительные строки в файле robots.txt состоят из поля, двоеточия и значения.
Файлы Robots.txt также обычно содержат пустые строки для улучшения читаемости и комментарии, помогающие владельцам веб-сайтов отслеживать директивы.
Изображение автора, ноябрь 2024 г. <п>Чтобы лучше понять, что обычно включается в файл robots.txt и как его используют разные сайты, я изучил файлы robots.txt для 60 доменов с высокой долей голоса в сфере здравоохранения, финансовых услуг, розничной торговли и высоких технологий. тех.п>
Исключая комментарии и пустые строки, среднее количество строк в 60 файлах robots.txt составило 152.
<п>Крупные издатели и агрегаторы, такие как Hotels.com, forbes.com и nytimes.com, обычно имели более длинные файлы, тогда как больницы, такие как pennmedicine.org и hopkinsmedicine.com, обычно имели более короткие файлы. Файлы robots.txt на сайтах розничной торговли обычно имеют среднее значение 152.
.
Все проанализированные сайты включают поля user-agent и disallow в свои файлы robots.txt, а 77% сайтов включили объявление карты сайта в поле sitemap.
Поля, используемые реже, были разрешены (используются 60% сайтов) и задержка сканирования (используются 20%) сайтов.
<тело> <тр>
Field
% сайтов, использующих
тр> <тр>
пользовательский агент
100%
тр> <тр>
disallow
100%
тр> <тр>
карта сайта
77%
тр> <тр>
allow
60%
тр> <тр>
crawl-delay
20%
тр> тело> стол> <п>п>
Синтаксис файла Robots.txt
<п>Теперь, когда мы рассмотрели, какие типы полей обычно включаются в файл robots.txt, мы можем углубиться в то, что каждое из них означает и как его использовать.
Для получения дополнительной информации о синтаксисе robots.txt и о том, как он интерпретируется Google, ознакомьтесь с документацией Google robots.txt.
<сильный>Пользовательский агентсильный>
Поле user-agent указывает, к какому сканеру применяются директивы (запретить, разрешить). Вы можете использовать поле user-agent для создания правил, применимых к конкретным ботам/сканерам, или использовать подстановочный знак, чтобы указать правила, применимые ко всем сканерам.
Например, приведенный ниже синтаксис указывает, что любая из следующих директив применима только к роботу Googlebot.
пользовательский агент: Googlebot
Если вы хотите создать правила, применимые ко всем сканерам, вы можете использовать подстановочный знак вместо имени конкретного сканера.
пользовательский агент: *
<п>Вы можете включить в файл robots.txt несколько полей агента пользователя, чтобы задать определенные правила для разных сканеров или групп сканеров, например:
пользовательский агент: *
#Здесь правила будут применяться ко всем сканерам
пользовательский агент: Googlebot
#Правила здесь применимы только к роботу Google
пользовательский агент: другойбот1
пользовательский агент:otherbot2
пользовательский агент:otherbot3
#Правила здесь применимы к другимботам1, другимботам2 и другимботам3
Запретить и разрешить
<п>Поле запрета указывает пути, к которым назначенные сканеры не должны иметь доступ. Поле разрешения указывает пути, к которым могут получить доступ назначенные сканеры.
Поскольку робот Googlebot и другие сканеры предполагают, что они могут получить доступ к любым URL-адресам, которые не запрещены специально, многие сайты упрощают задачу и указывают только те пути, к которым нельзя получить доступ, с помощью поля запрета.< /п>
Например, приведенный ниже синтаксис предписывает всем сканерам не обращаться к URL-адресам, соответствующим пути /do-not-enter.
пользовательский агент: *
запретить: /do-not-enter
#Всем сканерам запрещено сканирование страниц с путем /do-not-enter
Если вы используете в файле robots.txt поля разрешений и запретов, обязательно прочтите раздел о порядке приоритета правил в документации Google.
Как правило, в случае противоречия правил Google будет использовать более конкретное правило.
Например, в приведенном ниже случае Google не будет сканировать страницы с указанием пути/не вводить, поскольку правило запрета более конкретное, чем правило разрешения.
пользовательский агент: *
разрешить: /
запретить: /do-not-enter
Если ни одно из правил не является более конкретным, Google по умолчанию будет использовать менее строгое правило.
<п>В приведенном ниже примере Google будет сканировать страницы с указанием пути/не вводить, поскольку правило разрешения менее строгое, чем правило запрета.
пользовательский агент: *
разрешить: /do-not-enter
запретить: /do-not-enter
Обратите внимание: если в полях разрешения или запрета не указан путь, правило будет игнорироваться.
пользовательский агент: *
запретить:
Это сильно отличается от включения косой черты (/) в качестве значения поля запрета, которое будет соответствовать корневому домену и любому URL-адресу нижнего уровня (перевод: каждая страница вашего сайта).
Если вы хотите, чтобы ваш сайт отображался в результатах поиска, убедитесь, что у вас нет следующего кода. Это заблокирует всем поисковым системам сканирование всех страниц вашего сайта.
пользовательский агент: *
запретить: /
<стр>Это может показаться очевидным, но поверьте мне, я видел, как это происходило.стр>
URL-пути
Изображение автора, ноябрь 2024 г.
URL-пути чувствительны к регистру, поэтому обязательно дважды проверьте, что использование заглавных и строчных букв в файле robot.txt соответствует предполагаемому URL-пути.
<сильный>Специальные символысильный>
Специальный символ — это символ, который имеет уникальную функцию или значение, а не просто представляет собой обычную букву или цифру. Специальные символы, поддерживаемые Google в файле robots.txt:
. <ул>
Звездочка (*) – соответствует 0 или более экземплярам любого символа.
Знак доллара ($) – обозначает конец URL.
мкл>
Чтобы проиллюстрировать, как работают эти специальные символы, предположим, что у нас есть небольшой сайт со следующими URL-адресами:
Пример сценария 1: Блокировка результатов поиска по сайту
<п>Обычно файл robots.txt используется для блокировки результатов внутреннего поиска по сайту, поскольку эти страницы обычно не представляют ценности для результатов обычного поиска.
В этом примере предположим, что когда пользователи выполняют поиск на https://www.example.com/search, их запрос добавляется к URL-адресу.
Если пользователь искал “руководство по XML-карте сайта” новый URL-адрес страницы результатов поиска будет https://www.example.com/search?search-query=xml-sitemap-guide.
.
Когда вы указываете URL-путь в файле robots.txt, он соответствует всем URL-адресам с этим путем, а не только точному URL-адресу. Таким образом, чтобы заблокировать оба URL-адреса, указанные выше, использование подстановочного знака не обязательно.
Следующее правило будет соответствовать как https://www.example.com/search, так и https://www.example.com/search?search-query=xml-sitemap-guide.п>
пользовательский агент: *
запретить: /search
<п>#Всем сканерам запрещено сканирование страниц с путем /search
Если бы был добавлен подстановочный знак (*), результаты были бы такими же.
пользовательский агент: *
запретить: /search*
#Всем сканерам запрещено сканирование страниц с путем /search
Пример сценария 2: Блокировка PDF-файлов
В некоторых случаях вам может потребоваться использовать файл robots.txt для блокировки определенных типов файлов.
<п>Представьте, что сайт решил создать PDF-версии каждого руководства, чтобы пользователям было проще его распечатать. В результате получаются два URL-адреса с одинаковым содержанием, поэтому владелец сайта может захотеть заблокировать поисковым системам сканирование PDF-версий каждого руководства.
В этом случае было бы полезно использовать подстановочный знак (*) для сопоставления URL-адресов, путь которых начинается с /guides/и заканчивается на .pdf, но символы между ними различаются.
пользовательский агент: *
запретить: /guides/*.pdf
#Всем сканерам запрещено сканирование страниц, URL-адреса которых содержат: /guides/, 0 или более экземпляров любого символа и .pdf
Приведенная выше директива запретит поисковым системам сканировать следующие URL-адреса:
В последнем примере предположим, что на сайте созданы страницы категорий для технических руководств и руководств по содержанию, чтобы пользователям было легче просматривать контент в будущем.
Однако, поскольку на данный момент на сайте опубликовано только три руководства, эти страницы не представляют особой ценности для пользователей и поисковых систем.
Владелец сайта может захотеть временно запретить поисковым системам сканировать только страницу категории (например, https://www.example.com/guides/technical), а не руководства внутри категории (например, https://www.example.com/guides/technical/robots-txt).
Для этого мы можем использовать “$” для обозначения конца пути URL.
пользовательский агент: *
запретить: /guides/technical$
запретить: /guides/content$
#Всем сканерам запрещено сканирование страниц, URL-адреса которых заканчиваются на /guides/technical и /guides/content
Приведенный выше синтаксис предотвратит сканирование следующих URL-адресов:
Поле карты сайта используется для предоставления поисковым системам ссылки на одну или несколько карт сайта XML.
<п>Хотя это и не обязательно, рекомендуется включать XML-карты сайта в файл robots.txt, чтобы предоставить поисковым системам список приоритетных URL-адресов для сканирования.
Значение поля карты сайта должно быть абсолютным URL-адресом (например, https://www.example.com/sitemap.xml), а не относительным URL-адресом (например, /sitemap.xml). Если у вас есть несколько карт сайта XML, вы можете включить несколько полей карты сайта.
Пример robots.txt с одной XML-картой сайта:
пользовательский агент: *
запретить: /do-not-enter
карта сайта: https://www.example.com/sitemap.xml
Пример robots.txt с несколькими XML-картами сайта:
<п>Как упоминалось выше, 20% сайтов также включают поле задержки сканирования в файл robots.txt.
Поле задержки сканирования сообщает ботам, насколько быстро они могут сканировать сайт, и обычно используется для замедления сканирования во избежание перегрузки серверов.
Значение задержки сканирования — это количество секунд, в течение которых сканеры должны ждать запроса новой страницы. Приведенное ниже правило предписывает указанному сканеру ждать пять секунд после каждого запроса, прежде чем запрашивать другой URL.
пользовательский агент: FastCrawlingBot
задержка сканирования: 5
Другие крупные поисковые системы, такие как Bing и Yahoo, соблюдают директивы о задержке сканирования для своих поисковых роботов.
<тело>
Search Engine
Основной пользовательский агент для поиска< /тд>
Учитывает задержку сканирования?тд> тр>
Google
Googlebot
Нет
тр>
Bing
Bingbot
Да
тр>
Yahoo
Slurp
Да
тр> <тр>
Яндекс
YandexBot
Да
тр> <тр>
Baidu
Baiduspider
Нет
тр> тело> стол>
Сайты чаще всего включают директивы задержки сканирования для всех пользовательских агентов (с использованием user-agent: *), упомянутых выше сканеров поисковых систем, которые учитывают задержку сканирования, и сканеров для инструментов SEO, таких как Ahrefbot и SemrushBot.п> <п>Число секунд, в течение которых сканерам было поручено ждать перед запросом другого URL-адреса, варьировалось от одной секунды до 20 секунд, но значения задержки сканирования в пять секунд и 10 секунд были наиболее распространенными на 60 проанализированных сайтах.
Тестирование файлов Robots.txt
Каждый раз, когда вы создаете или обновляете файл robots.txt, обязательно проверяйте директивы, синтаксис и структуру перед публикацией.
С помощью средства проверки и тестирования robots.txt это легко сделать (спасибо, Макс Прин!).
Чтобы протестировать работающий файл robots.txt, просто:
<ул>
Добавьте URL-адрес, который хотите протестировать.
Выберите свой пользовательский агент.
Выберите «live».”
Нажмите «Проверить».
мкл>
Приведенный ниже пример показывает, что роботу Googlebot разрешено сканировать проверенный URL-адрес.
Изображение автора, ноябрь 2024 г. <п>Если тестируемый URL-адрес заблокирован, инструмент выделит конкретное правило, которое не позволяет выбранному пользовательскому агенту сканировать его.
Изображение автора, ноябрь 2024 г.
Чтобы протестировать новые правила перед их публикацией, переключитесь на “Редактор” и вставьте свои правила в текстовое поле перед тестированием.
Общее использование файла robots.txt
Хотя содержимое файла robots.txt сильно различается в зависимости от веб-сайта, анализ 60 файлов robots.txt выявил некоторые общие черты в том, как он используется и какие типы контента веб-мастера обычно блокируют сканирование поисковыми системами.п>
<п>Многие веб-сайты, особенно крупные, такие как платформы электронной коммерции или платформы с большим содержанием контента, часто создают “страницы с низкой ценностью” как побочный продукт функций, предназначенных для улучшения пользовательского опыта.
<стр>Например, страницы внутреннего поиска и параметры фасетной навигации (фильтры и сортировки) помогают пользователям быстро и легко находить то, что они ищут.стр>
Хотя эти функции важны для удобства использования, они могут привести к появлению повторяющихся или малоценных URL-адресов, которые бесполезны для поиска.
Файл robots.txt обычно используется для блокировки сканирования этих малоценных страниц.
К распространенным типам контента, блокируемого через robots.txt, относятся:
<ул>
Параметризованные URL-адреса:URL-адреса с параметрами отслеживания, идентификаторами сеансов или другими динамическими переменными блокируются, поскольку они часто ведут к одному и тому же контенту, что может создавать проблемы с дублированием контента и тратить бюджет сканирования. Блокировка этих URL-адресов гарантирует, что поисковые системы будут индексировать только основной, чистый URL-адрес.
Фильтры и сортировки: Блокировка URL-адресов фильтрации и сортировки (например, страницы товаров, отсортированные по цене или категории) помогает избежать индексирования нескольких версий та же страница. Это снижает риск дублирования контента и позволяет поисковым системам сосредоточиться на самой важной версии страницы.
Результаты внутреннего поиска:Страницы результатов внутреннего поиска часто блокируются, поскольку они генерируют контент, не имеющий уникальной ценности. Если поисковый запрос пользователя вводится в URL-адрес, содержимое страницы и мета-элементы, сайты могут даже рискнуть просканировать и проиндексировать некоторый неуместный, созданный пользователем контент (см. образец снимка экрана Мэтта Татта в этой публикации). Их блокировка предотвращает появление этой некачественной – и потенциально неуместно – контент не будет появляться в поиске.
Профили пользователей: Страницы профиля могут быть заблокированы для защиты конфиденциальности, уменьшения сканирования малоценных страниц или обеспечения сосредоточения внимания на более важном контенте. , например страницы товаров или публикации в блогах.
Среды тестирования, тестирования или разработки: Среды тестирования, разработки или тестирования часто блокируются, чтобы предотвратить сканирование частного контента. поисковыми системами.
Подпапки кампании: Целевые страницы, созданные для платных медиа-кампаний, часто блокируются, если они не актуальны для более широкой поисковой аудитории. (т. е. целевая страница прямой почтовой рассылки, предлагающая пользователям ввести код активации).
<ли>Страницы оформления заказа и подтверждения: Страницы оформления заказа блокируются, чтобы пользователи не могли попасть на них напрямую через поисковые системы, что повышает удобство работы пользователей и защищает конфиденциальную информацию в процессе транзакции.ли>
Пользовательский и спонсируемый контент: Спонсируемый контент или пользовательский контент, созданный посредством обзоров, вопросов, комментариев и т. д., часто блокируется. от сканирования поисковыми системами.
Медиа-файлы (изображения, видео): Медиа-файлы иногда блокируются от сканирования, чтобы сэкономить полосу пропускания и уменьшить видимость проприетарного контента в поиске. двигатели. Это гарантирует, что в результатах поиска будут отображаться только релевантные веб-страницы, а не отдельные файлы.
<сильный>API:сильный>API часто блокируются, чтобы предотвратить их сканирование или индексирование, поскольку они предназначены для межмашинного взаимодействия, а не для результатов поиска конечных пользователей. Блокировка API защищает их использование и снижает ненужную нагрузку на сервер от ботов, пытающихся получить к ним доступ.
мкл>
Блокирование “Плохое” Ботысильные>
Плохие боты — это веб-сканеры, которые занимаются нежелательными или вредоносными действиями, такими как сбор контента и, в крайних случаях, поиск уязвимостей для кражи конфиденциальной информации.
Другие боты без каких-либо злонамеренных намерений все равно могут считаться “плохими” если они заполняют веб-сайты слишком большим количеством запросов, перегружая серверы.
Кроме того, веб-мастера могут просто не хотеть, чтобы определенные сканеры получали доступ к их сайту, потому что они не собираются ничего от этого получать.
<п>Например, вы можете заблокировать Baidu, если вы не обслуживаете клиентов в Китае и не хотите, чтобы запросы от Baidu влияли на ваш сервер.
Хотя некоторые из этих “плохих” боты могут игнорировать инструкции, изложенные в файле robots.txt, на веб-сайтах до сих пор обычно есть правила, запрещающие их использование.
Из 60 проанализированных файлов robots.txt 100% запретили хотя бы одному пользовательскому агенту доступ ко всему контенту сайта (с помощью запрета: /).
<сильный>Блокирование ИИ-ползуновсильный>
На всех проанализированных сайтах наиболее заблокированным сканером был GPTBot: 23% сайтов блокировали GPTBot от сканирования любого контента на сайте.
<п>Причины блокировки веб-сканеров с искусственным интеллектом могут быть разными – от опасений по поводу контроля данных и конфиденциальности до простого нежелания использовать ваши данные в моделях обучения ИИ без компенсации.стр>
Решение о том, блокировать или нет ИИ-ботов через файл robots.txt, должно приниматься в каждом конкретном случае.
Если вы не хотите, чтобы контент вашего сайта использовался для обучения ИИ, но при этом хотите максимизировать видимость, вам повезло. OpenAI открыто рассказывает о том, как он использует GPTBot и другие веб-сканеры.
Как минимум, сайтам следует рассмотреть возможность использования OAI-SearchBot, который используется для размещения ссылок на веб-сайты в SearchGPT – Недавно ChatGPT запустил функцию поиска в реальном времени.
Блокировка OAI-SearchBot встречается гораздо реже, чем блокировка GPTBot: только 2,9% из 1000 лучших сайтов блокируют сканер, ориентированный на SearchGPT.
<сильный>Творческий подходсильный>
<п>Помимо того, что файл robots.txt является важным инструментом контроля доступа поисковых роботов к вашему сайту, он также может дать сайтам возможность продемонстрировать свой “творческий” сторона.п> <стр>Просматривая файлы с более чем 60 сайтов, я также наткнулся на несколько восхитительных сюрпризов, например, забавные иллюстрации, спрятанные в комментариях к файлам robots.txt от Marriott и Cloudflare.
Скриншот сайта marriot.com/robots.txt, ноябрь 2024 г.
Снимок экрана cloudflare.com/robots.txt, ноябрь 2024 г. <стр>Некоторые компании даже превращают эти файлы в уникальные инструменты для подбора персонала.стр> <блоковая цитата> <п>“Если вы просматриваете этот файл и вы не робот, мы ищем любопытных людей, таких как вы…
Выполнить – не сканировать – подать заявку на вступление в элитную SEO-команду TripAdvisor[.]”
блоковая>
Если вы ищете новую возможность карьерного роста, возможно, вам стоит рассмотреть возможность просмотра файлов robots.txt в дополнение к LinkedIn.
Как проводить аудит robots.txt
Аудит файла Robots.txt является важной частью большинства технических SEO-аудитов.
Проведение тщательного аудита файла robots.txt гарантирует, что ваш файл оптимизирован для улучшения видимости сайта без непреднамеренного ограничения важных страниц.
Чтобы проверить файл Robots.txt:
<ул> <ли>Просканируйте сайт с помощью предпочитаемого вами сканера. (Обычно я использую Screaming Frog, но с этим справится любой веб-сканер.)
Фильтровать сканирование для любых страниц, помеченных как “заблокированные robots.txt.” В Screaming Frog эту информацию можно найти, перейдя на вкладку кодов ответов и отфильтровав ее по “заблокировано robots.txt.”
Просмотрите список URL-адресов, заблокированных файлом robots.txt, чтобы определить, следует ли их блокировать. Обратитесь к приведенному выше списку распространенных типов контента, заблокированного файлом robots.txt, чтобы определить, должны ли заблокированные URL-адреса быть доступны поисковым системам.
Откройте файл robots.txt и проведите дополнительные проверки, чтобы убедиться, что файл robots.txt соответствует передовым практикам SEO (и позволяет избежать распространенных ошибок), подробно описанных ниже.
мкл>
Изображение автора, ноябрь 2024 год
Robots.txt Рекомендации (и подводные камни, которых следует избегать)
Robots.txt — мощный инструмент при эффективном использовании, но есть некоторые распространенные ошибки, которых следует избегать, если вы не хотите ненамеренно нанести вред сайту.
<стр>Следующие рекомендации помогут настроиться на успех и избежать непреднамеренной блокировки поисковыми системами сканирования важного контента:стр> <ул>
Создайте файл robots.txt для каждого субдомена.Каждый субдомен вашего сайта (например, blog.yoursite.com, shop.yoursite.com) должен иметь собственный файл robots.txt для управления правилами сканирования, специфичными для этого субдомена. Поисковые системы рассматривают поддомены как отдельные сайты, поэтому уникальный файл обеспечивает надлежащий контроль над тем, какой контент сканируется или индексируется.
Не блокируйте важные страницы сайта. Убедитесь, что приоритетный контент, например страницы товаров и услуг, контактная информация и содержимое блога доступно поисковым системам. Кроме того, убедитесь, что заблокированные страницы не мешают поисковым системам получать доступ к ссылкам на контент, который вы хотите сканировать и индексировать.
Не блокируйте важные ресурсы. Блокировка JavaScript (JS), CSS или файлов изображений может помешать поисковым системам отображать ваш сайт. правильно. Убедитесь, что важные ресурсы, необходимые для правильного отображения сайта, не запрещены.
Включить ссылку на карту сайта.Всегда включайте ссылку на карту сайта в файл robots.txt. Это облегчает поисковым системам поиск и более эффективное сканирование ваших важных страниц.
Не разрешайте доступ к вашему сайту только определенным ботам. Если вы запретите всем ботам сканировать ваш сайт, за исключением определенного поиска таких системах, как Googlebot и Bingbot, вы можете непреднамеренно заблокировать ботов, которые могут принести пользу вашему сайту. Примеры ботов включают в себя: <ул>
FacebookExtenalHit – используется для получения протокола открытого графа.
GooglebotNews – используется для вкладки «Новости» в Google Поиске и приложении Google News.
AdsBot-Google – используется для проверки качества рекламы на веб-странице.
мкл> ли>
Не блокируйте URL-адреса, которые вы хотите удалить из индекса.Блокировка URL-адреса в файле robots.txt не позволяет поисковым системам только сканировать его, но не индексировать, если URL-адрес уже известен. Чтобы удалить страницы из индекса, используйте другие методы, например “noindex” инструменты удаления тегов или URL-адресов, гарантируя их правильное исключение из результатов поиска.
Не блокируйте Google и другим основным поисковым системам сканирование всего вашего сайта. Просто не делай этого.
мкл>
<сильный>TL;DRсильный>
<ул>
Файл robots.txt указывает сканерам поисковых систем, к каким областям веб-сайта следует обращаться или избегать, оптимизируя эффективность сканирования за счет сосредоточения внимания на ценных страницах.
Ключевые поля включают в себя “User-agent” чтобы указать целевой сканер, “Disallow” для зон с ограниченным доступом и “Sitemap” для приоритетных страниц. Файл также может содержать такие директивы, как “Allow” и “Crawl-delay.”
Веб-сайты обычно используют файл robots.txt для блокировки результатов внутреннего поиска, малоценных страниц (например, фильтров, параметров сортировки) или конфиденциальных областей, таких как страницы оформления заказа и API.
Все большее число веб-сайтов блокируют поисковые роботы с искусственным интеллектом, такие как GPTBot, хотя это может быть не лучшей стратегией для сайтов, стремящихся получить трафик из дополнительных источников. Чтобы обеспечить максимальную видимость сайта, рассмотрите возможность включения OAI-SearchBot как минимум.
Чтобы обеспечить успех вашего сайта, убедитесь, что каждый поддомен имеет собственный файл robots.txt, тестируйте директивы перед публикацией, включите XML-декларацию карты сайта и избегайте случайной блокировки ключевого контента.