<стр>Гэри Иллис из Google подтверждает, что robots.txt не защищает веб-сайты от несанкционированного доступастр>
<п>Гэри Иллис из Google подтвердил распространенное наблюдение о том, что файл robots.txt имеет ограниченный контроль над несанкционированным доступом сканеров. Затем Гэри предложил обзор средств контроля доступа, которые должны знать все оптимизаторы и владельцы веб-сайтов.
Общие аргументы по поводу файла robots.txt
Похоже, что каждый раз, когда возникает тема Robots.txt, всегда находится кто-то, кто должен указать, что он не может заблокировать всех сканеров.
Гэри согласен с этим:
<блоковая цитата><п>«robots.txt не может предотвратить несанкционированный доступ к контенту» — распространенный аргумент, который в настоящее время появляется в дискуссиях о robots.txt; да, я перефразировал. Это утверждение верно, однако я не думаю, что кто-то, знакомый с robots.txt, утверждал бы обратное.”
Затем он глубоко погрузился в деконструкцию того, что на самом деле означает блокировка сканеров. Он сформулировал процесс блокировки сканеров как выбор решения, которое по своей сути контролирует или передает контроль над веб-сайтом. Он сформулировал это как запрос на доступ (браузер или сканер), и сервер ответил разными способами.
Он перечислил примеры контроля:
<ул>
<ли>Защита паролем
мкл>
Вот его комментарии:
“Если вам нужна авторизация доступа, вам нужно что-то, что аутентифицирует запрашивающую сторону, а затем контролирует доступ. Брандмауэры могут выполнять аутентификацию на основе IP-адреса, вашего веб-сервера — на основе учетных данных, переданных HTTP Auth или сертификата его клиента SSL/TLS, или вашего CMS — на основе имени пользователя и пароля, а затем файла cookie 1P.стр> <п>Всегда существует некоторая информация, которую запрашивающая сторона передает сетевому компоненту, которая позволит этому компоненту идентифицировать запрашивающую сторону и контролировать ее доступ к ресурсу. robots.txt или любые другие директивы хостинга файлов, если уж на то пошло, передает решение о доступе к ресурсу запрашивающей стороне, что может быть не тем, что вам нужно. Эти файлы больше похожи на надоедливые стойки контроля полосы движения в аэропортах, через которые каждый хочет просто пробраться, но они этого не делают.
<стр>Здесь есть место для стоек, но есть также место для взрывозащитных дверей и ирисов над вашими Звездными Вратами.стр>
TL;DR: не думайте о robots.txt (или других директивах размещения файлов) как о форме авторизации доступа, используйте для этого подходящие инструменты, их достаточно.”
Используйте подходящие инструменты для управления ботами
Существует множество способов заблокировать скраперы, хакерских ботов, поисковых роботов, посещения пользовательских агентов с искусственным интеллектом и поисковых роботов. Помимо блокировки поисковых сканеров, брандмауэр определенного типа является хорошим решением, поскольку он может блокировать по поведению (например, скорости сканирования), IP-адресу, пользовательскому агенту и стране, а также по многим другим параметрам. Типичные решения могут быть на уровне сервера, например Fail2Ban, облачными, например Cloudflare WAF, или плагином безопасности WordPress, например Wordfence.