Google подтверждает, что файл robots.txt не может предотвратить несанкционированный доступ

Google подтверждает, что файл robots.txt не может предотвратить несанкционированный доступ

<стр>Гэри Иллис из Google подтверждает, что robots.txt не защищает веб-сайты от несанкционированного доступа

<п>Гэри Иллис из Google подтвердил распространенное наблюдение о том, что файл robots.txt имеет ограниченный контроль над несанкционированным доступом сканеров. Затем Гэри предложил обзор средств контроля доступа, которые должны знать все оптимизаторы и владельцы веб-сайтов.

Общие аргументы по поводу файла robots.txt

Похоже, что каждый раз, когда возникает тема Robots.txt, всегда находится кто-то, кто должен указать, что он не может заблокировать всех сканеров.

Гэри согласен с этим:

<блоковая цитата><п>«robots.txt не может предотвратить несанкционированный доступ к контенту» — распространенный аргумент, который в настоящее время появляется в дискуссиях о robots.txt; да, я перефразировал. Это утверждение верно, однако я не думаю, что кто-то, знакомый с robots.txt, утверждал бы обратное.”

Затем он глубоко погрузился в деконструкцию того, что на самом деле означает блокировка сканеров. Он сформулировал процесс блокировки сканеров как выбор решения, которое по своей сути контролирует или передает контроль над веб-сайтом. Он сформулировал это как запрос на доступ (браузер или сканер), и сервер ответил разными способами.

Он перечислил примеры контроля:

<ул>

  • Robots.txt (оставляет на усмотрение сканера, сканировать или нет).
  • Брандмауэры (WAF, он же брандмауэр веб-приложений – брандмауэр контролирует доступ)
  • <ли>Защита паролем

    Вот его комментарии:

    “Если вам нужна авторизация доступа, вам нужно что-то, что аутентифицирует запрашивающую сторону, а затем контролирует доступ. Брандмауэры могут выполнять аутентификацию на основе IP-адреса, вашего веб-сервера — на основе учетных данных, переданных HTTP Auth или сертификата его клиента SSL/TLS, или вашего CMS — на основе имени пользователя и пароля, а затем файла cookie 1P. <п>Всегда существует некоторая информация, которую запрашивающая сторона передает сетевому компоненту, которая позволит этому компоненту идентифицировать запрашивающую сторону и контролировать ее доступ к ресурсу. robots.txt или любые другие директивы хостинга файлов, если уж на то пошло, передает решение о доступе к ресурсу запрашивающей стороне, что может быть не тем, что вам нужно. Эти файлы больше похожи на надоедливые стойки контроля полосы движения в аэропортах, через которые каждый хочет просто пробраться, но они этого не делают.

    <стр>Здесь есть место для стоек, но есть также место для взрывозащитных дверей и ирисов над вашими Звездными Вратами.

    TL;DR: не думайте о robots.txt (или других директивах размещения файлов) как о форме авторизации доступа, используйте для этого подходящие инструменты, их достаточно.”

    Используйте подходящие инструменты для управления ботами

    Существует множество способов заблокировать скраперы, хакерских ботов, поисковых роботов, посещения пользовательских агентов с искусственным интеллектом и поисковых роботов. Помимо блокировки поисковых сканеров, брандмауэр определенного типа является хорошим решением, поскольку он может блокировать по поведению (например, скорости сканирования), IP-адресу, пользовательскому агенту и стране, а также по многим другим параметрам. Типичные решения могут быть на уровне сервера, например Fail2Ban, облачными, например Cloudflare WAF, или плагином безопасности WordPress, например Wordfence.

    Back To Top