Google подтверждает, что файл robots.txt не может предотвратить несанкционированный доступ

<стр>Гэри Иллис из Google подтверждает, что robots.txt не защищает веб-сайты от несанкционированного доступа

<п>Гэри Иллис из Google подтвердил распространенное наблюдение о том, что файл robots.txt имеет ограниченный контроль над несанкционированным доступом сканеров. Затем Гэри предложил обзор средств контроля доступа, которые должны знать все оптимизаторы и владельцы веб-сайтов.

Общие аргументы по поводу файла robots.txt

Похоже, что каждый раз, когда возникает тема Robots.txt, всегда находится кто-то, кто должен указать, что он не может заблокировать всех сканеров.

Гэри согласен с этим:

<блоковая цитата><п>«robots.txt не может предотвратить несанкционированный доступ к контенту» — распространенный аргумент, который в настоящее время появляется в дискуссиях о robots.txt; да, я перефразировал. Это утверждение верно, однако я не думаю, что кто-то, знакомый с robots.txt, утверждал бы обратное.”

Затем он глубоко погрузился в деконструкцию того, что на самом деле означает блокировка сканеров. Он сформулировал процесс блокировки сканеров как выбор решения, которое по своей сути контролирует или передает контроль над веб-сайтом. Он сформулировал это как запрос на доступ (браузер или сканер), и сервер ответил разными способами.

Он перечислил примеры контроля:

<ул>

Robots.txt (оставляет на усмотрение сканера, сканировать или нет).

Брандмауэры (WAF, он же брандмауэр веб-приложений – брандмауэр контролирует доступ)

<ли>Защита паролем

Вот его комментарии:

“Если вам нужна авторизация доступа, вам нужно что-то, что аутентифицирует запрашивающую сторону, а затем контролирует доступ. Брандмауэры могут выполнять аутентификацию на основе IP-адреса, вашего веб-сервера — на основе учетных данных, переданных HTTP Auth или сертификата его клиента SSL/TLS, или вашего CMS — на основе имени пользователя и пароля, а затем файла cookie 1P. <п>Всегда существует некоторая информация, которую запрашивающая сторона передает сетевому компоненту, которая позволит этому компоненту идентифицировать запрашивающую сторону и контролировать ее доступ к ресурсу. robots.txt или любые другие директивы хостинга файлов, если уж на то пошло, передает решение о доступе к ресурсу запрашивающей стороне, что может быть не тем, что вам нужно. Эти файлы больше похожи на надоедливые стойки контроля полосы движения в аэропортах, через которые каждый хочет просто пробраться, но они этого не делают.

<стр>Здесь есть место для стоек, но есть также место для взрывозащитных дверей и ирисов над вашими Звездными Вратами.

TL;DR: не думайте о robots.txt (или других директивах размещения файлов) как о форме авторизации доступа, используйте для этого подходящие инструменты, их достаточно.”

Используйте подходящие инструменты для управления ботами

Существует множество способов заблокировать скраперы, хакерских ботов, поисковых роботов, посещения пользовательских агентов с искусственным интеллектом и поисковых роботов. Помимо блокировки поисковых сканеров, брандмауэр определенного типа является хорошим решением, поскольку он может блокировать по поведению (например, скорости сканирования), IP-адресу, пользовательскому агенту и стране, а также по многим другим параметрам. Типичные решения могут быть на уровне сервера, например Fail2Ban, облачными, например Cloudflare WAF, или плагином безопасности WordPress, например Wordfence.

Google подтверждает, что файл robots.txt не может предотвратить несанкционированный доступ

Общие аргументы по поводу файла robots.txt

Используйте подходящие инструменты для управления ботами

admin

Related Posts