Google может расширить список неподдерживаемых правил robots.txt

Google может расширить список неподдерживаемых правил robots.txt, используя данные HTTP-архива.
Расширение может включать наиболее часто используемые неподдерживаемые директивы.
Google также может расширить способы обработки распространенных ошибок в написании слова disallow.
Google может расширить список неподдерживаемых правил robots.txt, используя данные HTTP-архива, и может расширить способы обработки распространенных ошибок в написании слова disallow.

Google может расширить список неподдерживаемых правил robots.txt в своей документации на основе анализа реальных данных robots.txt, собранных через HTTP-архив.

Гэри Иллис и Мартин Сплитт описали проект в последнем выпуске Search Off the Record. Работа началась после того, как член сообщества отправил запрос на включение в репозиторий Google robots.txt с предложением добавить два новых тега в список неподдерживаемых.

Иллес объяснил, почему команда расширила область применения за пределы двух тегов в PR:

<блоковая цитата><п>“Мы старались не действовать произвольно, а скорее собирать данные.”

Вместо того, чтобы добавлять только два предложенных тега, команда решила просмотреть 10 или 15 наиболее часто используемых неподдерживаемых правил. Иллиес сказал, что целью было «достойная отправная точка, достойная база». для документирования наиболее распространенных неподдерживаемых тегов.

<ч2>Как прошло исследование <п>Команда использовала HTTP Archive, чтобы изучить, какие правила веб-сайты используют в своих файлах robots.txt. HTTP Archive ежемесячно сканирует миллионы URL-адресов с помощью WebPageTest и сохраняет результаты в Google BigQuery.

Первая попытка уперлась в стену. Команда “быстро выяснила, что на самом деле никто не запрашивает файлы robots.txt” во время сканирования по умолчанию, то есть наборы данных HTTP-архива обычно не включают содержимое файла robots.txt.

После консультации с Барри Поллардом и сообществом HTTP Archive команда написала специальный парсер JavaScript, который построчно извлекает правила robots.txt. Специальная метрика была объединена перед февральским сканированием, и полученные данные теперь доступны в наборе данных custom_metrics в BigQuery.

Что показывают данные

Парсер извлек каждую строку, соответствующую шаблону значений поля-двоеточия. Иллиес описал полученное распределение:

.

“После разрешения и запрета и пользовательского агента падение чрезвычайно резкое.”

Помимо этих трех полей, использование правил попадает в длинный хвост из меньшего количества общих директив, а также ненужных данных из поврежденных файлов, которые возвращают HTML вместо обычного текста.

Google в настоящее время поддерживает четыре поля в файле robots.txt. Эти поля: пользовательский агент, разрешение, запрет и карта сайта. В документации указано, что другие поля “не поддерживаются” без перечисления того, какие неподдерживаемые поля наиболее распространены.

Ожидается, что от 10 до 15 наиболее часто используемых правил, помимо четырех поддерживаемых полей, будут добавлены в список неподдерживаемых правил Google. Иллиес не назвал конкретные правила, которые будут включены.

Допуск к опечаткам может быть увеличен

Иллиес сказал, что анализ также выявил распространенные ошибки в написании правила запрета:

“Я, вероятно, собираюсь расширить опечатки, которые мы допускаем.”

Его формулировка подразумевает, что синтаксический анализатор уже принимает некоторые орфографические ошибки. Иллиес не указал сроки и не назвал конкретные опечатки.

Почему это важно

Search Console уже отображает некоторые неопознанные теги robots.txt. Если Google будет документировать больше неподдерживаемых директив, это может сделать его общедоступную документацию более точно отражающей нераспознанные теги, которые люди уже видят в Search Console.

<ч2>Взгляд в будущее

Запланированное обновление повлияет на общедоступную документацию Google и на то, как обрабатываются запрещенные опечатки. Любой, кто поддерживает файл robots.txt с правилами, выходящими за рамки пользовательского агента, разрешения, запрета и карты сайта, должен проверить наличие директив, которые никогда не работали для Google.

Данные HTTP-архива доступны для публичного запроса в BigQuery для всех, кто хочет напрямую изучить дистрибутив.