Google незаметно обновляет документацию NotebookLM, поясняя, что игнорирует robot.txt. В любом случае, вот как это заблокировать.
Google незаметно обновил свой список программ выборки, запускаемых пользователем, добавив новую документацию для Google NotebookLM. Важность этого, казалось бы, незначительного изменения заключается в том, что ясно, что Google NotebookLM не подчиняется файлу robots.txt.
.
Блокнот GoogleLM
NotebookLM — это инструмент для исследований и написания статей на основе искусственного интеллекта, который позволяет пользователям добавлять URL-адрес веб-страницы, которая будет обрабатывать контент, а затем задавать ряд вопросов и генерировать сводки на основе контента.
<стр>Инструмент Google может автоматически создавать интерактивную карту связей, которая систематизирует темы веб-сайта и извлекает из них важные выводы.стр> <х2>Сборщики, запускаемые пользователем, игнорируют robots.txt
Пользовательские сборщики Google — это веб-агенты, которые запускаются пользователями и по умолчанию игнорируют протокол robots.txt.
Согласно документации Google по пользовательским сборщикам:
“Поскольку выборка была запрошена пользователем, эти фечераторы обычно игнорируют правила robots.txt.”
Google-NotebookLM игнорирует файл robots.txt
Цель файла robots.txt — предоставить издателям контроль над ботами, индексирующими веб-страницы. Но такие агенты, как сборщик Google-NotebookLM, не индексируют веб-контент, они действуют от имени пользователей, которые взаимодействуют с содержимым веб-сайта через Google NotebookLM.
Как заблокировать ноутбукLM
Google использует пользовательский агент Google-NotebookLM при извлечении содержимого веб-сайта. Таким образом, издатели, желающие заблокировать пользователям доступ к своему контенту, могут создать правила, которые автоматически блокируют этот пользовательский агент. Например, простым решением для издателей WordPress является использование Wordfence для создания специального правила для блокировки всех посетителей веб-сайта, использующих пользовательский агент Google-NotebookLM.
Другой способ сделать это — использовать .htaccess, используя следующее правило:
<IfModule mod_rewrite.c> Перезаписать двигатель включен RewriteCond %{HTTP_USER_AGENT} Google-NotebookLM [Северная Каролина] RewriteRule .* – [F,L] </IfModule>