Спросите SEO-специалиста: могут ли AI Systems & LLM обрабатывают JavaScript для чтения «скрытого» контента?

<стр>Каковы различия между тем, как системы искусственного интеллекта обрабатывают контент, отображаемый с помощью JavaScript или интерактивно скрытый, по сравнению с традиционным индексированием Google?

В рамках рубрики “Спросите SEO” на этой неделе читатель спросил:

“Есть ли разница между тем, как системы искусственного интеллекта обрабатывают контент, отображаемый с помощью JavaScript или интерактивно скрытый контент, по сравнению с традиционным индексированием Google? Какие технические проверки могут провести оптимизаторы, чтобы подтвердить, что вся важная информация страницы доступна машинам?”

Это отличный вопрос, потому что за шумихой по поводу LLM-оптимизации стоит очень реальная техническая задача: обеспечить, чтобы ваш контент действительно был найден и прочитан LLM.

<п>Вот уже несколько лет SEO-специалисты воодушевляются улучшениями робота Googlebot в способности сканировать и отображать страницы с большим количеством JavaScript. Однако с новыми сканерами ИИ это может быть не так.

В этой статье мы рассмотрим различия между двумя типами сканеров и то, как обеспечить доступность критически важного содержимого веб-страницы для обоих.

Как робот Googlebot отображает контент JavaScript?

Googlebot обрабатывает JavaScript в три основных этапа: сканирование, рендеринг и индексирование. В общем и простом объяснении каждый этап работает следующим образом:

<ч3>Ползание <п>Робот Googlebot поставит страницы в очередь на сканирование, когда обнаружит их в Интернете. Однако не каждая страница, поставленная в очередь, будет просканирована, поскольку робот Googlebot проверит, разрешено ли сканирование. Например, он проверит, заблокировано ли сканирование страницы с помощью команды disallow в файле robots.txt.

Если страница не подлежит сканированию, робот Googlebot пропустит ее, отказываясь от HTTP-запроса. Если страница доступна для сканирования, она переместится для отображения содержимого.

Рендеринг

Googlebot проверит, может ли страница быть проиндексирована, проверив отсутствие запросов на ее исключение из индекса, например, с помощью метатега noindex. Робот Googlebot поставит страницу в очередь для отображения. Рендеринг может произойти в течение нескольких секунд или может оставаться в очереди в течение более длительного периода времени. Рендеринг — это ресурсоемкий процесс, поэтому он не может быть мгновенным.

Тем временем бот получит ответ DOM; это контент, который отображается перед выполнением JavaScript. Обычно это HTML-код страницы, который будет доступен сразу после сканирования страницы.

После выполнения JavaScript робот Googlebot получит полностью созданную страницу, “рендеринг браузера”

Индексация

<п>Подходящие страницы и информация будут храниться в индексе Google и доступны для использования в качестве результатов поиска в момент запроса пользователя.

Как робот Googlebot интерактивно обрабатывает скрытый контент?

Не весь контент доступен пользователям, когда они впервые попадают на страницу. Например, вам может потребоваться переходить по вкладкам, чтобы найти дополнительный контент, или развернуть аккордеон, чтобы увидеть всю информацию.

Робот Googlebot не имеет возможности переключаться между вкладками или открывать аккордеон. Поэтому важно убедиться, что он может проанализировать всю информацию на странице.

<п>Чтобы сделать это, необходимо убедиться, что информация содержится в DOM при первой загрузке страницы. Это означает, что контент может быть “скрыт от просмотра” на передней панели перед нажатием кнопки, но это не скрыто в коде.

Подумайте об этом так: HTML-содержимое “спрятано в блоке”; JavaScript — это ключ к открытию коробки. Если роботу Googlebot придется открыть коробку, он может не сразу увидеть это содержимое. Однако если сервер открыл ящик до того, как робот Googlebot запросил его, то он сможет получить доступ к этому содержимому через DOM.

Как повысить вероятность того, что робот Google сможет прочитать ваш контент

<п>Ключом к тому, чтобы робот Google мог анализировать контент, является обеспечение его доступности без необходимости обработки ботом JavaScript. Один из способов сделать это — принудительно выполнить рендеринг на самом сервере.

Это противоположность рендерингу на стороне клиента, который требует, чтобы браузер извлекал и скомпилировал JavaScript, прежде чем контент станет доступен на веб-странице. Это гораздо меньший подъем для сервера, поэтому разработчики веб-сайтов часто отдают ему предпочтение, но это означает, что ботам сложно увидеть контент на странице без предварительного рендеринга JavaScript.

Как боты LLM визуализируют JavaScript?

<стр>Учитывая то, что мы теперь знаем о том, как Googlebot обрабатывает JavaScript, чем он отличается от ботов с искусственным интеллектом?

Самое важное, что следует понимать в следующем: в отличие от Googlebot, не существует “one” руководящий орган, который представляет всех ботов, которые могут быть включены в категорию «боты LLM». То есть то, на что способен один бот, не обязательно будет стандартом для всех.

<п>Боты, которые сканируют Интернет для создания баз знаний LLM, — это не то же самое, что боты, которые посещают страницу, чтобы вернуть пользователю своевременную информацию через поисковую систему.

И боты Клода не обладают теми же возможностями, что и OpenAI.

Когда мы думаем о том, как обеспечить доступ ботов ИИ к нашему контенту, нам приходится учитывать ботов с наименьшими возможностями.

<п>Меньше известно о том, как боты LLM обрабатывают JavaScript, главным образом потому, что, в отличие от Google, боты с искусственным интеллектом не делятся этой информацией. Однако некоторые очень умные люди провели тесты, чтобы определить, как с этим справляется каждый из основных ботов LLM.

Еще в 2024 году Vercel опубликовала исследование возможностей рендеринга JavaScript основных ботов LLM, включая OpenAI, Anthropic, Meta, ByteDance и Perplexity. Согласно их исследованию, ни один из этих ботов не мог отображать JavaScript. Единственными, кто это сделал, были Gemini (использующий инфраструктуру Googlebot), Applebot и CCbot CommonCrawl.

Недавно Гленн Гейб подтвердил выводы Верселя, проведя собственный углубленный анализ того, как ChatGPT, Perplexity и Claude обрабатывают JavaScript. Он также рассказывает, как протестировать ваш собственный веб-сайт в рамках LLM, чтобы увидеть, как они обрабатывают ваш контент.

Это самые известные боты от некоторых из наиболее финансируемых компаний в области искусственного интеллекта в этой области. Само собой разумеется, что если у них проблемы с JavaScript, то и у менее финансируемых или более нишевых тоже будут проблемы.

Как ИИ-боты в интерактивном режиме обрабатывают скрытый контент?

<п>Нехорошо. То есть, если интерактивный контент требует выполнения JavaScript, у них могут возникнуть проблемы с его анализом.

<п>Чтобы боты могли видеть контент, скрытый за вкладками или в аккордеонах, разумно обеспечить полную загрузку контента в DOM без необходимости выполнения JavaScript. Посетители-люди по-прежнему могут взаимодействовать с контентом, чтобы раскрыть его, но ботам в этом нет необходимости.

Как проверить наличие проблем с рендерингом JavaScript

Есть два очень простых способа проверить, может ли робот Googlebot отобразить весь контент на вашей странице:

Проверьте DOM с помощью инструментов разработчика

<п>DOM (объектная модель документа) — это интерфейс веб-страницы, который представляет HTML-страницу как серию “узлов” и “объекты” По сути, он связывает исходный код HTML веб-страницы с JavaScript, что обеспечивает работу функций веб-страницы. Проще говоря, представьте себе веб-страницу как генеалогическое древо. Каждый элемент веб-страницы представляет собой “узел” на дереве. Итак, тег заголовка <h1>, абзац <p> и тело самой страницы <body> все узлы генеалогического древа.

Когда браузер загружает веб-страницу, он считывает HTML и преобразует его в генеалогическое древо (DOM).

Как это проверить

Я расскажу вам об этом на примере инструментов разработчика Chrome.

Вы можете проверить DOM страницы, зайдя в браузер. В Chrome щелкните правой кнопкой мыши и выберите «Проверить». После этого убедитесь, что вы находитесь в разделе “Элементы” таб. <п>Чтобы узнать, виден ли контент на вашей веб-странице без необходимости выполнения JavaScript, вы можете выполнить поиск здесь. Если при первой загрузке страницы вы обнаружите контент полностью внутри DOM (и не взаимодействуете с ним в дальнейшем), то он должен быть виден роботам Googlebot и LLM.

Использовать консоль поиска Google

Чтобы проверить, виден ли контент конкретно роботу Googlebot, вы можете использовать консоль поиска Google.

Выберите страницу, которую хотите протестировать, и вставьте ее в поле “Проверить любой URL” поле. Search Console перенаправит вас на другую страницу, где вы сможете “Проверить действующий URL” Когда вы тестируете действующую страницу, вам будет представлен другой экран, на котором вы можете выбрать «Просмотреть протестированную страницу».

Как проверить, видит ли бот LLM ваш контент

<п>Согласно экспериментам Гленна Гейба, вы можете спросить самих студентов-магистров, что они могут прочитать на конкретной веб-странице. Например, вы можете предложить им прочитать текст статьи. Они ответят объяснением, если не смогут этого сделать из-за JavaScript.

Просмотр исходного HTML

Если мы работаем над наименьшим общим знаменателем, разумно предположить, что на этом этапе LLM не могут читать контент в JavaScript. Чтобы убедиться, что ваш контент доступен в HTML-коде веб-страницы и боты могут получить к нему доступ, будьте абсолютно уверены, что контент вашей страницы доступен для чтения этим ботам. Убедитесь, что он находится в исходном HTML. Чтобы проверить это, вы можете зайти в Chrome и щелкнуть правой кнопкой мыши на странице. В меню выберите «Просмотреть исходный код страницы». Если вы можете “найти” текст в этом коде, вы знаете, что он находится в исходном HTML-коде страницы.

Что это значит для вашего сайта?

По сути, Googlebot разрабатывался на протяжении многих лет, чтобы гораздо лучше обрабатывать JavaScript, чем новые боты LLM. Однако очень важно понимать, что боты LLM не пытаются сканировать и отображать Интернет так же, как робот Googlebot. Не думайте, что они когда-либо попытаются имитировать поведение робота Googlebot. Не считайте их «позади»; Googlebot. В целом они другие звери.

Для вашего веб-сайта это означает, что вам необходимо проверить, загружает ли ваша страница всю соответствующую информацию в DOM при первой загрузке страницы, чтобы удовлетворить потребности робота Googlebot. Что касается ботов LLM, чтобы быть уверенными, что контент им доступен, проверьте статический HTML.