Google говорит, что уценка для AI SEO удаляет важные части

Google говорит, что уценка для AI SEO удаляет важные части

Markdown рассматривается как задел для веб-сайтов на будущее. Google заявляет, что, возможно, удаляет информацию, используемую поисковыми системами.

В недавнем подкасте Search Off the Record ведущие Джон Мюллер и Мартин Сплитт опровергли идею, продвигаемую AI-специалистами по поисковой оптимизации, о том, что урезанные версии, содержащие только контент, являются лучшим способом оптимизации для поиска AI. Они доказали, что все, что ИИ-оптимизаторы хотят удалить, на самом деле полезно для ранжирования.

Несодержательные части веб-страниц имеют значение

Смысл этой части заключается в том, что HTML предназначен для браузеров, чтобы отображать страницу, видимую для людей, а также для чтения с помощью программ чтения с экрана.

<п>Мартин Сплитт начинает дискуссию с объяснения, почему простой HTML не является идеальным способом предоставления контента агентам искусственного интеллекта и LLM. Идея состоит в том, что помимо контента в HTML есть много другого кода, который не имеет значения для агента LLM или AI, который может посещать сайт ради контента.

Привлекательность уценки заключается в том, что она может предоставить контент таким образом, чтобы освободиться от всего HTML, который предназначен для того, чтобы сделать веб-страницу видимой для людей или читаемой программой чтения с экрана.

Сплитт объясняет:

<блоковая цитата><п>«И я думаю, что именно поэтому люди думают, что это хорошо для LLM, потому что у вас меньше вещей, меньше жетонов. И если вы посмотрите на HTML-файл без его обработки в браузере, если вы просто посмотрите на простой HTML в текстовом редакторе, по сути, то будет трудно прочитать его содержимое, потому что в нем так много мусора, так много всякой всячины. Там все эти HTML-теги и все эти, может быть, даже встроенные стили и все такое.”

Он также хвалит уценку за возможность передать суть контента:

<блоковая цитата><п>“Но если рендеринг Markdown завершится неудачей и вы посмотрите на файл Markdown в текстовом редакторе, он все равно будет структурирован и читаем. Как ссылка — это слово текста ссылки, как и текст привязки, а затем в квадратных скобках, а затем в обычных скобках. Наверное, я бы так и сделал, если бы у меня был только текст.

<стр>Если бы я писал электронное письмо без возможности связать что-либо, я бы, вероятно, разметил какой-нибудь текст ссылки, а затем добавил бы что-то вроде того, например, и именно сюда вам нужно зайти, чтобы действительно это увидеть.

И я думаю, что именно этот минимализм, вероятно, и заставляет людей думать: да, это отлично подходит для машины, которой нужно понимать этот контент, в отличие от HTML.”

<х2>Преобразование HTML в текст тривиально

Мюллер и Сплитт отметили, что, несмотря на то, насколько сложным выглядит HTML, сканировать его и разобраться в нем тривиально и очень легко. Преимущество использования уценки для LLM, заключающееся в том, что это упрощает сканирование и индексацию контента, на этом этапе полностью теряет смысл.

Джон Мюллер объясняет:

“Я думаю, самое главное то, что Интернет с HTML и всем остальным существует уже очень давно, дольше, чем Markdown. И все сканеры практиковались в HTML. А конвертировать HTML в текст тривиально. Существует множество библиотек, которые могут сделать это за вас. Итак, если вы подумаете о том, что среднестатистический веб-сканер может искать или должен найти на странице, чтобы понять ее, то, вероятно, это всего лишь HTML.

Markdown не работает при обнаружении контента

Обнаружение — это когда любой сканер посещает веб-страницу и обнаруживает другие веб-страницы на одном веб-сайте, а также на разных веб-сайтах.

Сплитт сказал, что уценка ориентирована только на одну часть контента: сам контент. Он объяснил, что из-за этого поисковым системам сложнее увидеть веб-страницу в контексте того, как она соединяется с остальным содержимым веб-сайта через ссылки, которые помогают поиску.

Он объяснил:

“Да, и я имею в виду другое: да, приятно, что Markdown обычно сосредотачивается на части контента, но HTML со всеми ссылками, навигацией, заголовками и всем подобным материалом, который как бы удаляется из файлов Markdown, которые составляют веб-сайт, важен для понимания структуры и того, как это связано с остальной частью сайта.

Так что, думаю, это тоже плохо. Если бы мы потеряли это, то, вероятно, это было бы не очень хорошо для ползания по Дискавери, да? “

<ч2>На вынос

Читая патенты и исследовательские работы, становится ясно, что поисковые системы видят веб-сайт не только как набор отдельных веб-страниц, но и как группы веб-страниц, принадлежащих разделам и категориям, а также как сам веб-сайт в целом. Уменьшите масштаб, и веб-сайт станет лишь одним из тысяч и тысяч других веб-сайтов в окружении веб-сайтов, самоорганизованных по ссылкам по категориям и уровням качества.

Для SEO мы должны понимать сайт как в уменьшенном, так и в увеличенном виде, чтобы понять, как все его части сочетаются друг с другом. Причина в том, что именно это и делают поисковые системы.

<п>SEO на основе искусственного интеллекта, похоже, нацелено на то, чтобы LLM и агентам искусственного интеллекта было проще сканировать и индексировать контент. Сканирование и индексирование являются обоснованными проблемами. Но, настаивая на файлах уценки, они не принимают во внимание основы обнаружения и то, насколько тривиально извлекать контент с веб-страницы HTML, что делает файлы уценки ненужными.

Помимо вышеперечисленных вопросов, есть еще вопрос, связанный с надежностью. Раньше существовала так называемая мета-тег ключевого слова, которую некоторые поисковые системы использовали, чтобы получить подсказку о том, о чем веб-страница. Естественно, владельцы сайтов и оптимизаторы использовали его, чтобы сбросить все ключевые слова, по которым они хотели ранжироваться, независимо от содержания.

Я не говорю, что SEO-специалисты и владельцы веб-сайтов не заслуживают доверия, но поисковый трафик — это деньги, и люди будут делать то, что собираются делать. Итак, последнее соображение заключается в том, что поисковые системы никогда не будут доверять контенту с уценкой и использовать его как канонический, когда сканирование и извлечение исходного контента из HTML является тривиальной задачей.

<стр>Вернувшись к тому, что обсуждали Мюллер и Сплитт, Google настаивает на том, что настойчивость AI SEO в уценке лишает значительной части важного контекста.

Смотрите 111 серию Search Off The Record здесь: