Markdown рассматривается как задел для веб-сайтов на будущее. Google заявляет, что, возможно, удаляет информацию, используемую поисковыми системами.
В недавнем подкасте Search Off the Record ведущие Джон Мюллер и Мартин Сплитт опровергли идею, продвигаемую AI-специалистами по поисковой оптимизации, о том, что урезанные версии, содержащие только контент, являются лучшим способом оптимизации для поиска AI. Они доказали, что все, что ИИ-оптимизаторы хотят удалить, на самом деле полезно для ранжирования.
Несодержательные части веб-страниц имеют значение
Смысл этой части заключается в том, что HTML предназначен для браузеров, чтобы отображать страницу, видимую для людей, а также для чтения с помощью программ чтения с экрана.
<п>Мартин Сплитт начинает дискуссию с объяснения, почему простой HTML не является идеальным способом предоставления контента агентам искусственного интеллекта и LLM. Идея состоит в том, что помимо контента в HTML есть много другого кода, который не имеет значения для агента LLM или AI, который может посещать сайт ради контента.
Привлекательность уценки заключается в том, что она может предоставить контент таким образом, чтобы освободиться от всего HTML, который предназначен для того, чтобы сделать веб-страницу видимой для людей или читаемой программой чтения с экрана.
Сплитт объясняет:
<блоковая цитата><п>«И я думаю, что именно поэтому люди думают, что это хорошо для LLM, потому что у вас меньше вещей, меньше жетонов. И если вы посмотрите на HTML-файл без его обработки в браузере, если вы просто посмотрите на простой HTML в текстовом редакторе, по сути, то будет трудно прочитать его содержимое, потому что в нем так много мусора, так много всякой всячины. Там все эти HTML-теги и все эти, может быть, даже встроенные стили и все такое.”
Он также хвалит уценку за возможность передать суть контента:
<блоковая цитата><п>“Но если рендеринг Markdown завершится неудачей и вы посмотрите на файл Markdown в текстовом редакторе, он все равно будет структурирован и читаем. Как ссылка — это слово текста ссылки, как и текст привязки, а затем в квадратных скобках, а затем в обычных скобках. Наверное, я бы так и сделал, если бы у меня был только текст.
<стр>Если бы я писал электронное письмо без возможности связать что-либо, я бы, вероятно, разметил какой-нибудь текст ссылки, а затем добавил бы что-то вроде того, например, и именно сюда вам нужно зайти, чтобы действительно это увидеть.стр>
И я думаю, что именно этот минимализм, вероятно, и заставляет людей думать: да, это отлично подходит для машины, которой нужно понимать этот контент, в отличие от HTML.”
<х2>Преобразование HTML в текст тривиально
Мюллер и Сплитт отметили, что, несмотря на то, насколько сложным выглядит HTML, сканировать его и разобраться в нем тривиально и очень легко. Преимущество использования уценки для LLM, заключающееся в том, что это упрощает сканирование и индексацию контента, на этом этапе полностью теряет смысл.
Джон Мюллер объясняет:
“Я думаю, самое главное то, что Интернет с HTML и всем остальным существует уже очень давно, дольше, чем Markdown. И все сканеры практиковались в HTML. А конвертировать HTML в текст тривиально. Существует множество библиотек, которые могут сделать это за вас. Итак, если вы подумаете о том, что среднестатистический веб-сканер может искать или должен найти на странице, чтобы понять ее, то, вероятно, это всего лишь HTML.
блоковая>
Markdown не работает при обнаружении контента
Обнаружение — это когда любой сканер посещает веб-страницу и обнаруживает другие веб-страницы на одном веб-сайте, а также на разных веб-сайтах.
Сплитт сказал, что уценка ориентирована только на одну часть контента: сам контент. Он объяснил, что из-за этого поисковым системам сложнее увидеть веб-страницу в контексте того, как она соединяется с остальным содержимым веб-сайта через ссылки, которые помогают поиску.
Он объяснил:
“Да, и я имею в виду другое: да, приятно, что Markdown обычно сосредотачивается на части контента, но HTML со всеми ссылками, навигацией, заголовками и всем подобным материалом, который как бы удаляется из файлов Markdown, которые составляют веб-сайт, важен для понимания структуры и того, как это связано с остальной частью сайта.
Так что, думаю, это тоже плохо. Если бы мы потеряли это, то, вероятно, это было бы не очень хорошо для ползания по Дискавери, да? “
<ч2>На выносч2>
Читая патенты и исследовательские работы, становится ясно, что поисковые системы видят веб-сайт не только как набор отдельных веб-страниц, но и как группы веб-страниц, принадлежащих разделам и категориям, а также как сам веб-сайт в целом. Уменьшите масштаб, и веб-сайт станет лишь одним из тысяч и тысяч других веб-сайтов в окружении веб-сайтов, самоорганизованных по ссылкам по категориям и уровням качества.
Для SEO мы должны понимать сайт как в уменьшенном, так и в увеличенном виде, чтобы понять, как все его части сочетаются друг с другом. Причина в том, что именно это и делают поисковые системы.
<п>SEO на основе искусственного интеллекта, похоже, нацелено на то, чтобы LLM и агентам искусственного интеллекта было проще сканировать и индексировать контент. Сканирование и индексирование являются обоснованными проблемами. Но, настаивая на файлах уценки, они не принимают во внимание основы обнаружения и то, насколько тривиально извлекать контент с веб-страницы HTML, что делает файлы уценки ненужными.
Помимо вышеперечисленных вопросов, есть еще вопрос, связанный с надежностью. Раньше существовала так называемая мета-тег ключевого слова, которую некоторые поисковые системы использовали, чтобы получить подсказку о том, о чем веб-страница. Естественно, владельцы сайтов и оптимизаторы использовали его, чтобы сбросить все ключевые слова, по которым они хотели ранжироваться, независимо от содержания.
Я не говорю, что SEO-специалисты и владельцы веб-сайтов не заслуживают доверия, но поисковый трафик — это деньги, и люди будут делать то, что собираются делать. Итак, последнее соображение заключается в том, что поисковые системы никогда не будут доверять контенту с уценкой и использовать его как канонический, когда сканирование и извлечение исходного контента из HTML является тривиальной задачей.
<стр>Вернувшись к тому, что обсуждали Мюллер и Сплитт, Google настаивает на том, что настойчивость AI SEO в уценке лишает значительной части важного контекста.
Смотрите 111 серию Search Off The Record здесь:
