Как разработать структуры URL-адресов для поиска ИИ, а не только для ранжирования

Структура URL-адресов всегда была важным фактором SEO для обеспечения релевантности, но теперь она также может влиять на поиск ИИ. Узнайте больше здесь.

В течение многих лет структура URL была техническим флажком SEO. Будьте краткими, используйте дефисы, включите ключевое слово «готово».

Хотя эта книга по-прежнему работает, она становится все более неполной. Растущая доля целевой аудитории теперь находит контент с помощью ИИ-помощников и крупных языковых моделей, таких как ChatGPT, Perplexity, Claude, обзоры искусственного интеллекта Google и других.

Эти системы извлекают и синтезируют информацию иначе, чем традиционные поисковые роботы, и если ваша архитектура URL-адресов не построена с учетом этого, вы увеличиваете свои шансы не быть цитируемыми LLM.

В новую эпоху поиска нам необходимо расширить эти основы SEO, чтобы они также соответствовали ИИ-ботам и тому, как они сканируют URL-адреса.

<х2>Почему системы искусственного интеллекта по-разному читают URL-адреса

Поисковые системы потратили десятилетия на разработку сложной инфраструктуры сканирования и индексирования. Они следуют за перенаправлениями, разрешают канонические символы, анализируют JavaScript (иногда…) и могут определять контекст страницы, когда URL-адрес представляет собой строку случайных символов.

Системы поиска искусственного интеллекта, особенно конвейеры с дополненной генерацией данных (RAG) и подключенные к Интернету LLM, часто работают по-другому.

Работа RAG состоит из трёх основных частей:

<ол класс="ol1">

Приглашение для ввода преобразуется в векторное встраивание

Соответствующие отрывки затем извлекаются из проиндексированных URL-адресов, документов и графиков знаний в традиционных результатах поиска, таких как Google и Bing.

LLM, такой как ChatGPT или аналогичный, затем обработает эту информацию и сгенерирует уточненный ответ.

Система RAG, созданная разработчиком, по существу будет использовать источники данных из URL-адресов для извлечения контента – – они просканируют URL-адрес, преобразуют веб-контент в доступные для поиска “куски” и сохраните их как числовые векторы для последующего извлечения.

<п>Теперь это также развивается в область заземления контекста URL-адреса, специфичную для Gemini. Целью заземления контекста URL-адресов является помощь Gemini (и, предположительно, Обзоры AI/Режим AI) лучше понимать и отвечать на вопросы о содержании и данных в отдельных URL-адресах без выполнения традиционной обработки RAG.

Целью здесь является то, чтобы LLM специально извлекал прямую информацию из нескольких URL-адресов, анализировал несколько отчетов и объединял информацию из нескольких источников для создания более точных сводок. Теоретически это должно помочь улучшить фактическую точность ИИ и уменьшить галлюцинации.

Затем есть классификация нулевого выстрела – amp;ndash; метод, который позволяет моделям классифицировать назначение веб-страницы без каких-либо обучающих данных для конкретной задачи.

Вместо того, чтобы полагаться на размеченные примеры, модель анализирует семантические сигналы, такие как структуры URL-адресов (рассматриваемые как простые текстовые строки), и сопоставляет их с предопределенными категориями, используя такие методы, как косинусное сходство или рассуждения на основе подсказок.

Это работает путем использования предварительно обученных языковых знаний модели для определения вероятной функции страницы, а также обнаружения различных шаблонов в словах и формулирования, которые сигнализируют о том, какой тип контента содержит страница.

<п>Это было особенно полезно при выявлении фишинговых и других вредоносных ссылок исключительно на основе их шаблонов URL-адресов, но также указывает на то, как LLM могут начать использовать нулевую классификацию, чтобы полагаться исключительно на URL-адреса для определения семантической релевантности.

URL-адрес, который ничего не сообщает, заставляет модели LLM работать усерднее и вносит неоднозначность в категоризацию контента.

На практике, когда система ИИ цитирует источник в ответе, она часто отображает URL-адрес рядом с отрывком. Этот URL-адрес становится видимым для реальных пользователей точно так же, как и в результатах поиска, и они будут принимать реальные решения о том, нажимать или нет.

Чистый, описательный путь укрепляет доверие так, как /p?id-4821 никогда не будет.

Основной принцип использования URL-адресов как семантических сигналов

Считайте структуру URL-адресов второстепенным слоем контента – тот, который передает иерархию, тему и специфику независимо от заголовка страницы, H1 или других метаданных.

<п>URL-адрес типа /resources/seo/url-structure-ai-trival/сообщает поисковой системе сразу несколько вещей: он находится в центре ресурсов, находится в категории SEO и охватывает определенную подтему на детальном уровне.

Это полезный сигнал. Это соответствует тому, как системы искусственного интеллекта пытаются понять происхождение и актуальность контента, прежде чем отображать его в ответе.

Это особенно важно для:

<ул>

Запросы с длинным хвостом и вопросы, в которых системы ИИ ищут точное соответствие конкретным информационным потребностям.

Тематический авторитет, где ваша иерархия URL-адресов может подтвердить, что ваш домен владеет предметной областью.

Качество цитирования: описательный URL-адрес увеличивает вероятность того, что агент ИИ ссылается на ваш контент, а не на почти идентичную страницу конкурента.

<х2>Практические принципы архитектуры <стр>Существует ряд практических архитектурных принципов, которые следует учитывать как для традиционного поиска, так и для поиска с использованием ИИ.

Используйте логическую, неглубокую иерархию

Глубокая вложенность (т. е. /blog/category/subcategory/year/month/post-title/) создает шум, и ваш контент находится в нескольких шагах от главной страницы. Почти всегда достаточно структуры глубиной в три уровня, т.е. domain > категория > конкретная страница. Существуют некоторые настройки CMS, такие как Shopify, где вам приходится использовать четыре или пять, в зависимости от вашей темы (т. е. домен/блог/название блога/заголовок-поста в блоге/), но пока вы добавляете содержательный контекст, а не административный беспорядок, ваша структура будет соответствовать этому принципу.

Сделайте каждый сегмент понятным и понятным

Избегайте сокращений, внутреннего жаргона или идентификационных номеров в общедоступных URL-адресах. URL-адрес типа /ai-search-optimization передает тему напрямую, тогда как URL-адрес типа /aso-v2 ничего не сообщает без предварительного знания.

Совмещайте URL-адреса с фактическим намерением поиска, а не только с ключевым словом

<п>Существует большая разница между /email-marketing и /email-marketing-best-practices-b2b. Второй сигнализирует о специфике. Скорее всего, это произойдет, когда система искусственного интеллекта генерирует ответ на точный вопрос, потому что URL-адрес сам по себе сужает область релевантности еще до того, как контент будет проанализирован.

Соблюдайте единообразие в названиях категорий на вашем сайте

Если в вашей контент-стратегии используется /guides/для длинного образовательного контента и /blog/для более коротких комментариев, поддерживайте это последовательно. Вполне вероятно, что поисковые системы искусственного интеллекта со временем создадут модель структуры вашего сайта. Непоследовательность размывает информацию о том, какой тип контента где находится.

Избегайте использования ключевых слов в URL-адресах

Это старый совет по SEO, но он применим и здесь. URL-адрес, переполненный ключевыми словами, выглядит спамом для пользователей, которые видят, что он цитируется в ответе ИИ, что подрывает доверие, которое вы пытаетесь создать. Одно основное ключевое слово или фраза в каждом сегменте — это правильный выбор.

Как это выглядит на практике

<стр>Если два разных маркетолога пишут на одну и ту же тему, структура URL может быть ключевой для систем RAG, чтобы лучше понять контекст страницы как часть поиска контента.

Пример:

<стр>Маркетолог А публикует /blog/2024/03/email-tips-part-4.

<стр>Маркетолог Б публикует /resources/email-marketing/b2b-deliverability-guide.

<п>Структура URL-адреса маркетолога B правильно отображает иерархию (концентратор ресурсов), категорию (маркетинг по электронной почте) и конкретную направленность (доставляемость B2B) до того, как будет обработано одно слово основного текста.

Пользователи также с большей вероятностью выиграют от цитирования этого URL-адреса, поскольку они смогут сразу его понять.

Можно утверждать, что такая ясность и конкретность могут усугубляться, поскольку структура вашего URL-адреса и информационная архитектура сайта могут диктовать всю тематическую структуру вашего сайта, а также помогают передавать как опыт, так и актуальность.

The Redirect &amp;amp;amp;amp;amp;amp;Redirect; Проблема консолидации

Это больше актуально для корпоративных сайтов, на которых накопилась задолженность по URL-адресам, например, перенаправления, повторяющиеся пути и противоречивые фрагменты из-за исторических миграций системы управления контентом.

<п>Это может создать особую проблему для поиска ИИ, если существуют цепочки перенаправлений и повторяющиеся пути, поскольку сканеры могут не всегда приходить к канонической версии страницы, а разные системы поиска по-разному обрабатывают разрешение перенаправления.

Практическим решением будет определение приоритета URL-адресов вашего веб-сайта. Проведите аудит страниц с самым высоким трафиком и самой высокой ценностью и убедитесь, что их канонические URL-адреса чисты, доступны и структурированы в соответствии с вашей текущей таксономией.

Затем действуйте в обратном порядке.

Вам не нужно реструктуризировать весь сайт, чтобы на него могли цитироваться ответы ИИ, но особенно для страниц с наибольшим значением вы должны убедиться, что вы предлагаете наилучшие возможные URL-сигналы.

Что следует избегать изменений

Важно не всегда гоняться за большим и блестящим, поэтому не перестраивайте полностью архитектуру URL-адресов вашего сайта только ради незначительной выгоды от поиска с помощью ИИ.

Реструктуризация URL-адресов несет в себе реальный риск для SEO и требует времени на восстановление ссылочной массы, если установлено 301 перенаправление – и было много ужасных историй о веб-миграции, которые могут подтвердить, что может случиться, если их реализовать неправильно.

Цель состоит в том, чтобы применить эти принципы к новому контенту и отметить структурные проблемы на существующих ценных страницах, где необходимость устранения этих проблем очевидна и снижает риск.

Если ваша текущая структура URL-адреса уже соответствует четким, описательным, иерархическим соглашениям (что является стандартной частью передовой практики SEO), то поздравляем! Вы оптимизировали поиск ИИ, даже не подозревая об этом.

Вкратце

Структура URL-адресов всегда была относительно небольшим сигналом, но поскольку ИИ-помощники становятся все более значимым каналом поиска, структуры URL-адресов могут цитироваться в большем количестве мест, чем только Google и Bing.

<стр>Они могут помочь вам появиться в ответах, генерируемых искусственным интеллектом, они могут формировать качество цитирования и могут способствовать тому, как поисковые системы будут классифицировать ваш контент прежде всего.

Просто создавайте URL-адреса, которые четко рассказывают историю вашего контента, прежде чем пользователь нажмет на него.