Обновление GraphRAG улучшает результаты поиска AI

Обновление GraphRAG улучшает результаты поиска AI

<стр>Обновление GraphRAG улучшает результаты поиска ИИ за счет конкретных и полных ответов и большего количества ссылок на исходные материалы

Microsoft объявила об обновлении GraphRAG, которое улучшает поисковые системы с искусственным интеллектом. способность давать конкретные и исчерпывающие ответы, используя при этом меньше ресурсов. Это обновление ускоряет обработку LLM и повышает точность.

Разница между RAG и GraphRAG

<п>RAG (Поисковая дополненная генерация) сочетает в себе большую языковую модель (LLM) с поисковым индексом (или базой данных) для генерации ответов на поисковые запросы. Индекс поиска обосновывает языковую модель свежими и актуальными данными. Это снижает вероятность того, что поисковая система ИИ предоставит устаревшие или галлюцинированные ответы.

GraphRAG совершенствует RAG, используя граф знаний, созданный на основе поискового индекса, для последующего создания сводок, называемых отчетами сообщества.

GraphRAG использует двухэтапный процесс:

Шаг 1: Механизм индексирования
Механизм индексирования сегментирует поисковый индекс на тематические сообщества, сформированные вокруг связанных тем. Эти сообщества связаны сущностями (например, людьми, местами или понятиями) и отношениями между ними, образуя иерархический граф знаний. Затем LLM создает сводку для каждого сообщества, называемую отчетом сообщества. Это иерархический граф знаний, который создает GraphRAG, где каждый уровень иерархической структуры представляет собой сводку.

<стр>Существует заблуждение, что GraphRAG использует графы знаний. Хотя это отчасти верно, но при этом упускается самая важная часть: GraphRAG создает графы знаний из неструктурированных данных, таких как веб-страницы, на этапе механизма индексирования. Этот процесс преобразования необработанных данных в структурированные знания отличает GraphRAG от RAG, который основан на извлечении и обобщении информации без построения иерархического графа.

Шаг 2: Шаг запроса<бр> На втором этапе GraphRAG использует созданный им граф знаний, чтобы предоставить LLM контекст, чтобы он мог более точно ответить на вопрос.

Microsoft поясняет, что технология Retrieval Augmented Generation (RAG) с трудом извлекает информацию, основанную на теме, поскольку она рассматривает только семантические связи.

GraphRAG превосходит RAG, поскольку сначала преобразует все документы в своем поисковом индексе в граф знаний, который иерархически организует темы и подтемы (темы) во все более конкретные слои. В то время как RAG для поиска ответов полагается на семантические отношения, GraphRAG использует тематическое сходство, что позволяет находить ответы, даже если в документе отсутствуют семантически связанные ключевые слова.

Вот как это объясняется в оригинальном объявлении GraphRAG:

“Baseline RAG не справляется с запросами, требующими агрегирования информации из набора данных для составления ответа. Такие запросы, как “Каковы 5 самых популярных тем в данных?” работает ужасно, потому что базовая RAG опирается на векторный поиск семантически схожего текстового содержимого в наборе данных. В запросе нет ничего, что могло бы направить его на правильную информацию.

Однако с помощью GraphRAG мы можем ответить на такие вопросы, поскольку структура графа знаний, созданного LLM, говорит нам о структуре (и, следовательно, темах) набора данных в целом. Это позволяет организовать частный набор данных в значимые семантические кластеры, которые предварительно суммируются. LLM использует эти кластеры для обобщения этих тем при ответе на запрос пользователя.”

Обновить GraphRAG

Подводя итог, GraphRAG создает граф знаний на основе индекса поиска. “сообщество” относится к группе связанных сегментов или документов, сгруппированных по тематическому сходству, а “отчет сообщества” — это сводка, созданная LLM для каждого сообщества.

<п>Первоначальная версия GraphRAG была неэффективной, поскольку обрабатывала все отчеты сообщества, включая нерелевантные сводки нижнего уровня, независимо от их релевантности поисковому запросу. Microsoft описывает это как “статическую” подход, поскольку в нем отсутствует динамическая фильтрация.

Обновленный GraphRAG представляет “динамический выбор сообщества” который оценивает актуальность каждого отчета сообщества. Нерелевантные отчеты и их подсообщества удаляются, что повышает эффективность и точность за счет сосредоточения внимания только на актуальной информации.

Microsoft объясняет:

<блоковая цитата><п>“Здесь мы вводим динамический выбор сообщества в алгоритм глобального поиска, который использует структуру графа знаний индексированного набора данных. Начиная с корня графа знаний, мы используем LLM, чтобы угадать, насколько отчет сообщества важен для ответа на вопрос пользователя. Если отчет признан нерелевантным, мы просто удаляем его и его узлы (или подсообщества) из процесса поиска. С другой стороны, если отчет считается релевантным, мы затем просматриваем его дочерние узлы и повторяем операцию. Наконец, в операцию уменьшения карты передаются только соответствующие отчеты для генерации ответа пользователю. “

Выводы: результаты обновленного GraphRAG

Microsoft протестировала новую версию GraphRAG и пришла к выводу, что она привела к снижению вычислительных затрат на 77%, в частности стоимости токена при обработке LLM. Токены — это основные единицы текста, обрабатываемые LLM. Улучшенный GraphRAG может использовать меньший LLM, что еще больше снижает затраты без ущерба для качества результатов.

Положительное влияние на качество результатов поиска:

<ул>

  • Динамический поиск предоставляет ответы, содержащие более конкретную информацию.
  • В ответах содержится больше ссылок на исходный материал, что повышает достоверность ответов.
  • Результаты более полные и специфичные для запроса пользователя, что помогает избежать предоставления слишком большого количества информации.
  • Динамический выбор сообществ в GraphRAG улучшает качество результатов поиска, генерируя более конкретные, релевантные ответы и поддерживаемые исходным материалом.

    Back To Top