RAG — Retrieval-Augmented Generation: как научить агента вашим данным

Last updated on 21 Mar 2026

RAG (Retrieval-Augmented Generation) — технология, которая позволяет AI-агентам искать информацию в ваших документах и отвечать на её основе. Агент получает свою «библиотеку» и может давать ответы, ссылаясь на конкретные документы.

Зачем нужен RAG?

Агент знает вашу документацию, регламенты, базу знаний
Ответы актуальны (не ограничены датой обучения модели)
Можно сослаться на источник
Дешевле, чем дообучение (fine-tuning)

Как работает RAG?

Индексация — документы нарезаются на чанки и превращаются в векторы (embeddings)
Поиск — при вопросе ищутся похожие чанки через векторный поиск
Генерация — найденные куски передаются в LLM как контекст

Компоненты RAG-системы

Векторная БД: Pinecone, Qdrant, pgvector, Chroma
Embeddings: OpenAI ada-002, nomic-embed-text
LLM: Claude, GPT-4, Llama
Оркестратор: LangChain, LlamaIndex

Когда использовать RAG?

Подходит: большая база документов (100+ страниц), данные часто обновляются, нужны ссылки на источники.

Не подходит: нужно изменить стиль ответов модели (лучше fine-tuning), данных мало (можно просто передать в контекст).