RAG — Retrieval-Augmented Generation: как научить агента вашим данным
RAG (Retrieval-Augmented Generation) — технология, которая позволяет AI-агентам искать информацию в ваших документах и отвечать на её основе. Агент получает свою «библиотеку» и может давать ответы, ссылаясь на конкретные документы.
Зачем нужен RAG?
- Агент знает вашу документацию, регламенты, базу знаний
- Ответы актуальны (не ограничены датой обучения модели)
- Можно сослаться на источник
- Дешевле, чем дообучение (fine-tuning)
Как работает RAG?
- Индексация — документы нарезаются на чанки и превращаются в векторы (embeddings)
- Поиск — при вопросе ищутся похожие чанки через векторный поиск
- Генерация — найденные куски передаются в LLM как контекст
Компоненты RAG-системы
- Векторная БД: Pinecone, Qdrant, pgvector, Chroma
- Embeddings: OpenAI ada-002, nomic-embed-text
- LLM: Claude, GPT-4, Llama
- Оркестратор: LangChain, LlamaIndex
Когда использовать RAG?
Подходит: большая база документов (100+ страниц), данные часто обновляются, нужны ссылки на источники.
Не подходит: нужно изменить стиль ответов модели (лучше fine-tuning), данных мало (можно просто передать в контекст).