RAG — Retrieval-Augmented Generation: как научить агента вашим данным

RAG — Retrieval-Augmented Generation: как научить агента вашим данным

RAG (Retrieval-Augmented Generation) — технология, которая позволяет AI-агентам искать информацию в ваших документах и отвечать на её основе. Агент получает свою «библиотеку» и может давать ответы, ссылаясь на конкретные документы.

Зачем нужен RAG?

  • Агент знает вашу документацию, регламенты, базу знаний
  • Ответы актуальны (не ограничены датой обучения модели)
  • Можно сослаться на источник
  • Дешевле, чем дообучение (fine-tuning)

Как работает RAG?

  1. Индексация — документы нарезаются на чанки и превращаются в векторы (embeddings)
  2. Поиск — при вопросе ищутся похожие чанки через векторный поиск
  3. Генерация — найденные куски передаются в LLM как контекст

Компоненты RAG-системы

  • Векторная БД: Pinecone, Qdrant, pgvector, Chroma
  • Embeddings: OpenAI ada-002, nomic-embed-text
  • LLM: Claude, GPT-4, Llama
  • Оркестратор: LangChain, LlamaIndex

Когда использовать RAG?

Подходит: большая база документов (100+ страниц), данные часто обновляются, нужны ссылки на источники.

Не подходит: нужно изменить стиль ответов модели (лучше fine-tuning), данных мало (можно просто передать в контекст).