Гайды по решениям

RAG или fine-tuning?

Ответьте на пять вопросов о вашей задаче и получите обоснованную рекомендацию с позицией — а не «у всего есть плюсы».

К fine-tuning тянутся гораздо чаще, чем стоило бы. Честный дефолт такой: начинайте с retrieval, а fine-tuning берите только при конкретной причине. Эти пять вопросов выясняют, есть ли она у вас.

Что именно вы пытаетесь изменить в выводе модели?
Как часто меняется эта информация?
Должны ли ответы ссылаться на источники?
Сколько у вас качественных обучающих примеров?
Насколько жёсткий у вас бюджет по задержке и стоимости на инференсе?

Ответьте на все вопросы, чтобы увидеть рекомендацию.

Все варианты вкратце

Начните с RAG

Здесь retrieval — правильный первый шаг. Постройте надёжный слой retrieval, измерьте grounding и возвращайтесь к fine-tuning, только если останется конкретный пробел в поведении.

Выбирайте это, когда

  • Вы добавляете знания, которых у модели нет
  • Информация меняется или ответы должны ссылаться на источники
  • У вас пока нет большого чистого обучающего набора

Компромиссы

  • Длинные промпты — выше стоимость и задержка на вызов
  • Качество retrieval становится отдельной вещью, которую надо проектировать и измерять
  • Сам по себе не изменит глубоко въевшийся стиль или формат

Fine-tuning

Это тот редкий случай, под который fine-tuning и создан: вы меняете поведение, знания статичны, данные есть, а цитаты не нужны.

Выбирайте это, когда

  • Цель — стиль/формат/поведение, а не новые факты
  • У вас тысячи чистых репрезентативных примеров
  • Знания статичны, и цитаты не требуются

Компромиссы

  • Каждое обновление знаний — ещё один прогон обучения
  • Вшитые факты нельзя процитировать или проследить
  • Нужна реальная дисциплина данных — мусор на входе, уверенно-неверно на выходе

RAG + лёгкий fine-tuning

Вам нужны и новые знания, и новое поведение. Пусть retrieval отвечает за факты, а лёгкий fine-tune — за поведение; именно в таком порядке, чтобы понимать, что на что влияет.

Выбирайте это, когда

  • Нужны новые знания и изменённое поведение одновременно
  • Данных достаточно, чтобы дообучить поведение

Компромиссы

  • Две системы, которые надо строить, оценивать и держать в синхроне
  • Сложнее всего отлаживать — сначала изолируйте retrieval, потом трогайте веса