Экспресс-курс · No. 28

Когда модель не знает твоего домена, есть три способа это починить: сказать ей в промпте, вручить факты в момент выполнения (RAG) или реально переобучить её веса (файнтюнинг). Они решают по-настоящему разные задачи — и большинство тянется к самому дорогому первым. Вот что каждый реально делает, то одно различие, что решает между ними, и как выбрать самое дешёвое, что работает.

Только суть · Один образ на идею · Инженерия важнее магии

§ 01

Все три техники существуют, чтобы решить одну проблему: модель блестяща в общем, но невежественна в твоих конкретностях. Понять ровно, чего ей не хватает, — вот как выбрать правильную починку.

Её знание заморожено и обще

Блестящий выпускник, что прочёл огромную библиотеку годы назад, — но не файлы твоей компании и ничего, опубликованного со дня его выпуска.

Модель знает лишь то, что было в её обучающих данных (training data), замороженных на дате отсечки и взятых из публичного интернета. У неё широкое общее знание и никакой осведомлённости о твоих приватных данных, твоём конкретном домене или о чём-либо, случившемся после обучения. Так что из коробки она не может ответить про твой продукт, следовать твоему стилю или использовать цифры прошлой недели. Всё в этом курсе — это способ закрыть тот разрыв между общим знанием модели и твоим конкретным миром.

Три разные вещи, что тебе может быть нужно

Новичку может быть нужен брифинг-документ, картотека, что он может сверять, или реальное обучение, что меняет то, как он работает, — три разных разрыва, три разные починки.

Разрыв приходит в разных формах, и у них не одна и та же починка. Иногда тебе нужно, чтобы модель знала какие-то факты для этой задачи; иногда — опиралась на большой, меняющийся свод знания; иногда — вела себя иначе: последовательный формат, тон или навык. Они отображаются на три техники: сказать ей (промптинг), дать источник знания (RAG) или переобучить (файнтюнинг). Назвать, какой разрыв у тебя, — это всё решение.

Подбери технику под разрыв

Ты не отправляешь кого-то на год обучения, когда хватило бы одностраничной памятки, — ты подбираешь усилие под то, чего на деле не хватает.

Техники колоссально различаются по стоимости, скорости и тому, для чего хороши, так что тянуться к не той дорого в обоих смыслах. Самая частая ошибка — прыгнуть прямо к файнтюнингу, самому тяжёлому варианту, когда промптинг или RAG решили бы проблему быстрее и дешевле. Навык не в том, чтобы знать, как файнтюнить, а в том, чтобы диагностировать разрыв достаточно точно, чтобы выбрать самую лёгкую технику, что его закрывает.

Знание модели заморожено и обще — она не знает твоего мира. Промптинг, RAG и файнтюнинг закрывают разные разрывы, так что диагностика разрыва — это как ты выбираешь.

§ 02

Первая и самая дешёвая техника — просто положить то, что нужно модели, в промпт. Это мгновенно, без обучения и куда способнее, чем думают, — так что с этого ты всегда начинаешь.

Положи то, что ей нужно, прямо в контекст

Брифинг толкового временного работника перед задачей: вот ситуация, правила, пример хорошего — он способен, ему просто нужен был контекст, и теперь он может это сделать.

Простейший способ дать модели то, чего ей не хватает, — положить это в промпт: инструкции, релевантные факты, нужный формат, пару примеров. Модель использует эту внутриконтекстную (in-context) информацию немедленно, без всякого обучения. Поскольку модели сильны в следовании ясным инструкциям и примерам, удивительно много «модель не может это» — на деле «я не сказал ей достаточно ясно». Промптинг — это то, что надо исчерпать первым, а не последним.

Few-shot учит поведению, мгновенно

Показать три готовых примера ровно того вывода, что ты хочешь, потом попросить четвёртый — шаблон выучен на месте, без школы.

Ты можешь формировать не только что модель знает, но и как она ведёт себя, прямо в промпте, показывая примеры — few-shot-промптинг. Хочешь конкретный формат, тон или способ обработки задачи? Включи два-три примера этого, и модель сопоставит шаблон. Это значит, что много того, что считают требующим файнтюнинга, — последовательный стиль, конкретная форма вывода — часто достижимо примерами в контексте, бесплатно и мгновенно.

Его пределы: окно и повторение

Брифинг работает на одну встречу, но можно вручить лишь столько страниц, и приходится вручать их заново каждый раз — нормально для памятки, неуклюже для энциклопедии.

У промптинга реальные пределы. Всё должно влезть в окно контекста, так что нельзя вставить огромную базу знаний. И это на каждый вызов: ты шлёшь этот контекст каждый раз, платя за него на каждом запросе, и модель никогда не удерживает его между вызовами. Когда знание слишком велико для окна, постоянно меняется или ты бы вставлял один и тот же большой материал бесконечно, одного промптинга перестаёт хватать — и ровно тут вступает следующая техника.

Промптинг кладёт то, что нужно модели, в контекст — факты, формат, примеры — мгновенно и без обучения. Это мощно и дёшево, ограничено лишь окном и повторением на каждый вызов.

§ 03

Когда знание слишком велико или слишком свежо для промпта, ты не кладёшь его всё — ты достаёшь нужный кусок в момент, когда он нужен. Это retrieval-augmented generation.

Извлекай релевантные факты в момент выполнения

Экзамен с открытой книгой: вместо того чтобы зубрить всю библиотеку, ты смотришь те несколько релевантных страниц в момент вопроса и отвечаешь по ним.

RAG (retrieval-augmented generation) обрабатывает знание, слишком большое для промпта, доставая только релевантную часть по требованию. В момент вопроса он ищет в твоих документах, вытягивает самые релевантные чанки и кладёт их в контекст, чтобы модель отвечала по ним. Так модель работает из твоих настоящих, текущих данных, ни разу их не зазубрив, — ты даёшь ей нужную страницу ровно тогда, когда она нужна. (Курс о RAG копает вглубь; это его место в ряду.)

Лучше всего для большого, меняющегося, приватного знания

Справочная библиотека, что ты держишь обновлённой: ты не перепечатываешь мозг библиотекаря, когда факт меняется, — ты просто обновляешь полку, и следующий поиск актуален.

RAG блистает ровно там, где промптинг буксует: база знаний, слишком большая для окна, факты, что часто меняются, или приватные данные, на которых модель никогда не обучалась. Обнови документ, и следующий ответ это отразит мгновенно — без переобучения. Это делает RAG стандартным способом заземлить модель в твоей конкретной, текущей, возможно конфиденциальной информации. Когда разрыв — «ей нужно знать вещи», особенно вещи, что движутся, RAG обычно ответ.

RAG добавляет знание, а не новое поведение

Вручить кому-то справочники получше делает его более осведомлённым, — но не меняет его стиль письма и не учит новому навыку. Факты внутрь, не привычки.

Ключевое про RAG: он меняет то, что модель знает для этого ответа, а не то, как она фундаментально ведёт себя. Лежащие в основе навыки, стиль и рассуждение модели неизменны — ты просто вручил ей факты получше, из которых работать. Так что RAG — правильный инструмент для разрыва знания и неправильный для разрыва поведения. Если тебе нужно, чтобы модель последовательно отвечала определённым образом, извлечение большего числа документов туда не приведёт, — что указывает на третью технику.

RAG достаёт релевантные факты в момент выполнения, заземляя модель в знании, слишком большом, свежем или приватном для промпта. Он добавляет то, что модель знает, — а не то, как она ведёт себя.

§ 04

Самая тяжёлая техника реально модифицирует саму модель. Это единственная, что меняет въевшееся поведение модели, — и та, к которой тянутся слишком рано, по неверным причинам.

Файнтюнинг переобучает модель на твоих примерах

Не брифинг работника под одну задачу, а отправка его через обучение, что меняет то, как он работает по умолчанию, — новый способ вшит, а не вручается каждый раз.

Файнтюнинг (fine-tuning) берёт существующую модель и дообучает её на наборе твоих собственных примеров, подстраивая её внутренние веса (weights), чтобы новое поведение стало частью самой модели. В отличие от промптинга и RAG, что добавляют информацию в момент выполнения и оставляют модель неизменной, файнтюнинг реально меняет модель. Результат — модель, что ведёт себя по-твоему по умолчанию, не нуждаясь в инструкциях или примерах в каждом промпте: она их выучила.

Он учит поведению, формату и стилю

Обучение, что превращает универсала в того, кто надёжно пишет твоим фирменным голосом или обрабатывает твою конкретную задачу одинаково каждый раз, — выученная привычка, а не напоминание.

В чём файнтюнинг по-настоящему хорош — это поведение: последовательный тон или фирменный стиль, конкретный формат вывода, специализированная задача, что модель делает снова и снова, или совпадение с тем, как твой домен формулирует вещи. Когда у тебя много примеров «ввод вроде этого должен производить вывод вроде того», файнтюнинг может вшить этот шаблон глубоко и надёжно, за пределы того, что достигают примеры в промпте. Он формирует, как модель отвечает, выученное в её веса.

Цена: данные, усилие и поддержка

Отправить кого-то на настоящую программу обучения стоит времени, денег и учебного плана, — а когда работа меняется, приходится переобучать заново.

Файнтюнинг — дорогой вариант. Ему нужен качественный датасет примеров (часто много), процесс обучения и экспертиза — и, что критично, это не разовая стоимость: когда вещи меняются, ты переобучаешь. LoRA и другие «параметр-эффективные» методы делают его дешевле, подстраивая лишь малую часть модели, а не всю, что снизило барьер, — но он всё равно куда тяжелее промптинга или RAG. Ты берёшь на себя стоимость файнтюнинга, лишь когда его конкретная выгода того стоит.

Файнтюнинг переобучает веса модели, так что новое поведение вшито, — отлично для последовательного стиля, формата и повторяющихся задач. Это дорогой вариант: данные, обучение и постоянная поддержка, даже с LoRA.

§ 05

Одно различие улаживает бо́льшую часть путаницы между файнтюнингом и RAG и избегает самой частой дорогой ошибки. Пойми это, и выбор обычно делается сам.

Файнтюнинг учит форме; RAG учит фактам

Ты обучаешь человека, как писать отчёт (выученный навык), но вручаешь ему данные, что туда положить (смотрятся каждый раз), — навык обучен, факты достаются.

Вот правило, что прорезает это: файнтюнинг — для того, как модель отвечает; RAG — для того, что она знает. Файнтюнинг учит форме — стилю, тону, формату, форме задачи — вшивая её в веса. RAG поставляет факты — текущую, конкретную, приватную информацию — доставая их в момент выполнения. Один меняет поведение; другой меняет знание. Почти любой вопрос «файнтюнить или использовать RAG?» растворяется, как только ты спрашиваешь, разрыв ли это формы или фактов.

Дорогая ошибка: файнтюнить, чтобы добавить знание

Отправить кого-то в школу зазубрить телефонную книгу, что меняется еженедельно, — к тому времени, как он её выучил, она уже неверна, и придётся переобучать на каждое обновление.

Самая частая дорогая ошибка — файнтюнить, чтобы добавить факты, что модель должна знать. Это в основном работает плохо, это дорого и, хуже всего, факты заморожены в тот миг, как обучение кончилось, — в момент, как твои данные меняются, дообученная модель устарела, и ты должен переобучать. Факты, что меняются, принадлежат RAG, где обновление мгновенно. Файнтюнить, чтобы впрыснуть знание, — это делать трудную, хрупкую вещь там, где лёгкая, текущая вещь была прямо рядом.

Они сочетаются: файнтюнь форму, RAG-ай факты

Специалист, обученный, как делать работу (дообученный), что ещё и сверяет всегда-текущий справочник для конкретики (RAG), — лучшее из обоих, каждый делает то, в чём хорош.

Это не соперники; сильнейшие системы часто используют оба. Можно дообучить модель под поведение и стиль твоего домена и использовать RAG, чтобы кормить её текущими фактами в момент выполнения, — форма от файнтюнинга, факты от извлечения, каждый обрабатывает разрыв, к которому на деле приспособлен. Видеть их дополняющими, а не конкурирующими, — признак понимания различия: ты не выбираешь одну технику, ты применяешь каждую к той части проблемы, к которой она подходит.

Файнтюнинг учит форме — стилю, формату, поведению; RAG учит фактам — текущему, конкретному знанию. Классическая дорогая ошибка — файнтюнить, чтобы добавить факты, что замерзают в тот миг, как обучение кончилось.

§ 06

Сложи три вместе, и они образуют лестницу растущей стоимости и мощи. Дисциплина та же, что и везде в инженерии: поднимайся лишь настолько высоко, насколько вынуждает проблема.

Начинай снизу: промптинг

Прежде чем бронировать курс обучения, ты пробуешь просто ясно объяснить задачу — в большинстве случаев это всё, что было нужно.

Лестница идёт от дешёвого и мгновенного к дорогому и медленному: промптинг, затем RAG, затем файнтюнинг. Всегда начинай снизу. Сперва попробуй ясные инструкции и пару примеров; огромная доля проблем решается прямо там, бесплатно, за минуты. Только когда промптинг по-настоящему не может закрыть разрыв, ты поднимаешься. Начать с вершины — тянуться к файнтюнингу первым — это дорогая ошибка, что определяет новичков с бюджетом.

Поднимайся, лишь когда ступень ниже не достаёт

Ты переходишь к инструменту побольше, лишь когда меньший реально провалил работу, — а не потому, что бо́льший звучит серьёзнее.

Поднимайся к RAG, когда знание слишком большое, текущее или приватное для промпта, — ясный разрыв знания, что промптинг не заполнит. Поднимайся к файнтюнингу, когда нужно последовательное поведение, что промптинг и примеры не дают надёжно, и у тебя есть данные и бюджет, чтобы научить. Каждая ступень оправдана лишь провалом ступени ниже. Вопрос на каждом шаге: реально ли более дешёвая техника не дотянула тут, или я просто предполагаю, что не дотянет?

Большинству продуктов верхняя ступень не нужна никогда

Большинство работ делается хорошим брифингом и справочником — полное переобучение это исключение, приберегаемое для редкого случая, что его правда требует.

Честная реальность: подавляющему большинству LLM-приложений хорошо служат промптинг и RAG, и файнтюнинг им не нужен вовсе. Файнтюнинг — реальный и мощный инструмент для конкретного случая въевшегося поведения в масштабе, — но это исключение, а не дефолт. Относиться к нему как к последнему средству, к которому тянешься, лишь когда более лёгкие ступени доказуемо провалились, направит тебя верно куда чаще, чем тянуться к нему, потому что он звучит продвинуто.

Лестница — это промптинг, потом RAG, потом файнтюнинг — растущая стоимость и мощь. Начинай снизу и поднимайся, лишь когда ступень ниже правда не достаёт. Большинству продуктов верх не нужен.

§ 07

Выбрать хорошо сводится к честной диагностике разрыва и измерению того, сработала ли твоя починка, — та же инженерная дисциплина, что правит всем остальным с моделями.

Диагностируй разрыв до выбора инструмента

Хороший врач диагностирует до того, как прописать, — он не тянется к операции, потому что она драматична, а сперва выясняет, что на деле не так.

Всё решение поворачивается на точном назывании разрыва: модели не хватает фактов (RAG), нужна более ясная инструкция (промптинг) или иное поведение, вшитое (файнтюнинг)? Большинство неверных выборов идут от пропуска этой диагностики и прыжка к технике. Спроси, чего на деле не хватает, подбери к самому лёгкому инструменту, что подходит, и избежишь дорогих крюков — особенно большого: файнтюнинга ради фактов.

Меряй, сработало ли это на деле

Ты не предполагаешь, что обучение помогло, — ты тестируешь работника после и смотришь, стал ли вывод лучше.

Какую бы технику ты ни использовал, проверяй её эвалами: реально ли изменение улучшило выводы на настоящих случаях? Лучший промпт, RAG-конвейер, файнтюн — каждый это гипотеза, что подтверждаешь измерением, а не ощущением. Это вдвойне важно для файнтюнинга, где стоимость высока, а смутное «кажется лучше» недостаточно, чтобы его оправдать. Измерение держит тебя честным насчёт того, заработала ли более тяжёлая техника своё место над более лёгкой.

Прежде чем тянуться к технике
  • Каков разрыв — факты, более ясная инструкция или иное поведение? - Пробовал ли ты промптинг — ясные инструкции и пару примеров — первым? - Это разрыв знания — большие, текущие или приватные факты — указывающий на RAG? - Это разрыв поведения — последовательная форма, стиль, повторяющаяся задача — указывающий на файнтюнинг? - Для файнтюнинга есть ли у тебя данные-примеры и бюджет, включая постоянную поддержку? - Меряешь ли ты, реально ли выбранная техника улучшила выводы?
Слова, которыми ты теперь владеешь
  • training data / отсечка — что модель знает, замороженное на дате. - промптинг / in-context / few-shot — сказать модели то, что нужно, прямо в промпте. - RAG — извлекать релевантные факты в момент выполнения, чтобы заземлить ответ. - файнтюнинг / веса / LoRA — переобучить модель, так что поведение вшито. - форма против фактов — файнтюнинг меняет, как она отвечает; RAG меняет, что она знает. - лестница решения — промптинг, потом RAG, потом файнтюнинг, по растущей стоимости. - эвалы — измерение, реально ли техника улучшила результат.
Признаки, что ты выбираешь хорошо
  • Ты диагностируешь разрыв — факты, инструкция или поведение — до выбора техники. - Ты начинаешь с промптинга и поднимаешься, лишь когда он правда не дотягивает. - Ты используешь RAG для знания и файнтюнинг для поведения и никогда не файнтюнишь ради фактов. - Ты сочетаешь их, когда это помогает, — форма от файнтюнинга, факты от RAG. - Ты меряешь эвалами и относишься к файнтюнингу как к оправданному последнему средству, а не дефолту.

Диагностируй разрыв, потом поднимайся по лестнице: промптинг для инструкции, RAG для фактов, файнтюнинг для поведения. Используй самую лёгкую технику, что работает, сочетай их, когда помогает, и измерь, что сработало.

Конец экспресс-курса · 7 глав · инженерия важнее магии

Дальше — практика: возьми случай, где модель не дотягивает, и назови разрыв вслух — факты, инструкция или поведение. Попробуй починить промптингом сперва; если нужно текущее или приватное знание, тянись к RAG; рассматривай файнтюнинг, лишь если нужно въевшееся поведение, что примеры не дают. Потом измерь, реально ли улучшилось. Решение щёлкает в тот миг, как ловишь себя на том, что вот-вот файнтюнишь ради фактов, и тянешься к RAG вместо этого. Но держи одну мысль выше прочих: файнтюнинг учит форме, RAG учит фактам, а промптинг — это где ты начинаешь. Выбери самую лёгкую из трёх, что закрывает твой реальный разрыв, — обычно это не та, что звучит впечатляюще.