Экспресс-курс · No. 33

Обычная модель выпаливает ответ за один проход. Но для тяжёлых задач дать ей сперва проработать шаги — рассуждать до ответа — драматически улучшает результат. Рассуждающие модели и «вычисления на этапе ответа» — это про то, чтобы тратить больше усилия в момент ответа ради лучшего ответа. Это мощно для тяжёлых задач и расточительно для лёгких — так что навык в том, чтобы знать, когда прибавить мышление.

Только суть · Один образ на идею · У мышления есть цена

§ 01

Вся идея начинается с простого наблюдения: модель, что прорабатывает задачу шаг за шагом, справляется лучше той, что прыгает прямо к ответу, — ровно как человек.

Выпалить ответ против того, чтобы его проработать

Студент, что выкрикивает первое число, что приходит в голову, против того, что сперва прорабатывает задачу на черновике, — второй попадает верно куда чаще.

По умолчанию модель производит ответ за один проход, генерируя отклик напрямую, — по сути выпаливая его. Для лёгких вопросов это нормально. Но для всего, что требует нескольких шагов логики, прыжок прямо к ответу — это где она спотыкается, так же как человек, спешащий с тяжёлой задачей, делает небрежные ошибки. Лекарство то же, что требуют учителя: не просто дай ответ, проработай шаги, — и модель, что так делает, заметно точнее на тяжёлых задачах.

Chain-of-thought: рассуждай вслух, шаг за шагом

Показать работу на математической задаче — записывая каждый шаг по порядку — чтобы рассуждение было разложено, а оговорка в середине поймана, а не погребена.

Chain-of-thought (цепочка рассуждений) — это техника заставить модель генерировать своё рассуждение шаг за шагом до финального ответа, вместо того чтобы производить один ответ. Попрошенная «продумать это», модель выписывает промежуточные шаги, — и рассуждение через них видимо склонно производить верный вывод куда чаще, чем прыжок к нему. Шаги не просто для виду: их генерация — это то, что даёт модели выстроиться к верному ответу, а не угадать его. Мышление на бумаге улучшает само мышление.

Шаги — это где случается работа

Длинный расчёт в уме чреват ошибками; тот же расчёт на бумаге, по одной строке за раз, надёжен, — бумага несёт то, что ум бы уронил.

Почему запись шагов помогает? Потому что каждый сгенерированный шаг становится контекстом, на котором модель может строить следующий, — она по сути использует свой же вывод как рабочую память, разбивая один тяжёлый прыжок в цепочку маленьких, управляемых ходов. Задача, слишком большая, чтобы решить за один прыжок, становится решаемой как последовательность. Это ключевая мысль за всем в этом курсе: дать модели место рассуждать, а не требовать мгновенного ответа, — вот что разблокирует тяжёлые задачи.

Модель, что прорабатывает шаги, бьёт ту, что выпаливает ответ. Chain-of-thought — рассуждение вслух, шаг за шагом — превращает один тяжёлый прыжок в цепочку управляемых ходов, и точность следует.

§ 02

То, что началось как трюк промптинга, стало видом модели. Рассуждающие модели обучены думать, прежде чем ответить, встраивая пошаговый процесс по умолчанию.

Модели, обученные думать перед ответом

Разница между тем, кто рефлекторно отвечает, и тем, кто обучен сделать паузу и сперва порассуждать, — привычка думать встроена в то, как он работает, а не то, что надо просить.

Рассуждающая модель (reasoning model) — это та, что специально обучена генерировать внутреннюю цепочку рассуждений до финального ответа, — «думать» сперва по умолчанию, а не только когда её попросят. Где стандартная модель выпаливает, а chain-of-thought-промпт уговаривает её рассуждать, у рассуждающей модели этот пошаговый процесс встроен в то, как она работает. Она производит отрезок внутреннего рассуждения, потом ответ, и заметно сильнее на задачах, что требуют реальной проработки.

Они меняют скорость на глубину

Аккуратный эксперт, что берёт минуту подумать перед ответом, даёт ответы лучше, чем быстрый, что отвечает мгновенно, — но ты ждёшь его.

Рассуждающая модель тратит больше усилия и времени на ответ, генерируя все эти внутренние шаги, прежде чем откликнуться. Это делает её медленнее и дороже стандартной модели в обмен на то, что она лучше на тяжёлых задачах. Это настоящий размен, а не бесплатный апгрейд: ты платишь — задержкой и токенами — за глубину мышления. Так что рассуждающая модель не просто «лучше»; это другой инструмент, подходящий задачам, где лишнее мышление зарабатывает свою цену, и перебор там, где нет.

Это инструмент для тяжёлых задач, а не дефолт

Ты привлекаешь глубоко-думающего специалиста для правда тяжёлого случая, а не отвечать на рутинные вопросы стойки регистрации, — не та работа растрачивает его дар.

Рассуждающая модель — правильный инструмент, когда задаче правда нужна аккуратная, многошаговая мысль, — и неправильный для простой, быстрой работы, где её обдумывание чистая растрата. Использовать рассуждающую модель, чтобы классифицировать сообщение или переформатировать текст, — это как нанять философа отвечать на телефон: медленнее и дороже без выгоды, ведь задаче мышление никогда не было нужно. Рассуждающая модель — мощный инструмент для тяжёлого среза работы, а не замена быстрых, обычных моделей на всём остальном.

Рассуждающая модель обучена думать шаг за шагом перед ответом — сильнее на тяжёлых задачах, медленнее и дороже в обмен. Это инструмент для тяжёлых случаев, а не дефолт для всего.

§ 03

Под рассуждающими моделями лежит более глубокая идея, что переформирует то, как ИИ улучшается: можно сделать модель лучше не только, обучая её больше, но и дав ей работать усерднее в момент, когда она отвечает.

Трать больше усилия в момент ответа

Получив больше времени на экзамене, ты проверяешь работу, пробуешь другой подход и ловишь ошибки, — тот же человек набирает выше просто потому, что ему позволено потратить дольше.

Вычисления на этапе ответа (test-time compute) означают тратить больше вычислений в момент ответа — на «инференсе» (inference), когда модель работает, — ради лучшего результата. Вместо одного быстрого прохода модель думает дольше, генерирует больше рассуждения, возможно пробует несколько подходов и выбирает лучший. Поразительная находка за рассуждающими моделями в том, что дать модели делать больше работы когда она отвечает улучшает качество, очень как дать человеку больше времени на тяжёлой задаче. Можно купить ответы лучше большим мышлением, а не только большим обучением.

Регулятор того, насколько усердно думать

Термостат усилия: прибавь для тяжёлой задачи и убавь для лёгкой, тратя ровно столько мышления, сколько задача стоит.

Вычисления на этапе ответа — это регулятор (dial), а не переключатель: можно потратить немного мышления или много, и больше в целом даёт результаты лучше на тяжёлых задачах — до точки убывающей отдачи. Это мощно, потому что даёт настраивать усилие под сложность: выкрути мышление вверх для правда тяжёлого случая, держи низким для рутинного. Возможность менять больше вычислений на больше точности, на запрос, — гибкий рычаг, и знать, что он есть, меняет то, как ты подходишь к тяжёлым задачам.

Этап обучения против этапа ответа

Разница между студентом, что усерднее учится перед экзаменом, и тем же студентом, которому дают больше времени во время него, — два разных способа получить результат лучше.

Исторически модели становились лучше в основном, обучаясь усерднее — больше данных, бо́льшие модели, сделано раз заранее. Вычисления на этапе ответа — это другая ось: улучшать ответ, работая усерднее на инференсе, каждый раз, как модель работает. Это важно, потому что это второй способ получить больше способности — не просто более умная модель, а та же модель, думающая дольше. Понимать, что качество может идти от усилия на этапе обучения или на этапе ответа, помогает рассуждать о том, откуда производительность модели — и её стоимость — на деле идёт.

Вычисления на этапе ответа означают тратить больше усилия, когда модель отвечает, а не только в обучении, — и больше мышления даёт ответы лучше на тяжёлых задачах. Это регулятор, что выкручиваешь вверх под сложность, вниз под рутину.

§ 04

Рассуждение мощно ровно там, где задача тяжела, и бессмысленно ровно там, где она лёгкая. Знать, что есть что, — бо́льшая часть того, чтобы использовать его хорошо.

Тяжёлые, многошаговые задачи выигрывают больше всего

Сложный маршрут со многими поворотами вознаграждает аккуратное планирование; прямая дорога к соседнему дому — нет, — чем тяжелее путь, тем больше мышление окупается.

Рассуждение помогает больше всего на задачах, что правда требуют нескольких шагов логики, чтобы взять верно: математика и расчёт, многошаговое планирование, сложный код, логические головоломки, аккуратный анализ, где один неверный шаг рушит ответ. Это ровно те задачи, где выпаливание проваливается, а проработка шагов удаётся. Чем тяжелее и многошаговее задача, тем больше лишнее мышление улучшает результат, — поэтому рассуждающие модели блистают на бенчмарках, полных правда трудных задач.

Простые задачи не выигрывают ничего

Долго обдумывать, что взять на обед, когда ты был бы рад любому варианту, — всё это мышление производит тот же ответ, медленнее.

Для простых, прямых задач — классифицируй это, извлеки то, переформатируй этот текст, ответь на базовый фактический вопрос — рассуждение не добавляет ничего, кроме задержки и стоимости. Нет многошаговой логики, чтобы прорабатывать, так что мышление — это потраченное движение; ответ был очевиден за один проход. Хуже, заставить модель «думать» о тривиальной задаче может изредка сделать её хуже, переусложняя то, что не нуждалось в обдумывании. Подбирай мышление под задачу: лёгкие задачи хотят быстрого ответа, а не вдумчивого.

Подбери глубину мысли под сложность

Хороший работник долго тратит на тяжёлое решение и отвечает на лёгкое мгновенно, — калибруя усилие под то, что каждое на деле требует.

Управляющий принцип — масштабировать, насколько усердно модель думает, под то, насколько тяжела задача. Правда трудная, высокоставочная, многошаговая работа заслуживает рассуждающей модели или больше вычислений на этапе ответа; простая, рутинная, хорошо-очерченная работа получает быструю стандартную модель. Это зеркалит идею маршрутизации из экономики моделей: большинство запросов лёгкие и хотят скорости, меньшинство тяжёлые и хотят мышления. Слать всё рассуждающей модели так же расточительно, как слать всё передовой, — калибруй, не дефолти.

Рассуждение помогает больше всего на тяжёлых, многошаговых задачах и ничего на простых. Масштабируй глубину мысли под сложность — рассуждающая модель для тяжёлого среза, быстрая для лёгкого большинства.

§ 05

Мышление не бесплатно. Больше рассуждения значит больше времени и больше токенов, и игнорировать эту цену — вот как команды кончают тем, что платят состояние, чтобы медленно отвечать на лёгкие вопросы.

Больше мышления значит больше токенов и денег

Счётчик, что крутится всё время, пока кто-то обдумывает, — чем дольше он думает, тем больше счёт, нужна была лишняя мысль или нет.

Все эти шаги рассуждения — сгенерированные токены, и ты за них платишь. Рассуждающая модель или высокая настройка вычислений на этапе ответа производят много внутреннего мышления до ответа, и каждый его токен стоит денег, — так что рассуждение ощутимо дороже на ответ, чем один прямой проход. Глубина, что делает его лучше на тяжёлых задачах, — это ровно то, что делает его дороже. Поэтому «просто используй рассуждающую модель для всего» рушит ИИ-бюджет: ты платишь за мышление на каждом запросе, включая те, что не нуждались ни в каком.

Оно медленнее, что важно для пользователей

Аккуратный эксперт, что берёт минуту ответить, стоит ожидания для тяжёлой задачи, но бесит, если ты просто спросил время.

Генерация всех этих шагов рассуждения берёт время, так что рассуждающие модели и тяжёлые вычисления на этапе ответа медленнее — иногда куда медленнее — производят ответ. Для фоновой задачи это нормально; для пользователя, ждущего на экране, долгая задержка — реальная цена опыту. Так что задержка мышления — часть размена: лишние секунды стоят того для тяжёлой задачи, что пользователь ждёт занять момент, и плохо подходят взаимодействию, что должно ощущаться мгновенным. Скорость — фича, что ты тратишь, когда прибавляешь мышление.

Не плати за мышление, что задаче не нужно

Нанять медленного, дорогого глубоко-думающего отвечать на простые вопросы весь день, — ты платишь премиальные ставки и ждёшь дольше за ответы, что быстрый клерк дал бы мгновенно.

Растрата, которой избегать, — тратить цену и задержку рассуждения на задачи, что не выигрывают. Маршрутизировать каждый запрос — лёгкий и тяжёлый одинаково — через рассуждающую модель значит платить налог на мышление на всём потоке, когда лишь срезу он был нужен. Применяется та же дисциплина, что экономика моделей: используй более дешёвый, быстрый, не-рассуждающий путь по умолчанию и эскалируй к рассуждению только для правда тяжёлых случаев, что зарабатывают его цену. Плати за мышление там, где оно платит назад, и ни токеном больше.

Мышление стоит токенов и времени — рассуждение дороже и медленнее на ответ. Плати за него только там, где тяжёлая задача его зарабатывает; маршрутизировать всё через рассуждающую модель облагает весь поток ради выгоды, что нужна лишь срезу.

§ 06

Соблазнительно довериться длинной, аккуратно-выглядящей цепочке рассуждений. Но больше шагов не гарантируют верного ответа — рассуждающая модель может быть уверенно, изощрённо неправа.

Длинная цепочка всё равно может прийти к неверному ответу

Детальный, уверенный аргумент, построенный на изъянной посылке, — каждый шаг следует аккуратно, а вывод всё равно неверен. Лоск — не доказательство.

Рассуждение улучшает шансы верного ответа на тяжёлых задачах; оно его не гарантирует. Модель может произвести длинную, гладкую, правдоподобно-выглядящую цепочку мысли, что ведёт к неверному выводу, — ошибка рано в цепочке, уверенно донесённая до конца, или рассуждение, что звучит строго, но не таково. Видимые шаги делают ответ ощущаемым доверенным, что ровно и есть ловушка: больше рассуждения выглядит авторитетнее, не будучи обязательно вернее.

Рассуждение может быть не настоящей причиной

Кто-то, кто решает по наитию, а потом изобретает логично-звучащее оправдание после, — объяснение звучит реально, но это не то, как он на деле туда пришёл.

Есть более тонкая ловушка: цепочка мысли, что модель показывает, не гарантированно тот процесс, что произвёл её ответ. Она может сгенерировать рассуждение, что выглядит как путь к выводу, пока настоящим основанием было что-то ещё, — правдоподобно-звучащая рационализация, а не верный отчёт. Так что нельзя целиком доверять показанному рассуждению как объяснению того, почему ответ такой. Это полезный сигнал и помощь точности, а не гарантированное окно в истинную логику модели.

Проверяй ответ, не доверяй мышлению

Ты проверяешь сложный расчёт, подтверждая результат независимо, а не восхищаясь, как аккуратно выглядит работа, — правильность ответа вот что считается.

Практический вывод: суди вывод рассуждающей модели по тому, верен ли ответ, проверенный против реальности, а не по тому, как впечатляюще выглядит рассуждение. Все дисциплины из других мест всё ещё применяются — заземли его в реальных фактах, сверь с источниками, гоняй эвалы, держи человека на высокоставочных решениях. Рассуждение делает тяжёлые ответы вероятнее верными; оно не делает их безопасными доверять непроверенными. Уверенная цепочка мысли всё ещё уверенная догадка, пока ты не проверил, где она приземлилась.

Больше рассуждения улучшает шансы, а не гарантию, — длинная цепочка может прийти к неверному ответу, а показанные шаги могут быть не настоящей причиной. Проверяй ответ; не доверяй мышлению.

§ 07

Рассуждение — мощная способность с ясной ценой, так что использовать его хорошо — это уже знакомая дисциплина: трать мышление там, где оно платит, и проверяй то, что оно производит.

Прибавляй мышление только для тяжёлой части

Ты сильно концентрируешься на том одном хитром шаге и проносишься через остальное, — фокусируя усилие там, где сложность на деле есть, а не размазывая ровно.

Объединяющий ход — подбирать мышление под сложность через систему: тянись к рассуждающей модели или больше вычислений на этапе ответа на правда тяжёлых, многошаговых, высокоставочных задачах и используй быстрые стандартные модели для лёгкого большинства. Можно даже смешивать их — быстрая модель обрабатывает рутинный путь и передаёт тяжёлые подзадачи рассуждающей модели. Тратить обдумывание там, где задача тяжела, и только там, даёт тебе выигрыш точности без уплаты налога на мышление через всё.

Рассуждение поднимает точность; оно не заменяет проверку

Аккуратный эксперт вероятнее прав, но ты всё равно подтверждаешь высокоставочное решение, — его аккуратность улучшает шансы, она не убирает нужду проверить.

Финальная дисциплина вяжет этот курс с остальными: рассуждение улучшает качество на тяжёлых задачах, но это всё ещё ошибающаяся модель, что может быть уверенно неправа, так что всё остальное всё ещё важно. Заземли его, проверь ответ, гоняй эвалы, держи людей на значимых решениях. Рассуждение — ещё один способ получить выводы лучше — наряду с хорошим контекстом, извлечением и правильной моделью — а не магический апгрейд, что убирает нужду инженерить надёжность вокруг него. Лучшее мышление — это более сильный ингредиент, а не готовое блюдо.

Прежде чем тянуться к рассуждению
  • Правда ли задача тяжела — многошаговая логика, математика, планирование — что мышление распутало бы? - Или она проста — где рассуждение просто добавляет задержку и стоимость без выигрыша? - Стоят ли цена и задержка того тут, или ты облагаешь лёгкие задачи мышлением? - Маршрутизируешь ли ты — рассуждение для тяжёлого среза, быстрые модели для лёгкого большинства? - Проверяешь ли ты ответ, а не доверяешь тщательно-выглядящей цепочке мысли? - Применяются ли обычные дисциплины — заземление, эвалы, человек на высокоставочных решениях?
Слова, которыми ты теперь владеешь
  • chain-of-thought — заставить модель рассуждать шаг за шагом до финального ответа. - рассуждающая модель (reasoning model) — модель, обученная думать сперва по умолчанию, сильнее на тяжёлых задачах. - test-time compute / инференс — тратить больше усилия, когда модель отвечает, ради результата лучше. - регулятор мышления — настраивать, насколько модель обдумывает, от немного до много. - этап обучения против этапа ответа — улучшать, обучая больше, против работы усерднее в момент ответа. - цена мышления — больше рассуждения значит больше токенов, денег и задержки. - рассуждение — не истина — длинная цепочка всё равно может быть уверенно неправа; проверяй ответ.
Признаки, что ты используешь рассуждение хорошо
  • Ты прибавляешь мышление только для правда тяжёлых задач, а не по умолчанию. - Ты используешь быстрые модели для лёгкого большинства и приберегаешь рассуждение для тяжёлого среза. - Ты учитываешь цену и задержку рассуждения вместо того, чтобы облагать каждый запрос. - Ты проверяешь ответ, а не доверяешь тому, как тщательно выглядит рассуждение. - Ты всё ещё применяешь заземление, эвалы и человеческий надзор — рассуждение точит, оно их не заменяет.

Рассуждение даёт модели думать, прежде чем ответить, поднимая точность на тяжёлых задачах ценой времени и токенов. Прибавляй мышление только там, где сложность его зарабатывает, и проверяй ответ — лучшее мышление это всё ещё ошибающаяся догадка, пока не проверена.

Конец экспресс-курса · 7 глав · у мышления есть цена

Дальше — практика: возьми правда тяжёлую задачу, что твоя модель берёт неверно за один проход, и дай ей порассуждать — попроси думать шаг за шагом или используй рассуждающую модель — и смотри, как точность улучшается. Потом попробуй то же на лёгкой задаче и заметь, что мышление не покупает ничего, кроме задержки. Наконец, найди случай, где рассуждение выглядит непробиваемо, а ответ неверен, чтобы почувствовать, почему ты проверяешь вывод, а не цепочку. Дисциплина щёлкает в тот миг, как ты подбираешь глубину мысли под сложность задачи. Но держи одну мысль выше прочих: дать модели думать, прежде чем ответить, делает её лучше на тяжёлых задачах и расточительной на лёгких, — так прибавляй мышление там, где оно платит, убавляй, где нет, и всегда проверяй, где оно приземлилось.