5 июня 2026 г.
Четыре флагмана за четыре недели — «какая модель победит» это запах дизайна
В этом месяце волна флагманских моделей валится почти одна на другую — Gemini 3.5 Pro, новый Claude, Grok 5, и уже вышедший Opus 4.8. Все обновляют лидерборды. Если эта волна тебя тревожит — на лучшей ли мы модели, не пора ли переключаться — тревога говорит кое-что о твоей архитектуре, а не о моделях. Вот честное прочтение и что реально требует «оставайся swappable».
Июнь 2026 — это завал релизов. Opus 4.8 вышел в конце мая; Google пообещал Gemini 3.5 Pro «в следующем месяце»; новый Claude и Grok 5 ждут в те же несколько недель. Половина моей ленты — это люди, обновляющие бенчмарк-лидерборды, чтобы увидеть, кто наверху в этот час.
Если эта волна слегка тебя тревожит — на лучшей ли мы модели? не пора ли переключиться? — на это чувство стоит обратить внимание. Не из-за моделей. Из-за того, что оно показывает про то, как построен твой продукт.
Лидерство — это шум, и оно меняется каждый месяц
Посмотри на реальный расклад. Сегодня Opus 4.8 на вершине индекса интеллекта Artificial Analysis с 61.4, чуть впереди GPT-5.5 (60.2), Gemini 3.1 Pro (57) и Grok 4.3 (53). Четыре пункта между первым и третьим. Релизы следующего месяца перетасуют этот порядок, а через месяц перетасуют снова.
Почти для любого реального продукта разница между моделью №1 и №3 невидима твоим пользователям. Они не скажут, какой флагман им ответил. Лидерборд — это спорт; твой продукт — нет.
Так что тревога — это запах дизайна
Вот диагноз. Если новый релиз модели тебя нервирует, это почти никогда не потому, что ты боишься оставить возможности на столе. А потому, что подозреваешь: смена больно ударит — что твой продукт тихо приварен к специфическим квиркам одной модели: её формулировкам, форматированию, к тому, как твои промпты месяцами подстраивались под её точное поведение.
Это и есть настоящий страх, и это проблема связанности в костюме модели. Нервозность не про то, какая модель лучше. Она про то, как дорого было бы передумать. Высокая цена «передумать» — это определение плохой архитектуры, я уже приводил этот довод, и здесь он так же верен.
Что реально требует «swappable» (это не plug-and-play)
Теперь честная часть, потому что «просто оставайся swappable» — это отговорка. Смена моделей правда не plug-and-play. Промпты неявно подстраиваются под поведение одной модели, токенайзеры и форматирование отличаются, и наивная замена приносит реальные регрессии и сюрпризы по стоимости. Swappable — не бесплатно. Это то, что ты строишь:
- Абстракцию, чтобы твой продукт говорил с «моделью», а не с API вендора, — паттерн адаптера, нейтральный интерфейс, прячущий различия провайдеров.
- Роутинг по уровню задачи, а не по захардкоженному имени модели — чтобы «используй здесь модель подешевле» было изменением конфига, та же дисциплина, что и дешёвая модель на 90% работы.
- Eval-набор — часть, которую все пропускают, и часть, которая делает всё безопасным. С отложенными evals замена становится «поменяй конфиг, прогони evals, увидь ровно то, что регрессировало». Без них замена — это «поменяй модель и молись», поэтому люди и боятся это делать.
Построй эти три — и цена «передумать» падает с «переписать» до «вечер и прогон тестов».
Тогда волна переворачивается из угрозы в меню
Как только смена дёшева и измерима, четырёхфлагманский месяц перестаёт быть тревогой и становится списком покупок. Вышла модель дешевле при том же качестве? Наведи на неё evals; прошла — поменяй одно значение и забери экономию — ровно тот выигрыш, о котором я писал, когда лаборатории начали гонку по цене. Умнее для по-настоящему трудных 10%? Тот же ход. Ты перестаёшь смотреть на лидерборды со страхом и начинаешь использовать их как каталог.
Настоящая ставка
Какая модель победит в июне — это переменная, о которой стоит заботиться меньше всего и вокруг которой проектировать больше всего. Не ставь на модель — модель никогда не была моатом — ставь на способность дёшево передумать. Команды, которые будут выглядеть умно в июле, — не те, кто выбрал правильную модель сегодня; это те, кто сможет перейти на лучшую за вечер, когда сегодняшний выбор перестанет быть правильным.
Так что отнесись к этому четырёхфлагманскому месяцу как к бесплатному стресс-тесту одного вопроса: если бы лучшая модель сменилась завтра, сколько времени у тебя заняло бы переехать? Если ответ — «вечер и прогон evals», наслаждайся шоу — ничто из этого тебе не угрожает. Если ответ — «переписать и помолиться», то модели никогда не были проблемой. Проблема — твоя архитектура, и ни один релиз этого месяца её не починит.
Комментарии
Пока нет комментариев
Войдите, чтобы участвовать в разговоре.
Будьте первым, кто оставит мысль.