Экспресс-курс · No. 34

Годами модели работали только с текстом. Теперь они принимают изображения, аудио, даже видео — мультимодальная модель может описать фото, прочитать график, расшифровать совещание или ответить на вопросы о скриншоте. Инженерия, что ты выучил для текста, всё ещё применяется, плюс новые силы и новые ловушки. Выучи, что мультимодальность разблокирует, как модель воспринимает больше, чем слова, и где это идёт не так.

Только суть · Один образ на идею · Больше, чем слова

§ 01

Первое, что надо ухватить, — просто что изменилось: модели перестали быть ограничены чтением и письмом слов. Как только модель может принимать изображения и звук, открывается целый новый диапазон задач.

Модальность — это вид ввода или вывода

Человек, что может читать, но также видеть, слушать и говорить, — каждое чувство это другой канал воспринимать мир, а не другой мозг.

Модальность (modality) — это тип данных: текст, изображения, аудио, видео. Модель, что работает с несколькими, — мультимодальная (multimodal): она может принять изображение и текст вместе или произвести речь из описания. Годами модели были только текстовыми — читай слова, пиши слова. Сдвиг в том, что одна модель теперь может воспринимать через модальности, как человек использует несколько чувств, а не быть глухой и слепой ко всему, кроме текста.

Одна модель может принять смешанный ввод

Вручить кому-то фото и спросить «что тут не так?» — он смотрит и отвечает словами. Один вопрос, два вида ввода, один отклик.

Мощь мультимодальности не просто в работе с изображениями вместо текста — а в работе с ними вместе. Можно показать модели скриншот и задать о нём вопрос, дать ей график и письменную просьбу, послать фото с инструкциями. Модель рассуждает над всем этим разом. Эта комбинация и делает мультимодальность по-настоящему новой: ввод больше не один канал, так что твои промпты могут мешать слова и картинки, как делает реальный разговор.

Текстовые навыки всё ещё применяются

Научиться видеть не заставляет забыть, как читать, — новое чувство добавляет к тому, что ты уже мог, а не заменяет это.

Всё, что ты выучил для текста — промптинг, контекст, структурированный вывод, заземление, эвалы — всё ещё применяется к мультимодальности. Изображение или аудио — это просто ещё одна часть ввода, что ты собираешь в контекст; модель всё ещё производит вывод, что ты ограничиваешь, валидируешь и меряешь. Так что мультимодальность — не отдельная дисциплина, что переучивать с нуля; это та же инженерия с лишним видом ввода и вывода. Перенеси текстовые навыки и добавь специфику новой модальности сверху.

Модальность — это вид данных; мультимодальная модель работает с несколькими — изображениями и аудио, не только текстом — и может мешать их в одном вводе. Все твои текстовые навыки всё ещё применяются, с добавленным новым чувством.

§ 02

Полезно знать, грубо, как модель принимает изображение, — потому что это демистифицирует, что мультимодальность может и не может, и почему она иногда неверно читает то, что прямо перед ней.

Изображение становится тем же видом представления, что текст

Переводчик, что превращает и сказанные слова, и язык жестов в одни и те же письменные заметки, — разные вводы, преобразованные в одну общую форму, с которой работает мозг.

Под капотом мультимодальная модель преобразует изображение в тот же вид внутреннего представления, что использует для текста, — превращая пиксели в последовательность, над которой модель может рассуждать наряду со словами. Изображение и текст оказываются в общей форме, ровно поэтому модель может ответить на текстовый вопрос о картинке: оба переведены в один общий язык внутри модели. Детали тебе не нужны, но знать, что изображение и текст становятся сравнимыми, объясняет, как модель их связывает.

Увидеть текст на изображении — не то же, что понять сцену

Можно прочесть этикетку на банке и отдельно понять, для чего банка, — два разных действия, хотя оба задействуют взгляд на тот же предмет.

Две различные способности смешивают. Чтение текста внутри изображения — вывески, документа, скриншота — это примерно то, что раньше требовало отдельного «OCR» (оптического распознавания символов); мультимодальная модель может это напрямую. Понимание сцены — что происходит, какие объекты присутствуют, что значит график — другое. Хорошая мультимодальная модель делает оба, но стоит различать «извлеки слова из этого изображения» и «интерпретируй, что это изображение показывает», ведь это разные просьбы с разной надёжностью.

У восприятия есть пределы

Даже острые глаза упускают мелкий шрифт, неверно судят размытое фото или неверно читают загромождённую диаграмму, — зрение мощно, но не безупречно.

Зрение модели впечатляюще, но несовершенно. Она может неверно прочесть мелкий или низкокачественный текст, упустить детали в насыщенном изображении, неверно сосчитать объекты или уверенно неверно описать что-то тонкое. Восприятие по-настоящему полезно, но не точный инструмент — относись к тому, что модель «видит», как к сильной интерпретации, а не гарантированному чтению. Это важно, потому что соблазнительно предположить, что раз модель может видеть, она видит верно; как и её текстовые ответы, её визуальные могут быть уверенно неправы.

Модель преобразует изображение в ту же внутреннюю форму, что текст, так что может рассуждать над обоими вместе. Чтение текста на изображении отличается от понимания сцены, а восприятие, хоть и мощное, может быть уверенно неправо.

§ 03

Причина, почему мультимодальность важна, — диапазон реальных задач, что она делает решаемыми. Увидеть конкретные применения показывает, почему это больше, чем новинка.

Понимание документов и скриншотов

Ассистент, что может глянуть на бумажную форму или экран и вытащить ровно то, что тебе нужно, вместо того чтобы ты печатал всё руками.

Огромное практическое применение — чтение документов, форм и скриншотов — извлечь данные из счёта, понять раскладку PDF, ответить на вопросы о том, что на экране. До мультимодальности это требовало хрупких, специализированных инструментов; теперь модель может посмотреть на документ и работать с ним напрямую, со структурой и всем. Везде, где информация живёт в визуальном формате, а не в чистом тексте, мультимодальность превращает «человек должен прочесть и перепечатать это» в то, с чем модель может справиться.

Анализ изображений и графиков

Показать эксперту график и спросить, что он значит, — он читает визуал и объясняет тренд, без таблицы.

Мультимодальные модели могут анализировать визуальный контент: описать фото, прочесть и интерпретировать график или диаграмму, заметить, что на изображении, сравнить две картинки. Можно вручить модели график продаж и спросить тренд, фото продукта и спросить, что не так, диаграмму и попросить объяснить. Это превращает изображения из того, что могли интерпретировать только люди, во ввод, о котором твой софт может рассуждать, — открывая любой рабочий процесс, где осмысленная информация визуальна.

Доступность и охват

Гид, что описывает сцену вслух тому, кто не может её видеть, — превращая визуальный мир в слова, что любой может использовать.

Мультимодальность также расширяет, кого и что твой продукт может обслуживать: описание изображений для незрячих пользователей, возможность навести камеру вместо печати, работа с контентом, что никогда не был в текстовой форме. Та же способность, что читает график, может озвучить фото или подписать видео. Помимо любой отдельной фичи, мультимодальность расширяет поверхность того, что ИИ-продукт может принять как ввод, — от «напечатай вопрос» до «покажи мне, скажи мне или проиграй мне, что ты имеешь в виду».

Мультимодальность разблокирует чтение документов и скриншотов, анализ изображений и графиков и расширение охвата через доступность — превращая визуальную и аудио информацию в то, о чём софт может рассуждать.

§ 04

Строить с мультимодальностью — это в основном инженерия, что ты уже знаешь, с изображениями или аудио, добавленными во ввод. Знакомые дисциплины переносятся напрямую.

Шли изображение вместе с текстом

Включить фото с письменным вопросом в одно сообщение — получатель видит оба и отвечает на всё разом.

На практике ты строишь мультимодальный запрос во многом как текстовый: ты собираешь контекст, но теперь он может включать изображение (или аудио) вместе с твоими текстовыми инструкциями. «Вот скриншот, и вот что я хочу о нём узнать» идёт модели как один объединённый ввод. Это просто инженерия контекста с более богатым вводом — изображение это ещё одна вещь, что ты кладёшь в окно, нарочно, наряду со словами. Настрой сборки, что у тебя уже есть, применяется напрямую.

Всё ещё проси структурированный вывод

Заполнитель форм, что смотрит на грязный чек и пишет итог, дату и продавца в опрятные помеченные ячейки, — хаос внутрь, чистые данные наружу.

Когда ты используешь мультимодальность, чтобы извлечь информацию — вытащить поля из документа, классифицировать изображение, прочесть график, — ты всё ещё хочешь структурированный вывод: попроси модель вернуть чистые, по-схеме данные, что твой код может использовать, а не прозу. Мультимодальная модель, читающая чек, должна вручить тебе {total, date, vendor}, а не абзац. Та же дисциплина структурированного вывода, что превращает текстовую модель в надёжный компонент, делает то же для зрительной модели. Модальность новая; мост к твоему коду — нет.

Валидируй и заземляй, как всегда

Ты перепроверяешь то, что кто-то докладывает с быстрого взгляда, особенно важные детали, — второй взгляд на то, что важно.

Поскольку восприятие модели может быть неверным, ты применяешь ту же дисциплину надёжности: валидируй извлечённые данные, заземляй ответы в том, что реально проверяемо, и держи человека на высокоставочных чтениях. Модель, неверно прочитавшая число со счёта, — это визуальная версия галлюцинации, так что ты относишься к её визуальному выводу как к недоверенному-пока-не-проверено, ровно как к текстовому. Урок из каждого другого курса держится: модель — ошибающийся компонент, и новая модальность этого не меняет.

Строить мультимодальность — это инженерия контекста с более богатым вводом: шли изображение вместе с текстом, всё ещё проси структурированный вывод и валидируй и заземляй результат — модель ошибающийся компонент, модальность в стороне.

§ 05

Пока что мы говорили о моделях, что принимают изображения и аудио. Другое направление — модели, что их производят, — это своя большая область, что стоит назвать, чтобы ты знал, где она вписывается.

Модели могут и создавать изображения и аудио

Художник, что рисует то, что ты описываешь, или актёр озвучки, что произносит твой сценарий, — генерация это зеркальное отражение восприятия.

Так же как модели могут принимать изображения и звук, другие модели их генерируют: модели текст-в-изображение рисуют картинку из описания, текст-в-речь превращает слова в произнесённый голос, и есть модели для музыки, видео и не только. Генерация — оборотная сторона понимания: вывод как другая модальность, а не ввод. Это огромное поле само по себе, но ключевая мысль в том, что «мультимодальность» охватывает оба направления: модель может воспринимать другие модальности, и модель может их производить.

Та же инженерная поза применяется

Ты направляешь художника ясным брифом и потом ревьюишь результат, прежде чем использовать, — та же петля, что бы он ни производил.

Строить с генеративными модальностями следует той же позе, что и всё остальное: ясная инструкция (промпт), вывод, что ты считаешь черновиком на ревью, и человек в контроле над использованием. Сгенерированное изображение или голос — это уверенная попытка модели, что надо проверить и отредактировать, а не слепо отгрузить, — дисциплина дизайна продукта применяется, текст ли вывод или картинка. Так что тебе не нужен совсем новый плейбук для генерации; та же позиция «ошибающийся компонент, ты остаёшься в контроле» переносится.

Знай, что это есть; тянись к этому нарочно

Ты не заказываешь кастомную картину для работы, что требует предложения, — ты используешь среду, что задача на деле требует.

Генеративные модальности мощны для правильной работы — иллюстрации, синтезированная речь для голосового продукта, видео — но это намеренный выбор, а не дефолт, что присыпать везде. Тянись к генерации изображений или аудио, когда вывод правда должен быть в той модальности, и держись текста, когда текст делает работу. Знать, что вся эта способность есть, и где она вписывается, достаточно пока что — суть в том, что мультимодальность это двусторонняя улица, восприятие и производство через чувства.

Мультимодальность идёт в обе стороны: модели также генерируют изображения, речь и не только. Та же инженерная поза применяется — ясный бриф, отревьюенный черновик, человек в контроле — и ты тянешься к ней, только когда вывод правда требует той модальности.

§ 06

Мультимодальность добавляет новые режимы сбоя поверх знакомых. Несколько конкретных ловушек ловят команды, что относятся к изображениям, будто те так же безопасны и дёшевы, как текст.

Изображения могут нести скрытые атаки

Фотография с инструкциями, написанными в ней, что глаз едва замечает, а машина читает идеально, — сообщение, протащенное мимо тебя у всех на виду.

Мультимодальная модель читает всё в изображении, включая текст, что человек мог бы упустить. Это делает изображения каналом для инъекции промпта (prompt injection): атакующий может спрятать инструкции в картинке — бледный текст, встроенный в пиксели, — что модель послушно выполняет. Это визуальная версия проблемы инъекций из курса о безопасности, и она мерзче, потому что атаку нелегко увидеть. Относись к любому изображению, что модель поглощает, как к недоверенному вводу, что может нести инструкции, а не просто невинным пикселям.

Изображения стоят куда больше, чем текст

Послать фотографию вместо предложения — куда больше передавать и обрабатывать, и счёт это отражает.

Изображение стоит куда больше тысячи слов для счётчика: обработка одного потребляет куда больше токенов, чем короткий текстовый промпт, так что мультимодальные вызовы могут быть существенно дороже. Фича, что шлёт изображения высокого разрешения на каждом запросе, может накрутить удивительный счёт. Дисциплина экономики моделей применяется с лишней силой тут — будь нарочен насчёт размера изображения и того, как часто шлёшь одно, потому что стоимость «просто включи картинку» куда выше, чем включить строку текста.

Уверенное неверное чтение — это тихий сбой

Кто-то, кто глянул на размытую вывеску и уверенно говорит тебе неверное число, — быстро, уверенно и неверно.

Знакомая проблема галлюцинаций принимает визуальную форму: модель может уверенно неверно прочесть цифру, неверно сосчитать элементы или описать то, чего нет в изображении, — и звучать так же уверенно, как когда права. Поскольку ввод визуален, эти ошибки могут быть труднее поймать, чем текстовую оговорку. Так что для всего, где неверное чтение важно — число со счёта, медицинский снимок, проверка безопасности, — ты проверяешь, держишь человека в контуре и никогда не предполагаешь, что «оно может это видеть» значит «оно прочло это верно». Уверенность модели не надёжнее насчёт изображений, чем насчёт текста.

Новые ловушки мультимодальности: изображения могут протащить инъекции промпта, они стоят куда больше токенов, чем текст, и модель может неверно прочесть их так же уверенно, как галлюцинирует в тексте. Относись к изображениям как к недоверенным, дорогим и ошибочно читаемым.

§ 07

Применять мультимодальность хорошо — это в основном применять всё, что ты уже знаешь, к более богатому вводу, уважая конкретные стоимости и риски новой модальности.

Тянись к мультимодальности, когда информация визуальна

Ты привлекаешь камеру, когда проблема — это что-то, на что надо посмотреть, и держишься печати, когда это что-то, что надо сказать, — подбирая канал под задачу.

Решение просто: используй мультимодальность, когда осмысленная информация правда живёт в изображении или аудио — документ прочесть, сцену интерпретировать, речь понять, — а не впихивай её в текст сперва и не избегай её, когда она помогла бы. Но не тянись к ней рефлекторно там, где текст чище, быстрее и дешевле. Навык — распознавать, когда задача на деле визуальна или слуховая, и дать модели воспринять это напрямую, вместо того чтобы либо игнорировать эту способность, либо переиспользовать.

Перенеси каждую дисциплину, плюс собственную модальности

Пилот, допущенный к новому самолёту, приносит все свои существующие навыки и добавляет специфику нового борта, — не начиная заново, а расширяя.

Мультимодальность — не повод забыть, что ты выучил. Собирай изображение в контекст нарочно, проси структурированный вывод, валидируй и заземляй результат, следи за стоимостью и относись к изображениям как к недоверенным. Потом добавь специфику модальности: визуальная инъекция, более высокая стоимость токенов, пределы восприятия. Всё из текстовых курсов всё ещё правит; мультимодальность просто расширяет это новым видом ввода и своей горсткой ловушек. Строй на том, что знаешь, и учи только новые края.

Прежде чем выкатывать мультимодальную фичу

Информация ли правда визуальна или аудио — или я использую мультимодальность там, где текст чище? - Собираю ли я изображение в контекст нарочно, как любой другой ввод? - Прошу ли я структурированный вывод при извлечении данных из изображения? - Может ли изображение нести скрытую инъекцию — отношусь ли я к нему как к недоверенному? - Учёл ли я куда более высокую стоимость токенов изображений? - Валидирую ли я восприятие и держу ли человека на высокоставочных чтениях?

Слова, которыми ты теперь владеешь

modality / multimodal — вид данных; модель, что работает с несколькими. - смешанный ввод — сочетание изображения (или аудио) и текста в одном промпте. - OCR / понимание сцены — чтение текста на изображении против интерпретации того, что оно показывает. - пределы восприятия — модель может неверно прочесть или описать то, что видит, уверенно. - генерация по модальностям — текст-в-изображение, текст-в-речь; производство других модальностей. - визуальная инъекция промпта — инструкции, спрятанные в изображении, что модель выполняет. - стоимость токенов изображения — изображения потребляют куда больше токенов, чем текст.

Признаки, что ты используешь мультимодальность хорошо

Ты тянешься к ней, когда информация правда визуальна или аудио, а не рефлексом. - Ты собираешь изображение в контекст и просишь структурированный вывод при извлечении данных.
Ты относишься к изображениям как к недоверенным, настороже к визуальной инъекции. - Ты учитываешь более высокую стоимость и пределы восприятия. - Ты валидируешь и держишь человека на чтениях, где неверное чтение было бы важно.

Мультимодальность расширяет твою текстовую инженерию на изображения и аудио: тянись к ней, когда информация визуальна, перенеси каждую дисциплину — контекст, структурированный вывод, валидацию, стоимость — и уважай новые ловушки инъекции, стоимости и уверенного неверного чтения.