fedorthinks
Все проекты
В работе2025-03 → настоящее

Scientific Research Agents — AI Architecture

Senior AI Engineer в команде, которая строит автономные AI-системы для автоматизации научных исследований у биотех-клиента из США. Кастомные MCP-серверы, RAG-пайплайны над научным корпусом, оценка качества через holdout-набор сценариев.

Роль
Senior AI Engineer
Стек
Python · FastAPI · Claude Opus · MCP · pgvector
Период
2025-03 → настоящее

Проблема

Научные исследования держатся на небольшом наборе повторяемых, но когнитивно дорогих процессов: поиск по корпусу платной литературы, структурированное извлечение данных из неоднородных PDF, генерация гипотез из предыдущих результатов, критика дизайна экспериментов. Каждый из них — в зоне досягаемости современных LLM, но только если правильно построить архитектуру вокруг.

Наивный single-prompt подход разваливается быстро: корпус не помещается в контекст, нужные инструменты — domain-specific (chemistry-aware literature search — это не Google), а любой ответ, попадающий в research note, должен быть проверяемым.

Что я спроектировал

Мультиагентная оркестрация с иерархическим разделением planner–executor. Planner-агент декомпозирует исследовательский запрос на типизированные подзадачи; executor-агенты выполняют tool calls (поиск литературы, извлечение данных, ранжирование гипотез). Planner держится в жёстком бюджете контекста; executor'ы могут разворачиваться без загрязнения этого контекста.

Кастомные MCP-серверы как единственная поверхность инструментов. Три transport'а в продакшене (Stdio для локальной разработки, SSE для стриминга результатов, Streamable HTTP для production-фермы) — все серверы я построил end-to-end. Инструменты версионированы и discoverable, агенты не видят raw HTTP, тот же MCP контракт работает во внутренних evals и live runs.

Evaluation framework, который агент не видит во время разработки. Публичные agent benchmarks для сравнения между системами плюс больший кастомный набор сценариев из реальных биологических workflows, зарезервированный от разработки — улучшения измеряются, а не декларируются.

Разработка через спецификации. У каждого агента есть письменная спецификация: system prompt, tool list, guardrails, expected output schema — закоммиченная в репозиторий. Артефакт, который ревьюят, — это спецификация, а не промпт. Новое поведение приходит через PR со спецификацией.

Реальный day-to-day

Я не печатаю реализацию. Я оркестрирую coding-агентов (Claude Code на Opus) как слой реализации, оставаясь владельцем архитектуры, дисциплины спецификаций и дисциплины evals. Двадцать лет production-суждения идут в то, что должно быть построено; работа с агентами даёт скорость, чтобы это реально выпустить. Качество спецификации — новое узкое место.

Результат

Работающая, оценённая, идущая в продакшен мультиагентная система, автоматизирующая исследовательские процессы, которые раньше делали руками, — с измеримым улучшением на holdout benchmark set, а не скриншотами уровня демо.

Архитектурные решения, задокументированные здесь, — фундамент всего остального, что я строю прямо сейчас.