2025-03 → настоящее

Scientific Research Agents — AI Architecture

Проектирую и веду implementation автономных AI-систем для автоматизации scientific research у биотех-клиента (США). Custom MCP серверы, RAG-пайплайны над scientific корпусом, evaluation через holdout-набор сценариев.

Роль: AI Architect & Lead Implementation
Стек: Python · FastAPI · Claude Opus · MCP · pgvector
Период: 2025-03 → настоящее

Проблема

Научные исследования держатся на небольшом наборе повторяемых, но когнитивно дорогих процессов: corpus search по платной литературе, структурированное извлечение данных из неоднородных PDF, генерация гипотез из предыдущих результатов, критика experimental design. Каждый из них — в зоне досягаемости современных LLM, но только если правильно построить архитектуру вокруг.

Наивный single-prompt подход разваливается быстро: корпус не помещается в контекст, нужные инструменты — domain-specific (chemistry-aware literature search — это не Google), а любой ответ, попадающий в research note, должен быть проверяемым.

Что я спроектировал

Multi-agent оркестрация с иерархическим разделением planner–executor. Planner агент декомпозирует research-запрос на типизированные sub-tasks; executor агенты выполняют tool calls (literature search, data extraction, ranking гипотез). Planner держится в жёстком context budget; executor'ы могут разворачиваться без загрязнения этого контекста.

Custom MCP серверы как единственная tool surface. Три transport'а в production (Stdio для local dev, SSE для streaming результатов, Streamable HTTP для production-фермы) — все серверы я построил end-to-end. Инструменты версионированы и discoverable, агенты не видят raw HTTP, тот же MCP контракт работает в внутренних evals и в live runs.

Evaluation framework, который агент не видит во время разработки. Публичные agent benchmarks для cross-system сравнения плюс больший custom scenario suite из реальных biology workflows, зарезервирован от разработки — улучшения измеряются, а не декларируются.

Specification-driven разработка. У каждого агента есть written spec — system prompt, tool list, guardrails, expected output schema — закоммиченный в репо. Артефакт, который ревьюят, — это спека, не промпт. Новое поведение приходит через spec PR.

Реальный day-to-day

Я не печатаю implementation. Я оркестрирую coding-агентов (Claude Code на Opus) как implementation layer, оставаясь owner'ом архитектуры, spec discipline и evaluation discipline. Двадцать лет production-судейства идут в то, что должно быть построено; работа с агентами даёт скорость это реально шипнуть. Качество спеки — новый bottleneck.

Результат

Работающая, оценённая, production-bound multi-agent система, автоматизирующая research workflows, которые раньше делали руками — с измеримым улучшением на holdout benchmark set, а не demo-quality скриншотами.

Архитектурные решения, задокументированные здесь, — фундамент всего остального, что я строю прямо сейчас.