Scientific Research Agents — AI Architecture
Senior AI Engineer en la construcción de sistemas de AI autónomos para la automatización de la investigación científica en un cliente de biotech con sede en EE. UU. Servidores MCP a medida, pipelines de RAG sobre corpus científicos y una suite de evaluación held-out.
- Rol
- Senior AI Engineer
- Stack
- Python · FastAPI · Claude Opus · MCP · pgvector
- Período
- 2025-03 → presente
El problema
La investigación científica está dominada por un pequeño conjunto de flujos de trabajo repetibles pero cognitivamente costosos: búsqueda en corpus de literatura tras muros de pago, extracción estructurada de datos a partir de PDFs heterogéneos, generación de hipótesis a partir de resultados previos, crítica del diseño experimental. Cada uno de ellos está al alcance de los LLM modernos — pero solo si se construye correctamente la arquitectura que los rodea.
Un enfoque ingenuo de un solo prompt se desmorona rápido: los corpus son demasiado grandes para las ventanas de contexto, las herramientas correctas son específicas del dominio (la búsqueda de literatura consciente de la química no es Google), y cualquier respuesta que termine en una nota de investigación tiene que ser auditable.
Qué arquitecté
Orquestación multiagente con una división jerárquica planner–executor. Un agente planner descompone una solicitud de investigación en sub-tareas tipadas; los agentes executor manejan las llamadas reales a herramientas (búsqueda de literatura, extracción de datos, ranking de hipótesis). El planner se mantiene dentro de un presupuesto de contexto ajustado; los executors pueden abrirse en abanico sin contaminarlo.
Servidores MCP a medida como única superficie de herramientas. Tres transportes en producción (Stdio para desarrollo local, SSE para resultados en streaming, Streamable HTTP para la flota de producción) — todos servidores que construí de extremo a extremo. Las herramientas están versionadas y son descubribles, los agentes nunca ven HTTP crudo, y el mismo contrato MCP alimenta tanto las evals internas como las ejecuciones en vivo.
Un framework de evaluación que el agente nunca ve durante el desarrollo. Benchmarks públicos de agentes para comparación entre sistemas más una suite propia de escenarios más grande extraída de flujos de trabajo reales de biología, reservada (held-out) durante el desarrollo para que las mejoras se midan, no se declaren.
Desarrollo guiado por especificación. Cada agente tiene una spec escrita — system prompt, lista de herramientas, guardrails, schema de salida esperado — versionada en el repo. La spec, no el prompt, es el artefacto que los revisores aprueban. Los nuevos comportamientos aterrizan vía PRs de spec.
La realidad del día a día
No tecleo la implementación. Dirijo agentes de codificación (Claude Code sobre Opus) como capa de implementación mientras soy dueño de la arquitectura, la disciplina de specs y la disciplina de evaluación. Veinte años de criterio de producción se invierten en decidir qué debe construirse; la práctica con agentes da la velocidad para entregarlo de verdad. La calidad de las specs es el nuevo cuello de botella.
Resultado
Un sistema multiagente funcional, evaluado y orientado a producción que automatiza flujos de trabajo de investigación antes hechos a mano — con una mejora medible sobre el conjunto de benchmarks held-out, no solo capturas de pantalla con calidad de demo.
Las decisiones arquitectónicas documentadas aquí son la base de todo lo demás que estoy construyendo ahora mismo.