Si llevas tiempo construyendo aplicaciones con LLMs, probablemente has pasado por la curva. El primer prototipo deslumbra: un prompt bien afinado, una respuesta convincente, una demo que vende sola. El segundo flujo añade retries y validaciones, porque el primero se rompía en cuanto un usuario hacía algo inesperado. El tercero descubre que sin trazabilidad no hay forma de depurar nada cuando un output sale mal en producción. Y a partir del cuarto, entiendes que los agentes no son magia — son sistemas con estados, presupuestos, modos de fallo y momentos en los que un humano debe poder decir “para, revisa esto antes de seguir”.
Este rol está pensado para alguien que ya esté del lado del cuarto prototipo. No para alguien que está empezando a verlo, ni para alguien que cree que va a ser distinto esta vez.
Lo que vas a construir son flujos de IA útiles, auditables, seguros, repetibles y mantenibles, sobre una metodología propietaria de decisión y operación. Si esto resuena, sigue leyendo.
https://jobs.ashbyhq.com/naiian/016acde0-9eb2-4694-909f-9eae4fe74408
Naiian es una startup Deep Tech europea con equipo en Madrid, well-funded y con un equipo fundador con trayectoria en producto, IA aplicada e ingeniería en entornos críticos. Construimos para clientes que operan en contextos de alta exigencia operativa y decisional, donde la auditabilidad, la integración con fuentes verificables y los mecanismos de aprobación humana sobre tareas sensibles no son features — son la base.
Estamos en fase fundacional. Las personas que se incorporan ahora definen la arquitectura, el código y la cultura técnica que la empresa heredará durante los próximos años.
Vas a convertir una metodología propietaria de decisión y operación en flujos asistidos por IA robustos. Tu trabajo no es escribir prompts; es construir workflows con tools, structured outputs, checkpoints, approval gates, policy checks, manejo de errores, trazabilidad, evaluación funcional y control de costo y calidad.
La razón por la que este rol existe es concreta: los workflows que vas a construir tienen que sobrevivir interrupciones, fallos de modelo, respuestas incompletas, outputs inválidos, cambios de proveedor, límites de tokens y, sobre todo, escenarios en los que el sistema debe pararse y pedir aprobación humana antes de continuar. Hacer que eso funcione de forma operable, no decorativa, es el trabajo.
También vas a marcar el criterio de diseño que el resto del equipo seguirá: cuándo un flujo necesita ser determinista, cuándo basta con observabilidad funcional, cuándo conviene un modelo premium y cuándo uno más económico, cuándo escalar a humano y cuándo no.
- Workflows agénticos gobernados para casos de uso operativos sensibles: research asistido, generación de outputs estructurados con citación de fuentes y flujos con aprobación humana sobre decisiones de alto impacto.
- La capa de structured outputs con validación fuerte de esquemas — para que ningún output sensible salga del sistema sin pasar por una forma verificable.
- Integración de tool calling con permisos, límites, manejo de errores y auditoría. Las herramientas son acciones; las acciones se registran.
- Estados, transiciones, retries, checkpoints e idempotencia. Los flujos no pueden perder estado cuando algo falla a mitad de camino.
- Mecanismos de human-in-the-loop y approval gates para outputs sensibles, con escalamiento explícito cuando el riesgo o la incertidumbre superen umbrales definidos.
- Workflows portables entre modelos y proveedores — para que un cambio de proveedor no obligue a reescribir el producto.
- Medición funcional: costo, calidad, latencia, tasa de error y completitud de cada flujo. Sin métricas, no hay gobierno.
Trabajamos presencialmente en Madrid. Es una decisión consciente: en fase fundacional, la velocidad de iteración y la calidad de las decisiones técnicas que se toman en una pizarra compartida son difíciles de replicar en remoto.
Operamos con poco proceso y mucha responsabilidad. Quien diseña un workflow también lo mantiene en producción. Quien construye un agente también lo depura cuando falla en producción. No tratamos los flujos de IA como algo distinto del resto del producto: tienen estados, errores, métricas y dueños, igual que cualquier otro sistema crítico.
El criterio de calidad lo marca la realidad: ¿este flujo es operable? ¿es auditable? ¿se puede explicar lo que hizo y por qué? ¿se puede cambiar de modelo sin reescribir todo? Si la respuesta a alguna es “no”, vuelve a la pizarra.
Más que un perfil cerrado, buscamos un conjunto de competencias demostrables:
- Track record real construyendo y operando aplicaciones con LLMs o automatizaciones complejas en producción — no prototipos, no demos.
- Dominio sólido de structured outputs, validación de esquemas (JSON Schema, Pydantic o equivalente) y manejo robusto de errores.
- Experiencia diseñando workflows stateful o durable — con estados, transiciones, retries, checkpoints y procesos idempotentes.
- Criterio claro sobre human-in-the-loop, approval flows y escalamiento a humano: cuándo bloquear, cuándo pedir confirmación, cuándo dejar pasar.
- Entendimiento práctico de los trade-offs entre modelos: costo, latencia, calidad, contexto, capacidades de tool calling.
- Capacidad de diseñar workflows portables — que puedan cambiar de proveedor, modelo o herramienta sin reescribir el producto.
- Backend sólido en Python; cómodo con APIs de LLM, function/tool calling y orquestación asíncrona.
- Nivel profesional de español, vinculado a la naturaleza del puesto: el rol implica trabajar con outputs sensibles dirigidos a usuarios hispanohablantes, donde la precisión lingüística importa. Inglés funcional para trabajar en un equipo bilingüe.
- Has trabajado con frameworks de orquestación como LangGraph, Temporal, Airflow, Prefect, Celery, Redis/BullMQ o equivalentes.
- Tienes experiencia hands-on con OpenAI Structured Outputs, function calling, Anthropic tools, Gemini function calling o capacidades equivalentes.
- Vienes de productos sensibles, B2B SaaS, operaciones críticas, decision-support systems o entornos con requisitos de compliance.
- Has diseñado evaluaciones funcionales para flujos de IA — más allá de métricas académicas, orientadas a operación real.
- Tienes conocimiento práctico de prompt injection, límites de agentes y controles de seguridad para aplicaciones LLM.
Para ahorrarnos tiempo mutuamente, este rol probablemente no es la mejor opción si:
- Tu experiencia con LLMs se concentra en prompts y prototipos, sin haber operado flujos en producción con usuarios reales.
- Tratas a los agentes como sistemas autónomos que deberían funcionar sin límites ni revisión.
- Te interesa la investigación pura más que el producto operable.
- Costo, latencia, modos de fallo y trazabilidad te resultan secundarios frente al “qué puede hacer” el modelo.
Salario: 80.000 € – 90.000 € brutos anuales, según experiencia demostrada y nivel de seniority validado.
Equity: Paquete de equity fundacional, acorde al carácter founding del rol y al momento de la compañía.
Modalidad: Full-time, indefinido, 100% presencial en Madrid.
Los datos personales que nos compartas durante el proceso (CV, datos de contacto, información profesional, comunicaciones e información aportada en las entrevistas) serán tratados por Naiian con la finalidad exclusiva de gestionar tu candidatura para este puesto y, si das tu consentimiento expreso, para futuros procesos de selección compatibles con tu perfil. La base jurídica del tratamiento es la aplicación de medidas precontractuales a petición de la persona interesada (art. 6.1.b RGPD) y, en su caso, tu consentimiento (art. 6.1.a RGPD).
Tus datos se conservarán durante el tiempo necesario para gestionar la candidatura y, salvo que ejerzas tu derecho de supresión, hasta un máximo de un año si autorizas su conservación para futuros procesos. No realizamos decisiones automatizadas con efectos jurídicos significativos. Puedes ejercer en cualquier momento tus derechos de acceso, rectificación, supresión, oposición, limitación y portabilidad, así como retirar el consentimiento, escribiendo a la dirección de contacto que aparece en el formulario de aplicación. Tienes derecho a presentar una reclamación ante la Agencia Española de Protección de Datos (www.aepd.es).
— Naiian Recruiting Team
Compensation Range: $80K - $90K