En Naiian creemos que la diferencia entre un sistema de retrieval que escala y uno que envejece a los seis meses no está en el modelo de embeddings, ni en el vector DB elegido, ni en la última técnica de reranking que apareció en arXiv la semana pasada. Está en los schemas, en los golden sets, en si la evaluación está midiendo lo que importa y en si la citación es defendible cuando un usuario pide explicación.
Es una opinión opinionada. Si te resuena, este rol es interesante. Si crees que es exagerada — que en realidad basta con un buen vector DB y un buen modelo —, probablemente no lo sea.
Lo que vas a construir es la capa que convierte conocimiento difuso en activos operativos: schemas, taxonomías, corpora, pipelines de retrieval, evaluación funcional y métricas verificables. Si esto resuena, sigue leyendo.
https://jobs.ashbyhq.com/naiian/9faded4f-4c06-4622-a3c2-e7acef0f6607
Naiian es una startup Deep Tech europea con equipo en Madrid, well-funded y con un equipo fundador con trayectoria en producto, IA aplicada e ingeniería en entornos críticos. Construimos para clientes que operan en contextos de alta exigencia operativa y decisional, donde la auditabilidad, la integración con fuentes verificables y los mecanismos de aprobación humana sobre tareas sensibles no son features — son la base.
Estamos en fase fundacional. Las personas que se incorporan ahora definen la arquitectura, el código y la cultura técnica que la empresa heredará durante los próximos años.
Vas a convertir el conocimiento propietario de Naiian en activos operativos: schemas, taxonomías, corpora, pipelines de retrieval, reranking, golden sets, task evaluations y métricas de calidad verificables. El trabajo aquí está más cerca de la ingeniería de sistemas-de-conocimiento que de “montar un RAG”.
La razón por la que este rol existe es concreta: la calidad de los outputs del producto depende directamente de la calidad del conocimiento estructurado que los alimenta y de los mecanismos que miden esa calidad. Si los schemas son débiles, los outputs son débiles. Si la evaluación no mide lo correcto, las regresiones pasan desapercibidas. Si la citación no es trazable, el sistema no es auditable. Cerrar ese bucle es el trabajo.
También vas a marcar el criterio de calidad que el resto del equipo seguirá: cómo se diseña un schema para un dominio complejo, qué cuenta como “buena cobertura de citación”, cómo se construye un golden set que no envejezca a los tres meses, cuándo una métrica de evaluación está midiendo lo correcto y cuándo solo da una sensación de progreso.
- Los esquemas y taxonomías que estructuran el conocimiento del producto — diseñados para un dominio donde la precisión importa, no como ejercicio académico.
- Pipelines de retrieval y reranking con criterio: chunking informado, embeddings adecuados al dominio, recuperación ajustada por tipo de consulta, no parámetros por defecto.
- Los eval harnesses y golden sets que permiten medir si una mejora es real o solo ruido — orientados a métricas funcionales (citation coverage, factuality, source attribution), no a benchmarks genéricos.
- Especificaciones de extracción y pruebas de calidad documental que cierren el ciclo entre la ingesta y el output.
- Coordinación con la capa de ingesta documental y con los flujos de IA aguas abajo, para que la cadena de conocimiento sea operable de punta a punta.
- Métricas funcionales que permitan al equipo decidir con datos: qué retriever funciona mejor para qué consulta, qué dominios necesitan más cobertura, dónde el sistema falla y por qué.
Trabajamos presencialmente en Madrid. Es una decisión consciente: en fase fundacional, la velocidad de iteración y la calidad de las decisiones técnicas que se toman en una pizarra compartida son difíciles de replicar en remoto.
Operamos con poco proceso y mucha responsabilidad. Quien diseña un schema también lo defiende contra los datos reales. Quien construye un eval también lo mantiene cuando el dominio evoluciona. No tratamos el conocimiento como algo que “alguien más limpia”: es ingeniería de primera línea, con dueños, métricas y trazabilidad.
El criterio de calidad lo marca la realidad: ¿este retrieval es defensible? ¿esta evaluación mide lo correcto? ¿esta cobertura de citación se sostiene en una auditoría? ¿otro ingeniero podría reproducir estos resultados? Si la respuesta a alguna es “no”, vuelve a la pizarra.
Más que un perfil cerrado, buscamos un conjunto de competencias demostrables:
- Base sólida en retrieval, search o NLP aplicada — con experiencia real en producción, no solo en prototipos.
- Track record diseñando datasets y métricas de evaluación, no solo prompts. Si has construido golden sets que aguantaron seis meses de evolución del producto, mejor.
- Entendimiento profundo de source attribution, citation coverage y factualidad — y de por qué cada una se mide de forma diferente.
- Capacidad de definir schemas y taxonomías para dominios complejos, donde la precisión y la consistencia importan.
- Criterio en chunking, embeddings y reranking — no como parámetros por defecto, sino como decisiones informadas por el dominio.
- Cómodo con Python; familiaridad con vector DBs (pgvector, Qdrant, Weaviate o equivalentes), frameworks de evaluación (Ragas, DeepEval o similares) y APIs de LLM.
- Nivel profesional de español, vinculado a la naturaleza del puesto: el rol implica trabajar con fuentes verificables y conocimiento experto en español, donde la precisión lingüística y la calidad de las taxonomías son indisociables. Inglés funcional para trabajar en un equipo bilingüe.
- Has trabajado con corpora documentales complejos en español — parsing avanzado, OCR, normalización, deduplicación.
- Tienes experiencia diseñando evaluaciones funcionales orientadas a producción, no solo métricas académicas (recall, precision aisladas).
- Vienes de dominios donde la precisión y la trazabilidad importan: legaltech, healthtech, fintech, compliance, decision-support, entornos regulados.
- Has trabajado con information retrieval clásico además de con embeddings — sabes cuándo BM25 sigue siendo la mejor opción.
- Tienes experiencia coordinando trabajo con expertos de dominio para validar schemas y outputs.
Para ahorrarnos tiempo mutuamente, este rol probablemente no es la mejor opción si:
- Tu experiencia con RAG se limita a haber montado un vector DB y conectado un LLM.
- La evaluación te resulta secundaria frente a “probar el modelo más nuevo”.
- Diseñar schemas o taxonomías te parece trabajo de bajo nivel.
- Te incomoda trabajar con conocimiento experto en español o coordinar con especialistas de dominio.
Salario: 76.000 € – 86.000 € brutos anuales, según experiencia demostrada y nivel de seniority validado.
Equity: Paquete de equity fundacional, acorde al carácter founding del rol y al momento de la compañía.
Modalidad: Full-time, indefinido, 100% presencial en Madrid.
Los datos personales que nos compartas durante el proceso (CV, datos de contacto, información profesional, comunicaciones e información aportada en las entrevistas) serán tratados por Naiian con la finalidad exclusiva de gestionar tu candidatura para este puesto y, si das tu consentimiento expreso, para futuros procesos de selección compatibles con tu perfil. La base jurídica del tratamiento es la aplicación de medidas precontractuales a petición de la persona interesada (art. 6.1.b RGPD) y, en su caso, tu consentimiento (art. 6.1.a RGPD).
Tus datos se conservarán durante el tiempo necesario para gestionar la candidatura y, salvo que ejerzas tu derecho de supresión, hasta un máximo de un año si autorizas su conservación para futuros procesos. No realizamos decisiones automatizadas con efectos jurídicos significativos. Puedes ejercer en cualquier momento tus derechos de acceso, rectificación, supresión, oposición, limitación y portabilidad, así como retirar el consentimiento, escribiendo a la dirección de contacto que aparece en el formulario de aplicación. Tienes derecho a presentar una reclamación ante la Agencia Española de Protección de Datos (www.aepd.es).
— Naiian Recruiting Team
Compensation Range: €76K - €86K