Manifiesto · MedicusIA

En medicina, una alucinación
no es una falla curiosa.

Es un diagnóstico equivocado. Una interacción medicamentosa peligrosa. Una bandera roja ignorada. Por eso MedicusIA separa quirúrgicamente el lenguaje de la decisión clínica.

§ 01

El problema de la alucinación no tiene solución.

El entusiasmo por los modelos de lenguaje en salud sigue un patrón predecible. Un equipo afina un modelo con literatura médica, lo prueba contra un examen estandarizado, publica un paper mostrando puntajes comparables a médicos, y comienza el ciclo de prensa.

Lo que estos benchmarks fallan en medir consistentemente es lo que más importa en la práctica clínica: el costo de equivocarse.

La alucinación de un LLM no es un bug que se va a corregir en la próxima versión. Es una propiedad estructural de cómo funcionan estos modelos. Un transformer predice el siguiente token según patrones estadísticos. Cuando encuentra un escenario clínico entre patrones bien representados, interpola — y esa interpolación puede producir resultados fluidos, seguros y erróneos.

En un chatbot de servicio al cliente, una alucinación significa una política de devoluciones ligeramente incorrecta. En un sistema de apoyo a decisión clínica, una alucinación significa recomendar un medicamento contraindicado a un paciente con falla renal. La distribución de probabilidad es idéntica. Las consecuencias no.

§ 02

Qué significa determinístico, en la práctica.

Los módulos clínicos de MedicusIA no usan LLMs para routing diagnóstico. Usan árboles de decisión construidos directamente sobre las Guías de Práctica Clínica oficiales de México, publicadas por IMSS y SSA. Cada nodo mapea a una recomendación GPC con su nivel de evidencia y grado.

paciente:
  dolor_garganta: true
  fiebre_>38: true
  exudado_amigdalino: true
  Centor: 3

GPC: IMSS-073-08, recomendación 4.2.1
  nivel de evidencia: Ia
  grado de recomendación: A
  acción: prueba rápida + ATB empírico

ruta: faringitis_bacteriana_tx
confianza: determinística (no probabilística)
trazabilidad: GPC node 4.2.1

No hay distribución de probabilidad aquí. No hay temperatura. El sistema no "cree" que el paciente tiene faringitis — evalúa datos estructurados contra un conjunto de reglas y devuelve la ruta correspondiente.

La misma entrada produce la misma salida. Siempre. Auditable. Reproducible. Trazable a la guía específica que la justifica.

§ 03

Dónde sí pertenecen los LLMs.

Este no es un argumento contra los LLMs en salud. Es un argumento sobre dónde pertenecen. En MedicusIA, los LLMs manejan procesamiento de lenguaje natural: transcripción de dictado vía Whisper, extracción de datos clínicos estructurados, generación de documentación SOAP.

Estas son tareas de lenguaje — tareas donde la naturaleza probabilística del modelo es una ventaja, no un riesgo.

La arquitectura está dividida deliberadamente: los LLMs procesan lenguaje, los motores deterministas toman decisiones clínicas. La salida del LLM alimenta al motor de reglas como datos estructurados. El motor de reglas nunca recibe salida cruda del modelo como entrada clínica. Esta frontera se impone en código, no por convención.

§ 04

466 tests. Cero fallos.

Cada módulo clínico en MedicusIA se somete a pruebas de seguridad con viñetas diseñadas clínicamente — escenarios sintéticos de pacientes construidos específicamente para activar casos límite, contraindicaciones y trampas diagnósticas.

Faringitis tiene 16 viñetas. Rinitis 11. Sinusitis 14. Cada viñeta es una prueba que el sistema debe aprobar con la ruta correcta, la referencia GPC correcta y la acción clínica correcta.

Al momento de escribir esto, MedicusIA ha pasado más de 466 viñetas de seguridad en 21 módulos clínicos con cero fallos. No porque el sistema sea perfecto, sino porque los sistemas determinísticos fallan de forma predecible — y los fallos predecibles se pueden probar exhaustivamente. No se puede probar exhaustivamente un sistema probabilístico porque su espacio de salida es ilimitado.

§ 05

La pregunta incómoda.

Si está evaluando un sistema de IA clínica, hágale una pregunta:

"¿Puede mostrarme la regla exacta que produjo esta recomendación, trazada hasta la guía clínica específica y su nivel de evidencia?"

Si la respuesta involucra embeddings, attention weights, o "el modelo fue entrenado con literatura médica", está viendo un sistema que no puede explicarse en términos que un médico aceptaría en una deposición por mala praxis.

Si no puede sobrevivir una deposición, no debería tomar decisiones clínicas.

— Dr. Ixequi Luna, CEO/CTO FirmusIA · Mayo 2026 · El Búnker, Tlaxcala

Siguiente capítulo

Si esto le suena correcto,
le gustaría conocer el resto.

Cómo prevenimos errores Por qué corremos on-premise

En medicina, una alucinaciónno es una falla curiosa.