Sextant — Plataforma de hypothesis testing para investigación biomédica

Resumen

Sextant es una plataforma web de análisis estadístico diseñada para investigadores en biología y medicina que trabajan con datos modestos y diseños experimentales complejos. Cubre el flujo completo desde la ingesta de datos hasta el export de Methods listos para publicación, con AI integrada en un rol estrictamente definido: nunca decide, solo rellena formas, describe trade-offs entre métodos candidatos sobre métricas ya computadas localmente, y redacta prosa publicable a partir de resultados verificados. El diseño hace cero compromisos con privacidad: ningún dato crudo del paciente o del experimento cruza el límite del servidor local.

§ 1

El problema

Los grupos de investigación biomédica viven una tensión técnica que las herramientas actuales no resuelven bien. Por un lado, generan datos de calidad creciente —ensayos preclínicos, registros longitudinales, dosis-respuesta, comportamiento animal, estudios clínicos— con diseños experimentales que cada vez requieren más rigor estadístico. Por el otro, las herramientas con las que efectivamente trabajan se quedaron atrás: GraphPad Prism domina por inercia y precio razonable; SPSS sigue presente en investigación clínica; JASP y jamovi son alternativas libres decentes pero limitadas.

Todas comparten cuatro huecos importantes: no diagnostican proactivamente los supuestos de los tests que el usuario selecciona, dejándolo cometer errores silenciosos; producen secciones de Methods débiles e incompletas que después los revisores marcan; carecen de contexto bibliográfico integrado al momento del análisis (el investigador descubre referencias relevantes post hoc o en la peer review); y la AI que han incorporado recientemente es marketing más que asistencia real.

Las herramientas de búsqueda asistida por AI que sí funcionan —Elicit, Consensus, scite.ai, Research Rabbit— viven completamente afuera del workflow de análisis. El investigador alterna entre cinco aplicaciones para hacer un trabajo que debería ser un solo flujo. Sextant cierra ese flujo.

§ 2

La propuesta

Una plataforma web que integra ocho pasos en una sola interfaz: ingesta de datos, exploración visual, preset de variables, declaración de hipótesis, previsualización estadística, selección de método, ejecución y export. La AI participa en momentos específicos del flujo bajo una restricción dura: nunca decide, nunca ve datos crudos, y siempre opera sobre objetos ya computados por código determinístico.

El diseño asume que el investigador es el experto del dominio y que la herramienta es —literalmente— un instrumento. La AI es el copiloto que rellena formas, describe trade-offs y redacta prosa publicable; el código determinístico hace los cálculos; el humano confirma cada paso antes de avanzar.

§ 3

User journey

El flujo es lineal con navegación libre hacia atrás. Cada paso produce un artefacto persistente que alimenta al siguiente.

Carga de datos

Drag-and-drop o file picker. Acepta CSV, Excel, TSV y export directo de REDCap. Detección automática de separadores, encoding y headers. Validación silenciosa al ingreso detecta columnas vacías, mixed types, IDs duplicados y fechas mal parseadas; cualquier problema se marca con badge sin bloquear el flujo.

Multiplot exploratorio

Una sola vista pre-generada con los plots clásicos: histograma por variable numérica, boxplot por grupo si hay columna categórica detectada, scatter matrix de las primeras seis numéricas y heatmap de correlación. Cada plot es clickeable para expandir. Pantalla del "déjame mirar mis datos antes de empezar", sin decisiones técnicas todavía.

iii

Preset de variables

Tabla interactiva donde cada columna se marca con rol (IV, DV, covariable, grupo, sujeto, tiempo), tipo (continua, ordinal, nominal, binaria), escala con unidades, y rol experimental (within / between). La AI propone defaults leyendo los nombres de columnas —weight_g sugiere DV continua, treatment_group sugiere IV categórica entre sujetos— y el usuario solo confirma o corrige.

Declarar hipótesis

Dos modos. Guiado: templates comunes (comparación de medias, asociación, dosis-respuesta, supervivencia, cambio pre/post, interacción factorial); seleccionas uno, llenas con variables del preset, y H₀ + H₁ se escriben solas. Libre: escribes la hipótesis en lenguaje natural y la AI propone el mapeo a un template con las variables ya asignadas. Nada corre hasta que el usuario aprueba la formulación final.

Previsualizador estadístico

Snapshot del estado de los datos según la hipótesis, sin correr el test todavía. Descriptivos por grupo (n, media, SD, mediana, IQR), tests de supuestos relevantes ya corridos (Shapiro-Wilk, Levene, esfericidad si aplica), tamaño de muestra efectivo por celda, detección de desbalance, missing y outliers solo en las variables involucradas, y estimación de power dado el N actual.

Selector de método

Lista filtrada de tests válidos dado el tipo de hipótesis, los tipos de variable y los resultados del previsualizador. Por cada opción se muestra nombre del test, supuestos requeridos vs cumplidos (✓ / ✗ con la métrica al lado) y nota corta. Aquí entra la AI, y solo aquí, recibiendo únicamente las métricas computadas para describir trade-offs: "test A asume normalidad y tus datos la violan según Shapiro p=0.02; test B no la asume pero pierde ~15% de power con tu N". La AI describe; el usuario elige.

vii

Resultados

Output del test corrido: estadístico, p-value, effect size con CI, post-hoc si aplica, y la figura publication-ready correspondiente al diseño (boxplot + jitter para grupos, scatter + ajuste para regresión, Kaplan-Meier para survival). Formato APA por defecto, alternativa estilo Nature disponible. La AI opcionalmente redacta la oración de Results con los valores reales del test ya corrido.

viii

Export

Cuatro entregables: párrafo de Methods listo para pegar al paper con versiones exactas de cada librería; figuras en PNG / SVG / PDF a alta resolución; BibTeX con citas reales si el módulo de contexto bibliográfico está activo; bundle reproducible (.zip) con código generado, requirements.txt, seed y dataset procesado opcional.

§ 4

Principio de diseño de la AI

El producto entero descansa sobre una sola regla, deliberadamente conservadora, que resuelve simultáneamente el problema de la confianza científica y el problema legal de privacidad:

Principio rector

La AI nunca decide. Rellena formas, describe trade-offs y redacta prosa, siempre sobre objetos ya computados por código determinístico. El humano confirma antes del siguiente paso.

Esto convierte a la AI en algo más cercano a un corrector de estilo estructurado que a un agente autónomo. Sugiere, no commit-ea. El usuario ve cada propuesta como un campo pre-rellenado con badge suggested, y puede aceptarla, editarla, o ignorarla. Para usuarios escépticos —PIs senior que prefieren no tener AI cerca de su análisis— existe un toggle global de modo manual que apaga todas las sugerencias sin degradar el resto del producto. La AI es opcional, no obligatoria.

El beneficio técnico es importante: como la AI nunca toma decisiones finales y siempre opera sobre resultados ya computados, las alucinaciones del modelo no pueden propagarse al análisis. Si el LLM produce una descripción equivocada de un trade-off, el usuario simplemente la ignora; el cálculo subyacente sigue siendo correcto.

§ 5

Privacidad y compliance

La arquitectura está diseñada para pasar revisión de un comité de ética hospitalario (REB) sin fricción. Toda la computación con datos crudos sucede en el servidor donde se despliega Sextant; al LLM externo (Claude API con Zero Data Retention) solo viajan objetos derivados que no contienen información identificable:

Sale del entorno local

Nombres de columnas + tipos + roles
Texto de hipótesis escrito por el usuario
Estadísticos resumen de tests corridos (W, F, p, η², n)
Power observado, CIs

Nunca sale

Filas de datos
Identificadores de sujeto
Valores individuales de medición
Cualquier dato derivado de PHI

Esta separación es enforced en código: el módulo de cómputo local nunca llama directamente al LLM; las llamadas pasan por una capa intermedia que valida que el payload solo contiene los campos permitidos. Cada llamada al LLM se registra en un audit log con timestamp, contenido enviado, modelo, y respuesta recibida —disponible para revisión por compliance officers en cualquier momento.

Figura 1. Arquitectura de Sextant en cuatro capas con límite de privacidad explícito.

§ 6

Diferenciación

Las herramientas existentes resuelven partes del problema. Sextant se diferencia integrando funcionalidad que hoy está fragmentada y aplicando AI con disciplina:

Capacidad	Prism / SPSS	JASP / jamovi	Elicit / Consensus	Sextant
Stats clásicas con UI	✓	✓	✗	✓
Diagnóstico proactivo de supuestos	parcial	parcial	✗	✓
Methods auto-export reproducible	✗	limitado	✗	✓
Contexto bibliográfico integrado	✗	✗	✓ standalone	✓ in-flow
AI con disciplina anti-alucinación	✗	✗	parcial	✓
Privacidad nivel hospital (PHIPA / REB)	local	local	✗	✓ explícito

La frase corta de posicionamiento: Prism con AI seria, Methods reproducibles, y contexto bibliográfico embebido.

§ 7

V1 y siguiente paso

El v1 mínimo viable cubre el flujo end-to-end con scope deliberadamente recortado para entregar valor rápido y validar el modelo con un caso real:

Alcance v1

Pasos i a viii completos, sin capa de contexto bibliográfico todavía
Dos templates de hipótesis: comparación de medias entre dos grupos y asociación entre variables continuas
Tests estadísticos: t-test (Student y Welch), Mann-Whitney, correlación de Pearson y Spearman, regresión lineal simple
Export Methods en Markdown plano (sin BibTeX todavía)
Toggle de AI on/off; sin contexto bibliográfico
Single-user, deployment local en servidor del lab o instancia cloud privada

El roadmap posterior incorpora templates adicionales (dosis-respuesta, supervivencia, mixed models, factorial), contexto bibliográfico vía Semantic Scholar / PubMed, multi-user con workspace por laboratorio, audit log hospital-grade y export en formato Nature / publication-specific.

Para arrancar necesitamos

Un dataset real anonimizado de un estudio actual de tu grupo (no importa qué tan messy esté), y 30 a 60 minutos de conversación para mapear cómo trabajan hoy el análisis estadístico: qué corren, en qué herramienta, cuánto tiempo toma, dónde se atoran, qué les rechazan los revisores. Con eso aterrizamos el primer scope concreto y, si la conversación lleva ahí, una propuesta formal con tiempos y costos.

⁘