Test de Friedman: guía completa para entender y aplicar el test de Friedman

Pre

En el mundo de la estadística no paramétrica, el test de Friedman es una herramienta valiosa cuando se analizan múltiples condiciones relacionadas para las mismas unidades experimentales. Conocido también como la Prueba de Friedman, este test permite evaluar si existen diferencias significativas entre varias condiciones cuando se cumplen criterios mínimos sobre la independencia entre observaciones y la escala de medición ordinal o intervalos que no requieren distribución normal. En este artículo exploraremos en detalle qué es el test de Friedman, cuándo conviene usarlo, cómo se calcula, interpretación de resultados y ejemplos prácticos para que puedas aplicar esta técnica con seguridad y claridad.

Qué es el test de Friedman y por qué es tan importante

El test de Friedman es una prueba no paramétrica de clasificación por rangos diseñada para diseños de medidas repetidas en los que se comparan más de dos condiciones. A diferencia de pruebas paramétricas como el ANOVA de medidas repetidas, el test de Friedman no asume normalidad de los datos ni homogeneidad de varianzas, lo que lo hace especialmente útil cuando los datos son ordinales o cuando la distribución no es normal. En su forma clásica, se utiliza cuando hay una muestra de N sujetos y K tratamientos o condiciones diferentes aplicadas a cada sujeto.

Ventajas principales:

  • No requiere normalidad de los datos.
  • Trabaja con diseños de medidas repetidas o relacionados.
  • Es robusto ante outliers moderados cuando se basan en rangos.

Limitaciones y consideraciones:

  • Solo detecta si existen diferencias entre al menos dos condiciones; no especifica cuáles son las diferencias sin pruebas post hoc.
  • Los resultados pueden verse influidos por el tamaño de la muestra y la cantidad de condiciones; para K grande, la aproximación asintótica a chi-cuadrado es más precisa.

El test de Friedman es la herramienta adecuada en estas circunstancias:

  • Diseño de sujetos repetidos: cada sujeto (o unidad experimental) recibe todas las condiciones o tratamientos.
  • Datos en escala ordinal o cuando la distribución de los datos no es normal.
  • Se requieren comparaciones entre más de dos condiciones, pero sin asumir normalidad.

Ejemplos comunes incluyen evaluaciones de satisfacción en distintas condiciones de producto, rendimiento en diferentes sesiones de entrenamiento para el mismo grupo de participantes, o mediciones repetidas de variables cognitivas bajo varias tareas.

La idea central es comparar la distribución de rangos asignados a cada tratamiento dentro de cada sujeto. Si las diferencias entre condiciones son debidas al azar, los rangos deberían distribuirse de forma aproximadamente uniforme entre las condiciones para cada sujeto. El test de Friedman evalúa la variabilidad entre las sumas de rangos de cada tratamiento frente a la variabilidad esperada por azar.

– Hipótesis nula (H0): Las K condiciones no difieren entre sí en la población; las distribuciones de rangos son equivalentes, es decir, no hay efecto del tratamiento.
– Hipótesis alternativa (H1): Al menos una de las condiciones difiere de las demás en la población.

A continuación se presenta un esquema práctico para aplicar el test de Friedman. Este esquema puede adaptarse a diferentes herramientas de análisis (HOJA de cálculo, software estadístico, Python, R, etc.).

Organiza los datos en una matriz donde cada fila represente un sujeto y cada columna una condición o tratamiento. Por ejemplo, si hay 12 sujetos y 4 tratamientos, tendrás una matriz de 12×4.

Para cada sujeto, ordena sus respuestas dentro de las K condiciones de menor a mayor y asigna rangos de 1 a K. Si hay empates, se asignan rangos promedio para esos empates. Este paso produce una matriz de rangos, con la misma dimensión 12×4 en el ejemplo.

Sumar los rangos obtenidos para cada columna (condición). Esto da las sumas de rangos R1, R2, …, RK, que serán la base para el estadístico del test de Friedman.

El estadístico tradicional de Friedman se denota como Q y se calcula a partir de las sumas de rangos. En su forma clásica, para N sujetos y K tratamientos, una versión común es:
Q = (12 / (N(K(K+1)))) * sum(Rj^2) – 3N(K+1)

Donde Rj es la suma de rangos para el tratamiento j. Este valor se compara con una distribución chi-cuadrado con (K-1) grados de libertad cuando N es suficientemente grande. En tamaños pequeños, se recomienda tablas exactas para Friedman o métodos de aproximación más conservadores.

Si el valor de Q excede el valor crítico de la chi-cuadrado con K-1 grados de libertad al nivel de significancia elegido (por ejemplo 0.05), se rechaza la H0, indicando que al menos una de las condiciones difiere. En caso contrario, no hay evidencia suficiente para afirmar diferencias entre condiciones.

La interpretación se centra en si existen diferencias entre las condiciones evaluadas. Un resultado significativo indica que la distribución de respuestas no es la misma para todas las condiciones, lo que sugiere la presencia de efectos del tratamiento. Sin embargo, el test de Friedman no especifica qué pares de condiciones difieren entre sí. Para identificar diferencias específicas, es necesario realizar pruebas post hoc apropiadas.

Tras obtener un resultado significativo en el test de Friedman, se suelen aplicar pruebas post hoc para comparar pares de condiciones. Algunas opciones son:

  • Pruebas de rangos con corrección: Wilcoxon con corrección de Bonferroni o Holm.
  • Contraste de rangos de Friedman: comparaciones de pares basadas en rangos ajustados.
  • Procedimientos específicos para pruebas no paramétricas en diseños de medidas repetidas con múltiples comparaciones.

Un informe claro debe incluir:

  • La muestra y el número de sujetos (N) y el número de condiciones (K).
  • La estadística Q, sus grados de libertad (K-1) y el valor p asociado.
  • Si se realizó corrección por empates en los rangos.
  • Detalles de las pruebas post hoc realizadas y sus resultados, incluyendo ajustes de p-valor (p-valor ajustado).
  • Conclusión práctica sobre si existen diferencias entre las condiciones y, en su caso, qué condiciones difieren entre sí.

Imaginemos un estudio con 10 participantes que evalúan cuatro métodos de enseñanza diferentes (A, B, C y D) para una tarea específica. Cada participante realiza la tarea bajo los cuatro métodos, y se registra una puntuación ordenada de aprendizaje. Aquí se describe un ejemplo simplificado:

La matriz de 10×4 podría verse así (valores de 1 a 5 en escala de rendimiento, con empates posibles):

Matriz de puntuaciones por participante y método

Para cada fila, asignamos rangos 1-4 según las puntuaciones de los cuatro métodos, manejando empates con promedios cuando sea necesario.

Obtendremos R_A, R_B, R_C y R_D, las sumas de rangos para cada método.

Con N=10 y K=4, calculamos Q y comparamos con el valor crítico de la distribución chi-cuadrado con 3 grados de libertad. Si el p-valor es menor que 0.05, concluimos que hay diferencias entre al menos dos métodos.

Si Q es significativo, realizamos comparaciones por pares entre métodos (A vs B, A vs C, etc.) con corrección de Bonferroni para controlar el error tipo I.

Ventajas del test de Friedman:

  • Fácil de aplicar cuando la suposición de normalidad no se puede garantizar.
  • Funciona bien para diseños con varias condiciones y una sola medida por sujeto.
  • Resistente a outliers moderados cuando se basa en rangos.

Desventajas y posibles trampas:

  • Cuando K es grande, la interpretación puede volverse compleja y puede requerir más pruebas post hoc.
  • No indica la dirección de las diferencias; solo señala que existen diferencias entre al menos dos condiciones.
  • En tamaños muy pequeños, la aproximación chi-cuadrado puede no ser óptima; conviene recurrir a tablas exactas o simulaciones.

Como toda prueba, el test de Friedman tiene supuestos que es importante considerar:

  • Observaciones independientes entre sujetos, aunque las mediciones dentro de un sujeto están relacionadas (dependientes por la repetición).
  • Datos en escala ordinal o intervalos que se pueden ordenar; la base son los rangos, no las magnitudes exactas.
  • La muestra debe contener un número razonable de sujetos para que la aproximación chi-cuadrado sea válida; cuando N es pequeño, se recomienda revisar tablas exactas o simulaciones.

Puede que te preguntes en qué se diferencia este test de otras pruebas no paramétricas para diseños relacionados, como el test de signe o el Wilcoxon de rangos con signos. El test de Friedman es específico para diseños con varias condiciones evaluadas sobre los mismos sujetos y utiliza rangos por sujeto para comparar entre condiciones. En cambio, el test de signos se limita a dos condiciones y no maneja múltiples tratamientos de forma natural. El Wilcoxon de rangos con signos es útil para dos condiciones repetidas y no para múltiples tratamientos sin ajustar.

Aquí tienes recomendaciones útiles para aplicar y reportar el test de Friedman de forma clara y profesional:

  • Prepara la tabla de datos de forma ordenada: filas para sujetos y columnas para condiciones.
  • Verifica y documenta empates en los rangos y cómo se manejan (promedios de rangos para empates).
  • Considera el tamaño de la muestra y las implicaciones para la aproximación chi-cuadrado.
  • Planifica de antemano pruebas post hoc y el método de corrección para evitar inflar el error tipo I.
  • Presenta resúmenes visuales: gráficos de rangos o diagramas de cajas por condición pueden complementar la interpretación.

El test de Friedman fue propuesto por Milton Friedman en 1937 como una alternativa no paramétrica al análisis de varianza de medidas repetidas cuando las suposiciones de normalidad no se cumplen. A lo largo de los años, ha sido adoptado en psicología, educación, medicina y ciencias del comportamiento para comparar múltiples tratamientos o condiciones en el mismo grupo de participantes. Su simplicidad y robustez lo hacen especialmente útil en estudios exploratorios, encuestas y experimentos piloto donde la distribución de los datos no es confiable para suposiciones paramétricas.

La elección depende del diseño y la pregunta de investigación:

  • Si tienes un diseño con una sola variable dependiente y varias condiciones en medidas repetidas, el test de Friedman suele ser la primera opción no paramétrica.
  • Si solo comparas dos condiciones, el test de signos o el Wilcoxon de signos podría ser suficiente, dependiendo de la distribución de los datos y de la cantidad de sujetos.
  • Para diseños más complejos con múltiples factores y medidas repetidas, podrías necesitar modelos de efectos mixtos no paramétricos o transformaciones cuidadosas de los datos, manteniendo siempre la interpretación en mente.

Aquí aclaramos algunas dudas comunes que suelen surgir entre investigadores que trabajan con este test:

  • ¿Qué significa un resultado significativo en el test de Friedman? Significa que existe al menos una diferencia entre las condiciones evaluadas, pero no indica entre qué pares exactos. Se requieren pruebas post hoc para aclarar diferencias específicas.
  • ¿Se puede usar el test de Friedman con variables nominales? No, este test se basa en rangos y requiere datos que se puedan ordenar; las variables nominales puras no son adecuadas para este enfoque.
  • ¿Qué pasa si hay empates extremos en los rangos? En ese caso, se aplican reglas de empates (promedios de rangos) para conservar la validez del estadístico de Friedman.
  • ¿Es necesario que la muestra sea grande? No es obligatorio, pero la potencia de la prueba aumenta con el tamaño de la muestra y la robustez de la aproximación chi-cuadrado mejora con N mayor.

El test de Friedman ofrece una forma sólida y práctica de comparar múltiples condiciones en un diseño de medidas repetidas sin depender de supuestos paramétricos. Es especialmente valioso cuando la escala de medición es ordinal o cuando los datos no cumplen la normalidad. Con una correcta ejecución y, si es necesario, un adecuado plan de pruebas post hoc, el Test de Friedman puede ofrecer respuestas claras y útiles para investigaciones en una amplia gama de disciplinas. Si tu estudio involucra varios tratamientos y mediciones repetidas en los mismos sujetos, el test de Friedman debe estar entre tus herramientas estadísticas principales para obtener conclusiones rigurosas y bien fundamentadas.

Hoy en día existen múltiples herramientas que permiten realizar el test de Friedman de forma eficiente:

  • Hojas de cálculo: se pueden aplicar fórmulas para calcular rangos y el estadístico Q, o bien utilizar complementos estadísticos que implementen directamente la prueba.
  • R: paquetes como stats::friedmanTest facilitan la realización de la prueba de Friedman, con opciones de post hoc y reportes detallados.
  • Python: bibliotecas como scipy.stats ofrecen métodos no paramétricos y se pueden combinar con NumPy para construir la matriz de rangos y calcular el estadístico.
  • SPSS y SAS: también cuentan con procedimientos que permiten ejecutar el test de Friedman en diseños de medidas repetidas, con salidas que incluyen valores p y estimaciones de rangos.

Para quienes buscan una aplicación rigurosa del test de Friedman, recordar lo siguiente puede marcar la diferencia entre resultados sólidos y conclusiones débiles:

  • Informe siempre el tamaño de la muestra (N) y el número de condiciones (K) para contextualizar la potencia estadística.
  • Documenta el tratamiento de empates en los rangos y, si corresponde, las correcciones usadas en el cálculo.
  • Incluye las sumas de rangos por cada tratamiento y, cuando sea posible, muestra un cuadro de resultados para facilitar la interpretación.
  • Interpreta con cautela: un resultado significativo indica diferencias entre al menos dos condiciones, no especifica cuáles son, por lo que las pruebas post hoc deben complementar la lectura.
  • En informes, acompaña los resultados con gráficos que visualicen la distribución de rangos o las puntuaciones de cada tratamiento para una comprensión rápida.