Manual – Ejemplo


CAPÍTULO EJEMPLO:

VI. ANÁLISIS DE REGRESIÓN.

Los métodos de regresión analizan si unas variables (variables predictoras o independientes) se asocian o predicen otra variable (variable dependiente). Si la variable dependiente es dicotómica, por ejemplo presencia de neumonía (si/no), curado (si/no)…, la prueba que se utiliza es la REGRESIÓN LOGÍSTICA BINARIA. En cambio, si la variable dependiente es cuantitativa, por ejemplo, la edad, el índice de masa corporal…, la prueba que se utiliza es la REGRESIÓN LINEAL MÚLTIPLE. En ambos casos, las variables predictoras pueden ser cualitativas o cuantitativas. Por ejemplo, si queremos evaluar si al aumento del colesterol influye la edad, el peso, la tensión arterial, etc., se utilizará la regresión lineal múltiple. En cambio, si queremos evaluar si la edad, sexo, tensión arterial, etc. influyen en la aparición de diabetes se utilizará la regresión logística binaria. Si a lo anterior se introduce la variable tiempo, por ejemplo valorar si la administración de un tratamiento para controlar la glucemia en un seguimiento a 12 meses se aplicará la REGRESIÓN DE COX. En este último caso se dispone de dos variables por participante (1) el control de la glucemia (1=si control, 0=no control) y (2) cuanto tiempo ha sido seguido (hasta control de la glucemia o hasta acabar el estudio). La primera variable es cualitativa dicotómica y la segunda es el tiempo de observación que es cuantitativa. Se deben combinar ambas, siguiendo técnicas analógicas a las del análisis de supervivencia.

Regresión logística binaria.

Permite evaluar si una serie de variables (variables independientes o predictoras) (ej. edad, sexo, etc.) predicen o están asociadas a otra variable habitualmente categórica dicotómica (por ejemplo curación si/no).

La elección de las variables predictoras se realiza en función del conocimiento del tema, de una revisión de la literatura y del resultado de un análisis univariante realizado previamente (se eligen normalmente a las significativas). Se suele elegir una variable por cada 10 individuos de muestra analizada

Para una mejor interpretación de los resultados se aconseja que las variables predictoras ordinales o continuas sean transformadas en categóricas, por ejemplo transformar la edad, en mayores y menores de por ejemplo 50 años.

Obtenemos una odds ratio (OR) y un intervalo de confianza. Para las variables categóricas significa el riesgo de los sujetos con un valor frente al riesgo de los sujetos con el otro valor para esa variable. Por ejemplo, si la OR es igual a 4 de la variable neumonía para muerte. Los pacientes con neumonía tienen un riesgo 4 veces superior a los que no tienen neumonía para muerte.

Para las variables cuantitativas, la OR representa la probabilidad del evento predicho que tiene un individuo con un valor x frente a la probabilidad que tiene un individuo con valor x-1. Es decir, si X es la variable EDAD y estamos prediciendo muerte, la OR será la probabilidad de muerte que tiene, un individuo de 50 años por ejemplo en relación a otro de 49 años.

¿Cómo realizar un análisis de regresión logística binaria con SPSS?

Primero, definir en la vista de variables, las variables que vamos a analizar. Así en el siguiente ejemplo vamos a comprobar si existe una asociación entre las variables sepsis, neumonía, sexo y edad (variables independientes) con la mortalidad (variable dependiente) en una muestra de pacientes ingresados.

Segundo, ejecutar el análisis. Para ello, hacer clic en analizar → en regresión → en logística binaria. En la ventana de Regresión logística introducir en dependientes la variable dependiente, en este caso mortalidad y en covariables todas las variables independientes que se han seleccionado (sepsis, neumonía, sexo y edad).

regresionlogisticabinaria

En “Categórica” indicar que variables son categóricas, en este ejemplo, el sexo, neumonía y la sepsis.

En “Opciones” señalar la pestañas de Gráfico de clasificación, Bondad de ajuste de Hosmer-Lemershow, listado de residuos por caso y el intervalo de confianza (IC95%).

Opciones

En “Método” indicar el método elegido para seleccionar a las variables. La diferencia es que con el método “Introducir” el investigador decide qué variables se introducen en el modelo. En cambio con los “Métodos automáticos”, “Adelante” y “Atrás”, el Programa introduce las variables y elimina aquellas sin significación estadística de forma automática.

Metodo

Tercero, en la hoja de resultados obtenemos (mostramos las más importantes):

1. Una tabla con “La prueba de Ómnibus” que debe ser significativa (p<0,05) para la buena predicción del modelo.

ommnibus

2. Prueba de Hosmer y Lemeshow. Sirve también para evaluar la buena adecuación del modelo. No debe ser significativo para que sea un buen ajuste.

Hosmer

3. Una tabla con “Resumen de los modelos” donde:

-2 log de la verosimilitud (-2LL) indica hasta qué punto un modelo se ajusta bien a los datos. El resultado de esta medición recibe también el nombre de “desviación”. Cuanto más pequeño sea el valor, mejor será el ajuste.

La R cuadrado de Cox y Snell es un coeficiente de determinación generalizado que se utiliza para estimar la proporción de varianza de la variable dependiente explicada por las variables predictoras (independientes). La R cuadrado de Cox y Snell se basa en la comparación del log de la verosimilitud (LL) para el modelo respecto al log de la verosimilitud (LL) para un modelo de línea base. Sus valores oscilan entre 0 y 1.

La R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de Cox y Snell. La R cuadrado de Cox y Snell tiene un valor máximo inferior a 1, incluso para un modelo “perfecto”. La R cuadrado de Nagelkerke corrige la escala del estadístico para cubrir el rango completo de 0 a 1.

Nagelkerke

En este ejemplo, el 22,2% (R cuadrado de Cox y Snell x 100) de la Variable Dependiente (en este caso la mortalidad) es explicada por las variables incluidas en el modelo. Esto indica que solo un 22,2% de la mortalidad es explicada por las variables introducidas en el modelo, es decir que hay un 77,7% que no está explicado por las variables introducidas.

4. Tabla de clasificación.

tabla de clasificacion

Esta tabla se refiere a la clasificación que hace el modelo de los casos y representa la sensibilidad y especificidad para clasificarlos correctamente. La sensibilidad es el porcentaje de casos que tuvieron la característica observada (en este caso la mortalidad) la cual fue correctamente predicha por el modelo (verdaderos positivos). En este caso, 55,9% de los participantes que fallecieron fueron correctamente predichos por el modelo. La especificidad se refiere al porcentaje de casos que no tuvieron la característica (que no fallecieron) y fueron correctamente predichos por el modelo de no tener esa característica (verdaderos negativos). En este caso 80,6% de los participantes que no fallecieron fueron correctamente predichos por el modelo. El valor predictivo positivo (VPP) sería del 55,8% y el valor predictivo negativo (VPN) del 80,64%. Ver apartado de sensibilidad, especificidad y valores predictivos para realizar los cálculos.

6. Obtenemos otra tabla “variables en la ecuación” en la que se representan las variables predictoras con el parámetro estimado (B), error estándar (E.T.), significación estadística con la prueba de Wald, que es un estadístico que sigue una ley Chi cuadrado con 1 grado de libertad. Y la estimación de la Odds ratio (Exp(B)) con su intervalo de confianza.

variablesecuacion

Con el método “Introducir” debemos eliminar del modelo aquellas variables con E.T. >1 (error típico), una OR muy elevada y las no significativas. En el ejemplo habría que eliminar al sexo y la sepsis y realizar de nuevo el análisis. Habitualmente se van eliminando las variables de una en una comenzando por la menos significativa ejecutando el análisis en cada paso. Si utilizamos un método automático “hacia delante” o “hacia atrás”, este proceso lo realiza el programa de forma automática.

variables ecuacion2

En último modelo quedaría la neumonía y la edad.

La interpretación sería: La odds ratio de la Neumonía (OR=5,4 [IC95%, 2,012-14,73], p=0,001) sería el riesgo de mortalidad entre los pacientes con neumonía respecto a los que no la tienen, es decir los pacientes con neumonía tienen un riesgo 5,4 veces mayor de morirse que los pacientes sin neumonía.

Con la edad, al ser una variable cuantitativa expresada en años, la interpretación sería que por cada año aumenta el riesgo de muerte en 1,044 (IC95%, 1,018-1,071), es decir que por cada año de edad existe un aumento de un 4,4% las posibilidades de mortalidad.

¿Cómo expresar en un artículo un análisis de regresión logística?

En el apartado de material y métodos. Se puede expresar así: “para comprobar que variables se asociaron de forma independiente con la variable (x) se realizó un análisis de regresión logística binaria”. Se puede añadir qué criterios se utilizaron para seleccionar las variables que se incluyeron en el modelo, por ejemplo aquellas que salieron estadísticamente significativas en un análisis univariante realizado previamente o las que eran clínicamente relevantes. Además se puede especificar el método que se utilizó, por ejemplo, el método de introducir o uno de los automáticos (por ejemplo Wald hacia delante).

En el apartado de resultados. Siguiendo con el ejemplo anterior, se puede expresar de la siguiente manera: “la edad (OR 1.044 (IC95% 1,018-1,071);p=0,001) y la neumonía (OR 5,448 (IC95% 2,012-14,75); p=0,001) fueron las únicas variables que se asociaron de forma independiente con la mortalidad”.

De una forma más completa y siguiendo el estilo APA se puede expresar así: “se ha realizado una regresión logística binaria para evaluar el efecto de la edad, sepsis, sexo y neumonía en la mortalidad. El modelo de regresión logística fue estadísticamente signficativo, X2 =24,130, p <0,0005. El modelo explica el 30,6% (R2 de Nagelkerke) de la varianza en la mortalidad y clasifica correctamente el 71,9% de los casos. La sensibilidad fue del 55,9%, la especificidad del 80,6%, el valor predictivo positivo del 55,8% y el valor predictivo negativo del 80,64%. De las cuatro variables predictoras, solamente dos lo fueron estadísticamente significativa, la edad y neumonía” Aquí se puede hacer referencia a una tabla o ponerlo en texto tal que así: “la edad, OR = 1,044, IC95% [1,018 a 1,071], p=0,001 y la neumonía, OR= 5,448, IC95% [2,01 a 14,75], p=0,001”

 

bot_man04