Una variable aleatoria es una cantidad cuyo valor depende del azar. A modo de ejemplo, si la prevalencia de cierta enfermedad en una población es \(\pi=\) 0.30, esto significa que la probabilidad de que una persona elegida al azar padezca esa enfermedad es 0.3. Si elegimos al azar 3 personas de esa población, podrá ocurrir:
En este contexto, \(X=\) “número de enfermos entre las tres personas elegidas al azar”" es una variable aleatoria en el sentido que se acaba de definir. Concretamente, si el hecho de que un sujeto esté enfermo es independiente de que el resto de sujetos esté enfermo o no, el reparto (o distribución) de probabilidades entre los distintos valores de la variable \(X\) recibe el nombre de distribución binomial, en este caso particular, de parámetros \(n=3\) y \(\pi=0.3\), y se suele denotar de la forma \(X\approx b\left(n,\pi\right)\)
Podemos calcular las probabilidades anteriores como sigue:
\(p_0=(1-0.3)^3=0.343\), \(p_1=3\cdot 0.3\cdot (1-0.3)^2=0.441\), \(p_2=3\cdot (0.3^2)\cdot (1-0.3)=0.189\) y \(p_3=0.3^3=0.027\)
Estas cuatro probabilidades suman 1: \[ p_0+p_1+p_2+p_3=1 \]
Se define como:
\[E\left[X\right]=\sum_{k=0}^{n} k\cdot p\left(X=k\right)\]
En el caso de la variable aleatoria de nuestro ejemplo: \[0\cdot p_0+1\cdot p_1+2\cdot p_2+3\cdot p_3=0.9 \]
Se puede demostrar que para la distribución binomial \(b\left(n,\pi\right)\) la ecuación anterior puede simplificarse como:
\[E\left[X\right]=n\cdot\pi\]
En nuestro ejemplo \(n\cdot \pi=3\cdot0.3=0.9\) que coincide con el valor que se acaba de calcular.
Podemos interpretar intuitivamente el concepto de esperanza en este caso considerando que en lugar de una muetra de 3 personas tenemos una muestra de 300; si la probabilidad de que una persona elegida al azar esté enferma es del 30% (esto es, \(\pi=0.3\)), cabe esperar que un 30% de las 300 personas (esto es, 90 personas) estén enfermas. Este valor esperado coincide precisamente con \(E\left[X\right]=n\cdot\pi=300\cdot 0.3= 90\).
Otra manera de interpretar la esperanza es como el valor medio de la variable en muchas muestras.
Se define como:
\[{Var}\left(X\right)=\sum_{k=0}^{n} \left(k-E[X]\right)^2\cdot p\left(X=k\right)\]
La varianza es una medida de la variabilidad presente en una variable aleatoria. En el caso particular de la distribución binomial \(b\left(n,\pi\right)\) la ecuación anterior puede simplificarse como:
\[{Var}\left(X\right)=n\cdot \pi\cdot \left(1-\pi \right)\]
La desviación típica es la raiz cuadrada de la varianza:
\[{sd}\left(X\right)=\sqrt{n\cdot\pi\cdot\left(1-\pi \right)}\]
Calculamos la varianza para una variable \(b\left(300,0.3\right)\): \[ 300\cdot 0.3\cdot (1-0.3)=63 \]
y la desviación típica: \[ \sqrt{300\cdot 0.3\cdot (1-0.3)}=7.937254 \]
En el estudio de Telde tenemos una muestra de \(n=\) 1030 personas. El número de personas con HTA entre estas 1030 es una variable aleatoria con distribución binomial \(b\left(1030, \pi\right)\), donde \(\pi\) es la probabilidad de que una persona elegida al azar de esta población padezca HTA. El valor de \(\pi\) en la población adulta de Telde es desconocido, pero podemos estimarlo (obtener un valor aproximado) a partir de los datos de nuestra muestra, usando como estimador la prevalencia observada de HTA. Dicha prevalencia puede calcularse a partir de la tabla de frecuencias de la variable HTA_OMS:
Por tanto de acuerdo con nuestros datos, la prevalencia de HTA en Telde ronda un 31.46% (esto es, la probabilidad de que una persona elegida al azar en la población adulta de Telde tenga HTA es aproximadamente 0.3146).
Asimismo podemos estimar la prevalencia de HTA de acuerdo a la presencia/ausencia de T2DM, a partir de la tabla cruzada entre las variable DM y HTA_OMS, en la que añadimos las frecuencias relativas por filas:
Esta tabla nos indica que entre los diabéticos hay un 64.84% de hipertensos (83 hipertensos de un total de 83+45=128 sujetos); asimismo entre los no diabéticos (241+661=902) hay 241 hipertensos, lo que da lugar a una prevalencia de HTA de un 26.72% entre los no diabéticos. Este resultado muestra bien a las claras que la probabilidad de que una persona tenga HTA depende de si dicha persona tiene o no DM: es más probable ser hipertenso cuando se es diabético que cuando no se es diabético.
En primer lugar, cambiamos los niveles de la variable DM: el 0 por DM- y el 1 por DM+. Seguidamente, construimos el modelo de regresión logística para predecir la prevalencia de HTA según la presencia/ausencia de diabetes con Jamovi. Para ello utilizamos Analyses/Regression/Logistic Regression/2 Outcomes (Binomial), que nos proporciona la siguiente estimación:
Las predicciones de este modelo se obtienen mediante la barra Estimated Marginal Means, seleccionando la variable DM y marcando todas las opciones del apartado Output:
Podemos observar que la predicción es exacta, esto es, se predicen exactamente los valores de las prevalencias observadas y obtener la representación gráfica de los intervalos de confianza para cada categoría.
Introduzcamos a continuación en el modelo anterior, además del efecto de la T2DM, el efecto de la resistencia a la insulina. Así, siguiendo los mismos pasos dados anteriormente construimos el modelo de regresión logística para nuestro caso con Jamovi, que nos proporciona la siguiente estimación:
cuyas predicciones se obtienen igual que en el caso anterior, y son las siguientes (obsérvese que ahora ya no coinciden con las proporciones observadas):
De forma análoga a los casos anteriores, planteamos el modelo de regresión logística binaria utilizando como variable dependiente la HTA y como variables explicativas la DM y la EDAD. Jamovi proporciona la siguiente estimación:
Podemos representar gráficamente el efecto de la edad en cada grupo (DM+ y DM-) del siguiente modo:
En este caso, añadimos la variable IR para estimar el modelo de regresión logística:
Gráficamente:
Para estos pacientes, obtenemos la siguiente gráfica:
para los que se tiene el siguiente resultado gráfico: