Metodología Estadística: Probabilidad y Medidas de Asociación y Riesgo

Angelo Santana

Bioestadística. Master SASA. Curso 2023-24

PROBABILIDAD

 

Probabilidad: Medida de la incertidumbre asociada a la ocurrencia de determinado suceso o evento.

 

En términos matemáticos una probabilidad es una función \(P\) que satisface:

  1. La probabilidad del suceso seguro es 1.
  2. Si dos sucesos A y B son incompatibles (no pueden ocurrir simultáneamente) entonces: \[P\left(A \cup B \right) =P\left(A\right)+P\left(B\right)\]

PROBABILIDAD CONDICIONADA E INDEPENDENCIA DE SUCESOS

 

Para un suceso \(A\) tal que \(Pr\left( A \right) > 0\), la probabilidad de otro suceso \(B\) condicionada por \(A\) se define por:

\[Pr\left(\textrm{B}\left|\textrm{A}\right.\right)=\frac{Pr\left(\textrm{A}\cap\textrm{B}\right)}{Pr\left(\textrm{A}\right)}\]

 

Dos sucesos \(A\) y \(B\) se dicen independientes si:

\[Pr\left(\textrm{B}\left|A\right.\right)=Pr\left(B\right)\] En caso contrario, ambos sucesos están asociados.

PROBABILIDAD: Ejemplo

Variable (levels) All data (n=1030) DM = Sí (n=128) DM = No (n=902)
HTA_OMS
‌ Sí 324 (31.46) 83 (64.84) 241 (26.72)
‌ No 706 (68.54) 45 (35.16) 661 (73.28)

Teorema de la probabilidad total

 

Sea \(A_{1},A_{2},\ldots,A_{n}\) un sistema completo de sucesos y sea B un suceso arbitrario. Entonces:

\[P(B)=\sum\limits _{i=1}^{n}{P\left(B\left|A_{i}\right.\right)P\left({A_{i}}\right)}\]

 

En este caso la prevalencia de la enfermedad en cada raza es:

\[P\left(Epi\left|Golden\,R\right.\right)=0.06 \;\;\;\;\; P\left(Epi\left|Caniche\right.\right)=0.08\]

\[P\left(Epi\left|Cocker\right.\right)=0.09 \;\;\;\;\; P\left(Epi\left|Otro\right.\right)=0.02\]

La proporción que representa cada raza dentro del total de perros es:

\[P\left(Golder\,R\right)=0.05 \;\;\;\;\; P\left(Caniche\right)=0.10\]

\[P\left(Cocker\right)=0.12 \;\;\;\;\; P\left(Otra\,raza\right)=0.73\]

Para resolver el problema anterior aplicamos el teorema de la probabilidad total (siendo \(P\left(R_i\right)\) la proporción de cada raza):

\[Pr\left(Epi\right)=\sum\limits _{i=1}^{n}{P\left(Epi\left|R_{i}\right.\right)P\left({R_{i}}\right)}=\]

\[ = 0.06\cdot 0.05 +0.08 \cdot 0.10 + 0.09 \cdot 0.12 + 0.02\cdot 0.73= 0.0364\]

Por tanto la prevalencia de esta enfermedad en la región es del 3.64%

Teorema de Bayes

En las condiciones del Teorema de la Probabilidad Total, el Teorema de Bayes permite calcular la probabilidad de un suceso \(A_j\) una vez que se ha observado que ha ocurrido un suceso \(B\) (lo que se conoce como probabilidad a posteriori de \(A_j\)):

\[P\left(A_{j}\left|B\right.\right)=\frac{P\left(B\left|A_{j}\right.\right)P\left(A_j\right)}{\sum\limits _{i=1}^{n}{P\left(B\left|A_{i}\right.\right)P\left({A_{i}}\right)}}\]  

Asociación entre eventos: Riesgo Relativo (RR)

La asociación entre dos sucesos puede medirse mediante el riesgo relativo, definido como:

\[RR=\frac{P\left(B\left|A\right.\right)}{P\left(B\left|A^{c}\right.\right)}\]

(\(A^c\) es el suceso contrario de \(A\))  

Nótese que:

Asociación entre eventos: Riesgo Relativo (RR)

Ejemplo

¿Cuál es el riesgo relativo de Epilepsia en los Cocker frente a los que no son Cocker?

\[RR=\frac{P\left(Epi\left|Cocker\right.\right)}{P\left(Epi\left|Cocker^{C}\right.\right)}=\frac{0.09}{0.0291}=3.09\]

donde:

 

Asociación entre eventos: Riesgo Relativo (RR)

 

 

El RR como medida de asociación no es una medida simétrica: no es lo mismo el riesgo relativo de B según la presencia/ausencia de A que el riesgo relativo de A según la presencia/ausencia de B.

 

Veamos un ejemplo:

Asociación entre eventos: Riesgo Relativo (RR)

Variable (levels) All data (n=1030) HTA_OMS = Sí (n=324) HTA_OMS = No (n=706)
DM
‌ Sí 128 (12.43) 83 (25.62) 45 (6.37)
‌ No 902 (87.57) 241 (74.38) 661 (93.63)

 

A partir de estos datos queremos calcular:

  1. El riesgo relativo de padecer DM según se tenga o no HTA.

  2. El riesgo relativo de padecer HTA según se tenga o no DM.

 

Asociación entre eventos: Riesgo Relativo (RR)

Variable (levels) All data (n=1030) HTA_OMS = Sí (n=324) HTA_OMS = No (n=706)
DM
‌ Sí 128 (12.43) 83 (25.62) 45 (6.37)
‌ No 902 (87.57) 241 (74.38) 661 (93.63)

 

Asociación entre eventos: Riesgo Relativo (RR)

Variable (levels) All data (n=1030) DM = Sí (n=128) DM = No (n=902)
HTA_OMS
‌ Sí 324 (31.46) 83 (64.84) 241 (26.72)
‌ No 706 (68.54) 45 (35.16) 661 (73.28)

 

Asociación entre eventos: Riesgo Relativo (RR)

El riesgo relativo no debe utilizarse como medida de asociación en estudios de Caso-Control.

Asociación entre eventos: Riesgo Relativo (RR)

Variable (levels) All data (n=4902) DM = Sí (n=4000) DM = No (n=902)
HTA_OMS
‌ Sí 2835 2594 241
‌ No 2067 1406 661

Asociación entre eventos: Odds-Ratio (OR)

Asociación entre eventos: Odds-Ratio (OR)

Los datos para el cálculo de la OR se suelen presentar en una tabla como la siguiente:

Nótese que los sucesos \(B\) y \(A\) ocupan, respectivamente, la primera fila y la primera columna de esta tabla

La odds-ratio se calcula entonces como el producto de la diagonal principal dividido entre el producto de la diagonal inversa:

\[OR=\frac{P\left(B\left|A\right.\right)\cdot P\left(B^{C}\left|A^{C}\right.\right)}{P\left(B^{C}\left|A\right.\right)\cdot P\left(B\left|A^{C}\right.\right)}\]

Asociación entre eventos: Odds-Ratio (OR)

Se puede probar que la OR es una medida de asociación simétrica: \[OR=\frac{odd(B\left|A\right.)}{odd(B\left|A^{C}\right.)}=\frac{P\left(B\left|A\right.\right)\cdot P\left(B^{C}\left|A^{C}\right.\right)}{P\left(B^{C}\left|A\right.\right)\cdot P\left(B\left|A^{C}\right.\right)}=\] \[=\frac{P\left(A\left|B\right.\right)\cdot P\left(A^{C}\left|B^{C}\right.\right)}{P\left(A^{C}\left|B\right.\right)\cdot P\left(A\left|B^{C}\right.\right)}=\frac{odd(A\left|B\right.)}{odd(A\left|B^{C}\right.)}\]

La validez de este resultado se deduce del Teorema de Bayes.

Asociación entre eventos: Odds-Ratio (OR)

Variable (levels) All data (n=1030) DM = Sí (n=128) DM = No (n=902)
HTA_OMS
‌ Sí 324 (31.46) 83 (64.84) 241 (26.72)
‌ No 706 (68.54) 45 (35.16) 661 (73.28)

 

\[OR=\frac{P\left(HTA\left|DM\right.\right)/P\left(HTA^{c}\left|DM\right.\right)}{P\left(HTA\left|DM^{c}\right.\right)/P\left(HTA^{c}\left|DM^{c}\right.\right)}\] \[ = \frac{0.6484/0.3516}{0.2672/0.7328}=\frac{1.844}{0.3646}=5.06\]

Asociación entre eventos: Odds-Ratio (OR)

Variable (levels) All data (n=1030) HTA_OMS = Sí (n=324) HTA_OMS = No (n=706)
DM
‌ Sí 128 (12.43) 83 (25.62) 45 (6.37)
‌ No 902 (87.57) 241 (74.38) 661 (93.63)

 

\[OR=\frac{P\left(DM\left|HTA\right.\right)/P\left(DM^{c}\left|HTA\right.\right)}{P\left(DM\left|HTA^{c}\right.\right)/P\left(DM^{c}\left|HTA^{c}\right.\right)}\] \[ = \frac{0.2562/0.7438}{0.0637/0.9363}=\frac{0.3444}{0.068}=5.06\]

Asociación entre eventos: Odds-Ratio (OR)

Cálculo de la OR a partir de una tabla de frecuencias:

Odds-Ratio (OR): Ejemplo de aplicación a la diagnosis clínica

La existencia de asociación entre el resultado de una prueba y la presencia de una enfermedad es un requisito previo para que dicha prueba pueda servir como herramienta de diagnosis. La siguiente gráfica muestra la asociación entre la prueba PSA y el cáncer de próstata:

Es fácil comprobar en este caso que :

OR=3.69

Otras medidas de calidad de una prueba diagnóstica:

Valores Predictivos de una prueba

 

OJO: VPP y VPN calculados de esta manera solo son válidos si la proporción de enfermos en el estudio es igual a la prevalencia de la enfermedad en la población. Si la prevalencia en la población es \(P(D)\) y se conocen la sensibilidad \(P(T|D)\) y especificidad \(P(T^C|D^C)\), el VPN y el VPP se calculan mediante el teorema de Bayes:

 

\[VPP=P\left(D\left|T\right.\right)=\frac{P\left(T\left|D\right.\right)P\left(D\right)}{P\left(T\left|D\right.\right)P\left(D\right)+P\left(T\left|D^{C}\right.\right)P\left(D^{C}\right)}\]

\[VPN=P\left(D^{c}\left|T^{c}\right.\right)=\frac{P\left(T^{c}\left|D^{c}\right.\right)P\left(D^{c}\right)}{P\left(T^{c}\left|D^{c}\right.\right)P\left(D^{c}\right)+P\left(T^{c}\left|D\right.\right)P\left(D\right)}\]

Valores Predictivos de una prueba

Diagnosis clínica: A1C% como predictor de DM:

El valor de hemoglobina glicosilada A1C% se mide en escala continua. Debemos definir un valor límite o umbral de tal forma que aquellos pacientes que lo superan se diagnostican como DM, y los que no lo alcanzan como No DM. En la figura se ha elegido como umbral el valor 6.5%.

Diagnosis clínica: A1C% como predictor de DM:

Diagnosis clínica: curvas ROC (Receiver Operating Characteristic)

Diagnosis clínica: curvas ROC (Receiver Operating Characteristic)

Nótese en la figura como el eje de la especificidad va en sentido decreciente, desde 1 a 0.

Asociación entre variables continuas: correlación

## correlación 
##   0.1062269

Asociación entre variables continuas: correlación

## correlación 
##   0.8269498