Método Científico: Bioestadística.
Ejercicios de evaluacion.
Para resolver estos ejercicios se deberá utilizar una muestra seleccionada dentro de los datos del estudio de Telde. Cada alumno dispone de una muestra distinta y puede descargar el archivo correspondiente desde este enlace.
Para todas las preguntas de la sección 1 (y para algunas de la sección 4) necesitarás definir la variable IMC (Indice de Masa Corporal), que se calcula mediante la siguiente expresión:
\[IMC=\frac{Peso\,(kg)}{\left[Talla(m)\right]^{2}}\]
1. Para esta variable calcula media, desviación típica, valores mínimo y máximo, mediana y cuartiles. Representa su distribución de frecuencias mediante un histograma.
2. La variable SEXO toma los valores 0 y 1. Sabiendo que el 0 corresponde a los hombres y el 1 a las mujeres, calcula la media, desviación típica, valores mínimo y máximo, mediana y cuartiles de la variable IMC para cada sexo. Representa la distribución del IMC por sexo mediante un boxplot.
3. Un IMC menor que 18.5 indica un peso bajo; entre 18.5 y 25 peso normal; entre 25 y 30 sobrepeso; y más de 30 obesidad. Construye una nueva variable categPeso
que tome los valores “Bajopeso”, “Normopeso”, “Sobrepeso” y “Obesidad” según esta definición. Construye la tabla de frecuencias absolutas y relativas de las distintas categorías de peso en este estudio. Representa estas frecuencias en un diagrama de barras. Construye la tabla cruzada de las categorías de peso según sexo. Calcula asimismo las frecuencias relativas de las distintas categorías de peso dentro de cada sexo. Realiza una representación gráfica adecuada de dicha tabla cruzada.
4. Dibuja la nube de puntos del perímetro de la cintura (variable CINTURA) en el eje Y, frente al valor de IMC (en el eje X). ¿Aprecias relación lineal entre ambas variables? ¿Cuánto vale el coeficiente de correlación?
(para resolver las cuestiones de esta sección es conveniente consultar las tareas 4 y 5 que figuran bajo el epígrafe “Prácticas” en la web del módulo de bioestadística de la asignatura)
Para las preguntas 5 y 6 de esta sección necesitarás construir la variable OBESIDAD
como una variable dicotómica que toma el valor “No” en aquellos sujetos con IMC<30 y el valor “Sí” cuando IMC \(\ge\) 30.
5. Calcula el riesgo relativo de padecer HTA (variable HTA_OMS) según se sea obeso o no. Calcula también el riesgo relativo de padecer DM según se sea obeso o no. Explica el resultado.
6. Calcula la odds-ratio entre obesidad e hipertensión (variable HTA_OMS); calcula también la odds-ratio entre obesidad y diabetes (variable DM), y entre obesidad y sedentarismo (variable SEDENTARIO).
7. El índice HOMA se emplea habitualmente para medir el grado de resistencia a la insulina. Dibuja la curva ROC para evaluar la capacidad diagnóstica del índice HOMA sobre la diabetes mellitus (variable DM). Calcula el área bajo la curva, así como un intervalo de confianza al 95% para dicho área. ¿Puede decirse que el HOMA tiene capacidad diagnóstica para predecir la DM?
8. Se decide fijar como prueba diagnóstica el clasificar a un paciente como DM si el índice HOMA supera el valor 2.6. Utiliza los datos del estudio de Telde para estimar la sensibilidad y especificidad de esta prueba. Si en la población adulta de Telde representada por esta muestra la prevalencia de diabetes es del 10%, calcula los valores predictivos positivo y negativo de esta prueba.
9. Utiliza el test de la chi-cuadrado para determinar si es significativa la asociación entre las siguientes variables:
OBESIDAD-DM
OBESIDAD-HTA_OMS
HIPERCOLESTEROLEMIA-DM. (NOTA: La hipercolesterolemia se define por tener el nivel de colesterol por encima de 200.)
10. El logaritmo del IMC sigue una distribución normal. ¿Existen diferencias significativas entre hombres (SEXO=0) y mujeres (SEXO=1) en el valor medio de esta variable? ¿Y entre personas diabéticas (DM=1) y no diabéticas (DM=0)? (NOTA: puedes utilizar t.test()
para responder a estas cuestiones)
11. Utiliza el t-test para construir un intervalo de confianza al 95% para el valor medio del log(IMC). Idem para el logaritmo del fibrinógeno (variable fibri).
12. El colesterol HDL (variable HDL) no sigue una distribución normal ni en su escala normal ni transformado a escala logarítmica. Utiliza el test de Wilcoxon para decidir si existen diferencias significativas en la distribución del HDL entre hombres y mujeres. ¿Y entre personas hipertensas (HTA_OMS=1) y normotensas (HTA_OMS=0)?
13. Estima la ecuación de la regresión lineal para predecir el perímetro de la cintura (variable CINTURA) en función del IMC. Calcula e interpreta un intervalo de confianza para la pendiente de la regresión. Calcula también el valor del coeficiente de determinación. Vuelve a dibujar la nube de puntos asignando un color distinto a hombres y mujeres. Incluye el sexo en el modelo de regresión anterior (ver la sección Análisis de la covarianza en el capítulo de regresión lineal) y decide si el modelo de regresión difiere entre sexos.
14. Estima el modelo de regresión logística para predecir la probabilidad de padecer HTA (variable HTA_OMS) en función de la edad, el sexo y la obesidad central (OBCENT_ATP). Para cada variable del modelo calcula e interpreta las odds-ratio (con sus correspondientes intervalos de confianza), especificando qué factores resultan de riesgo y cuáles de protección.
15. El síndrome metabólico (SM) es un grupo de condiciones que incrementan el riesgo de desarrollar enfermedad cardiaca, accidente cerebro-vascular y diabetes tipo 2. Se considera que un sujeto padece SM cuando cumple al menos tres de las siguientes condiciones:
Hipertensión arterial
Glucosa (un tipo de azúcar) alta en la sangre
Niveles sanguíneos elevados de triglicéridos, un tipo de grasas
Bajos niveles sanguíneos de HDL, el colesterol bueno
Exceso de grasa alrededor de la cintura.
En la base de datos de Telde (endocrino.csv), la variable SM toma el valor 1 si el sujeto tiene SM y 0 si no tiene SM. Utiliza el modelo de regresión logística para explorar la asociación del síndrome metabólico con las variables EDAD, SEXO, INSTRUCCION, TABACO, ALCOHOL y SEDENTARIO. Interpreta el modelo, determina qué variables tienen asociación con el SM (especificando si son factores de riesgo o protección) y calcula la odds-ratio ajustada por el resto de las variables.
16. Calcula el modelo de regresión lineal para predecir el nivel de colesterol total (COLESTEROL) en función de los niveles de las apolipoproteínas A y B (ApoA y ApoB) y del IMC. Construye intervalos de confianza para los coeficientes del modelo y construye el coeficiente de determinación. Representa gráficamente el nivel de colesterol frente a cada una de las tres variables independientes. ¿Se puede prescindir de alguna de las variables en el modelo de regresión lineal?