Para superar la parte de “Modelos estadísticos” dentro de la asignatura “Modelización y Simulación”, cada alumno deberá resolver al menos seis ejercicios [Ver nota al final] de los que se enuncian a continuación. Estos ejercicios deberán resolverse utilizando el programa R y se valorará la aplicación correcta de la metodología estadística así como la interpretación de los resultados obtenidos. Deberá entregarse un archivo con el script R utilizado en la resolución de los ejercicios y otro archivo (puede ser el mismo) con los resultados obtenidos, incluyendo los comentarios sobre la interpretación y conclusiones alcanzadas.

Para resolver los ejercicios, cada alumno dispondrá de un archivo de datos, correspondiente a datos meteorológicos medidos en diversos aeropuertos:

 

Evaluación de la sección de Modelos Estadísticos

 

Los archivos anteriores datos climatológicos medidos en diversos aeropuertos a lo largo de varios años. Los datos se han obtenido a través de la web http://www.ecad.eu \(^{[1]}\), que proporciona datos diarios y han sido procesados para convertirlos en valores medios mensuales. Las variables medidas han sido las siguientes:

 

Para cada una de estas variables se muestra el promedio mensual (salvo para las temperaturas mínima y máxima, en cuyo caso se muestran, respectivamente, el mínimo y máximo mensuales). Téngase en cuenta que el registro es incompleto y hay meses (incluso años completos) en que algunas de las variables no se han medido, bien porque se trata de datos antiguos y no se medía esa variable en aquel momento, o porque son datos más nuevos pero han fallado los aparatos de medida. En el archivo Excel correspondiente, cuando falta un dato se ha dejado el hueco en blanco.

 

Con estos datos:

  1. Realizar una estadística descriptiva general de cada variable.

    1. En el caso de variables continuas, dicha estadística debe incluir valor medio, desviación típica, valor mediano y valores mínimo y máximo. Los datos deben representarse gráficamente mediante un histograma.

    2. En el caso de variables categóricas (cobertura de nubes), dicha estadística consistirá en la realización de una tabla de frecuencias y su correspondiente representación en un diagrama de barras.

 

  1. Representar la serie temporal de los valores medios mensuales de las variables temperatura media, humedad y velocidad del viento.

 

  1. Selecciona los datos de los 10 primeros y de los 10 últimos años de la serie de temperaturas. Calcula la temperatura media en los 10 primeros años y en los 10 últimos. ¿Muestran los datos evidencia de un incremento de la temperatura media entre ambos periodos?

Nota: para llevar a cabo esta tarea puedes definir la variable periodo del siguiente modo: si los 10 primeros años de la serie son los que van de 1941 a 1950 y los diez últimos los que van de 2008 a 2017:

data$periodo=ifelse(data$year%in%1941:1950,1,ifelse(data$year%in%2008:2017,2,NA))
seleccion=subset(data,periodo==1|periodo==2,select=c("periodo","TG"))

 

  1. Utiliza la siguiente sintaxis para construir la variable “estación”, con los valores “primavera”, “verano”, “otoño” e “invierno”: (debes sustituir data por el nombre que le hayas puesto al data.frame que contiene tus datos)
library(car)
data$season=recode(data$month,"c(12,1,2)='winter'; 3:5='spring'; 6:8='summer'; 9:11='autumn'")
data$season=factor(data$season,levels=c("spring","summer","autumn","winter"))

Dibuja boxplots de las distintas variables frente a la variable “season” que acabas de definir. Comenta los resultados ¿Observas diferencias en el comportamiento de las variables entre las distintas estaciones? Utiliza la función aggregate para hallar los valores medios por estación de cada una de las variables del archivo.

 

  1. Utiliza el análisis de la varianza para decidir si existen diferencias significativas en los valores medios de la presión atmosférica entre las distintas estaciones.

 

  1. Utiliza el análisis de la varianza para decidir si existen diferencias significativas en los valores medios de precipitación en las distintas estaciones.

En los dos ejercicios anteriores, en caso de detectar diferencias significativas, utiliza el test de Tukey para decidir qué estaciones difieren entre sí, y cuáles tienen valores similares.

 

  1. Dibuja una nube de puntos de la temperatura frente a la duración de la radiación solar. Calcula la recta de regresión para predecir la temperatura a partir del valor de la radiación solar. ¿Qué valor medio de temperatura se puede predecir para un mes en que la duración media de la radiación solar ha sido de 5 horas?

 

  1. Representa de nuevo la temperatura frente a la duración de la radiación solar, mostrando de un color distinto los valores de cada estación. Utiliza el análisis de la covarianza para determinar si existen diferencias significativas en la relación temperatura-radiación solar según la estación del año.

 

  1. Construye un modelo de regresión múltiple para predecir la temperatura media a partir de la cobertura de nubes, la velocidad del viento, la precipitación, la radiación solar, la presión atmosférica y la humedad relativa del aire. ¿Cuánto vale el coeficiente de determinación de esta regresión? ¿Crees que es necesario que el modelo incluya todas las variables citadas?

 

  1. Partiendo del modelo estimado en la pregunta anterior, construye un nuevo modelo con menos variables que el anterior, eliminando aquéllas que resulten menos explicativas. Justifica los pasos que das e interpreta los coeficientes del modelo ajustado. Presenta un gráfico de los valores predichos frente a los observados para determinar la bondad de ajuste del modelo.

 

 

Nota: El alumno Borja Grobas deberá resolver los 10 ejercicios para compensar la no asistencia a las sesiones iniciales del curso

 

Referencias

[1] Klein Tank, A.M.G. and Coauthors, 2002. Daily dataset of 20th-century surface air temperature and precipitation series for the European Climate Assessment. Int. J. of Climatol., 22, 1441-1453. Data and metadata available at http://www.ecad.eu