Para superar la parte de “Modelos estadísticos” dentro de la asignatura “Modelización y Simulación”, cada alumno deberá resolver al menos seis ejercicios [Ver nota al final] de los que se enuncian a continuación. Estos ejercicios deberán resolverse utilizando el programa R y se valorará la aplicación correcta de la metodología estadística así como la interpretación de los resultados obtenidos. Deberá entregarse un archivo con el script R utilizado en la resolución de los ejercicios y otro archivo (puede ser el mismo) con los resultados obtenidos, incluyendo los comentarios sobre la interpretación y conclusiones alcanzadas.
Para resolver los ejercicios, cada alumno dispondrá de un archivo de datos, correspondiente a datos meteorológicos medidos en diversos aeropuertos:
Marc Jean Piedeleu: Aeropuerto de Barcelona barcelonaMensual.xlsx
Julia Meyer: Aeropuerto de Berlin-Tegel berlinMensual.xlsx
Romualdo Bentor García Guerra: Aeropuerto de Gando gandoMensual.xlsx
Borja Grobas Arza: Aeropuerto de San Sebastián donostiMensual.xlsx
Los archivos anteriores datos climatológicos medidos en diversos aeropuertos a lo largo de varios años. Los datos se han obtenido a través de la web http://www.ecad.eu \(^{[1]}\), que proporciona datos diarios y han sido procesados para convertirlos en valores medios mensuales. Las variables medidas han sido las siguientes:
CC: Cobertura de nubes, medida en oktas. En meteorología, un okta es una unidad de medida utilizada para describir la nubosidad (Ver definición aquí). Las condiciones del cielo se expresan en términos de cuantos octavos de cielo están cubiertos por las nubes, desde completamente claros (0 oktas) hasta cielos cubiertos (8 oktas).
FG: Velocidad del viento, en m/s
FX: Velocidad máxima de ráfagas de viento, en m/s
HU: Humedad relativa del aire, en %
PP: Presión atmosférica, en milibares
RR: Precipitación diaria, en \(\boldsymbol{\textrm{litros/m}^{2}}\)
SS: Duración de radiación solar, en horas. Esta variable mide el tiempo acumulado durante el cual una región recibe del sol una irradiación directa de al menos 120 watios por metro cuadrado.
TG: Temperatura media diaria, en ºC
TN: Temperatura mínima diaria, en ºC
TX: Temperatura máxima diaria, en ºC
Para cada una de estas variables se muestra el promedio mensual (salvo para las temperaturas mínima y máxima, en cuyo caso se muestran, respectivamente, el mínimo y máximo mensuales). Téngase en cuenta que el registro es incompleto y hay meses (incluso años completos) en que algunas de las variables no se han medido, bien porque se trata de datos antiguos y no se medía esa variable en aquel momento, o porque son datos más nuevos pero han fallado los aparatos de medida. En el archivo Excel correspondiente, cuando falta un dato se ha dejado el hueco en blanco.
Con estos datos:
Realizar una estadística descriptiva general de cada variable.
En el caso de variables continuas, dicha estadística debe incluir valor medio, desviación típica, valor mediano y valores mínimo y máximo. Los datos deben representarse gráficamente mediante un histograma.
En el caso de variables categóricas (cobertura de nubes), dicha estadística consistirá en la realización de una tabla de frecuencias y su correspondiente representación en un diagrama de barras.
Nota: para llevar a cabo esta tarea puedes definir la variable periodo
del siguiente modo: si los 10 primeros años de la serie son los que van de 1941 a 1950 y los diez últimos los que van de 2008 a 2017:
data$periodo=ifelse(data$year%in%1941:1950,1,ifelse(data$year%in%2008:2017,2,NA))
seleccion=subset(data,periodo==1|periodo==2,select=c("periodo","TG"))
data
por el nombre que le hayas puesto al data.frame
que contiene tus datos)library(car)
data$season=recode(data$month,"c(12,1,2)='winter'; 3:5='spring'; 6:8='summer'; 9:11='autumn'")
data$season=factor(data$season,levels=c("spring","summer","autumn","winter"))
Dibuja boxplots de las distintas variables frente a la variable “season” que acabas de definir. Comenta los resultados ¿Observas diferencias en el comportamiento de las variables entre las distintas estaciones? Utiliza la función aggregate
para hallar los valores medios por estación de cada una de las variables del archivo.
En los dos ejercicios anteriores, en caso de detectar diferencias significativas, utiliza el test de Tukey para decidir qué estaciones difieren entre sí, y cuáles tienen valores similares.
Nota: El alumno Borja Grobas deberá resolver los 10 ejercicios para compensar la no asistencia a las sesiones iniciales del curso
Referencias
[1] Klein Tank, A.M.G. and Coauthors, 2002. Daily dataset of 20th-century surface air temperature and precipitation series for the European Climate Assessment. Int. J. of Climatol., 22, 1441-1453. Data and metadata available at http://www.ecad.eu