--- title: "Primary production and the anchovy population in the Southern California Bight: Comparison of time series" author: "Métodos Estadísticos Avanzados en Ciencias Marinas" --- \ \ ### Introducción El articulo ["Primary production and the anchovy population in the Southern California Bight: Comparison of time series"](papers/primary production and anchovy population.pdf) presenta un estudio sobre la relación de la biomasa de anchoas, _Engraulis mordax_, en la zona del sur de California durante el periodo 1951-1979, con la producción primaria en la misma zona, estimada para los años 1920-1979. El objetivo del estudio es determinar hasta qué punto la producción primaria limita la producción de anchoas, y qué otros factores ambientales y biológicos controlan el tamaño de la población de dicha especie. \ \ ### Acceso a los datos. El archivo [anchoas.xls](datos/anchoas.xls) contiene los datos que se muestran en las distintas tablas presentadas en el artículo citado. Cada tabla se encuentra en una hoja distinta del archivo. Puedes leerlas mediante la sintaxis: ```{r} library(readxl) setwd("./datos") tabla1=read_excel("anchoas.xls",sheet=1) tabla2=read_excel("anchoas.xls",sheet=2) tabla3=read_excel("anchoas.xls",sheet=3) tabla4=read_excel("anchoas.xls",sheet=4) tabla5=read_excel("anchoas.xls",sheet=5) ``` Los datos que se presentan en estas tablas son: * __Tabla 1:__ medidas de producción primaria realizadas durante 15 cruceros entre 1974 y 1979. Junto a cada valor de producción se midió la anomalía de temperatura (definida para cada día como la diferencia entre la temperatura media de ese día y la temperatura media de ese día durante los años 1920 a 1974; la anomalía de temperatura para cada crucero es la media de anomalías de los días que duró) y la longitud media del día (número medio diario de horas de luz durante la duración del crucero). * __Tabla 2:__ promedios trimestrales estimados de producción primaria desde el año 1920 a 1974 (en $g C \cdot m^{-2}\cdot d^{-1}$) * __Tabla 3:__ Abundancia de zooplancton (en $g\cdot m^{-2}$) * __Tabla 4:__ Promedio anual de producción primaria ($g C\cdot m^{-2}\cdot d^{-1}$), abundancia de microplancton y zooplancton ($g\cdot m^{-2}$) y larvas de anchoa (número de larvas por $m^2$) * __Tabla 5__: Abundancia media de larvas de anchoa (en número de larvas por $m^2$) por trimestres en la zona de estudio, desde 1951 hasta 1975. \ \ ### Cuestiones a resolver. 1. Realiza una estadística descriptiva de los datos presentados en las distintas tablas, utilizando las gráficas y medidas de resumen que consideres más apropiadas (__nota:__ la función _ts_ te permite convertir las variables a series temporales; con las variables convertidas de esta manera R genera de manera automática los gráficos de series temporales). 2. En particular, para las tablas 2, 3 y 5 en las que se presentan medias trimestrales, calcula una columna adicional con las medias anuales (simplemente promendiando cada fila. Puedes usar para ello la función _rowMeans_). Haz también una descripción (resumen y gráficos) de estas medias anuales. 3. Tal como se describe en el artículo, utiliza los datos de la tabla 1 para calcular el modelo de regresión que permite predecir la producción (en escala logarítmica) en función de la anomalía térmica y la longitud del día. ¿Mejora el modelo si se introduce como variable predictora el mes?. Comprueba que se cumplen las hipótesis del modelo lineal. 4. Utiliza el siguiente código R para reorganizar la tabla 2 de forma que haya una única variable _produccion_, con dos variables adicionales que indican la estación del año y la década (variable que toma el valor 2 para los años 1920 a 1929, 3 para 1930-1939, etc.): ```{r} library(reshape2) prodPrim=melt(tabla2,id.vars="year") # Se agrupan todos los datos de produccion en una única variable names(prodPrim)=c("year","season","production") prodPrim$season=factor(prodPrim$season,levels=c("mar","jun","sep","dec"), labels=c("1.Winter","2.Spring","3.Summer","4.Autumn")) # Se numeran las estaciones de 1 a 4 para poder ordenar los datos prodPrim$decade=(prodPrim$year-1900)%/%10 # Se calcula la variable decada prodPrim=prodPrim[order(prodPrim$year,prodPrim$season),] # Se ordenan los datos por año y estación ``` Con estos datos, utiliza el análisis de la varianza para decidir si existen diferencias significativas en la producción primaria entre las distintas estaciones del año. Utiliza el análisis de la varianza para decidir si ha habido también variación significativa entre décadas. ¿Existe interacción entre década y estación? 5. Utilizando la función _ts_ para convertir en serie temporal la producción primaria del data.frame _prodPrim_ construido en el apartado anterior. Representa gráficamente esta serie y utiliza la función _decompose_ para descomponerla en sus componentes estacional, de tendencia y aleatoria. Representa gráficamente dichas componentes y comenta el resultado. Calcula e interpreta la función de autocorrelación (a) de la serie _prodPrimaria_ y (b) de la componente aleatoria de dicha serie obtenida tras la descomposición (te puede ayudar la lectura de esta [web](http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html), o de esta [otra](https://www.otexts.org/fpp/6/1)) 6. Procede como en la cuestión 4 para reorganizar las tablas 3 y 5 de forma que haya una única variable principal (en el caso de la tabla 3 _zooplancton_, y en la tabla 5 _larvas_), con una variable adicional que indique la estación del año. Utiliza la función _merge_ para combinar el data.frame _prodPrim_ con los dos data.frames que acabas de construir. Representa graficamente las series temporales de zooplancton, larvas y produccion primaria durante el periodo en que coinciden las observaciones (de 1951 a 1966). 7. Construye, valida (i.e. comprueba las hipótesis) e interpreta un modelo de regresión para predecir el zooplancton en función de la producción primaria (__nota:__ probablemente resulte conveniente transformar ambas variables a escala logarítmica). 8. Utilizando nuevamente los datos de la pregunta anterior, construye, valida e interpreta un modelo de regresion para predecir la abundancia de larvas de anchoa en funcion de la produccion primaria, la abundancia de zooplancton y la estacion del año. \ \ __Importante:__ Elegir como nivel de significación para todos los contrastes el 5%. Acompañar los resultados con intervalos de confianza al 95%. \ \