Introducción

El articulo “Primary production and the anchovy population in the Southern California Bight: Comparison of time series” presenta un estudio sobre la relación de la biomasa de anchoas, Engraulis mordax, en la zona del sur de California durante el periodo 1951-1979, con la producción primaria en la misma zona, estimada para los años 1920-1979. El objetivo del estudio es determinar hasta qué punto la producción primaria limita la producción de anchoas, y qué otros factores ambientales y biológicos controlan el tamaño de la población de dicha especie.

 

 

Acceso a los datos.

El archivo anchoas.xls contiene los datos que se muestran en las distintas tablas presentadas en el artículo citado. Cada tabla se encuentra en una hoja distinta del archivo. Puedes leerlas mediante la sintaxis:

library(readxl)
setwd("./datos")
tabla1=read_excel("anchoas.xls",sheet=1)
tabla2=read_excel("anchoas.xls",sheet=2)
tabla3=read_excel("anchoas.xls",sheet=3)
tabla4=read_excel("anchoas.xls",sheet=4)
tabla5=read_excel("anchoas.xls",sheet=5)

Los datos que se presentan en estas tablas son:

 

 

Cuestiones a resolver.

  1. Realiza una estadística descriptiva de los datos presentados en las distintas tablas, utilizando las gráficas y medidas de resumen que consideres más apropiadas (nota: la función ts te permite convertir las variables a series temporales; con las variables convertidas de esta manera R genera de manera automática los gráficos de series temporales).

  2. En particular, para las tablas 2, 3 y 5 en las que se presentan medias trimestrales, calcula una columna adicional con las medias anuales (simplemente promendiando cada fila. Puedes usar para ello la función rowMeans). Haz también una descripción (resumen y gráficos) de estas medias anuales.

  3. Tal como se describe en el artículo, utiliza los datos de la tabla 1 para calcular el modelo de regresión que permite predecir la producción (en escala logarítmica) en función de la anomalía térmica y la longitud del día. ¿Mejora el modelo si se introduce como variable predictora el mes?. Comprueba que se cumplen las hipótesis del modelo lineal.

  4. Utiliza el siguiente código R para reorganizar la tabla 2 de forma que haya una única variable produccion, con dos variables adicionales que indican la estación del año y la década (variable que toma el valor 2 para los años 1920 a 1929, 3 para 1930-1939, etc.):

library(reshape2)
prodPrim=melt(tabla2,id.vars="year") # Se agrupan todos los datos de produccion en una única variable
names(prodPrim)=c("year","season","production")
prodPrim$season=factor(prodPrim$season,levels=c("mar","jun","sep","dec"),
                       labels=c("1.Winter","2.Spring","3.Summer","4.Autumn")) # Se numeran las estaciones de 1 a 4 para poder ordenar los datos
prodPrim$decade=(prodPrim$year-1900)%/%10 # Se calcula la variable decada
prodPrim=prodPrim[order(prodPrim$year,prodPrim$season),]  # Se ordenan los datos por año y estación

Con estos datos, utiliza el análisis de la varianza para decidir si existen diferencias significativas en la producción primaria entre las distintas estaciones del año. Utiliza el análisis de la varianza para decidir si ha habido también variación significativa entre décadas. ¿Existe interacción entre década y estación?

  1. Utilizando la función ts para convertir en serie temporal la producción primaria del data.frame prodPrim construido en el apartado anterior. Representa gráficamente esta serie y utiliza la función decompose para descomponerla en sus componentes estacional, de tendencia y aleatoria. Representa gráficamente dichas componentes y comenta el resultado. Calcula e interpreta la función de autocorrelación (a) de la serie prodPrimaria y (b) de la componente aleatoria de dicha serie obtenida tras la descomposición (te puede ayudar la lectura de esta web, o de esta otra)

  2. Procede como en la cuestión 4 para reorganizar las tablas 3 y 5 de forma que haya una única variable principal (en el caso de la tabla 3 zooplancton, y en la tabla 5 larvas), con una variable adicional que indique la estación del año. Utiliza la función merge para combinar el data.frame prodPrim con los dos data.frames que acabas de construir. Representa graficamente las series temporales de zooplancton, larvas y produccion primaria durante el periodo en que coinciden las observaciones (de 1951 a 1966).

  3. Construye, valida (i.e. comprueba las hipótesis) e interpreta un modelo de regresión para predecir el zooplancton en función de la producción primaria (nota: probablemente resulte conveniente transformar ambas variables a escala logarítmica).

  4. Utilizando nuevamente los datos de la pregunta anterior, construye, valida e interpreta un modelo de regresion para predecir la abundancia de larvas de anchoa en funcion de la produccion primaria, la abundancia de zooplancton y la estacion del año.

 

 

Importante: Elegir como nivel de significación para todos los contrastes el 5%. Acompañar los resultados con intervalos de confianza al 95%.