Objetivos

  1. Continuar utilizando las funciones del conjunto de librerías tidyverse para la manipulación y análisis de datos, y la librería flextable para la presentación de resultados.

  2. Aprender a leer archivos csv.

  3. Aprender a construir histogramas con ggplot: geom_histogram()

  4. Aprender a hacer gráficas para grupos de datos: facet_wrap()

  5. Aprender a construir tablas de frecuencias: función tabyl() en el paquete janitor.

  6. Aprender a construir diagramas de barras a partir de tablas de frecuencias: geom_col()

  7. Aprender a construir y representar gráficamente tablas de frecuencias cruzadas.

 

 

 

 

Preliminares: carga de las librerías que utilizaremos en esta práctica.

 

 

 

 

1. Lectura de archivos csv

 

Abrir el archivo .Rmd de la práctica 3 y sustituir la lectura del archivo de datos datosP1-1920.xlsx por el archivo tortugas.csv que tiene la muestra completa de algo más de 1200 tortugas.

 

Los archivos .csv(comma separated values) son archivos de texto en los que los valores de las variables están separados por comas (en los archivos csv versión inglesa) o por punto y coma (en versión española). Asimismo, en los archivos en versión inglesa, el separador decimal es un punto, mientras que en la versión española el separador decimal es una coma.

Para realizar esta práctica debemos descargar el archivo tortugas.csv de la web. Este archivo se encuentra en dos versiones (ambas exactamente con el mismo contenido) dependiendo del sistema operativo (Windows o Mac) que se utilice. La única diferencia es la codificación de los caracteres no ingleses (la ñ, las vocales con tilde, la c con cedilla, etc), que se realiza de modo diferente en ambos sistemas; Windows se ajusta al estándar ISO8859-1 y Mac al estandar UTF-8.

En ambos casos, podemos abrir el archivo con algún editor de texto (el Bloc de Notas en Windows o el TextEdit en Mac) y comprobar que el archivo csv está en el estándar español, con puntos y comas separando los valores numéricos, y la coma como símbolo decimal:

 

Para leer este archivo utilizaremos la función read_csv2() (si el archivo estuviera en el estándar inglés usaríamos read_csv()):

Para repetir la práctica 3 con estos nuevos datos, lo único que tenemos que hacer es abrir el archivo anterior y buscar la linea donde se leía el archivo de datos:

La borramos y la sustituimos por la anterior.

 

 

 

 

2. Procesamiento (knitting) de un archivo Rmd.

 

Procesar el archivo de la practica con los datos de todas las tortugas.

 

La práctica anterior se realizó con los datos de 20 nidos de tortugas. Una vez que hemos cambiado el archivo con los datos como se ha indicado en el punto anterior (en lugar de leer “datosP1-1920.xlsx”, ahora leemos “tortugas.csv”), podemos procesar de nuevo el archivo de la práctica (pinchando en el botón knit en Rstudio) y se rehacen automáticamente todas las tablas y gráficos elaboradas en dicha práctica, de forma que ahora se obtienen resultados para los 1277 nidos que componían el estudio original. Aquí está el archivo .Rmd de la práctica anterior modificado, y aquí el resultado obtenido al procesarlo.

 

 

 

 

3. Gráficos con ggplot: histogramas geom_hist()

 

Construye histogramas de las variables LCC, distancia y profNido.

 

  • LCC

La sintaxis para construir un histograma con ggplot es:

Obsérvese que solo hay que especificar en aes() la variable cuyo histograma queremos construir. ggplot() calcula automáticamente las alturas de las barras. La función que construye el histograma es geom_histogram() y podemos especificar el color del borde de las barras (color) y el color del relleno (fill)

 

  • Distancia desde el nido hasta la orilla

 

  • Profundidad del nido

 

 

 

 

4. Gráficos con ggplot: gráficos por grupos de datos

 

Representa la profundidad del nido frente a la distancia a la orilla, dando un color distinto a cada playa.

 

4.1. Todas las playas en la misma gráfica

En este caso basta con indicar en la estética del gráfico (aes()) que se va a asignar un color a cada playa: