Estadística con datos importados de Excel.

En esta segunda sesión mostraremos como puede utilizarse R para llevar a cabo una sencilla estadística descriptiva de unos datos que tenemos almacenados en un archivo Excel.

 

Instalación del paquete readxl

En principio, la instalación básica de R no cuenta con ningún procedimiento para leer archivos Excel. Para ello será preciso incrementar las capacidades de R mediante la incorporación de un paquete de funciones (package) que permitan la comunicación entre Excel y R. Hay varios paquetes diseñados para ello. En este curso utilizaremos el paquete readxl.

Si no tenemos instalado este paquete, deberemos descargar el paquete desde internet e instalarlo en nuestro ordenador. Para ello introducimos en la consola la siguiente instrucción:

 

 

R nos mostrará entonces algo parecido a lo siguiente:

 

 

y se abre una ventana en la que debemos elegir desde qué ubicación queremos que se realice la descarga del paquete. Es aconsejable descargarlo de alguna ubicación española, no sólo por la proximidad sino porque algunos paquetes incorporan traducciones, que dependen del lugar de descarga. En nuestro caso seleccionamos, por ejemplo, Spain (Madrid) y pinchamos en OK.

R procede entonces a descargar el paquete de internet y a instalarlo en nuestro PC. Una vez concluida la instalación, mostrará un mensaje parecido al siguiente:

 

 

NOTA IMPORTANTE: No es necesario instalar el paquete cada vez que se va a utilizar; esta instalación solo se hace una vez, antes de usarlo por pimera vez.

Si quisiéramos ver qué paquetes de R tenemos ya instalados podemos ejecutar en la consola la instrucción:

 

 

 

Carga de los datos en memoria

Una vez instalado el paquete, debemos cargarlo en memoria para que R pueda utilizarlo. Ello se lleva a cabo mediante el comando library(). En nuestro caso, tecleamos en la consola:

 

 

Para esta sesión vamos a utilizar el archivo de datos endocrino.xlsx, que contiene datos de diversas variables biométricas medidas en una muestra de 1030 personas elegidas al azar entre las que visitaban un centro de salud de Telde. Este archivo se puede descargar directamente desde la sección de “Descargas” del curso. Supongamos que hemos descargado este archivo en la carpeta c:\user\downloads\ de nuestro ordenador. Para leerlo desde R, introducimos en la consola la siguiente instrucción:

 

 

En esta instrucción estamos haciendo en realidad dos cosas:

  • Leyendo el contenido del archivo endocrino.xlsx mediante la función read_excel. Para ello hemos escrito la ruta completa del archivo, indicando la carpeta en que se encuentra. Nótese que en la ruta deben emplearse las barras de la forma / en lugar de \.

  • Asignando (mediante el símbolo <-) el contenido del archivo a un objeto que llamamos telde. Este objeto es en esencia una copia en memoria de la hoja excel, y va a funcionar como nuestra base de datos.

 

 

Visualización de las primeras líneas de datos.

Podemos ver las primeras lineas de nuestra base de datos mediante la función head():

 

 

que nos muestra como resultado:

 

 

 

Visualización de la estructura de la base de datos.

Asimismo, podemos ver la estructura de la base de datos mediante la instrucción str():

 

 

que nos devuelve como resultado:

 

 

 

Estadística Descriptiva.

Supongamos que queremos saber cuántas personas han recibido cada uno de los niveles de instrucción. En R la función para llevar a cabo esta tarea es table(). Escribimos en la consola:

 

 

y obtenemos como resultado:

 

 

IMPORTANTE: Nótese que para hacer referencia a la variable INSTRUCCION dentro de la base de datos telde debemos escribir ambos, el nombre de la base de datos (telde) y el nombre de la variable (INSTRUCCION) separados por el símbolo $ de la forma: telde$INSTRUCCION. Es importante notar también que R distingue entre minúsculas y mayúsculas. Escribir con minúscula algo que va con mayúscula (o al revés) da lugar a que el programa no entienda a qué nos referimos y nos lance un mensaje de error.

 

Podemos representar gráficamente la tabla anterior mediante un diagrama de barras, que en R se lleva a cabo mediante la instrucción barplot():

 

 

que produce el siguiente resultado:

 

 

 

Supongamos ahora que queremos calcular los valores medios y las desviaciones típicas del peso y la talla. El cálculo de la media se lleva a cabo mediante la función mean() y la desviación típica mediante sd(). Por tanto, podemos obtener los valores buscados mediante:

 

 

En el caso de variables continuas como éstas, la representación gráfica adecuada es el histograma. El histograma en R se obtiene mediante la función hist(). Nótese además como a esta función se le pueden añadir argumentos especificando el título, leyendas para los ejes, colores, etc.

 

 

El resultado obtenido es el siguiente:

 

 

 

 

Si queremos saber qué argumentos tiene una función y ver algún ejemplo de llamada a la misma, podemos utilizar help() indicando entre paréntesis la función sobre la cual queremos ayuda. Por ejemplo, para pedir ayuda sobre el histograma escribiríamos:

 

 





© 2016 Angelo Santana, Carmen N. Hernández, Departamento de Matemáticas   ULPGC