Obtener (buenas) estimaciones (valores aproximados) de parámetros característicos de una población (p.ej, medias, proporciones o totales).
Poner a prueba la validez de hipótesis científicas.
Cualquiera que sea el objetivo, el muestreo debe:
Proporcionar muestras representativas de la población de interés.
Realizarse de la forma más eficiente posible: conseguir la máxima cantidad de información en el menor tiempo posible y con el menor coste en recursos.
El uso habitual del término “población” hace referencia al conjunto de individuos u organismos que comparten una serie de caractarísticas comunes (pertenecen a la misma especie, habitan en una misma región geográfica, hablan el mismo idioma …)
Población: Ahora bien, en el ámbito de la estadística resulta preferible definir la población de un modo más operativo a partir del problema o cuestión que se pretende resolver mediante el análisis estadístico; en este sentido, la cuestión de interés habitualmente se expresa en términos de algunas variables y de las relaciones entre éstas. La población sería entonces el conjunto de posibles valores que pueden adoptar dichas variables en el contexto del problema que nos hemos planteado.
Elementos de muestreo: es el conjunto de objetos o sujetos sobre los cuáles es posible obtener mediciones de la variable de interés.
Unidades de muestreo: conjuntos disjuntos de elementos de muestreo.
Si, por ejemplo, la variable de interés es la proporción de cuarzo en la composición de la arena de las playas españolas, la población es el conjunto de posibles valores que puede tomar dicha proporción en esas playas. Si para medir dicha proporción es necesario disponer de una cantidad mínima de 10 cc de arena, los elementos de muestreo serían todas las porciones de 10 cc. de arena que se podrían extraer de las playas españolas; cada playa particular podría considerarse una unidad de muestreo (que a su vez puede estar inscrita en una unidad de muestreo mayor que puede ser la provincia o comunidad autónoma en la que se encuentra la playa).
Marco de muestreo: Listado de todas las unidades de muestreo.
Una muestra se define como un conjunto de elementos de muestreo seleccionados entre las unidades muestrales del marco de referencia. Si los elementos de la muestra se eligen al azar, la muestra es aleatoria.
Ejemplo: Se desea estimar el número de árboles que padecen cierta enfermedad en un bosque. Si el bosque es grande resulta poco práctico (o directamente imposible) evaluar el estado particular de cada árbol. En este caso, la población estaría constituida por el conjunto de valores \(\{0,1\}\) (sano/enfermo) medidos sobre cada uno de los árboles del bosque; cada árbol constituye un elemento muestral; si en el bosque es posible distinguir zonas, cada una de ellas sería una unidad de muestreo; el marco de muestreo sería en este caso el conjunto de todas las zonas que componen el bosque. Para tomar una muestra de árboles que nos permita estimar la proporción de árboles enfermos en el bosque podemos seguir varios procedimientos:
Seleccionar al azar un conjunto de árboles del bosque.
Trazar una ruta que recorra el bosque de manera sistemática, seleccionando de manera equiespaciada árboles a lo largo de dicha ruta, tal como se muestra en la figura siguiente:
Dividir el bosque en un número determinado de zonas (por ejemplo de media hectárea de extensión), y escoger al azar un número determinado de árboles en cada zona. En todas las zonas no ha de escogerse necesariamente el mismo número de árboles.
Dividir el bosque en un número determinado de zonas, escoger al azar unas cuantas de dichas zonas y en cada zona evaluar todos los árboles que contiene.
Dividir el bosque en un número determinado de zonas, escoger al azar unas cuantas de dichas zonas y en cada zona escoger al azar unos cuantos árboles.
La elección de un procedimiento u otro dependerá de la distribución geográfica de los árboles. En los gráficos mostrados más arriba, los árboles estaban distribuidos de manera uniforme sobre el terreno, pero la distribución puede ser distinta dependiendo de accidentes geográficos (pendientes, barrancos, ríos) o del efecto antrópico (construcción de casas, terrenos despejados para plantar, etc):
La pieza clave para el diseño de un plan de muestreo es la selección del estimador a emplear.
Definición: Dado un parámetro \(\theta\) característico de una población, y una muestra aleatoria \(X_{1},X_{2},\dots,X_{n}\) de la misma, se llama estimador de \(\theta\) a cualquier función de la muestra, \(\hat{\theta}=\hat{\theta}\left(X_{1},X_{2},...,X_{n}\right)\), cuyos valores se aproximen a \(\theta\).
(Revisar estas propiedades en la guía de estadística de segundo curso)
Ejercicio: Estudia, mediante simulación, las propiedades anteriores en los estimadores de la media \(\mu\) de una distribución normal, el parámetro \(\lambda\) de una distribución de Poisson y la proporción \(\pi\) de una distribución binomial. Para ello:
Fija el valor del parámetro (por ejemplo \(\mu=10\), \(\lambda=3\), \(\pi=0.3\)).
Simula 1000 muestras de tamaño \(n=10\) de la distribución de referencia.
Estima el parámetro en cada muestra.
Calcula la media y varianza de los valores estimados en las 1000 muestras.
Repite con \(n=50\), \(n=100\) y \(n=500\). Comprueba que a medida que el tamaño de la muestra aumenta, disminuye la varianza y es cada vez más probable que el valor estimado esté más cerca del parámetro poblacional.
La media poblacional \(\mu\) se estima mediante la media muestral:
\[{\overline{x}}={\frac{1}{n}\sum\limits _{i=1}^{n}{X_{i}}}\]
Es un estimador centrado de la media poblacional: \[E\left[{\bar{X}}\right]=E\left[{\frac{1}{n}\sum\limits _{i=1}^{n}{X_{i}}}\right]=\frac{1}{n}E\left[{\sum\limits _{i=1}^{n}{X_{i}}}\right]=\frac{1}{n}\sum\limits _{i=1}^{n}{E\left[{X_{i}}\right]}=\frac{1}{n}n\mu=\mu\]
Cuando la población que se muestrea es infinita, la varianza de la media muestral es: \[Var\left(\overline{X}\right)=\frac{1}{n}\sigma^{2}\]
En la práctica la varianza poblacional \(\sigma^2\) no se conoce por lo que debe estimarse mediante la varianza muestral: \[s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{X}\right)^{2}\].
La raíz cuadrada de la varianza muestral es el error típico de la media, que se estima sustituyendo la varianza poblacional por su estimador muestral: \[s_{\overline{x}}=\frac{s}{\sqrt{n}}\]
La raiz cuadrada de esta cantidad es el error típico de la media, y como \(\sigma\) no se conoce, se sustituye por su estimador \(s\sqrt{\frac{N-1}{N}}\). Así pues, el error típico de la media en la práctica se estima mediante: \[s_{\overline{x}}=\frac{s}{\sqrt{n}}\sqrt{1-\frac{n}{N}}\]
donde \(s_{\overline{x}}\) viene dada por alguna de las expresiones anteriores según que la población sea finita o infinita.
En la práctica, si la población que se muestrea no sigue una distribución normal, el intervalo anterior sigue siendo válido asintóticamente (lo que significa que solo vale si la muestra es suficientemente grande).
Supongamos que la talla de los sujetos de una población sigue una distribución normal de media \(\mu=18 cm\) y desviación típica \(\sigma=2 cm\). En la práctica no conocemos estos valores, así que deberíamos estimarlos. El siguiente código R permite obtener una muestra de tamaño n, y utilizarla para estimar la media de la población y construir un intervalo de confianza al 95% para dicho valor:
simulaMuestreo=function(n){
muestra=rnorm(n,18,2) # Generación de una muestra aleatoria
media=mean(muestra) # Media de la muestra
se=sd(muestra)/sqrt(n) # Error típico de la media
inf=media-qt(0.975,n)*se # Extremo inferior del intervalo al 95%
sup=media+qt(0.975,n)*se # Extremo superior del intervalo al 95%
return(c(media=media,inf=inf,sup=sup))
}
simulaMuestreo(10)
## media inf sup
## 17.65677 16.57998 18.73355
simulaMuestreo(100)
## media inf sup
## 17.79165 17.39162 18.19168
Podemos utilizar esta función para tomar 10000 muestras de tamaño 10:
simulaciones=t(replicate(10000,simulaMuestreo(10)))
Mostramos las 6 primeras simulaciones:
head(simulaciones)
## media inf sup
## [1,] 18.32114 16.93575 19.70653
## [2,] 18.62411 17.84769 19.40053
## [3,] 18.76211 17.59664 19.92757
## [4,] 18.45579 15.83099 21.08059
## [5,] 17.60110 15.78274 19.41947
## [6,] 18.33967 16.89425 19.78509
Podemos comprobar que el estimador es centrado:
mean(simulaciones[,"media"])
## [1] 17.99134
y que la varianza de la media muestral coincide con \(\frac{\sigma^2}{n}=\frac{2^2}{10}=0.4\):
var(simulaciones[,"media"])
## [1] 0.3989237
Comprobamos cuantos intervalos contienen al parámetro (el verdadero valor de la media, en este caso 18):
contiene=apply(simulaciones,1,function(fila) if (18>=fila[2]&18<=fila[3]) return(1) else return(0))
sum(contiene)
## [1] 9489
Como hemos construido 10000 intervalos, la proporción de intervalos que contienen a la verdadera media es:
sum(contiene)/10000
## [1] 0.9489
lo que significa que el procedimiento está funcionando tal como se esperaba (aproximadamente el 95% de los intervalos de confianza contienen al verdadero valor del parámetro)
¿Qué ocurre si repetimos este ejemplo, pero la variable que se muestrea no es normal? Por ejemplo, supongamos que la velocidad del viento entre las 6 y las 11 de la mañana en cierto lugar sigue una distribución de Weibull de parámetros 1.3 y 16. Podemos simular un registro de velocidades de viento en esta zona mediante:
velocidad=rweibull(10000,1.3,16)
hist(velocidad)
Como vemos, esta variable tiene una distribución muy asimétrica. Una muestra muy, muy, muy grande, nos daría un valor muy próximo a la velocidad media poblacional:
mu=mean(rweibull(1000000,1.3,16))
mu
## [1] 14.7815
Un valor muy próximo a la varianza poblacional puede obtenerse de igual modo:
sigma2=var(rweibull(1000000,1.3,16))
sigma2
## [1] 131.706
Repitamos el procedimiento anterior tomando muchas muestras de tamaño 10:
simulaMuestreoWeibull=function(n){
muestra=rweibull(n,1.3,16) # Generación de una muestra aleatoria
media=mean(muestra) # Media de la muestra
se=sd(muestra)/sqrt(n) # Error típico de la media
inf=media-qt(0.975,n)*se # Extremo inferior del intervalo al 95%
sup=media+qt(0.975,n)*se # Extremo superior del intervalo al 95%
return(c(media=media,inf=inf,sup=sup))
}
simulaciones=t(replicate(10000,simulaMuestreoWeibull(10)))
Mostramos las 6 primeras simulaciones:
head(simulaciones)
## media inf sup
## [1,] 14.704615 6.7415986 22.66763
## [2,] 13.295631 4.3050072 22.28625
## [3,] 9.746809 0.5007169 18.99290
## [4,] 18.617874 10.0819194 27.15383
## [5,] 19.600809 7.3999510 31.80167
## [6,] 17.461889 9.5383629 25.38541
Podemos comprobar que el estimador es centrado:
mean(simulaciones[,"media"])
## [1] 14.78204
y que la varianza de la media muestral coincide aproximadamente con \(\frac{\sigma^2}{n}\)
sigma2/10
## [1] 13.1706
var(simulaciones[,"media"])
## [1] 13.46813
Comprobamos ahora cuantos intervalos contienen al parámetro (el verdadero valor de la media, en este caso 14.782):
contiene=apply(simulaciones,1,function(fila) if (mu>=fila[2]&mu<=fila[3]) return(1) else return(0))
sum(contiene)
## [1] 9170
Como hemos construido 10000 intervalos, la proporción de intervalos que contienen a la verdadera media es:
sum(contiene)/10000
## [1] 0.917
que como vemos es inferior al nivel de confianza nomimal del 95% que habíamos especificado. Así pues, cuando la distribución de la variable de interés es acusadamente no normal y la muestra es pequeña, la fórmula anterior para el intervalo de confianza no vale.
Si la muestra fuera mayor, de tamaño 50 por ejemplo, vemos que los intervalos vuelven a “funcionar bien”: aproximadamente un 95% de los intervalos ya contienen al verdadero valor de la media.
simulaciones=t(replicate(10000,simulaMuestreoWeibull(50)))
contiene=apply(simulaciones,1,function(fila) if (mu>=fila[2]&mu<=fila[3]) return(1) else return(0))
sum(contiene)/10000
## [1] 0.943
NOTA: para muestras pequeñas y distribuciones no normales, los intervalos pueden construirse mediante metodología bootstrap.
Puede deducirse despejando \(n\) de la expresión del intervalo de confianza si se especifica previamente el error \(\epsilon\) que estamos dispuestos a asumir (con una confianza 1-\(\alpha\)) en la estimación de la media; dicho de otro modo, dado que el error está dado por la mitad de la amplitud del intervalo, habremos de despejar \(n\) de:
\[ t_{n-1,\alpha/2}s_{\overline{x}}=\epsilon\]
(utilizando el valor de \(s_{\overline{x}}\) adecuado, según que la población sea finita o infinita).
Nótese que en la expresión anterior, el valor de $ t_{n-1,/2}$ depende de \(n\). Para evitar una ecuación recurrente, este valor se sustituye habitualmente por el percentil correspondiente de la distribución normal, \(z_{\alpha/2}\). Ambos valores prácticamente coinciden para \(n\) grande, y para valores de \(n\) pequeños son lo suficientemente parecidos para que el impacto sobre el cálculo del tamaño muestral no sea muy grande.
Volvamos al ejemplo de más arriba, y supongamos que queremos estimar el número total de árboles enfermos en el bosque. Podemos hacerlo de manera muy simple si suponemos que la distribución de árboles es uniforme sobre el territorio, y que la distribución de los árboles enfermos es también uniforme (no depende de la localización particular de cada árbol). Supongamos que dividimos el bosque en \(N\) rectángulos disjuntos. Si llamamos \(X_i\) al número de árboles enfermos en el rectángulo \(i\), el número medio de árboles enfermos por rectángulo sería:
\[\mu=\frac{1}{N}\sum_{i=1}^{N}X_{i}\]
El número total de árboles enfermos en el bosque sería, obviamente:
\[T=\sum_{i=1}^{N}X_{i}=N\cdot\mu\]
El valor de \(\mu\) puede estimarse mediante la media muestral \(\overline{X}\) del número de árboles enfermos en una muestra de \(n\) rectángulos: \[\hat{\mu}=\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}\] por lo que una estimación del total de árboles enfermos sería simplemente: \[\hat{T} = N\cdot\hat{\mu} = N\cdot\overline{X}\] La varianza de este estimador sería entonces: \[Var\left(\hat{T}\right)=Var\left(N\overline{X}\right)=N^{2}Var\left(\overline{X}\right)=N^{2}\frac{\sigma^{2}}{n}\left(1-\frac{n}{N}\right)\] y el error típico: \[s_{\hat{T}}=\sqrt{Var\left(\hat{T}\right)}=N\frac{\sigma}{\sqrt{n}}\sqrt{1-\frac{n}{N}}\]. En la práctica habrá de sustituirse el valor de \(\sigma\) por su estimador muestral \(s\). El intervalo de confianza para el total poblacional tiene la misma expresión que el intervalo para la media salvo que en lugar de \(s_{\overline{X}}\) utilizaremos \(s_{\hat{T}}\)
Ejercicio: deducir el tamaño de muestra necesario para estimar un total poblacional con un error inferior a un valor preespecificado \(\epsilon\)