class: center, middle, inverse, title-slide # Tema 4: Inferencia Estadística I. Estimación Puntual. ###
Estadística. Grado en Ciencias del Mar --- <!-- Este script es para mostrar valores tachados en una fórmula. Se describe en esta web:--> <!-- http://docs.mathjax.org/en/latest/tex.html --> <script type="text/x-mathjax-config"> MathJax.Hub.Register.StartupHook("TeX Jax Ready",function () { MathJax.Hub.Insert(MathJax.InputJax.TeX.Definitions.macros,{ cancel: ["Extension","cancel"], bcancel: ["Extension","cancel"], xcancel: ["Extension","cancel"], cancelto: ["Extension","cancel"] }); }); </script> ## Concepto de inferencia estadística La .blue[ __inferencia estadística__] es el proceso mediante el cual se extienden o generalizan a una .blue[población] las conclusiones o resultados obtenidos a partir de la información proporcionada por una .blue[muestra] de la misma. -- <br> ## Objetivos de la inferencia estadística 1. .blue[ __Estimación de parámetros:__] obtener valores aproximados de los parámetros que caracterizan el comportamiento de las variables de interés en la población. 2. .blue[ __Contraste de hipótesis:__] decidir sobre la validez o no de hipótesis relativas a alguna característica de la población. --- ## Población y muestra * En la práctica, la inferencia se realiza sobre .blue[ __variables__] (peso, talla, temperatura, concentración, velocidad, ...) que se miden en los elementos que componen la población. -- * Por tanto cuando hablamos de caracterizar una población, en realidad nos referimos a caracterizar las variables de interés; y caracterizar una variable significa conocer en qué forma se reparten o distribuyen sus valores; en otras palabras, .blue[ _conocer su distribución de probabilidad_]. -- * Para ello utilizamos la información que aporta una .blue[ _muestra aleatoria_], definida como un conjunto de observaciones _independientes_ `\(X_1, X_2, \dots, X_n\)` de la variable de interés. --- ## ¿De verdad una muestra informa sobre una población? * .blue[ __Función de distribución empírica:__] Dada una muestra aleatoria `\(X_{1},\ldots,X_{n}\)`, se define la función de distribución empírica: `$$\hat{F}_{n}\left(x\right)=\textrm{proporción de valores menores o iguales que } x \textrm{ en la muestra}$$` -- <br> * .blue[ __Teorema de Glivenko-Cantelli:__] Sea `\(X_{1},\ldots,X_{n}\)` una muestra aleatoria de una variable aleatoria `\(X\)` con función de distribución `\(F\left(x\right)\)`, y sea `\(\hat{F}_{n}\left(x\right)\)` la función de distribución empírica de la muestra. Entonces para cualquier valor x se verifica, a medida que `\(n\rightarrow\infty\)`: `$$E\left[\left(\hat{F}_{n}\left(x\right)-F\left(x\right)\right)^{2}\right]\rightarrow0$$` -- <br> * Por tanto a medida que aumenta el tamaño de la muestra, su distribución empírica se va asemejando cada vez más a la distribución de la variable de interés `\(\Rightarrow\)` Efectivamente la muestra _informa_ sobre la población. --- ## Inferencia estadística paramétrica * Cuando la variable `\(X\)` sobre la que deseamos realizar inferencias tiene una función de distribución caracterizada por un vector de parámetros `\(\theta = \left(\theta_1,\dots,\theta_k\right)\)`, nuestro primer problema suele ser determinar un valor aproximado de `\(\theta\)`. -- * El proceso por el cuál se obtiene dicho valor aproximado se llama .blue[ _estimación_]. Un .blue[ _estimador puntual_] es una función de la muestra que produce valores próximos al parámetro que se desea conocer. -- * ¿Cómo se construye un estimador? -- + Método de analogía + Método de los momentos + Método de máxima verosimilitud --- ### ¿Cómo se construye un estimador? * .blue[ __Método de analogía:__] El parámetro poblacional se estima mediante su análogo en la muestra: la media poblacional se estima mediante la media muestral, la proporción en la población mediante la proporción en la muestra, ... -- * .blue[ __Método de los momentos:__] El parámetro se expresa como función de los momentos (media, varianza, ... de la población) y se estima mediante la misma función evaluada a partir de los momentos análogos (media, varianza, ...) de la muestra. -- * __Ejemplo:__ en la distribución `\(Gamma\left(\alpha,\beta\right)\)` se tiene que `\(\mu=\frac{\alpha}{\beta}\)` y `\(\sigma^2=\frac{\alpha}{\beta^2}\)`. Por tanto: `$$\beta=\frac{\mu}{\sigma^{2}}\Rightarrow\hat{\beta}=\frac{\overline{x}}{s^{2}}$$` `$$\alpha=\mu\beta\Rightarrow\hat{\alpha}=\overline{x}\frac{\overline{x}}{s^{2}}=\frac{\overline{x}^{2}}{s^{2}}$$` --- ### ¿Cómo se construye un estimador? * .blue[ __Método de analogía:__] El parámetro poblacional se estima mediante su análogo en la muestra: la media poblacional se estima mediante la media muestral, la proporción en la población mediante la proporción en la muestra, ... * .blue[ __Método de los momentos:__] El parámetro se expresa como función de los momentos (media, varianza, ... de la población) y se estima mediante la misma función evaluada a partir de los momentos análogos (media, varianza, ...) de la muestra. * .blue[ __Método de máxima verosimilitud:__] El parámetro se estima mediante aquel valor que maximiza _a priori_ la probabilidad de observar la muestra que se ha observado. -- <br> .resalta[ __Los distintos procedimientos pueden dar lugar a distintos estimadores para un mismo parámetro__ ] --- background-image: url(http://estadistica-dma.ulpgc.es/estadFCM/imagenes/carcinus-maenas.jpg) background-size: 200px background-position: 90% 2% ## .blue[Ejemplo] El abdomen del cangrejo de mar común (Carcinus maenas) está integrado por siete segmentos dispuestos paralelamente. En los machos se suelen apreciar fusiones entre los segmentos 3, 4 y 5. Se considera la variable aleatoria X=”Número de segmentos fusionados”. Esta variable puede tomar los valores 0 (ninguna fusión), 1 (se fusionan los segmentos 3 y 4, ó el 4 y 5), y 2 (se fusionan los tres segmentos entre sí). A través de diversas consideraciones sobre la genética de esta población de cangrejos, se llega a la conclusión de que las probabilidades asociadas a esta variable son de la forma: -- `$$P\left(X=0\right)=\frac{a-1}{a\left(a+1\right)}\,\,\,\,\,P\left(X=1\right)=\frac{a-1}{a+1}\,\,\,\,\, P\left(X=2\right)=\frac{1}{a},\,\,\,\,a>1$$` -- En una muestra de 100 cangrejos se han encontrado 18 sin fusiones, 43 que presentan una fusión y 39 que presentan dos fusiones. Utilizar esta información para obtener un valor aproximado de `\(a\)`: a) Por analogía b) Por el método de los momentos. c) Por el método de máxima verosimilitud. --- ## .red[Método de analogía] .resalta[ El .blue[ __método de analogía__] consiste en expresar el parámetro como función de alguna operación numérica realizada con valores de la población, y calcular el estimador analógico como el resultado de aplicar _esa misma función_ a los valores medidos en la muestra. ] -- ### .blue[Ejemplo] En el ejemplo de los cangrejos se tiene que: `$$P\left(X=2\right)=\frac{1}{a} \rightarrow a=\frac{1}{P\left(X=2\right)}$$` -- Por tanto, si `\(p_2\)` es la __proporción de cangrejos con dos fusiones en la muestra__, el estimador analógico de `\(a\)` es: `$$\hat{a} = \frac{1}{p_2}$$` --- ## .red[Método de analogía] En nuestra muestra de 100 cangrejos hay 18 sin fusiones, 43 con una fusión y 39 con dos fusiones. Por tanto: `$$p_0=\frac{18}{100}=0.18\;\;\;\;\;\;\;\;p_1=\frac{43}{100}=0.43\;\;\;\;\;\;\;\;p_2=\frac{39}{100}=0.39$$` -- y el valor estimado de `\(a\)` es: `$$\hat{a}=\frac{1}{0.39}=2.5641$$` -- <br> .resalta[ Nótese que un __estimador analógico__ es una .red[__función de la muestra__]. Una vez que la función se aplica y se obtiene un valor, éste es el .blue[ _valor estimado del parametro_]. ] <br> .resalta[ Por tanto, __distintas muestras__ darán lugar a __distintos valores estimados.__ ] --- ## .red[Método de analogía] Nótese que también podíamos haber argumentado que como: $$P\left(X=1\right)=\frac{a-1}{a+1}\Rightarrow (a+1)P\left(X=1\right)=a-1\Rightarrow $$ `$$\Rightarrow P(X=1)+1=a-aP(X=1)$$` -- de donde: `$$a=\frac{1+P(X=1)}{1-P(X=1)}$$` -- y por tanto .red[ __otro__] estimador analógico .red[ __del mismo__] parámetro `\(a\)` es: `$$\hat{a}=\frac{1+p_1}{1-p_1}$$` -- que en nuestro caso vale: `$$\hat{a}=\frac{1+0.43}{1-0.43}=\frac{1.43}{0.57}=2.5088$$` --- ## .red[Método de analogía] También podíamos haber despejado `\(a\)` de: `$$P\left(X=0\right)=\frac{a-1}{a\left(a+1\right)}\Rightarrow (a^2+a)P(X=0)=a-1\Rightarrow$$` `$$\Rightarrow P(X=0)a^2 - \left(1-P(X=0)\right)a+1 =0 \Rightarrow$$` `$$a=\frac{\left(1-P\left(X=0\right)\right)\pm\sqrt{\left(1-P\left(X=0\right)\right)^{2}-4P\left(X=0\right)}}{2P\left(X=0\right)}$$` -- El estimador analógico sería entonces: `$$\hat{a}=\frac{\left(1-p_{0}\right)\pm\sqrt{\left(1-p_{0}\right)^{2}-4p_{0}}}{2p_{0}}$$` Esta ecuación no siempre tiene solución; y cuando la tiene produce dos valores de `\(\hat{a}>1\)` --- ## .red[Método de analogía] En nuestro ejemplo, como `\(p_0=0.18\)` tenemos: `$$\hat{a}=\frac{0.82\pm\sqrt{0.82^2-4\cdot0.18}}{2\cdot 0.18}$$` que no tiene solución porque el término dentro de la raíz es negativo. --- ## .red[Método de los momentos] * Se define el .blue[ __momento__] de orden `\(k\)` de una variable aleatoria `\(X\)` como: `$$\mu_k=E\left[X^k\right]$$` -- * Asimismo se define el .blue[ __momento muestral__] de orden `\(k\)` de una muestra `\(X_1,X_2,\dots, X_n\)` como: `$$m_{k}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{k}$$` -- .resalta[ El .blue[ __método de los momentos__] consiste en expresar el parámetro como función de uno o varios momentos `\(\mu_k\)` de la variable aleatoria y estimarlo como la misma función evaluada sobre los momentos muestrales correspondientes: `$$\theta=f\left(\mu_{1},\mu_{2},\dots,\mu_{r}\right)\Rightarrow\hat{\theta}=f\left(m_{1},m_{2},\dots,m_{r}\right)$$` ] --- ## .red[Método de los momentos] El momento de primer orden es la esperanza, que en nuestro ejemplo es: `$$\mu=E\left[X\right]=0\cdot P\left(X=0\right)+1\cdot P\left(X=1\right)+2\cdot P\left(X=2\right)=$$` `$$=\frac{a-1}{a+1}+2\frac{1}{a}=\frac{a\left(a-1\right)+2\left(a+1\right)}{a\left(a+1\right)}=\frac{a^{2}+a+2}{a^2+a}$$` -- Por tanto: `$$a^{2}+a+2=\mu\left(a^2+a\right)\Rightarrow\left(\mu-1\right)a^{2}+\left(\mu-1\right)a-2=0$$` -- y de aquí podemos despejar `\(a\)`: `$$a=\frac{-\left(\mu-1\right)\pm\sqrt{\left(\mu-1\right)^{2}+8\left(\mu-1\right)}}{2(\mu-1)}=\frac{-\left(\mu-1\right)\pm\sqrt{\left(\mu-1\right)\left(\mu+7\right)}}{2(\mu-1)}$$` -- Para que `\(a>1\)` tomamos la raíz positiva: `$$a=\frac{-\left(\mu-1\right)+\sqrt{\left(\mu-1\right)\left(\mu+7\right)}}{2(\mu-1)}$$` (nótese que `\(\mu=\frac{a^{2}+a+2}{a^2+a}>1\)`) --- ## .red[Método de los momentos] El estimador por el método de los momentos de `\(a\)` se obtiene sustituyendo el momento `\(\mu\)` (la esperanza) por su homólogo muestral `\(\bar{x}\)` (la media muestral): `$$\hat{a}=\frac{-\left(\overline{x}-1\right)+\sqrt{\left(\overline{x}-1\right)\left(\overline{x}+7\right)}}{2(\overline{x}-1)}$$` -- En nuestro ejemplo, el número medio de fusiones en el abdomen de la muestra de cangrejos es: `$$\overline{x}=\frac{0\cdot18+1\cdot43+2\cdot39}{100}=\frac{121}{100}=1.21$$` -- y por tanto: `$$\hat{a}=\frac{-0.21+\sqrt{0.21\cdot8.21}}{2\cdot0.21}=2.6262$$` -- Nótese que aunque `\(\mu>1\)`, en alguna muestra podría ocurrir que `\(\bar{x}<1\)` y en tal caso el estimador anterior no podría calcularse. --- ## .red[Método de máxima verosimilitud] .resalta[ El .blue[ __estimador de máxima verosimilitud__] se obtiene como aquel valor del parámetro que maximiza _a priori_ la probabilidad de observar la muestra que se ha observado _de facto_. ] -- <br> En nuestro ejemplo, si se toma una muestra aleatoria de `\(n\)` cangrejos, a priori la probabilidad de que `\(n_0\)` no tengan fusiones, `\(n_1\)` tengan una fusión y `\(n_2\)` tengan dos fusiones sería: `$$L\left(a\right)=\frac{n!}{n_{0}!n_{1}!n_{2}!}\pi_{0}^{n_{0}}\pi_{1}^{n_{1}}\pi_{2}^{n_{2}}=\frac{n!}{n_{0}!n_{1}!n_{2}!}\left(\frac{a-1}{a\left(a+1\right)}\right)^{n_{0}}\left(\frac{a-1}{a+1}\right)^{n_{1}}\left(\frac{1}{a}\right)^{n_{2}}$$` <br> Esta función se denomina .red[__función de verosimilitud__]. --- ## .red[Método de máxima verosimilitud] Para obtener el valor de `\(a\)` es el valor que maximiza esta probabilidad podríamos derivar respecto de `\(a\)` e igualar a 0. .blue[ __¡Complicado!__] -- Si tenemos en cuenta que el lugar donde una función alcanza el máximo es el mismo que donde lo alcanza su logaritmo, .blue[ __maximizar la función anterior es equivalente a maximizar su logaritmo__]. -- El logaritmo de la verosimilitud en nuestro ejemplo es: `$$l\left(a\right) =\log\left(\frac{n!}{n_{0}!n_{1}!n_{2}!}\left(\frac{a-1}{a\left(a+1\right)}\right)^{n_{0}}\left(\frac{a-1}{a+1}\right)^{n_{1}}\left(\frac{1}{a}\right)^{n_{2}}\right)=$$` `$$=\log\left(\frac{n!}{n_{0}!n_{1}!n_{2}!}\right)+n_{0}\left[\log\left(a-1\right)-\log\left(a\right)-\log\left(a+1\right)\right]+$$` `$$+n_{1}\left[\log\left(a-1\right)-\log\left(a+1\right)\right]-n_{2}\log\left(a\right)$$` -- Esta función se denomina .red[ __log-verosimilitud__] y su derivada es normalmente sencilla de calcular. --- ## .red[Método de máxima verosimilitud] Simplificando: `$$l\left(a\right)=\log\left(\frac{n!}{n_{0}!n_{1}!n_{2}!}\right)+\left(n_{0}+n_{1}\right)\log\left(a-1\right)-$$` `$$-\left(n_{0}+n_{2}\right)\log\left(a\right)-\left(n_{0}+n_{1}\right)\log\left(a+1\right)$$` -- Ahora es fácil derivar, igualar a cero y despejar: `$$l'\left(a\right)=\frac{n_{0}+n_{1}}{a-1}-\frac{n_{0}+n_{2}}{a}-\frac{n_{0}+n_{1}}{a+1}=0$$` -- `$$\left(n_{0}+n_{1}\right)\left(a^{2}+a\right)-\left(n_{0}+n_{2}\right)\left(a^{2}-1\right)-\left(n_{0}+n_{1}\right)\left(a^{2}-a\right)=0$$` `$$-\left(n_{0}+n_{2}\right)a^{2}+2\left(n_{0}+n_{1}\right)a+\left(n_{0}+n_{2}\right)=0$$` `$$a=\frac{-2\left(n_{0}+n_{1}\right)\pm\sqrt{4\left(n_{0}+n_{1}\right)^{2}+4\left(n_{0}+n_{2}\right)^{2}}}{-2\left(n_{0}+n_{2}\right)}$$` --- ## .red[Método de máxima verosimilitud] Simplificando, el estimador de máxima verosimilitud (MV) es: `$$\hat{a}=\frac{n_{0}+n_{1}}{n_{0}+n_{2}}\pm\sqrt{1+\left(\frac{n_{0}+n_{1}}{n_{0}+n_{2}}\right)^{2}}$$` -- Como debe ocurrir que `\(\hat{a}>1\)`, tomamos solamente la raíz positiva: `$$\hat{a}=\frac{n_{0}+n_{1}}{n_{0}+n_{2}}+\sqrt{1+\left(\frac{n_{0}+n_{1}}{n_{0}+n_{2}}\right)^{2}}$$` -- En nuestro ejemplo `\(n_0=18\)`, `\(n_1=43\)` y `\(n_2=39\)`. Por tanto: `$$\hat{a}=\frac{18+43}{18+39}+\sqrt{1+\left(\frac{18+43}{18+39}\right)^{2}}=\frac{61}{57}+\sqrt{1+\left(\frac{61}{57}\right)^2}=2.5349$$` --- ## .red[Método de máxima verosimilitud] En el caso particular de que `\(n_1=n\)`, entonces `\(n_0+n_2=0\)`, y el estimador anterior resulta ser `\(\hat{a}=\infty\)` -- Este resultado era esperable, pues si `\(n_1=n\)` ello significa que todos los cangrejos tenían una única fusión y la función de verosimilitud quedaría reducida a: `$$L(a)=P\left(X=1\right)^{n_1}=\left(\frac{a-1}{a+1}\right)^{n_{1}}$$` -- Es fácil comprobar que esta función es estrictamente creciente para `\(a>1\)`; por tanto su máximo se alcanza para `\(\hat{a}=\infty\)`, lo que implica que: `$$\hat{P}\left(X=1\right)=\underset{a\rightarrow\infty}{\lim}\frac{a-1}{a+1}=1$$` es decir, si todos los cangrejos observados tienen una fusión, nuestra mejor estimación es que la probabilidad de tener una sola fusión es 1. --- ## .red[Método de máxima verosimilitud] .resalta[ .blue[ __PROBLEMA:__] ¿Cuál es el mejor estimador de todos los que hemos obtenido? ] <br> -- * Los estimadores analógicos no utilizan toda la información de la muestra: nuestros tres estimadores, o utilizan sólo `\(p_0\)`, o sólo `\(p_1\)` o sólo `\(p_2\)` -- * El estimador por el método de los momentos no es calculable si `\(\bar{x}<1\)` -- * En nuestro ejemplo el estimador MV utiliza toda la información de la muestra y puede calcularse siempre. -- <br> En general se suele preferir el método de máxima verosimilitud porque tiene varias propiedades que lo hacen particularmente interesante. --- ## Propiedades de los estimadores MV: Los estimadores de máxima verosimilitud son preferibles a los estimadores obtenidos por analogía o por el método de los momentos (en algunos casos los estimadores obtenidos por los distintos métodos coinciden, aunque no ocurre así en general), ya que gozan de mejores propiedades: * .blue[ __Consistencia:__] los estimadores MV son consistentes, esto es, a medida que aumenta el tamaño de la muestra es más probable que el valor del estimador esté cada vez más próximo al valor del parámetro. * .blue[ __Eficiencia:__] Si `\(\hat{\theta}\)` es un estimador de un parámetro `\(\theta\)`, el error cuadrático medio se define como `\(ECM\left[\hat{\theta}\right]=E\left[\left(\hat{\theta}-\theta\right)^2\right]\)`. A medida que aumenta el tamaño de muestra, los estimadores MV tienen el menor error cuadrático medio de entre los estimadores posibles (en otras palabras, los estimadores MV tienden a producir, en promedio, valores más próximos al verdadero valor del parámetro `\(\theta\)` que otros estimadores). * .blue[ __Normalidad asintótica:__] a medida que aumenta el tamaño de la muestra, los estimadores MV tienden a tener distribución normal. Esta propiedad permite construir intervalos de confianza.