class: center, middle, inverse, title-slide # Tema 6. Contrastes de hipótesis: Ejemplos ###
Estadística. Grado en Ciencias del Mar --- # Ejemplo 1. Contraste sobre una media .pull-left[ Numerosos estudios muestran que la profundidad media de los nidos de Caretta caretta en playas arenosas en condiciones normales es de 55 cm. Una profundidad mayor indicaría algún tipo de alteración en el comportamiento de esta especie (causado por la presencia de humanos en los alrededores, de cangrejos en los nidos, ...). En la playa de Ervatao se midieron 92 nidos durante una campaña, siendo la profundidad media de 58.43 cm. y la desviación típica 5.4 cm. ¿Muestran estos datos evidencia suficiente de que los nidos en esta playa son en media más profundos de lo que cabe esperar en condiciones normales? ] .pull-right[ ![](imagenes/nidoTortuga.jpg) {{content}} ] -- <br><br> `$$\begin{cases} H_{0}: & \mu=55\\ H_{1}: & \mu>55 \end{cases}$$` --- ### .blue[Ejemplo 1. Solución.] El contraste que se plantea es: `$$\begin{cases} H_{0}: & \mu=55\\ H_{1}: & \mu>55 \end{cases}$$` -- Los valores observados han sido `\(\bar{x}=58.43\)`, `\(s=5.4\)`, n=92. -- En la tabla resumen de contrastes encontramos que el estadístico de contraste a emplear en este caso es: `$$t_{exp}=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}=\frac{58.43-55}{5.4/\sqrt{92}}=6.091$$` siendo la regla de decisión `\(\bbox[#ffff80]{\textrm{Rechazar}\,H_{0}\,\,\textrm{si}\,\,t_{exp}>t_{n-1,\alpha}}\)` -- .resalta[ Como `\(t_{n-1,\alpha}=t_{91,0.05}=1.66\)`, resulta que `\(t_{exp}>t_{n-1,\alpha}\)`, y por tanto .blue[ __concluímos que hay evidencia suficiente para rechazar__] `\(\boldsymbol{H_{0}}\)` ] --- ### .blue[Ejemplo 1. Solución] #### Explicación detallada * Si `\(H_0\)` es cierta, entonces el estadístico `\(t_{exp}=\frac{\overline{x}-55}{s/\sqrt{n}}\)` sigue una distribución `\(t\)` de Student con `\(n-1\)` grados de libertad. -- * Dada la hipótesis alternativa que se plantea ( `\(\mu>55\)` ), la hipótesis nula de que `\(\mu=55\)` deberá rechazarse si la media observada `\(\bar{x}\)` supera al valor 55 por más de lo que cabría esperar por azar. -- * Ello es equivalente a decir que `\(H_0\)` debe rechazarse si `\(t_{exp}\)` es más grande que lo que cabe esperar por azar. -- * Ahora bien, el valor más grande de `\(t_{exp}\)` que puede esperarse por azar con probabilidad 0.95 es `\(t_{n-1,\alpha}=t_{91,0.05}=1.66\)` -- * Como en nuestro caso ha ocurrido que `\(t_{exp}>t_{n-1,\alpha}\)` concluimos que el resultado observado es muy poco probable que se deba al azar, y por tanto tenemos evidencia suficiente para rechazar `\(H_0\)`. --- ### .blue[Ejemplo 1. Solución con R.] __`1.`__ Leemos los datos: ```r library(readxl) tortugas <- read_excel("datos/datosP1Aula.xlsx") ``` -- __`2.`__ Seleccionamos las tortugas de Ervatao: ```r ervatao <- subset(tortugas,playa=="Ervatao") ``` -- __`3.`__ Realizamos el contraste: ```r t.test(ervatao$profNido,mu=55,alternative="greater",data=ervatao) ``` --- ### .blue[Ejemplo 1. Solución con R.] El resultado mostrado por R es: ``` ## ## One Sample t-test ## ## data: ervatao$profNido ## t = 6.0913, df = 91, p-value = 1.321e-08 ## alternative hypothesis: true mean is greater than 55 ## 95 percent confidence interval: ## 57.49616 Inf ## sample estimates: ## mean of x ## 58.43261 ``` -- * R muestra el valor del estadístico de contraste `\(t_{exp}=6.091\)` y su p-valor asociado, `\(1.32\cdot 10^{-8}\)`. -- * Eligiendo como nivel de significación `\(\alpha=0.05\)`, se tiene que `\(p-valor<\alpha\)` por lo que se rechaza `\(H_0\)`. -- * Por tanto, podemos afirmar, con un nivel de significación del 5%, que existe evidencia suficiente de que `\(\mu>55\)`. --- # Ejemplo 2: Contraste de comparación de medias .pull-left[ ![](imagenes/caretta.jpg) ] .pull-right[ La profundidad media de los nidos en Calheta (35 nidos) fue de 35.31 cm. (sd =4.71 cm), mientras que en Porto Ferreiro (33 nidos) fue de 42.64 cm (sd=6.32 cm). Con estos datos ¿Hay evidencia suficiente para afirmar que los nidos en la Playa de Porto Ferreiro son, en promedio, más profundos que en Calheta? ] -- <br> `$$\begin{cases} H_{0}: & \mu_{PF}\le\mu_C\\ H_{1}: & \mu_{PF}>\mu_C \end{cases}$$` --- ### .blue[Ejemplo 2. Solución.] `$$\begin{cases} H_{0}: & \mu_{PF}\le\mu_C\\ H_{1}: & \mu_{PF}>\mu_C \end{cases}$$` -- Los valores observados han sido: + `\(\bar{x}_{PF}=42.64\)`, `\(s_{PF}=6.32\)`, `\(n_{PF}=33\)`. + `\(\bar{x}_{C}=35.31\)`, `\(s_{C}=4.71\)`, `\(n_{C}=35\)`. -- Como ambas muestras son independientes y podemos suponer que las varianzas en ambas poblaciones son distintas (no hay ninguna razón para pensar que deban ser iguales), en la tabla resumen de contrastes encontramos que el estadístico de contraste a emplear en este caso es: `$$t_{exp}=\frac{{\bar{X}_{1}-\bar{X}_{2}}}{{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}}=\frac{42.64-35.31}{\sqrt{\frac{6.32^2}{33}+\frac{4.71^2}{35}}}=5.3972$$` siendo la regla de decisión `\(\bbox[#ffff80]{\textrm{Rechazar}\,H_{0}\,\,\textrm{si}\,\,t_{exp}>t_{n,\alpha}}\)` --- ### .blue[Ejemplo 2. Solución.] El valor de `\(n\)` se calcula mediante: `$$n=\frac{{\left({\frac{{s_{1}^{2}}}{{n_{1}}}+\frac{{s_{2}^{2}}}{{n_{2}}}}\right)^{2}}}{{\left({\frac{{s_{1}^{2}}}{{n_{1}}}}\right)^{2}\frac{1}{{n_{1}-1}}+\left({\frac{{s_{2}^{2}}}{{n_{2}}}}\right)^{2}\frac{1}{{n_{2}-1}}}}=59.072$$` -- .resalta[ Como `\(t_{n-1,\alpha}=t_{59.072,0.05}=1.67\)`, resulta que `\(t_{exp}>t_{n-1,\alpha}\)`, y por tanto .blue[ __concluímos que hay evidencia suficiente para rechazar__] `\(\boldsymbol{H_{0}}\)` ] -- En otras palabras, con un 5% de significación podemos asegurar que los nidos de Porto Ferreiro son, en media, más profundos que los de Calheta. --- ### .blue[Ejemplo 2. Solución] #### Explicación detallada * Si `\(H_0\)` es cierta, entonces el estadístico `\(t_{exp}=\frac{{\bar{x}_{PF}-\bar{x}_{C}}}{{\sqrt{\frac{s_{PF}^{2}}{n_{PF}}+\frac{s_{C}^{2}}{n_{C}}}}}\)` sigue una distribución `\(t\)` de Student con `\(n-1\)` grados de libertad. -- * Dada la hipótesis alternativa que se plantea ( `\(\mu_{PF}>\mu_{C}\)` ), la hipótesis nula deberá rechazarse si la diferencia entre las medias observadas `\(\bar{x}_{PF}-\bar{x}_C\)` es un valor positivo mayor de lo que cabría esperar por azar. -- * Ello es equivalente a decir que `\(H_0\)` debe rechazarse si `\(t_{exp}\)` es más grande que lo que cabe esperar por azar. -- * Ahora bien, el valor más grande de `\(t_{exp}\)` que puede esperarse por azar con probabilidad 0.95 es `\(t_{n,\alpha}=t_{59.072,0.05}=1.67\)` -- * Como en nuestro caso ha ocurrido que `\(t_{exp}>t_{n-1,\alpha}\)` concluimos que el resultado observado es muy poco probable que se deba al azar, y por tanto tenemos evidencia suficiente para rechazar `\(H_0\)`. --- ### .blue[Ejemplo 2. Solución con R.] __`1.`__ Como ya tenemos los datos cargados en memoria, seleccionamos el subconjunto de tortugas de Porto Ferreiro y Calheta: ```r pfc <- subset(tortugas,playa=="Porto Ferreiro"|playa=="Calheta") ``` -- __`2.`__ Para plantear el contraste tal como lo hemos descrito (Porto Ferreiro primero y Calheta después), debemos especificar que Porto Ferreiro es la primera categoría: (si no lo hacemos así, por defecto la primera categoría le correspondería a Calheta pues R las ordena por orden alfabético) ```r pfc$playa <- relevel(factor(pfc$playa),ref="Porto Ferreiro") ``` -- __`3.`__ Realizamos el contraste. El orden de las categorías es importante porque al especificar la alternativa, debe quedar bien claro a qué grupo corresponde la primera media y a cuál la segunda. ```r t.test(profNido~playa,alternative="greater",data=pfc) ``` --- ### .blue[Ejemplo 2. Solución con R.] El resultado mostrado por R es: ``` ## ## Welch Two Sample t-test ## ## data: profNido by playa ## t = 5.3972, df = 59.072, p-value = 6.288e-07 ## alternative hypothesis: true difference in means is greater than 0 ## 95 percent confidence interval: ## 5.061074 Inf ## sample estimates: ## mean in group Porto Ferreiro mean in group Calheta ## 42.63939 35.30857 ``` -- * R muestra el valor del estadístico de contraste `\(t_{exp}=5.397\)`, con sus grados de libertad `\(n=59.072\)`, y su p-valor asociado, `\(6.288\cdot 10^{-7}\)`. -- * Si hemos elegido como nivel de significación `\(\alpha=0.05\)`, se tiene que `\(p-valor<\alpha\)` por lo que se rechaza `\(H_0\)`. -- * Por tanto, podemos afirmar, con un nivel de significación del 5%, que existe evidencia suficiente de que `\(\mu_{PF}>\mu_C\)`. --- # Ejemplo 3: Comparación de varianzas .pull-left[ La topografía de la playa de Ervatao es más compleja que la de la playa de Ponta Cosme (por la presencia de zonas de mayor pendiente, zonas rocosas, zonas con vegetación ...). Por ello se espera mayor variabilidad en la distancia a la que las tortugas hacen los nidos que en playas de topografía más homogénea como Ponta Cosme. La varianza observada en los 92 nidos de Ervatao fue de 56.85 `\(m^2\)`; en los 90 nidos de Ponta Cosme la varianza fue de 47.52 `\(m^2\)`. Los datos observados ¿Muestran evidencia suficiente de que la variabilidad en la distancia de los nidos a la linea de marea en Ponta Cosme es menor que en Ervatao? ] .pull-right[ ![](imagenes/tortugaRocas.jpg) {{content}} ] -- <br> `$$\begin{cases} H_{0}: & \sigma^2_{PC}\ge\sigma^2_{E}\\ H_{1}: & \sigma^2_{PC}<\sigma^2_{E} \end{cases}$$` --- ### .blue[Ejemplo 3. Solución.] `$${\small \begin{cases} H_{0}: & \sigma^2_{PC}\ge\sigma^2_{E}\\ H_{1}: & \sigma^2_{PC}<\sigma^2_{E} \end{cases}}$$` -- Los valores observados en la muestra han sido: `$${\small s^2_{PC}=47.52 \qquad n_{PC}=90} \qquad\qquad {\small s^2_{E}=56.85 \qquad n_{E}=92}$$` -- En la tabla resumen de contrastes encontramos que el estadístico adecuado para comparar varianzas de variables normales a partir de muestras independientes es: `$${\small F_{exp}=\frac{S_{1}^{2}}{S_{2}^{2}}=\frac{47.52}{56.85}=0.8359}$$` siendo la regla de decisión `\(\bbox[#ffff80]{\textrm{Rechazar}\,H_{0}\,\,\textrm{si}\,\,F_{exp}<F_{n_{1}-1,n_{2}-1,1-\alpha}}\)` -- .resalta[ Como `\(F_{n_{1}-1,n_{2}-1,1-\alpha}=F_{89,91,0.95}=0.7054\)`, .red[no se cumple la condición de rechazo de] `\(H_0\)`. Por tanto .blue[ __no hay evidencia suficiente para asegurar que la varianza en Ponta Cosme sea menor que en Ervatao__] (a pesar de que así haya ocurrido en esta muestra). ] --- ### .blue[Ejemplo 3. Solución] #### Explicación detallada * Si `\(H_0\)` es cierta, entonces el estadístico `\(F_{exp}=\frac{S_{1}^{2}}{S_{2}^{2}}\)` sigue una distribución `\(F\)` de Fisher con 89 y 91 grados de libertad. -- * Dada la hipótesis alternativa que se plantea ( `\(\sigma^2_{PC}<\sigma^2_{E}\)` ), la hipótesis nula deberá rechazarse si el cociente entre las varianzas observadas `\(\frac{s^2_{PC}}{s^2_{E}}\)` es mucho más pequeño que 1 de lo que cabría esperar por azar. -- * Ello es equivalente a decir que `\(H_0\)` debe rechazarse si `\(F_{exp}\)` es más pequeño que lo que cabe esperar por azar. -- * Ahora bien, el valor más pequeño de `\(F_{exp}\)` que puede esperarse por azar con probabilidad 0.95 es `\(F_{n_1-1,n_2-1,1-\alpha}=t_{89,91,0.95}=0.7053\)` -- * Como en nuestro caso ha ocurrido que `\(F_{exp}>F_{n_1-1,n_2-1,1-\alpha}\)` concluimos que el resultado observado está dentro de lo que tiene bastante probabilidad de ocurrir por azar sin que `\(H_0\)` sea cierta. Por tanto la evidencia para rechazar `\(H_0\)` es insuficiente y `\(H_0\)` puede aceptarse. --- ### .blue[Ejemplo 3. Solución con R.] __`1.`__ Seleccionamos ahora el subconjunto de tortugas de Ponta Cosme y Ervatao: ```r pce <- subset(tortugas,playa=="Ponta Cosme"|playa=="Ervatao") ``` -- __`2.`__ Al igual que en el Ejemplo anterior, para plantear el contraste tal como lo hemos descrito (Ponta Cosme primero y Ervatao después), debemos especificar que Ponta Cosme es la primera categoría: (si no lo hacemos así, por defecto la primera categoría le correspondería a Ervatao pues R las ordena por orden alfabético) ```r pce$playa <- relevel(factor(pce$playa),ref="Ponta Cosme") ``` -- __`3.`__ Realizamos el contraste. El orden de las categorías es importante porque al especificar la alternativa, debe quedar bien claro a qué grupo corresponde la primera media y a cuál la segunda. ```r var.test(distancia~playa,alternative="less",data=pce) ``` --- ### .blue[Ejemplo 3. Solución con R.] El resultado mostrado por R es: ``` ## ## F test to compare two variances ## ## data: distancia by playa ## F = 0.83594, num df = 89, denom df = 91, p-value = 0.1988 ## alternative hypothesis: true ratio of variances is less than 1 ## 95 percent confidence interval: ## 0.000000 1.185093 ## sample estimates: ## ratio of variances ## 0.8359423 ``` -- * R muestra el valor del estadístico de contraste `\(F_{exp}=0.8359\)`, con sus grados de libertad (89 y 91), y su p-valor asociado, `\(0.1988\)`. -- * Si hemos elegido como nivel de significación `\(\alpha=0.05\)`, se tiene que `\(p-valor>\alpha\)`, por lo que se acepta `\(H_0\)`. -- * Por tanto a partir de estos datos no hay evidencia suficiente (a un 5% de significación) para asegurar que `\(\sigma^2_{PC}<\sigma^2_E\)`. --- # Ejemplo 4: Comparación de Proporciones .pull-left[ ![](imagenes/cangrejo.jpg) __Cangrejos__ <table> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> No </th> <th style="text-align:right;"> Sí </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Ponta Cosme </td> <td style="text-align:right;"> 22 </td> <td style="text-align:right;"> 47 </td> </tr> <tr> <td style="text-align:left;"> Ervatao </td> <td style="text-align:right;"> 34 </td> <td style="text-align:right;"> 30 </td> </tr> </tbody> </table> ] .pull-right[ En la playa de Ponta Cosme el éxito de emergencia fue mucho menor que en Ervatao. Se cree que ello se debe a la presencia de cangrejos, ya que estos depredan tanto sobre los huevos como sobre las crías de Caretta-Caretta. La tabla adjunta muestra en cuantos nidos se han encontrado (o no) cangrejos en estas playas: ¿Muestran estos datos evidencia suficiente de que la proporción de nidos con cangrejos es mayor en Ponta Cosme que en Ervatao? {{content}} ] -- `$$\begin{cases} H_{0}: & \pi_{PC}\le\pi_{E}\\ H_{1}: & \pi_{PC}>\pi_{E} \end{cases}$$` --- ### .blue[Ejemplo 4. Solución.] .pull-left[ `$$\begin{cases} H_{0}: & \pi_{PC}\le\pi_{E}\\ H_{1}: & \pi_{PC}>\pi_{E} \end{cases}$$` ] .pull-right[ <table> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> No </th> <th style="text-align:right;"> Sí </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Ponta Cosme </td> <td style="text-align:right;"> 22 </td> <td style="text-align:right;"> 47 </td> </tr> <tr> <td style="text-align:left;"> Ervatao </td> <td style="text-align:right;"> 34 </td> <td style="text-align:right;"> 30 </td> </tr> </tbody> </table> ] <p style="padding: 2px 10px 2px 10px;"></p> -- En total se han observado `\(n_1=22+47=69\)` nidos en Ponta Cosme y `\(n_2=64\)` en Ervatao. Las proporciones observadas de nidos con cangrejos en cada una de estas playas fueron: `$${\small p_1=\hat{\pi}_{PC}=\frac{47}{69}=0.68 \qquad\qquad p_2=\hat{\pi}_E=\frac{30}{64}=0.47}$$` -- En la tabla resumen de contrastes encontramos que el estadístico adecuado para comparar proporciones en muestras independientes es: `$${\small z_{exp}=\frac{{p_{1}-p_{2}}}{{\sqrt{p^{*}q^{*}\left({\frac{1}{{n_{1}}}+\frac{1}{{n_{2}}}}\right)}}}=2.479}$$` donde `\(p^{*}=\frac{{n_{1}p_{1}+n_{2}p_{2}}}{{n_{1}+n_{2}}}=\frac{47+30}{69+64}=0.5789\)`; `\(\qquad q^{*}=1-p^{*}=0.4211\)` siendo la regla de decisión `\(\bbox[#ffff80]{\textrm{Rechazar}\,H_{0}\,\,\textrm{si}\,\,z_{exp}>z_{\alpha}}\)` --- ### .blue[Ejemplo 4. Solución.] Eligiendo `\(\alpha=0.05\)`, y utilizando que `\(z\approx N(0,1)\)` obtenemos `\(z_{\alpha}=1.645\)` Por tanto: .resalta[ Como `\(z_{exp}=2.479 > z_{\alpha}=1.645\)` .red[se cumple la condición de rechazo de] `\(H_0\)` Así pues, .blue[ __podemos asegurar, con un nivel de significación del 5%, que la proporción de nidos afectados por cangrejos en la playa de Ponta Cosme es mayor que en la playa de Ervatao__]. ] -- <br> __NOTA:__ tal como se señala en la tabla de contrastes, este es un contraste aproximado, solamente válido si `\(n_{1}\ge30\)`, `\(n_{2}\ge30\)` y `\(n_{1}p^{*}\)`, `\(n_{1}q^{*}\)`, `\(n_{2}p^{*}\)` y `\(n_{2}q^{*}\)` son todos mayores que 5. En este caso, como `\(n_1=69\)`, `\(n_2=64\)`, `\(n_{1}p^{*}\cong 40\)`, `\(n_{1}q^{*}\cong 29\)`, `\(n_{2}p^{*}\cong 37\)` y `\(n_{2}q^{*}\cong 27\)`, se cumplen todas las condiciones, por lo que el contraste es efectivamente válido. --- ### .blue[Ejemplo 4. Solución] #### Explicación detallada * Si `\(H_0\)` es cierta, con los tamaños muestrales disponibles, el estadístico `\(z_{exp}=\frac{{p_{1}-p_{2}}}{{\sqrt{p^{*}q^{*}\left({\frac{1}{{n_{1}}}+\frac{1}{{n_{2}}}}\right)}}}\)` sigue una distribución aproximadamente `\(N(0,1)\)` -- * Dada la hipótesis alternativa que se plantea ( `\(\pi_{PC}>\pi_{E}\)` ), la hipótesis nula deberá rechazarse si la diferencia entre las proporciones observadas `\(p_1-p_2=\hat{\pi}_{PC}-\hat{\pi}_E\)` es un valor positivo más grande de lo que cabría esperar por azar. -- * Ello es equivalente a decir que `\(H_0\)` debe rechazarse si `\(z_{exp}\)` es más grande que lo que cabe esperar por azar. -- * Ahora bien, el valor más grande de `\(z_{exp}\)` que puede esperarse por azar con probabilidad 0.95 es `\(z_{\alpha}=z_{0.05}=1.645\)` -- * Como en nuestro caso ha ocurrido que `\(z_{exp}>z_{0.05}\)` concluimos que el resultado observado tiene una probabilidad muy baja de ocurrir por azar en caso de que `\(H_0\)` sea cierta. Por tanto existe evidencia suficiente para rechazar `\(H_0\)` con un nivel de significación del 5%. --- ### .blue[Ejemplo 4. Solución con R.] __`1.`__ Seleccionamos el subconjunto de nidos de Ponta Cosme y Ervatao, y ordenamos las playas (para que Ponta Cosme sea la primera y Ervatao la segunda); asimismo la variable `cangrejos` debe definirse también como factor, siendo la presencia de cangrejos la categoría de referencia. .red[Para este tipo de contrastes, la categoría cuya proporción se está comparando (en este caso la presencia de cangrejos) debe ser siempre la primera]: ```r pce <- subset(tortugas,playa=="Ponta Cosme"|playa=="Ervatao") pce$playa <- relevel(factor(pce$playa),ref="Ponta Cosme") pce$cangrejos <- relevel(factor(pce$cangrejos),ref="1") ``` -- __`2.`__ Construimos la tabla con el número de nidos con y sin cangrejos en cada playa: ```r tablaPC <- table(pce$playa,pce$cangrejos) tablaPC ``` ``` ## ## 1 0 ## Ponta Cosme 47 22 ## Ervatao 30 34 ``` --- ### .blue[Ejemplo 4. Solución con R.] __`3.`__ Realizamos el contraste: ```r prop.test(tablaPC,alternative="greater") ``` ``` ## ## 2-sample test for equality of proportions with continuity ## correction ## ## data: tablaPC ## X-squared = 5.3049, df = 1, p-value = 0.01063 ## alternative hypothesis: greater ## 95 percent confidence interval: ## 0.05935384 1.00000000 ## sample estimates: ## prop 1 prop 2 ## 0.6811594 0.4687500 ``` -- R realiza un contraste (`X-Squared` o _chi-cuadrado_) distinto, aunque equivalente, al que hemos hecho antes siguiendo la tabla de contrastes. La interpretación es la misma de siempre: como el p-valor (0.01063) es menor que `\(\alpha=0.05\)` concluimos que existe evidencia suficiente para rechazar `\(H_0\)` y asegurar que la proporción de cangrejos es mayor en los nidos de Ponta Cosme que en los de Ervatao. --- ## Ejemplo 5: Comparación de medias emparejadas .pull-left[ Se cree que en las tortugas adultas de la especie _Caretta caretta_ el valor de la anchura curva del caparazón (ACC) es del orden del 95% de la longitud curva del caparazón. Con los datos ( `\(n=250\)` ) de la muestra de Boa Vista se ha calculado la variable `\(ACC2=0.95\cdot LCC\)`. Los valores medios y la desviaciones típicas observadas en la muestra fueron: <table> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:right;"> media </th> <th style="text-align:right;"> sd </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> ACC </td> <td style="text-align:right;"> 77.24 </td> <td style="text-align:right;"> 4.31 </td> </tr> <tr> <td style="text-align:left;"> ACC2 </td> <td style="text-align:right;"> 78.16 </td> <td style="text-align:right;"> 4.69 </td> </tr> </tbody> </table> siendo la correlación entre ambas variables igual a 0.83. ] .pull-right[ ¿Estos datos permiten confirmar la hipótesis de que el valor medio de ACC coincide con el valor medio de ACC2? <p></p> ![](imagenes/Caretta-caretta-21246.jpg) {{content}} ] -- `$$\begin{cases} H_{0}: & \mu_{ACC}=\mu_{ACC2}\\ H_{1}: & \mu_{ACC}\neq\mu_{ACC2} \end{cases}$$` --- ### .blue[Ejemplo 5. Solución.] `$${\small \begin{cases} H_{0}: & \mu_{ACC}=\mu_{ACC2}\\ H_{1}: & \mu_{ACC}\neq\mu_{ACC2} \end{cases}}$$` -- Los valores observados han sido: `$${\small \bar{x}_{ACC}=77.24; \qquad s_{ACC}=4.31 \qquad\qquad \bar{x}_{ACC2}=78.16; \qquad s_{ACC2}=4.69}$$` En este caso .red[las dos variables están emparejadas], ya que hay una única muestra de `\(n=250\)` tortugas y las dos variables `\(ACC\)` y `\(ACC2\)` se han evaluado sobre cada ejemplar. Estas dos variables presentan además una correlación `\(r=0.83\)` -- En la tabla resumen de contrastes encontramos que el estadístico de contraste a emplear en este caso es: `$${\small t_{exp}=\frac{{\overline{x}_{1}-\overline{x}_{2}}}{{S_{D}/\sqrt{n}}}=\frac{77.24-78.16}{2.636/\sqrt{250}}=-5.518}$$` donde `\({\small S_D=\sqrt{S^2_1+S^2_2-2rS_1S_2}=\sqrt{4.31^2+4.69^2-2\cdot 0.83\cdot4.31\cdot 4.69}=2.636}\)` <p></p> siendo la regla de decisión `\(\bbox[#ffff80]{\textrm{Rechazar}\,H_{0}\,\,\textrm{si}\,\,\left|t_{exp}\right|>t_{n-1,\alpha/2}}\)` --- ### .blue[Ejemplo 5. Solución.] <br> .resalta[ Como `\(t_{n-1,\alpha}=t_{249,0.025}=1.97\)`, resulta que `$$\left|t_{exp}\right|=5.518 > t_{n-1,\alpha}=1.97$$` y por tanto .blue[ __concluímos que hay evidencia suficiente para rechazar__] `\(\boldsymbol{H_{0}}\)` y en consecuencia NO se confirma la hipótesis inicial de que la media de ACC coincide con la media de ACC2. ] --- ### .blue[Ejemplo 5. Solución] #### Explicación detallada * Si `\(H_0\)` es cierta, entonces el estadístico `\(t_{exp}=\frac{{\overline{x}_{1}-\overline{x}_{2}}}{{S_{D}/\sqrt{n}}}\)` sigue una distribución `\(t\)` de Student con `\(n-1=249\)` grados de libertad. -- * Dada la hipótesis alternativa que se plantea ( `\(\mu_{ACC}\neq\mu_{ACC2}\)` ), la hipótesis nula deberá rechazarse si la diferencia entre las medias observadas `\(\bar{x}_{ACC}-\bar{x}_{ACC2}\)` es, en valor absoluto, un valor mayor de lo que cabría esperar por azar. -- * Ello es equivalente a decir que `\(H_0\)` debe rechazarse si `\(\left|t_{exp}\right|\)` es más grande que lo que cabe esperar por azar. -- * Ahora bien, el valor más grande de `\(\left|t_{exp}\right|\)` que puede esperarse por azar con probabilidad 0.95 es `\(t_{n-1,\alpha/2}=t_{249,0.025}=1.97\)`. Como `\(t_{exp}\)` se toma en valor absoluto, el valor `\(\alpha\)` del 5% se ha repartido a partes iguales en un 2.5% en la parte positiva de la distribución y un 2.5% en la negativa. -- * Como `\(\left|t_{exp}\right|>t_{n-1,\alpha/2}\)` concluimos que el resultado observado es muy poco probable que se deba al azar, y por tanto tenemos evidencia suficiente para rechazar `\(H_0\)`. --- ### .blue[Ejemplo 5. Solución con R.] __`1.`__ Como ya los datos están cargados, creamos la variable `ACC2`: ```r tortugas$ACC2=0.95*tortugas$LCC ``` -- __`2.`__ Realizamos el contraste. Como es un contraste de " `\(=\)` " frente a " `\(\neq\)` ", no hace falta especificar la hipótesis alternativa (aunque podría hacerse, si se desea, poniendo `alternative=two.sided`): ```r t.test(tortugas$ACC, tortugas$ACC2, paired=TRUE) ``` --- ### .blue[Ejemplo 5. Solución con R.] El resultado mostrado por R es: ``` ## ## Paired t-test ## ## data: tortugas$ACC and tortugas$ACC2 ## t = -5.5188, df = 249, p-value = 8.554e-08 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## -1.2484095 -0.5917105 ## sample estimates: ## mean of the differences ## -0.92006 ``` -- * R muestra el valor del estadístico de contraste `\(t_{exp}=-5.518\)`, con sus grados de libertad `\(n=249\)`, y su p-valor asociado, `\(8.554\cdot 10^{-8}\)`. -- * Si hemos elegido como nivel de significación `\(\alpha=0.05\)`, se tiene que `\(p-valor<\alpha\)` por lo que se rechaza `\(H_0\)`. -- * Por tanto, podemos asegurar, con un nivel de significación del 5%, que existe evidencia suficiente de que `\(\mu_{ACC}\neq \mu_{ACC2}\)`