class: center, middle, inverse, title-slide .title[ # Probabilidad: una introducción ] .author[ ### .darkgrey[Angelo Santana] ] --- ## Ejemplo <br><br> Se ha tomado una muestra aleatoria de 20 estudiantes de una facultad universitaria donde cursan estudios 268 estudiantes. De los 20 estudiantes de la muestra solo 7 resultan ser mujeres. __¿Constituye este hecho evidencia suficiente de que en esa facultad hay matriculados más alumnos que alumnas?__ --- ### Hipótesis inicial * Supongamos que en la facultad hubiese el mismo número de alumnos que de alumnas (134 de cada sexo). -- * En tal caso, al tomar una muestra de 20 estudiantes cabrÃa esperar que el número de alumnos varones en la muestra fuese similar al número de alumnas, __aunque no necesariamente igual__: al fin y al cabo, la muestra se ha tomado de forma aleatoria, por lo que ambos números no tienen por qué coincidir exactamente. -- * El resultado observado (7 alumnas y 13 alumnos), _¿es esperable bajo la hipótesis inicial, o no?_ ¿Como responder a esta pregunta? --- ### Regla de decisión * Podemos preguntarnos cuál es la probabilidad de que, __siendo igual el número de alumnos y alumnas en la facultad__, al tomar una muestra aleatoria de 20 personas caigan en ésta 7 alumnas y 13 alumnos. -- * Si en estas condiciones este suceso tiene una probabilidad alta de ocurrir, ello significarÃa que no podemos deducir de esta muestra que el número de hombres en la facultad sea mayor que el número de mujeres; -- * Por el contrario, si en esas condiciones este suceso tuviese una probabilidad baja, su ocurrencia en la práctica apuntarÃa a una cierta evidencia de que el número de mujeres y hombres está realmente desequilibrado en esa facultad. -- * __¿Cómo calcular esta probabilidad?__ --- class: reducedFont ### Probabilidad .column3065[ ![](data:image/png;base64,#images/Laplace.jpg) .small[ [[Pierre Simon de Laplace en Wikipedia]](https://es.wikipedia.org/wiki/Pierre-Simon_Laplace) ] ] .column3065[ <br> La definición clásica de probabilidad se debe a Laplace, que la desarrolló a finales del siglo XVIII. Si un experimento cuyo resultado no se puede conocer hasta realizarlo tiene `\(N\)` resultados posibles, _todos equiprobables_, la probabilidad de un suceso `\(A\)` se define como: `$$\Pr\left(A\right)=\frac{\textrm{# Casos Favorables a A}}{\textrm{# Casos Posibles}}=\frac{r}{N}$$` siendo `\(r\)` el número de casos favorables a la ocurrencia de `\(A\)`. ] --- ### Un poco de combinatoria: .red[casos posibles] * El número de casos posibles serÃa el número total de formas en que se pueden escoger 20 personas de un total de 268. Ello corresponde al número combinatorio: `$$\binom{268}{20}=\frac{268!}{\left(268-20\right)!20!}$$` -- * El valor de este número es verdaderamente grande. En R puede obtenerse mediante la función `choose()`: ```r choose(268,20) ``` ``` ## [1] 7.259795e+29 ``` --- ### Un poco de combinatoria: .red[casos favorables] <br> * Debemos calcular de cuántas formas se pueden escoger 7 mujeres entre las 134 de la facultad: `$$\binom{134}{7}=\frac{134!}{\left(134-7\right)!7!}$$` -- ```r choose(134,7) ``` ``` ## [1] 131254487936 ``` --- ### Un poco de combinatoria: .red[casos favorables] <br> * Como la muestra es de 20 personas, los otros 13 miembros de la muestra deben elegirse de entre los hombres. El número de formas en que se pueden elegir 13 hombres entre los 134 de la facultad es: `$$\binom{134}{13}=\frac{134!}{\left(134-13\right)!13!}$$` -- ```r choose(134,13) ``` ``` ## [1] 3.953987e+17 ``` --- ### Un poco de combinatoria: .red[casos favorables] <br> El número total de casos favorables (formas de escoger 7 mujeres y 13 hombres) será entonces el resultado de multiplicar todas las formas en que se pueden escoger las 7 mujeres por todas las formas en que se pueden escoger los 13 hombres: `$$\#\mathrm{Casos\,Favorables}=\binom{134}{7}\cdot\binom{134}{13}$$` -- ```r choose(134,7)*choose(134,13) ``` ``` ## [1] 5.189786e+28 ``` --- <br> ### Probabilidad Por tanto, de acuerdo con la regla de Laplace, la probabilidad de que haya solo 7 mujeres en una muestra de 20 personas elegidas al azar de una población de 268 personas donde 134 son mujeres y 134 son hombres es: `$$\Pr\left(7\,\mathrm{mujeres}\right)=\frac{\#\mathrm{Casos\,Favorables}}{\#\mathrm{Casos\,Posibles}}=\frac{\binom{134}{7}\binom{134}{13}}{\binom{268}{20}}=0.0715$$` --- ### Probabilidad En general, si hubiésemos querido calcular la probabilidad de que en la muestra de 20 personas hubiese `\(k\)` mujeres, con `\(k\in{0,1,2,\dots,20}\)` la expresión a utilizar serÃa: `$$\Pr\left(k\,\mathrm{mujeres}\right)=\frac{\#\mathrm{Casos\,Favorables}}{\#\mathrm{Casos\,Posibles}}=\frac{\binom{134}{k}\binom{134}{20-k}}{\binom{268}{20}}$$` -- * Esta fórmula especifica como se __distribuye__ o se __reparte__ la probabilidad entre los distintos valores de `\(k\)`, de ahà que reciba el nombre de __distribución de probabilidad__. -- * En este caso particular, por razones históricas, esta distribución recibe el nombre de __distribución hipergeométrica__ de parámetros M=134 (número de hombres en la población), N=134 (número de mujeres en la población) y n=20 (tamaño de la muestra). --- ### Distribución de probabilidad hipergeométrica * De un modo más general, si llamamos `\(X\)` al número de mujeres en la muestra, la expresión general de la distribución de probabilidad hipergeométrica de parámetros `\(M\)` y `\(N\)` es: `$$\Pr\left(X=k\right)=\frac{\#\mathrm{Casos\,Favorables}}{\#\mathrm{Casos\,Posibles}}=\frac{\binom{M}{k}\binom{N}{n-k}}{\binom{M+N}{n}}$$` -- * Esta fórmula se encuentra implementada en R mediante la función `dhyper(k,M,N,n)`; asÃ, la probabilidad de que haya 7 mujeres en una muestra de 20 personas cuando M=N=134, se obtiene como: ```r dhyper(7,134,134,20) ``` ``` ## [1] 0.07148667 ``` --- ### Volvamos a nuestro problema * Bajo la hipótesis de que __el numero de alumnos y alumnas en la facultad es el mismo__ habÃamos decidido calcular como de probable es que en una muestra aleatoria de 20 personas salgan 7 alumnas y 13 alumnos. * Si esta probabilidad fuera alta decidirÃamos que no hay evidencia en la muestra de que el número de hombres en la facultad sea mayor que el número de mujeres; * Por el contrario, si esta probabilidad fuera baja, su ocurrencia en la práctica supondrÃa una cierta evidencia de que el número de mujeres y hombres está realmente desequilibrado en esa facultad. -- Bien, ya sabemos que la probabilidad es 0.0715. __Esta probabilidad ¿es alta o baja?__ --- ### ¿Cómo de grande o pequeña es una probabilidad? -- * El valor que hemos obtenido, 0.0715, es bajo o alto según con qué se compare. Por tanto debemos preguntarnos: -- * .red[¿Hay muchos sucesos con una probabilidad más baja que éste?] (en cuyo caso, este suceso no serÃa tan raro siendo cierta la hipótesis inicial) -- * .red[¿o hay pocos sucesos (o ninguno) menos probables que éste?] (con lo cual éste serÃa un suceso verdaderamente extraño si la hipótesis de partida fuera real) --- ### ¿Cómo de grande o pequeña es una probabilidad? * La única manera de responder a esta pregunta es analizar cuanto valen las probabilidades de los distintos sucesos posibles. En una muestra de 20 personas, el número de mujeres oscila entre 0 y 20. Tenemos que calcular entonces: `$$\Pr\left(k\,\mathrm{mujeres}\right)=\frac{\#\mathrm{Casos\,Favorables}}{\#\mathrm{Casos\,Posibles}}=\frac{\binom{134}{k}\binom{134}{20-k}}{\binom{268}{20}},\;\; k=0,\dots, 20$$` * Podemos usar R para calcular estas probabilidades de manera sencilla: ```r dhyper(0:20,134,134,20) ``` ``` ## [1] 0.0000004 0.0000103 0.0001126 0.0007622 0.0035965 0.0125725 0.0337886 ## [8] 0.0714867 0.1209267 0.1651682 0.1831503 0.1651682 0.1209267 0.0714867 ## [15] 0.0337886 0.0125725 0.0035965 0.0007622 0.0001126 0.0000103 0.0000004 ``` --- ### ¿Cómo de grande o pequeña es una probabilidad? .pull-left[ <table class="table" style="font-size: 18px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:right;"> k </th> <th style="text-align:left;"> p </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 0 </td> <td style="text-align:left;"> <span style=" color: red !important;">4e-07</span> </td> </tr> <tr> <td style="text-align:right;"> 1 </td> <td style="text-align:left;"> <span style=" color: red !important;">1.03e-05</span> </td> </tr> <tr> <td style="text-align:right;"> 2 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0001126</span> </td> </tr> <tr> <td style="text-align:right;"> 3 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0007622</span> </td> </tr> <tr> <td style="text-align:right;"> 4 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0035965</span> </td> </tr> <tr> <td style="text-align:right;"> 5 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0125725</span> </td> </tr> <tr> <td style="text-align:right;"> 6 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0337886</span> </td> </tr> <tr> <td style="text-align:right;"> 7 </td> <td style="text-align:left;"> <span style=" color: black !important;">0.0714867</span> </td> </tr> <tr> <td style="text-align:right;"> 8 </td> <td style="text-align:left;"> <span style=" color: black !important;">0.1209267</span> </td> </tr> <tr> <td style="text-align:right;"> 9 </td> <td style="text-align:left;"> <span style=" color: black !important;">0.1651682</span> </td> </tr> <tr> <td style="text-align:right;"> 10 </td> <td style="text-align:left;"> <span style=" color: black !important;">0.1831503</span> </td> </tr> </tbody> </table> ] .pull-right[ <table class="table" style="font-size: 18px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:right;"> k </th> <th style="text-align:left;"> p </th> </tr> </thead> <tbody> <tr> <td style="text-align:right;"> 11 </td> <td style="text-align:left;"> <span style=" color: black !important;">0.1651682</span> </td> </tr> <tr> <td style="text-align:right;"> 12 </td> <td style="text-align:left;"> <span style=" color: black !important;">0.1209267</span> </td> </tr> <tr> <td style="text-align:right;"> 13 </td> <td style="text-align:left;"> <span style=" color: black !important;">0.0714867</span> </td> </tr> <tr> <td style="text-align:right;"> 14 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0337886</span> </td> </tr> <tr> <td style="text-align:right;"> 15 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0125725</span> </td> </tr> <tr> <td style="text-align:right;"> 16 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0035965</span> </td> </tr> <tr> <td style="text-align:right;"> 17 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0007622</span> </td> </tr> <tr> <td style="text-align:right;"> 18 </td> <td style="text-align:left;"> <span style=" color: red !important;">0.0001126</span> </td> </tr> <tr> <td style="text-align:right;"> 19 </td> <td style="text-align:left;"> <span style=" color: red !important;">1.03e-05</span> </td> </tr> <tr> <td style="text-align:right;"> 20 </td> <td style="text-align:left;"> <span style=" color: red !important;">4e-07</span> </td> </tr> </tbody> </table> ] --- ### ¿Cómo de grande o pequeña es una probabilidad? * Asà pues, en este caso hay muchos sucesos con menor probabilidad que el observado. -- * De hecho, podemos calcular la probabilidad total de observar un suceso tanto o menos probable que el que hemos observado (7 mujeres y 13 hombres) sumando todas las probabilidades menores o iguales que 0.0715. -- * En R: ```r p=dhyper(0:20,134,134,20) sum(p[p <= dhyper(7,134,134,20)]) ``` ``` ## [1] 0.2446598 ``` -- * Por tanto, el suceso que hemos observado no es extraño si la hipótesis de partida (igual número de mujeres que hombres) es cierta. Por tanto, no tenemos __evidencia suficiente__ para afirmar que dicha hipótesis sea falsa. --- ### Sobre la aceptación o rechazo de hipótesis en la actividad cientÃfica * Es práctica común en la actividad cientÃfica tomar como referencia el valor 0.05; si la probabilidad de observar un suceso tanto o más extraño que el observado es menor que 0.05, se considera que hay evidencia suficiente para rechazar la hipótesis de partida; en caso contrario, se considera que la evidencia no es suficiente y se acepta dicha hipótesis como válida (por el momento)