12.4 Otros ejemplos.

Una pequeña empresa busca saber si existe alguna preferencia en la elección entre dos posibles variaciones de una bebida probiótica que se quiere lanzar al mercado. Los investigadores piensan que la primera versión tendría una mejor aceptación que la segunda. Para ello, se seleccionaron al azar 223 individuos, de los cuales 118 eran hombres y el resto mujeres. Los resultados recolectados muestran que de los varones, 68 de estos prefirieron una bebida sobre la otra, mientras que 79 de las mujeres prefirieron esa misma bebida sobre la otra. ¿Prueban los datos recolectados que existe una preferencia en la elección de una bebida sobre la otra? Basado en su respuesta, ¿qué decisiones tomaría sobre las bebidas probióticas probadas?

Solución. Si hubiese alguna preferencia por una bebida u otra, entonces uno esperaría que la proporción de personas que prefieren la bebida uno serían más de la mitad de los encuestados (esta es nuestra hipótesis experimental). Para expresar esto formalmente, definimos primero la proporción de personas que eligieron la primera bebida como \(\pi\), cuyo estimador es \(p = (68 + 79) / 223 = 147 / 223 = 0{,}659\). Esto nos permite expresar la hipótesis experimental como \(\pi > 0{,}5\), y lo que se busca probar es el contraste unilateral a la derecha: \[\begin{aligned} H_0: & \pi \le 0{,}5 \\ H_1: & \pi > 0{,}5 \end{aligned}\] Construimos ahora un estadístico para probar el contraste, el cual mide que tanto se desvía el valor estimado del valor que según la hipótesis nula tomamos como cierto: \[\begin{aligned} \hat{Z} &= \frac{p - \pi}{\sqrt{\pi(1-\pi)/n}} \\ &= \frac{0{,}659 - 0{,}5}{\sqrt{0{,}5(1-0{,}5)/223}} \\ &= 4.75 \end{aligned}\] Por el TLC, sabemos que el estadístico se distribuye como una normal estándar. Si usamos un valor de \(\alpha\) de \(0{,}05\), entonces, como el contraste es unilateral, el valor crítico es \(z_\alpha=1{,}64\) y por lo tanto, dado que \(\hat{Z}\) es mucho mayor, decidimos rechazar la hipótesis nula en favor de la alternativa. De hecho, la probabilidad asociada es \(P(Z \ge \hat{Z}) = 0{,}000001\), la cual es muy baja para que sea una desviación esperada por azar. Esto nos lleva a concluir que de hecho hay una preferencia por la primera bebida por parte de los encuestados.

En el ejemplo anterior, notamos que el contraste se establece en terminos del parámetro \(\pi\), que es una proporción que puede tomar valores en el intervalo \([0,1]\). Aunque definimos las hipótesis usando una notación más breve para los conjuntos \(\Theta_0\) y \(\Theta_1\), no debe olvidar que la elección del parámetro sobre el que se hace inferencia define el conjunto de posibles hipótesis como \(\Theta = \{\pi \in [0,1]\}\), de forma que el contraste es:

\[\begin{aligned} H_0: & \Theta_0 = \{\pi \in [0,1] \vert \pi \le 0{,}5 \} \\ H_1: & \Theta_1 = \{\pi \in [0,1] \vert \pi > 0{,}5 \} \end{aligned}\]

No olvide que las hipótesis son conjuntos mutuamente excluyentes que definen los posibles valores que puede tomar el parámetro según la conjetura inicial.

Otra cosa que notar es que, para el cálculo de \(SE(\pi)\) usamos el valor de \(\pi\) y no la proporción \(p\). Esto es así porque suponemos que la hipótesis nula es cierta, y como conocemos el valor de \(\pi\), podemos calcular basado en este valor.

Siguiendo con el ejemplo anterior, nos damos cuenta que el estudio esta segmentado de acuerdo al sexo, por lo que los investigadores podrían estar interesados en saber si la preferencia observada es igual en ambos hombres y muejeres, o si solo es debido a un sexo. Por lo que debemos probar dos contrastes más, similares al anterior; pero antes debemos aclarar la notación.

Definimos primero la proporción poblacional de machos y hembras como \(\pi_M\) y \(\pi_H\), respectivamente, los cuales se estiman por \(p_M\) y \(p_H\).
Los contrastes son iguales al anterior, escribimos: \[\begin{aligned} H_0: & \pi_j \le 0{,}5 \\ H_1: & \pi_j > 0{,}5 \end{aligned}\] donde \(j = M, H\). Construimos estadísticos similares al anterior para probar los contrastes, obteniendo para los hombres: \[\hat{Z}_M = \frac{0.576 - 0{,}5}{\sqrt{0{,}5(1-0{,}5)/118}} = 1.66\] y para las mujeres: \[\hat{Z}_H = \frac{0.752 - 0{,}5}{\sqrt{0{,}5(1-0{,}5)/118}} = 5.17\]

Estos dos valores son mayores que el valor crítico de \(1{,}64\), aunque el valor calculado para la muestra de hombres es marginal. La probabilidad asociada a estos estadísticos son: \[P(Z \ge 1.66) = 0{,}0488\] y \[P(Z \ge 5.17) = 0{,}0000001\] Con estos resultados, según los criterios de decisión dados, rechazamos la hipótesis nula en ambos casos y concluimos que hay una preferencia por la primera bebida en hombres y mujeres. Sin embargo, la evidencia parece ser más confiable en la muestra de mujeres encuestadas que en la de varones.

Al final del ejercicio anterior, rechazamos la hipótesis nula en ambas muestras de varones y mujeres. Si se nos pidiera dar una opinión sobre la decisión de venta de las bebidas, basado solo en los resultados de esa encuesta, podríamos decidir vender la bebida siguiendo una estrategia de ventas dirigida a las mujeres para la primera bebida probiótica.

Se sabe que los topos de cierta especie salen a la superficie para alimentarse de insectos que se encuentran en la superficie, exponiéndose a aves y mamíferos cazadores que se alimentan de estos. Los topos, como estrategia de supervivencia, se exponen a la superficie por un tiempo y luego vuelven a sus hoyos para moverse a uno distinto donde repiten el comportamiento, buscando alimento.

Ciertas praderas se han convertido en zonas de estudio de las comunidades de estas especies de topo. Dos zonas atraen mayor atención debido a que una de las zonas, la de más al sur, es bastante heterogénea espacialmente, con irregularidades y cambios en la planicie que resultan en una gran cantidad de sitios para que los topos puedan protegerse de los depredadores. La otra zona es más regular con menos sitios que sirvan de escondite.

Se han observado los topos y se han calculado los tiempos de exposición de los topos en la superficie. En la pradera del sur, se obtuvo un tiempo de \(33 \pm 8{,}3\) segundos basado en la observación de \(14\) topos; mientras que en la otra pradera, la más homogénea, la observación de \(12\) topos mostró un tiempo de exposición de \(29 \pm 4{,}1\) segundos. Los investigadores buscan saber si hay una diferencia en los tiempos de exposición de los topos en ambas zonas.

Solución. Un cálculo rápido de un intervalo de confianza del 95% para la diferencia en el tiempo promedio de exposición entre ambas zonas se muestra a continuación: \[-0.12 < \mu_{S} - \mu_{N} < 8.12\] Notamos claramente que no hay una diferencia significativa en el tiempo promedio de exposición de ambas zonas, aun cuando en la zona Sur es más largo. Los investigadores, esperando este resultado, conjeturan que debido a la mayor heterogeneidad en el nicho del sur, el tiempo de exposición sería más variable que en la otra región, dada la menor presión que imponen los depredadores en zonas de mayor dificultad de encuentro de presas. Se decide entonces realizar un contraste para verificar esta hipótesis.

Se desea saber entonces si la varianza en el tiempo de reacción en la zona sur es mayor que en la zona de más al norte, y los contrastes de interés son: \[\begin{aligned} H_0: & \sigma^2_S / \sigma^2_N \le 1 \\ H_1: & \sigma^2_S / \sigma^2_N > 1 \end{aligned}\] Como ya vimos antes, con respecto a las varianzas, podemos construir estadísticos basado en la proporción entre las varianza de ambas poblaciones: \[\begin{aligned} \hat{F} &= \frac{\sigma^2_N S^2_S}{\sigma^2_S S^2_N} \\ &= \frac{(8{,}3)^2\sigma^2_N}{(4{,}1)^2\sigma^2_S } \\ &= 4{,}098 \frac{\sigma^2_N}{\sigma^2_S} \end{aligned}\] Bajo el supuesto de que la hipótesis nula es cierta, el cociente \(\sigma^2_N / \sigma^2_S = 1\), por lo que el valor estimado del estadístico es \(\hat{F} = 4{,}098\), el cual es un valor observado de la distribución \(F\) con \(n_S - 1 = 13\) y \(n_N - 1 = 11\) grados de libertad. El valor crítico para esta distribución, para un nivel de significancia de \(0{,}05\), es de $F_{crítico} = 2.76 (la prueba es unilateral asi que solo escogemos el cuantil \(F_{0{,}05}\)).
Notamos que el valor observado cae en la región crítica, ya que \(\hat{F} > F_{crítico}\) y por lo tanto, debemos rechazar la hipótesis nula en favor de la alternativa. De hecho, \(P(F \ge \hat{F}) = 0.0125\), la cual es bastante baja, y concluimos que una proporción de varianza de aproximadamente \(4\) es demasiado grande como para haber ocurrido solo por azar. Se concluye entonces que el tiempo de exposición de los topos en la zona sur es más variable, lo cual tiene sentido dado que la topografía más heterogénea hace que en ciertos lugares los topos puedan estar más tiempo expuestos por estar más protegidos.

El ejemplo anterior sirve para ver que en ciertas ocasiones, aún si los valores pormedios de una variable aleatoria no son distintos, las poblaciones pueden ser distintas en términos de la variabilidad de estas. Veamos un ejemplo para un diseño experimental de dos muestras independientes, en la cual se mide una variable aleatoria continua.