12.2 \(P(Z \ge \hat{Z}) = ???\)

En esta sección nos interesa encontrar valores de probabilidad asociados a los estadísticos calculados a partir de los datos. Estas probabilidades nos sirve para tomar decisiones basado en que tan probable es que la hipótesis nula sea cierta (que es la que asumimos es la hipótesis que es cierta).

12.2.1 Región crítica

Al definir las hipótesis y calcular un estadístico de prueba, se define un conjunto de valores que puede tomar este último que permiten tomar una decisión sobre la hipótesis que la evidencia está apoyando.

Se puede escoger un valor crítico para el cual se puede definir la región crítica (que no es más que un subconjunto de valores del parámetro \(\theta\)), la cual permite rechazar la hipótesis nula si el parámetro \(\theta\) cae en esa región (pertenece al subconjunto).

Al igual que hicimos para los intervalos de confianza, se elige un valor umbral \(\alpha\) que determina el criterio de decisión. Esto se logra por medio del uso del \(\alpha\)-cuantil de la distribución muestral del estadístico \(\Theta\) que construimos, que denotamos como \(\Theta_\alpha\).
Por ejemplo, si la distribución del estadístico es una normal estándar, de forma que habremos calculado con la evidencia disponible y nuestra conjetura un valor estimado de \(\hat{Z}\), elegimos entonces el cuantil \(z_\alpha\) para tomar una decisión:

  • Si \(\hat{Z} < z_\alpha\) entonces la desviación observada (del estimador con respecto a muestra conjetura del valor de \(\theta\)) no es lo suficientemente grande para rechazar la hipótesis nula, y tomamos la decisión de no rechazarla. En este caso, se dice que la desviación observada es una que podríamos esperar por azar solamente.
  • Si \(\hat{Z} \ge z_\alpha\) entonces la desviación observada es tan grande o mayor que la que esperaríamos solo por azar, por lo que debe haber un efecto externo (lo que nuestra hipótesis experimental plantea) que está cambiando la ley de probabilidad según la hipótesis nula, por otra expresada en nuestra alternativa, y por lo tanto, debemos rechazar la hipótesis nula en favor de esa alternativa.

Notamos que no hay ambigüedades en el criterio de decisión: o rechazamos o no rechazamos la hipótesis nula.

El valor de \(\alpha\), como ya mencionamos en el capítulo anterior, se conoce como nivel de significancia. En el contexto del contraste de hipótesis se conoce como la probabilidad de rechazar la hipótesis nula siendo esta cierta, es decir, es una probabilidad de equivocarnos sobre el contraste (más adelante hablaremos de este y otro tipo de error que es importante considerar), y se escribe:

\[\alpha = P(\text{Rechazar } H_0 \vert H_0 \text{ verdadera})\]

Este valor se elige tan pequeño como se quiera, pero no tanto como para afectar la validez de nuestras conclusiones al realizar un contraste. Al igual que con los intervalos de confianza, se suelen elegir valores de \(0{,}1\), de \(0{,}05\), o de \(0{,}01\), de acuerdo a la importancia de cometer un error en el contraste.

En la figura 12.1 se muestra una región crítica para la distribución normal estándar, para un contraste hipotético de la forma \(H_0 : \theta = \theta_0\) y \(H_1: \theta \ne \theta_0\). A este tipo de contraste, en el cual las hipótesis se establecen en términos de igualdad y diferencia, se le conoce como contrastes bilaterales, dado que la desviación observada se espera caiga por encima o por debajo del valor esperado. En estos casos, la región crítica se divide en dos regiones a ambos lados del valor esperado de la desviación.

Los contrastes pueden tener dirección cuando esperamos que el parámetro \(\theta\) sea mayor o menor que el valor esperado según la hipótesis nula, \(\theta_0\). Esto es, cuando se plantean contrastes de la forma \(H_0 : \theta\le \theta_0\) y \(H_1: \theta > \theta_0\); o contrastes de la forma \(H_0 : \theta \ge \theta_0\) y \(H_1: \theta < \theta_0\). En estos casos, se dice que el contraste es unilateral.
En estos casos, solo se tiene una región crítica a la derecha o izquierda de la distribución (la dirección depende del símbolo usado en la definición de la hipótesis alternativa). Más adelante hablaremos de contrastes unilaterales.

Las regiones sombreadas en la figura corresponden a la probabilidad acumulada \(\alpha\). Como la suma del área de ambas regiones es \(\alpha\), y dada la simetría de la distribución normal, eso quiere decir que la probabilidad acumulada de la región crítica a la derecha, la región sombreada a la derecha, es de \(\alpha/2\); y de igual forma, en la región crítica de la izquierda, la probabilidad acumulada, representada por la región sombrada a la izquierda, es de \(\alpha/2\).

Región crítica para una distribución normal estándar. Note que la región crítica corresponde a los valores de Z de la distribución cuya probabilidad acumulada es $lpha$.

Figure 12.1: Región crítica para una distribución normal estándar. Note que la región crítica corresponde a los valores de Z de la distribución cuya probabilidad acumulada es \(lpha\).

De esta forma, se definen dos regiones críticas con dos valores críticos, \(z_{\alpha/2}\) define el valor crítico a la izquierda, mientras que \(z_{1 - \alpha/2}\) define el valor crítico a la derecha de la distribución.

En el caso particular de la figura 12.1, si el valor calculado del estadístico cae en alguna de las regiones sombreada, es decir, si \(\hat{Z} \le z_{\alpha/2}\) o si \(\hat{Z} \ge z_{1 - \alpha/2}\), se decide rechazar la hipótesis nula, de lo contrario, se mantiene.

Ejemplo. Siguiendo con nuestro ejemplo del efecto de la succinilcolina sobre la cantidad de andrógenos en venados. Ya antes establecimos las hipótesis en términos del parámetro \(D\), la diferencia entre la cantidad de andrógenos antes y después de la inyección de succinilcolina, y calculamos un estadístico para esta diferencia obteniendo el valor de \(\hat{t} = 0.14\) el cual sabemos se distribuye como \(t\)-Student con \(n - 1 = 15 - 1 = 14\) grados de libertad.

Para tomar una decisión seleccionamos un valor adecuado de \(\alpha\) que nos de cierta seguridad sobre nuestra decisión. Podemos elegir \(\alpha = 0{,}05\) y ahora definir la región crítica: para esto, notamos que la hipótesis alternativa no tiene dirección, esto es, no esperamos que la desviación de \(D\) con respecto al valor esperado de cero, sea mayor a cero o menor a cero, por lo que la región crítica debe estar a ambos lados del valor esperado, con probabilidades acumuladas que en total sumen \(\alpha\).
Se usa entonces como valores críticos los cuantiles \(t_{0{,}05 / 2; 14} = t_{0{,}025; 14}\) y \(t_{1 - 0{,}05 / 2; 14} = t_{0{,}975; 14}\). Estos cuantiles se pueden obtener en R usando la función qt que da los cuantiles de la distribución. Se obtiene entonces \(t_{0{,}025; 14}\) como qt(.025, 14) cuyo resultado es -2.14. Para el otro cuantil, se obtiene como qt(.975, 14) cuyo resultado es 2.14.
Notamos que nuestro valor calculado cae fuera de la región critica: es mayor que el cuantil t_{0{,}025; 14}$ y menor que el cuantil t_{0{,}975; 14}$, por lo que no podemos, según nuestro criterio de decisión, rechazar la hipótesis nula en favor de la alternativa. Esto nos lleva a concluir que la inyección de succinilcolina no tiene ningún efecto sobre la concentración de andrógenos en la sangre de los venados, dado que la desviación observada es tan pequeña, que no difiere de la que obtendríamos por azar.

12.2.2 El P-valor como criterio de decisión.

También es posible asociar un valor de probabilidad específica a obtener un estadístico tan grande como el calculado usando la función de distribución acumulada. Este valor es:

\[p = P(\Theta \ge \hat{\Theta})\]

donde \(p\) no debe confundirse con una proporción, sino que es la probabilidad de obtener un valor del estadístico \(\Theta\) tan grande o mayor que \(\hat{\Theta}\) solo por azar. Este valor de probabilidad sirve como medida de que tan cierta es la hipótesis nula

Dada la facilidad con la cual es posible calcular valores de probabilidad hoy en día usando paquetes estadísticos, siempre podemos obtener la probabilidad acumulada de cualquier estadístico.

Ejemplo. Anteriormente, calculamos que el estadístico \(\hat{t}\) calculado para las diferencias entre las concentraciones de andrógenos al momento y 30 minutos después de la inyección fue 0.14.
Podemos obtener la probabilidad acumulada de obtener una desviación tan grande como esa, solo por azar, usando la función pt, en R. Escribimos: \[1 - P(t \ge 0.14) = 0.4462\] donde se usó pt(0{,}14, 14) para calcular la probabilidad acumulada hasta \(\hat{t} = 0{,}14\). Este valor nos dice que la probabilidad de encontrar una desviación en la concentración de andrógenos tan grande o mayor como la observada es bastante grande, por lo que se esperaría por azar. En este caso, tampoco rechazamos la hipótesis nula, pero esta vez lo hacemos usando como criterio el valor de probabilidad acumulada.

El problema de los valores marginales.

El uso del nivel de significancia como criterio de decisión es bastante útil para tomar decisiones acerca de un contraste que queremos realizar. Sin embargo, debido a la naturaleza estocástica de los experimentos aleatorios, hay casos donde es más difícil llegar a una decisión razonable. Por ejemplo, si realizáramos un contraste hipotético cualquiera a partir de datos recolectados en un experimento, realizaríamos el cálculo del estadístico y lo compararíamos con el valor crítico. Este valor crítico nos dice que la probabilidad acumulada desde este valor hasta infinito es igual a \(\alpha\), esto es:

\[P(Z \ge Z_{crtitico}) = \alpha\]

Entonces, si en nuestro experimento hipotético, nuestro estadístico calculado cae en la región crítica a una distancia considerable del valor crítico, no tendríamos problema en rechazar la hipótesis nula. Desde el punto de vista del \(p\) valor como criterio de decisión, dicho estadístico tendría una probabilidad asociada mucho menor al valor de \(\alpha\).
Ahora, suponga que el estadístico no dista mucho del valor crítico, de forma que su probabilidad no es muy diferente de \(\alpha\).

Seamos más prácticos: digamos que en nuestro experimento hipotético usted está trabajando con un nivel de significancia de \(0{,}05\) para un contraste bilateral en el que piensa usar la distribución normal estándar para comparar du estadístico calculado, cuyo valor encuentra es de \(\hat{Z} = 2{,}00\) que tiene una probabilidad asociada de \(p=0{,}0228\).
Para un contraste de este tipo usted sabe, por lo discutido antes, que el valor crítico es \(1{,}96\), que tiene una probabilidad asociada de \(\alpha/2 = 0{,}025\).

Bajo este caso hipotético particular (que suele ocurrir en la práctica) podríamos pensar en rechazar la hipótesis nula. Después de todo, tanto el valor calculado como la probabilidad del mismo son menores a los valores críticos. Sin embargo, debemos recordar que nuestro valor estimado del estadístico es solo una observación aleatoria del verdadero valor del estadístico, lo cual implica que tendríamos que pensar en que tan diferente es nuestro valor del estadístico del valor crítico: estando muy cerca del valor crítico no nos da mucha seguridad de que sean distintos.

El argumento dado en el ejemplo anterior nos hace darnos cuenta de la dificultad de realizar inferencia usando valores marginales, valores que caen cerca del margen de la región crítica. En estas situaciones, se debe sopesar la necesidad de concluir en una u otra dirección contra las consecuencias de cometer un error de decisión. Si las consecuencia de la decisión son muy relevantes, como lo puede ser el gasto de dinero y/o esfuerzo de investigación, o más importante aún, la salud y supervivencia de algún ser vivo, se ha de optar por una decisión cautelosa que minimice los costos, materiales o humanos, de equivocarse.

El último párrafo pone de manifiesto un problema importante que tiene que ver con el control de la tasa de errores que cometemos. En este sentido, necesitamos precisar estos errores con mayor exactitud.