8.3 Distribución \(t\)-Student.

Se dice que un variable aleatoria continua \(X\) sigue una distribución \(t\)-Student con \(n\) grados de libertad (\(n>0\)), si su función de densidad viene dada por:

\[f(x) = \frac{\Gamma(\frac{n + 1}{2})}{\sqrt{n\pi}\Gamma(n/2)}\left(1 + \frac{x^2}{n}\right)^{-(n+1)/2}, \quad -\infty < x < \infty\]

y se escribe:

\[X \sim t(n)\]

en donde \(n\) es un número real positivo, aunque tomaremos principalmente el caso cuando \(n\) es entero positivo.

Función de densidad de una variable aleatoria $t$-Student $t(n)$, para $n = 1$ (línea sólida), $n = 4$ (línea quebrada) y $n = 15$ (línea punteada). En rojo se muestra la distribución normal estándar.

Figure 8.7: Función de densidad de una variable aleatoria \(t\)-Student \(t(n)\), para \(n = 1\) (línea sólida), \(n = 4\) (línea quebrada) y \(n = 15\) (línea punteada). En rojo se muestra la distribución normal estándar.

La función de densidad es de campana como la normal, pero con colas más pesadas que esta última, esto es, la probabilidad de obtener una observación extrema es mayor que la probabilidad de esa misma observación proviniendo de una distribución normal. A medida que aumentan los grados de libertad, la amplitud de las colas disminuye y la distribución se aproxima a una normal, y en el límite cuando \(n\rightarrow\infty\), ambas densidades coinciden.

La función de distribución tampoco tiene una expresión sencilla y se escribe como:

\[F(x) = \int_{-\infty}^\infty \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(n/2)} \left(1 + \frac{u^2}{n}\right)^{-(n+1)/2} du\]

cuyo gráfico se muestra a continuación para una \(t\)-Student de \(4\) grados de libertad.

Función de distribución acumulada de una variable aleatoria $t(n = 4)$.

Figure 8.8: Función de distribución acumulada de una variable aleatoria \(t(n = 4)\).

Es posible obtener valores de probabilidad acumulada en R usando el comando pt, el cual da \(F(x) = P(X \le x)\) (vea el ejemplo al final de esta subsección).

Para esta distribución, es posible demostrar que:

\[\begin{aligned} & E(X) = 0, \quad n > 1 \\ & Var(X) = \frac{n}{n - 2}, \quad n > 2 \end{aligned}\]

Esta distribución resulta cuando se estudian ciertas operaciones entre variables aleatorias. Un resultado que usaremos seguido en inferencia estadística es el siguiente:

Si \(X \sim N(0,1)\) y \(Y \sim \chi^2(n)\) son dos variables aleatorias independientes, entonces: \[\frac{X}{\sqrt{Y/n}} \sim t(n)\]

También se puede llegar al siguiente resultado:

Sean \(X_1, \ldots, X_n\) v. a. independientes, cada una de ellas con distribución normal \(N(\mu, \sigma^2)\). Entonces: \[\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n - 1)\] donde \(S^2 = \frac{1}{n - 1}\sum_{i=1}^n(X_i - \bar{X})^2\) y \(\bar{X} = \frac{1}{n}\sum_{i=1}^nX_i\).

Veamos un ejemplo.

Ejemplo. Un programa que busca probar la eficacia de productos microbiológicos por su capacidad de degradar contaminantes derivados del petroleo (de tal forma que se puedan limpiar los ecosistemas que sufren el efecto del derrames amplios en las costas) es puesto en marcha. Investigaciones iniciales muestran que el producto es capaz de disminuir la cantidad de derivados del petroleo en un promedio de \(10\) ppm. Las pruebas del producto, basadas en una muestra de \(5\) recolecciones al azar de agua contaminadas y se les aplica el producto y se encuentra una variabilidad en la apcidad de degradación de \(5{,}2\) ppm. La proposición anterior entoncs muestra que la variable aleatoria \[\frac{\bar{X} - 10}{5{,}2/\sqrt{5}} \sim t(4)\] Por lo que podemos calcular la probabilidad de que al aplicar el producto se reduzca la contamianción por petroleo a \(5\) ppm, introduciendo este valor en la ecuación anterior, obteniendose \((5 - 10)/5{,}2/\sqrt{5} = -0{,}4300\). Luego usamos la función pt como en pt(-0.43, 4) que arroja un valor de 0.3447 (como se ve en la figura 8.9, a la izquierda). Si queremos la probabilidad de que la contaminación solo descienda hasta \(20\) ppm como mínimo, entonces se calcula \((20 - 10)/5{,}2/\sqrt{5} = 0{,}86\), cuya probabilidad se puede calcular como 1 - pt(0.86, 4), cuyo valor es 0.7809 (como se ve en la figura 8.9, a la derecha).

Función de distribución acumulada de una variable aleatoria $t(n = 4)$.

Figure 8.9: Función de distribución acumulada de una variable aleatoria \(t(n = 4)\).