10.3 Teorema del Límite Central (TLC).
Este teorema es el más importante de los que verémos en este libro. Este establce la distribución muestral de estadísticos construidos a partir de estimadores calculados de una muestra, y usa la ley de los grandes números para verificar que la ley de probabilidad del estadístico converge a una normal estándar.
Sea \(X_1, X_2, \ldots\) una sucesión infinita de variables aleatorias independientes e idénticamente distribuidas, con media \(\theta\) y error estándar \(SE(\theta)\). Entonces la función de distribución de la variable aleatoria: \[Z_n = \frac{\hat{\theta} - \theta}{SE(\theta)}\] tiende a la función de distribución normal estándar cuando \(n\) tiende a infinito.
El TLC establece que el estadístico \(Z_n\) tendrá una distribución normal estándar sin importar la distribución de las v. a. \(X_1, X_2, \ldots, X_n\), para valores grnades de \(n\), aunque esto no implica que la muestra tendrá una forma de campana. En general, a mayor sea la muestra, más cercana esta estará de la verdadera distribución poblacional.
Ahora, desde un punto de vista práctico, este teorema se cumple cuando \(n \ge 30\), de forma que no se necesitan muestras demasiado grandes para poder justificar la normalidad al realizar inferencia. Cuando \(n < 30\), la distribución muestral es más variables, haciendo que los estimadores de \(\theta\) y \(SE(\theta)\) sean menos precisos, y por lo tanto es mejor utilizar la distribución \(t\)-Student con \(n - 1\) grados de libertad.
Ejemplo. Simulemos un conjunto de variables aleatoria \(Z_n\) para distintos valores de \(n = 5, 10, 20, 30, 50, 100, 500, 1000\). Para ellos, imaginemos un experimento donde se siembran \(n\) semillas y se registra despues de un tiempo, si la semilla germina o no. Denotamos un exito como la semilla no germnina, que se sabe tiene probabilidad de exito de \(0{,}2\). Con esta información, simulamos \(1000\) replicas del experimento para cada \(n\), y construimos un histograma sobre el cual dibujamos una curva de la función de densidad normal estándar para comparar.
el gráfico muestra indudablemente que a medida que el \(n\) crece, el histograma de la distribución muestral se aproxima cada vez más a una normal estándar, y que el ajuste siempre es mejor cuando \(n \ge 30\), y para valores menores a este, el ajuste no es tan bueno.
Este ejemplo busca convencerlo de que el TLC es válido y aplicable a la hora de realizar inferenias. Pero también enfatiza la importancia de elegir un tamaño muestral aadecuado para que la suposición de normalidad tenga sentido de \(Z_n\) tenga sentido. En los próximos capítulos estaremos usando este teorema continuamente cuando derivemos la distribución muestral de los estadísitcos que cosntruiuremos para realizar estimaciones y contrastar hipóteis.
Corrección por población finita. Para cualquier población estadística que consiste de \(N\) unidades, se define la corrección de población finita como:
\[1 - f = 1 - \frac{n}{N}\]
- Solo tiene importancia en poblaciones pequeñas, en las que \(n > 0{,}05\times N\).
- Modifica los estimadores de la desviación estandar.