11.2 Estimación puntual.
Cuando un investigador realiza un experimento, por lo general, solo toma una muestra representativa de tamaño \(n\) de la población de interés y calcula estimadores que le permitan describir los datos obtenidos y realizar inferencias. El investigador no se molesta en realizar el experimento varias veces (no es como las simulaciones, donde podíamos realizar repeticiones tantas como quisiéramos. En la realidad, no se tiene el esfuerzo, la energía o los medios para realizar múltiples repeticiones de un experimento). En estos casos se usan estimadores puntuales para poder realizar inferencias basados en solo una repetición del experimento.
Un estimador puntual de un parámetro \(\theta\), es solo un valor \(\hat{\theta}\) de un estadístico \(\hat{\Theta} = g(X)\). Para aclarar la notación, \(\hat{\Theta}\) es el conjunto de todos los posibles valores del estadístico, y \(\hat{\theta}\) es un elemento de ese conjunto particular, calculado a partir de una muestra.
Veamos algunos ejemplos.
Ejemplo. Un experimento que busca evaluar la reacción de saltamontes a estímulos visuales o acústicos, en los que midieron el tiempo de reacción a estos antes del vuelo, encontraron que el tiempo de reacción promedio a estímulos acústicos es \(\bar{X}_a = 108{,}05\) segundos, y a estímulos visuales es \(\bar{X}_v=87{,}19\) segundos. Estos dos valores son estimadores puntuales de las medias poblacionales \(\mu_a\) y \(\mu_v\).
El siguiente, es un ejemplo que trata de enseñar cómo realizar estimaciones puntuales en diseños estratificados.
Ejemplo. Siniff y Skoog (1964) realizaron un muestreo aleatorio estratificado de una manada de caribúes de Nelchina en Alaska. Para ello, se establecieron 6 estratos (basados en estudios preliminares de la densidad relativa de los caribúes), y seleccionaron de manera aleatoria una muestra en cada uno de tamaño \(n_i\) ( \(i=A, B, C, D, E, F\) ), cada una de unidades muestrales de 4 millas cuadradas, obteniéndose los datos mostrados en la tabla.
Se desea saber el tamaño total de la población de caribúes.
Estrato | Tamaño del Estrato (\(S\)) | Tamaño de muestra (\(N_h\)) | Número promedio de Caribúes | Varianza |
---|---|---|---|---|
A | 400 | 98 | 24.1 | 5575 |
B | 30 | 10 | 25.6 | 4064 |
C | 61 | 37 | 267.6 | 347556 |
D | 18 | 6 | 179.0 | 22798 |
E | 70 | 39 | 293.7 | 123578 |
F | 120 | 21 | 33.2 | 9795 |
Total | 699 | 211 | NA | NA |
Para poder conocer un estimado del tamaño poblacional total \(\hat{N}\), se necesita primero de un estimado del número promedio de caribúes por unidad de muestreo. \[ \begin{aligned} \bar{X}_{ST} &= \frac{\sum_{h=1}^L N_h \bar{x}_h}{N} \\ &= \frac{400\times24{,}1 + 30\times25{,}6 + 61\times267{,}6 + \ldots}{699} \\ &= 77{,}96\text{ caribúes milla}^{-2} \end{aligned} \] y se puede calcular la densidad de toda la población usando el total de millas cuadradas que conforman los estratos: \[\hat{N} = S \times \bar{X}_{ST} = 699\text{ milla}^2 \times 77{,}96\text{ caribúes milla}^{-2} = 54.597\text{ caribúes}\] Sabemos entonces, que el estimado del número de caribúes es \(\hat{N} = 54.597\text{ caribúes}\). Sin embargo, aun necesitamos cuantificar la incertidumbre asociada a esta estimación. Podemos calcular la varianza de \(\bar{X}_{ST}\) como: \[Var(\bar{X}_{ST}) = \sum_{i=1}^L\left[ \frac{W_h^2 S_h^2}{n_h}(1 - f_h) \right]\] donde \(W_h = N_h / N\) es el ponderado del estrato y \(f_h = n_h / N_h\). Usando los datos de la tabla: \[Var(\bar{X}_{ST}) = \left[ \frac{0{,}572^2 5575}{98} \right]\left(1 - \frac{98}{400}\right) + \left[ \frac{0{,}043^2 4064}{10} \right]\left(1 - \frac{10}{30}\right) + \ldots = 69{,}83\] de forma que la varianza del tamaño de la población de caribúes es \(69{,}83 \times 699^2 = 34.105.734\), y la desviación estándar es \(\sqrt{34.105.734} = 5.840\) caribúes.
Entonces el estimador buscado, con su medida de incertidumbre, es \[54.597 \pm 5.840 \text{ caribúes}\]
El siguiente ejemplo, es uno donde se construye un estadístico a partir de otro que tiene una ley de probabilidad especificada. De esta forma, podemos facilitar la obtención de una distribución muestral asociada al nuevo estadístico que permita obtener medidas de probabilidad asociada a valores observados particulares.
Ejemplo. Digamos que tenemos una estimador puntual que queremos evaluar, digamos, la media calculada \(\bar{X}\) de una muestra de tamaño \(n\), en cuanto a la probabilidad de ocurrencia de este. El TLC nos indica que este estimador se distribuye normalmente (si conocemos la varianza poblacional o si el \(n\) es lo suficientemente grande como para asumir que conocemos la varianza poblacional lo suficientemente bien). Escribimos entonces el estimador puntual \[\hat{Z} = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}}\] Como vimos en la sección [distribucion-normal], este se puede usar para encontrar valores de probabilidad asociado a obtener un valor de a lo sumo \(\bar{X}\) como: \[P(X \le \bar{X}) = P(Z \le\hat{Z})\]
11.2.1 Construcción de estadísticos para inferencia.
El ejemplo anterior es muy importante. Nos dice que si podemos asumir una distribución para una variable aleatoria, entonces podemos construir un estadístico con el cual facilitar la obtención de medidas de probabilidad. Esto nos da una forma sencilla de encontrar probabilidades asociadas a un estimador particular calculado a partir de una muestra, y así, poder obtener medidas de incertidumbre que nos permitan derivar conclusiones adecuadas sobre los estimadores.
Estadístico sobre la media
Los estadísticos sobre la media los podemos escribir usando el TLC como base para realizar inferencia. Si tenemos un conjunto de v. a. \(X_1, X_2, \ldots, X_n\) independientes e idénticamente distribuidas como \(f(\theta)\), de las cuales se hacen las observaciones \(x_1, x_2, \ldots, x_n\), de la cual estimamos el valor \(\hat{\theta}\), entonces podemos construir un estadístico sobre \(\theta\) como:
\[\frac{\hat{\theta} - \theta}{SE(\theta)}\]
Este estadístico lo podemos entender al darnos cuenta de dos cosas:
- El uso de la diferencia \(\hat{\theta} - \theta\) sirve como una medida de similitud entre el estimador \(\hat{\theta}\) y el valor real del parámetro \(\theta\): valores grandes indican que ambos son menos parecidos entre sí, mientras que valores pequeños de esta diferencia indican que el estimador y el parámetro son más similares entre sí.
- De igual forma, el signo de la diferencia nos dice la dirección en la que cae el estimador: valores positivos indican que se tienen valores por encima del valor del parámetro, mientras que un signo negativo indica que el valor estimado cae por debajo del verdadero valor del parámetro.
- Al dividir la diferencia entre el error estándar \(SE(\theta)\), lo que se hace es estandarizar la diferencia. De esta forma, las diferencias las podemos entender como desviaciones estándar, esto es, a cuantas desviaciones estándar el estimador cae del parámetro.
En este caso, se asume que el error estándar es conocido, de forma que el estadístico sigue una distribución normal estándar (según el TLC), y se escribe:
\[\hat{Z} = \frac{\hat{\theta} - \theta}{SE(\theta)} \sim N(0, 1)\]
La ecuación anterior también es válida aun si tenemos que calcular el error estándar de los datos, siempre y cuando el tamaño de la muestra recolectada para estimar \(SE(\theta)\) sea lo suficientemente grande como para asegurarnos de que sabemos su valor con una exactitud adecuada.
Si, por otro lado, no conocemos el verdadero valor de \(SE(\theta)\) y la muestra de donde estimamos a este es muy pequeña, entonces debemos asumir que este es una variable aleatoria más. La distribución muestral del nuevo estadístico la podemos obtener notando que:
\[SE(\hat{\theta}) = \frac{\hat{\sigma}}{\sqrt{n}}\]
donde \(\hat{\sigma}^2 \sim \chi^2(n - 1)\), y por la proposición final en la sección [distribución-\(t\)-student], entonces el estadístico sigue una distribución \(t\)-Student y se escribe como:
\[\hat{t} = \frac{\hat{\theta} - \theta}{SE(\hat{\theta})} \sim t(n - 1)\]
Con este esquema general, podremos realizar inferencias con respecto a la media y otros parámetros, como veremos en la siguiente sección. Pero antes, veamos cómo construir un estadístico sobre la varianza.
Estadístico sobre la varianza
Antes usamos la diferencia entre el estimador y el parámetro para construir un estadístico que nos dijera que tan similares son. Este argumento funciona bien con estadísticos como la media, ya que este corresponde a una medida de locación, y la lejanía de dos locaciones (numéricamente hablando) nos permite entender que tan similares son (ve la figura ??). Con las varianzas, el argumento de la diferencia no es tan intuitivo. Si queremos saber si una varianza es mayor o menor que otra, resulta más intuitivo verificar que tanto mayor (o menor) es la dispersión de una población con respecto a otra. Esto apunta al uso de cocientes entre varianzas.
Si tenemos un conjunto de v. a. \(X_1, X_2, \ldots, X_n\) independientes e idénticamente distribuidas como \(f(\theta)\), de las cuales se hacen las observaciones \(x_1, x_2, \ldots, x_n\), de la cual estimamos la varianza \(S^2\), entonces podemos construir un estadístico sobre \(S^2\) como:
\[\frac{(n - 1) S^2}{\sigma^2}\]
la cual sabemos, por la proposición que vimos al final de la sección [distribucion-ji-cuadrada] sabemos se distribuye como una distribución \(\chi^2\) con \(n - 1\) grados de libertad, por lo que podemos escribir:
\[X^2 = \frac{(n - 1) S^2}{\sigma^2} \sim \chi^2(n - 1)\]
Se tiene entonces que:
- Si la muestra proviene de la misma población, el valor esperado de la varianza \(E[S^2]\) será \(\sigma^2\) y el valor esperado del cociente será \(E[(n - 1) S^2 / \sigma^2] = \frac{(n - 1)}{\sigma^2} E[S^2] = n - 1\). Este valor resulta que corresponde a la media de la distribución \(\chi^2\) con \(n - 1\) grados de libertad.
- Si la muestra proviene de una población con un varianza menor, entonces el valor esperado \(E[S^2]\) es menor que \(\sigma^2\), por lo que el cociente \(\frac{(n - 1)}{\sigma^2} E[S^2] < n - 1\).
- Si la muestra proviene de una población con un varianza mayor, entonces el valor esperado \(E[S^2]\) es mayor que \(\sigma^2\), por lo que el cociente \(\frac{(n - 1)}{\sigma^2} E[S^2] > n - 1\).
Los casos anteriores corresponden a lo que esperaríamos a la larga (si repitiéramos muchas veces el experimento). Pero hay que entender, que al hacer el experimento y recolectar una muestra, el valor estimado de \(S^2\) puede ser menor o mayor que \(\sigma^2\) solo por efecto del azar. Podemos calcular entonces que tan probable es que el valor sea tan grande como el encontrado usando la distribución muestral, \(P(\chi^2 \ge X^2)\).
Ahora, el procedimiento anterior es útil cuando queremos verificar si la varianza calculada de una muestra, corresponde con la varianza conocida para la población de donde se tomó la muestra. Pero podríamos querer comparar dos poblaciones distintas, para verificar si sus varianzas son las mismas. En este caso, supongamos que las varianzas de las poblaciones son \(\sigma_1^2\) y \(\sigma_2^2\), cuyos estimadores respectivos son \(S_1^2\) y \(S_2^2\), calculados a partir de muestras de tamaño \(n_1\) y \(n_2\), respectivamente. Podemos usar una parte de estadístico que construimos antes para cada una de las varianzas:
\[\frac{(n_i - 1) S_i^2}{\sigma_i^2}\]
para \(i = 1\) y \(2\), que sabemos corresponden a una v. a. que siguen una distribución \(\chi^2\) con \(n_i - 1\) grados de libertad. Entonces, podemos usar la proposición final de la sección [distribucion-f] para verificar que
\[\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} = \frac{\sigma_2^2 S_1^2}{\sigma_1^2 S_2^2}\]
sigue una distribución \(F\) con \(n_1 - 1\) y \(n_2 - 1\) grados de libertad, y se puede escribir:
\[\hat{F} = \frac{\sigma_2^2 S_1^2}{\sigma_1^2 S_2^2} \sim F(n_1 -1, n_2 - 1)\]
El valor esperado para esta distribución es ligeramente mayor a uno para tamaños de muestra muy pequeño, y es aproximadamente de uno para tamaños de muestra grande. De forma que: si el valor es mayor o menor a uno, podríamos hablar sobre varianzas que no son iguales, y por tanto, las muestras son obtenidas de poblaciones distintas. De nuevo, esto es en un sentido estadístico: la muestra puede resultar en proporciones de varianzas distintas a uno solo por azar. Podemos calcular que tan probable es que el valor sea tan grande como el encontrado usando la distribución muestral, \(P(F \ge \hat{F})\).
Usando este esquema general (los estadísticos construidos), podemos cuantificar la incertidumbre con respecto a un parámetro en problemas de inferencia como sigue en la siguiente sección.