5.2 Datos Agrupados.

Para comprender los conceptos de la estadística descriptiva en datos agrupados, usamos el conjunto de datos obtenidos del experimento que busca evaluar los niveles de glicemia (en mg dL\({}^{-1}\)) en 25 pacientes, cuyos resultados fueron:

\[75, 82, 90, 95, 101, 112, 121, 132, 140, 97, 84, 90, 96, 102, 114, 121, 138, 87, 91, 96, 104, 123, 89, 93, 99\]

Como vimos antes, estos datos se pueden agrupar en clases que denotan intervalos (que pueden ser continuos o aparentes) en los cuales caen las observaciones con cierta frecuencia absoluta, como se muestra a continuación:

glicemia <- tribble(
  ~Lim_rel_inf, ~Lim_rel_sup, ~`Marca de Clase`, ~`f_i`, ~`fr_i`, ~`F_i`, ~`Fr_i`,
  74.5, 86.5, 80.5, 3, 12 / 100, 3, 12 / 100,
  86.5, 98.5, 92.5, 10, 40 / 100, 13, 52 / 100,
  98.5, 110.5, 104.5, 4, 16 / 100, 17, 68 / 100,
  110.5, 122.5, 116.5, 4, 16 / 100, 21, 84 / 100,
  122.5, 134.5, 128.5, 2, 8 / 100, 23, 92 / 100,
  134.5, 146.5, 140.5, 2, 8 / 100, 25, 100 / 100)

glicemia %>% kbl()
Lim_rel_inf Lim_rel_sup Marca de Clase f_i fr_i F_i Fr_i
74.5 86.5 80.5 3 0.12 3 0.12
86.5 98.5 92.5 10 0.40 13 0.52
98.5 110.5 104.5 4 0.16 17 0.68
110.5 122.5 116.5 4 0.16 21 0.84
122.5 134.5 128.5 2 0.08 23 0.92
134.5 146.5 140.5 2 0.08 25 1.00

5.2.1 Medidas de Tendencia Central.

El promedio se define como:

\[\bar{X} = \frac{\sum_{i=1}^k f_ic_i}{n}\]

dónde \(c_i\) es la \(i\)-ésima marca de clase, y \(f_i\) es la frecuencia absoluta asociada a la marca de clase (cuantas observaciones \(c_i\) contiene dentro de los límites del intervalo).

Para las marcas de clases de los índices de glicemia medidos se calcularía entonces: \[\bar{X} = \frac{3\times80{,}5 + 10\times92{,}5 + 4\times104{,}5 + 4\times116{,}5 + 2\times128{,}5 + 2\times140{,}5}{25}=103{,}54 \text{ g dL}^{-1}\]

La mediana para datos agrupados se consigue siguiendo los siguientes pasos:

  1. Se calcula el índice de posición de la mediana como \(n/2\).
  2. Se localiza la clase que identifica el intervalo mediano (aquel que contiene la mediana) al buscar la primera clase cuya frecuencia absoluta acumulada sea igual o mayor a \(n/2\).
  3. La mediana es entonces: \[M = L_i + \left(\frac{n/2 - F_{i-1}}{f_i}\right)\cdot a_i\] donde \(L_i\) es el límite inferior del intervalo mediano, \(F_{i-1}\) es la frecuencia absoluta acumulada de la clase anterior, \(f_i\) es la frecuencia absoluta de la clase que contiene la mediana, y \(a_i\) es la amplitud de los intervalos.

Para el caso de los índices de glicemia, se tiene que \(n/2 = 25/2 =12{,}5\). La primera clase con \(F_i \ge 12{,}5\) es la segunda clase (\(F_i = 13\)). Inspeccionando la tabla de datos agrupados podemos calcular entonces: \[M = 86{,}5 + \left(\frac{12{,}5 - 3}{10}\right)\cdot 12 = 97{,}9\text{ g dL}^{-1}\]

La moda se calcula, para datos agrupados, siguiendo estos pasos:

  1. Se busca la clase modal (aquella que contiene la moda) determinando cuál de ellas tiene la mayor frecuencia absoluta.
  2. Se calcula la moda como: \[Moda(\{c_i\}_{i=1}^k) = L_i + \left(\frac{f_i - f_{i-1}}{(f_i - f_{i-1}) + (f_i - f_{i+1})}\right)\cdot a_i\]

Para el caso de los índices de glicemia, la clase con la mayor frecuencia absoluta es la segunda clase, por lo que: \[Moda(\{c_i\}_{i=1}^k) = 86{,}5 + \left(\frac{10 - 3}{(10 - 3) + (10 - 4)}\right)\cdot 12 = 92{,}96\text{ g dL}^{-1}\]

Notamos que los resultados sobre los datos de frecuencia muestran que \(Moda < M < \bar{X}\), lo cual nos indica que la distribución esta sesgada a la derecha.

5.2.2 Medidas de posición.

Para los cuantiles de datos agrupados, se sigue un procedimiento similar al de datos sin agrupar, identificando primero las clases que contiene los cuantiles. Para ello, se sigue el procedimiento:

  1. Calcula \(\frac{n\times i}{d}\) donde \(i\) representa el \(i\)-ésimo cuantil, y \(d\) el número de partes en las que se desea dividir la distribución.
  2. Se busca en la tabla de datos agrupados la clase cuya frecuencia absoluta acumulada sea mayor o igual a \(\frac{n\times i}{d}\). Este será la clase cuantílica.
  3. Se calcula el cuantil como: \[C_i = L_i + \left(\frac{f_i - f_{i-1}}{f_i}\right)\cdot a_i\]

Digamos que queremos calcular los cuartiles de los datos de índice de glicemia. En este caso, calculamos para \(i = 1,2,3\) los valores de \(i\times n / 4\), los cuales son \(6{,}25, 12{,}5,\) y \(18{,}75\).
Calculamos los cuartiles: para el primer cuartil, el resultado muestra que el cuartil se encuentra en la segunda clase, por lo que: \[Q_1 = 86{,}5 + \left(\frac{10 - 3}{10}\right)\cdot 12 = 95{,}7\text{ g dL}^{-1}\]
Para el segundo cuartil nos damos cuenta que el método arroja \(Q_2 = Q_1\), lo cual es un error (asegúrese de verificar este resultado, ¿por qué sucede esto?). La razón de esto es que la resolución de los datos no permite la estimación de los cuantiles dado el tamaño de la muestra (vea la discusión más adelante en la siguiente sección). En este caso, recordamos que \(Q_2 = M\), y usamos el valor de la mediana calculado anteriormente: \[Q_2 = 97{,}9\text{ g dL}^{-1}\] Para el tercer cuartil, vemos que la clase que contiene el cuartil es la cuarta clase, por lo que: \[Q_3 = 110{,}5 + \left(\frac{21 - 17}{21}\right)\cdot 12 = 112{,}79\text{ g dL}^{-1}\]

De los resultados anteriores, podemos notar que la distancia entre el primer y segundo cuartil es un orden de magnitud menor que la distancia entre el segundo y tercer cuartil, indicando que las observaciones en la tercera parte de la distribución tienen una mayor dispersión, y que en la segunda parte de la distribución las observaciones se aglomeran. Esto refuerza la intuición obtenida antes con las medidas de tendencia central que la distribución está sesgada hacia la derecha.

5.2.3 Medidas de dispersión.

El recorrido (o rango) y el rango intercuartílico (IQR) se calculan igual que antes para datos sin agrupar. Sin embargo, la definición de varianza la modificamos para usar las marcas de clase, y no las observaciones:

\[S^2 = \frac{\sum_{i=1}^k f_i(c_i - \bar{X})^2}{n - 1}\]

A partir de esta, es posible calcular la desviación estándar y el coeficiente de variación tal como se definieron para datos sin agrupar.

Se tiene que \(R = 140 - 75 = 65\) g dL\({}^{-1}\) y \(IQR = 112{,}79 - 95{,}7 = 17{,}09\) g dL\({}^{-1}\), los cuales nos indican que el 50% de las observaciones solo se encuentran ocupando aproximadamente un \(4\)% del dominio posible de las observaciones.
La varianza es \(S^2 = 311{,}04\) (g dL\({}^{-1}\))\({}^2\), y \(S = 17{,}64\) g dL\({}^{-1}\) con \(CV = 0{,}1703\). Esto nos indica que la distribución de los datos parece no ser tan variable, pero esto puede ser engañoso ya que sabemos que la distribución esta sesgada.

5.2.4 Medidas de forma.

Para el cálculo del coeficiente de asimetría y curtosis, se procede al igual que antes para datos sin agrupar, pero usamos las marcas de clases en lugar de las observaciones para realizar el cálculo. El coeficiente de asimetría se calcula como:

\[A = \frac{\sum_{i=1}^kf_i(c_i - \bar{X})^3}{nS^3}\]

y la curtosis como:

\[A = \frac{\sum_{i=1}^kf_i(c_i - \bar{X})^4}{nS^4} - 3\]

Para los índices de glicemia resumidos en la tabla de datos agrupados, obtenemos \(A = 0{,}661\) y \(K = 2{,}32\). Esto nos indica que la distribución es ligeramente sesgada hacia la derecha (como ya parecíamos intuir de las otras medidas) y leptocúrtica. Esto indica que el sesgo observado es resultado de observaciones atípicas.

Media <- sum(glicemia$f_i * glicemia$`Marca de Clase`) / 25
Std.Dev <- sqrt(sum(glicemia$f_i * (glicemia$`Marca de Clase` - Media) ** 2) / 24)

tribble(~Media, ~`Desv. Est.`, ~Asimetria, ~Curtosis,
  Media,
  Std.Dev,
  sum(glicemia$f_i * (glicemia$`Marca de Clase` - Media) ** 3) / (25 * Std.Dev ** 3),
  sum(glicemia$f_i * (glicemia$`Marca de Clase` - Media) ** 4) / (25 * Std.Dev ** 4)
) %>% 
kbl()
Media Desv. Est. Asimetria Curtosis
103.54 17.63633 0.6609389 2.32162

Ejercicio. En un estudio del síndrome de Down, se examinaron 180 niños afectados y la siguiente tabla da la distribución de frecuencias para el cociente intelectual (IQ) de los niños. Complete la tabla de datos agrupados, añadiendo las columnas que hagan falta, y determine las medidas de tendencia central, los cuartiles, deciles y percentiles, las medidas de dispersión y de forma. Discuta los resultados.

tibble(
  Clase = c(1, 2, 3, 4, 5, 6, 7, 8, 9),
  `Límites de clase` = c("10.5 a 20.5", "20.5 a 30.5", "30.5 a 40.5", "40.5 a 50.5", "50.5 a 60.5", "60.5 a 70.5", "70.5 a 80.5", "80.5 a 90.5", "90.5 a 100.5"),
  `Marca de clase` = c(15.5, 25.5, 35.5, 45.5, 55.5, 65.5, 75.5, 85.5, 95.5),
  `Frecuencia f_i` = c(4, 34, 0, 70, 43, 19, 7, 2, 1)
) %>%
kbl()
Clase Límites de clase Marca de clase Frecuencia f_i
1 10.5 a 20.5 15.5 4
2 20.5 a 30.5 25.5 34
3 30.5 a 40.5 35.5 0
4 40.5 a 50.5 45.5 70
5 50.5 a 60.5 55.5 43
6 60.5 a 70.5 65.5 19
7 70.5 a 80.5 75.5 7
8 80.5 a 90.5 85.5 2
9 90.5 a 100.5 95.5 1