5 Estadística Descriptiva.

Un conjunto de datos se puede describir usando:

  1. Medidas de tendencia central: estas son valores que describen el centro alrededor del cual el conjunto de observaciones se distribuye. De esta forma, nos permite describir donde se localizan la mayoría de las observaciones. Son tres:
  • Media: describe la localización media de las observaciones.
  • Mediana: es el valor que distribuye las observaciones de tal forma que 50% de estas quedan por encima de ella, y el otro 50% por debajo.
  • Moda: describe la posición de la (o las) observación (observaciones) más frecuente(s).
  1. Medidas de posición: vienen definidos por los cuantiles de una distribución. Un cuantil \(C_p\) se define como el valor que deja por debajo de si \(p\times100\)% de las observaciones. Por ejemplo, el cuantil \(C_{0{,}3}\) es aquel valor que deja por debajo de si \(30\)% de las observaciones.
    Nos ayuda a describir la posición que una observación ocupa dentro del dominio sobre el cual se distribuyen los datos. Algunos ejemplos son:
  • Los cuartiles: (\(C_{0{,}25i}\) con \(i = 1,2,3\)) que distribuyen las observaciones en \(4\) partes,
  • Los deciles (\(C_{0{,}1i}\) con \(i = 1,2,\ldots,10\)), que dividen la distribución en \(10\) partes, y
  • Los percentiles (\(C_{0{,}01i}\) con \(i = 1,2,\ldots, 99, 100\)), que dividen la distribución en \(100\) partes.
  1. Medidas de dispersión: estas son medidas de que tan variables son las observaciones. Sirven para describir la dispersión de las observaciones en su dominio y alrededor de su centro. Pueden ser:
  • Rango o Recorrido: es la diferencia entre el valor máximo y el valor mínimo observado. Nos dice que tan amplio es el dominio ocupado por las observaciones, o que tan amplio es el intervalo sobre el cual se distribuyen todas las observaciones.
  • Rango intercuartílico: es la diferencia entre el tercer cuartil y primer cuartil, y por lo tanto, describe la amplitud del intervalo que contiene a un \(50\)% de las observaciones.
  • Varianza: es una medida de las diferencias cuadráticas promedio de las observaciones con respecto a la media (sumatoria de cuadrados promedio). Sirve como una medida de cuán variable es un conjunto de datos, dado que a mayor son las desviaciones de la media, más grande es la varianza.
  • Desviación estándar: es una medida de la distancia promedio de las observaciones con respeto a la media. Al igual que antes para la varianza, la desviación estándar sirve como medida de variabilidad con respecto al centro, dado que a mayor la distancia de las observaciones a la media, mayor será la desviación estándar.
  • Coeficiente de variación: es el valor proporcional de la desviación estándar con respecto a la media (Desviación estándar / Media). Esta sirve como medida de dispersión relativa, dado que permite comparar distribuciones basado en cuán distantes, en promedio, de la media están las observaciones, basados en el tamaño relativo de esta con respecto a la media.
  1. Medidas de forma: estas nos ayudan a describir la simetría y ensanchamiento de la distribución de las observaciones. Estas son:
  • Asimetría: es un coeficiente cuyo valor nos permite decir si las observaciones se encuentran acumuladas a la derecha, o la izquierda de la distribución (a esto se le llama sesgo).
  • Curtosis: esta describe que tan amplio es el pico de la distribución de observaciones, permitiéndonos decir si se trata de una colina amplía o de un pico estrecho.