Tendencia y dispersión

Nov 25, 2025

análisis de datos

  • 2 partes principales:

  • observar los datos para comprender las tendencias generales: estadística descriptiva

  • implementar modelos estadísticos para comprender lo que los datos pueden explicar: estadística inferencial

frecuencias

  • cuántas veces aparece un tipo de observación en mis datos?

  • gráficos de distribución de frecuencia (histograma)

    • gráfico que muestra en el eje horizontal los valores de la variable y en el eje vertical la cantidad de veces que ocurre.

frecuencias

frecuencias

  • datos categóricos y datos numéricos:
    • tablas de frecuencia
    • distribuciones de frecuencia (histogramas)

frecuencias

  • histograma representa datos numéricos, el gráfico de barras simplemente representa datos categóricos

  • el orden de las columnas en el gráfico de barras no indica nada, mientras que en el histograma el orden de indica un rango numérico, por lo que va ordenado y junto.

  • el área de las barras en el histograma es proporcional a los datos, en las barras no.

distribución

  • cómo se “ordenan” los datos

  • por qué es importante saber cómo se ordenan los datos?

  • tendencias

distribución

distribución normal

  • “campana”
  • la mayoría de observaciones presentan valores al rededor de la media
  • los valores decaen hacia los extremos del gráfico

  • está en muchos lugares

  • ley de los grandes números

asimetría

  • no siempre encontramos este tipo de distribuciones normales

  • algunas presentan algun tipo de sesgo que llamamos “asimetría”

  • los puntajes más frecuentes se agrupan hacia un lado u otro de los extremos de la distribución

  • por qué ocurre esto?

    • en la realidad hay fenómenos que ocurren de manera asimétrica: ingreso económico, resultados académicos, etc.
  • cuando la asimetría muestra una “cola” hacia la derecha de la media se llama positiva

    • indica presencia pocas observaciones con valores elevados (p.ej. ingresos económicos)

  • cuando la asimetría muestra “cola” hacia la izquierda de la media se llama negativa
    • indica presencia de pocas observaciones con valores bajos (p.ej.: calificaciones en un examen a expertos)

Curtosis

  • no es una enfermedad exótica.

  • la curtosis indica el “apuntamiento” de los valores de la distribución

  • distribuciones con valores muy agrupados al centro se denominan “Leptocúrtica” (positiva)

  • distribuciones con valores frecuentes hacia los extremos se denominan “Platicúrtica” (negativa)

lo deseable

  • datos que presenten distribución normal, sin asimetría y sin curtosis

el centro de la distribución

  • mediciones de “cuál” es el centro de (la distribución) de nuestros datos

  • varias vías:

    • media (aritmética)
    • mediana
    • moda

media

  • promedio de los valores de un conjunto de datos para una variable

  • es el valor característico de una población

  • media aritmética

  • problemas:

    • es muy sensible a los casos extremos
    • una sola observación con un valor extremos puede mover mucho la media.

mediana

  • valor que divide por la mitad las observciones.

  • es el valor que parte la distribución en dos mitades con número igual de casos en cada parte

  • es menos sensible a los casos extremos.

  • se usa (debería) cuando las distribuciones son asimétricas

moda

  • es el valor más frecuente o repetido

  • cuando hay dos se denomina bimodal, más de dos multimodal

  • se usa para datos cualitativos

la dispersión en una distribución

  • no solo es importante saber donde está el centro, sino qué tan dispersos están los datos de ese centro.

  • solo existen para variables con nivel de intervalo

  • 3 mediciones principales:

    • rango
    • varianza
    • desviación estándar/típica

rango

  • diferencia entre el valor máximo y el valor mínimo que aparecen en nuestros datos

varianza

  • indica la variabilidad que observamos en los valores que toma una variable.

  • se calcula sumando los residuos (respecto a la media) elevados al cuadrado, divididos por el total de observaciones.

  • se expresa en unidades al cuadrado de la unidad original de los datos

  • símbolo \({\sigma}^2\)

  • mientras más alto su valor, más dispersos los datos

  • es útil para saber si las diferencias entre las medias de dos grupos son reales (significativas) o no

desviación estándar/típica

  • para facilitar interpretación de la varianza, se obtiene la raiz cuadrada

  • se interpreta en las mismas unidades de los datos originales

  • es la más usada para reportar datos de dispersión