R tiene una función que lo hace más sencillo para nosotros.
mean(x)
[1] 50.5
trimmed mean
media es muy sensible a valores extremos.
entonces solemos usar la media “acotada”.
la función mean() tiene la opción de acotar el cálculo en la proporción deseada.
help(mean)
mediana
es el valor que separa la mitad “superior” de los datos de la mitad “inferior”.
por qué es útil?
se ordena los valores y se toma el valor que se encuentra en la mitad de todos. Si el número de observaciones es par, se obtiene del promedio de los valores centrales.
y <- x^2hist(y)
cual es el valor mediano?
podemos encontrar la posición con [], pero tambien tenemos la función median()
median(y)
[1] 2550.5
moda
es el valor más frecuente en una serie, por lo tanto el más probable de ser observado.
Sin embargo R no provee una función por defecto para hallar la moda. para eso pedimos ayuda a la comunidad
#creamos una función (acción) que nos permite obtener la modamodes <-function(x) { ux <-unique(x) tab <-tabulate(match(x, ux)) ux[tab ==max(tab)]}modes(c(1, 2, 2, 3, 4, 4, 4, 4, 5, 6))
[1] 4
localización
rango
es el intervalo que contiene todos los datos entre el valor mínimo y máximo de un conjunto.
cómo podemos saber el valor mínimo y máximo?
min(x) o max(x)
pero R tiene una función específica para ello.
range()
cuantiles
“cortes” que dividen el conjunto de datos en partes similares.
cuartiles
dividen en 4 partes “iguales”.
se ordenan de menor a mayor (Q1, Q2, Q3, Q4) y la lógica es que “debajo” de un determinado cuartil se encuentra el porcentaje inferior de los datos.
Q1 divide el 25% inferior de los datos del 75% superior.
Q2?
Q3?
dado que esta medida es muy utilizada, R tiene una fácil implementación para visualizar los cuartiles.
boxplot(x)
por qué es muy utilizado el cuartil? porque nos permite ver inmediatamente una distribución.
boxplot(y)
con qué valor “coincide” el Q2?
deciles y percentiles
divide los datos en diez o cien grupos similares.
como puedes ver, los deciles y percentiles son una forma específica de cuantiles.
R tiene una función incorporada que calcula los cuantiles en la división que deseemos.
quantile()
incluye el argumento de probs = seq(0, 1, 0.25), por qué?
nos indica en qué medida nuestros datos están “apretados” o “estirados” respecto a la media aritmética.
varianza
la más usual es la varianza que corresponde a la esperanza del cuadrado de la desviación de la variable respecto a su media.
\(VAR(x) = E[(x - u)^2]/N\)
R tiene una función para el cálculo de la varianza incorporada.
cual es?
desviación típica
la varianza se expresa en unidades que corresponden al cuadrado de la medida original. por ello la raiz cuadrada de la varianza es una medida más usada para reportar dispersión en los datos.
R tiene incorporada una función para ello. cual es?
rango intercuartílico
diferencia entre el Q3 y Q1. permite saber cuantas observaciones están dentro del 50% del total.