Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadística fundamental
aplicando RStudio
Estadística descriptiva
Población
Parámetr
Muestreo Estadístic
o Muestra o
𝜇 𝑥
𝜎2 𝑠2
𝜎 𝑠
𝜋 𝑝
Estimar
Tipos de variables
Cualitativas
Variables
Continuas
Cuantitativas
Discretas
Datos
> edad=c(18,19,NA,18,24,17,22,15,22,25)
> sexo=c(0,1,0,0,1,0,0,1,1,0)
> estudios=c(1,2,0,1,3,2,3,1,2,3)
Datos
> sexo=factor(sexo, levels=c(0,1),
labels=c("Hombre","Mujer"))
• 𝑋𝑖 : Datos
• 𝑛𝑖 : Frecuencia absoluta
• 𝑁𝑖 : Frecuencia absoluta acumulada
• 𝑓𝑖 : Frecuencia relativa
• 𝐹𝑖 : Frecuencia relativa acumulada
Tablas de frecuencias
• Tablas de frecuencias:
• Datos no agrupados
• Datos agrupados
• Reglas de Sturges
Tablas de frecuencias: Una variable
> table(edad) Hacer una tabla de
edad frecuencia cuando las
15 17 18 19 22 24 25
frecuencias son tan bajas
1 1 2 1 2 1 1
no es tan útil, es mejor
> prop.table(table(edad)) para eso usar una tabla
edad con datos agrupados
15 17 18 19 22 24 25
0.1111111 0.1111111 0.2222222 0.1111111 0.2222222 0.1111111 0.1111111
> table(edad,useNA="ifany")
edad
15 17 18 19 22 24 25 <NA>
1 1 2 1 2 1 1 1
Tablas de contingencia (dos variables
cualitativas)
> table(estudios,sexo)
sexo
estudios Hombre Mujer
Sin estudios 1 0
Estudios Primarios 2 1
Estudios Secundarios 1 2
Estudios Superiores 2 1
> prop.table(table(estudios,sexo)) #Frecuencias relativas
sexo
estudios Hombre Mujer
Sin estudios 0.1 0.0
Estudios Primarios 0.2 0.1
Estudios Secundarios 0.1 0.2
Estudios Superiores 0.2 0.1
Tablas de contingencia (dos variables
cualitativas)
> prop.table(table(estudios,sexo),1) #Frecuencias relativas con
respecto a la fila
sexo
estudios Hombre Mujer
Sin estudios 1.0000000 0.0000000
Estudios Primarios 0.6666667 0.3333333
Estudios Secundarios 0.3333333 0.6666667
Estudios Superiores 0.6666667 0.3333333
> prop.table(table(estudios,sexo),2) #Frecuencias relativas con
respecto a las columnas
sexo
estudios Hombre Mujer
Sin estudios 0.1666667 0.0000000
Estudios Primarios 0.3333333 0.2500000
Estudios Secundarios 0.1666667 0.5000000
Estudios Superiores 0.3333333 0.2500000
Ejercicio
• Hacer las siguientes tablas de contingencia con los
vectores:
• Frecuencias absolutas
• Frecuencias relativas
• Frecuencias relativas con respecto a fila
• Frecuencias relativas con respecto a columna
> install.packages("agricolae")
> library(agricolae)
> tbFreqEdad=table.freq(graph.freq(edad,plot=FALSE))
> tbFreqEdad
Lower Upper Main Frequency Percentage CF CPF
1 15.0 17.5 16.25 2 22.2 2 22.2
2 17.5 20.0 18.75 3 33.3 5 55.6
3 20.0 22.5 21.25 2 22.2 7 77.8
4 22.5 25.0 23.75 2 22.2 9 100.0
Ejercicio
• Realizar una tabla de datos agrupados
para el vector de Sepal.Length de la
base de datos por defecto iris.
• Usar el paquete agricolae
Estadísticos descriptivos
Medidas de dispersión
Medidas de posición
Medidas de tendencia central
• Media aritmética o promedio:
𝑛
1
𝑥ҧ = 𝑥𝑖
𝑛
𝑖=1
• Mediana: la mediana representa el
valor de la variable de posición central
en un conjunto de datos ordenados.
• Moda: Valor que más se repite
Medidas de tendencia central
• Media: Código R
• Aritmética mean(x)
• Geométrica weighted.mean(x, w)
• Armónica median(x)
• Ponderada Package “mode est”
• Truncada
mlv(x)
• Cuadrática
• Winsonizada
• Mediana
• Moda
No todas las medidas se encuentran en R
Medias
> x <- c(1, 2, 3, 4, 5, 6)
> mean(x) #Media aritmética
[1] 3.5
Mediana
> x <- c(1, 2, 3, 4, 5, 6)
> median(x)
[1] 3.5
Media ponderada
> x <- c(1, 2, 3, 4, 5, 6) #Vector
> w <- c(2, 2, 2, 2, 3, 5) #Pesos del vector
> xw <- c(1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 6,
6, 6)
> weighted.mean(x, w) #Media ponderada
[1] 4.0625
> mean(xw) #Los valores son iguales dependiendo del
vector
[1] 4.0625
Medidas de dispersión
• Rango
Código R
𝑅𝑎𝑛𝑔𝑜 = 𝑀𝑎𝑥 − 𝑀𝑖𝑛
range(x)
• Rango intercuartílico
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 iqr(x)
• Varianza𝑛 sd(x)
1 var(x)
𝑠 = 𝑥𝑖 − 𝑥ҧ 2
2
𝑛 CV <- sd(x)/mean(x);CV
𝑖=1
• Desviación estándar
• Coeficiente de variación
𝑠
𝐶𝑉 =
𝑥ҧ
Medidas de dispersión
• Rango
> x <- c(1, 2, 3, 4, 5, 6)
> range(x)
[1] 1 6
• Rango intercuartílico
> x <- c(1, 2, 3, 4, 5, 6)
> IQR(x)
[1] 2.5
Medidas de dispersión
• Varianza
> x <- c(1, 2, 3, 4, 5, 6)
> var(x)
[1] 3.5
• Desviación estándar
•>Desviación
x <- c(1, estándar
2, 3, 4, 5, 6)
> sd(x)
[1] 1.870829
Medidas de dispersión
• Coeficiente de variación
𝑠
𝐶𝑉 =
𝑥ҧ
> x <- c(1, 2, 3, 4, 5, 6)
> CV <- sd(x)/mean(x)
> CV
[1] 0.5345225
Medidas de posición
• Mediana
• Percentiles(1-100)
• Deciles(1-10)
• Cuartiles (1-4)
• Octiles
Medidas de posición
• Percentil 37 (37%)
> x <- c(1, 2, 3, 4, 5, 6)
> quantile(x, .37)
37%
2.85
• Deciles(1-10)
> x <- c(1, 2, 3, 4, 5, 6)
> quantile(x, c(.10, .20, .30)
37%
2.85
Medidas de posición