2.2) Estadistica Descriptiva

Probabilidad y
Estadística fundamental
aplicando RStudio
Estadística descriptiva
María Fernanda Acero Baena

Población y muestra
Población
Parámetr
Muestreo Estadístic
o Muestra o
𝜇 𝑥
𝜎2 𝑠2
𝜎 𝑠
𝜋 𝑝
Estimar
Tipos de variables
Cualitativas
Variables
Continuas
Cuantitativas
Discretas
Datos
> edad=c(18,19,NA,18,24,17,22,15,22,25)
> sexo=c(0,1,0,0,1,0,0,1,1,0)
> estudios=c(1,2,0,1,3,2,3,1,2,3)
Datos
> sexo=factor(sexo, levels=c(0,1),
labels=c("Hombre","Mujer"))
> estudios=factor(estudios, levels=c(0,1,2,3),

labels=c("Sin estudios","Estudios
Primarios","Estudios Secundarios“,
"Estudios Superiores"))
Tablas de frecuencias
• 𝑋𝑖 : Datos
• 𝑛𝑖 : Frecuencia absoluta
• 𝑁𝑖 : Frecuencia absoluta acumulada
• 𝑓𝑖 : Frecuencia relativa
• 𝐹𝑖 : Frecuencia relativa acumulada
Tablas de frecuencias
• Tablas de frecuencias:
• Datos no agrupados
• Datos agrupados
• Reglas de Sturges
Tablas de frecuencias: Una variable
> table(edad) Hacer una tabla de
edad frecuencia cuando las
15 17 18 19 22 24 25
frecuencias son tan bajas
1 1 2 1 2 1 1
no es tan útil, es mejor
> prop.table(table(edad)) para eso usar una tabla
edad con datos agrupados
15 17 18 19 22 24 25
0.1111111 0.1111111 0.2222222 0.1111111 0.2222222 0.1111111 0.1111111
> table(edad,useNA="ifany")
edad
15 17 18 19 22 24 25 <NA>
1 1 2 1 2 1 1 1
Tablas de contingencia (dos variables
cualitativas)
> table(estudios,sexo)
sexo
estudios Hombre Mujer
Sin estudios 1 0
Estudios Primarios 2 1
Estudios Secundarios 1 2
Estudios Superiores 2 1
> prop.table(table(estudios,sexo)) #Frecuencias relativas
sexo
Sin estudios 0.1 0.0
Estudios Primarios 0.2 0.1
Estudios Secundarios 0.1 0.2
Estudios Superiores 0.2 0.1
Tablas de contingencia (dos variables
cualitativas)
> prop.table(table(estudios,sexo),1) #Frecuencias relativas con
respecto a la fila
sexo
Sin estudios 1.0000000 0.0000000
> prop.table(table(estudios,sexo),2) #Frecuencias relativas con
respecto a las columnas
sexo
Sin estudios 0.1666667 0.0000000
Ejercicio
• Hacer las siguientes tablas de contingencia con los
vectores:
• Frecuencias absolutas
• Frecuencias relativas
• Frecuencias relativas con respecto a fila
• Frecuencias relativas con respecto a columna
genero<- c(rep("M", 5), rep("F", 5))

nivel<- c("Bajo", "Bajo", "Bajo", "Bajo", "Alto",
"Alto", "Medio", "Alto", "Medio", "Medio")
Tablas de frecuencias: Datos
agrupados
> range(edad,na.rm=TRUE)
[1] 15 25
> nclass.Sturges(edad)
[1] 5
> seq(15,25,length=nclass.Sturges(edad))
[1] 15.0 17.5 20.0 22.5 25.0
>
intervalosEdad=cut(edad,breaks=seq(15,25,length=nclass.Sturges(edad)),
include.lowest=TRUE)
> intervalosEdad
[1] (17.5,20] (17.5,20] <NA> (17.5,20] (22.5,25] [15,17.5]
(20,22.5]
[8] [15,17.5] (20,22.5] (22.5,25]
Levels: [15,17.5] (17.5,20] (20,22.5] (22.5,25]
> table(intervalosEdad)
intervalosEdad
[15,17.5] (17.5,20] (20,22.5] (22.5,25]
2 3 2 2
Tablas de frecuencias: Datos
agrupados
> install.packages("agricolae")
> library(agricolae)
> tbFreqEdad=table.freq(graph.freq(edad,plot=FALSE))
> tbFreqEdad
Lower Upper Main Frequency Percentage CF CPF
1 15.0 17.5 16.25 2 22.2 2 22.2
2 17.5 20.0 18.75 3 33.3 5 55.6
3 20.0 22.5 21.25 2 22.2 7 77.8
4 22.5 25.0 23.75 2 22.2 9 100.0
Ejercicio
• Realizar una tabla de datos agrupados
para el vector de Sepal.Length de la
base de datos por defecto iris.
• Usar el paquete agricolae
Estadísticos descriptivos
Medidas de tendencia central
Medidas de dispersión
Medidas de asimetría o curtosis
Medidas de posición
• Media aritmética o promedio:
𝑛
1
𝑥ҧ = ෍ 𝑥𝑖
𝑛
𝑖=1
• Mediana: la mediana representa el
valor de la variable de posición central
en un conjunto de datos ordenados.
• Moda: Valor que más se repite
• Media: Código R
• Aritmética mean(x)
• Geométrica weighted.mean(x, w)
• Armónica median(x)
• Ponderada Package “mode est”
• Truncada
mlv(x)
• Cuadrática
• Winsonizada
• Mediana
• Moda
No todas las medidas se encuentran en R
Medias
> x <- c(1, 2, 3, 4, 5, 6)
> mean(x) #Media aritmética
[1] 3.5
Mediana
> x <- c(1, 2, 3, 4, 5, 6)
> median(x)
[1] 3.5
Media ponderada
> x <- c(1, 2, 3, 4, 5, 6) #Vector
> w <- c(2, 2, 2, 2, 3, 5) #Pesos del vector
> xw <- c(1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 6,
6, 6)
> weighted.mean(x, w) #Media ponderada
[1] 4.0625
> mean(xw) #Los valores son iguales dependiendo del
vector
[1] 4.0625
• Rango
Código R
𝑅𝑎𝑛𝑔𝑜 = 𝑀𝑎𝑥 − 𝑀𝑖𝑛
range(x)
• Rango intercuartílico
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 iqr(x)
• Varianza𝑛 sd(x)
1 var(x)
𝑠 = ෍ 𝑥𝑖 − 𝑥ҧ 2
2
𝑛 CV <- sd(x)/mean(x);CV
𝑖=1
• Desviación estándar
• Coeficiente de variación
𝑠
𝐶𝑉 =
𝑥ҧ
• Rango
> x <- c(1, 2, 3, 4, 5, 6)
> range(x)
[1] 1 6
• Rango intercuartílico
> x <- c(1, 2, 3, 4, 5, 6)
> IQR(x)
[1] 2.5
• Varianza
> x <- c(1, 2, 3, 4, 5, 6)
> var(x)
[1] 3.5
• Desviación estándar
•>Desviación
x <- c(1, estándar
2, 3, 4, 5, 6)
> sd(x)
[1] 1.870829
• Coeficiente de variación
𝑠
𝐶𝑉 =
𝑥ҧ
> x <- c(1, 2, 3, 4, 5, 6)
> CV <- sd(x)/mean(x)
> CV
[1] 0.5345225
• Mediana
• Percentiles(1-100)
• Deciles(1-10)
• Cuartiles (1-4)
• Octiles
• Percentil 37 (37%)
> x <- c(1, 2, 3, 4, 5, 6)
> quantile(x, .37)
37%
2.85
• Deciles(1-10)
> x <- c(1, 2, 3, 4, 5, 6)
> quantile(x, c(.10, .20, .30)
37%
2.85
• Resumen de estadísticas, 1, 2 y 3 cuartiles. Min

y Max.
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 2.25 3.50 3.50 4.75 6.00
Medidas de asimetría o curtosis
 Asimetría install.packages("moments")
 Curtosis o apuntamiento library(moments)
skewness(xw)
kurtosis(x)
𝛾>0 𝛾=0 𝛾<0 𝛽>3 𝛽=3 𝛽<3

Asimetría
• Asimetría
> x <- c(1, 2, 3, 4, 5, 6) #Vector
> w <- c(2, 2, 2, 2, 3, 5) #Pesos del vector
> xw <- c(1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 6,
6, 6)
> skewness(x)
[1] 0
> skewness(xw)
[1] -0.4242098
𝛾>0 𝛾=0 𝛾<0

> skewness(x) > skewness(xw)
[1] 0 [1] -0.4242098
Curtosis
> x <- c(1, 2, 3, 4, 5, 6) #Vector
> kurtosis(xw)
[1] 2.047051
𝛽>3 𝛽=3 𝛽<3

> kurtosis(xw)
[1] 2.047051

2.2) Estadistica Descriptiva

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

2.2) Estadistica Descriptiva

Caricato da

Copyright:

Formati disponibili

Probabilidad y

María Fernanda Acero Baena

> estudios=factor(estudios, levels=c(0,1,2,3),

genero<- c(rep("M", 5), rep("F", 5))

Medidas de tendencia central

Medidas de asimetría o curtosis

• Resumen de estadísticas, 1, 2 y 3 cuartiles. Min

𝛾>0 𝛾=0 𝛾<0 𝛽>3 𝛽=3 𝛽<3

𝛾>0 𝛾=0 𝛾<0

𝛽>3 𝛽=3 𝛽<3

Potrebbero piacerti anche