Sei sulla pagina 1di 16

Análisis Exploratorio de Datos en R

JAVIER BELALCAZAR ARCINIEGAS

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS

2019

Javier Belalcazar A. Esadı́stica Descriptiva


Tipos de datos en R

character (cadenas de caracteres)


numeric (números reales)
integer (números enteros)
complex (números complejos)
logical (lógicos o booleanos, que sólo toman los valores True o
False)
> x <- 2
> x
> class(x)
> x<-45L
> x<-45L;print(x)
> x<-as.integer(23)

Javier Belalcazar A. Esadı́stica Descriptiva


Crear vectores
> u<-c(4,2,-8)
> v=c(1,3,5)
> assign("w",c(2,4,6))
> u;v;w
> x<-45L;print(x)
> x<-as.integer(23)

Creación de vectores a partir de secuencias


> v<-vector(" integer",3)
> v
> v[2]=12
> w<-vector("numeric",5)
> w[3]=3.41
Javier Belalcazar A. Esadı́stica Descriptiva
Crear vectores

Creación de vectores a partir de secuencias


> v<-10:25
> v<-seq(from=5, to=15, by=2)
> v<-seq(from = 4, by = 2, length.out = 8)
> u<-c(1,2,3)
> v<-c(4,5,6)
> w<-c(u,v)
> frutas <- c(15,50,100,30)
> names(frutas)<-c("manzanas","peras","naranjas",
"duraznos")

Javier Belalcazar A. Esadı́stica Descriptiva


Operaciones básicas con vectores

> u<-c(2,3,4)
> v<-c(2,1,3)
> u − v
> u ∗ v
> w<-c(4,5,6)∧(3)
> w<-2:45
> length(w)
> w <= 10
> u <- c(16,49,45,30)
> sqrt(u)

Javier Belalcazar A. Esadı́stica Descriptiva


Matrices

> m <- 11:30


> dim(m) <- c(4,5)
> class(m)
> A<-matrix(11:30,nrow=4,ncol=5,byrow=TRUE)
> rownames(A)<-c("fila 1","fila 2","fila 3","fila
4")
> colnames(A)<-c("UNO","DOS","TRES",
"CUATRO","CINCO")
> B <- rbind(c(1,3,-2),c(3,1,4))
> C <- cbind(c(1,3,-2),c(3,1,4))

Javier Belalcazar A. Esadı́stica Descriptiva


Factores y vectores de caracteres

> persona <-


c("Marta","Juan","Pedro","Sara","Jose","Jimena",
"Mario","Lina","Daniela","Paco","Juana","Jorge")
> mes.nacimiento<-c("Feb","Dic","Mar","Jun","Dic",
"Sep","Jun","Nov","Dic","Feb","Mar","Dic")
> persona[6]; mes.nacimiento[6]
> print(c(persona[6], mes.nacimiento[6]))
> paste(persona[6], "nació en el mes de",
mes.nacimiento[6])
Los dos vectores anteriores pueden considerarse como una
estructura de información, a la que se puede someter a algún
tipo de procesamiento estadı́stico.

Javier Belalcazar A. Esadı́stica Descriptiva


Factores

> Fmes.nacimiento <- as.factor(mes.nacimiento)


> Fmes.nacimiento
> table(Fmes.nacimiento)
> meses <- c("Ene","Feb","Mar","Abr","May","Jun",
"Jul","Ago","Sep","Oct","Nov","Dic")
> FFmes.nacimiento <- factor(mes.nacimiento,
levels=meses)
> FFmes.nacimiento
> table(FFmes.nacimiento)
> Fmes.nacimiento[5]
> levels(Fmes.nacimiento)[5]

Javier Belalcazar A. Esadı́stica Descriptiva


Data frames

> m <- cbind(ord=1:3,edad=c(30L,28L,8L))


> v <- c(1.80,1.70,1.04)
> df <- data.frame(familia=c("Padre","Madre",
"Hijo"),m,estatura=v)
> df

Javier Belalcazar A. Esadı́stica Descriptiva


Tablas de frecuencias

>
tabladf=data.frame(Resultado=1:6,FrecAbs=as.vector(table(d
>
FrecRel=as.vector(round(prop.table(table(dados)),2)),
> FrecAbsAcum=as.vector(cumsum(table(dados))),
>
FrecRelAcum=as.vector(round(cumsum(prop.table(table(dados)
2)))

Javier Belalcazar A. Esadı́stica Descriptiva


Agrupando datos

Número de intervalos que se van a usar (k)


Regla de Sturges
Regla de Scott
Regla de Freedman - Diaconis
Calcular la amplitud
Se calculan los extremos de los intervalos
Marcas de clase
Ejemplo:
> nclass.Sturges
> nclass.scott
> nclass.FD

Javier Belalcazar A. Esadı́stica Descriptiva


Agrupar datos

k=7
Rango(max − min)
Amplitud(A) =
k
12,7
A= = 1,814286 −→ 1,9
7
Intervalos:
[L1 , L2 ) , [L2 , L3 ) , · · ·
1
L1 = min(x) − ∗precisión
2
L1 = min(x) − 0,5 Si la precisión son las unidades
L1 = min(x) − 0,05 Si la precisión son las décimas de unidad

Javier Belalcazar A. Esadı́stica Descriptiva


Agrupar datos

L2 = L1 + A , L3 = L2 + A, . . .
L1 = 3,8 − 0,05 = 3,75
L2 = 3,75 + 1,9 = 5,65
L3 = 5,65 + 1,9 = 7,55
L4 = 7,55 + 1,9 = 9,45
L5 = 9,45 + 1,9 = 11,35
L6 = 11,35 + 1,9 = 13,25
L7 = 13,25 + 1,9 = 15,15
L8 = 15,15 + 1,9 = 17,05
[3,75, 5,65), [5,65, 7,55) , . . .
> L=3.75+1.9*(0:7)

Javier Belalcazar A. Esadı́stica Descriptiva


Datos Agrupados

Marcas de clase:
> 4.70+1.9*(0:6)
Otra forma:
> M=(L[1]+L[2])/2+1.9*(0:6)
Ejemplo: En un experimento hemos recogido los siguientes datos:
10,9,8,7,3,5,6,8,9,5,2,1,3,1,1
Agruparlos en los intervalos: [0,5, 4,5), [4,5, 8,5), [8,5, 12,5)

Javier Belalcazar A. Esadı́stica Descriptiva


Datos Agrupados

Creamos un vector x con los datos


>L=0.5+4*(0:3) vector con los extremos de los intervalos
>xint=cut(x,breaks=L,right=FALSE)
>MC=(L[1]+L[2])/2+4*(0:2)
Ahora creamos un data frame que contenga la tabla de frecuencias de
esta variable agrupada.

Javier Belalcazar A. Esadı́stica Descriptiva


Datos Agrupados

Creamos un vector x con los datos


>L=0.5+4*(0:3) vector con los extremos de los intervalos
>xint=cut(x,breaks=L,right=FALSE)
>MC=(L[1]+L[2])/2+4*(0:2)
Ahora creamos un data frame que contenga la tabla de frecuencias de
esta variable agrupada.

Javier Belalcazar A. Esadı́stica Descriptiva

Potrebbero piacerti anche