Sei sulla pagina 1di 7

ANALISIS_PREVIO_DE_LOS_DATOS.R

HUMBERTO BARRIOS Tue Mar 17 16:47:40 2015

#####ANÁLISIS PREVIO DE LOS DATOS########

#Para bajar el conjunto de datos nos vamos a #http://estadisticaupc.blogspot.com/ ## ## #DATOS HATCO>>>>>>>>>Ver aquí

#HAIR, ANDERSON Y TATHAM, ANALISIS MULTIVARIANTE, 5° Edición.

HATCO<-read.csv("C:/Users/HUMBERTO BARRIOS/Desktop/ANALISIS MULTIVARIANTE CON R/HATCO.csv" sep=";")

PRENTICE-HALL, 1999

,

#Para observar el número de datos, número de variables y además para ver los primeros #valores en cada variable utilicamos el comando str(). Como se muestra en el siguiente #ejemplo con los datos HATCO:

str(HATCO)

## 'data.frame':

 

100

obs. of

 

15 variables:

 

##

$

id

:

int

1

2

3

4

5

6

7

8

9

10

##

$

x1

:

num

4.1

1.8

3.4

2.7

6

1.9 4.6 1.3 5.5

4

 

##

$

x2

:

num

0.6

3

5.2

1

0.9

3.3

2.4 4.2 1.6 3.5

##

$

x3

:

num

6.9

6.3

5.7

7.1

9.6

7.9 9.5 6.2 9.4

6.5

##

$

x4

:

num

4.7

6.6

6

5.9

7.8

4.8 6.6 5.1 4.7

6

##

$

x5

:

num

2.4

2.5

4.3

1.8

3.4

2.6 3.5 2.8 3.5

3.7

##

$

x6

:

num

2.3

4

2.7

2.3

4.6

1.9

4.5

2.2

3 3.2

##

$

x7

:

num

5.2

8.4

8.2

7.8

4.5

9.7 7.6 6.9 7.6

8.7

##

$

x8

:

int

0

1

1

1

0

1

0

1

0

1

##

$

x9

:

num

32

43 48

32

58

45

46

44

63

54

##

$

x10: num

4.2

4.3

5.2

3.9

6.8 4.4 5.8 4.3 5.4

5.4

##

$

x11: int

1

0

0

0

1

0

1

0

1

0

##

$

x12: int

0

1

1

1

0

1

0

1

0

1

##

$

x13: int

1

0

1

1

1

1

1

0

1

0

##

$

x14: int

1

1

2

1

3

2

1

2

3

2

#

Podemos observer 100 datos con 14 variables. Las variables x1, x2,

,

x7, x9 y x10

#

son métricas y las otras son no métricas.

 

######################ANALISIS DE LA FORMA DE LA DISTRIBUCIÓN######################## #Comenzemos con la variable x1: tiempo de entrega del producto después que se ha ordenado #el pedido

x1=HATCO$x1;x1

 

##

[1]

4.1

1.8

3.4

2.7

6.0

1.9

4.6

1.3 5.5 4.0 2.4

3.9

2.8 3.7 4.7 3.4 3.2

##

[18]

4.9

5.3

4.7

3.3

3.4

3.0

2.4

5.1 4.6 2.4 5.2

3.5

4.1

3.0 2.8 5.2 3.4

1

##

[35]

2.4

1.8

3.6

4.0

0.0

2.4

1.9

5.9 4.9 5.0 2.0

5.0

3.1

3.4 5.8 5.4 3.7

##

[52]

2.6

4.5

2.8

3.8

2.9

4.9

5.4

4.3 2.3 3.1 5.1

4.1

3.0

1.1

3.7 4.2 1.6

##

[69]

5.3

2.3

3.6

5.6

3.6

5.2

3.0

4.2 3.8 3.3 1.0

4.5

5.5

3.4 1.6 2.3 2.6

##

[86]

2.5

2.4

2.1

2.9

4.3

3.0

4.8

3.1

1.9 4.0 0.6

6.1 2.0 3.1 2.5

#Un comando que nos da el número de datos de una variable length()

length(x1)

##

[1]

100

#Para ordenar los datos de menor a mayor sort()

sort(x1)

##

[1]

0.0

0.6

1.0

1.1

1.3

1.6

1.6

1.8

1.8 1.9 1.9

1.9

2.0

2.0 2.1 2.3 2.3

##

[18]

2.3

2.4

2.4

2.4

2.4

2.4

2.4

2.5 2.5 2.6 2.6

2.7

2.8

2.8 2.8 2.9 2.9

##

[35]

3.0

3.0

3.0

3.0

3.0

3.1

3.1

3.1 3.1 3.2 3.3

3.3

3.4 3.4 3.4 3.4 3.4

##

[52]

3.4

3.5

3.6

3.6

3.6

3.7

3.7 3.7 3.8 3.8 3.9

4.0

4.0

4.0 4.1 4.1 4.1

##

[69]

4.2

4.2

4.3

4.3

4.5

4.5

4.6 4.6 4.7 4.7 4.8

4.9

4.9

4.9 5.0 5.0 5.1

##

[86]

5.1

5.2

5.2

5.2

5.3

5.3

5.4

5.4 5.5 5.5 5.6

5.8 5.9 6.0 6.1

#Para ordenar los datos de mayor a menor sort()

sort(x1,TRUE)

##

[1]

6.1

6.0

5.9

5.8

5.6

5.5

5.5 5.4 5.4 5.3 5.3

5.2

5.2

5.2

5.1 5.1 5.0

##

[18]

5.0

4.9

4.9

4.9

4.8

4.7

4.7 4.6 4.6 4.5 4.5

4.3

4.3 4.2 4.2 4.1 4.1

##

[35]

4.1

4.0

4.0

4.0

3.9

3.8

3.8 3.7 3.7 3.7 3.6

3.6

3.6 3.5 3.4 3.4 3.4

##

[52]

3.4

3.4

3.4

3.3

3.3

3.2

3.1

3.1

3.1 3.1 3.0

3.0

3.0

3.0 3.0 2.9 2.9

##

[69]

2.8

2.8

2.8

2.7

2.6

2.6

2.5

2.5 2.4 2.4 2.4

2.4

2.4 2.4 2.3 2.3 2.3

##

[86]

2.1

2.0

2.0

1.9

1.9

1.9

1.8

1.8

1.6 1.6 1.3

1.1

1.0 0.6 0.0

#Veamos un resumen de los datos con el comando summary()

summary(x1)

##

Min. 1st Qu.

Median

Mean 3rd Qu.

Max.

##

0.00

2.50

3.40

3.52

4.60

6.10

#El valor minimo es 0 puede indicar un valor atipico, 2.5 es el primer cuartil el cual indica #que el 25% de todos los valores en el conjunto de datos es menor o igual a 2.5 , y por lo #tanto el otro 75% es mayor que dicho valor, 3.4 es la mediana el cual indica que el 50% de

 

#todos los valores en el conjunto de datos es menor o igual a 3.4 , y por lo tanto el otro #es mayor que dicho valor, 3.52 es el promedio, y por ultimo tenemos 4.6 que el 3 cuartil #valor maximo 6.1.

#Para ver el perfil de la población de donde proviende los datos, se hace con el comando stem():

50%

y el

stem(x1)

2

25

20

Frecuencias

15

10

5

0

##

##

The

decimal

point

is

at

the

|

##

##

0

|

06

##

1 | 0136688999

 

##

2 | 0013334444445566788899

##

3 | 0000011112334444445666777889

##

4 | 00011122335566778999

##

5 | 0011222334455689

##

6

|

01

#o con el comando hist():

hist(x1,col='blue',xlab='x1:Tiempo que tarda en enviarse el pedido',ylab='Frecuencias')

Histogram of x1

' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5
' , ylab= ' Frecuencias ' ) Histogram of x1 0 1 2 3 4 5

0

1

2

3

4

5

6

7

x1:Tiempo que tarda en enviarse el pedido

#Para ver sobre la variabilidad de los datos teenemos:

#1. El rango:

range(x1)

##

[1] 0.0

6.1

##

[1] 1.744

Tiempo que tarda en enviarse el pedido

6

5

4

3

2

1

0

#3. Desviación estándar:

sd(x1)

##

[1] 1.321

#En forma gráfica y mostrar valores atipicos:

boxplot(x1,col='blue',ylab='Tiempo que tarda en enviarse el pedido')

, ylab= ' Tiempo que tarda en enviarse el pedido ' ) #Por ejemplo tomemos la
, ylab= ' Tiempo que tarda en enviarse el pedido ' ) #Por ejemplo tomemos la
, ylab= ' Tiempo que tarda en enviarse el pedido ' ) #Por ejemplo tomemos la
, ylab= ' Tiempo que tarda en enviarse el pedido ' ) #Por ejemplo tomemos la

#Por ejemplo tomemos la variable no métrica x14: Tipo de situación de compra.

x14=HATCO$x14;x14

##########################VARIABLE NO MÉTRICA##############################################

##

[1]

1

1

2

1

3

2

1

2

3

2

1

2

1

1

3

3

2

2

3

3

2

1

3

1

2

3

1

3

3

2

1

3

3

1

1

##

[36]

1

2

3

1

1

1

3

3

2

1

3

3

2

3

3

2

2

2

1

1

2

2

3

3

2

3

3

3

2

1

2

3

2

3

2

##

[71]

2

3

3

3

1

2

2

3

1

3

3

2

1

1

2

1

2

1

1

3

2

2

2

1

1

1

3

1

1

1

 

4

#Para resalta que una varable es una carateristica as.character():

as.character(x14)

30

25

20

15

10

5

0

##

[1]

"1"

"1"

"2"

"1"

"3"

"2"

"1"

"2"

"3"

"2" "1"

"2"

"1"

"1"

"3"

"3" "2"

##

[18]

"2"

"3"

"3"

"2"

"1"

"3"

"1"

"2"

"3"

"1" "3"

"3"

"2"

"1"

"3"

"3" "1"

##

[35]

"1"

"1"

"2"

"3"

"1"

"1"

"1"

"3"

"3"

"2" "1"

"3"

"3"

"2"

"3"

"3" "2"

##

[52]

"2"

"2"

"1"

"1"

"2"

"2"

"3"

"3"

"2"

"3" "3"

"3"

"2"

"1"

"2"

"3" "2"

##

[69]

"3"

"2"

"2"

"3"

"3"

"3"

"1"

"2"

"2"

"3" "1"

"3"

"3"

"2"

"1"

"1" "2"

##

[86]

"1"

"2"

"1"

"1"

"3"

"2"

"2"

"2"

"1"

"1" "1"

"3"

"1"

"1" "1"

#Una tabla de frecuencias para mirar cuantos hay de cada tipo de compra en la muestra

Tabla=table(x14);Tabla

## x14

##

1

2

3

##

34 32

34

#En forma grafica

barplot(Tabla,col='red',main='Tipo de compra')

34 #En forma grafica barplot (Tabla, col= ' red ' , main= ' Tipo de compra

1

Tipo de compra

34 #En forma grafica barplot (Tabla, col= ' red ' , main= ' Tipo de compra

5

2

34 #En forma grafica barplot (Tabla, col= ' red ' , main= ' Tipo de compra

3

#O en esta

pie(Tabla,col=c('red','blue','yellow'),main='Tipo de compra')

forma

Tipo de compra

2

1 3
1
3

#Combinemos una variable métrica con una no métrica. Por ejemplo, las variables x1: tiempo #con x14: tipo de compra, con el comando boxplot():

boxplot(x1~x14,col='red',ylab='x1: Tiempo de entrega',xlab='Tipo de compra')

6

de entrega

6

x1: Tiempo de entrega

5

4

3

2

1

0

6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de
6 x1: Tiempo de entrega 5 4 3 2 1 0 1 2 3 Tipo de

1

2

3

Tipo de compra

7