Sei sulla pagina 1di 14

Universidad Del Norte

Ingeniera Industrial

Manual de R para el curso de anlisis de datos II

Presentado por:
Ing. Andrs Felipe Guzmn Patio.
Ing. Carlos Fernando Meza Gmez.

Presentado a:
Ing. Alvin Henao.
Aspectos Bsicos

Primeramente para empezar se necesita tener en cuenta unos aspectos


bsicos que sern usados en todos los ejercicios que se realicen por medio del
programa R:
Al iniciar R aparece una ventana esperando las instrucciones. En esta ventana
parece el smbolo > para indicar la fila donde se itroduiran los datos. Enn esta
ventana se pueden realizar operaciones:
>1+2
[1] 3
Asignacin de una variable
Para asignar un valor a una variable se puede usar = o tambin <-
Ejemplo
> x = 10
>x
[1] 10

Funciones
Las funciones de R se usan por el nombre seguido por un parntesis y los datos
necesarios dependiendo de la funcin. Por ejemplo para convertir tres valores
en un vector se procede de la siguiente forma:
> c(1,2,3,)
[1] 1 2 3
Comentarios
Todo texto escrito en R antepuesto por el carcter # se convierte en
comentario:
> 1+1 # comentario
[1] 2
Extensin de paquete
En algunos casos se debe adicionar funciones que el paquete bsico no vienen
instaladas pero se encuentran en la librera de R. para realizar la instalacin de
los paquetes adicionales se debe nombrar el siguiente comando
install.packages y seguir las instrucciones.
>install.packages()

Ayuda
Para recibir ayuda con alguna funcin o comando introduces el comando help()
en el cual te dara informacin acerca de lo que necesites buscar
>help()

Operaciones aritmticas
Algunas operaciones bsicas:
Suma: +
Resta: Multiplicacin: *
Divisin: /
Potenciacin: ^
Operadores de comparacin
> Mayor que
< Menor que
>= mayor o igual
<= menor o igual
== igual que
!= distinto que
Algunas funciones
exp(x)
log(x, base=exp(1))
log10(x)
sqrt(x) raz cuadrada
abs(x) valor absoluto
ceiling(x) menor entero >= x.
floor(x) mayor entero<= x.

Introduccin de datos

Forma 1: uno a uno


Variable_datos1<- c(x1,x2,x3,)
Forma 2: Importando de Excel
Para efectuar esta carga primero debe cambiarse el directorio de trabajo:
File>Change dir
Aqu se escoge el directorio de trabajo (debe especificarse una carpeta).
> variable_datos<-read.table(file=NombreArchivo.txt",header=T)
Nota: tenga la precaucin de reemplazar las comas por punto ademas el
archivo de Excel debio haber sido guardado con la extensin .txt de DOS
Con esto se tienen los mismos datos almacenados en dos formatos distintos: el
primero como vector y el segundo como tabla.

Mtodos no paramtricos
Para procesar un grupo de datos por mtodos no para mtricos se debe tener
en cuenta que
N<30 y poblacin NO normal

Esquema para realizar una prueba de hiptesis:


1. Planteamiento de hiptesis
Una muestra
muestras
H0: =0
= 2
H1: > 0; < 0 ; 0
> 2; 1 < 2; 1 2

Dos
H0: 1
H1: 1

Definir de acuerdo al problema las hiptesis a probar, adems se deben


establecer cules sern las decisiones correspondientes a cada una de
las hiptesis.
2. Definir el nivel de significancia o poder de la prueba
= 1% o 10%
Se debe dar una justificacin clara del porque se escogi dicho alpha. La
decisin depende del lugar que se tome en el ejercicio, es necesario
tener en cuenta factores como el riesgo, costo o efectos que cause la
hiptesis que se desea favorecer.

Para poder realizar esta prueba de hiptesis es necesario evaluar ciertos


requisitos para determinar el estadstico de prueba adecuado a usar.
Estos requisitos son la prueba de normalidad y simetra.
3. Prueba de Normalidad (Shapiro Wilk)
Una vez se han establecido las hiptesis a probar, es necesario saber
con cierta certeza si la muestra proviene de una poblacin normal o no.
Lo anterior con el fin de saber que estadstico de prueba utilizar.
Una muestra
H0: la muestra proviene de una poblacin normal.
H1: la muestra proviene de una poblacin NO normal.
Dos Muestras
H0: las muestras provienen de poblaciones normales.
H1: las muestras provienen de poblaciones NO normales.
4. Prueba de simetra
Al comprobar la no normalidad se debe realizar una prueba NO
paramtrica para calcular el estadstico de prueba. Para cumplir con lo
anterior es necesario llevar a cabo una prueba de simetra y al final
determinar el mtodo no paramtrico a usar.
H0: = 0
H1: 0
5. Seleccin de mtodo a usar
Caso 1 (1 muestra o 2 muestras independientes): ya que la muestra
proviene de una poblacin no normal y no simtrica, el estadstico de
prueba se evaluara con el mtodo prueba de signos.
Caso 2 (1 muestra o 2 muestras dependientes): ya que la muestra
proviene de una poblacin no normal y simtrica, el estadstico de
prueba se evaluara con el mtodo rango de signos.
Caso 3 (2 muestras independientes): ya que las muestras son
independientes, provienen de poblaciones no normales y sin tener en
cuenta su simetra ya que no influye en la decisin, el estadstico de
prueba se evaluara con el mtodo suma de rangos.
Caso 4 (ms de 2 muestras independientes): ya que las muestras
independientes provienen de las poblaciones no normales y se debe
conocer si provienen de la misma poblacin o tienen las mismas
condiciones, el estadstico de prueba se evaluara con el mtodo
Kruskal- Walles.

Pasos para la prueba de normalidad Shapiro Wilk


Para una sola muestra
1. H0: la muestra sigue una distribucin normal.
H1: la muestra NO sigue una distribucin normal.
2. = 0,05
3. Cargar los datos en R.
Introducir el comando shapiro.test
> shapiro.test(variable_datos1) # para Forma 1 de cargar los datos
>shapiro.test(NombreArchivo$NombreVaiableDeInteres) #para forma
2 de cargar los datos
4. Buscar Wc en las tablas para el tamao de muestra correspondiente
5. Comprar Wc y Wo
6. Si Wc, 0,05>Wo, se rechaza Ho
7. Si Wc, 0,05<Wo, no se rechaza Ho

Para dos muestras independientes


Se realiza el mismo procedimiento que para una sola, de una muestra a
la vez, si ambas muestras son No normales se puede seguir con el
proceso, pero si por lo menos una no lo es, entonces se rechaza Ho y las
muestras no siguen una distribucin normal.

Pasos para la prueba de simetra


1. Ho: = 0, muestra simtrica
H1: 0, muestra no simtrica
2. Cargar los datos en R

Pasos para la prueba de signos


1. Ho: =o
H1: > o; < o; o

Regresion lineal multiple

Series de tiempo
1. Cargamos los datos desde excel
2. Grficamos los datos para ver como se comporta la tenencia y la
media. Esto lo logramos cn el comando plot.ts()

3. Chequear estacionlidad prueba de Dickie fuller. Descargamos el


paquete tseries, y lo activamos con el comando library(tseries), en
el cual nos viene la prueba mas facil de concluir. como el comando
trabaja con matrices pasamos nuestra serie a matrices con el
comando as.matrix(x) y asignandolo a una nueva variable.

4. Chequear correlograma. Priemro grficas a funcio de autocorrelacion


con el comando acf(nombrevalriable$titulovariable)

Luego graficas la funcio de autocorrelacion parcial con el comando


pacf(nombrearchivo$titulovariable)

Con esto podemos decir que tipo de funcion es, ya sea AR o MA.
Para esto tenemos el comando arma(variable, order=c(1,0))

Para el supuesto de correlacion aplicamos la prueba de Ljung-Box con el


comando Box.test(Variable,lag=1,type=Ljung-Box)

5. Para hallar los residuos.

Con los residuos

Podemos ver que todos los valores estan por encima de 0.1 lo que nos dice que
es ruido blanco

6. Para pronosticar usamos los siguientes codigos:

Asignamos fit2 el cual es nuestro modelo AR (1), luego creamos la variable


LH.pred el cual contiene los 5 periodos adelante, con el comando line () grafica
los intervalos donde varia la serie,

Con este comando graficamos los intervalos.

Dejando un grfico como el siguiente

Ejemplo serie de tiempo

Observ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Precios
Observ
Precios
Observ
Precios
Observ
Precios
2540
16
2578
31
2414,1
46
2505,7
2290,9
17
2447
32
2579,1
47
2316,1
2511,2
18
2686,8
33
2475,4
48
2425
2418,7
19
2632,7
34
2413,6
49
2569
2562,6
20
2638,3
35
2684,6
50
2498,5
2467,6
21
2616,2
36
2495,3
51
2603,6
2789,1
22
2394
37
2380,2
52
2647,8
2480
23
2341,8
38
2393,7
53
2393,6
2756,7
24
2413,8
39
2473,6
54
2656,2
2323,3
25
2528,8
40
2563,5
55
2457,8
2426,6
26
2779,5
41
2523,8
56
2736,7
2451,1
27
2278,8
42
2463,7
57
2473,4
2550,8
28
2548,8
43
2531,4
58
2630,6
2466,3
29
2453,9
44
2701
59
2430
2452,1
30
2495,9
45
2501,5
60
2331,4

Con los siguientes datos realice la serie de tiempo y use los comandos de R

Probamos estacionariedad

Concluimos que es estacionario con la prueba de Dickey-Fuller.


Ahora miramos el correlograma

Con este correlograma podemos concluir que el modelo es MA


Probamos con la siguiente configuracin MA (1) MA (3) AR (3)

A continuacin probaremos correlacin con la prueba de Ljung-Box.

Tiene correlacin.
Buscamos los residuos

Potrebbero piacerti anche