Contraste hipótesis R

Metodos numericos y estadsticos
Grados en Ingeniera Aeroespacial y Electrica
Curso 2014/15
Bloque II: Metodos estadsticos
Contenidos
1 Bloque II: Metodos estadsticos

Tema 4 (y II): Contraste de hipotesis con R
El concepto de p-valor
Almacenamiento, manipulacion e importacion datos con R
Contrastes de hipotesis de una y dos muestras con R
Contrastes de hipotesis basados en una distribucion 2 con R
Contrastes de hipotesis de normalidad con R
Metodos ANOVA con R
Contraste de hipotesis sobre regresion lineal con R
Tema 4 (y II): Contraste de hipotesis con R
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 4 / 102

La distribucion que gobierna la altura de los alumnos de primero de Grado de

Ingeniera Aeroespacial
Recuerden el problema que tena Juda Ben-Hur en el tema anterior: a partir de una
muestra de la altura de sus companeros
x1 = 2. 10, x2 = 2. 05, x3 = 2. 06, x4 = 2. 01, x5 = 2. 09,

x6 = 1. 99, x7 = 1. 97, x8 = 2. 07, x9 = 2. 06.
quera realizar el contraste siguiente
H0 : = 1. 80.
H1 : 6= 1. 80.
Juda acepta la normalidad de los datos pero cree desconocer la varianza de la

variable que gobierna la altura. Con estas nuevas condiciones iniciales decide rehacer
los calculos anteriores. Determina los intervalos de confianza para la media a los
niveles 0. 95 y 0. 99
I0.95 = (2. 01, 2. 0788), I0.99 = (1. 9944, 2. 0945).

La distribucion que gobierna la altura de . . . (y II)

Juda wants to believe.
Y por tanto se interroga por el nivel de significacion para que un intervalo de
confianza de la media contenga el valor = 1. 80 aportado por el profesor, de esa
forma no podra rechazar la hipotesis nula. El estadstico del contraste es

b 0

b/ N
que se distribuye segun una tN 1 . En el caso de la muestra dada la realizacion del
estadstico es h = 16. 3865 que se distribuye segun una t8 .
Para aceptar la hipotesis nula Juda sabe que la realizacion del estadstico no debe
pertenecer a la region crtica del contraste, cuya frontera al nivel de significacion
establecen los cuantiles t 2 ,8 y t1 2 ,8 . Por tanto necesita determinar tal que
t 2 ,8 < h = 16. 3865 < t1 2 ,8 .
Por la simetra de los cuantiles de la distribucion t busca tal que
P (|t8 | 16. 3865) = 2P (t8 16. 3865) = .

La distribucion que gobierna la altura de . . . (y III)

En este caso
= 1. 9383 107 .
El valor anterior es el p-valor del contraste y establece la frontera entre los niveles de
significacion que no permiten rechazar la hipotesis nula, caracterizados por
p,
y los niveles de significacion que permiten rechazar la hipotesis nula, caracterizados

por la condicion
> p.
Juda comprueba que el intervalo de confianza al nivel de significacion = 2 107
no contiene el valor 1. 8,
(1. 801, 2. 2879),
mientras que el intervalo de confianza al nivel de significacion = 1. 9 107 s
contiene el valor 1. 8,
(1. 7994, 2. 2895).

!
La tecnica del p-valor ha revolucionado la forma de realizar contrastes de hipotesis.
Esto es debido al incremento de la potencia de calculo de cuantiles de cualquier
distribucion de probabilidad, incremento que es posible a la implementacion de
tecnicas numericas al servicio de la Inferencia estadstica en cualquier ordenador.
!
Un contraste de hipotesis esta disenado para rechazar una hipotesis estadstica.
Desde ese punto de vista, el p-valor, que es una probabilidad, es mas significativo
cuanto mas pequeno es; es decir, si esta proximo a cero es muy significativo y si esta
proximo a uno es nada significativo.
!
Debido al criterio de comparacion con un nivel de significacion, cuanto mas pequeno
es el p-valor mayor es la cantidad de niveles de significacion que permiten rechazar la
hipotesis nula.

El p-valor
La tecnica basica en todos los contrastes de hipotesis para aceptar o rechazar una
hipotesis estadstica se basa en la comparacion de la realizacion h del estadstico de
prueba del contraste con los cuantiles de la variable aleatoria que gobierna la
distribucion del estadstico de prueba a un cierto nivel de significacion.
En estas condiciones, el p-valor del contraste es

el estadstico del contraste alcance el valor de la
p=P H0 es cierta ,
realizacion del estadstico de prueba o valores mayores
o mas precisamente,
p = P || h/H0 es cierta .
!
El p-valor permite decidir si las diferencias entre los valores observados y la hipotesis
nula son atribubles al azar (de acuerdo a la variacion del modelo probabilstico
propuesto), o bien se deben a la falsedad de la hipotesis nula.

Contraste de hipotesis mediante el uso del p-valor

Para realizar un contraste de hipotesis al nivel de significacion ; esto es, al nivel de
confianza 1 , de hipotesis nula H0 e hipotesis alternativa H1 , la comparacion del
p-valor p con el nivel de significacion permite tomar una decision
si > p entonces se rechaza la hipotesis nula al nivel de confianza 1 .
si < p entonces se acepta la hipotesis nula, mas correctamente, no se rechaza
la hipotesis nula al nivel de confianza 1 .
!
Cuanto mas pequeno sea el p-valor que proporciona el contraste a partir de la
muestra mas significativo es desde el punto de vista estadstico porque se puede
rechazar la hipotesis nula para un intervalo de niveles de significacion mayor
(p, 1].
Por el contrario, cuanto mas grande sea el p-valor, este se convierte en menos
significativo desde el punto de vista estadstico: permite rechazar la hipotesis nula
para un intervalo menor de niveles de significacion.

Significacion estadstica del p-valor

El posible rango de p-valores, [0, 1], se clasifica como sigue desde el punto de vista de
su significacion estadstica.
p [0, 0. 001] extremadamente significativo

p (0. 001, 0. 01] altamente significativo
p (0. 01, 0. 05] significativo
p (0. 05, 0. 1] podra ser significativo
p (0. 1, 1] nada significativo
!
El uso de programas de analisis estadstico esta muy extendido. Por esa razon la
extraccion de conclusiones estadsticas mediante contrastes de hipotesis se basa muy
frecuentemente en el p-valor. No obstante existen casos en los que el p-valor puede
conducir a conclusiones erroneas. En esos casos, la toma de decisiones puede resultar
mas acertada si se hace a partir del intervalo de confianza. R proporciona el p-valor e
intervalo de confianza, dejando al usuario extraer conclusiones a partir de uno u otro.

Vectores numericos o cualitativos

La estructura basica para introducir datos en R es el vector de datos, c(). Estos vectores
solo almacenan datos del mismo tipo: numerico o cualitativo.
Los datos cualitativos se introducen entrecomillados separados por comas.
> nombres<-c("Ataulfo","Sigerico","Walia","Teodoredo","Teodorico","Eurico",
"Alarico","Geseleico","Amalarico","Teudis","Teudiselo","Agila")
> nombres
Los datos numericos se introducen separados por comas.
> annos<-c(409,411,412,413,417)
> dias<-1:30
> tutorias<-rpois(30,2)
El comando typeof aplicado a un vector de datos devuelve la naturaleza de los datos.
> typeof(nombres)
[1] "character"
> typeof(annos)
[1] "double"
> typeof(dias)
[1] "integer"

Data frames y listas

A partir de vectores de datos se pueden crear dos estructuras mas complejas: data
frames y listas, que se construyen con las ordenes data.frame y list respectivamente.
Ambos admiten vectores de datos de naturaleza distinta (Una lista puede contener un
data frame!). La caracterstica que los distingue es la siguiente
los vectores incluidos en un data frame deben ser del mismo tamano.
las listas pueden ser construidas con vectores de distinto tamano.
Un ejemplo de lista es
> lista<-list(nombres,annos)
> lista
[[1]]
[1] "Ataulfo" "Sigerico" "Walia" "Teodoredo" "Teodorico" "Eurico"
[7] "Alarico" "Geseleico" "Amalarico" "Teudis" "Teudiselo" "Agila"
[[2]]
[1] 409 411 412 413 417
y un ejemplo de data frame es

> numerotutorias<-data.frame(dias,tutorias)

Data frames y listas (y II)

Los vectores numericos se disponen formando columnas en las dos nuevas estructuras.
Puede resultar interesante nombrar las columnas a traves del comando names: sola-
mente hay que asignar los nombres como datos cualitativos a la estructura de datos.
En el caso de la lista anterior se pueden asignar nombres a las columnas as
> names(lista)<-c("Reyes visigodos","Anno de comienzo de reinado?")
> lista
$`Reyes visigodos`
$`Anno de comienzo de reinado?`

[1] 409 411 412 413 417
Un comando que permite acceder a los datos contenidos en un data frame (o en una lista
con vectores de datos del mismo tamano) es View. En el caso de los datos contenidos
en numerotutorias se pueden visualizar mediante la orden
> View(numerotutorias)

Data frames y listas (y III)

Existen varios comandos que permiten modificar los datos almacenados en una estruc-
tura: edit, fix y via . El comportamiento de ellos es dispar en relacion a los entornos
utilizados (o los sistemas operativos en los que se ejecuta R) debido a que invocan un
programa de edicion de textos.
> fix(numerotutorias)
> edit(lista)
$`Reyes visigodos`

[1] 409 411 412 413 417
> vi(tutorias)
[1] 0 1 1 1 1 1 1 1 3 2 0 4 1 0 1 2 1 4 4 2 1 2 1 1 3 1 0 2 1 1
Estos comandos tambien se diferencian en la respuesta posterior a la edicion de datos:
algunos de ellos reproducen desde la lnea de comandos la estructura modificada.
a
Tambien esta disponible el comando data.entry, aunque resulta mas adecuado para
editar vectores de datos

Data frames y listas (y IV)
Existen dos modos basicos de llamar a los datos almacenados en estas estructuras: por
el numero de columna o por el nombre de la misma. Si se desea recuperar los datos de
una columna basta continuar el nombre de la estructura de datos con la columna entre
corchetes en el caso de un data frame, o dobles corchetes en el caso de una listaa .
> lista[[1]]
> numerotutorias[2]
Si se conocen los nombres de las columnas tambien es posible llamar a los datos de
otra manera: anadir al nombre de la estructura el nombre de la columna separados
ambos por el signo del dolar ($). Por ejemplo
> numerotutorias$dias
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
[26] 26 27 28 29 30
> numerotutorias$tutorias
[1] 0 6 1 5 2 1 2 0 5 1 3 0 3 2 0 3 1 0 3 2 2 1 2 3 2 3 3 0 6 0
a
Aunque en la practica ambos modos funcionan para las dos estructuras

Data frames y listas (y V)

La orden dim devuelve las dimensiones de un data frame, numero de filas y columnasa .
Para determinar las dimensiones de una lista se usa length; aplicado a la lista indica
el numero de columnas y aplicado a una columna devuelve el numero de filas.
> dim(numerotutorias)
[1] 30 2
> length(lista)
[1] 2
> length(lista[[1]])
[1] 12
Con la informacion anterior es facil acceder a un dato de un data frame o una lista.
> numerotutorias[25,2]
[1] 2
> lista[[1]][5]
[1] "Teodorico"
a
Se pueden obtener separadamente mediante nrow y ncol

Data frames y listas (y VI)

Se puede aplicar simultaneamente a cada columna de una lista o un data frame una
misma funcion. La orden que permite esto es lapply o sapplya .
> lapply(lista,summary)
$`Reyes visigodos`
Length Class Mode
12 character character

Min. 1st Qu. Median Mean 3rd Qu. Max.
409.0 411.0 412.0 412.4 413.0 417.0
> sapply(numerotutorias,summary)
dias tutorias
Min. 1.00 0.000
1st Qu. 8.25 1.000
Median 15.50 1.000
Mean 15.50 1.467
3rd Qu. 22.75 2.000
Max. 30.00 4.000
a
La diferencia entre ambas estriba en la estructura de la respuesta, una lista en el
primer caso y un vector de datos en el segundo

Fuentes de informacion
La principal fuente de informacion que permite abordar la importacion desde otros
programas que almacenan y manipulan datos es el enlace titulado
R Data Import/Export
disponible en la portada del sistema de ayuda del programa.
R permite importar datos desde muchos programas que almacenan datos. Se
presentaran brevemente algunos modos de importacion de datos de ficheros
de texto, caracterizados habitualmente por su extension .txt o .csv.
hojas de calculo Excel, caracterizados habitualmente por su extension .xls o
.xlsx.
de datos de SPSS, caracterizados habitualmente por su extension .sav.
!
La forma mas facil de importar grandes cantidades de datos a R es preparar un
fichero de texto (un fichero .csv se puede crear y rellenar con un paquete ofimatico
libre), en el que los decimales esten delimitados por el punto (.) y no por la coma (,).

Importar datos desde ficheros de texto

El comando que permite esta accion es read.table, sentencia que se debe aplicar a
un fichero de texto (.txt o .csv) delimitando su nombre entre comillas.
Los principales modificadores de este comando son
Modificador Llamada Valores

Metodo de separacion de los datos sep ="," o ="." o . . .
Nombre de las columnas header =TRUE o =FALSE
Importar datos desde ficheros de texto con R

Si en el directorio de trabajo se encuentra el fichero Notas.csv entonces la orden
> Notas<-read.table("Notas.csv",sep=",",header=FALSE)
permite importar a un data.frame de R los datos que contiene.
!
RStudio permite importar datos desde ficheros de texto facilmente.
Importar datos desde ficheros Excel

El comando que permite esta accion es read.xlsxa , sentencia que se debe aplicar a
un fichero Excel (.xls o .xlsx) delimitando su nombre entre comillas.

Numero de hoja sheetIndex =1 o =2 o . . .
Nombre de las columnas header =TRUE o =FALSE
a
Disponible despues de cargar el paquete xlsx de R
Importar datos desde ficheros Excel con R

Si en el directorio de trabajo se encuentran los ficheros Notas.xls y Notas.xlsx en-
tonces las ordenes
> Notas2009<-read.xlsx("Notas.xls",sheetIndex=1,header=FALSE)
> Notas2010<-read.xlsx("Notas.xlsx",sheetIndex=2,header=FALSE)
permiten importar en distintos data.frame de R la primera y segunda hoja de trabajo.

Importar datos desde ficheros SPSS

El comando que permite esta accion es read.spssa b , sentencia que se debe aplicar a
un fichero de datos de SPSS (.sav) delimitando su nombre entre comillas.

Nombre de las columnas use.value.labels =TRUE o =FALSE
Conversion a data.frame to.data.frame =TRUE o =FALSE
a
Disponible despues de cargar los paquetes foreign y Hmisc de R
b
Tambien se puede usar la orden spss.get
Importar datos desde ficheros SPSS con R

Si en el directorio de trabajo se encuentra el fichero mundial.sav entonces la orden
> World<-read.spss("mundial.sav",use.value.labels=TRUE,to.data.frame=TRUE)
permite importar a un data.frame de R los datos que contiene.

Ordenes de R
Los contrastes de una y dos muestras presentados estan dedicados a proporciones e
igualdad de proporciones, igualdad de varianzas y medias y diferencia de medias. Estos
tres tipos contrastes se realizan por medio de las tres sentencias siguientes
Tipo de contraste Sentencia de R

Contraste de proporciones prop.test
Contraste de varianzas var.test
Contraste de medias t.test
Resulta obligado acompanar estas sentencias del nivel de confianza elegido y de la hipo-
tesis alternativa. Ambas posibilidades se introducen mediante modificadores anadidos
dentro de las sentencias anteriores.
Modificador Posible valor

Hipotesis alternativa alternative two.sided, greater, less
Nivel de confianza conf.level cualquier numero en [0, 1]

Contraste de proporciones con R

La sentencia prop.test permite realizar dos contrastes
sobre el valor de una proporcion: hipotesis nula p = p0 .
En este caso se debe proporcionar como datos dos numeros, x que es el numero
de exitos y n el numero de intentos.
sobre la igualdad de dos proporciones: hipotesis nula p1 = p2 .
En este caso se debe proporcionar como datos dos vectores, x que es el numero
de exitos en cada uno de los experimentos y n el numero de intentos en cada uno
de los experimentos.
La hipotesis nula del primer contraste se escribe como sigue
p=p0 .
Este contraste posee un modificador propio, correct, que admite los valores TRUE y
FALSE, que hace referencia a la correccion de continuidad (tecnica distinta a la presen-
tada en el tema anterior para realizar este tipo de contrastes).
!
Explorar y experimentar con la sentencia binom.test de R.

Contraste sobre una proporcion

De un experimento tipo Bernoulli se han realizado 50 intentos con 17 exitos. Para
realizar el contraste siguiente al nivel de significacion = 0. 05

H0 : p = 0. 14
H1 : p 6= 0. 14
se utiliza el comando de R siguiente

> prop.test(17,50,p=0.14,alternative="two.sided",conf.level=0.95,correct=FALSE)
1-sample proportions test without continuity correction
data: 17 out of 50, null probability 0.14

X-squared = 16.6113, df = 1, p-value = 4.588e-05
alternative hypothesis: true p is not equal to 0.14
95 percent confidence interval:
0.2243695 0.4784617
sample estimates:
p
0.34
Como el p-valor del contraste, p = 4. 588 105 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

Contraste sobre la igualdad de dos proporciones

De dos experimentos tipo Bernoulli se han realizado 100 intentos con 27 y 19 exitos
respectivamente. Para realizar el contraste siguiente al nivel de significacion = 0. 05

H0 : p1 = p2
H1 : p1 6= p2
se utiliza el comando de R siguiente
> prop.test(c(27,19),c(100,100),alternative="two.sided",conf.level=0.95,
correct=FALSE)
2-sample test for equality of proportions without continuity correction
data: c(27, 19) out of c(100, 100)

X-squared = 1.8069, df = 1, p-value = 0.1789
alternative hypothesis: two.sided
-0.03611856 0.19611856
sample estimates:
prop 1 prop 2
0.27 0.19
Como el p-valor del contraste, p = 0. 1789, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

Contraste de cociente de varianzas con R

La sentencia var.test permite realizar el contraste de cociente de dos varianzas
2
hipotesis nula 12 = 0
2
A este contraste se le debe proporcionar como datos dos colecciones numericas x
e y.
La hipotesis nula del contraste se escribe como sigue
ratio=0 .
El contraste de igualdad de varianzas se realiza tomando 0 = 1.
!
La prueba de igualdad de varianzas es una obligacion previa al contraste de
diferencia de medias de dos poblaciones normales independientes.

Contrastes sobre cociente de varianzas y diferencia de medias

Estas tres colecciones de datos se utilizaran en los ejemplos siguientes.
> x<-c(14.66,9.54,10.97,2.28,3.11,15.28,5.03,8.94,6.80,11.07,5.25,4.70,5.94,8.25,
7.66,21.74,3.72,0.24,-1.83,16.08,7.29,11.71,7.75,11.02,12.02,2.66,8.28,12.48,
10.05,20.79,-1.19,17.66,11.37,7.98,6.93)
> x
[1] 14.66 9.54 10.97 2.28 3.11 15.28 5.03 8.94 6.80 11.07 5.25 4.70 5.94
[14] 8.25 7.66 21.74 3.72 0.24 -1.83 16.08 7.29 11.71 7.75 11.02 12.02 2.66
[27] 8.28 12.48 10.05 20.79 -1.19 17.66 11.37 7.98 6.93
> y<-c(11.39,24.02,31.25,0.25,25,9.25,0.33,28.81,2.52,13.21,3.21,-0.05,9.29,23.70,
17.99,11.68,-3.59,11.34,4.53,8.9,19.21,1.24,19.05,10.05,15.26,14.48,0.93,18.15,
26.95,-7.13,22.57,25.4,5.23,-0.94,13.93,17.41,-4.76,24.14,13.99)
> y
[1] 11.39 24.02 31.25 0.25 25.00 9.25 0.33 28.81 2.52 13.21 3.21 -0.05 9.29
[14] 23.70 17.99 11.68 -3.59 11.34 4.53 8.90 19.21 1.24 19.05 10.05 15.26 14.48
[27] 0.93 18.15 26.95 -7.13 22.57 25.40 5.23 -0.94 13.93 17.41 -4.76 24.14 13.99
> z<-c(7.3,12.79,7.28,8.93,10.26,6.33,8.42,5.2,1.38,4.29,19.0,0.32,2.44,-0.03,5.25,
2.04,1.14,7.84,11.59,3.66,4.54,3.54,5.21,0.76,2.33,7.88,-0.31,0.77,11.7,0.78,
5.31,3.49,13.73,6.82,4.03, 0.69,18.59,6.25,-8.42)
> z
[1] 7.30 12.79 7.28 8.93 10.26 6.33 8.42 5.20 1.38 4.29 19.00 0.32 2.44
[14] -0.03 5.25 2.04 1.14 7.84 11.59 3.66 4.54 3.54 5.21 0.76 2.33 7.88
[27] -0.31 0.77 11.70 0.78 5.31 3.49 13.73 6.82 4.03 0.69 18.59 6.25 -8.42

Contraste de igualdad de varianzas

Dadas las muestras x e y, el contraste de igualdad de varianzas
2

H0 : 12 = 22 12 = 1
2
2

H1 : 12 6= 22
1
6= 1
2
2
a nivel significacion = 0. 05 se hace con R como sigue

> var.test(x,y,ratio=1,alternative="two.sided",conf.level=0.95)
F test to compare two variances
data: x and y
F = 0.3, num df = 34, denom df = 38, p-value = 0.0005208
alternative hypothesis: true ratio of variances is not equal to 1
0.15 0.58
sample estimates:
ratio of variances
0.3
Contraste de igualdad de varianzas

Dadas las muestras x y z, el contraste de igualdad de varianzas
2

H0 : 12 = 22 12 = 1
2
2

H1 : 12 6= 22
1
6= 1
2
2

> var.test(x,z,ratio=1,alternative="two.sided",conf.level=0.95)
data: x and z
0.57 2.17
sample estimates:
ratio of variances
1.1

Contraste de diferencia de medias con R

La sentencia t.test permite realizar dos tipos de contraste de diferencia de medias
de poblaciones normales independientes, hipotesis nula 1 2 = 0
En este caso se debe proporcionar como datos dos colecciones numericas x e y e
indicar a traves del modificador var.equal si las varianzas son iguales, TRUE, o
bien si son distintas, FALSE.
de poblaciones normales dependientes, hipotesis nula 1 2 = 0
En este caso se debe proporcionar como datos dos colecciones numericas x e y e
indicar que los datos introducidos son pareados mediante el modificador paired
con el valor TRUE.
= 0 .
El contraste de igualdad de medias se realiza tomando 0 = 0.
!
El valor por defecto para el modificador paired en el comando t.test es FALSE, por
tanto no es necesario utilizarlo cuando se contrastan poblaciones independientes.

Contraste de igualdad de medias de poblaciones independientes

Dadas las muestras x e y, el contraste de igualdad de medias con varianzas distintas
(
H0 : 1 = 2 1 2 = 0
H1 : 1 6= 2 1 2 6= 0

> t.test(x,y,mu=0,alternative="two.sided",var.equal=FALSE,conf.level=0.95)
Welch Two Sample t-test
data: x and y
t = -1.7, df = 60, p-value = 0.09137
alternative hypothesis: true difference in means is not equal to 0
-7.05 0.54
sample estimates:
mean of x mean of y
8.7 12.0
Como el p-valor del contraste, p = 9. 137 102 , es mayor que el nivel de significacion

Contraste de igualdad de medias de poblaciones independientes

Dadas las muestras y y z, el contraste de igualdad de medias con varianzas iguales
(
H0 : 1 = 2 1 2 = 0
H1 : 1 6= 2 1 2 6= 0

> t.test(x,z,mu=0,alternative="two.sided",var.equal=TRUE,conf.level=0.95)
Two Sample t-test
data: x and z
t = 2.6, df = 72, p-value = 0.01162
0.76 5.81
sample estimates:
mean of x mean of y
8.7 5.5

Contraste de diferencias de medias de poblaciones dependientes

Dadas las muestras y y z, el contraste de diferencia de medias de datos pareados
(
H0 : 1 2 = 5
H1 : 1 2 6= 5

> t.test(y,z,mu=5,alternative="two.sided",paired=TRUE,conf.level=0.95)
Paired t-test
data: y and z
t = 0.8188, df = 38, p-value = 0.418
2.732202 10.348311
sample estimates:
mean of the differences
6.540256

Contraste sobre el valor de una media con R
La sentencia t.test permite realizar el contraste sobre el valor de la media de una
poblacion normal
hipotesis nula = 0
Para realizar este contraste basta con proporcionarle una coleccion de datos
numericos x acompanada de los modificadores alternative y conf.level con
los valores adecuados.
= 0 .
!
El programa R no tiene implementado el contraste para el valor de una media donde
la varianza de la poblacion normal es conocida, como tampoco tiene implementado el
contraste sobre el valor de la varianza de una poblacion normal.
!
Explorar y experimentar con la sentencia poisson.test de R.
Contraste sobre el valor de una media

Dada la muestra x, el contraste sobre el valor de la media
(
H0 : = 5
H1 : >5

> t.test(x,mu=5,alternative="greater",conf.level=0.95)
One Sample t-test
data: x
t = 3.9642, df = 34, p-value = 0.0001794
alternative hypothesis: true mean is greater than 5
7.150123 Inf
sample estimates:
mean of x
8.749429

Contraste sobre el valor de una varianza

Dada la muestra x, el contraste sobre el valor de la varianza
(
H0 : 2 = 15
H1 : 2 6= 15
a nivel significacion = 0. 01 aunque no esta implementado en R se puede hacer va el

intervalo de confianza
> (length(x)-1)*var(x)*c(1/qchisq(0.995,length(x)-1),1/qchisq(0.005,length(x)-1))
[1] 18.05406 64.51250
bien va el p-valor bajo la hipotesis de la veracidad de la hipotesis nula

> sigma0<-15
> h<-(length(x)-1)/sigma0*var(x)
> pchisq(h,length(x)-1,lower.tail=FALSE)
[1] 0.0002061362
En ambos casos se rechaza la hipotesis nula, porque el valor 2 = 15 no pertenece al
intervalo de confianza (18. 0541, 64. 5125) y porque el p-valor, p = 2. 0614 104 , es
menor que el nivel de significacion escogido, p < = 0. 01.

Contrastes relacionados con una tabla de contingencia con R

Estos contrastes estan basados en la comparacion con cuantiles de una 2 . La sentencia
chisq.test permite realizar los contrastes sobre independencia de dos caractersticas
o la homogeneidad de una caracterstica en una poblacion cuyas hipotesis nulas son
las caractersticas son independientes.
todas las muestras son homogeneas respecto de la variable.
A ambos contrastes hay que proporcionarles una tabla de contingencias.
El comando matrix aplicado a un vector numerico que contenga los datos de tabla
(con la conocida estructura c( , , , )), seguido de dos numeros, nrow y ncol, que
indican respectivamente la cantidad de filas y de columnas de la tabla, completado con
el modificador byrow=TRUE (para fraccionar el vector adecuadamente),
Tabla<-matrix(c(, , , ), ncol=a, nrow=b, byrow=TRUE)
es la forma mas sencilla de introducir una tabla de contingencias.
Los comandos colnames y rownames permiten nombrar columnas y filas. La estructura
tpica de ambos es la siguiente
colnames(Tabla)<-c( , , , ) con tantos nombres como columnas
rownames(Tabla)<-c( , , , ) con tantos nombres como filas

Contraste de homogeneidad
De dos experimentos tipo Bernoulli se han realizado 100 intentos con 27 y 19 exitos
respectivamente. Se pretende contrastar si las proporciones de exito son la misma
en ambos experimentos o si son distintas. Este contraste se puede presentar como un
contraste de homogeneidad donde la poblacion total se divide en dos grupos, resultados
del primer y del segundo experimento, B1 y B2 , y la caracterstica X se agrupa en exitos
y fracasos, A1 y A2 . Por tanto el contraste
(
H0 : todas las muestras son homogeneas respecto de la variable
H1 : alguna muestra es diferente
se realiza a partir de la tabla de contingencias
X / poblacion primer experimento segundo experimento

exitos 29 17
fracasos 71 83

Contraste de homogeneidad (y II)

La cadena de sentencias de R definen la tabla de contingencias anterior
> Tabla<-matrix(c(27,19,73,81),ncol=2,nrow=2,byrow=TRUE)
> rownames(Tabla)<-c("exitos","fracasos")
> colnames(Tabla)<-c("primer experimento", "segundo experimento")
> Tabla
primer experimento segundo experimento
exitos 27 19
fracasos 73 81
El contraste de hipotesis pedido se lleva a cabo como sigue
> chisq.test(Tabla,correct=FALSE)
Pearson's Chi-squared test
data: Tabla

Contraste de homogeneidad (y III)

Las sentencias $observed, $expected y $residuals^2 anadidas a la orden que permite
realizar el contraste de homogeneidad devuelve la tabla de valores observados
> chisq.test(Tabla,correct=FALSE)$observed
exitos 27 19
fracasos 73 81
la tabla de valores esperados de acuerdo a la hipotesis nula
> chisq.test(Tabla,correct=FALSE)$expected
exitos 23 23
fracasos 77 77
y lo que aporta cada una de las clases a la realizacion del estadstico del contraste
> chisq.test(Tabla,correct=FALSE)$residuals^2
exitos 0.6956522 0.6956522
fracasos 0.2077922 0.2077922
> 0.6956522+0.6956522+0.2077922+0.2077922
[1] 1.806889
Contraste de homogeneidad (y III)

El modificador correct, que puede tomar valores TRUE o FALSE, hace referencia a
una correccion de continuidad valida para tablas de contingencia dos por dos. Esto es
debido a que para las tablas de este tamano, este contraste coincide con el contraste de
igualdad de proporciones resuelto con el comando prop.test (vease la trasparencia 26).
Ambos contrastes proporcionan los mismos resultados cuando se indica que apliquen
la correccion de continuidad.
> chisq.test(Tabla,correct=TRUE)
Pearson's Chi-squared test with Yates' continuity correction
data: Tabla
> prop.test(c(27,19),c(100,100),alternative="two.sided",conf.level=0.95,correct=TRUE)
2-sample test for equality of proportions with continuity correction
data: c(27, 19) out of c(100, 100)

alternative hypothesis: two.sided
-0.04611856 0.20611856
sample estimates:
prop 1 prop 2
0.27 0.19

Contrastes de bondad de ajuste con R

Estos contrastes estan tambien basados en la comparacion con cuantiles de una 2 .
Analogamente la sentencia chisq.test permite realizar los contrastes de bondad de
ajuste de hipotesis nula
el modelo probabilstico propuesto es correcto
Este contraste exige para su correcta aplicacion un vector numerico con las
frecuencias absolutas de cada clase y un vector numerico con las probabilidades
propuestas para cada clase. Tambien es posible ofrecerle las frecuencias absolutas
esperadas, en este caso habra que anadir el modificador rescale.p=TRUE.
!
En el caso de un modelo probabilstico para una proporcion presentado como el
numero de exitos y fracasos, este contraste coincide con el contraste sobre una
proporcion sin correccion de continuidad.

Contraste de bondad de ajuste

En un experimento tipo Bernoulli se han contado 17 exitos de 50 intentos y se desea
contrastar si la proporcion de exitos es p = 0. 14; esto es, se pide contrastar el modelo
Frecuencias observadas Frecuencias esperadas

17 7
33 43
El contraste

H0 : el modelo probabilstico propuesto para la variable aleatoria es correcto
H1 : el modelo probabilstico propuesto no es correcto
se lleva a cabo mediante las sentencias

> frecuenciasobservadas<-c(17,33)
> frecuenciasesperadas<-c(7,43)
> chisq.test(frecuenciasobservadas,p=frecuenciasesperadas,rescale.p=TRUE)
Chi-squared test for given probabilities
data: frecuenciasobservadas

Contraste de bondad de ajuste (y II)

De forma alternativa este contraste se puede llevar a cabo a traves de la secuencia de
sentencias
> frecuenciasobservadas<-c(17,33)
> probabilidadespropuestas<-c(0.14,0.86)
> chisq.test(frecuenciasobservadas,p=probabilidadespropuestas)
data: frecuenciasobservadas
!
Para contrastar proporciones, el contraste de bondad de ajuste coincide con el
contraste sobre una proporcion sin correccion de continuidad resuelto mediante el
comando prop.test (vease la trasparencia 25).

Contraste de bondad de ajuste a una normal

En una produccion de varillas de metal se han observado las longitudes siguientes
Intervalo de longitudes Numero de varillas observadas

[0, 2) 1
[2, 4) 6
[4, 6) 12
[6, 8) 4
[8, 10) 2
Se desea contrastar si la distribucion de la longitud de las varillas es una N (6, 3). De

acuerdo a esta hipotesis se tiene
Intervalo de longitudes Probabilidad del intervalo

[0, 2) 0.0912
[2, 4) 0.1613
[4, 6) 0.2475
[6, 8) 0.2475
[8, 10) 0.2525

Contraste de bondad de ajuste a una normal (y II)

En este caso el contraste

H0 : el modelo probabilstico propuesto para la variable aleatoria es N (6, 3)
se puede llevar a cabo as

> longitudesobservadas<-c(1,6,12,4,2)
> probabilidades<-c(0.0912, 0.1613, 0.2475, 0.2475, 0.2525)
> chisq.test(longitudesobservadas,p=probabilidades)
data: longitudesobservadas
Como el p-valor del contraste, p = 0. 0282, es menor que el nivel de significacion

!
Como los parametros de la normal estan dados en el modelo los grados de libertad
del estadstico son los que indica el programa, numero de clases menos uno: cuatro.

Contraste de bondad de ajuste a una normal (y III)

Si se realiza una estimacion a partir de las marcas de clase anteriores de la media y la
varianza se obtiene
> marcasclase<-c(1,rep(3,6),rep(5,12),rep(7,4),rep(9,2))
> mean(marcasclase)
[1] 5
> sd(marcasclase)
[1] 1.914854
Si se ajustan los datos mediante una normal N (5, 1. 9) se tiene
Intervalo de longitudes Probabilidad del intervalo

[0, 2) 0.0517
[2, 4) 0.2422
[4, 6) 0.4012
[6, 8) 0.2422
[8, 10) 0.0517

Contraste de bondad de ajuste a una normal (y IV)

Si se lleva a cabo el contraste

H0 : el modelo probabilstico propuesto para la variable aleatoria es N (5, 1. 9)
mediante las ordenes

> longitudesobservadas<-c(1,6,12,4,2)
> probabilidades2<-c(0.0572, 0.2422, 0.4012, 0.2422, 0.0572)
> chisq.test(longitudesobservadas,p=probabilidades2)
data: longitudesobservadas
Como se han hecho dos estimaciones sobre los parametros de la normal los grados del
estadstico de prueba indicados por el programa no son correctos. En este caso son dos,
cinco clases menos dos parametros estimados menos uno.

Contraste de bondad de ajuste a una normal (y V)

La realizacion del estadstico de prueba no vara lo que permite calcular el p-valor con
el que se debe comparar el nivel de significacion. El p-valor proporcionado por el R es
> pchisq(1.4414,4,lower.tail=FALSE)
[1] 0.8369685
mientras que el adecuado de acuerdo a la teora presentada se determina como sigue

> pchisq(1.4414,2,lower.tail=FALSE)
[1] 0.4864116

= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95,
luego se acepta la normalidad de la variable que gobierna la longitud de las varillas.
!
Se debe prestar atencion a la hora de determinar los grados de libertad en los
contrastes de bondad de ajuste mediante una 2 .

Contraste de Kolmogorov-Smirnov con R

Este tipo de contraste de bondad de ajuste se lleva a cabo mediante la sentencia
ks.test. La hipotesis nula, que consiste en establecer una funcion de distribucion que
gobierne la variable aleatoria de la que unos datos son una muestra de sus valores
accesibles, se redacta como sigue
la variable aleatoria tiene a la funcion F como funcion de distribucion
Ademas de una muestra, hay que acompanar al comando anterior de un modelo
de probabilidad con el que contrastar junto de los parametros que determinan el
modelo propuesto.
!
Los contrastes estan disenados para rechazar la hipotesis nula, pero este se produce
cuando los datos proporcionan evidencias estadsticas que contradicen fuertemente la
hipotesis nula. Muchas son las distribuciones que son susceptibles de gobernar una
variable de la que se posee una muestra, por lo tanto al igual que en el resto de los
contrastes, los datos deben ladrar para descartar un modelo probabilstico.

Contraste de Kolmogorov-Smirnov
El comando rpois va a generar una muestra aleatoria de una variable Poisson P (15)
> poisson<-rpois(25,15)
> table(poisson)
poisson
6 10 12 13 14 15 16 17 18 19 21 25
1 1 2 1 1 7 3 3 2 2 1 1
y a continuacion se va a realizar el contraste para establecer si dicha muestra puede

proceder de una variable uniforme de parametros el mnimo y el maximo de la muestra

H0 : el modelo probabilstico propuesto para la variable aleatoria es uniforme
> ks.test(poisson,"punif",min(poisson),max(poisson))
One-sample Kolmogorov-Smirnov test
data: poisson
D = 0.2358, p-value = 0.1241
alternative hypothesis: two-sided

Contraste de Lilliefors con R

Este tipo de contraste de bondad de ajuste se lleva a cabo mediante la sentencia li-
lie.testa . Esta disenado para contrastar especficamente si una muestra dada procede
de una variable aleatoria normalmente distribuida. La hipotesis nula se redacta como
sigue
la variable aleatoria que gobierna la muestra sigue una distribucion normal
El comando anterior solo necesita una muestra para realizar la prueba.
a
Disponible despues de cargar el paquete nortest de R
!
Como proceder cuando los contrastes de Kolmogorov-Smirnov y de Lilliefors para la
normalidad de una variable aleatoria proporcionan resultados contradictorios? Se
atreve usted a indagar en busca de la respuesta?

Contraste de Lilliefors
Dada la muestra anterior llamada poisson se procede a realizar el contraste de nor-
malidad de Lilliefors

H0 : la variable aleatoria sigue una distribucion normala
H1 : la variable aleatoria no sigue una distribucion normal
mediante la sentencia siguiente

> lillie.test(poisson)
Lilliefors (Kolmogorov-Smirnov) normality test
data: poisson
D = 0.132, p-value = 0.3151
a
La media y varianza de esta distribucion normal coinciden con la media y la
varianza de la muestra dada

Contraste de Lilliefors (y II)

La sentencia que permite aplicar Kolmogorov-Smirnov a esta muestra es
> ks.test(poisson,"pnorm",mean(poisson),sd(poisson))
One-sample Kolmogorov-Smirnov test
data: poisson
D = 0.132, p-value = 0.7761
alternative hypothesis: two-sided
En este caso ambos contrastes dan lugar a la misma decision estadstica. Notar que
ambos contrastes tienen la misma realizacion del estadstico pero diferentes p-valores.
Contraste de Shapiro-Wilks
Este proceso de comparacion comparte con el contraste de Lilliefors su diseno especfico
para determinar la normalidad de una variable aleatoria, y desde el punto de vista de
R, su sencillez en la ejecucion, basta aplicar shapiro.test a la muestra dada.
> shapiro.test(poisson)
Shapiro-Wilk normality test
data: poisson
W = 0.9468, p-value = 0.2126

Contraste de Shapiro-Wilks (y II)

Se introduce el contraste de Shapiro-Wilks debido al uso tan extendido de los llamados
graficos Q-Q de normalidad asociados a esta tecnica y presentados en el tema anterior.
Este tipo de grafo para la muestra dada es
25 Grafico QQ de normalidad
Cuantiles muestrales
20
15
10
2 1 0 1 2
Cuantiles teoricos
que es la respuesta a estas dos ordenes de R

> qqnorm(poisson,pch=16,main="Grafico Q-Q de normalidad",xlab="Cuantiles teoricos",
ylab="Cuantiles muestrales")
> qqline(poisson)

Metodos ANOVA con R
Homogeneidad de varianzas con R

Ademas de la suposicion de normalidad de las muestras involucradas en un contraste
ANOVA, estas tecnicas exigen la homogeneidad de las varianzas. Para realizar este
contraste se ha presentado la prueba de Bartlett que se ejecuta en R a traves del
comando bartlett.test. La hipotesis nula de este contraste es
12 = 22 = . . . k2
Para llevarlo a cabo basta aplicar el comando anterior a una lista que contenga
todas las muestras dadas. Esta lista se construye con la orden list.
!
Otra prueba muy extendida para establecer la condicion de homocedasticidad de
varianzas es el contraste de Levene, mas recomendable que el contraste de Bartlett si
no se puede establecer con rotundidad la normalidad de los datos.
!
Ah, es que hay mas contrastes? Claro! La Estadstica esta en constante crecimiento.

Metodos ANOVA con R
Contraste de Bartlett
Para ilustrar los metodos ANOVA se generaran cinco muestras aleatorias normales
de distintos tamanos llamadas muestra1, muestra2, muestra3, muestra4 y muestra5.
Dado el modelo de probabilidad elegido se omiten los contrastes de normalidad de las
muestras. Las ordenes siguientes generan las muestras anunciadas
> muestra1<-rnorm(100,10,10)
> muestra2<-rnorm(105,9.8,10.5)
> muestra3<-rnorm(102,9.7,9.8)
Aplicar el contraste de Bartlett a las muestras anteriores resulta sencillo

> bartlett.test(list(muestra1,muestra2,muestra3,muestra4,muestra5))
Bartlett test of homogeneity of variances
data: list(muestra1, muestra2, muestra3, muestra4, muestra5)

Bartlett's K-squared = 61.9784, df = 4, p-value = 1.113e-12
Como el p-valor del contraste, p = 1. 113 1012 , es extremadamente significativo se

rechaza la homogeneidad de varianzas al nivel de confianza 1 = 0. 95.

Metodos ANOVA con R
Contraste de Bartlett (y II)

Los calculos que permiten determinar la realizacion del estadstico de prueba del con-
traste y su p-valor se pueden reproducir facilmente con las formulas del tema anterior.
> muestras<-list(muestra1,muestra2,muestra3,muestra4,muestra5)
> longitudes<-sapply(muestras,length)
> cuasivarianzas<-sapply(muestras,var)
> sp<-sum((longitudes-1)*cuasivarianzas)/(sum(longitudes-1))
> B<-sum(longitudes-1)*log(sp)-sum((longitudes-1)*log(cuasivarianzas))
> C<-1+1/12*(sum(1/(longitudes-1))-1/sum(longitudes-1))
Luego la realizacion de estadstico de prueba y el p-valor del contraste
B
h= = 61. 9784, p = 1. 113 1012 ,
C
se determinan a partir de los calculos anteriores como sigue
> h<-B/C
> h
[1] 61.9784
> pchisq(h,4,lower.tail=FALSE)
[1] 1.113179e-12

Metodos ANOVA con R
Contraste de Bartlett (y III)

Ahora se debe determinar cual o cuales muestras impiden la condicion de homocedas-
ticidad de varianzas. Una opcion es aplicar el contraste de Levy (presentado en el tema
anterior como ejemplo de comparacion multiple de varianzas). Para evitar su uso, se
analizara mediante un diagrama de cajas la dispersion de las cinco muestras dadas.
Datos de las muestras
30
10
10
30
Diagrama de cajas de las cinco muestras
La figura anterior se ha obtenido como respuesta a la sentencia

> boxplot(muestra1,muestra2,muestra3,muestra4,muestra5,
xlab="Diagrama de cajas de las cinco muestras",ylab="Datos de las muestras")

Metodos ANOVA con R
Contraste de Bartlett (y IV)

Aparentemente, la varianza de la muestra cinco es menor que el resto. Se realizan a
continuacion dos contrastes de igualdad de varianzas para confirmar tal intuicion.
> var.test(muestra1,muestra5)
data: muestra1 and muestra5

F = 3.9045, num df = 99, denom df = 103, p-value = 3.695e-11
2.639437 5.784823
sample estimates:
ratio of variances
3.904503
> var.test(muestra1,muestra3)

0.5773333 1.2702036
sample estimates:
ratio of variances
0.8560106

Metodos ANOVA con R
Contraste de Bartlett (y V)
A la luz de los p-valores de los contrastes anteriores, 3. 695 1011 y 0. 4389, a nivel de
significacion = 0. 05, se rechaza la igualdad de varianzas entre las distribuciones que
gobiernan la primera y la quinta muestra y no se rechaza la igualdad de varianzas entre
la primera y la tercera. Por tanto, se realizara una prueba de Bartlett para contrastar
(
H0 : 12 = 22 = 32 = 42 .
H1 : existen i , j {1, 2, 3, 4} tal que i2 6= j2 .
La sentencia que permite ejecutar esta prueba es

> bartlett.test(list(muestra1,muestra2,muestra3,muestra4))
data: list(muestra1, muestra2, muestra3, muestra4)

Bartlett's K-squared = 1.0989, df = 3, p-value = 0.7773
Como el p-valor del contraste, p = 0. 7773, no es significativo no se rechaza la homo-
geneidad de varianzas al nivel de confianza 1 = 0. 95.

Metodos ANOVA con R
!
El analisis anterior para determinar que varianzas satisfacen la condicion de
homocedasticidad nunca puede sustituir al rigor inherente a un contraste de
hipotesis, en el caso de interes, el contraste de Levy.
Comparacion de igualdad de medias con R

Una vez que se ha presentado el uso del contraste de Bartlett se ilustrara el metodo
para realizar el contraste de igualdad de medias
(
H0 : 1 = 2 = . . . = k .
H1 : existen i , j {1, 2, . . . , k } tal que i 6= j .
El comando que permite este contraste es anova, cuya respuesta se completa con la
que proporciona el comando aov.
El tamano de las muestras involucradas no tiene que ser constante pero para utilizar
los comando de R s deben ser iguales. Para ello se debe completar cada muestra hasta
el tamano de la mayor con el dato NA, que es la forma que tiene el programa de indicar
que falta ese dato (esta inclusion no altera los resultados de la pruebas).

Metodos ANOVA con R
Comparacion de medias
Tras establecer la homogeneidad de las varianzas de las distribuciones que gobiernan
las cuatro primeras variables se procede a contrastar la homogeneidad de sus medias.
(
H0 : 1 = 2 = 3 = 4 .
H1 : existen i , j {1, 2, 3, 4} tal que i 6= j .
Las siguientes sentencias permiten, completando las muestras dadas mediante la indi-
cacion de datos desaparecidos (Not Available / Missing Values), obtener muestras
del mismo tamano.
> m1<-c(muestra1,rep(NA,7))
> m4<-muestra4
!
El comando rep aplicado sobre una par (a,b), repite el caracter a tantas veces como
indica el contador b.

Metodos ANOVA con R
Comparacion de medias (y II)

A partir de las muestras con mismo tamano se procede a definir la coleccion de datos
formada por todas las muestras, de las que cada una de ellas constituira un factor o
nivel. Este proceso se puede realizar como sigue
> coleccion<-c(m1,m2,m3,m4)
> niveles<-gl(4,107,labels=c("m1","m2","m3","m4"))
> tapply(coleccion,niveles,summary)
$m1
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-13.560 1.812 9.932 9.524 15.290 36.270 7
$m2
-14.180 1.442 9.107 8.742 17.670 32.770 2
$m3
-20.0600 0.6353 9.5320 9.1730 16.0800 35.5000 5
$m4
Min. 1st Qu. Median Mean 3rd Qu. Max.
-22.670 -2.040 3.241 3.608 10.370 29.450

Metodos ANOVA con R
!
El comando gl (del ingles generate factor levels), permite definir los factores o
niveles. Los dos numeros que acompanan a la orden indican el numero de factores y
el tamano de cada uno de ellos.
Comparacion de medias (y III)

Se crea el objeto modelo y a continuacion se realiza el contraste pedido
> modelo<-lm(coleccion~niveles)
> anova(modelo)
Analysis of Variance Table
Response: coleccion
Df Sum Sq Mean Sq F value Pr(>F)
niveles 3 2459 819.76 7.3383 8.407e-05 ***
Residuals 410 45801 111.71
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

rechaza la igualdad de medias al nivel de confianza 1 = 0. 95.

Metodos ANOVA con R
Comparacion de medias (y IV)

El comando aov aplicado sobre el modelo creado complementa la respuesta a la ins-
truccion anterior de cara a una reconstruccion de los datos que permiten construir el
estadstico de prueba.
> aov(modelo) # complementa la respuesta anterior
Call:
aov(formula = modelo)
Terms:
niveles Residuals
Sum of Squares 2459.29 45801.38
Deg. of Freedom 3 410
Residual standard error: 10.56933

Estimated effects may be unbalanced
14 observations deleted due to missingness
!
Solamente falta ilustrar los contrastes de comparacion multiple de Tukey y de
Student-Newman-Keuls para detectar diferencias entre las medias.

Metodos ANOVA con R
!
Gracias al modelo lineal creado ejecutar el contraste de homogeneidad de varianzas
de Levenea es tambien muy sencillo como revela la sentencia siguiente
> leveneTest(modelo)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 0.5143 0.6727
410
a
Disponible despues de cargar el paquete car de R
Comparacion multiple de medias con R: contraste de Tukey

La prueba de comparacion multiple de Tukey realiza simultaneamente los contrastes
de hipotesis siguientes
(
H0 : i = j
H1 : i 6= j ,
para todo i , j = 1, 2, . . . , k , i 6= j .
El comando de R que permite realizar esta prueba es TukeyHSD.
Metodos ANOVA con R
Comparacion multiple de medias con R: contraste de Tukey

El citado comando aplicado a la orden aov sobre modelo construido y acompanado de
un nivel de confianza, devuelve un intervalo de confianza y un p-valor para cada uno
de los contrastes sobre igualdad de medias realizado.
Contraste de Tukey
Si se continua el anterior ejemplo, esta prueba al nivel de significacion = 0. 05 se
realiza como sigue
> TukeyHSD(aov(modelo),conf.level=0.95)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = modelo)
$niveles
diff lwr upr p adj
m2-m1 -0.7817061 -4.591326 3.027914 0.9519367
m3-m1 -0.3502205 -4.187072 3.486631 0.9953998
m4-m1 -5.9152789 -9.707491 -2.123067 0.0003956
m3-m2 0.4314857 -3.358956 4.221927 0.9911796
m4-m2 -5.1335728 -8.878822 -1.388323 0.0025456
m4-m3 -5.5650585 -9.338004 -1.792113 0.0009371
Metodos ANOVA con R
Contraste de Tukey (y II)

A la luz de los resultados de la prueba, estadsticamente hablando, no se rechaza al
nivel de significacion dado la igualdad de las medias de las tres primeras variables y
s se rechaza que la media de la cuarta variable aleatoria sea la misma que la media
de las otras tres: el intervalo de confianza para las tres posibles diferencias de medias
de las tres primeras variables contiene al valor cero, mientras que los tres intervalos de
confianza de la cuarta media con las tres restantes no contienen al valor cero.
Tambien es destacable la potencia grafica que alcanza la combinacion de los comandos
plot y TukeyHSDa . La figura recogida en la trasparencia siguiente es la respuesta a
> plot(TukeyHSD(aov(modelo),conf.level=0.95))
que recoge de forma grafica la informacion proporcionada por la prueba de Tukey.
a
Del ingles Tukey Honest Significant Differences

Metodos ANOVA con R
Contraste de Tukey (y III)
m2m1
m3m1
m4m1
m3m2
m4m2
m4m3 95% familywise confidence level
8 6 4 2 0 2 4
Differences in mean levels of niveles

Metodos ANOVA con R
Contraste de Tukey (y IV)

Una prueba mas de la potencia grafica de R relacionada con los contrastes de compa-
racion multiple . . .
m4
m3
m2
m1
30 20 10 0 10 20 30
coleccion
. . . fruto de la orden
> stripchart(coleccion~niveles)
Metodos ANOVA con R
Comparacion multiple de medias con R: contraste de Student-Newman-Keuls

Esta prueba tiene el mismo objetivo que el contraste anterior. Senalar que el comando
que permite su ejecucion es SNK.testa aplicado al modelo definido y acompanado de
los factores y del nivel de significacion.
a
Disponible despues de la carga del paquete agricolae de R
Contraste de Student-Newman-Keuls
La aplicacion de este contraste sobre las cuatro medias de interes arroja el resultado
> SNK.test(modelo,"niveles",alpha=0.05)
Study:
Student Newman Keuls Test

for coleccion
Mean Square Error: 111.7107
continua ...

Metodos ANOVA con R
Contraste de Student-Newman-Keuls (y II)

niveles, means
coleccion std.err r Min. Max.

m1 9.523526 1.0296699 100 -13.56244 36.26646
m2 8.741820 1.0450494 105 -14.18332 32.76718
m3 9.173306 1.1019411 102 -20.05863 35.50360
m4 3.608247 0.9789579 107 -22.67260 29.45435
alpha: 0.05 ; Df Error: 410
Critical Range
2 3 4
2.889158 3.457194 3.791327
Harmonic Mean of Cell Sizes 103.4299
Different value for each comparison

Means with the same letter are not significantly different.
Groups, Treatments and means
a m1 9.524
a m3 9.173
a m2 8.742
b m4 3.608

Metodos ANOVA con R
Contraste de Student-Newman-Keuls (y III)

La ultima parte de la respuesta de R lo dice todo . . . el resto merece un estudio que
requiere una inversion de tiempo que no se tiene en las clases presenciales. Encontrara
tiempo fuera de las clases?
Contrastes de diferencia de medias
. . . Y estos son algunos de los contrastes que se ahorran con el uso de las tecnicas de
comparacion multiple . . .
> t.test(muestra1,muestra2,var.equal=TRUE)
Two Sample t-test

t = 0.5323, df = 203, p-value = 0.5951
-2.113760 3.677173
sample estimates:
mean of x mean of y
9.523526 8.741820

Metodos ANOVA con R
Contrastes de diferencia de medias (y II)

Two Sample t-test

t = 0.232, df = 200, p-value = 0.8167
-2.625977 3.326418
sample estimates:
mean of x mean of y
9.523526 9.173306
Two Sample t-test

t = -0.2843, df = 205, p-value = 0.7765
-3.424051 2.561080
sample estimates:
mean of x mean of y
8.741820 9.173306
Metodos ANOVA con R
Contrastes de diferencia de medias (y III)

Two Sample t-test

t = 4.1658, df = 205, p-value = 4.571e-05
3.115677 8.714881
sample estimates:
mean of x mean of y
9.523526 3.608247
. . . y no se han hecho todas las posibles pruebas de diferencia de medias dos a dos . . .

Contraste sobre la pendiente de dos caractersticas normales con R

La sentencia anova permite realizar el contraste sobre la pendiente de la recta de
regresion de dos caractersticas normales de hipotesis
=0
A este contraste se le deben proporcionar dos colecciones numericas x e y.
La orden anterior debe ser aplicada al modelo lineal que determina la muestra, dada
por el comando lm(y~x).
!
El comando summary aplicado al modelo lineal que determina la muestra, lm(y~x),
tambien permite obtener la respuesta de este contraste.

Contraste sobre la pendiente de dos caractersticas normales

Se crearan a continuacion cuatro muestras validas para aplicar la prueba estadstica
sobre pendiente de la recta de regresion.
> x<-c(5.0929,8.5273,7.5862,11.0167,5.8973,9.3391,14.1355,7.3089,7.8156,9.0427,
13.9033,1.4359,1.9948,5.3048,12.5036,0.0842,9.1073,5.2842,6.8122,6.5195,9.0493,
3.9541,14.2325,7.9786,14.7877,18.7291,14.0872,9.5025,4.8224,8.2276,8.3285,8.1829,
7.4452,13.6857,4.5092,12.1734)
> x
[1] 5.0929 8.5273 7.5862 11.0167 5.8973 9.3391 14.1355 7.3089 7.8156
[10] 9.0427 13.9033 1.4359 1.9948 5.3048 12.5036 0.0842 9.1073 5.2842
[19] 6.8122 6.5195 9.0493 3.9541 14.2325 7.9786 14.7877 18.7291 14.0872
[28] 9.5025 4.8224 8.2276 8.3285 8.1829 7.4452 13.6857 4.5092 12.1734
> y<-c(5.7639,11.4636,4.8068,13.9449,7.1608,10.5858,11.6412,7.7682,6.2747,9.5234,
16.8501,1.9748,2.3263,3.7234,13.7142,0.8322,10.9776,5.3545,5.3968,5.6139,9.3998,
5.6393,11.2236,9.2162,15.6064,21.3779,11.9081,8.6219,3.4673,9.7243,10.6355,5.6057,
5.3485,14.6260,3.3791,16.1093)
> y
[1] 5.7639 11.4636 4.8068 13.9449 7.1608 10.5858 11.6412 7.7682 6.2747
[10] 9.5234 16.8501 1.9748 2.3263 3.7234 13.7142 0.8322 10.9776 5.3545
[19] 5.3968 5.6139 9.3998 5.6393 11.2236 9.2162 15.6064 21.3779 11.9081
[28] 8.6219 3.4673 9.7243 10.6355 5.6057 5.3485 14.6260 3.3791 16.1093

Contraste sobre la pendiente de dos caractersticas normales (y II)

> z<-c(2.2382,0.0992,-3.9581,-2.0867,0.4921,7.4631,4.8596,4.9692,2.3303,-1.5875,
5.6931,0.7663,6.2431,8.2035,0.9044,-3.2741,3.3115,1.1537,-3.7333,-3.8041,5.0606,
-2.6791,2.0895,3.4832,0.1221,10.0218,2.7975,7.2663,3.2431,3.2231,-0.0168,-7.57365,
2.6098,-6.9956,1.1234,6.9876)
> z
[1] 2.2382 0.0992 -3.9581 -2.0867 0.4921 7.4631 4.8596 4.9692 2.3303
[10] -1.5875 5.6931 0.7663 6.2431 8.2035 0.9044 -3.2741 3.3115 1.1537
[19] -3.7333 -3.8041 5.0606 -2.6791 2.0895 3.4832 0.1221 10.0218 2.7975
[28] 7.2663 3.2431 3.2231 -0.0168 -7.5736 2.6098 -6.9956 1.1234 6.9876
> t<-c(5.9435,2.6088,-2.6627,-0.4606,0.5163,9.7917,5.5062,9.7503,2.9652,2.9501,
5.6323,4.8710,10.9142,12.0959,3.1297,0.8562,3.9999,2.7812,0.6332,-7.3837,7.8490,
-2.1362,3.5487,7.3061,4.6541,14.8603,4.7375,8.2439,6.4196,7.4751,0.1906,-6.5765,
5.3699,-4.9363,3.1141,7.6541)
> t
[1] 5.9435 2.6088 -2.6627 -0.4606 0.5163 9.7917 5.5062 9.7503 2.9652
[10] 2.9501 5.6323 4.8710 10.9142 12.0959 3.1297 0.8562 3.9999 2.7812
[19] 0.6332 -7.3837 7.8490 -2.1362 3.5487 7.3061 4.6541 14.8603 4.7375
[28] 8.2439 6.4196 7.4751 0.1906 -6.5765 5.3699 -4.9363 3.1141 7.6541
Y con ellas se crea un data frame como sigue

> datosregresion<-data.frame(x,y,z,t)

Contraste sobre la pendiente de dos caractersticas normales (y III)

Las muestras superan la prueba de homocedasticidad de varianzas
> bartlett.test(datosregresion)
data: datosregresion
Bartlett's K-squared = 1.687, df = 3, p-value = 0.6399
porque el p-valor no es significativo.
Tambien superan de foma individual las pruebas de normalidad de Lilliefors como
revelan la secuencia de contrastes siguientes (observese que ninguno de los p-valores
proporcionados por ellos es significativo).
> lillie.test(x)
data: x
D = 0.1327, p-value = 0.1122

Contraste sobre la pendiente de dos caractersticas normales (y IV)

> lillie.test(y)
data: y
D = 0.1293, p-value = 0.1335
> lillie.test(z)
data: z
D = 0.092, p-value = 0.6165
> lillie.test(t)
data: t
D = 0.1158, p-value = 0.2569
Por tanto las muestras satisfacen todas las condiciones exigidas por las pruebas intro-
ducidas sobre regresion.

Contraste sobre la pendiente de dos caractersticas normales (y V)

Para facilitar los calculos se asigna nombre a la recta de regresion de y sobre x
> recta<-lm(y~x)
El contraste sobre la pendiente de la recta de regresion de dos caractersticas
(
H0 : = 0
H1 : 6= 0

> anova(recta)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 670 670 193 1.4e-15 ***
Residuals 34 118 3
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
Contraste sobre la pendiente de dos caractersticas normales (y VI)

Este contraste se puede realizar de forma alternativa como sigue
> summary(recta)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-3.597 -1.434 0.332 1.189 3.469
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2481 0.7227 -0.34 0.73
x 1.0587 0.0762 13.90 1.4e-15 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
Residual standard error: 1.86 on 34 degrees of freedom

Multiple R-squared: 0.85, Adjusted R-squared: 0.846
F-statistic: 193 on 1 and 34 DF, p-value: 1.4e-15

Contraste sobre la pendiente de dos caractersticas normales (y VII)

La sentencia anterior devuelve el mismo resultado que anova(recta). Tambien realiza
contrastes sobre los coeficientes de la recta de regresion, indicando que el p-valor del
contraste sobre el coeficiente de la ordenada en el origen no es significativo, p = 0. 73.
El comando confint aplicado sobre el modelo de regresion propuesto y acompanado de
un nivel de confianza devuelve intervalos de confianza para los coeficientes del modelo.
Para el ejemplo de interes, si 1 = 0. 95 se tiene
> ic95<-confint(recta,conf.level=0.95)
> ic95
2.5 % 97.5 %
(Intercept) -1.716842 1.22072
x 0.903886 1.21354
intervalos centrados en los correspondientes coeficientes de regresion

> (ic95[1,1]+ic95[1,2])/2
[1] -0.248059
> (ic95[2,1]+ic95[2,2])/2
[1] 1.05872

Contraste sobre la pendiente de dos caractersticas normales (y VIII)

Las ordenes siguientes permiten calcular los coeficientes involucrados en la recta de re-
gresion, pendiente (b) y ordenada en el origen (a), as como el coeficiente de correlacion
y un par de datos auxiliares
> b<-cov(x,y)/var(x)
> a<-mean(y)-cov(x,y)/var(x)*mean(x)
> r<-cor(x,y)
> l<-length(x)
> mx2<-mean(x**2)
para calcular de acuerdo a las formulas del tema anterior los intervalos de confianza
para los coeficientes de la recta de regresion de las dos poblaciones proporcionados por
R anteriormente
> ica<-a+c(-1,1)*qt(0.975,l-2)*sqrt((1-r**2)/(l-2))*sd(y)/sd(x)*sqrt(mx2)
> ica
[1] -1.71684 1.22072
> icb<-b+c(-1,1)*qt(0.975,l-2)*sqrt((1-r**2)/(l-2))*sd(y)/sd(x)
> icb
[1] 0.903886 1.213545

Contraste sobre la pendiente de dos caractersticas normales (y IX)

El estadstico de prueba del contraste de hipotesis
(
H0 : = 0
H1 : 6= 0
se puede deducir facilmente de la formula del intervalo de confianza para la pendiente.

Ese estadstico es
b
q ,
1r 2
by
N 2 bx
cuya realizacion en el ejemplo estudiado es

> restadisticob<-b/(sqrt((1-r**2)/(l-2))*sd(y)/sd(x))
> restadisticob
[1] 13.8964
que proporciona el p-valor del contraste
> pt(-restadisticob,l-2)+pt(restadisticob,l-2,lower.tail=FALSE)
[1] 1.39728e-15
(Comparese con el resultado de summary(recta) recogido en la trasparencia 84).

Contraste sobre la pendiente de dos caractersticas normales (y X)

El estadstico de prueba del contraste de hipotesis sobre la ordenada en el origen
(
H0 : = 0
H1 : 6= 0
es
a
q p ,
1r 2
by
N 2 bx

bx 2
cuya realizacion en el ejemplo estudiado es
> restadisticoa<-a/(sqrt((1-r**2)/(l-2))*sd(y)/sd(x)*sqrt(mx2))
> restadisticoa
[1] -0.343221
que proporciona el p-valor del contraste
> pt(restadisticoa,l-2)+pt(-restadisticoa,l-2,lower.tail=FALSE)
[1] 0.733545
que lo convierte en nada significativo.
(Comparese con el resultado de summary(recta) recogido en la trasparencia 84).

Contraste sobre la pendiente de dos caractersticas normales (y XI)

La prueba sobre la pendiente de la recta de regresion es de tipo ANOVA. Este tipo de
pruebas exige la normalidad de la distribucion que gobierna los residuos. Los siguientes
comandos combinados con los contrastes de normalidad presentados son muy utiles a
la hora de contrastar la normalidad de la distribucion residual.
A partir de un modelo de regresion las sentencias fitteda y residualsb proporcionan
los valores ajustados y los residuos correspondientes a las abscisas dadas en el modelo.
> ajustados<-fitted(recta)
> ajustados
1 2 3 4 5 6 7 8 9 10
5.1439 8.7799 7.7836 11.4155 5.9955 9.6394 14.7174 7.4900 8.0264 9.3256
11 12 13 14 15 16 17 18 19 20
14.4716 1.2721 1.8639 5.3682 12.9897 -0.1589 9.3940 5.3464 6.9641 6.6542
21 22 23 24 25 26 27 28 29 30
9.3326 3.9382 14.8201 8.1990 15.4079 19.5807 14.6663 9.8124 4.8575 8.4626
31 32 33 34 35 36
8.5695 8.4153 7.6343 14.2412 4.5259 12.6401
a
Tambien es valido el comando fitted.values
b
Tambien es valido el comando resid

Contraste sobre la pendiente de dos caractersticas normales (y XII)

Los residuos del modelo se determinan como sigue
> residuos<-residuals(recta)
> residuos
1 2 3 4 5 6 7 8 9 10
0.6200 2.6837 -2.9768 2.5294 1.1653 0.9464 -3.0762 0.2782 -1.7517 0.1978
11 12 13 14 15 16 17 18 19 20
2.3785 0.7027 0.4624 -1.6448 0.7245 0.9911 1.5836 0.0081 -1.5673 -1.0403
21 22 23 24 25 26 27 28 29 30
0.0672 1.7011 -3.5965 1.0172 0.1985 1.7972 -2.7582 -1.1905 -1.3902 1.2617
31 32 33 34 35 36
2.0660 -2.8096 -2.2858 0.3848 -1.1468 3.4692
En este ejemplo no hay evidencias estadsticas en la muestra para rechazar la norma-
lidad de los residuos como revela el contraste de Shapiro-Wilks.
> shapiro.test(residuos)
Shapiro-Wilk normality test
data: residuos
W = 0.964, p-value = 0.2852

Contraste sobre la pendiente de dos caractersticas normales (y XIII)

El grafico de normalidad asociado a esta muestra y a este contraste es
Grafico QQ de normalidad
Cuantiles muestrales
1 2 3
1
3
2 1 0 1 2
Cuantiles teoricos
obtenido como respuesta grafica a la orden

> qqnorm(residuos,pch=16,main="Grafico Q-Q de normalidad",
xlab="Cuantiles teoricos",ylab="Cuantiles muestrales")
> qqline(residuos)

Contraste sobre la pendiente de dos caractersticas normales (y XIV)

El grafico siguiente, que representa los puntos cuyas coordenadas son los valores ajusta-
dos y los residuos, ayuda a confirmar la veracidad de los contrastes anteriores. Si no hay
ningun patron en los puntos y estan distribuidos de forma uniforme, la homogeneidad
de varianzas y la correlacion lineal pueden ser aceptadas.
Ajustados versus residuos

Valores residuales
2
1
1 0
3
0 5 10 15 20
Valores ajustados
La figura anterior es la respuesta a la sentencia

> plot(ajustados,residuos,main="Ajustados versus residuos",
xlab="Valores ajustados",ylab="Valores residuales")

Contraste de correlacion de dos caractersticas normales con R

La sentencia cor.test permite realizar el contraste sobre el coeficiente de correlacion
de dos caractersticas normales de hipotesis nula
=0
A este contraste se le deben proporcionar dos colecciones numericas x e y.
Este contraste admite como hipotesis alternativa las mismas que cualquier contraste
parametrico. Las alternativas greater y less indican que la hipotesis nula se con-
trasta con un grado de correlacion positivo o con un grado de correlacion negativo
respectivamente.
El contraste implementado en R no admite mas hipotesis nula que la anulacion del
coeficiente de correlacion por lo tanto no es necesario introducirla explcitamente.
!
Este contraste proporciona la misma respuesta sobre el rechazo o no de la hipotesis
nula que el contraste sobre la pendiente de la recta de regresion de dos poblaciones.

Contraste de correlacion de dos caractersticas normales

Dadas las muestras x e y, el contraste de correlacion de dos caractersticas normales
(
H0 : = 0
H1 : 6= 0

> cor.test(x,y,alternative="two.sided",conf.level=0.95)
Pearson's product-moment correlation
data: x and y
t = 13.9, df = 34, p-value = 1.332e-15
alternative hypothesis: true correlation is not equal to 0
0.852 0.960
sample estimates:
cor
0.922
= 0. 05, p > , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

Contraste de correlacion de dos caractersticas normales (y II)

El data frame definido previamente resulta util para establecer los coeficientes de co-
rrelacion de las cuatro muestras, basta aplicarle el comando cor.
> cor(datosregresion)
x y z t
x 1.000 0.922 0.223 0.144
y 0.922 1.000 0.266 0.195
z 0.223 0.266 1.000 0.931
t 0.144 0.195 0.931 1.000
La potencia grafica de R se pone de manifiesto una vez mas con la generacion de todas
las posibles de nubes de puntos de las muestras de un data frame. La orden que permite
generar ese grafico se compone aplicando el comando pairs al data frame que contiene
las muestras.
> pairs(datosregresion)
El grafico que genera la sentencia anterior complementa a la informacion que propor-

ciona la tabla de coeficientes de correlacion.

Contraste de correlacion de dos caractersticas normales (y III)
5 10 15 20 5 0 5 10 15
15
10
x
5
0
20
15
y
10
5
10
5
z
0
5
15
10
5
t
0
5
0 5 10 15 5 0 5 10

Contraste de correlacion de dos caractersticas normales (y IV)

Dadas las muestras x y z, el contraste de correlacion de dos caractersticas normales
(
H0 : = 0
H1 : 6= 0

> cor.test(x,z,alternative="two.sided",conf.level=0.95)
Pearson's product-moment correlation
data: x and z
t = 1.33, df = 34, p-value = 0.1916
alternative hypothesis: true correlation is not equal to 0
-0.114 0.514
sample estimates:
cor
0.223
Como el p-valor del contraste, p = 0. 1916, no es significativo no rechaza la hipotesis

nula al nivel de confianza 1 = 0. 95.

Contraste de correlacion de dos caractersticas normales (y V)

El intervalo de confianza para el coeficiente de correlacion ofrecido por el contraste
anterior se puede determinar de dos formas distintas. La primera de ellas involucra a
la distribucion t de Student
> rxz<-cor(x,z)
> zeta<-1/2*log((1+rxz)/(1-rxz))
> tanh(zeta+c(-1,1)*sqrt(1/(l-3))*qt(0.975,Inf))
[1] -0.1141 0.5137
mientras que en la segunda interviene la distribucion F de Fisher-Snedecor

> qf<-qf(0.975,l-2,l-2)
> ((1+qf)*rxz+(1-qf))/((1+qf)+(1-qf)*rxz)
[1] -0.1148
> ((1+qf)*rxz-(1-qf))/((1+qf)-(1-qf)*rxz)
[1] 0.5142
Las dos tecnicas anteriores aproximan el mismo intervalo de confianza
(0. 114, 0. 514).

Contraste de correlacion de dos caractersticas normales (y VI)

El comando predict aplicado a un modelo de regresion y a una coleccion de datos
permite predecir valores para las abscisas dadas, es decir, determinar las ordenadas
obtenidas segun el modelo propuesto para las abscisas escogidas. Para las abscisas
{0, 3, 6, 9, 12, 15, 18}, los valores esperados se pueden determinar como sigue
> datos<-c(0,3,6,9,12,15,18)
> predict(recta, newdata=data.frame(x=datos))
1 2 3 4 5 6 7
-0.2481 2.9281 6.1042 9.2804 12.4565 15.6327 18.8088
Esta orden tambien permite establecer graficamente intervalos de confianza al nivel
deseado para
la media de distribucion marginal de abscisas fijado un valor de una abscisa.
el valor esperado para la ordenada centrado en el valor predicho por el modelo
para un valor de una abscisa.
Estos resultados se obtienen por la aplicacion del comando predict a un modelo acom-
panado de nivel de confianza deseado, de las abscisas ordenadas y del modificador
interval="confidence" para la media marginal.
interval="prediction" para el valor esperado.

Contraste de correlacion de dos caractersticas normales (y VII)

En el caso de las medias marginales se tiene
> x.ordenadas=sort(unique(x)) # Reordenacion de las abscisas
> prediccionmedia<-predict(recta, newdata=data.frame(x=x.ordenadas),
interval="confidence",level=0.95)
> plot(x,y,main="Intervalos para las medias marginales")
> abline(recta)
> lines(x.ordenadas,prediccionmedia[,2],lty=2,col="blue")
> lines(x.ordenadas,prediccionmedia[,3],lty=2,col="blue")
Intervalos para las medias marginales

20
15
y
10
5
0 5 10 15
x

Contraste de correlacion de dos caractersticas normales (y VIII)

En el caso de los valores esperados se tiene
> x.ordenadas=sort(unique(x)) # Reordenacion de las abscisas
> prediccionvaloresperado<-predict(recta, newdata=data.frame(x=x.ordenadas),
interval="prediction",level=0.95)
> plot(x,y,main="Intervalos para los valores esperados")
> abline(recta)
> lines(x.ordenadas,prediccionvaloresperado[,2],lty=2,col="blue")
> lines(x.ordenadas,prediccionvaloresperado[,3],lty=2,col="blue")
Intervalos para los valores esperados

20
15
y
10
5
0 5 10 15
x

!
No se debe cambiar aprender las formulas
estadsticas de memoria por aprender los
comandos de R de memoria.
!
Las cuentas de R son las formulas de siempre!
!
Si consigue establecer las conexiones entre las
tecnicas tradicionales y las tecnicas modernas,
que problema estadstico se le resistira?

Contraste hipótesis R

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Contraste hipótesis R

Caricato da

Copyright:

Formati disponibili

Metodos numericos y estadsticos

Grados en Ingeniera Aeroespacial y Electrica

1 Bloque II: Metodos estadsticos

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 4 / 102

La distribucion que gobierna la altura de los alumnos de primero de Grado de

x1 = 2. 10, x2 = 2. 05, x3 = 2. 06, x4 = 2. 01, x5 = 2. 09,

quera realizar el contraste siguiente

Juda acepta la normalidad de los datos pero cree desconocer la varianza de la

I0.95 = (2. 01, 2. 0788), I0.99 = (1. 9944, 2. 0945).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 5 / 102

La distribucion que gobierna la altura de . . . (y II)

t 2 ,8 < h = 16. 3865 < t1 2 ,8 .

Por la simetra de los cuantiles de la distribucion t busca tal que

P (|t8 | 16. 3865) = 2P (t8 16. 3865) = .

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 6 / 102

La distribucion que gobierna la altura de . . . (y III)

y los niveles de significacion que permiten rechazar la hipotesis nula, caracterizados

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 7 / 102

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 8 / 102

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 9 / 102

Contraste de hipotesis mediante el uso del p-valor

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 10 / 102

Significacion estadstica del p-valor

p [0, 0. 001] extremadamente significativo

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 11 / 102

Vectores numericos o cualitativos

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 12 / 102

Data frames y listas

y un ejemplo de data frame es

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 13 / 102

Data frames y listas (y II)

$`Anno de comienzo de reinado?`

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 14 / 102

Data frames y listas (y III)

$`Anno de comienzo de reinado?`

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 15 / 102

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 16 / 102

Data frames y listas (y V)

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 17 / 102

Data frames y listas (y VI)

$`Anno de comienzo de reinado?`

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 18 / 102

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 19 / 102

Importar datos desde ficheros de texto

Modificador Llamada Valores

Importar datos desde ficheros de texto con R

Importar datos desde ficheros Excel

Modificador Llamada Valores

Importar datos desde ficheros Excel con R

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 21 / 102

Importar datos desde ficheros SPSS

Modificador Llamada Valores

Importar datos desde ficheros SPSS con R

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 22 / 102

Tipo de contraste Sentencia de R

Modificador Posible valor

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 23 / 102

Contraste de proporciones con R

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 24 / 102

Contraste sobre una proporcion

se utiliza el comando de R siguiente

data: 17 out of 50, null probability 0.14

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 25 / 102