Sei sulla pagina 1di 102

Metodos numericos y estadsticos

Grados en Ingeniera Aeroespacial y Electrica

Curso 2014/15
Bloque II: Metodos estadsticos
Contenidos

1 Bloque II: Metodos estadsticos


Tema 4 (y II): Contraste de hipotesis con R
El concepto de p-valor
Almacenamiento, manipulacion e importacion datos con R
Contrastes de hipotesis de una y dos muestras con R
Contrastes de hipotesis basados en una distribucion 2 con R
Contrastes de hipotesis de normalidad con R
Metodos ANOVA con R
Contraste de hipotesis sobre regresion lineal con R
Tema 4 (y II): Contraste de hipotesis con R

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 4 / 102


El concepto de p-valor

La distribucion que gobierna la altura de los alumnos de primero de Grado de


Ingeniera Aeroespacial
Recuerden el problema que tena Juda Ben-Hur en el tema anterior: a partir de una
muestra de la altura de sus companeros

x1 = 2. 10, x2 = 2. 05, x3 = 2. 06, x4 = 2. 01, x5 = 2. 09,


x6 = 1. 99, x7 = 1. 97, x8 = 2. 07, x9 = 2. 06.

quera realizar el contraste siguiente

H0 : = 1. 80.
H1 : 6= 1. 80.

Juda acepta la normalidad de los datos pero cree desconocer la varianza de la


variable que gobierna la altura. Con estas nuevas condiciones iniciales decide rehacer
los calculos anteriores. Determina los intervalos de confianza para la media a los
niveles 0. 95 y 0. 99

I0.95 = (2. 01, 2. 0788), I0.99 = (1. 9944, 2. 0945).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 5 / 102


El concepto de p-valor

La distribucion que gobierna la altura de . . . (y II)


Juda wants to believe.
Y por tanto se interroga por el nivel de significacion para que un intervalo de
confianza de la media contenga el valor = 1. 80 aportado por el profesor, de esa
forma no podra rechazar la hipotesis nula. El estadstico del contraste es

b 0


b/ N
que se distribuye segun una tN 1 . En el caso de la muestra dada la realizacion del
estadstico es h = 16. 3865 que se distribuye segun una t8 .
Para aceptar la hipotesis nula Juda sabe que la realizacion del estadstico no debe
pertenecer a la region crtica del contraste, cuya frontera al nivel de significacion
establecen los cuantiles t 2 ,8 y t1 2 ,8 . Por tanto necesita determinar tal que

t 2 ,8 < h = 16. 3865 < t1 2 ,8 .

Por la simetra de los cuantiles de la distribucion t busca tal que

P (|t8 | 16. 3865) = 2P (t8 16. 3865) = .

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 6 / 102


El concepto de p-valor

La distribucion que gobierna la altura de . . . (y III)


En este caso
= 1. 9383 107 .
El valor anterior es el p-valor del contraste y establece la frontera entre los niveles de
significacion que no permiten rechazar la hipotesis nula, caracterizados por

p,

y los niveles de significacion que permiten rechazar la hipotesis nula, caracterizados


por la condicion
> p.
Juda comprueba que el intervalo de confianza al nivel de significacion = 2 107
no contiene el valor 1. 8,
(1. 801, 2. 2879),
mientras que el intervalo de confianza al nivel de significacion = 1. 9 107 s
contiene el valor 1. 8,
(1. 7994, 2. 2895).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 7 / 102


El concepto de p-valor

!
La tecnica del p-valor ha revolucionado la forma de realizar contrastes de hipotesis.
Esto es debido al incremento de la potencia de calculo de cuantiles de cualquier
distribucion de probabilidad, incremento que es posible a la implementacion de
tecnicas numericas al servicio de la Inferencia estadstica en cualquier ordenador.

!
Un contraste de hipotesis esta disenado para rechazar una hipotesis estadstica.
Desde ese punto de vista, el p-valor, que es una probabilidad, es mas significativo
cuanto mas pequeno es; es decir, si esta proximo a cero es muy significativo y si esta
proximo a uno es nada significativo.

!
Debido al criterio de comparacion con un nivel de significacion, cuanto mas pequeno
es el p-valor mayor es la cantidad de niveles de significacion que permiten rechazar la
hipotesis nula.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 8 / 102


El concepto de p-valor

El p-valor
La tecnica basica en todos los contrastes de hipotesis para aceptar o rechazar una
hipotesis estadstica se basa en la comparacion de la realizacion h del estadstico de
prueba del contraste con los cuantiles de la variable aleatoria que gobierna la
distribucion del estadstico de prueba a un cierto nivel de significacion.
En estas condiciones, el p-valor del contraste es
  
el estadstico del contraste alcance el valor de la
p=P H0 es cierta ,
realizacion del estadstico de prueba o valores mayores

o mas precisamente,  
p = P || h/H0 es cierta .

!
El p-valor permite decidir si las diferencias entre los valores observados y la hipotesis
nula son atribubles al azar (de acuerdo a la variacion del modelo probabilstico
propuesto), o bien se deben a la falsedad de la hipotesis nula.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 9 / 102


El concepto de p-valor

Contraste de hipotesis mediante el uso del p-valor


Para realizar un contraste de hipotesis al nivel de significacion ; esto es, al nivel de
confianza 1 , de hipotesis nula H0 e hipotesis alternativa H1 , la comparacion del
p-valor p con el nivel de significacion permite tomar una decision
si > p entonces se rechaza la hipotesis nula al nivel de confianza 1 .
si < p entonces se acepta la hipotesis nula, mas correctamente, no se rechaza
la hipotesis nula al nivel de confianza 1 .

!
Cuanto mas pequeno sea el p-valor que proporciona el contraste a partir de la
muestra mas significativo es desde el punto de vista estadstico porque se puede
rechazar la hipotesis nula para un intervalo de niveles de significacion mayor

(p, 1].

Por el contrario, cuanto mas grande sea el p-valor, este se convierte en menos
significativo desde el punto de vista estadstico: permite rechazar la hipotesis nula
para un intervalo menor de niveles de significacion.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 10 / 102


El concepto de p-valor

Significacion estadstica del p-valor


El posible rango de p-valores, [0, 1], se clasifica como sigue desde el punto de vista de
su significacion estadstica.

p [0, 0. 001] extremadamente significativo


p (0. 001, 0. 01] altamente significativo
p (0. 01, 0. 05] significativo
p (0. 05, 0. 1] podra ser significativo
p (0. 1, 1] nada significativo

!
El uso de programas de analisis estadstico esta muy extendido. Por esa razon la
extraccion de conclusiones estadsticas mediante contrastes de hipotesis se basa muy
frecuentemente en el p-valor. No obstante existen casos en los que el p-valor puede
conducir a conclusiones erroneas. En esos casos, la toma de decisiones puede resultar
mas acertada si se hace a partir del intervalo de confianza. R proporciona el p-valor e
intervalo de confianza, dejando al usuario extraer conclusiones a partir de uno u otro.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 11 / 102


Almacenamiento, manipulacion e importacion datos con R

Vectores numericos o cualitativos


La estructura basica para introducir datos en R es el vector de datos, c(). Estos vectores
solo almacenan datos del mismo tipo: numerico o cualitativo.
Los datos cualitativos se introducen entrecomillados separados por comas.
> nombres<-c("Ataulfo","Sigerico","Walia","Teodoredo","Teodorico","Eurico",
"Alarico","Geseleico","Amalarico","Teudis","Teudiselo","Agila")
> nombres
Los datos numericos se introducen separados por comas.
> annos<-c(409,411,412,413,417)
> dias<-1:30
> tutorias<-rpois(30,2)
El comando typeof aplicado a un vector de datos devuelve la naturaleza de los datos.
> typeof(nombres)
[1] "character"
> typeof(annos)
[1] "double"
> typeof(dias)
[1] "integer"

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 12 / 102


Almacenamiento, manipulacion e importacion datos con R

Data frames y listas


A partir de vectores de datos se pueden crear dos estructuras mas complejas: data
frames y listas, que se construyen con las ordenes data.frame y list respectivamente.
Ambos admiten vectores de datos de naturaleza distinta (Una lista puede contener un
data frame!). La caracterstica que los distingue es la siguiente
los vectores incluidos en un data frame deben ser del mismo tamano.
las listas pueden ser construidas con vectores de distinto tamano.
Un ejemplo de lista es
> lista<-list(nombres,annos)
> lista
[[1]]
[1] "Ataulfo" "Sigerico" "Walia" "Teodoredo" "Teodorico" "Eurico"
[7] "Alarico" "Geseleico" "Amalarico" "Teudis" "Teudiselo" "Agila"

[[2]]
[1] 409 411 412 413 417

y un ejemplo de data frame es


> numerotutorias<-data.frame(dias,tutorias)

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 13 / 102


Almacenamiento, manipulacion e importacion datos con R

Data frames y listas (y II)


Los vectores numericos se disponen formando columnas en las dos nuevas estructuras.
Puede resultar interesante nombrar las columnas a traves del comando names: sola-
mente hay que asignar los nombres como datos cualitativos a la estructura de datos.
En el caso de la lista anterior se pueden asignar nombres a las columnas as
> names(lista)<-c("Reyes visigodos","Anno de comienzo de reinado?")
> lista
$`Reyes visigodos`
[1] "Ataulfo" "Sigerico" "Walia" "Teodoredo" "Teodorico" "Eurico"
[7] "Alarico" "Geseleico" "Amalarico" "Teudis" "Teudiselo" "Agila"

$`Anno de comienzo de reinado?`


[1] 409 411 412 413 417
Un comando que permite acceder a los datos contenidos en un data frame (o en una lista
con vectores de datos del mismo tamano) es View. En el caso de los datos contenidos
en numerotutorias se pueden visualizar mediante la orden
> View(numerotutorias)

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 14 / 102


Almacenamiento, manipulacion e importacion datos con R

Data frames y listas (y III)


Existen varios comandos que permiten modificar los datos almacenados en una estruc-
tura: edit, fix y via . El comportamiento de ellos es dispar en relacion a los entornos
utilizados (o los sistemas operativos en los que se ejecuta R) debido a que invocan un
programa de edicion de textos.
> fix(numerotutorias)
> edit(lista)
$`Reyes visigodos`
[1] "Ataulfo" "Sigerico" "Walia" "Teodoredo" "Teodorico" "Eurico"
[7] "Alarico" "Geseleico" "Amalarico" "Teudis" "Teudiselo" "Agila"

$`Anno de comienzo de reinado?`


[1] 409 411 412 413 417
> vi(tutorias)
[1] 0 1 1 1 1 1 1 1 3 2 0 4 1 0 1 2 1 4 4 2 1 2 1 1 3 1 0 2 1 1
Estos comandos tambien se diferencian en la respuesta posterior a la edicion de datos:
algunos de ellos reproducen desde la lnea de comandos la estructura modificada.
a
Tambien esta disponible el comando data.entry, aunque resulta mas adecuado para
editar vectores de datos

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 15 / 102


Almacenamiento, manipulacion e importacion datos con R
Data frames y listas (y IV)
Existen dos modos basicos de llamar a los datos almacenados en estas estructuras: por
el numero de columna o por el nombre de la misma. Si se desea recuperar los datos de
una columna basta continuar el nombre de la estructura de datos con la columna entre
corchetes en el caso de un data frame, o dobles corchetes en el caso de una listaa .
> lista[[1]]
[1] "Ataulfo" "Sigerico" "Walia" "Teodoredo" "Teodorico" "Eurico"
[7] "Alarico" "Geseleico" "Amalarico" "Teudis" "Teudiselo" "Agila"
> numerotutorias[2]
Si se conocen los nombres de las columnas tambien es posible llamar a los datos de
otra manera: anadir al nombre de la estructura el nombre de la columna separados
ambos por el signo del dolar ($). Por ejemplo
> numerotutorias$dias
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
[26] 26 27 28 29 30
> numerotutorias$tutorias
[1] 0 6 1 5 2 1 2 0 5 1 3 0 3 2 0 3 1 0 3 2 2 1 2 3 2 3 3 0 6 0
a
Aunque en la practica ambos modos funcionan para las dos estructuras

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 16 / 102


Almacenamiento, manipulacion e importacion datos con R

Data frames y listas (y V)


La orden dim devuelve las dimensiones de un data frame, numero de filas y columnasa .
Para determinar las dimensiones de una lista se usa length; aplicado a la lista indica
el numero de columnas y aplicado a una columna devuelve el numero de filas.
> dim(numerotutorias)
[1] 30 2
> length(lista)
[1] 2
> length(lista[[1]])
[1] 12
Con la informacion anterior es facil acceder a un dato de un data frame o una lista.
> numerotutorias[25,2]
[1] 2
> lista[[1]][5]
[1] "Teodorico"
a
Se pueden obtener separadamente mediante nrow y ncol

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 17 / 102


Almacenamiento, manipulacion e importacion datos con R

Data frames y listas (y VI)


Se puede aplicar simultaneamente a cada columna de una lista o un data frame una
misma funcion. La orden que permite esto es lapply o sapplya .
> lapply(lista,summary)
$`Reyes visigodos`
Length Class Mode
12 character character

$`Anno de comienzo de reinado?`


Min. 1st Qu. Median Mean 3rd Qu. Max.
409.0 411.0 412.0 412.4 413.0 417.0
> sapply(numerotutorias,summary)
dias tutorias
Min. 1.00 0.000
1st Qu. 8.25 1.000
Median 15.50 1.000
Mean 15.50 1.467
3rd Qu. 22.75 2.000
Max. 30.00 4.000
a
La diferencia entre ambas estriba en la estructura de la respuesta, una lista en el
primer caso y un vector de datos en el segundo

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 18 / 102


Almacenamiento, manipulacion e importacion datos con R

Fuentes de informacion
La principal fuente de informacion que permite abordar la importacion desde otros
programas que almacenan y manipulan datos es el enlace titulado
R Data Import/Export
disponible en la portada del sistema de ayuda del programa.
R permite importar datos desde muchos programas que almacenan datos. Se
presentaran brevemente algunos modos de importacion de datos de ficheros
de texto, caracterizados habitualmente por su extension .txt o .csv.
hojas de calculo Excel, caracterizados habitualmente por su extension .xls o
.xlsx.
de datos de SPSS, caracterizados habitualmente por su extension .sav.

!
La forma mas facil de importar grandes cantidades de datos a R es preparar un
fichero de texto (un fichero .csv se puede crear y rellenar con un paquete ofimatico
libre), en el que los decimales esten delimitados por el punto (.) y no por la coma (,).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 19 / 102


Almacenamiento, manipulacion e importacion datos con R

Importar datos desde ficheros de texto


El comando que permite esta accion es read.table, sentencia que se debe aplicar a
un fichero de texto (.txt o .csv) delimitando su nombre entre comillas.
Los principales modificadores de este comando son

Modificador Llamada Valores


Metodo de separacion de los datos sep ="," o ="." o . . .
Nombre de las columnas header =TRUE o =FALSE

Importar datos desde ficheros de texto con R


Si en el directorio de trabajo se encuentra el fichero Notas.csv entonces la orden
> Notas<-read.table("Notas.csv",sep=",",header=FALSE)
permite importar a un data.frame de R los datos que contiene.

!
RStudio permite importar datos desde ficheros de texto facilmente.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 20 / 102
Almacenamiento, manipulacion e importacion datos con R

Importar datos desde ficheros Excel


El comando que permite esta accion es read.xlsxa , sentencia que se debe aplicar a
un fichero Excel (.xls o .xlsx) delimitando su nombre entre comillas.
Los principales modificadores de este comando son

Modificador Llamada Valores


Numero de hoja sheetIndex =1 o =2 o . . .
Nombre de las columnas header =TRUE o =FALSE

a
Disponible despues de cargar el paquete xlsx de R

Importar datos desde ficheros Excel con R


Si en el directorio de trabajo se encuentran los ficheros Notas.xls y Notas.xlsx en-
tonces las ordenes
> Notas2009<-read.xlsx("Notas.xls",sheetIndex=1,header=FALSE)
> Notas2010<-read.xlsx("Notas.xlsx",sheetIndex=2,header=FALSE)
permiten importar en distintos data.frame de R la primera y segunda hoja de trabajo.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 21 / 102


Almacenamiento, manipulacion e importacion datos con R

Importar datos desde ficheros SPSS


El comando que permite esta accion es read.spssa b , sentencia que se debe aplicar a
un fichero de datos de SPSS (.sav) delimitando su nombre entre comillas.
Los principales modificadores de este comando son

Modificador Llamada Valores


Nombre de las columnas use.value.labels =TRUE o =FALSE
Conversion a data.frame to.data.frame =TRUE o =FALSE

a
Disponible despues de cargar los paquetes foreign y Hmisc de R
b
Tambien se puede usar la orden spss.get

Importar datos desde ficheros SPSS con R


Si en el directorio de trabajo se encuentra el fichero mundial.sav entonces la orden
> World<-read.spss("mundial.sav",use.value.labels=TRUE,to.data.frame=TRUE)
permite importar a un data.frame de R los datos que contiene.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 22 / 102


Contrastes de hipotesis de una y dos muestras con R

Ordenes de R
Los contrastes de una y dos muestras presentados estan dedicados a proporciones e
igualdad de proporciones, igualdad de varianzas y medias y diferencia de medias. Estos
tres tipos contrastes se realizan por medio de las tres sentencias siguientes

Tipo de contraste Sentencia de R


Contraste de proporciones prop.test
Contraste de varianzas var.test
Contraste de medias t.test

Resulta obligado acompanar estas sentencias del nivel de confianza elegido y de la hipo-
tesis alternativa. Ambas posibilidades se introducen mediante modificadores anadidos
dentro de las sentencias anteriores.

Modificador Posible valor


Hipotesis alternativa alternative two.sided, greater, less
Nivel de confianza conf.level cualquier numero en [0, 1]

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 23 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste de proporciones con R


La sentencia prop.test permite realizar dos contrastes
sobre el valor de una proporcion: hipotesis nula p = p0 .
En este caso se debe proporcionar como datos dos numeros, x que es el numero
de exitos y n el numero de intentos.
sobre la igualdad de dos proporciones: hipotesis nula p1 = p2 .
En este caso se debe proporcionar como datos dos vectores, x que es el numero
de exitos en cada uno de los experimentos y n el numero de intentos en cada uno
de los experimentos.
La hipotesis nula del primer contraste se escribe como sigue
p=p0 .
Este contraste posee un modificador propio, correct, que admite los valores TRUE y
FALSE, que hace referencia a la correccion de continuidad (tecnica distinta a la presen-
tada en el tema anterior para realizar este tipo de contrastes).

!
Explorar y experimentar con la sentencia binom.test de R.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 24 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste sobre una proporcion


De un experimento tipo Bernoulli se han realizado 50 intentos con 17 exitos. Para
realizar el contraste siguiente al nivel de significacion = 0. 05

H0 : p = 0. 14
H1 : p 6= 0. 14

se utiliza el comando de R siguiente


> prop.test(17,50,p=0.14,alternative="two.sided",conf.level=0.95,correct=FALSE)
1-sample proportions test without continuity correction

data: 17 out of 50, null probability 0.14


X-squared = 16.6113, df = 1, p-value = 4.588e-05
alternative hypothesis: true p is not equal to 0.14
95 percent confidence interval:
0.2243695 0.4784617
sample estimates:
p
0.34
Como el p-valor del contraste, p = 4. 588 105 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 25 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste sobre la igualdad de dos proporciones


De dos experimentos tipo Bernoulli se han realizado 100 intentos con 27 y 19 exitos
respectivamente. Para realizar el contraste siguiente al nivel de significacion = 0. 05

H0 : p1 = p2
H1 : p1 6= p2
se utiliza el comando de R siguiente
> prop.test(c(27,19),c(100,100),alternative="two.sided",conf.level=0.95,
correct=FALSE)
2-sample test for equality of proportions without continuity correction

data: c(27, 19) out of c(100, 100)


X-squared = 1.8069, df = 1, p-value = 0.1789
alternative hypothesis: two.sided
95 percent confidence interval:
-0.03611856 0.19611856
sample estimates:
prop 1 prop 2
0.27 0.19
Como el p-valor del contraste, p = 0. 1789, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 26 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste de cociente de varianzas con R


La sentencia var.test permite realizar el contraste de cociente de dos varianzas
2
hipotesis nula 12 = 0
2
A este contraste se le debe proporcionar como datos dos colecciones numericas x
e y.
La hipotesis nula del contraste se escribe como sigue
ratio=0 .
El contraste de igualdad de varianzas se realiza tomando 0 = 1.

!
La prueba de igualdad de varianzas es una obligacion previa al contraste de
diferencia de medias de dos poblaciones normales independientes.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 27 / 102


Contrastes de hipotesis de una y dos muestras con R

Contrastes sobre cociente de varianzas y diferencia de medias


Estas tres colecciones de datos se utilizaran en los ejemplos siguientes.
> x<-c(14.66,9.54,10.97,2.28,3.11,15.28,5.03,8.94,6.80,11.07,5.25,4.70,5.94,8.25,
7.66,21.74,3.72,0.24,-1.83,16.08,7.29,11.71,7.75,11.02,12.02,2.66,8.28,12.48,
10.05,20.79,-1.19,17.66,11.37,7.98,6.93)
> x
[1] 14.66 9.54 10.97 2.28 3.11 15.28 5.03 8.94 6.80 11.07 5.25 4.70 5.94
[14] 8.25 7.66 21.74 3.72 0.24 -1.83 16.08 7.29 11.71 7.75 11.02 12.02 2.66
[27] 8.28 12.48 10.05 20.79 -1.19 17.66 11.37 7.98 6.93
> y<-c(11.39,24.02,31.25,0.25,25,9.25,0.33,28.81,2.52,13.21,3.21,-0.05,9.29,23.70,
17.99,11.68,-3.59,11.34,4.53,8.9,19.21,1.24,19.05,10.05,15.26,14.48,0.93,18.15,
26.95,-7.13,22.57,25.4,5.23,-0.94,13.93,17.41,-4.76,24.14,13.99)
> y
[1] 11.39 24.02 31.25 0.25 25.00 9.25 0.33 28.81 2.52 13.21 3.21 -0.05 9.29
[14] 23.70 17.99 11.68 -3.59 11.34 4.53 8.90 19.21 1.24 19.05 10.05 15.26 14.48
[27] 0.93 18.15 26.95 -7.13 22.57 25.40 5.23 -0.94 13.93 17.41 -4.76 24.14 13.99
> z<-c(7.3,12.79,7.28,8.93,10.26,6.33,8.42,5.2,1.38,4.29,19.0,0.32,2.44,-0.03,5.25,
2.04,1.14,7.84,11.59,3.66,4.54,3.54,5.21,0.76,2.33,7.88,-0.31,0.77,11.7,0.78,
5.31,3.49,13.73,6.82,4.03, 0.69,18.59,6.25,-8.42)
> z
[1] 7.30 12.79 7.28 8.93 10.26 6.33 8.42 5.20 1.38 4.29 19.00 0.32 2.44
[14] -0.03 5.25 2.04 1.14 7.84 11.59 3.66 4.54 3.54 5.21 0.76 2.33 7.88
[27] -0.31 0.77 11.70 0.78 5.31 3.49 13.73 6.82 4.03 0.69 18.59 6.25 -8.42

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 28 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste de igualdad de varianzas


Dadas las muestras x e y, el contraste de igualdad de varianzas
2

H0 : 12 = 22 12 = 1
2
2

H1 : 12 6= 22
1
6= 1
2
2

a nivel significacion = 0. 05 se hace con R como sigue


> var.test(x,y,ratio=1,alternative="two.sided",conf.level=0.95)
F test to compare two variances

data: x and y
F = 0.3, num df = 34, denom df = 38, p-value = 0.0005208
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.15 0.58
sample estimates:
ratio of variances
0.3
Como el p-valor del contraste, p = 5. 208 104 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 29 / 102
Contrastes de hipotesis de una y dos muestras con R

Contraste de igualdad de varianzas


Dadas las muestras x y z, el contraste de igualdad de varianzas
2

H0 : 12 = 22 12 = 1
2
2

H1 : 12 6= 22
1
6= 1
2
2

a nivel significacion = 0. 05 se hace con R como sigue


> var.test(x,z,ratio=1,alternative="two.sided",conf.level=0.95)
F test to compare two variances

data: x and z
F = 1.1, num df = 34, denom df = 38, p-value = 0.7518
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.57 2.17
sample estimates:
ratio of variances
1.1

Como el p-valor del contraste, p = 0. 7518, es mayor que el nivel de significacion


= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 30 / 102
Contrastes de hipotesis de una y dos muestras con R

Contraste de diferencia de medias con R


La sentencia t.test permite realizar dos tipos de contraste de diferencia de medias
de poblaciones normales independientes, hipotesis nula 1 2 = 0
En este caso se debe proporcionar como datos dos colecciones numericas x e y e
indicar a traves del modificador var.equal si las varianzas son iguales, TRUE, o
bien si son distintas, FALSE.
de poblaciones normales dependientes, hipotesis nula 1 2 = 0
En este caso se debe proporcionar como datos dos colecciones numericas x e y e
indicar que los datos introducidos son pareados mediante el modificador paired
con el valor TRUE.
La hipotesis nula del contraste se escribe como sigue
= 0 .
El contraste de igualdad de medias se realiza tomando 0 = 0.

!
El valor por defecto para el modificador paired en el comando t.test es FALSE, por
tanto no es necesario utilizarlo cuando se contrastan poblaciones independientes.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 31 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste de igualdad de medias de poblaciones independientes


Dadas las muestras x e y, el contraste de igualdad de medias con varianzas distintas
(
H0 : 1 = 2 1 2 = 0
H1 : 1 6= 2 1 2 6= 0

a nivel significacion = 0. 05 se hace con R como sigue


> t.test(x,y,mu=0,alternative="two.sided",var.equal=FALSE,conf.level=0.95)
Welch Two Sample t-test

data: x and y
t = -1.7, df = 60, p-value = 0.09137
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-7.05 0.54
sample estimates:
mean of x mean of y
8.7 12.0
Como el p-valor del contraste, p = 9. 137 102 , es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 32 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste de igualdad de medias de poblaciones independientes


Dadas las muestras y y z, el contraste de igualdad de medias con varianzas iguales
(
H0 : 1 = 2 1 2 = 0
H1 : 1 6= 2 1 2 6= 0

a nivel significacion = 0. 05 se hace con R como sigue


> t.test(x,z,mu=0,alternative="two.sided",var.equal=TRUE,conf.level=0.95)
Two Sample t-test

data: x and z
t = 2.6, df = 72, p-value = 0.01162
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.76 5.81
sample estimates:
mean of x mean of y
8.7 5.5
Como el p-valor del contraste, p = 1. 162 102 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 33 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste de diferencias de medias de poblaciones dependientes


Dadas las muestras y y z, el contraste de diferencia de medias de datos pareados
(
H0 : 1 2 = 5
H1 : 1 2 6= 5

a nivel significacion = 0. 05 se hace con R como sigue


> t.test(y,z,mu=5,alternative="two.sided",paired=TRUE,conf.level=0.95)
Paired t-test

data: y and z
t = 0.8188, df = 38, p-value = 0.418
alternative hypothesis: true difference in means is not equal to 5
95 percent confidence interval:
2.732202 10.348311
sample estimates:
mean of the differences
6.540256
Como el p-valor del contraste, p = 0. 4180, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 34 / 102


Contrastes de hipotesis de una y dos muestras con R
Contraste sobre el valor de una media con R
La sentencia t.test permite realizar el contraste sobre el valor de la media de una
poblacion normal
hipotesis nula = 0
Para realizar este contraste basta con proporcionarle una coleccion de datos
numericos x acompanada de los modificadores alternative y conf.level con
los valores adecuados.
La hipotesis nula del contraste se escribe como sigue
= 0 .

!
El programa R no tiene implementado el contraste para el valor de una media donde
la varianza de la poblacion normal es conocida, como tampoco tiene implementado el
contraste sobre el valor de la varianza de una poblacion normal.

!
Explorar y experimentar con la sentencia poisson.test de R.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 35 / 102
Contrastes de hipotesis de una y dos muestras con R

Contraste sobre el valor de una media


Dada la muestra x, el contraste sobre el valor de la media
(
H0 : = 5
H1 : >5

a nivel significacion = 0. 05 se hace con R como sigue


> t.test(x,mu=5,alternative="greater",conf.level=0.95)
One Sample t-test

data: x
t = 3.9642, df = 34, p-value = 0.0001794
alternative hypothesis: true mean is greater than 5
95 percent confidence interval:
7.150123 Inf
sample estimates:
mean of x
8.749429

Como el p-valor del contraste, p = 1. 794 104 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 36 / 102


Contrastes de hipotesis de una y dos muestras con R

Contraste sobre el valor de una varianza


Dada la muestra x, el contraste sobre el valor de la varianza
(
H0 : 2 = 15
H1 : 2 6= 15

a nivel significacion = 0. 01 aunque no esta implementado en R se puede hacer va el


intervalo de confianza
> (length(x)-1)*var(x)*c(1/qchisq(0.995,length(x)-1),1/qchisq(0.005,length(x)-1))
[1] 18.05406 64.51250

bien va el p-valor bajo la hipotesis de la veracidad de la hipotesis nula


> sigma0<-15
> h<-(length(x)-1)/sigma0*var(x)
> pchisq(h,length(x)-1,lower.tail=FALSE)
[1] 0.0002061362
En ambos casos se rechaza la hipotesis nula, porque el valor 2 = 15 no pertenece al
intervalo de confianza (18. 0541, 64. 5125) y porque el p-valor, p = 2. 0614 104 , es
menor que el nivel de significacion escogido, p < = 0. 01.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 37 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contrastes relacionados con una tabla de contingencia con R


Estos contrastes estan basados en la comparacion con cuantiles de una 2 . La sentencia
chisq.test permite realizar los contrastes sobre independencia de dos caractersticas
o la homogeneidad de una caracterstica en una poblacion cuyas hipotesis nulas son
las caractersticas son independientes.
todas las muestras son homogeneas respecto de la variable.
A ambos contrastes hay que proporcionarles una tabla de contingencias.
El comando matrix aplicado a un vector numerico que contenga los datos de tabla
(con la conocida estructura c( , , , )), seguido de dos numeros, nrow y ncol, que
indican respectivamente la cantidad de filas y de columnas de la tabla, completado con
el modificador byrow=TRUE (para fraccionar el vector adecuadamente),
Tabla<-matrix(c(, , , ), ncol=a, nrow=b, byrow=TRUE)
es la forma mas sencilla de introducir una tabla de contingencias.
Los comandos colnames y rownames permiten nombrar columnas y filas. La estructura
tpica de ambos es la siguiente
colnames(Tabla)<-c( , , , ) con tantos nombres como columnas
rownames(Tabla)<-c( , , , ) con tantos nombres como filas

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 38 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de homogeneidad
De dos experimentos tipo Bernoulli se han realizado 100 intentos con 27 y 19 exitos
respectivamente. Se pretende contrastar si las proporciones de exito son la misma
en ambos experimentos o si son distintas. Este contraste se puede presentar como un
contraste de homogeneidad donde la poblacion total se divide en dos grupos, resultados
del primer y del segundo experimento, B1 y B2 , y la caracterstica X se agrupa en exitos
y fracasos, A1 y A2 . Por tanto el contraste
(
H0 : todas las muestras son homogeneas respecto de la variable
H1 : alguna muestra es diferente

se realiza a partir de la tabla de contingencias

X / poblacion primer experimento segundo experimento


exitos 29 17
fracasos 71 83

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 39 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de homogeneidad (y II)


La cadena de sentencias de R definen la tabla de contingencias anterior
> Tabla<-matrix(c(27,19,73,81),ncol=2,nrow=2,byrow=TRUE)
> rownames(Tabla)<-c("exitos","fracasos")
> colnames(Tabla)<-c("primer experimento", "segundo experimento")
> Tabla
primer experimento segundo experimento
exitos 27 19
fracasos 73 81
El contraste de hipotesis pedido se lleva a cabo como sigue
> chisq.test(Tabla,correct=FALSE)
Pearson's Chi-squared test

data: Tabla
X-squared = 1.8069, df = 1, p-value = 0.1789
Como el p-valor del contraste, p = 0. 1789, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 40 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de homogeneidad (y III)


Las sentencias $observed, $expected y $residuals^2 anadidas a la orden que permite
realizar el contraste de homogeneidad devuelve la tabla de valores observados
> chisq.test(Tabla,correct=FALSE)$observed
primer experimento segundo experimento
exitos 27 19
fracasos 73 81
la tabla de valores esperados de acuerdo a la hipotesis nula
> chisq.test(Tabla,correct=FALSE)$expected
primer experimento segundo experimento
exitos 23 23
fracasos 77 77
y lo que aporta cada una de las clases a la realizacion del estadstico del contraste
> chisq.test(Tabla,correct=FALSE)$residuals^2
primer experimento segundo experimento
exitos 0.6956522 0.6956522
fracasos 0.2077922 0.2077922
> 0.6956522+0.6956522+0.2077922+0.2077922
[1] 1.806889
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 41 / 102
Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de homogeneidad (y III)


El modificador correct, que puede tomar valores TRUE o FALSE, hace referencia a
una correccion de continuidad valida para tablas de contingencia dos por dos. Esto es
debido a que para las tablas de este tamano, este contraste coincide con el contraste de
igualdad de proporciones resuelto con el comando prop.test (vease la trasparencia 26).
Ambos contrastes proporcionan los mismos resultados cuando se indica que apliquen
la correccion de continuidad.
> chisq.test(Tabla,correct=TRUE)
Pearson's Chi-squared test with Yates' continuity correction

data: Tabla
X-squared = 1.3834, df = 1, p-value = 0.2395
> prop.test(c(27,19),c(100,100),alternative="two.sided",conf.level=0.95,correct=TRUE)
2-sample test for equality of proportions with continuity correction

data: c(27, 19) out of c(100, 100)


X-squared = 1.3834, df = 1, p-value = 0.2395
alternative hypothesis: two.sided
95 percent confidence interval:
-0.04611856 0.20611856
sample estimates:
prop 1 prop 2
0.27 0.19

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 42 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contrastes de bondad de ajuste con R


Estos contrastes estan tambien basados en la comparacion con cuantiles de una 2 .
Analogamente la sentencia chisq.test permite realizar los contrastes de bondad de
ajuste de hipotesis nula
el modelo probabilstico propuesto es correcto
Este contraste exige para su correcta aplicacion un vector numerico con las
frecuencias absolutas de cada clase y un vector numerico con las probabilidades
propuestas para cada clase. Tambien es posible ofrecerle las frecuencias absolutas
esperadas, en este caso habra que anadir el modificador rescale.p=TRUE.

!
En el caso de un modelo probabilstico para una proporcion presentado como el
numero de exitos y fracasos, este contraste coincide con el contraste sobre una
proporcion sin correccion de continuidad.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 43 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de bondad de ajuste


En un experimento tipo Bernoulli se han contado 17 exitos de 50 intentos y se desea
contrastar si la proporcion de exitos es p = 0. 14; esto es, se pide contrastar el modelo

Frecuencias observadas Frecuencias esperadas


17 7
33 43

El contraste

H0 : el modelo probabilstico propuesto para la variable aleatoria es correcto
H1 : el modelo probabilstico propuesto no es correcto

se lleva a cabo mediante las sentencias


> frecuenciasobservadas<-c(17,33)
> frecuenciasesperadas<-c(7,43)
> chisq.test(frecuenciasobservadas,p=frecuenciasesperadas,rescale.p=TRUE)
Chi-squared test for given probabilities

data: frecuenciasobservadas
X-squared = 16.6113, df = 1, p-value = 4.588e-05

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 44 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de bondad de ajuste (y II)


De forma alternativa este contraste se puede llevar a cabo a traves de la secuencia de
sentencias
> frecuenciasobservadas<-c(17,33)
> probabilidadespropuestas<-c(0.14,0.86)
> chisq.test(frecuenciasobservadas,p=probabilidadespropuestas)
Chi-squared test for given probabilities

data: frecuenciasobservadas
X-squared = 16.6113, df = 1, p-value = 4.588e-05
Como el p-valor del contraste, p = 4. 588 105 , es menor que el nivel de significacion
= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

!
Para contrastar proporciones, el contraste de bondad de ajuste coincide con el
contraste sobre una proporcion sin correccion de continuidad resuelto mediante el
comando prop.test (vease la trasparencia 25).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 45 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de bondad de ajuste a una normal


En una produccion de varillas de metal se han observado las longitudes siguientes

Intervalo de longitudes Numero de varillas observadas


[0, 2) 1
[2, 4) 6
[4, 6) 12
[6, 8) 4
[8, 10) 2

Se desea contrastar si la distribucion de la longitud de las varillas es una N (6, 3). De


acuerdo a esta hipotesis se tiene

Intervalo de longitudes Probabilidad del intervalo


[0, 2) 0.0912
[2, 4) 0.1613
[4, 6) 0.2475
[6, 8) 0.2475
[8, 10) 0.2525

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 46 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de bondad de ajuste a una normal (y II)


En este caso el contraste

H0 : el modelo probabilstico propuesto para la variable aleatoria es N (6, 3)
H1 : el modelo probabilstico propuesto no es correcto

se puede llevar a cabo as


> longitudesobservadas<-c(1,6,12,4,2)
> probabilidades<-c(0.0912, 0.1613, 0.2475, 0.2475, 0.2525)
> chisq.test(longitudesobservadas,p=probabilidades)
Chi-squared test for given probabilities

data: longitudesobservadas
X-squared = 10.8583, df = 4, p-value = 0.0282

Como el p-valor del contraste, p = 0. 0282, es menor que el nivel de significacion


= 0. 05, p < , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

!
Como los parametros de la normal estan dados en el modelo los grados de libertad
del estadstico son los que indica el programa, numero de clases menos uno: cuatro.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 47 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de bondad de ajuste a una normal (y III)


Si se realiza una estimacion a partir de las marcas de clase anteriores de la media y la
varianza se obtiene
> marcasclase<-c(1,rep(3,6),rep(5,12),rep(7,4),rep(9,2))
> mean(marcasclase)
[1] 5
> sd(marcasclase)
[1] 1.914854
Si se ajustan los datos mediante una normal N (5, 1. 9) se tiene

Intervalo de longitudes Probabilidad del intervalo


[0, 2) 0.0517
[2, 4) 0.2422
[4, 6) 0.4012
[6, 8) 0.2422
[8, 10) 0.0517

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 48 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de bondad de ajuste a una normal (y IV)


Si se lleva a cabo el contraste

H0 : el modelo probabilstico propuesto para la variable aleatoria es N (5, 1. 9)
H1 : el modelo probabilstico propuesto no es correcto

mediante las ordenes


> longitudesobservadas<-c(1,6,12,4,2)
> probabilidades2<-c(0.0572, 0.2422, 0.4012, 0.2422, 0.0572)
> chisq.test(longitudesobservadas,p=probabilidades2)
Chi-squared test for given probabilities

data: longitudesobservadas
X-squared = 1.4414, df = 4, p-value = 0.837

Como se han hecho dos estimaciones sobre los parametros de la normal los grados del
estadstico de prueba indicados por el programa no son correctos. En este caso son dos,
cinco clases menos dos parametros estimados menos uno.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 49 / 102


Contrastes de hipotesis basados en una distribucion 2 con R

Contraste de bondad de ajuste a una normal (y V)


La realizacion del estadstico de prueba no vara lo que permite calcular el p-valor con
el que se debe comparar el nivel de significacion. El p-valor proporcionado por el R es
> pchisq(1.4414,4,lower.tail=FALSE)
[1] 0.8369685

mientras que el adecuado de acuerdo a la teora presentada se determina como sigue


> pchisq(1.4414,2,lower.tail=FALSE)
[1] 0.4864116

Como el p-valor del contraste, p = 0. 4864, es mayor que el nivel de significacion


= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95,
luego se acepta la normalidad de la variable que gobierna la longitud de las varillas.

!
Se debe prestar atencion a la hora de determinar los grados de libertad en los
contrastes de bondad de ajuste mediante una 2 .

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 50 / 102


Contrastes de hipotesis de normalidad con R

Contraste de Kolmogorov-Smirnov con R


Este tipo de contraste de bondad de ajuste se lleva a cabo mediante la sentencia
ks.test. La hipotesis nula, que consiste en establecer una funcion de distribucion que
gobierne la variable aleatoria de la que unos datos son una muestra de sus valores
accesibles, se redacta como sigue
la variable aleatoria tiene a la funcion F como funcion de distribucion
Ademas de una muestra, hay que acompanar al comando anterior de un modelo
de probabilidad con el que contrastar junto de los parametros que determinan el
modelo propuesto.

!
Los contrastes estan disenados para rechazar la hipotesis nula, pero este se produce
cuando los datos proporcionan evidencias estadsticas que contradicen fuertemente la
hipotesis nula. Muchas son las distribuciones que son susceptibles de gobernar una
variable de la que se posee una muestra, por lo tanto al igual que en el resto de los
contrastes, los datos deben ladrar para descartar un modelo probabilstico.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 51 / 102


Contrastes de hipotesis de normalidad con R

Contraste de Kolmogorov-Smirnov
El comando rpois va a generar una muestra aleatoria de una variable Poisson P (15)
> poisson<-rpois(25,15)
> table(poisson)
poisson
6 10 12 13 14 15 16 17 18 19 21 25
1 1 2 1 1 7 3 3 2 2 1 1

y a continuacion se va a realizar el contraste para establecer si dicha muestra puede


proceder de una variable uniforme de parametros el mnimo y el maximo de la muestra

H0 : el modelo probabilstico propuesto para la variable aleatoria es uniforme
H1 : el modelo probabilstico propuesto no es correcto
> ks.test(poisson,"punif",min(poisson),max(poisson))
One-sample Kolmogorov-Smirnov test

data: poisson
D = 0.2358, p-value = 0.1241
alternative hypothesis: two-sided

Como el p-valor del contraste, p = 0. 1241, es mayor que el nivel de significacion


= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 52 / 102
Contrastes de hipotesis de normalidad con R

Contraste de Lilliefors con R


Este tipo de contraste de bondad de ajuste se lleva a cabo mediante la sentencia li-
lie.testa . Esta disenado para contrastar especficamente si una muestra dada procede
de una variable aleatoria normalmente distribuida. La hipotesis nula se redacta como
sigue
la variable aleatoria que gobierna la muestra sigue una distribucion normal
El comando anterior solo necesita una muestra para realizar la prueba.
a
Disponible despues de cargar el paquete nortest de R

!
Como proceder cuando los contrastes de Kolmogorov-Smirnov y de Lilliefors para la
normalidad de una variable aleatoria proporcionan resultados contradictorios? Se
atreve usted a indagar en busca de la respuesta?

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 53 / 102


Contrastes de hipotesis de normalidad con R

Contraste de Lilliefors
Dada la muestra anterior llamada poisson se procede a realizar el contraste de nor-
malidad de Lilliefors

H0 : la variable aleatoria sigue una distribucion normala
H1 : la variable aleatoria no sigue una distribucion normal

mediante la sentencia siguiente


> lillie.test(poisson)
Lilliefors (Kolmogorov-Smirnov) normality test

data: poisson
D = 0.132, p-value = 0.3151
Como el p-valor del contraste, p = 0. 3151, es mayor que el nivel de significacion
= 0. 05, p > , no se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
a
La media y varianza de esta distribucion normal coinciden con la media y la
varianza de la muestra dada

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 54 / 102


Contrastes de hipotesis de normalidad con R

Contraste de Lilliefors (y II)


La sentencia que permite aplicar Kolmogorov-Smirnov a esta muestra es
> ks.test(poisson,"pnorm",mean(poisson),sd(poisson))
One-sample Kolmogorov-Smirnov test

data: poisson
D = 0.132, p-value = 0.7761
alternative hypothesis: two-sided

En este caso ambos contrastes dan lugar a la misma decision estadstica. Notar que
ambos contrastes tienen la misma realizacion del estadstico pero diferentes p-valores.
Contraste de Shapiro-Wilks
Este proceso de comparacion comparte con el contraste de Lilliefors su diseno especfico
para determinar la normalidad de una variable aleatoria, y desde el punto de vista de
R, su sencillez en la ejecucion, basta aplicar shapiro.test a la muestra dada.
> shapiro.test(poisson)
Shapiro-Wilk normality test

data: poisson
W = 0.9468, p-value = 0.2126

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 55 / 102


Contrastes de hipotesis de normalidad con R

Contraste de Shapiro-Wilks (y II)


Se introduce el contraste de Shapiro-Wilks debido al uso tan extendido de los llamados
graficos Q-Q de normalidad asociados a esta tecnica y presentados en el tema anterior.
Este tipo de grafo para la muestra dada es
25 Grafico QQ de normalidad
Cuantiles muestrales
20
15
10

2 1 0 1 2
Cuantiles teoricos

que es la respuesta a estas dos ordenes de R


> qqnorm(poisson,pch=16,main="Grafico Q-Q de normalidad",xlab="Cuantiles teoricos",
ylab="Cuantiles muestrales")
> qqline(poisson)

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 56 / 102


Metodos ANOVA con R

Homogeneidad de varianzas con R


Ademas de la suposicion de normalidad de las muestras involucradas en un contraste
ANOVA, estas tecnicas exigen la homogeneidad de las varianzas. Para realizar este
contraste se ha presentado la prueba de Bartlett que se ejecuta en R a traves del
comando bartlett.test. La hipotesis nula de este contraste es
12 = 22 = . . . k2
Para llevarlo a cabo basta aplicar el comando anterior a una lista que contenga
todas las muestras dadas. Esta lista se construye con la orden list.

!
Otra prueba muy extendida para establecer la condicion de homocedasticidad de
varianzas es el contraste de Levene, mas recomendable que el contraste de Bartlett si
no se puede establecer con rotundidad la normalidad de los datos.

!
Ah, es que hay mas contrastes? Claro! La Estadstica esta en constante crecimiento.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 57 / 102


Metodos ANOVA con R

Contraste de Bartlett
Para ilustrar los metodos ANOVA se generaran cinco muestras aleatorias normales
de distintos tamanos llamadas muestra1, muestra2, muestra3, muestra4 y muestra5.
Dado el modelo de probabilidad elegido se omiten los contrastes de normalidad de las
muestras. Las ordenes siguientes generan las muestras anunciadas
> muestra1<-rnorm(100,10,10)
> muestra2<-rnorm(105,9.8,10.5)
> muestra3<-rnorm(102,9.7,9.8)
> muestra4<-rnorm(107,4,10)
> muestra5<-rnorm(104,3,5)

Aplicar el contraste de Bartlett a las muestras anteriores resulta sencillo


> bartlett.test(list(muestra1,muestra2,muestra3,muestra4,muestra5))
Bartlett test of homogeneity of variances

data: list(muestra1, muestra2, muestra3, muestra4, muestra5)


Bartlett's K-squared = 61.9784, df = 4, p-value = 1.113e-12

Como el p-valor del contraste, p = 1. 113 1012 , es extremadamente significativo se


rechaza la homogeneidad de varianzas al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 58 / 102


Metodos ANOVA con R

Contraste de Bartlett (y II)


Los calculos que permiten determinar la realizacion del estadstico de prueba del con-
traste y su p-valor se pueden reproducir facilmente con las formulas del tema anterior.
> muestras<-list(muestra1,muestra2,muestra3,muestra4,muestra5)
> longitudes<-sapply(muestras,length)
> cuasivarianzas<-sapply(muestras,var)
> sp<-sum((longitudes-1)*cuasivarianzas)/(sum(longitudes-1))
> B<-sum(longitudes-1)*log(sp)-sum((longitudes-1)*log(cuasivarianzas))
> C<-1+1/12*(sum(1/(longitudes-1))-1/sum(longitudes-1))
Luego la realizacion de estadstico de prueba y el p-valor del contraste
B
h= = 61. 9784, p = 1. 113 1012 ,
C
se determinan a partir de los calculos anteriores como sigue
> h<-B/C
> h
[1] 61.9784
> pchisq(h,4,lower.tail=FALSE)
[1] 1.113179e-12

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 59 / 102


Metodos ANOVA con R

Contraste de Bartlett (y III)


Ahora se debe determinar cual o cuales muestras impiden la condicion de homocedas-
ticidad de varianzas. Una opcion es aplicar el contraste de Levy (presentado en el tema
anterior como ejemplo de comparacion multiple de varianzas). Para evitar su uso, se
analizara mediante un diagrama de cajas la dispersion de las cinco muestras dadas.
Datos de las muestras
30
10
10
30

Diagrama de cajas de las cinco muestras

La figura anterior se ha obtenido como respuesta a la sentencia


> boxplot(muestra1,muestra2,muestra3,muestra4,muestra5,
xlab="Diagrama de cajas de las cinco muestras",ylab="Datos de las muestras")

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 60 / 102


Metodos ANOVA con R

Contraste de Bartlett (y IV)


Aparentemente, la varianza de la muestra cinco es menor que el resto. Se realizan a
continuacion dos contrastes de igualdad de varianzas para confirmar tal intuicion.
> var.test(muestra1,muestra5)
F test to compare two variances

data: muestra1 and muestra5


F = 3.9045, num df = 99, denom df = 103, p-value = 3.695e-11
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
2.639437 5.784823
sample estimates:
ratio of variances
3.904503
> var.test(muestra1,muestra3)
F test to compare two variances

data: muestra1 and muestra3


F = 0.856, num df = 99, denom df = 101, p-value = 0.4389
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.5773333 1.2702036
sample estimates:
ratio of variances
0.8560106

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 61 / 102


Metodos ANOVA con R

Contraste de Bartlett (y V)
A la luz de los p-valores de los contrastes anteriores, 3. 695 1011 y 0. 4389, a nivel de
significacion = 0. 05, se rechaza la igualdad de varianzas entre las distribuciones que
gobiernan la primera y la quinta muestra y no se rechaza la igualdad de varianzas entre
la primera y la tercera. Por tanto, se realizara una prueba de Bartlett para contrastar
(
H0 : 12 = 22 = 32 = 42 .
H1 : existen i , j {1, 2, 3, 4} tal que i2 6= j2 .

La sentencia que permite ejecutar esta prueba es


> bartlett.test(list(muestra1,muestra2,muestra3,muestra4))
Bartlett test of homogeneity of variances

data: list(muestra1, muestra2, muestra3, muestra4)


Bartlett's K-squared = 1.0989, df = 3, p-value = 0.7773
Como el p-valor del contraste, p = 0. 7773, no es significativo no se rechaza la homo-
geneidad de varianzas al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 62 / 102


Metodos ANOVA con R

!
El analisis anterior para determinar que varianzas satisfacen la condicion de
homocedasticidad nunca puede sustituir al rigor inherente a un contraste de
hipotesis, en el caso de interes, el contraste de Levy.

Comparacion de igualdad de medias con R


Una vez que se ha presentado el uso del contraste de Bartlett se ilustrara el metodo
para realizar el contraste de igualdad de medias
(
H0 : 1 = 2 = . . . = k .
H1 : existen i , j {1, 2, . . . , k } tal que i 6= j .

El comando que permite este contraste es anova, cuya respuesta se completa con la
que proporciona el comando aov.
El tamano de las muestras involucradas no tiene que ser constante pero para utilizar
los comando de R s deben ser iguales. Para ello se debe completar cada muestra hasta
el tamano de la mayor con el dato NA, que es la forma que tiene el programa de indicar
que falta ese dato (esta inclusion no altera los resultados de la pruebas).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 63 / 102


Metodos ANOVA con R

Comparacion de medias
Tras establecer la homogeneidad de las varianzas de las distribuciones que gobiernan
las cuatro primeras variables se procede a contrastar la homogeneidad de sus medias.
(
H0 : 1 = 2 = 3 = 4 .
H1 : existen i , j {1, 2, 3, 4} tal que i 6= j .
Las siguientes sentencias permiten, completando las muestras dadas mediante la indi-
cacion de datos desaparecidos (Not Available / Missing Values), obtener muestras
del mismo tamano.
> m1<-c(muestra1,rep(NA,7))
> m2<-c(muestra2,rep(NA,2))
> m3<-c(muestra3,rep(NA,5))
> m4<-muestra4

!
El comando rep aplicado sobre una par (a,b), repite el caracter a tantas veces como
indica el contador b.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 64 / 102


Metodos ANOVA con R

Comparacion de medias (y II)


A partir de las muestras con mismo tamano se procede a definir la coleccion de datos
formada por todas las muestras, de las que cada una de ellas constituira un factor o
nivel. Este proceso se puede realizar como sigue
> coleccion<-c(m1,m2,m3,m4)
> niveles<-gl(4,107,labels=c("m1","m2","m3","m4"))
> tapply(coleccion,niveles,summary)
$m1
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-13.560 1.812 9.932 9.524 15.290 36.270 7

$m2
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-14.180 1.442 9.107 8.742 17.670 32.770 2

$m3
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-20.0600 0.6353 9.5320 9.1730 16.0800 35.5000 5

$m4
Min. 1st Qu. Median Mean 3rd Qu. Max.
-22.670 -2.040 3.241 3.608 10.370 29.450

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 65 / 102


Metodos ANOVA con R

!
El comando gl (del ingles generate factor levels), permite definir los factores o
niveles. Los dos numeros que acompanan a la orden indican el numero de factores y
el tamano de cada uno de ellos.

Comparacion de medias (y III)


Se crea el objeto modelo y a continuacion se realiza el contraste pedido
> modelo<-lm(coleccion~niveles)
> anova(modelo)
Analysis of Variance Table

Response: coleccion
Df Sum Sq Mean Sq F value Pr(>F)
niveles 3 2459 819.76 7.3383 8.407e-05 ***
Residuals 410 45801 111.71
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

Como el p-valor del contraste, p = 8. 407 105 , es extremadamente significativo se


rechaza la igualdad de medias al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 66 / 102


Metodos ANOVA con R

Comparacion de medias (y IV)


El comando aov aplicado sobre el modelo creado complementa la respuesta a la ins-
truccion anterior de cara a una reconstruccion de los datos que permiten construir el
estadstico de prueba.
> aov(modelo) # complementa la respuesta anterior
Call:
aov(formula = modelo)

Terms:
niveles Residuals
Sum of Squares 2459.29 45801.38
Deg. of Freedom 3 410

Residual standard error: 10.56933


Estimated effects may be unbalanced
14 observations deleted due to missingness

!
Solamente falta ilustrar los contrastes de comparacion multiple de Tukey y de
Student-Newman-Keuls para detectar diferencias entre las medias.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 67 / 102


Metodos ANOVA con R

!
Gracias al modelo lineal creado ejecutar el contraste de homogeneidad de varianzas
de Levenea es tambien muy sencillo como revela la sentencia siguiente
> leveneTest(modelo)
Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 3 0.5143 0.6727
410
a
Disponible despues de cargar el paquete car de R

Comparacion multiple de medias con R: contraste de Tukey


La prueba de comparacion multiple de Tukey realiza simultaneamente los contrastes
de hipotesis siguientes
(
H0 : i = j
H1 : i 6= j ,
para todo i , j = 1, 2, . . . , k , i 6= j .
El comando de R que permite realizar esta prueba es TukeyHSD.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 68 / 102
Metodos ANOVA con R

Comparacion multiple de medias con R: contraste de Tukey


El citado comando aplicado a la orden aov sobre modelo construido y acompanado de
un nivel de confianza, devuelve un intervalo de confianza y un p-valor para cada uno
de los contrastes sobre igualdad de medias realizado.
Contraste de Tukey
Si se continua el anterior ejemplo, esta prueba al nivel de significacion = 0. 05 se
realiza como sigue
> TukeyHSD(aov(modelo),conf.level=0.95)
Tukey multiple comparisons of means
95% family-wise confidence level

Fit: aov(formula = modelo)

$niveles
diff lwr upr p adj
m2-m1 -0.7817061 -4.591326 3.027914 0.9519367
m3-m1 -0.3502205 -4.187072 3.486631 0.9953998
m4-m1 -5.9152789 -9.707491 -2.123067 0.0003956
m3-m2 0.4314857 -3.358956 4.221927 0.9911796
m4-m2 -5.1335728 -8.878822 -1.388323 0.0025456
m4-m3 -5.5650585 -9.338004 -1.792113 0.0009371
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 69 / 102
Metodos ANOVA con R

Contraste de Tukey (y II)


A la luz de los resultados de la prueba, estadsticamente hablando, no se rechaza al
nivel de significacion dado la igualdad de las medias de las tres primeras variables y
s se rechaza que la media de la cuarta variable aleatoria sea la misma que la media
de las otras tres: el intervalo de confianza para las tres posibles diferencias de medias
de las tres primeras variables contiene al valor cero, mientras que los tres intervalos de
confianza de la cuarta media con las tres restantes no contienen al valor cero.
Tambien es destacable la potencia grafica que alcanza la combinacion de los comandos
plot y TukeyHSDa . La figura recogida en la trasparencia siguiente es la respuesta a
> plot(TukeyHSD(aov(modelo),conf.level=0.95))
que recoge de forma grafica la informacion proporcionada por la prueba de Tukey.
a
Del ingles Tukey Honest Significant Differences

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 70 / 102


Metodos ANOVA con R

Contraste de Tukey (y III)

m2m1
m3m1
m4m1
m3m2
m4m2
m4m3 95% familywise confidence level

8 6 4 2 0 2 4
Differences in mean levels of niveles

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 71 / 102


Metodos ANOVA con R

Contraste de Tukey (y IV)


Una prueba mas de la potencia grafica de R relacionada con los contrastes de compa-
racion multiple . . .

m4
m3
m2
m1

30 20 10 0 10 20 30
coleccion

. . . fruto de la orden
> stripchart(coleccion~niveles)
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 72 / 102
Metodos ANOVA con R

Comparacion multiple de medias con R: contraste de Student-Newman-Keuls


Esta prueba tiene el mismo objetivo que el contraste anterior. Senalar que el comando
que permite su ejecucion es SNK.testa aplicado al modelo definido y acompanado de
los factores y del nivel de significacion.
a
Disponible despues de la carga del paquete agricolae de R

Contraste de Student-Newman-Keuls
La aplicacion de este contraste sobre las cuatro medias de interes arroja el resultado
> SNK.test(modelo,"niveles",alpha=0.05)
Study:

Student Newman Keuls Test


for coleccion

Mean Square Error: 111.7107

continua ...

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 73 / 102


Metodos ANOVA con R

Contraste de Student-Newman-Keuls (y II)


niveles, means

coleccion std.err r Min. Max.


m1 9.523526 1.0296699 100 -13.56244 36.26646
m2 8.741820 1.0450494 105 -14.18332 32.76718
m3 9.173306 1.1019411 102 -20.05863 35.50360
m4 3.608247 0.9789579 107 -22.67260 29.45435

alpha: 0.05 ; Df Error: 410

Critical Range
2 3 4
2.889158 3.457194 3.791327

Harmonic Mean of Cell Sizes 103.4299

Different value for each comparison


Means with the same letter are not significantly different.
Groups, Treatments and means
a m1 9.524
a m3 9.173
a m2 8.742
b m4 3.608

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 74 / 102


Metodos ANOVA con R

Contraste de Student-Newman-Keuls (y III)


La ultima parte de la respuesta de R lo dice todo . . . el resto merece un estudio que
requiere una inversion de tiempo que no se tiene en las clases presenciales. Encontrara
tiempo fuera de las clases?
Contrastes de diferencia de medias
. . . Y estos son algunos de los contrastes que se ahorran con el uso de las tecnicas de
comparacion multiple . . .
> t.test(muestra1,muestra2,var.equal=TRUE)
Two Sample t-test

data: muestra1 and muestra2


t = 0.5323, df = 203, p-value = 0.5951
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.113760 3.677173
sample estimates:
mean of x mean of y
9.523526 8.741820

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 75 / 102


Metodos ANOVA con R

Contrastes de diferencia de medias (y II)


> t.test(muestra1,muestra3,var.equal=TRUE)
Two Sample t-test

data: muestra1 and muestra3


t = 0.232, df = 200, p-value = 0.8167
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.625977 3.326418
sample estimates:
mean of x mean of y
9.523526 9.173306
> t.test(muestra2,muestra3,var.equal=TRUE)
Two Sample t-test

data: muestra2 and muestra3


t = -0.2843, df = 205, p-value = 0.7765
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.424051 2.561080
sample estimates:
mean of x mean of y
8.741820 9.173306
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 76 / 102
Metodos ANOVA con R

Contrastes de diferencia de medias (y III)


> t.test(muestra1,muestra4,var.equal=TRUE)
Two Sample t-test

data: muestra1 and muestra4


t = 4.1658, df = 205, p-value = 4.571e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.115677 8.714881
sample estimates:
mean of x mean of y
9.523526 3.608247

. . . y no se han hecho todas las posibles pruebas de diferencia de medias dos a dos . . .

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 77 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales con R


La sentencia anova permite realizar el contraste sobre la pendiente de la recta de
regresion de dos caractersticas normales de hipotesis
=0
A este contraste se le deben proporcionar dos colecciones numericas x e y.
La orden anterior debe ser aplicada al modelo lineal que determina la muestra, dada
por el comando lm(y~x).

!
El comando summary aplicado al modelo lineal que determina la muestra, lm(y~x),
tambien permite obtener la respuesta de este contraste.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 78 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales


Se crearan a continuacion cuatro muestras validas para aplicar la prueba estadstica
sobre pendiente de la recta de regresion.
> x<-c(5.0929,8.5273,7.5862,11.0167,5.8973,9.3391,14.1355,7.3089,7.8156,9.0427,
13.9033,1.4359,1.9948,5.3048,12.5036,0.0842,9.1073,5.2842,6.8122,6.5195,9.0493,
3.9541,14.2325,7.9786,14.7877,18.7291,14.0872,9.5025,4.8224,8.2276,8.3285,8.1829,
7.4452,13.6857,4.5092,12.1734)
> x
[1] 5.0929 8.5273 7.5862 11.0167 5.8973 9.3391 14.1355 7.3089 7.8156
[10] 9.0427 13.9033 1.4359 1.9948 5.3048 12.5036 0.0842 9.1073 5.2842
[19] 6.8122 6.5195 9.0493 3.9541 14.2325 7.9786 14.7877 18.7291 14.0872
[28] 9.5025 4.8224 8.2276 8.3285 8.1829 7.4452 13.6857 4.5092 12.1734
> y<-c(5.7639,11.4636,4.8068,13.9449,7.1608,10.5858,11.6412,7.7682,6.2747,9.5234,
16.8501,1.9748,2.3263,3.7234,13.7142,0.8322,10.9776,5.3545,5.3968,5.6139,9.3998,
5.6393,11.2236,9.2162,15.6064,21.3779,11.9081,8.6219,3.4673,9.7243,10.6355,5.6057,
5.3485,14.6260,3.3791,16.1093)
> y
[1] 5.7639 11.4636 4.8068 13.9449 7.1608 10.5858 11.6412 7.7682 6.2747
[10] 9.5234 16.8501 1.9748 2.3263 3.7234 13.7142 0.8322 10.9776 5.3545
[19] 5.3968 5.6139 9.3998 5.6393 11.2236 9.2162 15.6064 21.3779 11.9081
[28] 8.6219 3.4673 9.7243 10.6355 5.6057 5.3485 14.6260 3.3791 16.1093

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 79 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y II)


> z<-c(2.2382,0.0992,-3.9581,-2.0867,0.4921,7.4631,4.8596,4.9692,2.3303,-1.5875,
5.6931,0.7663,6.2431,8.2035,0.9044,-3.2741,3.3115,1.1537,-3.7333,-3.8041,5.0606,
-2.6791,2.0895,3.4832,0.1221,10.0218,2.7975,7.2663,3.2431,3.2231,-0.0168,-7.57365,
2.6098,-6.9956,1.1234,6.9876)
> z
[1] 2.2382 0.0992 -3.9581 -2.0867 0.4921 7.4631 4.8596 4.9692 2.3303
[10] -1.5875 5.6931 0.7663 6.2431 8.2035 0.9044 -3.2741 3.3115 1.1537
[19] -3.7333 -3.8041 5.0606 -2.6791 2.0895 3.4832 0.1221 10.0218 2.7975
[28] 7.2663 3.2431 3.2231 -0.0168 -7.5736 2.6098 -6.9956 1.1234 6.9876
> t<-c(5.9435,2.6088,-2.6627,-0.4606,0.5163,9.7917,5.5062,9.7503,2.9652,2.9501,
5.6323,4.8710,10.9142,12.0959,3.1297,0.8562,3.9999,2.7812,0.6332,-7.3837,7.8490,
-2.1362,3.5487,7.3061,4.6541,14.8603,4.7375,8.2439,6.4196,7.4751,0.1906,-6.5765,
5.3699,-4.9363,3.1141,7.6541)
> t
[1] 5.9435 2.6088 -2.6627 -0.4606 0.5163 9.7917 5.5062 9.7503 2.9652
[10] 2.9501 5.6323 4.8710 10.9142 12.0959 3.1297 0.8562 3.9999 2.7812
[19] 0.6332 -7.3837 7.8490 -2.1362 3.5487 7.3061 4.6541 14.8603 4.7375
[28] 8.2439 6.4196 7.4751 0.1906 -6.5765 5.3699 -4.9363 3.1141 7.6541

Y con ellas se crea un data frame como sigue


> datosregresion<-data.frame(x,y,z,t)

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 80 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y III)


Las muestras superan la prueba de homocedasticidad de varianzas
> bartlett.test(datosregresion)
Bartlett test of homogeneity of variances

data: datosregresion
Bartlett's K-squared = 1.687, df = 3, p-value = 0.6399
porque el p-valor no es significativo.
Tambien superan de foma individual las pruebas de normalidad de Lilliefors como
revelan la secuencia de contrastes siguientes (observese que ninguno de los p-valores
proporcionados por ellos es significativo).
> lillie.test(x)
Lilliefors (Kolmogorov-Smirnov) normality test

data: x
D = 0.1327, p-value = 0.1122

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 81 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y IV)


> lillie.test(y)
Lilliefors (Kolmogorov-Smirnov) normality test

data: y
D = 0.1293, p-value = 0.1335
> lillie.test(z)
Lilliefors (Kolmogorov-Smirnov) normality test

data: z
D = 0.092, p-value = 0.6165
> lillie.test(t)
Lilliefors (Kolmogorov-Smirnov) normality test

data: t
D = 0.1158, p-value = 0.2569
Por tanto las muestras satisfacen todas las condiciones exigidas por las pruebas intro-
ducidas sobre regresion.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 82 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y V)


Para facilitar los calculos se asigna nombre a la recta de regresion de y sobre x
> recta<-lm(y~x)
El contraste sobre la pendiente de la recta de regresion de dos caractersticas
(
H0 : = 0
H1 : 6= 0

a nivel significacion = 0. 05 se hace con R como sigue


> anova(recta)
Analysis of Variance Table

Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 670 670 193 1.4e-15 ***
Residuals 34 118 3
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1
Como el p-valor del contraste, p = 1. 4 1015 , es extremadamente significativo se
rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.
(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 83 / 102
Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y VI)


Este contraste se puede realizar de forma alternativa como sigue
> summary(recta)
Call:
lm(formula = y ~ x)

Residuals:
Min 1Q Median 3Q Max
-3.597 -1.434 0.332 1.189 3.469

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2481 0.7227 -0.34 0.73
x 1.0587 0.0762 13.90 1.4e-15 ***
---
Signif. codes: 0 "***" 0.001 "**" 0.01 "*" 0.05 "." 0.1 " " 1

Residual standard error: 1.86 on 34 degrees of freedom


Multiple R-squared: 0.85, Adjusted R-squared: 0.846
F-statistic: 193 on 1 and 34 DF, p-value: 1.4e-15

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 84 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y VII)


La sentencia anterior devuelve el mismo resultado que anova(recta). Tambien realiza
contrastes sobre los coeficientes de la recta de regresion, indicando que el p-valor del
contraste sobre el coeficiente de la ordenada en el origen no es significativo, p = 0. 73.
El comando confint aplicado sobre el modelo de regresion propuesto y acompanado de
un nivel de confianza devuelve intervalos de confianza para los coeficientes del modelo.
Para el ejemplo de interes, si 1 = 0. 95 se tiene
> ic95<-confint(recta,conf.level=0.95)
> ic95
2.5 % 97.5 %
(Intercept) -1.716842 1.22072
x 0.903886 1.21354

intervalos centrados en los correspondientes coeficientes de regresion


> (ic95[1,1]+ic95[1,2])/2
[1] -0.248059
> (ic95[2,1]+ic95[2,2])/2
[1] 1.05872

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 85 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y VIII)


Las ordenes siguientes permiten calcular los coeficientes involucrados en la recta de re-
gresion, pendiente (b) y ordenada en el origen (a), as como el coeficiente de correlacion
y un par de datos auxiliares
> b<-cov(x,y)/var(x)
> a<-mean(y)-cov(x,y)/var(x)*mean(x)
> r<-cor(x,y)
> l<-length(x)
> mx2<-mean(x**2)
para calcular de acuerdo a las formulas del tema anterior los intervalos de confianza
para los coeficientes de la recta de regresion de las dos poblaciones proporcionados por
R anteriormente
> ica<-a+c(-1,1)*qt(0.975,l-2)*sqrt((1-r**2)/(l-2))*sd(y)/sd(x)*sqrt(mx2)
> ica
[1] -1.71684 1.22072
> icb<-b+c(-1,1)*qt(0.975,l-2)*sqrt((1-r**2)/(l-2))*sd(y)/sd(x)
> icb
[1] 0.903886 1.213545

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 86 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y IX)


El estadstico de prueba del contraste de hipotesis
(
H0 : = 0
H1 : 6= 0

se puede deducir facilmente de la formula del intervalo de confianza para la pendiente.


Ese estadstico es
b
q ,
1r 2
by
N 2 bx

cuya realizacion en el ejemplo estudiado es


> restadisticob<-b/(sqrt((1-r**2)/(l-2))*sd(y)/sd(x))
> restadisticob
[1] 13.8964
que proporciona el p-valor del contraste
> pt(-restadisticob,l-2)+pt(restadisticob,l-2,lower.tail=FALSE)
[1] 1.39728e-15

(Comparese con el resultado de summary(recta) recogido en la trasparencia 84).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 87 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y X)


El estadstico de prueba del contraste de hipotesis sobre la ordenada en el origen
(
H0 : = 0
H1 : 6= 0
es
a
q p ,
1r 2
by
N 2 bx

bx 2
cuya realizacion en el ejemplo estudiado es
> restadisticoa<-a/(sqrt((1-r**2)/(l-2))*sd(y)/sd(x)*sqrt(mx2))
> restadisticoa
[1] -0.343221
que proporciona el p-valor del contraste
> pt(restadisticoa,l-2)+pt(-restadisticoa,l-2,lower.tail=FALSE)
[1] 0.733545
que lo convierte en nada significativo.
(Comparese con el resultado de summary(recta) recogido en la trasparencia 84).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 88 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y XI)


La prueba sobre la pendiente de la recta de regresion es de tipo ANOVA. Este tipo de
pruebas exige la normalidad de la distribucion que gobierna los residuos. Los siguientes
comandos combinados con los contrastes de normalidad presentados son muy utiles a
la hora de contrastar la normalidad de la distribucion residual.
A partir de un modelo de regresion las sentencias fitteda y residualsb proporcionan
los valores ajustados y los residuos correspondientes a las abscisas dadas en el modelo.
> ajustados<-fitted(recta)
> ajustados
1 2 3 4 5 6 7 8 9 10
5.1439 8.7799 7.7836 11.4155 5.9955 9.6394 14.7174 7.4900 8.0264 9.3256
11 12 13 14 15 16 17 18 19 20
14.4716 1.2721 1.8639 5.3682 12.9897 -0.1589 9.3940 5.3464 6.9641 6.6542
21 22 23 24 25 26 27 28 29 30
9.3326 3.9382 14.8201 8.1990 15.4079 19.5807 14.6663 9.8124 4.8575 8.4626
31 32 33 34 35 36
8.5695 8.4153 7.6343 14.2412 4.5259 12.6401
a
Tambien es valido el comando fitted.values
b
Tambien es valido el comando resid

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 89 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y XII)


Los residuos del modelo se determinan como sigue
> residuos<-residuals(recta)
> residuos
1 2 3 4 5 6 7 8 9 10
0.6200 2.6837 -2.9768 2.5294 1.1653 0.9464 -3.0762 0.2782 -1.7517 0.1978
11 12 13 14 15 16 17 18 19 20
2.3785 0.7027 0.4624 -1.6448 0.7245 0.9911 1.5836 0.0081 -1.5673 -1.0403
21 22 23 24 25 26 27 28 29 30
0.0672 1.7011 -3.5965 1.0172 0.1985 1.7972 -2.7582 -1.1905 -1.3902 1.2617
31 32 33 34 35 36
2.0660 -2.8096 -2.2858 0.3848 -1.1468 3.4692
En este ejemplo no hay evidencias estadsticas en la muestra para rechazar la norma-
lidad de los residuos como revela el contraste de Shapiro-Wilks.
> shapiro.test(residuos)
Shapiro-Wilk normality test

data: residuos
W = 0.964, p-value = 0.2852

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 90 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y XIII)


El grafico de normalidad asociado a esta muestra y a este contraste es

Grafico QQ de normalidad
Cuantiles muestrales
1 2 3
1
3

2 1 0 1 2
Cuantiles teoricos

obtenido como respuesta grafica a la orden


> qqnorm(residuos,pch=16,main="Grafico Q-Q de normalidad",
xlab="Cuantiles teoricos",ylab="Cuantiles muestrales")
> qqline(residuos)

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 91 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste sobre la pendiente de dos caractersticas normales (y XIV)


El grafico siguiente, que representa los puntos cuyas coordenadas son los valores ajusta-
dos y los residuos, ayuda a confirmar la veracidad de los contrastes anteriores. Si no hay
ningun patron en los puntos y estan distribuidos de forma uniforme, la homogeneidad
de varianzas y la correlacion lineal pueden ser aceptadas.

Ajustados versus residuos


Valores residuales
2
1
1 0
3

0 5 10 15 20
Valores ajustados

La figura anterior es la respuesta a la sentencia


> plot(ajustados,residuos,main="Ajustados versus residuos",
xlab="Valores ajustados",ylab="Valores residuales")

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 92 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales con R


La sentencia cor.test permite realizar el contraste sobre el coeficiente de correlacion
de dos caractersticas normales de hipotesis nula
=0
A este contraste se le deben proporcionar dos colecciones numericas x e y.
Este contraste admite como hipotesis alternativa las mismas que cualquier contraste
parametrico. Las alternativas greater y less indican que la hipotesis nula se con-
trasta con un grado de correlacion positivo o con un grado de correlacion negativo
respectivamente.
El contraste implementado en R no admite mas hipotesis nula que la anulacion del
coeficiente de correlacion por lo tanto no es necesario introducirla explcitamente.

!
Este contraste proporciona la misma respuesta sobre el rechazo o no de la hipotesis
nula que el contraste sobre la pendiente de la recta de regresion de dos poblaciones.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 93 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales


Dadas las muestras x e y, el contraste de correlacion de dos caractersticas normales
(
H0 : = 0
H1 : 6= 0

a nivel significacion = 0. 05 se hace con R como sigue


> cor.test(x,y,alternative="two.sided",conf.level=0.95)
Pearson's product-moment correlation

data: x and y
t = 13.9, df = 34, p-value = 1.332e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.852 0.960
sample estimates:
cor
0.922
Como el p-valor del contraste, p = 1. 332 1015 , es menor que el nivel de significacion
= 0. 05, p > , se rechaza la hipotesis nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 94 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales (y II)


El data frame definido previamente resulta util para establecer los coeficientes de co-
rrelacion de las cuatro muestras, basta aplicarle el comando cor.
> cor(datosregresion)
x y z t
x 1.000 0.922 0.223 0.144
y 0.922 1.000 0.266 0.195
z 0.223 0.266 1.000 0.931
t 0.144 0.195 0.931 1.000
La potencia grafica de R se pone de manifiesto una vez mas con la generacion de todas
las posibles de nubes de puntos de las muestras de un data frame. La orden que permite
generar ese grafico se compone aplicando el comando pairs al data frame que contiene
las muestras.
> pairs(datosregresion)

El grafico que genera la sentencia anterior complementa a la informacion que propor-


ciona la tabla de coeficientes de correlacion.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 95 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales (y III)

5 10 15 20 5 0 5 10 15

15
10
x

5
0
20
15

y
10
5

10
5
z

0
5
15
10
5

t
0
5

0 5 10 15 5 0 5 10

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 96 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales (y IV)


Dadas las muestras x y z, el contraste de correlacion de dos caractersticas normales
(
H0 : = 0
H1 : 6= 0

a nivel significacion = 0. 05 se hace con R como sigue


> cor.test(x,z,alternative="two.sided",conf.level=0.95)
Pearson's product-moment correlation

data: x and z
t = 1.33, df = 34, p-value = 0.1916
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.114 0.514
sample estimates:
cor
0.223

Como el p-valor del contraste, p = 0. 1916, no es significativo no rechaza la hipotesis


nula al nivel de confianza 1 = 0. 95.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 97 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales (y V)


El intervalo de confianza para el coeficiente de correlacion ofrecido por el contraste
anterior se puede determinar de dos formas distintas. La primera de ellas involucra a
la distribucion t de Student
> rxz<-cor(x,z)
> zeta<-1/2*log((1+rxz)/(1-rxz))
> tanh(zeta+c(-1,1)*sqrt(1/(l-3))*qt(0.975,Inf))
[1] -0.1141 0.5137

mientras que en la segunda interviene la distribucion F de Fisher-Snedecor


> qf<-qf(0.975,l-2,l-2)
> ((1+qf)*rxz+(1-qf))/((1+qf)+(1-qf)*rxz)
[1] -0.1148
> ((1+qf)*rxz-(1-qf))/((1+qf)-(1-qf)*rxz)
[1] 0.5142

Las dos tecnicas anteriores aproximan el mismo intervalo de confianza

(0. 114, 0. 514).

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 98 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales (y VI)


El comando predict aplicado a un modelo de regresion y a una coleccion de datos
permite predecir valores para las abscisas dadas, es decir, determinar las ordenadas
obtenidas segun el modelo propuesto para las abscisas escogidas. Para las abscisas
{0, 3, 6, 9, 12, 15, 18}, los valores esperados se pueden determinar como sigue
> datos<-c(0,3,6,9,12,15,18)
> predict(recta, newdata=data.frame(x=datos))
1 2 3 4 5 6 7
-0.2481 2.9281 6.1042 9.2804 12.4565 15.6327 18.8088
Esta orden tambien permite establecer graficamente intervalos de confianza al nivel
deseado para
la media de distribucion marginal de abscisas fijado un valor de una abscisa.
el valor esperado para la ordenada centrado en el valor predicho por el modelo
para un valor de una abscisa.
Estos resultados se obtienen por la aplicacion del comando predict a un modelo acom-
panado de nivel de confianza deseado, de las abscisas ordenadas y del modificador
interval="confidence" para la media marginal.
interval="prediction" para el valor esperado.

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 99 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales (y VII)


En el caso de las medias marginales se tiene
> x.ordenadas=sort(unique(x)) # Reordenacion de las abscisas
> prediccionmedia<-predict(recta, newdata=data.frame(x=x.ordenadas),
interval="confidence",level=0.95)
> plot(x,y,main="Intervalos para las medias marginales")
> abline(recta)
> lines(x.ordenadas,prediccionmedia[,2],lty=2,col="blue")
> lines(x.ordenadas,prediccionmedia[,3],lty=2,col="blue")

Intervalos para las medias marginales


20
15
y
10
5

0 5 10 15
x

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 100 / 102


Contraste de hipotesis sobre regresion lineal con R

Contraste de correlacion de dos caractersticas normales (y VIII)


En el caso de los valores esperados se tiene
> x.ordenadas=sort(unique(x)) # Reordenacion de las abscisas
> prediccionvaloresperado<-predict(recta, newdata=data.frame(x=x.ordenadas),
interval="prediction",level=0.95)
> plot(x,y,main="Intervalos para los valores esperados")
> abline(recta)
> lines(x.ordenadas,prediccionvaloresperado[,2],lty=2,col="blue")
> lines(x.ordenadas,prediccionvaloresperado[,3],lty=2,col="blue")

Intervalos para los valores esperados


20
15
y
10
5

0 5 10 15
x

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 101 / 102


!
No se debe cambiar aprender las formulas
estadsticas de memoria por aprender los
comandos de R de memoria.

!
Las cuentas de R son las formulas de siempre!

!
Si consigue establecer las conexiones entre las
tecnicas tradicionales y las tecnicas modernas,
que problema estadstico se le resistira?

(Ingeniera Aeroespacial y Electrica) Metodos numericos y estadsticos rsans@unileon.es 102 / 102

Potrebbero piacerti anche