Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
aplicada con R
Tabla de contenido
Introduccin 0
Estadstica descriptiva 1
Datos unidimensionales 1.1
Representaciones grficas 1.1.1
Medidas de posicin y dispersin 1.1.2
Datos bidimensionales 1.2
Tabla de datos 1.2.1
Clculo de probabilidades 2
Funciones bsicas de R en el Clculo de Probabilidades 2.1
Modelos unidimensionales discretos 2.2
Distribucin Binomial 2.2.1
Distribucin de Poison 2.2.2
Distribucin Geomtrica 2.2.3
Distribucin Hipergeomtrica 2.2.4
Distribucin Binomial Negative 2.2.5
Modelos unidimensionales continuos 2.3
Distribucin normal 2.3.1
Distribucin uniforme 2.3.2
Distribucin Beta 2.3.3
Distribucin Gamma 2.3.4
Distribucin de Cauchy 2.3.5
Distribucin Esponencial 2.3.6
Distribucin de Weibull 2.3.7
Distribucin Lognormal 2.3.8
Distribucin Logstica 2.3.9
Modelos unidimensionales asociados a distribuciones normales 2.4
Distribucin @%@blk1@%@ de Pearson 2.4.1
Distribucin t de Student 2.4.2
Distribucin F de Snedecor 2.4.3
Modelos multidimensionales 2.5
2
Estadstica aplicada con R
3
Estadstica aplicada con R
Introduccin 4
Estadstica aplicada con R
Estadstica descriptiva
En este captulo analizaremos algunas herramientas del paquete R que nos sern de
utilidad en el estudio de la Estadstica Descriptiva y del Anlisis de Datos. Dividiremos el
captulo en dos secciones, correspondientes al tratamiento de datos uni- y bidimensionales.
Estadstica descriptiva 5
Estadstica aplicada con R
Datos unidimensionales
Con los datos unidimensionales analizaremos tres cosas: su representacin grfica, el
clculo de medidas de posicin y el clculo de medidas de dispersin.
Datos unidimensionales 6
Estadstica aplicada con R
Representaciones grficas
Dependiendo del tipo de datos que tengamos podemos realizar diferentes representaciones
grficas:
Ejemplo 2.1
En un estudio sobre las razones por las que no fue completado un tratamiento de radiacin
seguido de ciruga en pacientes con cncer de cabeza y cuello se obtuvieron los datos
dados por la siguiente distribucin de frecuencias absolutas,
Causas
Rehusaron ciruga 26
Rehusaron radiacin 3
40
Representaciones grficas 7
Estadstica aplicada con R
Representaciones grficas 8
Estadstica aplicada con R
Representaciones grficas 9
Estadstica aplicada con R
Obsrvese que lo nico que cambia respecto a la funcin pie(), es que labels no es
argumento de la funcin barplot() sino que, como puede verse, el argumento
correspondiente para aadir nombres a las clases, es names.
Representaciones grficas 10
Estadstica aplicada con R
Ejemplo 2.2
Se midieron los niveles de colinesterasa en un recuento de eritrocitos de 34 agricultores
expuestos a insecticidas agrcolas, obtenindose los siguientes datos agrupados en
intervalos:
7.5 - 9 3
9 - 10.5 8
10.5 - 12 10
12 - 13.5 10
13.5 - 15 1
15.5 - 16.5 2
34
Representaciones grficas 11
Estadstica aplicada con R
Ejemplo 2.3
Tras encuestar a 25 familias sobre el nmero de hijos que tenan, se obtuvieron los
siguientes datos,
Representaciones grficas 12
Estadstica aplicada con R
0 5
1 6
2 8
3 4
4 2
25
Como el nmero de valores distintos de variable es slo cinco, la representacin grfica que
procede es el diagrama de barras.
# Valores posibles
x <- c(0, 1, 2, 3, 4)
# Frecuencias
freq <- c(5, 6, 8, 4, 2)
barplot(freq, names = x, main = "Nmero de hijos")
Ejemplo 2.4
Representaciones grficas 13
Estadstica aplicada con R
10.6, 12.5, 11.1, 9.2, 11.5, 9.9, 11.9, 11.6, 14.9, 12.5, 12.5, 12.5, 12.3, 12.2, 10.8, 16.5, 15,
10.3, 12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12, 11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1, 12.4, 11.1, 10.2
Si queremos controlar los intervalos del histograma podemos fijar simplemente breaks = n y
el ordenador suele elegir un nmero de intervalos similar a n.
Representaciones grficas 14
Estadstica aplicada con R
n <- length(x)
plot(x =sort(x),y = (1:n)/n, type = "s", xlab = "x",
ylab = "Funcin de distribucin emprica")
Representaciones grficas 15
Estadstica aplicada con R
Obsrverse que hemos ordenado los datos con la funcin sort() y hemos encontrado la
distribucin de frecuencias relativas acumuladas como (1:n)/n.
Representaciones grficas 16
Estadstica aplicada con R
Un buen resumen de muchas de las medidas de posicin se obtiene de una vez con la
funcin summary.
Ejemplo 2.2
Se midieron los niveles de colinesterasa en un recuento de eritrocitos de 34 agricultores
expuestos a insecticidas agrcolas, obtenindose los siguientes datos:
10.6, 12.5, 11.1, 9.2, 11.5, 9.9, 11.9, 11.6, 14.9, 12.5, 12.5, 12.5, 12.3, 12.2, 10.8, 16.5, 15,
10.3, 12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12, 11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1, 12.4, 11.1, 10.2
Las funciones antes mencionadas se aplican a un vector de datos numricos, por lo que
crearemos un vector con los datos de arriba y aplicaremos las funciones antes
mencionadas para computar las medidas de posicin y dispersin:
> x <- c(10.6, 12.5, 11.1, 9.2, 11.5, 9.9, 11.9, 11.6,
+ 14.9, 12.5, 12.5, 12.5, 12.3, 12.2, 10.8, 16.5,
+ 15, 10.3, 12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12,
+ 11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1, 12.4, 11.1,
+ 10.2)
> mean(x)
[1] 11.38571
> quantile(x)
25%
10.15
> var(x)
[1] 3.448319
> sd(x)
[1] 1.856965
> summary(x)
Datos bidimensionales
Analizaremos aqu las representaciones grficas de pares de datos. En concreto, la forma
de representar un Diagrama de Dispersin, tambin denominado Nube de puntos con la
funcin plot analizando alguna de sus muchas posibilidades, as como la manera de
representar sobre ella la recta de regresin o mnimos cuadrados.
Una caracterstica relacionada con la bondad de ajuste de esta recta a los datos que forman
la nube de puntos es el Coeficiente de correlacin lineal de Pearson. ste se calcula con la
funcin cor.
Ejemplo 2.4
Tras preguntar a 20 personas con aficiones atlticas la marca que posean en 100 metros
lisos y las horas semanales que, por trmino medio, dedicaban a entrenar se obtuvieron los
siguientes datos
Horas 21 32 15 40 27 18 26 50 33 51
Marca 13.2 12.6 13 12.2 15 14.8 14.8 12.2 13.6 12.6
Horas 36 16 19 22 16 39 56 29 45 25
Marca 13.1 14.9 13.9 13.2 15.1 14.1 13 13.5 12.7 14.2
Si queremos representar estos pares de datos (x,y) debemos utilizar la funcin plot(x,y):
x <- c(21, 32, 15, 40, 27, 18, 26, 50, 33, 51, 36, 16,
19, 22, 16, 39, 56, 29, 45, 25)
y <- c(13.2, 12.6, 13, 12.2, 15, 14.8, 14.8, 12.2,
13.6, 12.6, 13.1, 14.9, 13.9, 13.2, 15.1, 14.1,
13, 13.5, 12.7, 14.2)
plot(x, y)
Datos bidimensionales 19
Estadstica aplicada con R
Datos bidimensionales 20
Estadstica aplicada con R
Datos bidimensionales 21
Estadstica aplicada con R
Datos bidimensionales 22
Estadstica aplicada con R
plot(x, y, pch = 4)
Datos bidimensionales 23
Estadstica aplicada con R
Datos bidimensionales 24
Estadstica aplicada con R
Datos bidimensionales 25
Estadstica aplicada con R
plot(x, y, axes = F)
Datos bidimensionales 26
Estadstica aplicada con R
Como sabemos, un elemento muy asociado a esta clase de datos es su recta de mnimos
cuadrados o de regresin. Podemos obtenerla ejecutando la funcin lm.
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 15.05908 -0.04786
Obsrverse que hemos obtenido la recta punto-pendiente con ordenada en el origen 15,06
y pendiente -0.048.
Datos bidimensionales 27
Estadstica aplicada con R
Como dijimos ms arriba si queremos calcular el valor del coeficiente de correlacin lineal
de Pearson, relacionado con la precisin del ajuste de mnimos cuadrados efectuado,
ejecutamos:
cor(x, y)
## [1] -0.6304069
Datos bidimensionales 28
Estadstica aplicada con R
Tabla de datos
En ocasiones los datos bidimensionales vienen recogidos en tablas de doble entrada
porque las variables toman unos pocos valores dintintos y el nmero total de datos es
grande.
Ejemplo 2.5
Se clasificarn 174 individuos de acuerdo con Sexo y su Estado Civil, obtenindose la
siguiente tabla:
Este tipo de datos es tratado por R como una matriz, por lo que primero los incorporaremos,
> poblacion <- matrix(c(20, 29, 40, 38, 5, 11, 11, 20), ncol = 4)
> `dimnames<-`(poblacion, list(c("Masculino", "Femenino"),
+ c("Soltero", "Casado", "Viudo", "Sep/Div")))
> prop.table(poblacion)
Tabla de datos 29
Estadstica aplicada con R
> margin.table(poblacion, 1)
[1] 76 98
> margin.table(poblacion, 2)
[1] 49 78 16 31
> margin.table(prop.table(poblacion),1)
Al ser variables que forman la tabla de tipo cualitativo o de tipo cuantitativo pero, en este
caso, con valores aislados, la representacin grfica que correspondera sera el diagrama
de barras o rectngulos, por lo que ser la funcin barplot la que debemos utilizar. sta ya
entiende que se trata de una matriz a representar y hace un diagrama para cada uno de los
valores de las filas, agrupados por los valores de la variable que aparece en las columnas
de la matriz.
Podemos optar porque los haga sobrepuestos unos a otros (opcin tomada por defecto):
> barplot(prop.table(poblacion))
Tabla de datos 30
Estadstica aplicada con R
O bien, que lo haga pegados unos a otros, en cuyo caso deberemos utilizar el argumento
beside=T:
Tabla de datos 31
Estadstica aplicada con R
Si queremos que el grfico sea de los valores de las columnas, agrupados por los valores
de la variable que aparece en las filas, debemos trasponer la matriz que se utiliza como
primer argumento de la funcin:
> par(mfrow=c(1,2))
> barplot(prop.table(t(poblacion),2), beside = TRUE)
> barplot(prop.table(t(poblacion), 2))
Tabla de datos 32
Estadstica aplicada con R
> par(mfrow=c(1,1))
Obsrvese que hemos utilizado la funcin par(mforw=c(1,2)). Esta funcin permite dividir la
pantalla grfica en un sola mtriz de grficos de dimensin a x b. Si queremos volver a la
situacin anterior de pantalla completa, deberemos ejecutar par(mforw=c(1,1)). Esta
posibilidad es vlida antes de cualquier grfico R.
Un grfico que nos permite visualizar los datos de la tabla, equivalente al diagrama de
barras con la opcin beside=TRUE es el Diagrama de puntos, obtenido con la funcin
dotchart. As si, ejecutamos
> dotchart(poblacion)
Tabla de datos 33
Estadstica aplicada con R
Tabla de datos 34
Estadstica aplicada con R
Clculo de probabilidades
Clculo de probabilidades 35
Estadstica aplicada con R
Distribucin Binomial
Distribucin Binomial 38
Estadstica aplicada con R
Distribucin de Poison
Distribucin de Poison 39
Estadstica aplicada con R
Distribucin Geomtrica
Distribucin Geomtrica 40
Estadstica aplicada con R
Distribucin Hipergeomtrica
Distribucin Hipergeomtrica 41
Estadstica aplicada con R
Distribucin normal
Distribucin normal 44
Estadstica aplicada con R
Distribucin uniforme
Distribucin uniforme 45
Estadstica aplicada con R
Distribucin Beta
Distribucin Beta 46
Estadstica aplicada con R
Distribucin Gamma
Distribucin Gamma 47
Estadstica aplicada con R
Distribucin de Cauchy
Distribucin de Cauchy 48
Estadstica aplicada con R
Distribucin Esponencial
Distribucin Esponencial 49
Estadstica aplicada con R
Distribucin de Weibull
Distribucin de Weibull 50
Estadstica aplicada con R
Distribucin Lognormal
Distribucin Lognormal 51
Estadstica aplicada con R
Distribucin Logstica
Distribucin Logstica 52
Estadstica aplicada con R
Distribucin de Pearson
Distribucin t de Student
Distribucin t de Student 55
Estadstica aplicada con R
Distribucin F de Snedecor
Distribucin F de Snedecor 56
Estadstica aplicada con R
Modelos multidimensionales
Modelos multidimensionales 57
Estadstica aplicada con R
Distribucin Multinomial
Distribucin Multinomial 59