Sei sulla pagina 1di 59

Estadstica

aplicada con R

Tabla de contenido
Introduccin 0
Estadstica descriptiva 1
Datos unidimensionales 1.1
Representaciones grficas 1.1.1
Medidas de posicin y dispersin 1.1.2
Datos bidimensionales 1.2
Tabla de datos 1.2.1
Clculo de probabilidades 2
Funciones bsicas de R en el Clculo de Probabilidades 2.1
Modelos unidimensionales discretos 2.2
Distribucin Binomial 2.2.1
Distribucin de Poison 2.2.2
Distribucin Geomtrica 2.2.3
Distribucin Hipergeomtrica 2.2.4
Distribucin Binomial Negative 2.2.5
Modelos unidimensionales continuos 2.3
Distribucin normal 2.3.1
Distribucin uniforme 2.3.2
Distribucin Beta 2.3.3
Distribucin Gamma 2.3.4
Distribucin de Cauchy 2.3.5
Distribucin Esponencial 2.3.6
Distribucin de Weibull 2.3.7
Distribucin Lognormal 2.3.8
Distribucin Logstica 2.3.9
Modelos unidimensionales asociados a distribuciones normales 2.4
Distribucin @%@blk1@%@ de Pearson 2.4.1
Distribucin t de Student 2.4.2
Distribucin F de Snedecor 2.4.3
Modelos multidimensionales 2.5

2
Estadstica aplicada con R

Distribucin Normal multivariante 2.5.1


Distribucin Multinomial 2.5.2

3
Estadstica aplicada con R

Estadstica aplicada con R

En estos apuntes se ensea a utilizar el paquete estadstico R de una manera sencilla y


aplicada. Es un complemento perfecto al libro de texto utilizado en la asignatura de
Estadstica de la UNED

Rubn Snchez Sancho

Introduccin 4
Estadstica aplicada con R

Estadstica descriptiva
En este captulo analizaremos algunas herramientas del paquete R que nos sern de
utilidad en el estudio de la Estadstica Descriptiva y del Anlisis de Datos. Dividiremos el
captulo en dos secciones, correspondientes al tratamiento de datos uni- y bidimensionales.

Estadstica descriptiva 5
Estadstica aplicada con R

Datos unidimensionales
Con los datos unidimensionales analizaremos tres cosas: su representacin grfica, el
clculo de medidas de posicin y el clculo de medidas de dispersin.

Datos unidimensionales 6
Estadstica aplicada con R

Representaciones grficas
Dependiendo del tipo de datos que tengamos podemos realizar diferentes representaciones
grficas:

Datos correspondientes a un carcter


cualitativo
Las dos representaciones grficas habituales para este tipo de datos son el Diagrama de
Sectores, grfico que obtendremos don la funcin pie() y el Diagrama de Rectngulos,
obtenido con la funcin barplot().

Ejemplo 2.1
En un estudio sobre las razones por las que no fue completado un tratamiento de radiacin
seguido de ciruga en pacientes con cncer de cabeza y cuello se obtuvieron los datos
dados por la siguiente distribucin de frecuencias absolutas,

Causas
Rehusaron ciruga 26
Rehusaron radiacin 3

Empeoraron por una enfermedad ajena al cncer 10


Otras causas 1

40

Para obtener el Diagrama de Sectores,

x <- c(26, 3, 10, 1)


pie(x)

Representaciones grficas 7
Estadstica aplicada con R

Una versin mejorada, sera,

# Creamos un vector con los nombres de los sectores


names <- c("reh. ciruga", "reh. radiacin", "empeoraron o.e.", "otras")
# Creamos un vector con los colores
colors <- c(2, 3, 4, 5)
pie(x, labels = names, col = colors, main = "Causas")

Representaciones grficas 8
Estadstica aplicada con R

Para obtener el Diagrama de Rectngulos,

barplot(x, names.arg = names, col = colors, main = "Causas")

Representaciones grficas 9
Estadstica aplicada con R

Obsrvese que lo nico que cambia respecto a la funcin pie(), es que labels no es
argumento de la funcin barplot() sino que, como puede verse, el argumento
correspondiente para aadir nombres a las clases, es names.

Datos correspondientes a un carcter


cuantitativo agrupado en intervalos
Esta situacin rara vez se presenta en Estadstica porque la agrupacin en intervalos
implica prdida de informacin: todos los datos del intervalo son tratados de igual manera al
ser asimilados a la marca de clase, independientemente de los valores reales que tomaran.
La razn fundamental de su uso hasta nuestros das, fue la complejidad de manejar
grandes cantidades de datos, problema resuelto con el uso habitual de ordenadores. Por
tanto, el agrupar datos es una opcin no recomendada. Como es posible, no obstante, que
en algunas ocasiones los datos los tengamos en intervalos, vamos a indicar como
representarlos.

La representacin habitual es el Histograma ejecutada con la funcin hist() aunque


veremos que esta funcin est pensada para datos sin agrupar.

Representaciones grficas 10
Estadstica aplicada con R

Ejemplo 2.2
Se midieron los niveles de colinesterasa en un recuento de eritrocitos de 34 agricultores
expuestos a insecticidas agrcolas, obtenindose los siguientes datos agrupados en
intervalos:

7.5 - 9 3
9 - 10.5 8
10.5 - 12 10
12 - 13.5 10
13.5 - 15 1

15.5 - 16.5 2
34

#Creamos un vector con las marcas de clase


m <- c(8.25, 9.75, 11.25, 12.75, 14.25, 15.75)
#Creamos un vector con las frecuencias absolutas
freq <- c(3, 8, 10, 10, 1, 2)
#Replicamos las marcas de clase
coli <- rep(m, freq)
#Puntos de corte
breaks <- c(7.5, 9, 10.5, 12, 13.5, 15, 16.5)
#Vector con los colores de los rectngulos
colors <- c(1, 2, 3, 4, 5, 6)
hist(coli, breaks = breaks, col = colors,
main = "Niveles de colinesterasa")

Representaciones grficas 11
Estadstica aplicada con R

Datos correspondientes a un carcter


cuantitativo sin agrupar en intervalos
sta es la situacin habitual que tendremos para un conjunto de datos cuantitativos. Las
representaciones grficas habituales sern, el Diagrama de barras si son pocos los valores
distintos de la variable o el Histograma si ha muchos valores distintos. Adems, en el caso
de frecuencias acumuladas la representacin grfica ser el Diagrama de Frecuencias
Acumuladas, denominado Funcin de distribucin emprica si las frecuencias acumuladas a
representar son relativas.

Ejemplo 2.3
Tras encuestar a 25 familias sobre el nmero de hijos que tenan, se obtuvieron los
siguientes datos,

Representaciones grficas 12
Estadstica aplicada con R

0 5
1 6
2 8

3 4
4 2
25

Como el nmero de valores distintos de variable es slo cinco, la representacin grfica que
procede es el diagrama de barras.

# Valores posibles
x <- c(0, 1, 2, 3, 4)
# Frecuencias
freq <- c(5, 6, 8, 4, 2)
barplot(freq, names = x, main = "Nmero de hijos")

Ejemplo 2.4
Representaciones grficas 13
Estadstica aplicada con R

Se midieron los niveles de colinesterasa en un recuento de eritrocitos de 34 agricultores


expuestos a insecticidas agrcolas, obtenindose los siguientes datos:

10.6, 12.5, 11.1, 9.2, 11.5, 9.9, 11.9, 11.6, 14.9, 12.5, 12.5, 12.5, 12.3, 12.2, 10.8, 16.5, 15,
10.3, 12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12, 11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1, 12.4, 11.1, 10.2

A continuacin mostramos como representar un histograma con los datos de arriba,

x <- c(10.6, 12.5, 11.1, 9.2, 11.5, 9.9,


11.9, 11.6, 14.9, 12.5, 12.5, 12.5,
12.3, 12.2, 10.8, 16.5, 15, 10.3,
12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12,
11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1,
12.4, 11.1, 10.2)
hist(x)

Si queremos controlar los intervalos del histograma podemos fijar simplemente breaks = n y
el ordenador suele elegir un nmero de intervalos similar a n.

Representaciones grficas 14
Estadstica aplicada con R

x <- c(10.6, 12.5, 11.1, 9.2, 11.5, 9.9,


11.9, 11.6, 14.9, 12.5, 12.5, 12.5,
12.3, 12.2, 10.8, 16.5, 15, 10.3,
12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12,
11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1,
12.4, 11.1, 10.2)
n <- length(x)
hist(x, breaks = n)

La funcin de distribucin emprica se obtiene con la siguiente combinacin de funciones:

n <- length(x)
plot(x =sort(x),y = (1:n)/n, type = "s", xlab = "x",
ylab = "Funcin de distribucin emprica")

Representaciones grficas 15
Estadstica aplicada con R

Obsrverse que hemos ordenado los datos con la funcin sort() y hemos encontrado la
distribucin de frecuencias relativas acumuladas como (1:n)/n.

Representaciones grficas 16
Estadstica aplicada con R

Medidas de posicin y dispersin


Las principales medidas de posicin y dispersin son la Media, obtenida con la funcin
mean, la Mediana cuyo valor lo obtenemos con median, la Cuasivarianza para la que
debemos ejecutar la funcin var; su raz cuadrada, la Cuasidesviacin tpica, obtenida con
sd, y los cuantiles que se consiguen con quantile.

Un buen resumen de muchas de las medidas de posicin se obtiene de una vez con la
funcin summary.

Ejemplo 2.2
Se midieron los niveles de colinesterasa en un recuento de eritrocitos de 34 agricultores
expuestos a insecticidas agrcolas, obtenindose los siguientes datos:

10.6, 12.5, 11.1, 9.2, 11.5, 9.9, 11.9, 11.6, 14.9, 12.5, 12.5, 12.5, 12.3, 12.2, 10.8, 16.5, 15,
10.3, 12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12, 11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1, 12.4, 11.1, 10.2

Las funciones antes mencionadas se aplican a un vector de datos numricos, por lo que
crearemos un vector con los datos de arriba y aplicaremos las funciones antes
mencionadas para computar las medidas de posicin y dispersin:

> x <- c(10.6, 12.5, 11.1, 9.2, 11.5, 9.9, 11.9, 11.6,
+ 14.9, 12.5, 12.5, 12.5, 12.3, 12.2, 10.8, 16.5,
+ 15, 10.3, 12.4, 9.1, 7.8, 11.3, 12.3, 9.7, 12,
+ 11.8, 12.7, 11.4, 9.3, 8.6, 8.5, 10.1, 12.4, 11.1,
+ 10.2)
> mean(x)

[1] 11.38571

> quantile(x)

0% 25% 50% 75% 100%


7.80 10.15 11.50 12.40 16.50

> quantile(x, probs = 0.25)

Medidas de posicin y dispersin 17


Estadstica aplicada con R

25%
10.15

> var(x)

[1] 3.448319

> sd(x)

[1] 1.856965

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.


7.80 10.15 11.50 11.39 12.40 16.50

Medidas de posicin y dispersin 18


Estadstica aplicada con R

Datos bidimensionales
Analizaremos aqu las representaciones grficas de pares de datos. En concreto, la forma
de representar un Diagrama de Dispersin, tambin denominado Nube de puntos con la
funcin plot analizando alguna de sus muchas posibilidades, as como la manera de
representar sobre ella la recta de regresin o mnimos cuadrados.

Una caracterstica relacionada con la bondad de ajuste de esta recta a los datos que forman
la nube de puntos es el Coeficiente de correlacin lineal de Pearson. ste se calcula con la
funcin cor.

Ejemplo 2.4
Tras preguntar a 20 personas con aficiones atlticas la marca que posean en 100 metros
lisos y las horas semanales que, por trmino medio, dedicaban a entrenar se obtuvieron los
siguientes datos

Horas 21 32 15 40 27 18 26 50 33 51
Marca 13.2 12.6 13 12.2 15 14.8 14.8 12.2 13.6 12.6

Horas 36 16 19 22 16 39 56 29 45 25
Marca 13.1 14.9 13.9 13.2 15.1 14.1 13 13.5 12.7 14.2

Si queremos representar estos pares de datos (x,y) debemos utilizar la funcin plot(x,y):

x <- c(21, 32, 15, 40, 27, 18, 26, 50, 33, 51, 36, 16,
19, 22, 16, 39, 56, 29, 45, 25)
y <- c(13.2, 12.6, 13, 12.2, 15, 14.8, 14.8, 12.2,
13.6, 12.6, 13.1, 14.9, 13.9, 13.2, 15.1, 14.1,
13, 13.5, 12.7, 14.2)
plot(x, y)

Datos bidimensionales 19
Estadstica aplicada con R

A continuacin mostramos los diferentes argumentos de la funcin:

#Pone titulo y color a los puntos

plot(x, y, main = "nube de puntos", col=3)

Datos bidimensionales 20
Estadstica aplicada con R

#Limita el recorrido del grfico

plot(x, y, xlim = range(x), ylim = range(y))

Datos bidimensionales 21
Estadstica aplicada con R

#Pone los puntos como un 2

plot(x, y, pch ="2")

Datos bidimensionales 22
Estadstica aplicada con R

#Pone los puntos como el smbolo x. Hay del 0 al 18

plot(x, y, pch = 4)

Datos bidimensionales 23
Estadstica aplicada con R

#Pone nombre a los ejes

plot(x, y, xlab = "abcisa", ylab = "ordenada")

Datos bidimensionales 24
Estadstica aplicada con R

#No pone ningn nombre a los ejes

plot(x, y, xlab = "", ylab = "")

Datos bidimensionales 25
Estadstica aplicada con R

#No pone el marco al grfico

plot(x, y, axes = F)

Datos bidimensionales 26
Estadstica aplicada con R

Como sabemos, un elemento muy asociado a esta clase de datos es su recta de mnimos
cuadrados o de regresin. Podemos obtenerla ejecutando la funcin lm.

ajus <- lm(y ~ x)


ajus

##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 15.05908 -0.04786

Obsrverse que hemos obtenido la recta punto-pendiente con ordenada en el origen 15,06
y pendiente -0.048.

Podemos ahora aadirla sin ms a la nube de puntos:

Datos bidimensionales 27
Estadstica aplicada con R

plot(x, y, main = "Nube de puntos y Recta")


abline(ajus, col=4)
legend(35, 14.6, c("Lnea de regresin"), lty = c(1), col=4)

Como dijimos ms arriba si queremos calcular el valor del coeficiente de correlacin lineal
de Pearson, relacionado con la precisin del ajuste de mnimos cuadrados efectuado,
ejecutamos:

cor(x, y)

## [1] -0.6304069

Datos bidimensionales 28
Estadstica aplicada con R

Tabla de datos
En ocasiones los datos bidimensionales vienen recogidos en tablas de doble entrada
porque las variables toman unos pocos valores dintintos y el nmero total de datos es
grande.

Ejemplo 2.5
Se clasificarn 174 individuos de acuerdo con Sexo y su Estado Civil, obtenindose la
siguiente tabla:

Soltero Casado Viudo Separado Divorciado


Masculino 20 40 5 11
Femenino 29 38 11 20

Este tipo de datos es tratado por R como una matriz, por lo que primero los incorporaremos,

> poblacion <- matrix(c(20, 29, 40, 38, 5, 11, 11, 20), ncol = 4)
> `dimnames<-`(poblacion, list(c("Masculino", "Femenino"),
+ c("Soltero", "Casado", "Viudo", "Sep/Div")))

Soltero Casado Viudo Sep/Div


Masculino 20 40 5 11
Femenino 29 38 11 20

De esta distribucin bidimensional de frecuencias absolutas se puede obtener rpidamente


la distribucin bidimensional de frecuencias relativas con la funcin prop.table:

> prop.table(poblacion)

[,1] [,2] [,3] [,4]


[1,] 0.1149425 0.2298851 0.02873563 0.06321839
[2,] 0.1666667 0.2183908 0.06321839 0.11494253

Las distribuciones marginales absolutas se obtienen con la funcin margin.table. El primer


argumento de esta funcin es la tabla de doble entrada; el segundo argumento sirve para
indicar que queremos que lo haga por filas (poniendo un 1) o por columna (poniendo un 2).

Tabla de datos 29
Estadstica aplicada con R

> margin.table(poblacion, 1)

[1] 76 98

> margin.table(poblacion, 2)

[1] 49 78 16 31

Las distribuciones marginales relativas se podrn obtener, lgicamente, de dos maneras:


bien obteniendo las frecuencias relativas primero y luego las marginales, o al revs. Por
ejemplo, en el caso de que queramos obtener la distribucin de frecuencias relativas de
Sexo, la podramos obtener por cualquiera de las dos siguientes maneras,

> margin.table(prop.table(poblacion),1)

[1] 0.4367816 0.5632184

> prop.table(margin.table(poblacion, 1))

[1] 0.4367816 0.5632184

Al ser variables que forman la tabla de tipo cualitativo o de tipo cuantitativo pero, en este
caso, con valores aislados, la representacin grfica que correspondera sera el diagrama
de barras o rectngulos, por lo que ser la funcin barplot la que debemos utilizar. sta ya
entiende que se trata de una matriz a representar y hace un diagrama para cada uno de los
valores de las filas, agrupados por los valores de la variable que aparece en las columnas
de la matriz.

Podemos optar porque los haga sobrepuestos unos a otros (opcin tomada por defecto):

> barplot(prop.table(poblacion))

Tabla de datos 30
Estadstica aplicada con R

O bien, que lo haga pegados unos a otros, en cuyo caso deberemos utilizar el argumento
beside=T:

> barplot(prop.table(poblacion), beside = TRUE)

Tabla de datos 31
Estadstica aplicada con R

Si queremos que el grfico sea de los valores de las columnas, agrupados por los valores
de la variable que aparece en las filas, debemos trasponer la matriz que se utiliza como
primer argumento de la funcin:

> par(mfrow=c(1,2))
> barplot(prop.table(t(poblacion),2), beside = TRUE)
> barplot(prop.table(t(poblacion), 2))

Tabla de datos 32
Estadstica aplicada con R

> par(mfrow=c(1,1))

Obsrvese que hemos utilizado la funcin par(mforw=c(1,2)). Esta funcin permite dividir la
pantalla grfica en un sola mtriz de grficos de dimensin a x b. Si queremos volver a la
situacin anterior de pantalla completa, deberemos ejecutar par(mforw=c(1,1)). Esta
posibilidad es vlida antes de cualquier grfico R.

Un grfico que nos permite visualizar los datos de la tabla, equivalente al diagrama de
barras con la opcin beside=TRUE es el Diagrama de puntos, obtenido con la funcin
dotchart. As si, ejecutamos

> dotchart(poblacion)

Tabla de datos 33
Estadstica aplicada con R

obtenemos el siguiente diagrama el cual vemos es muy similar al diagrama de barras


pegadas, girado 90 grados y donde estn intercambiadas las barras de los sexos.

Tabla de datos 34
Estadstica aplicada con R

Clculo de probabilidades

Clculo de probabilidades 35
Estadstica aplicada con R

Funciones bsicas de R en el Clculo de


Probabilidades

Funciones bsicas de R en el Clculo de Probabilidades 36


Estadstica aplicada con R

Modelos unidimensionales discretos

Modelos unidimensionales discretos 37


Estadstica aplicada con R

Distribucin Binomial

Distribucin Binomial 38
Estadstica aplicada con R

Distribucin de Poison

Distribucin de Poison 39
Estadstica aplicada con R

Distribucin Geomtrica

Distribucin Geomtrica 40
Estadstica aplicada con R

Distribucin Hipergeomtrica

Distribucin Hipergeomtrica 41
Estadstica aplicada con R

Distribucin Binomial Negative

Distribucin Binomial Negative 42


Estadstica aplicada con R

Modelos unidimensionales continuos

Modelos unidimensionales continuos 43


Estadstica aplicada con R

Distribucin normal

Distribucin normal 44
Estadstica aplicada con R

Distribucin uniforme

Distribucin uniforme 45
Estadstica aplicada con R

Distribucin Beta

Distribucin Beta 46
Estadstica aplicada con R

Distribucin Gamma

Distribucin Gamma 47
Estadstica aplicada con R

Distribucin de Cauchy

Distribucin de Cauchy 48
Estadstica aplicada con R

Distribucin Esponencial

Distribucin Esponencial 49
Estadstica aplicada con R

Distribucin de Weibull

Distribucin de Weibull 50
Estadstica aplicada con R

Distribucin Lognormal

Distribucin Lognormal 51
Estadstica aplicada con R

Distribucin Logstica

Distribucin Logstica 52
Estadstica aplicada con R

Modelos unidimensionales asociados a


distribuciones normales

Modelos unidimensionales asociados a distribuciones normales 53


Estadstica aplicada con R

Distribucin de Pearson

Distribucin @%@blk1@%@ de Pearson 54


Estadstica aplicada con R

Distribucin t de Student

Distribucin t de Student 55
Estadstica aplicada con R

Distribucin F de Snedecor

Distribucin F de Snedecor 56
Estadstica aplicada con R

Modelos multidimensionales

Modelos multidimensionales 57
Estadstica aplicada con R

Distribucin Normal multivariante

Distribucin Normal multivariante 58


Estadstica aplicada con R

Distribucin Multinomial

Distribucin Multinomial 59

Potrebbero piacerti anche