Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Capı́tulo 1 (y más)
I Script.
I Laptop: TRAERLA
Estadı́stica
Preguntas realizadas:
I ¿Cuál es su género? (M: mujer, H: hombre).
I ¿Cuántas horas durmio anoche?
I Elija entre las letras S y Q.
I ¿Cuál es su altura en cm?
I Elija al azar un número entre el 1 y el 10.
I ¿Cuál es la velocidad maxima que ha manejado su auto?
I ¿Cuánto se expande su mano derecha?
I ¿Cuánto se expande su mano izquierda?
I ¿Cuál es su mayor grado obtenido en educación?
datos$Velmax
Segunda forma
datos[,6]
Tercera forma
Velmax
Miremos los datos. Necesitaremos la Guı́a R.
names(datos)
Ejemplo: Censo.
I Unidad observacional o caso: personas.
I Variables: sexo, edad, número de miembros que compone
su familia, ingreso familiar, estado civil, tenencia de
empleo.
Variables
names(datos)
http://www.nytimes.com/interactive/science/
rock-paper-scissors.html?_r=0
¿Siempre se puede muestreo simple?
Asociación-Causación.
¿Cuál es la diferencia?
Asociación-Causación.
QQSSQSQSQSQSSQSSQQSSSSSSSQSQQSQ
QSQSSSQSSQSSSQQSQQQQSSSSQQQSQQQ
QSQSSQSQQQQQSSSQQQSSSSSQQQSSSSS
QQSQQSSSQSQQSQQQSQQSSSQSSQQQSSS
SSQSQQSSSSSQQQSSSSSSSSQSSSSSSSQQ
SSQSQQSQSQQSQQQSSQSSQQQSQSSQSQS
SSS
#frecuencia absoluta
table(SQ)
# Q S
# 84 106
#frecuencia relativa
prop.table(table(SQ))
# Q S
#0.4421053 0.5578947
library(descr) #hace tablas
CrossTable(SQ)
# Cell Contents
#|-------------------------|
#| N |
#| N / Row Total |
#|-------------------------|
#
#| Q | S |
#|---------|---------|
#| 84 | 106 |
#| 0.442 | 0.558 |
#|---------|---------|
Una variable cualitativa: resumenes gráficos
pie(table(SQ))
#diagrama de torta de frecuencias absolutas
title("que letra se elige mas?" )
S
Diagrama de torta para la variable SQ
pie(prop.table(table(SQ)))
#diagrama de torta de frecuencias relativas
title("que letra se elige mas?" )
S
Diagrama de barra para la variable SQ
barplot(table(SQ))
#diagrama de barra de frecuencias absolutas
title("que letra se elige mas?" )
Q S
Diagrama de barra para la variable SQ
barplot(prop.table(table(SQ)))
#diagrama de barra de frecuencias relativas
title("que letra se elige mas?" )
Q S
¿Relativa o absoluta?
M = c(1686,578,414,249,115)
pie(M, labels = c(’Siempre’, ’Casi siempre’,
’A veces’, ’Raramente’, ’Nunca’))
Siempre
Nunca
Raramente
Casi siempre A veces
¿Qué vemos?
Diagrama de torta para cinturón
Otra forma:
M = c(1686,578,414,249,115)
names(M) = c(’Siempre’, ’Casi siempre’,
’A veces’, ’Raramente’, ’Nunca’)
pie(M)
Siempre
Nunca
Raramente
Casi siempre A veces
Diagrama de barra para cinturón
barplot(prop.table(M), names.arg=c(’Siempre’,
’Casi siempre’, ’A veces’, ’Raramente’, ’Nunca’))
title("Cuanto usa el cinturon?")
A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5, byrow=TRUE)
B=prop.table(A, 1)
barplot(B,beside=TRUE,xlab=c("cuantas veces
usan el cinturon"),
legend=c("mujeres","hombres"),
names.arg=c("Siempre", "casi siembre", "a veces",
"raramente","Nunca"))
title("Quien usa mas el cinturon? las mujeres o
los hombres?")
Diagrama de barra adosado. R
Otra forma:
A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5, byrow=TRUE, dimnames =
list(c(’Mujeres’, ’Hombres’),c(’Siempre’,
’Casi siempre’, ’A veces’, ’Raramente’, ’Nunca’)))
B=prop.table(A, 1)
A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5,byrow=TRUE)
B=prop.table(A, 1)
par(mfrow = c(1,2))
B1 = B[1,]
names(B1) = c(’Siempre’, ’Casi siempre’, ’A veces’,
pie(B1, main = ’Mujeres’)
B2 = B[2,]
names(B2) = c(’Siempre’, ’Casi siempre’, ’A veces’,
pie(B2, main = ’Hombres’)
Dos diagramas de torta
Mujeres Hombres
Siempre Siempre
Nunca
Nunca
Raramente
Casi siempre
A veces Raramente
Casi siempre A veces
x = c(.26,.43,.47,.49,.52,.75,.79,.86,.62,.46)
x = c(.26,.43,.47,.49,.52,.75,.79,.86,.62,.46)
> mean(x)
[1] 0.565
> median(x)
[1] 0.505
Otra medida de centralidad
trim
the fraction (0 to 0.5) of observations to be
trimmed from each end of x before the mean
is computed. Values of trim outside that range
are taken as the nearest endpoint.
Calculamos en la compu
[1] 0.56625
Calculamos en la compu
[1] 0.56625
I Varianza muestral:
n
2 1 X
sn−1 = (xi − x̄)2
n−1
i=1
I Desviación estándar:
q
sn−1 = 2
sn−1
I Rango: xmax − xmin .
Preguntas
Velmax[order(Velmax)]
# [1] 30 50 50 55 60 70 70 70 70 75 75
# [12] 75 75 75 75 75 75 75 80 80 80 80
# [23] 80 80 80 80 80 80 80 80 80 80 80
# [34] 80 80 80 80 80 80 82 83 85 85 85
# [45] 85 85 85 85 85 85 85 85 85 85 85
# [56] 85 85 85 85 87 88 90 90 90 90 90
# [67] 90 90 90 90 90 90 90 90 90 90 90
# [78] 90 90 90 90 90 90 90 90 92 94 95
# [89] 95 95 95 95 95 95 95 95 95 95 95
# [100] 95 95 100 100 100 100 100 100 100 100 100
# [111] 100 100 100 100 100 100 100 100 100 101 102
# [122] 102 105 105 105 105 105 105 105 105 105 105
# [133] 109 110 110 110 110 110 110 110 110 110 110
# [144] 110 110 110 110 110 110 110 110 110 110 110
# [155] 112 115 115 115 115 115 115 120 120 120 120
# [166] 120 120 120 120 120 120 120 120 124 125 125
# [177] 125 125 125 125 130 130 130 140 140 140 140
# [188] 145 150 NaN
Una variable cuantitativa: resúmenes numéricos
Para estudiar más resumenes numéricos podemos ordenar los
datos aunque... aún ordenándolos es difı́cil calcular algunas
medidas resumenes:
Velmax[order(Velmax)]
# [1] 30 50 50 55 60 70 70 70 70 75 75
# [12] 75 75 75 75 75 75 75 80 80 80 80
# [23] 80 80 80 80 80 80 80 80 80 80 80
# [34] 80 80 80 80 80 80 82 83 85 85 85
# [45] 85 85 85 85 85 85 85 85 85 85 85
# [56] 85 85 85 85 87 88 90 90 90 90 90
# [67] 90 90 90 90 90 90 90 90 90 90 90
# [78] 90 90 90 90 90 90 90 90 92 94 95
# [89] 95 95 95 95 95 95 95 95 95 95 95
# [100] 95 95 100 100 100 100 100 100 100 100 100
# [111] 100 100 100 100 100 100 100 100 100 101 102
# [122] 102 105 105 105 105 105 105 105 105 105 105
# [133] 109 110 110 110 110 110 110 110 110 110 110
# [144] 110 110 110 110 110 110 110 110 110 110 110
# [155] 112 115 115 115 115 115 115 120 120 120 120
# [166] 120 120 120 120 120 120 120 120 124 125 125
# [177] 125 125 125 125 130 130 130 140 140 140 140
# [188] 145 150 NaN
fivenum(Velmax)
# calcula minimo, primer cuantil, mediana,
# tercer quantil, maximo
boxplot(Velmax)
title(’Boxplot de la variable velocidad maxima’)
140
120
100
80
60
40
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot):
boxplot(Velmax)
title(’Boxplot de la variable velocidad maxima’)
140
120
100
80
60
40
boxplot(Velmax)
title(’Boxplot de la variable velocidad maxima’)
140
120
100
80
60
40
Histograma:
Hacerlo en el pizarrón.
3. Dibujar las alturas. Para calcular la altura del rectángulo
correspondiente a un intervalo de clase, hay que dividir el
porcentaje por la longitud del intervalo.
¿qué pasa si pongo como altura los porcentajes?
Área 200%!!!!
Histograma en escala densidad
Histograma de alturas
Density
0.06
0.00
60 65 70 75
Alturas
¿Qué pasa si cambiamos los intervalos de clase?
summary(Altura)
intervalos = seq(59,78,length=8)
hist(Altura,freq=FALSE,breaks=intervalos,main=
’Histograma de Altura’,xlab=’Altura en pulgadas’)
intervalos = seq(59,78,length=12)
hist(Altura,freq=FALSE,breaks=intervalos,main=
’Histograma de Altura’,xlab=’Altura en pulgadas’)
Histograma de Altura
0.06
Density
0.00
60 65 70 75
Altura en pulgadas
Histograma de Altura
0.00 0.06 0.12
Density
60 65 70 75
Altura en pulgadas
Podemos superponer una estimación de la densidad
hist(Altura,freq=FALSE,main=’Histograma de altura’,
xlab=’Altura en pulgadas’)
lines(density(Altura), col = ’red’)
Histograma de altura
Density
0.06
0.00
60 65 70 75
Altura en pulgadas
¿Qué es más informativo, el boxplot o el histograma?
Qué es más informativo: ¿cómo lo hacemos en la
compu?
resumen = summary(Altura)
intervalos = seq(resumen[1], resumen[6],
length = 15)
par(mfrow = c(2,1))
hist(Altura, freq = FALSE, breaks = intervalos)
boxplot(Altura, horizontal = TRUE)
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
I También gracias a la escala de densidad, el área de un
rectángulo se convierte en porcentaje y el área total es de
100%. El área del histograma que se halla determinada
por dos valores de la variable, proporciona el porcentaje
de casos que caen dentro de ese intervalo.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
I También gracias a la escala de densidad, el área de un
rectángulo se convierte en porcentaje y el área total es de
100%. El área del histograma que se halla determinada
por dos valores de la variable, proporciona el porcentaje
de casos que caen dentro de ese intervalo.
I Pensar la diferencia entre cantidad de población y
densidad de población. Estados Unidos tiene más
habitantes que Holanda pero Holanda tiene más
habitantes por metros cuadrados.
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
I También gracias a la escala de densidad, el área de un
rectángulo se convierte en porcentaje y el área total es de
100%. El área del histograma que se halla determinada
por dos valores de la variable, proporciona el porcentaje
de casos que caen dentro de ese intervalo.
I Pensar la diferencia entre cantidad de población y
densidad de población. Estados Unidos tiene más
habitantes que Holanda pero Holanda tiene más
habitantes por metros cuadrados.
I Donde esta la mediana en el histograma?
Algo más sobre histogramas. Forma.
I Simétrica
I Sesgada a la derecha
I Sesgada a la izquierda
I Acampanada
¿Dónde esta la media y la mediana en el histograma?
library(agricolae)
h = graph.freq(Altura, plot = FALSE)
points = ogive.freq(h, type = ’l’, col = ’red’,
frame = FALSE, xlab = ’Limite de clases’,
ylab = ’Frecuencia acumulada’, main = ’Ojiva’)
grid(col = ’black’)
print(points)
¿Para que la grilla?
Ojiva
0.8
0.6
0.4
0.2
0.0
59.0 63.2 67.4 71.6 75.8 80.0
Limite de clases
¿Para que la grilla?
Ojiva
0.8
0.6
0.4
0.2
0.0
59.0 63.2 67.4 71.6 75.8 80.0
Limite de clases
library(mosaic)
favstats(Altura˜Sexo)
Respuesta de R
Sexo min Q1 median Q3 max mean sd n missing
1 Female 59 63.5 65 67.25 71 65.37379 2.567442 103 0
2 Male 66 70.0 72 73.00 78 71.56322 2.704222 87 0
Muj = Altura[Sexo=="Female"]
Hom = Altura[Sexo=="Male"]
boxplot(Muj,Hom)
# o bien directamente
boxplot(Altura˜Sexo)
Boxplots por categorı́a en R
75
70
65
60
Female Male
Boxplots por categorı́a en R
75
70
65
60
Female Male
Diagramas de dispersión
plot(as.numeric(Sexo), Altura)
points(1:2, c(median(Altura[Sexo == "Female"],
na.rm = T),
median(Altura[Sexo == "Male"])), col = ’red’)
Diagramas de dispersión por categorı́as
75
70
Altura
65
60
75
70
Altura
65
60
¿Qué vemos?
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Histogramas por categorı́a.
Volvamos al histograma de Alturas
0.08
Density
0.04
0.00
60 65 70 75
Altura
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Histogramas por categorı́a.
Volvamos al histograma de Alturas
0.08
Density
0.04
0.00
60 65 70 75
Altura
par(mfrow=c(1,2))
hist(AltM, freq = FALSE,
breaks = intervalos, main = ’Mujeres’, xlab = ’Altura en
ylim = c(0,.2))
Mujeres Hombres
0.20
0.20
Density
Density
0.10
0.10
0.00
0.00
60 70 60 70
AltM AltH
Superpuestos
Superpuestos: ¿cómo lo hacemos en la compu?
library(Sleuth2)
datos = case0202
head(datos)
# Unaffect Affected
# 1 1.94 1.27
# 2 1.44 1.63
# 3 1.56 1.47
# 4 1.58 1.39
# 5 2.06 1.93
# 6 1.66 1.26
Esquizofrenia: ¿una variable o dos?
library(Sleuth2)
datos = case0202
head(datos)
# Unaffect Affected
# 1 1.94 1.27
# 2 1.44 1.63
# 3 1.56 1.47
# 4 1.58 1.39
# 5 2.06 1.93
# 6 1.66 1.26
attach(datos)
names(datos)
boxplot(Unaffect-Affected)
title(’Diferencia entre gemelo no afectado
y gemelo afectado’)
fivenum(Unaffect-Affected)
nuevavar=Unaffect-Affected
fivenum(nuevavar)
SD = tapply(cuantovive,dieta,sd)#sd de
#vida en cada dieta
# n promedio SD
# lopro 56 39.7 6.99
# N/N85 57 32.7 5.13
# N/R40 60 45.1 6.70
# N/R50 71 42.3 7.77
# NP 49 27.4 6.13
# R/R50 56 42.9 6.68
Como resumimos y graficamos los datos? Otra forma
mas directa
library(mosaic)
favstats(cuantovive˜dieta)
Que vemos?
dieta min Q1 median Q3 max mean sd n missing
1 lopro 23.4 35.000 41.05 46.45 49.7 39.68571 6.991695 56 0
2 N/N85 17.9 31.400 33.10 36.40 42.3 32.69123 5.125297 57 0
3 N/R40 19.6 42.275 46.05 50.35 54.6 45.11667 6.703406 60 0
4 N/R50 18.6 37.950 43.90 48.20 51.9 42.29718 7.768195 71 0
5 NP 6.4 24.800 28.90 31.40 35.5 27.40204 6.133701 49 0
6 R/R50 24.2 39.150 43.95 48.35 50.7 42.88571 6.683152 56 0
Conclusiones?
gráficos de cuanto viven los ratones según las dietas
boxplot(cuantovive˜dieta, ylab="meses que vive",
xlab="dieta", col="gray", pch=16,
main="Cuanto vive un raton hembra segun
la dieta de comida")
40
30
20
10
dieta
Varias poblaciones. Una variable cuantitativa con
varias categorı́as
En el archivo
mas_de_boxplot.pdf
#detergentes
detergente = factor(c(rep(1,12),rep(2,12)))
#temperatura
calor = factor(rep(gl(3,4),2))
Detergentes. resumen numérico.
library(mosaic)
favstats(manchas˜detergente+calor)
# .group min Q1 median Q3 max mean sd n
#1 1.1 4 4.75 5.0 5.25 6 5.0 0.8164966 4
#2 2.1 4 4.00 5.0 6.00 6 5.0 1.1547005 4
#3 1.2 7 7.75 8.5 9.75 12 9.0 2.1602469 4
#4 2.2 12 12.00 12.5 13.50 15 13.0 1.4142136 4
#5 1.3 9 9.75 10.5 11.25 12 10.5 1.2909944 4
#6 2.3 10 11.50 12.5 13.00 13 12.0 1.4142136 4
Detergentes. resumen numérico.
library(mosaic)
favstats(manchas˜detergente+calor)
# .group min Q1 median Q3 max mean sd n
#1 1.1 4 4.75 5.0 5.25 6 5.0 0.8164966 4
#2 2.1 4 4.00 5.0 6.00 6 5.0 1.1547005 4
#3 1.2 7 7.75 8.5 9.75 12 9.0 2.1602469 4
#4 2.2 12 12.00 12.5 13.50 15 13.0 1.4142136 4
#5 1.3 9 9.75 10.5 11.25 12 10.5 1.2909944 4
#6 2.3 10 11.50 12.5 13.00 13 12.0 1.4142136 4
¿Conclusiones?
Detergentes. Gráficos.
Podemos graficar un boxplot por cada población (cada
combinación) (6 boxplots).
boxplot(manchas˜detergente+calor)
title(’Cuantas manchas por detergente y calor’)
#por detergente
boxplot(manchas˜detergente)
title(’Manchas por detergente’)
#por calor
boxplot(manchas˜calor)
title(’Manchas por calor’)
Detergentes, ¿qué graficamos?
12
8
8
4
4
1 2 1 2 3
calor detergente
mean of manchas
12
2
10
3 2
10
1 1
mean of
8
6
6
1 2
1 2 3
detergente calor
¿Interacción o no?
boxplot(cuantas˜atrapan*Location)
title(’Cuantas atrapan por lugar y forma’)
45
35
35
25
25
15
15
Chemical Scent Sugar Ground Lower Middle Top
atrapan Location
35
35
Scent Lower
Sugar Middle
Chemical Top
Ground
mean of cuantas
mean of cuantas
30
30
25
25
20
20
Ground Middle Top Chemical Scent Sugar
Location atrapan
¿Hay o no hay interacción?
hist(ALTURA)
Histogram of ALTURA
15
Frequency
10
5
0
ALTURA
Gráficos de cada variable - número CALZADO
hist(PIE)
Histogram of PIE
20
15
Frequency
10
5
0
20 25 30 35 40 45 50
PIE
¿Cómo grafico la relación entre ellas?
Altura vs pie
1.8
1.6
Altura
1.4
1.2
25 30 35 40 45
Pie
¿Qué pasó?
Interpretando un scatterplot
Altura vs pie
1.85
1.75
Altura
1.65
1.55
36 38 40 42 44 46
Pie
SEXO
1.85
femenino
masculino
1.75
Altura
1.65
1.55
36 38 40 42 44 46
Pie
60
50
altura
90
80
70
peso
60
50
altura
Otra forma de agregarle la recta de regresión
60
50
altura
Grafico discriminado por sexo (primera opción)
90
80
70
peso
60
Sexo
50
F
M
altura
Grafico discriminado por sexo (segunda opción)
Discriminado por sexo
plot(altura[sexo==’M’],peso[sexo==’M’],
xlim=c(min(altura),max(altura)),ylim=c(min(peso)-1,
max(peso)+1),col=’blue’,pch=15,xlab=’Altura’,ylab=’peso’)
points(altura[sexo==’F’],peso[sexo==’F’],col=’magenta’,pch=16)
legend(153,89,c(’Varones’,’Mujeres’),pch=c(15,16),col=c(’blue’,’magenta’))
title(’Peso en funcion de altura por sexo’)
modelo1=lm(peso[sexo==’M’]˜altura[sexo==’M’])
modelo2=lm(peso[sexo==’F’]˜altura[sexo==’F’])
abline(modelo1,xlim=c(min(altura[sexo==’M’]),
max(altura[sexo==’M’])),col=’black’)
abline(modelo2,,col=’red’)
Varones
Mujeres
80
70
peso
60
50
Altura
Otro ejemplo: Lagos de Florida
¿Cómo gráfico?
Imagen positiva de un presidente vs. reelección
¿Cómo gráfico?
Interpretación
Notación:
I La correlación entre dos variables cuantitativas de una
muestra se suele denotar por r .
I La correlación entre dos variables cuantitativas de una
población suele denotarse por ρ.
Propiedades de la correlación
I −1 ≤ r ≤ 1
I El signo de r indica la dirección de asociación
I Valores de r cercanos a 1 o a -1 muestran fuerte relación
lineal, mientras que valores de r cercanos a 0 muestran no
relación lineal
I La correlación r no tiene unidades y es independiente de
la escala de cada variable
I La correlación es simétrica. La correlación entre x e y es
la misma que entre y y x
Fórmula para calcular la correlación
En la computadora:
cor(x,y)
De los grillos y la temperatura.
r = .99. Wauuuuu.
De los grillos y la temperatura.
Es siempre siempre importante hacer un gráfico quizas antes
de calcular la correlación para hacer conjeturas (ya veremos
pronto porque).
Cuidados con la correlación I
La figura siguiente muestra la esperanza de vida media (en
años) de una muestra de 40 paises vs el promedio de grasa en
la comida de cada paı́s (medida en gramos por capita por dı́a).
Ejemplo 2.36 Lock.
Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
Repaso. Según la pregunta de interés podemos tener
Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
resumen gráficos: barra, torta.
Repaso. Según la pregunta de interés podemos tener
Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
resumen gráficos: barra, torta.
I Dos variables. Resumen: tablas de contingencia.
Porcentaje por celda, por filas, por columnas. Si una
variable es respuesta y la otra predictora se deben hacer
porcentajes por cada categorı́a de la variable predictora
Repaso. Según la pregunta de interés podemos tener
Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
resumen gráficos: barra, torta.
I Dos variables. Resumen: tablas de contingencia.
Porcentaje por celda, por filas, por columnas. Si una
variable es respuesta y la otra predictora se deben hacer
porcentajes por cada categorı́a de la variable predictora
gráficos: diagrama de barra adosado o apilado. Siempre
poner porcentaje en el eje y.
Variables cuantitativas
I Una variable:
Resumen grafico: una medida de centro (media, mediana)
y una medida de variabilidad (desvio estandard, rango
intercuartilico, entre otros)
Resumen grafico: si es discreta se puede hacer lo que se
hace para cualitativas. Si es continua se puede hacer
diagrama de caja, histogramas
Variables cuantitativas
I Una variable:
Resumen grafico: una medida de centro (media, mediana)
y una medida de variabilidad (desvio estandard, rango
intercuartilico, entre otros)
Resumen grafico: si es discreta se puede hacer lo que se
hace para cualitativas. Si es continua se puede hacer
diagrama de caja, histogramas
I Dos variables cuantitativas: scatterplot
Una variable cuantitativa (respuesta) con una variable
categórina (predictores)
I Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de la variable predictora.
I Diagramas de caja por categorı́a o histograma por cada
categorı́a. O diagrama de dispersion. (cuando son pocos
datos)
Una variable cuantitativa (respuesta) con una variable
categórina (predictores)
I Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de la variable predictora.
I Diagramas de caja por categorı́a o histograma por cada
categorı́a. O diagrama de dispersion. (cuando son pocos
datos)
Una variable cuantitativa (respuesta) con dos variable
categórina (predictores)
Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de cada uno de los cruces de
las variables predictoras.
Resumen grafico: boxplots e Interaction plots