Analisis Exploratorio de Datos

Probabilidad y Estadı́stica
Cátedra de Probabilidad y Estadı́stica
Facultad de Ingenierı́a Quı́mica

Universidad Nacional del Litoral
Análisis exploratorio de datos
Capı́tulo 1 (y más)
del libro de Walpole, Myers, Myers y Ye

Sobre la materia.
I Teorı́as, prácticas, horarios de consultas, cronograma,
novedades y todo lo necesario para el cursado de la
materia estará en el Entorno Virtual (EV):
http://entornovirtual.unl.edu.ar - FIQ - PyE - pye2014-1
I También el EV será un medio de comunicación donde

tendrán el foro para hacer preguntas tanto a los docentes
como a sus propios compañeros.
I Por favor, agreguen su nombre completo y una foto (si es

posible) para tener la lista para el cursado.
I La Guı́a R es una guı́a del software que utilizaremos en

clase donde está todo lo que necesitarán para la materia,
les será muy útil por lo que es conveniente traerla impresa
a las clases.
Sobre la materia.
I Para las clases en necesario que los alumnos que tengan

laptops la traigan, los que no armaremos una lista en el
EV para pedir las de la Facultad, que deberán ser retiradas
en Bedelı́a con su d.n.i
I Las transparencias NO son un material de estudio, el libro
que utilizaremos es el WALPOLE R.E., MYERS R.H.,
MYERS S.H., y Ye K. Probabilidad y Estadı́stica para
Ingenierı́a y Ciencias. Ed. Prentice Hall. Octava edición,
2007. Está en biblioteca.
I Importantı́simo: Cuidar las laptops de la Facultad como
si fueran propias, devolverlas siempre en buenas
condiciones, dentro de su estuche, con sus respectivos
cables. Es un privilegio contar con laptops para las clases,
cuidémoslas para que futuros compañeros puedan
utlizarlas o ustedes mismos en futuras materias. Gracias!
Promoción y Regularización de la materia.
I Regularidad: Tres controles de regularidad. Deberá

obtener al menos 50 por ciento en cada control y un
promedio de al menos 58 puntos entre los tres. Además
debe tener 80 por ciento de asistencia. Algunas
asistencias con entrega de ejercicios.
I Promoción: Tres parciales con peso 30-30-40: El alumno

sera promovido si consigue obtener 58 puntos al menos en
total y en cada parciales debe obtener al menos 50 puntos.
El alumno debe ser regular para promocionar la materia.
I Comisiones de 120 hs. y 90hs.
I Como son los parciales y los controles.

Fechas de parciales y controles, importante
I Fecha de parciales. Primero: sábado de la semana cuarta

(10 horas)
Segundo: viernes de la semana 9 (17 horas)
Tercero: viernes de la semana 15 (17 horas)
I Fecha de controles
Primero: sábado de la semana cuarta (9 horas)
Segundo: semana 7 (en la practica)
Tercero: semana 13 (en la practica)
I Código de honor en Parciales y Controles.

¿Qué más se necesita para la materia?
I Instalar R (ver en el EV las instrucciones).
I Instalar los paquetes (Sección 2 de la guı́a R)
I Copiar los datos y traerlos todas las clases (puede ser en

un pen drive si usa compu de la facultad).
I Script.
I Laptop: TRAERLA
Estadı́stica
Es la ciencia de recolectar, describir

y analizar datos.
Recolectar
Los datos pennstate.csv corresponden a una encuestra

realizada en a 190 estudiantes de una clase de estadı́stica en
una Universidad de USA.
Estas son las primeras filas de los datos:

Sexo Dormida SQ Altura numeroAleatorio Velmax amplmanoderecha amplmanoizquierda SoQ
Female 8 Q 63.5 7 30 21 21 QorS
Female 4 Q 67 7 50 18 18 QorS
Female 5 S 67 6 50 21.5 21.5 QorS
Female 7 S 64 8 70 18 17.5 SorQ
Female 10 Q 70 6 70 19 19 QorS
Female 7 S 66 4 70 20 21 SorQ
Female 8 Q 64 6 70 21 21 SorQ
Female 7 S 63 7 75 19 19 SorQ
Female 8 Q 65.5 3 75 19 19.5 SorQ
Female 5 S 65 8 75 20 19 SorQ
Female 6.5 Q 65 6 75 20 20.5 QorS
Female 6 S 68 4 75 20.5 20.5 SorQ
Female 7 S 69 7 75 21 21.5 SorQ
Nombres
I Unidades o casos: los sujetos u objetos de los cuales

hemos obtenido información.
I Variable: es cualquier caracterı́stica de los casos o

unidades.
Cuáles son las unidades y cuáles las variables?
Explicar que nos dice cada variable del primer estudiante.

Sexo Dormida SQ Altura numeroAleatorio Velmax amplmanoderecha amplmanoizquierda SoQ
Female 8 Q 63.5 7 30 21 21 QorS
Female 4 Q 67 7 50 18 18 QorS
Female 5 S 67 6 50 21.5 21.5 QorS
Female 7 S 64 8 70 18 17.5 SorQ
Female 10 Q 70 6 70 19 19 QorS
Female 7 S 66 4 70 20 21 SorQ
Female 8 Q 64 6 70 21 21 SorQ
Female 7 S 63 7 75 19 19 SorQ
Female 8 Q 65.5 3 75 19 19.5 SorQ
Female 5 S 65 8 75 20 19 SorQ
Female 6.5 Q 65 6 75 20 20.5 QorS
Female 6 S 68 4 75 20.5 20.5 SorQ
Female 7 S 69 7 75 21 21.5 SorQ
¿Cómo se obtuvo esta tabla?
Preguntas realizadas:
I ¿Cuál es su género? (M: mujer, H: hombre).
I ¿Cuántas horas durmio anoche?
I Elija entre las letras S y Q.
I ¿Cuál es su altura en cm?
I Elija al azar un número entre el 1 y el 10.
I ¿Cuál es la velocidad maxima que ha manejado su auto?
I ¿Cuánto se expande su mano derecha?
I ¿Cuánto se expande su mano izquierda?
I ¿Cuál es su mayor grado obtenido en educación?
¿Cómo obtuvieron ese archivo con los datos?

Miremos los datos en R. Necesitaremos la Guı́a R.
# leer los datos: ir al directorio correcto o

# directamente importarlos desde Rstudio
datos = read.csv(’pennstate.csv’, header = TRUE,

sep = ’,’)
# con la sentencia header = T le estamos diciendo

# que los datos tienen encabezado,
# si no hacemos esto toma el encabezado como
# una linea mas de los datos
De como leer una columna (ejemplo columna Velmax)
Primera forma
datos$Velmax
Segunda forma
datos[,6]
Tercera forma
#suelta las columnas

attach(datos)
#ahora las puedo llamar con su nombre
Velmax
Miremos los datos. Necesitaremos la Guı́a R.
names(datos)
# nos da los nombres de las variables
#[1] "Sexo" "Dormida"

#[3] "SQ" "Altura"
#[5] "numeroAleatorio" "Velmax"
#[7] "amplmanoderecha" "amplmanoizquierda"
#[9] "SoQ"
Más sobre como mirar los datos. Necesitaremos la
Guı́a R.
head(datos) #miro los primeros alumnos
# Sexo Dormida SQ Altura numeroAleatorio

#1 Female 8 Q 63.5 7
#2 Female 4 Q 67.0 7
#3 Female 5 S 67.0 6
#4 Female 7 S 64.0 8
#5 Female 10 Q 70.0 6
#6 Female 7 S 66.0 4
# Velmax amplmanoderecha amplmanoizquierda SoQ
#1 30 21.0 21.0 QorS
#2 50 18.0 18.0 QorS
#3 50 21.5 21.5 QorS
#4 70 18.0 17.5 SorQ
#5 70 19.0 19.0 QorS
#6 70 20.0 21.0 SorQ
Variables
Una variable es una caracterı́stica que cambia de una persona

(o ente a estudiar) a otra dentro del marco de cualquier estudio.
Ejemplo: Censo.
I Unidad observacional o caso: personas.
I Variables: sexo, edad, número de miembros que compone
su familia, ingreso familiar, estado civil, tenencia de
empleo.
Variables
En el ejemplo del Censo tenemos diferentes tipos de variables:

edad, número de miembros que compone la familia, ingreso
familiar, que son variables que tienen valores numéricos,
mientras que sexo, estado civil, tenencia de empleo no.
I Las variables que tienen como posibles valores números
se llaman variables numéricas o cuantitativas.
I Las variables cuyos valores posibles no son números se
llamaman variables cualitativas o categóricas.
Cuidado: Podemos utilizar números sin embargo todavı́a
es una variable cualitativa.
Variables-Clasificación
I Variables cuantitativas o numéricas.

I Discretas: sus valores solo pueden diferir en una cantidad
fija. Edad (si se mide en años), cantidad de miembros en la
familia. ¿Más ejemplos?
I Continuas: toman cualquier valore en los reales o un
intervalos de los reales. Altura. Ingreso.
I Variables cualitativas o categóricas.
I Variables ordinales: tienen un orden en las categorı́as.
Ejemplo: me gusta mucho, me gusta, neutral, disgusta,
extremadamente disgustante.
I Nominales: no tienen un orden natural en las categorı́as.
¿Ejemplos que hayamos visto?
Clasificar las variables del conjunto de datos
pennstate
names(datos)
# nos da los nombres de las variables
#[1] "Sexo" "Dormida"

#[3] "SQ" "Altura"
#[5] "numeroAleatorio" "Velmax"
#[7] "amplmanoderecha" "amplmanoizquierda"
#[9] "SoQ"
¿Para qué los datos?
Para investigar, contestar preguntas, estudiar la relación entre
variables. Ejemplo de preguntas de interés en pennstate:
I ¿qué porcentaje de mujeres toman el curso de
estadı́stica? ¿Variables involucradas?
I ¿Cuál es el promedio de la velocidad máxima? ¿Variables
involucradas?
I ¿Hay más estudiantes que eligen números menores que 5
o mayores que 5? ¿Variables involucradas?
I ¿Cómo es el promedio de velocidad máxima de los
hombres comparado con el promedio de velocidad
máxima de las mujeres? ¿Variables involucradas?
I ¿Cuál es la relación entre la altura y la amplitud de la
mano derecha? ¿Variables involucradas?
I ¿Quiénes duermen más en promedio? ¿Mujeres o
hombres? ¿Variables involucradas?
I ¿Quiénes son más altos? ¿Mujeres o hombres?
¿Variables involucradas?
Variable predictora vs. respuesta
En los ejemplos de que involucramos más de una variable,

¿cuál es la variable explicativa o predictora y cuál la respuesta?
Cuando usamos una variable para ayudar a entender o

predecir otra variable, llamamos a la primera explicativa o
predictora y a la segunda variable respuesta.
¿Usar los datos para qué?: para responder una pregunta.

¿Cómo?
Muestrando desde una población y poblaciones
Población: incluye todos los individuos u objeto de interés.

¿Cómo contestamos las preguntas de interés?
Muestra: es un subconjunto de una población. ¿Cualquier

subconjunto? Pensar en las elecciones. Tamaño de la muestra:
cantidad de individuos en la muestra. Suele denotarse con n.
Inferencia estadı́stica: es el proceso de usar datos de una

muestra para ganar información sobre la población y poder
contestar las preguntas de interés. ¿Inferencia es certeza?
Ejemplo de las elecciones para intendente municipal.
gráfico y no olvidar
Ejemplo pennstate
I Las medidas estas fueron tomadas de un conjunto de una
población, esto es entonces una muestra. Cuando todos
los individuos de una población son medidos entonces los
datos son datos poblacionales.
I La diferencia es, si tenemos datos poblacionales

describimos los datos. Si tenemos un subconjunto de la
población tenemos datos muestrales y estudiamos
descripcion de los datos para luego saber que
herramientas estadı́stica usar para hacer inferencias.
I Importancia de datos muestrales vs. datos poblacionales

(alcance de cada uno de ellos). Importancia que la
muestra sea representativa de la población para hacer
inferencia. Ejemplo de elecciones municipales. Gráfico de
inferencia y de ciclo en la estadı́stica.
Si tenemos las siguientes preguntas, ¿cómo
recolectamos una muestra?
I ¿Qué porcentaje de personas se lava las manos después

de usar baños públicos?
I ¿Hay una relación entre la altura de los padres y la altura
de las madres?
I ¿Quiénes son más altos, las mujeres o los hombres?
Sesgo
El dı́a después de las elecciones presidenciales de 1948 en

estados unidos, el Chicago Tribune escribió: Gano Dewey. Sin
embargo después del recuento de los votos (era más lento ahı́)
ganó Truman. El diario saco esa información luego de hacer
una encuesta telefónica que mostraba que Dewey arrasaba.
I ¿Cuál es la muestra y cual la población?
I ¿Qué querı́an inferir a partir de la encuesta?
I ¿Por qué se equivocaron tanto?
Sesgo
El dı́a después de las elecciones presidenciales de 1948 en

estados unidos, el Chicago Tribune escribió: Gano Dewey. Sin
embargo después del recuento de los votos (era más lento ahı́)
ganó Truman. El diario saco esa información luego de hacer
una encuesta telefónica que mostraba que Dewey arrasaba.
I ¿Cuál es la muestra y cual la población?
I ¿Qué querı́an inferir a partir de la encuesta?
I ¿Por qué se equivocaron tanto?
Sesgo en la muestra: ocurre cuando el método de
seleccionar la muestra causa que la muestra sea diferente
de la población. Si existe sesgo muestral, entonces no
podemos confiar en la generalización de los resultados de la
muestra a la población.
Procedimientos de muestreo, recopilación de datos
Muestreo aleatorio simple: Tengo una población definida. El

muestreo aleatorio simple implica que cualquier miembro de la
población tiene la misma probabilidad de estar en la muestra
de tamaño n (¿cómo se hace esto?, pensar como uno
muestrea la sopa). ¿Podemos hacer siempre una muestra
aleatorio (enumerar la población)?
Diseño experimental: El diseño experimental es una técnica

estadı́stica que permite identificar y cuantificar las causas de
un efecto dentro de un estudio experimental. En un diseño
experimental se manipulan deliberadamente una o más
variables, vinculadas a las causas, para medir el efecto que
tienen en otra variable de interés. Es para estudiar
causa-efecto. ¿Ejemplos?
¿Porqué asignar unidades experimentales al azar?
I ¿Cuál es el posible impacto negativo de no asignar
aleatoriamente a las unidades experimentales a los
tratamientos o combinaciones de tratamiento? Esto se ve
más claramente en la caso de los medicamentos del
estudio. Entre las caracterı́sticas de los pacientes que
producen variabilidad en los resultados son la edad, sexo
y peso.
I Supongamos simplemente por casualidad el grupo de
placebo contiene una muestra de personas que son
predominantemente más pesado que aquellos en el grupo
de tratamiento, ¿qué pasa si el grupo tratamiento no
muestra mejorı́as? ¿a qué es debido?
I Si esto sucede, cualquier resultado obtenido a través de la
aplicación de la inferencia estadı́stica puede tener poco
que ver con la droga y más que ver con las diferencias en
el peso entre las dos muestras de los pacientes.
Tire la moneda, no crea que usted no tiene patrones
Ver Piedra papel y tijera:
http://www.nytimes.com/interactive/science/
rock-paper-scissors.html?_r=0
¿Siempre se puede muestreo simple?
Asociación-Causación.
Comencemos con dos definiciones:
Asociación: Dos variables están asociadas si el valor de una

de las variables se relaciona (conecta) con el valor de la otra.
Ejemplos: altura y peso.
Causa: Dos variables están asociadas por causalidad si el

cambio de una variable influye en el valor de la otra variable.
Ejemplos: horas de estudio y nota en un examen, ejercicio y
pérdida de peso, tomar un medicamento y la prevención de
cierta enfermedad.
¿Cuál es la diferencia?
Asociación-Causación.
I Un estudio muestra que hay una asociación negativa entre

la ansiedad de un estudiante antes de un examen y la nota
obtenida. Pero no podemos decir que la ansiedad causa
una nota más baja, podrı́a haber otras razones (el
estudiante quizá no estudió bien), entonces aquı́ la
asociación no implica causalidad.
I Hay una asociación positiva entre el número de horas que
el alumno pasa estudiando y la calificación que obtiene.
Aquı́, si hay causalidad: si el alumno pasa más tiempo
estudiando, resultará en una calificación más alta.
Diferencia entre Asociación y Causalidad. Ejemplo
1.22.
Para cada uno de las siguientes ejemplos, indique si existe
ninguna Asociación entre las variables, Asociación sin implicar
causalidad, o Asociación con causalidad. Si hay causalidad,
indicar cual variable es la explicativa y cual la respuesta.
1. Los estudios muestran que tomar un examen de práctica
aumenta su puntuación en un examen.
1.22.
aumenta su puntuación en un examen. Causa.
1.22.
2. Las familias con muchos coches tienden a tener muchos
televisores.
1.22.
televisores. Asociación.
1.22.
3. Las ventas son las mismas, incluso con diferentes niveles
de gasto en publicidad.
1.22.
de gasto en publicidad. No asociación.
1.22.
4. Tomar una dosis baja de aspirina al dı́a reduce el riesgo
de ataques al corazón.
1.22.
de ataques al corazón. Causa.
1.22.
5. Los peces que viven en grandes estanques son
generalmente más grandes que aquellos que viven en
pequeños estanques.
1.22.
pequeños estanques. Asociación.
1.22.
pequeños estanques. Asociación.
Variables confundidas
La correlación y la causalidad están estrechamente

relacionadas con las variables de confusión:
Una variable confundida, es una tercera variable que

esta asociada con la variable predictora y la respuesta.
Una variable confundida puede ofrecer una explicación
posible para la asociación entre dos variables de interés.
Ejemplo: Venta helados-muertos ahogados.

¿Causa o no causa?
¿Cuándo podemos establecer estadı́sticamente que una

asociación representa una relación causal?
La clave esta en como recolectamos los datos.
Si queremos estudiar como la variable predictora influye en la

variable respuesta, tenemos que ser capaces de establecer y
controlar los valores de la variable predictora para estar seguro
que no esta asociada con ninguna potencial variable de
confusion. OJO: manipulamos las variables predictoras.
Esto son los diseños de experimentos. Pero podemos siempre

hacer diseño de experimentos? NO. ¿EJEMPLO?
Estudios observacionales
Cuando los datos están dados y no hemos realizado un

experimento controlado.
I Ejemplo: entre fumadores y no fumadores estudiamos

cuantos tuvieron cancer y cuantos no. ¿Podı́amos hacer
un análisis de experimento?
Escuchar a Hans Rosling sobre correlación.
I Cuando entre los estudiantes que decidieron estudiar las

diferentes ingenierı́as vemos cuales son más altos.
¿Podrı́amos hacer un análisis de experimento?
Leer articulo paraninfo.
Estudios observacionales vs. diseño de experimentos
I Supongamos que la calidad de un proceso dependa de las
condiciones del proceso, temperatura, humedad, cantidad
de un ingrediente particular, y ası́ sucesivamente.
Entonces estos factores se pueden mover de forma
sistemática en diferentes niveles y ver luego como es la
respuesta calidad para cada nivel. A esto se lo llama un
diseño experimental.
I Un cientı́fico forestal que está interésado en un estudio de
los factores que influyen en la densidad de la madera en
un cierto tipo de árbol no puede necesariamente diseñar
un experimento. Este caso puede requerir un estudio
observacional en el que se recogen datos en el campo,
pero los niveles de factor no puede ser preseleccionada.
Diseños de experimentos y Estudios observacionales
se prestan a los métodos de inferencia estadı́stica.
Diseños de experimentos: la calidad de las inferencias

dependerá de una planificación adecuada del experimento.
Estudio observacional: El cientı́fico está a merced de lo que
pueda ser recogida. Por ejemplo, es triste que un ingeniero
agrónomo está interésado en estudiar el efecto de las lluvias el
rendimiento de la planta y los datos se reunieron durante una
sequı́a.
Hacer especial énfasis en la diferencia entre diseños y

estudios observacionales e inferencias. Ejemplo de
estudios observacionales donde se puede estudiar solo
relación y no causa consecuencia, vs diseños. Fabricar
ejemplos en la clase sobre el problema
Resúmenes numéricos y gráficos. ¿Cuándo?
SIEMPRE
I Hay momentos en que un cientı́fico sólo desea obtener

algún tipo de resumen de un conjunto de datos
representados en la muestra. O se tiene los datos de toda
la población y no necesitamos hacer inferencia (contestar
a una pregunta) (¿Ejemplo?) .
I O se quiere hacer inferencia (contestar una pregunta) pero

antes es necesario ver qué nos dicen los datos. Esto se
llama Análisis exploratorio de datos.
Gráficos
Análisis exploratorio de datos consiste en resumen

numérico y gráfico de los datos. Estos números y gráficos
nos dan una sensación de donde estan centrados los
datos, la variabilidad de ellos, la naturaleza de la
distribución de los datos. Esto se llama estadı́stica
descriptiva, y deberı́an mostrar la huella de la naturaleza
de la muestra.
A veces también se realizan gráficos luego de hacer el

análisis estadı́stico de los datos y son para mostrar a la
comunidad cientı́fica o a la población en general
información.
Objetivos de los gráficos y resúmenes estadı́sticos
I Análisis exploratorio de datos (EDA) es un enfoque para el

análisis de conjuntos de datos para resumir sus
principales caracterı́sticas y entender la forma, a menudo
con gráficos visuales, sin necesidad de utilizar un modelo
estadı́stico o haber formulado con anticipación una
hipótesis. El análisis exploratorio de datos fue promovida
por John Tukey para alentar a los estadı́sticos y cientı́ficos
a examinar visualmente sus conjuntos de datos, formular
hipótesis que pueden ser luego probadas con
herramientas estadı́sticas. SIEMPRE HACERLO.
I Luego de realizar la inferencia estadı́stica, se debe
presentar los datos de manera adecuada y resumida
mediante tablas y gráficos. SIEMPRE HACERLO.
Objetivos gráficos
I El educacional o comunicacional a traves de resúmenes y
gráficos. Este podemos decir que comenzo el filosofo Otto
Neurath en 1930 con el ISOTYPE.
I Puede reconocerse un resurgimiento en divulgadores

como Edward Tufte, Hans Rosling, Yuri Engelhardt que
trabajan en disciplinas conocidas actualmente como
infographics, visual analytics, data visualization,
information design.
I Los trabajos y programas surgidos de estas propuestas

comparten el espı́ritu de lenguaje universal y revelador
que puede adquirir la popularización del conocimiento
para un desarrollo social progresivo.
Ver ilustracion de un Isotype de 1930, ver video de Hans
Rosling: the joy of statistics de 2009. Videito de infographics
(como contar algo sin palabras). Podremos hacerlo?
Análisis exploratorio de datos.
El análisis exploratorio de datos (AED) es:
I Organización, sı́ntesis y presentación de datos y ver las

posibles respuestas a las preguntas.
I Trabajo de detective. Formular nuevas hipótesis.
I No puede ser visto como el total de la historia cuando
tengo una muestra o un subconjunto de la población, pero
es el primer paso (y no menor).
Más sobre AED
El AED se basa fundamentalmente en las siguientes

estrategias:
I Hacer cuadros de resumenes numéricos de cada

variables.
I Graficar cada variable.
I Examinar cada variable de forma independiente. Luego,
pasar al estudio de las relaciónes entre las variables.
Más sobre AED
El AED se basa fundamentalmente en las siguientes

estrategias:
I Hacer cuadros de resumenes numéricos de cada

variables.
I Graficar cada variable.
I Examinar cada variable de forma independiente. Luego,
pasar al estudio de las relaciónes entre las variables.
¿Qué hay después del análisis exploratorio

de datos?: La inferencia estadı́stica. Y luego
vuelta a los gráficos para presentar los
resultados.
ANALISIS EXPLORATORIO DE DATOS
Depende como sea la pregunta de interés que tipo de variable

tenemos que estudiar para tratar de contestar a la pregunta.
Antes de contestar estadı́sticamente a esta pregunta haremos

resúmenes numéricos y gráficos que nos ayuden a contestar
exploratoriamente la pregunta de interés. Estos resúmenes
numéricos y gráficos dependen de la naturaleza de la/s
variable/s de interés.
Esto es lo que estudiaremos a continuación.

Una variable cualitativa: resumenes numéricos
Tomaremos primero la variable: Letra elegida al azar: Miremos

los datos crudos:
QQSSQSQSQSQSSQSSQQSSSSSSSQSQQSQ
QSQSSSQSSQSSSQQSQQQQSSSSQQQSQQQ
QSQSSQSQQQQQSSSQQQSSSSSQQQSSSSS
QQSQQSSSQSQQSQQQSQQSSSQSSQQQSSS
SSQSQQSSSSSQQQSSSSSSSSQSSSSSSSQQ
SSQSQQSQSQQSQQQSSQSSQQQSQSSQSQS
SSS
Pregunta: ¿se elige más la Q o la S?

Una variable cualitativa: resumenes numéricos
Letra elegida al azar.

I ¿Cómo resumimos estos datos? Hacemos lo que se llama
tabla de frecuencia.
I Frecuencia es la cantidad de observaciones que caen en
cada categorı́a. ¿Cómo hago a mano con la variable letra
elegida al azar?
I Frecuencia relativa es el porcentaje de observaciones que
caen en cada categorı́a. ¿Cómo hago a mano con la
variable letra elegida al azar?
Una distribución de frecuencias relativas es una lista de todas

las categorı́as con sus frecuencias relativas.
Distribución de frecuencias absolutas
Datos pennstate.txt. Variable: letra elegida al azar entre Q y S:
#frecuencia absoluta
table(SQ)
# Q S
# 84 106
#frecuencia relativa
prop.table(table(SQ))
# Q S
#0.4421053 0.5578947
library(descr) #hace tablas
CrossTable(SQ)
#hace frecuencia absoluta y frecuencia relativa
# Cell Contents
#|-------------------------|
#| N |
#| N / Row Total |
#|-------------------------|
#
#| Q | S |
#|---------|---------|
#| 84 | 106 |
#| 0.442 | 0.558 |
#|---------|---------|
Una variable cualitativa: resumenes gráficos
I Diagrama de torta. Útil cuando no hay muchas categorı́as

o cuando se quieren comparar varias categorı́as entre si.
pie en R
I Diagrama de barra. Útil cuando se tiene una o más

variables categóricas o cuando se tienen dos variables
categóricas que se desea comparar.
barplot en R
Diagrama de torta para la variable SQ
pie(table(SQ))
#diagrama de torta de frecuencias absolutas
title("que letra se elige mas?" )
Que letra se elige mas?
S
Diagrama de torta para la variable SQ
pie(prop.table(table(SQ)))
#diagrama de torta de frecuencias relativas
S
Diagrama de barra para la variable SQ
barplot(table(SQ))
#diagrama de barra de frecuencias absolutas

100
80
60
40
20
0
Q S
Diagrama de barra para la variable SQ
barplot(prop.table(table(SQ)))
#diagrama de barra de frecuencias relativas

0.5
0.4
0.3
0.2
0.1
0.0
Q S
¿Relativa o absoluta?
¿Qué usamos, frecuencias absolutas o

relativas?
¿Relativa o absoluta?
¿Qué usamos, frecuencias absolutas o

relativas?
RESPUESTA CORRECTA: RELATIVAS

Más categorı́as.
Datos de cinturón de seguridad para chicos de 2 años:
Respuesta Cantidad Porcentaje

Siempre 1686 55.4%
Casi siempre 578 19.0%
A veces 414 13.6%
Raramente 249 8.2%
Nunca 115 3.8%
TOTAL 3042 100 %
¿Cuáles son los datos crudos? ¿Resumen numérico? ¿Tabla

de frecuencia? ¿Qué nos dieron?
Más categorı́as.
Datos de cinturón de seguridad para chicos de 2 años:
Respuesta Cantidad Porcentaje

Siempre 1686 55.4%
Casi siempre 578 19.0%
A veces 414 13.6%
Raramente 249 8.2%
Nunca 115 3.8%
TOTAL 3042 100 %
¿Cuáles son los datos crudos? ¿Resumen numérico? ¿Tabla

de frecuencia? ¿Qué nos dieron?
A partir de estos porcentajes haremos un diagrama de torta y

el diagrama de barras usando R tratando de contestar a la
pregunta: ¿cuánto se usa el cinturón de seguridad?
Diagrama de torta para cinturón
M = c(1686,578,414,249,115)
pie(M, labels = c(’Siempre’, ’Casi siempre’,
’A veces’, ’Raramente’, ’Nunca’))
Siempre
Nunca
Raramente
Casi siempre A veces
¿Qué vemos?
Diagrama de torta para cinturón
Otra forma:
M = c(1686,578,414,249,115)
names(M) = c(’Siempre’, ’Casi siempre’,
’A veces’, ’Raramente’, ’Nunca’)
pie(M)
Siempre
Nunca
Raramente
Diagrama de barra para cinturón
barplot(prop.table(M), names.arg=c(’Siempre’,
’Casi siempre’, ’A veces’, ’Raramente’, ’Nunca’))
title("Cuanto usa el cinturon?")
Cuanto usa el cinturon?

0.4
0.2
0.0
Siempre A veces Raramente Nunca
¿Qué se ve? ¿Cuál parece más informativo?

Diagrama de barra apilado para cinturón
M = matrix(c(1686,578,414,249,115), ncol = 1)
names(M) = c(’Siempre’, ’Casi siempre’, ’A veces’,
’Raramente’, ’Nunca’)
barplot(prop.table(M)) #diagrama de barra apilado
title("Cuanto usa el cinturon?")
Cuanto usa el cinturon?

1.0
0.8
0.6
0.4
0.2
0.0
Una variable cualitativa: resumen
Si la variable de interés es cualitativa:
Resumen numérico: Tabla de frecuencias relativas por

categorı́as.
Resumen gráfico: Gráfico de torta o barras.

Dos variables cualitativas: resúmenes numéricos y
gráficos
¿Qué pasa ahora si además tenemos el género de los

estudiantes?
¿Qué otra información podemos extraer? Es cierto el
estereotipo: los hombres son más propensos a tener
comportamientos riesgosos que las mujeres?
Resumir y mostrar datos resultantes de medir dos variables
categóricas es fácil: simplemente se debe contar el número de
individuos que hay en cada combinación de categorı́as y
presentar la tabla con el conteo. Tal representación es llamada
tabla de contingencia porque consideran todas las
combinaciones de las dos variables. Cada combinación de fila
y columna es llamada una celda.
Más sobre el cinturón de seguridad
Algunas veces una de las variables es la variable explicativa y

la otra variable es la respuesta (no siempre). En estos casos
es la convención de poner la explicativa en las filas y la
respuesta en las columnas.
Es importante la distinción porque en general queremos saber

que porcentaje de la respuesta (si o no) cae en cada nivel de la
variable categórica.
Siempre Casi siempre A veces Raramente Nunca Total

Mujer 915 276 167 84 25 1467
(62.4 %) (18.8%) (11.4%) (5.7 %) (1.7%) (100 %)
Hombre 771 302 247 165 90 1575
(49.0 %) (19.2%) (15.7%) (10.5 %) (5.7%) (100 %)
Total 1686 578 414 249 115
(100 %) (100%) (100%) (100 %) (100%)
¿Qué suma 100%? ¿PORQUÉ?
¿Podemos de esta tabla inferir algo? ¿Cómo representamos

gráficamente a estos datos?
Diagrama adosado: Son usados para presentar datos para

dos variables categóricas.
Importante: elegimos en el eje horizontal poner para cada
grupo cuánto usa el cinturón (¿nuestra variable respuesta?) y
en el eje vertical los porcentajes en lugar de cantidades (muy
muy importante, ¿porqué?)
Dos diagramas de torta: ¿Sirve?

Diagrama de barra adosado. R
## ejemplo de dos variables cualitativas
A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5, byrow=TRUE)
B=prop.table(A, 1)
barplot(B,beside=TRUE,xlab=c("cuantas veces
usan el cinturon"),
legend=c("mujeres","hombres"),
names.arg=c("Siempre", "casi siembre", "a veces",
"raramente","Nunca"))
title("Quien usa mas el cinturon? las mujeres o
los hombres?")
Diagrama de barra adosado. R
Otra forma:
A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5, byrow=TRUE, dimnames =
list(c(’Mujeres’, ’Hombres’),c(’Siempre’,
’Casi siempre’, ’A veces’, ’Raramente’, ’Nunca’)))
B=prop.table(A, 1)
barplot(B, beside=TRUE, col = c(1,2))

legend(’topright’,legend=c(’Mujeres’,’Hombres’),fill=c(1
title("Quien usa mas el cinturon? las mujeres o
los hombres?")
Diagrama de barra adosado.
Quien usa mas el cinturon? las mujeres o

los hombres?
0.6
mujeres
hombres
0.4
0.2
0.0
Siempre casi siembre a veces raramente Nunca

cuantas veces
usan el cinturon
¿Quién suma 100%?

Dos diagramas de torta. R
A=matrix(c(915,276,167,84,25,771,302,247,165,90),
ncol=5,byrow=TRUE)
B=prop.table(A, 1)
par(mfrow = c(1,2))
B1 = B[1,]
names(B1) = c(’Siempre’, ’Casi siempre’, ’A veces’,
pie(B1, main = ’Mujeres’)
B2 = B[2,]
names(B2) = c(’Siempre’, ’Casi siempre’, ’A veces’,
pie(B2, main = ’Hombres’)
Dos diagramas de torta
Mujeres Hombres
Siempre Siempre
Nunca
Nunca
Raramente
Casi siempre
A veces Raramente
¿Sirve? ¿Cuál parece mejor? ¿Qué podemos decir?
¿Quién suma 100%?

Ejercicio extra para practicar
En el entorno encontrarán un archivo llamado

lomasdificildelprimerparcial.pdf
Serı́a bueno que lo resuelvan ya que es lo que más cuesta en

el parcial.
Dos variables cualitativas: resumen
Si las variables de interés son dos cualitativas y una es variable

respuesta y la otra predictora.
Resumen numérico: Tabla de frecuencias relativas por cada

categorı́a de la variable predictora.
Resumen gráfico: gráfico de torta o barras por cada categorı́a

de la variable predictora.
Una variable cuantitativa: resúmenes numéricos
Para comenzar a describir a los datos a partir de un resumen
numérico necesitamos una medida de centro.
I MEDIA muestral (de datos), dada las observaciones
x1 , . . . , xn la media muestra es
n
1X x1 + · · · + xn
x̄ = xi =
n n
i=1
I MEDIA muestral (de datos), dada las observaciones
x1 , . . . , xn la media muestra es
n
1X x1 + · · · + xn
x̄ = xi =
n n
i=1
I MEDIANA muestral (de DATOS), dada las observaciones
x1 , . . . , xn la mediana muestral se obtiene de la siguiente
manera: Ordene los datos de menor a mayor x(1) , . . . , x(n) ,
mediana(x) = x(n+1)/2 si n es impar y

1
mediana(x) = xn/2 + xn/2+1 si n es par
2
Calculando medias y medianas
Tenemos el siguiente conjunto de datos.
x = c(.26,.43,.47,.49,.52,.75,.79,.86,.62,.46)
Grafiquemos los datos. Calculemos su media y mediana (a

mano y en la compu).
Calculando medias y medianas
Tenemos el siguiente conjunto de datos.
x = c(.26,.43,.47,.49,.52,.75,.79,.86,.62,.46)
Grafiquemos los datos. Calculemos su media y mediana (a

mano y en la compu).
Calculamos con la compu:
> mean(x)
[1] 0.565
> median(x)
[1] 0.505
Otra medida de centralidad
Media recortada: Es la media que se obtiene quitando cierto

porcentaje de los valores (extremos) mayores y menores del
conjunto. Hagámoslo en el caso anterior a mano.
En la compu:
help(mean)
mean {base} R Documentation

Arithmetic Mean
Description
Generic function for the (trimmed) arithmetic mean.
Usage
mean(x, ...)
## Default S3 method:
mean(x, trim = 0, na.rm = FALSE, ...)
Arguments
x An R object.
trim
the fraction (0 to 0.5) of observations to be
trimmed from each end of x before the mean
is computed. Values of trim outside that range
are taken as the nearest endpoint.
Calculamos en la compu
mean(x, trim = .1)
[1] 0.56625
Calculamos en la compu
mean(x, trim = .1)
[1] 0.56625
¿Cuál de todas las medidas de centralidad será mejor?

¿Porqué?
Para terminar de describir a los datos, ahora que ya tenemos
medias de centro necesitamos medidas de variabilidad o
dispersión (¿qué es la variabilidad de los datos?)
Miremos este ejemplo:
¿Hay diferencias entre el conjunto de datos A y B?

Para terminar de describir a los datos, ahora que ya tenemos
medias de centro necesitamos medidas de variabilidad o
dispersión (¿qué es la variabilidad de los datos?)
Miremos este ejemplo:
¿Hay diferencias entre el conjunto de datos A y B?

En los dos casos las medias son iguales pero uno tiene una
sensación visual de que los casos son diferentes... ¿porqué?
Varianza muestral y desviación estándar muestral
I Varianza muestral:
n
2 1 X
sn−1 = (xi − x̄)2
n−1
i=1
I Desviación estándar:
q
sn−1 = 2
sn−1
I Rango: xmax − xmin .
Preguntas
I Si multiplico toda la muestra por 2, que pasa con la media,

la varianza y la desviación estándar y el rango?
Preguntas

I Supongamos que las medidas están dadas en metros,

¿cuál es la unidad para s2 ? ¿y para s?
Preguntas


I ¿Qué medida de la variabilidad es más importante?

Preguntas


I ¿Qué medida de la variabilidad es más importante?

I El rango de la muestra tiene aplicaciones en el ámbito del
control de calidad.
I La varianza y desviación estándar reflejan el mismo
concepto en la medición de la variabilidad, pero las
unidades son diferentes. ¿Cuál usar?
Para estudiar más resumenes numéricos podemos ordenar los
datos aunque... aún ordenándolos es difı́cil calcular algunas
medidas resumenes:
Velmax[order(Velmax)]
# [1] 30 50 50 55 60 70 70 70 70 75 75
# [12] 75 75 75 75 75 75 75 80 80 80 80
# [23] 80 80 80 80 80 80 80 80 80 80 80
# [34] 80 80 80 80 80 80 82 83 85 85 85
# [45] 85 85 85 85 85 85 85 85 85 85 85
# [56] 85 85 85 85 87 88 90 90 90 90 90
# [67] 90 90 90 90 90 90 90 90 90 90 90
# [78] 90 90 90 90 90 90 90 90 92 94 95
# [89] 95 95 95 95 95 95 95 95 95 95 95
# [100] 95 95 100 100 100 100 100 100 100 100 100
# [111] 100 100 100 100 100 100 100 100 100 101 102
# [122] 102 105 105 105 105 105 105 105 105 105 105
# [133] 109 110 110 110 110 110 110 110 110 110 110
# [144] 110 110 110 110 110 110 110 110 110 110 110
# [155] 112 115 115 115 115 115 115 120 120 120 120
# [166] 120 120 120 120 120 120 120 120 124 125 125
# [177] 125 125 125 125 130 130 130 140 140 140 140
# [188] 145 150 NaN
Para estudiar más resumenes numéricos podemos ordenar los
datos aunque... aún ordenándolos es difı́cil calcular algunas
medidas resumenes:
Velmax[order(Velmax)]
# [1] 30 50 50 55 60 70 70 70 70 75 75
# [12] 75 75 75 75 75 75 75 80 80 80 80
# [23] 80 80 80 80 80 80 80 80 80 80 80
# [34] 80 80 80 80 80 80 82 83 85 85 85
# [45] 85 85 85 85 85 85 85 85 85 85 85
# [56] 85 85 85 85 87 88 90 90 90 90 90
# [67] 90 90 90 90 90 90 90 90 90 90 90
# [78] 90 90 90 90 90 90 90 90 92 94 95
# [89] 95 95 95 95 95 95 95 95 95 95 95
# [100] 95 95 100 100 100 100 100 100 100 100 100
# [111] 100 100 100 100 100 100 100 100 100 101 102
# [122] 102 105 105 105 105 105 105 105 105 105 105
# [133] 109 110 110 110 110 110 110 110 110 110 110
# [144] 110 110 110 110 110 110 110 110 110 110 110
# [155] 112 115 115 115 115 115 115 120 120 120 120
# [166] 120 120 120 120 120 120 120 120 124 125 125
# [177] 125 125 125 125 130 130 130 140 140 140 140
# [188] 145 150 NaN
¿Qué podemos decir?

I Mı́nimo
min(VelMax)
#[1] NaN
min(Velmax, na.rm = T)
#[1] 30
I Máximo
max(Velmax, na.rm = T)
#[1] 150
I Rango
range(Velmax, na.rm = T)
#[1] 30 150
I Mediana
median(Velmax, na.rm = T)
#[1] 95
Más números importantes:
I Primer cuartil o cuartil inferior: Percentil 25: Es el número
tal que un cuarto de los datos quedan a la izquierda de el
y (por lo tanto) tres cuartos de los datos quedan a la
derecha. quantile
I Tercer cuartil o cuartil superior. Percentil 75: Es el
número tal que tres cuarto de los datos quedan a la
izquierda de el y (por lo tanto) un cuarto de los datos
quedan a la derecha. quantile
I Rango intercuartı́lico: cuartil superior menos cuartil
inferior. El rango intercuartı́lico mide la variabilidad del
50% central de los datos. ¿Porqué? Casos extremos:
todos iguales, todos muy dispersos.
I ¿A qué cuartil corresponde con la mediana?
Los cinco números en R
quantile(Velmax, probs = c(.25,.5,.75), na.rm = T)

# calcula los quantiles con las probas dadas
# 25% 50% 75%

# 85 95 110
fivenum(Velmax)
# calcula minimo, primer cuantil, mediana,
# tercer quantil, maximo
#[1] 30 85 95 110 150
Escribir en el pizarrón toda esta información para

velocidad máxima e interpretarla.
Una variable cuantitativa: resúmenes gráficos
Diagrama de caja (boxplot): Hagamos el boxplot para
Velmax en el pizzarrón:
I Poner en el eje vertical el mı́nimo y el máximo de los
valores.
valores.
I Dibujar una rectángulo que tenga como base el cuartil
inferior y como tapa el cuartil superior.
valores.
I Dibujar una line horizontal en la mediana.
valores.
I Calcular el rango intercuartil (IQR).
valores.
I Dibujar una linea que vaya desde el cuartil inferior (Q1 )
hasta el menor valor numérico (en los datos) que sea
mayor que Q1 − 1.5 ∗ IQR.
valores.
I Dibujar una linea que vaya desde el cuartil superior (Q3 )
hasta el mayor valor en los datos que sea menor que
Q3 + 1.5 ∗ IQR.
valores.
I Dibujar una linea que vaya desde el cuartil superior (Q3 )
hasta el mayor valor en los datos que sea menor que
Q3 + 1.5 ∗ IQR.
I Todos los datos menores que Q1 − 1.5IQR o mayores que
Q3 + 1.5IQR marcarlos con un asterisco y considerarlos
datos atı́picos.
Diagrama de caja (boxplot):
boxplot(Velmax)
title(’Boxplot de la variable velocidad maxima’)
Boxplot de la variable velocidad maxima
140
120
100
80
60
40
boxplot(Velmax)
140
120
100
80
60
40
¿Qué tipo de estructuras podemos ver con el boxplot?:

boxplot(Velmax)
140
120
100
80
60
40
¿Qué tipo de estructuras podemos ver con el boxplot?:

Simetrı́a y variabilidad.
Ejemplo 2.27
Una de las variables cuantitativas en el conjunto de datos es

USstates es Smokes que es el porcentaje de la población que
fuma para cada uno de los estados:
I Hacer un diagrama de cajas.
I Discutir qué nos dice este diagrama de cajas sobre la
distribución de la variable Smokes.
I Dar el resumen numérico que incluye 5 números.
Ejemplo 2.28
Una de las variables cuantitativas en el conjunto de datos

HollywoodMovies2011 es Budget que da el presupuesto (en
millones de dólares) de cada pelı́cula:
I Hacer un diagrama de caja de dicha variable.
I ¿A qué pelı́cula corresponde el mayor valor extremo?
I ¿Cuál fue el presupuesto para hacer Harry Potter y las
Reliquias de la Muerte, Parte 2? es un valor extremo?
Datos atı́picos
Hay que prestar mucha atención a los datos atı́picos ya que

pueden tener mucha influencia en las conclusiones que se
realizan (recordar volver cuando estudiemos la media) y nos
pueden llevar a conclusiones equivocadas si no se tratan
apropiadamente.
Sin embargo los datos atı́picos no se pueden descartar como

errores (sin justificar) pero se los debe tratar.
Posible razones para datos atı́picos y que hacer
I Un dato atı́pico puede ser un dato legı́timo y representa la
variación natural de un grupo y variable medida. No se
debe descartar en este caso el valor. Ver por ejemplo en
mujeres los valores atı́picos de cuanto se expande la
mano.
I Un error al tomar la medida o al poner el dato en la
computadora. Si esto es ası́ entonces hay que descartarlo
o corregirlo (si sabemos el verdadero valor). Ejemplo de lo
de arriba si cambio de cm a inches o al revés.
I El individuo en cuestión pertenece a un grupo diferente
que los individuos medidos. Se pueden descartar esos
valores si se quiere hablar del grupo principal.
Supongamos que en una universidad queremos ver el
rendimiento de un estudiante y vemos un dato atı́pico pero
nos damos cuenta que es un individuo mucho mayor o
algo por el estilo.
Contar el caso del agujero de ozono.

Datos atı́picos. Ejemplo
Histograma:
El histograma es útil para estudiar la forma en que se

distribuyen (forma, centralidad y dispersión) los datos
cuantitativos.
Ejemplo: ¿Cómo es la distribución del ingreso en Estados

Unidos?
Tenemos datos de 1973 de 50 mil familias. ¿Qué otra forma de

resumir los datos para contestar a esta pregunta hemos
aprendido?
Histograma de ingresos en Estados Unidos
Los datos corresponden a 50 mil familias, en 1973:
¿Qué vemos? No hay escala en el eje vertical.

¿Qué vemos? No hay escala en el eje vertical. Lo importante

de un histograma son las áreas de los rectángulos, no sus
alturas.
¿Qué vemos? No hay escala en el eje vertical. Lo importante

de un histograma son las áreas de los rectángulos, no sus
alturas.
EL área TOTAL DEBAJO DEL HISTOGRAMA ES 100 %

Preguntas: ¿qué porcentaje de familias tuvo un ingreso entre

10 y 15 mil dólares?

10 y 15 mil dólares? ¿Hay más familias con ingresos entre 10 y
15 mil o con ingresos entre 15 y 25 mil?

10 y 15 mil dólares? ¿Hay más familias con ingresos entre 10 y
15 mil o con ingresos entre 15 y 25 mil? ¿Cuál es el porcentaje
de familias con ingresos menores a 7000 dólares?
Cómo dibujar un histograma
1. Hacer una tabla de distribución de ingresos y porcentajes
a partir de los datos brutos. Para ello hay que escoger los
intervalos de clases (aca están dados pero en el próximo
ejemplo hay que construirlos). Los pasos son:
1.1 Ordenar los datos.
1.2 Elegir los intervalos de clases.
1.3 Contar cuantos datos caen en cada intervalo y el
porcentaje sobre el total.
2. Hacer la escala en el eje horizonal (ojo que este bien la
escala).
3. Dibujar las alturas. Ojo que los porcentajes de la tabla
están para distinta longitud de intervalos. No poner como
altura los porcentajes directamente.
Para calcular la altura del rectángulo correspondiente

a un intervalo de clase, hay que dividir el porcentaje
por la longitud del intervalo.
1. Tabla de distribución de ingresos y porcentajes. Acá
esta dada.
Nivel de ingresos Porcentaje Porcentaje acumulado (¿para qué?)

0-1000$ 1 1
1000-2000$ 2 3
2000-3000$ 3 6
3000-4000$ 4 10
4000-5000$ 5 15
5000-6000$ 5 20
6000-7000$ 5 25
7000-10000$ 15 40
10000-15000$ 26 66
15000-25000$ 26 92
25000-50000$ 8 100
50000$ o más 1 100
2. Hacer la escala en el eje horizonal (ojo que esté bien la
escala).
Hacerlo en el pizarrón.
3. Dibujar las alturas. Para calcular la altura del rectángulo
correspondiente a un intervalo de clase, hay que dividir el
porcentaje por la longitud del intervalo.
¿qué pasa si pongo como altura los porcentajes?
Comparar esta figura con la de la página anterior.

Escala de densidad
Pregunta: ¿cuál es la escala de densidad en el histograma de

la distribución de ingreso en Estados Unidos. Idem para las
variables estudiadas de pennstate.
Porcentaje de familias cada 1000 dólares (FUNDAMENTAL LA

ESCALA).
Ejercicio escala de densidad
El siguiente esquema muestra un rectángulo del histograma de

la renta familiar de una ciudad determinada. ¿Qué porcentaje
aproximado de familias de esa ciudad tiene ingresos entre
15.000 y 25000 dólares?
El siguiente esquema muestra un rectángulo del histograma de

la renta familiar de una ciudad determinada. ¿Qué porcentaje
aproximado de familias de esa ciudad tiene ingresos entre
15.000 y 25000 dólares?
La escala de densidad es 1% por cada 1000, la altura es 2 y el

ancho es 10 veces 1000 por lo tanto es 2*10=20.
Supongamos que alguien ha esbozado un histograma de los

pesos de una grupo de personas empleando para ello la
escala de densidad. ¿Qué clase de error ha cometido el autor
de ese gráfico?
Área 200%!!!!
Histograma en escala densidad
Con la escala de densidad en el eje vertical, las áreas de los

rectángulos se convierten en porcentajes debido a que las
unidas del eje horizontal se simplifican. El área comprendida
en una parte del histograma es igual al porcentaje de casos
que hay en el intervalo que corresponde a esa parte. El área
total comprendida en cualquier histograma es 100%.
Responder a las siguientes preguntas teniendo en
cuenta el histograma de ingresos en EEUU:
Responder a las siguientes preguntas:
A continuación se muestran 6 histogramas, de los cuales 4

corresponden a las siguientes variables:
I Altura de todos los miembros de familias en las que el
padre y la madre son menores de 24 años.
I Altura de las parejas casadas.
I Altura de todas las personas.
I Altura de todos los autos.
¿cuáles son los histogramas que corresponden a estas
variables?
Un investigador recoge datos sobre los salarios medios tenidos

por tres grupos de trabajadores que trabajan por horas. Los
trabajadores del grupo B ganan aproximadamente dos veces lo
que ganan los del grupo A. Los trabajadores del grupo C ganan
aproximadamente 10 dóllares más cada hora que los del grupo
A. ¿Qué histograma corresponde a cada grupo?
¿Cómo hacemos un histograma en R desde los datos
crudos?
Para la variable Altura de los datos pennstate:
hist(Altura,freq=FALSE,main=’Histograma de alturas’,
xlab=’Alturas’)
Histograma de alturas
Density
0.06
0.00
60 65 70 75
Alturas
¿Qué pasa si cambiamos los intervalos de clase?
summary(Altura)
Min. 1st Qu. Median Mean 3rd Qu. Max.

59.00 64.25 68.00 68.21 71.00 78.00
intervalos = seq(59,78,length=8)
hist(Altura,freq=FALSE,breaks=intervalos,main=
’Histograma de Altura’,xlab=’Altura en pulgadas’)
intervalos = seq(59,78,length=12)
hist(Altura,freq=FALSE,breaks=intervalos,main=
’Histograma de Altura’,xlab=’Altura en pulgadas’)
Histograma de Altura
0.06
Density
0.00
60 65 70 75
Altura en pulgadas
Histograma de Altura
0.00 0.06 0.12
Density
60 65 70 75
Altura en pulgadas
Podemos superponer una estimación de la densidad
hist(Altura,freq=FALSE,main=’Histograma de altura’,
xlab=’Altura en pulgadas’)
lines(density(Altura), col = ’red’)
Histograma de altura
Density
0.06
0.00
60 65 70 75
Altura en pulgadas
¿Qué es más informativo, el boxplot o el histograma?
Qué es más informativo: ¿cómo lo hacemos en la
compu?
resumen = summary(Altura)
intervalos = seq(resumen[1], resumen[6],
length = 15)
par(mfrow = c(2,1))
hist(Altura, freq = FALSE, breaks = intervalos)
boxplot(Altura, horizontal = TRUE)
Más sobre histogramas: resúmen
I Un histograma representa porcentajes por área. Esta
formado por un conjunto de rectángulos. El área de cada
rectángulo representa el porcentaje de casos que
corresponden al intervalo de clase.
I Gracias a la escala de densidad, la altura de cada
rectángulo es igual al porcentaje de casos que
corresponde al intervalo de clase dividido por la longitud
de dicho intervalo.
de dicho intervalo.
I También gracias a la escala de densidad, el área de un
rectángulo se convierte en porcentaje y el área total es de
100%. El área del histograma que se halla determinada
por dos valores de la variable, proporciona el porcentaje
de casos que caen dentro de ese intervalo.
de dicho intervalo.
I Pensar la diferencia entre cantidad de población y
densidad de población. Estados Unidos tiene más
habitantes que Holanda pero Holanda tiene más
habitantes por metros cuadrados.
de dicho intervalo.
I Pensar la diferencia entre cantidad de población y
densidad de población. Estados Unidos tiene más
habitantes que Holanda pero Holanda tiene más
habitantes por metros cuadrados.
I Donde esta la mediana en el histograma?
Algo más sobre histogramas. Forma.
El histograma sirve para responder este tipo de preguntas:
I ¿Cuál es la forma general de los datos?

I ¿Dónde están centrados los datos?
I ¿Cómo varian los datos?
Todos estos aspectos es lo que llamamos la distribución de

los datos.
La forma general de los datos. Distribuciones
simétricas y sesgadas.
Ejemplo de distribución simétrica (cuando es simétrica con
respecto a algún eje vertical). ¿Cuánto viven los mamı́feros?
simétricas.
sesgadas.
Histogramas para 3 variables diferentes de una muestra de 362

alumnos.
¿Simétricos? ¿Sesgados para uno de los lados?

Una suavización de las formas. Distribuciones
sesgadas.
¿Qué vemos? ¿Simétricos? ¿Sesgados?

Formas comunes
I Simétrica
I Sesgada a la derecha
I Sesgada a la izquierda
I Acampanada
¿Dónde esta la media y la mediana en el histograma?
¿Qué pasa en la acampanada?

La regla del 95 % para las distribuciones
acampanadas.
Si la distribución de los datos es

aproximadamente simétrica y acampanada,
aproximadamente el 95 % de los datos deberı́a
caer dentro de dos desviaciones estándar de la
media.
Es decir, más o menos el 95 % de los datos

estarán en el intervalo (x̄ − 2s, x̄ + 2s) con
s = desviación estándar de los datos.
La regla del 95 % para las distribuciones
acampanadas.
El z-score y de porque siempre en valor relativo
¿Es 200 una diferencia grande? ¿Es 20 una diferencia grande?

Siempre hay que comparar relativamente y para ellos
utilizamos el z-score:
z-score de un dato x relativo a una muestra

x1 , . . . , xn es:
x − x̄
z − score =
s
x̄: media de los datos
s: desviación estándar de los datos
El z-score y la regla del 95 %
Si los datos tienen una distribución simétrica y campana, la

regla de 95% nos dice que aproximadamente el 95% de los
datos caen dentro de dos desviaciones estándar de la media.
Esto significa que sólo el 5% de los valores de los datos tendrá
puntuaciones z más allá de más o menos 2.
Ojiva porcentual o histograma acumulado:
La ojiva es un polı́gono de frecuencias acumuladas, es decir,

en las abscisas se colocan los limites superiores de cada
intervalo de clase y en las ordenadas se coloca la frecuencia
acumulada (absoluta o relativa) de la clase. La ojiva es útil
para:
I Calcular el número o el porcentaje de observaciones que
corresponden a un intervalo determinado de la variable.
I Calcular los percentiles de la distribución de los datos.
Ojivas
library(agricolae)
h = graph.freq(Altura, plot = FALSE)
points = ogive.freq(h, type = ’l’, col = ’red’,
frame = FALSE, xlab = ’Limite de clases’,
ylab = ’Frecuencia acumulada’, main = ’Ojiva’)
grid(col = ’black’)
print(points)
¿Para que la grilla?
Ojiva
Frecuencia acumulada 1.0
0.8
0.6
0.4
0.2
0.0
59.0 63.2 67.4 71.6 75.8 80.0
Limite de clases
¿Para que la grilla?
Ojiva
Frecuencia acumulada 1.0
0.8
0.6
0.4
0.2
0.0
59.0 63.2 67.4 71.6 75.8 80.0
Limite de clases
Para calcular percentiles!

Caracterı́sticas de las ojivas:
I Muestran frecuencias acumuladas.

I Se prefiere para el tratamiento de datos cuantitativos.
I El punto de inicio equivale a una frecuencia de 0.
I El punto final equivale al 100% de los datos.
I Dada su ventaja de representar frecuencias acumuladas,
las ojivas se convierten en una herramienta vital para el
análisis estadı́stico.
Una variable cuantitativa: resumen
Resumen numérico: Una medida de centro y una de

variabilidad.
Resumen gráfico: Diagrama de caja, histograma, histograma

acumulado.
UNA VARIABLE CUANTITATIVA CON DOS O más
categorı́as. Diagramas de caja por categorı́a.
Objetivo: comparar la variable cuantitativa (por ejemplo Altura)

entre hombres y mujeres.

Lo primero que podemos hacer es para cada categorı́a calcular
los 5 números, pero nuevamente es difı́cil compararlos. Hacer
los boxplot por categorı́as es ideal para eso. HACERLO!!!!

Lo primero que podemos hacer es para cada categorı́a calcular
los 5 números, pero nuevamente es difı́cil compararlos. Hacer
los boxplot por categorı́as es ideal para eso. HACERLO!!!!
Ejemplo: En los datos pennstate.tx la variable cuantitativa

Altura y variable cualitativa Sexo.
Resumen numérico
El resumen numerico es dar una medida de centro y de

variabilidad de la variable respuesta por cada nivel de la
variable preditora.
library(mosaic)
favstats(Altura˜Sexo)
Respuesta de R
Sexo min Q1 median Q3 max mean sd n missing
1 Female 59 63.5 65 67.25 71 65.37379 2.567442 103 0
2 Male 66 70.0 72 73.00 78 71.56322 2.704222 87 0
Que vemos? conclusiones?

Resumen gráfico: Boxplots por categorı́a en R
Hacemos un diagrama de caja para cada categorı́a. ¿Para qué

sirve? ¿Qué vemos? ¿Podemos formular alguna hipótesis?
Muj = Altura[Sexo=="Female"]
Hom = Altura[Sexo=="Male"]
boxplot(Muj,Hom)
# o bien directamente
boxplot(Altura˜Sexo)
Boxplots por categorı́a en R
75
70
65
60
Female Male
Boxplots por categorı́a en R
75
70
65
60
Female Male
Diagramas de dispersión
Se utilizan en lugar de los boxplot cuando los datos por

categorı́a no son muchos.
plot(as.numeric(Sexo), Altura)
points(1:2, c(median(Altura[Sexo == "Female"],
na.rm = T),
median(Altura[Sexo == "Male"])), col = ’red’)
Diagramas de dispersión por categorı́as
75
70
Altura
65
60
1.0 1.2 1.4 1.6 1.8 2.0

as.numeric(Sexo)
Diagramas de dispersión por categorı́as
75
70
Altura
65
60
1.0 1.2 1.4 1.6 1.8 2.0

as.numeric(Sexo)
¿Qué vemos?
categorı́as. Histogramas por categorı́a.
Volvamos al histograma de Alturas
0.08
Density
0.04
0.00
60 65 70 75
Altura
Volvamos al histograma de Alturas
0.08
Density
0.04
0.00
60 65 70 75
Altura
¿Será que los picos en el histograma se deben a Sexo?

¿Cómo averiguamos eso? Hacemos un histograma (como en
el boxplot) para cada sexo.
intervalos = seq(59, 78, length = 10)
AltM = Altura[Sexo == ’Female’]

AltH = Altura[Sexo == ’Male’]
par(mfrow=c(1,2))
hist(AltM, freq = FALSE,
breaks = intervalos, main = ’Mujeres’, xlab = ’Altura en
ylim = c(0,.2))
histo = hist(AltH, freq = FALSE,

breaks = intervalos, main = ’Hombres’, xlab = ’Altura en
ylim=c(0,.2))
Un histograma para cada sexo
Mujeres Hombres
0.20
0.20
Density
Density
0.10
0.10
0.00
0.00
60 70 60 70
AltM AltH
Superpuestos
Superpuestos: ¿cómo lo hacemos en la compu?
xmin = min(c(AltM, AltH))

xmax = max(c(AltM, AltH))
intervalos = seq(xmin, xmax, length = 10)
hist(AltM, breaks = intervalos, freq = FALSE,

ylim=c(0,.2), col = rgb(0, 1, 0, 0.5),
xlab = ’Altura’, main = ’Histogramas por Sexo’)
hist(AltH, breaks = intervalos, freq = FALSE,
ylim=c(0,.2), col = rgb(1, 0, 0, 0.5), add = TRUE,
main = ’’)
legend("topright", legend = c("varones","mujeres"),

fill = c(rgb(0, 1, 0, 0.5), rgb(1, 0, 0, 0.5)))
Más sobre variables cuantitativas
Un ejemplo de una variable cuantitativa con dos

poblaciones. ¿O es una sola población?
El hipocampo es una región del cerebro cuya anatomı́a y

fisiologı́a básica parecen ser altamente alteradas en la
esquizofrenia. Para estudiar las anomalı́as anatómicas
asociadas con la esquizofrenia (esto es un un estudio de
observacional) a 15 pares de gemelos idénticos de los cuales
uno era esquizofrénico y el otro no, se les realizó una
resonancia magnética para medir el volúmen (cm3) del
hipocampo de cada gemelo.


Pregunta: ¿Hay indicadores fisiológicos asociados con la

esquizofrenia? ¿Existen diferencias?


Pregunta: ¿Hay indicadores fisiológicos asociados con la

esquizofrenia? ¿Existen diferencias? ¿Cómo graficamos estos
datos?
Esquizofrenia: ¿una variable o dos?
library(Sleuth2)
datos = case0202
head(datos)
# Unaffect Affected
# 1 1.94 1.27
# 2 1.44 1.63
# 3 1.56 1.47
# 4 1.58 1.39
# 5 2.06 1.93
# 6 1.66 1.26
Esquizofrenia: ¿una variable o dos?
library(Sleuth2)
datos = case0202
head(datos)
# Unaffect Affected
# 1 1.94 1.27
# 2 1.44 1.63
# 3 1.56 1.47
# 4 1.58 1.39
# 5 2.06 1.93
# 6 1.66 1.26
Este es un ejemplo de observaciones apareadas. ¿Puede ser

que la diferencia se debe solo al azar o hay diferencias?
Análisis exploratorio de los datos de gemelos
attach(datos)
names(datos)
boxplot(Unaffect-Affected)
title(’Diferencia entre gemelo no afectado
y gemelo afectado’)
Diferencia entre gemelo no afectado y gemelo afectado

0.6
0.4
0.2
0.0
-0.2
Análisis exploratorio de los datos de gemelos
fivenum(Unaffect-Affected)
#[1] -0.18999994 0.05499995 0.10999990

[4] 0.31500000 0.67000008
nuevavar=Unaffect-Affected
fivenum(nuevavar)
#[1] -0.18999994 0.05499995 0.10999990

[4] 0.31500000 0.67000008
Varias poblaciones: una variable cuantitativa con
varias categorı́as
De porque comer menos si queremos vivir más: Este

experimento se llevó a cabo a fin de estudiar si restringiendo la
ingesta de calorı́as en cierta especie de animales es posible
aumentar la esperanza de vida de los mismos. Para ello, 349
ratas fueron asignadas aleatoriamente a una de las 6
diferentes dietas:
Diferentes dietas
I N/R50 lopro: dieta normal en la lactancia, dieta reducida

de 50 kcal/sm luego de la lactancia y reducción de las
proteı́nas con el crecimiento
Diferentes dietas

I N/N85: grupo control: dieta normal en la lactancia, dieta
controlada en 85 kcal/sm luego de la lactancia
Diferentes dietas

I NP: dieta estándar no purificada
Diferentes dietas

I N/R40: dieta normal en la lactancia, dieta restringida en
40 kcal/sm luego de la lactancia
Diferentes dietas

Diferentes dietas

I R/R50: dieta restringida en 50 kcal/sm durante y después
de la lactancia
Como resumimos y graficamos los datos?
diet=read.table(’dieta.R’,header=T) #leo los datos
names(diet) #miro que variables hay

# [1] "cuantovive" "dieta"
head(diet) # miro las primeras filas

# cuantovive dieta
# 1 35.5 NP
# 2 35.4 NP
# 3 34.9 NP
# 4 34.8 NP
attach(diet) #para poder usar las columnas

Como resumimos numéricamente los datos?
n = tapply(cuantovive,dieta,length) #cuantos
#ratones en cada dieta
promedio = tapply(cuantovive,dieta,mean) #media de

#vida en cada dieta
SD = tapply(cuantovive,dieta,sd)#sd de
#vida en cada dieta
print(cbind(n,promedio,SD),digits=3) #me dice todo lo

#calculado anteriormente
# n promedio SD
# lopro 56 39.7 6.99
# N/N85 57 32.7 5.13
# N/R40 60 45.1 6.70
# N/R50 71 42.3 7.77
# NP 49 27.4 6.13
# R/R50 56 42.9 6.68
Como resumimos y graficamos los datos? Otra forma
mas directa
library(mosaic)
favstats(cuantovive˜dieta)
Que vemos?
dieta min Q1 median Q3 max mean sd n missing
1 lopro 23.4 35.000 41.05 46.45 49.7 39.68571 6.991695 56 0
2 N/N85 17.9 31.400 33.10 36.40 42.3 32.69123 5.125297 57 0
3 N/R40 19.6 42.275 46.05 50.35 54.6 45.11667 6.703406 60 0
4 N/R50 18.6 37.950 43.90 48.20 51.9 42.29718 7.768195 71 0
5 NP 6.4 24.800 28.90 31.40 35.5 27.40204 6.133701 49 0
6 R/R50 24.2 39.150 43.95 48.35 50.7 42.88571 6.683152 56 0
Conclusiones?
gráficos de cuanto viven los ratones según las dietas
boxplot(cuantovive˜dieta, ylab="meses que vive",
xlab="dieta", col="gray", pch=16,
main="Cuanto vive un raton hembra segun
la dieta de comida")
Cuanto vive un raton hembra segun

la dieta de comida
50
meses que vive
40
30
20
10
lopro N/N85 N/R40 N/R50 NP R/R50
dieta
Varias poblaciones. Una variable cuantitativa con
Preguntas de interés. Hipótesis estadı́stica a contestar en cada

caso. Escribirlas y contestarlas vı́a el gráfico.
I Los que consumen 50 kcal/semana , ¿viven más que los
que consumen 85 kcal/semana? ¿Cuánto más?

I ¿Cambia la esperanza de vida reduciendo las calorı́as
durante la lactancia, si luego se les da 50kcal/semana?

I Los que consumen 40 kcal/semana, ¿viven más que los
que consumen 50 kcal/semana?

I Si se consume 50 kcal/semana, ¿hay efecto si se
disminuye cuanta proteı́na consumen?

I Si se consume 50 kcal/semana, ¿hay efecto si se
disminuye cuanta proteı́na consumen?
I ¿Hay efecto en la esperanza de vida si se consume 85
kcal/semana?
Cómo hacer boxplotes e histogramas más pipicucu
En el archivo
mas_de_boxplot.pdf
encontrarán formas de hacer de manera sencilla resúmenes y

gráficos para una variable cuantitativa en función de una
cualitativa con varios niveles
Es muy importante verlo y reproducirlo con otro ejemplo

Una variable cuantitativa como respuesta y una
cualitativa como predictora: resumen
Cuando tenemos una variable cuantitativa como respuesta que

tenemos que estudiarla en función de una cualitativa
(predictora) el análisis exploratorio de datos consiste en:
Resumen numérico: una medida de centro y una de

variablilidad de la cuantitativa por cada categorı́a de la variable
predictora. Usar favstats de mosaic
Resumen gráfico: un diagrama de caja de la variable

cuantitativa por cada categorı́a de la variable predictora o idem
con histograma. No dejar de ver el pdf donde describe una
forma maravillosa de hacer histogramas, resámenes y
boxplots.
Una variable cuantitativa con dos variables
cualitativas. Varias poblaciones...
Suponga que desea determinar si la marca de detergente para

la ropa y la temperatura afecta a la cantidad de manchas
eliminada de la ropa. Con este fin se compran dos marcas
diferentes de detergente (“Súper” y “Best”) y se elegin tres
niveles diferentes de temperatura (“frı́o”, “caliente”, y “muy
caliente”). Se divide la ropa al azar en 6 pilas de igual tamaño
(supongamos r ) y se asigne a cada montón (en forma
aleatoria) la combinación de (“Súper” y “Best”) y (“frı́o”,
“caliente”, y “muy caliente”). Estamos interésados en estudiar
si hay diferencias en marca y/o temperatura en lo que respecta
al quitado de manchas.
Una variable cuantitativa con dos variables
cualitativas. Varias poblaciones...
Factor 1: marca de detergente (“Súper” y “Best”)
Factor 2: niveles diferentes de temperatura (“frı́o”, “caliente”, y

“muy caliente”)
Detergentes...
#cuantas manchas saco

manchas = c(4, 5, 6, 5, 7, 9, 8, 12 ,10 ,12 ,11,
9, 6, 6, 4, 4, 13, 15, 12, 12, 12, 13 ,10, 13)
#detergentes
detergente = factor(c(rep(1,12),rep(2,12)))
#temperatura
calor = factor(rep(gl(3,4),2))
Detergentes. resumen numérico.
#resumen numerico. Usamos la library mosaic
library(mosaic)
favstats(manchas˜detergente+calor)
# .group min Q1 median Q3 max mean sd n
#1 1.1 4 4.75 5.0 5.25 6 5.0 0.8164966 4
#2 2.1 4 4.00 5.0 6.00 6 5.0 1.1547005 4
#3 1.2 7 7.75 8.5 9.75 12 9.0 2.1602469 4
#4 2.2 12 12.00 12.5 13.50 15 13.0 1.4142136 4
#5 1.3 9 9.75 10.5 11.25 12 10.5 1.2909944 4
#6 2.3 10 11.50 12.5 13.00 13 12.0 1.4142136 4
Detergentes. resumen numérico.
#resumen numerico. Usamos la library mosaic
library(mosaic)
favstats(manchas˜detergente+calor)
# .group min Q1 median Q3 max mean sd n
#1 1.1 4 4.75 5.0 5.25 6 5.0 0.8164966 4
#2 2.1 4 4.00 5.0 6.00 6 5.0 1.1547005 4
#3 1.2 7 7.75 8.5 9.75 12 9.0 2.1602469 4
#4 2.2 12 12.00 12.5 13.50 15 13.0 1.4142136 4
#5 1.3 9 9.75 10.5 11.25 12 10.5 1.2909944 4
#6 2.3 10 11.50 12.5 13.00 13 12.0 1.4142136 4
¿Conclusiones?
Detergentes. Gráficos.
Podemos graficar un boxplot por cada población (cada
combinación) (6 boxplots).
boxplot(manchas˜detergente+calor)
title(’Cuantas manchas por detergente y calor’)
Cuantas manchas por detergente y calor

12
8
4
1.1 2.1 1.2 2.2 1.3 2.3
¿Problemas con este gráfico?

Detergentes. ¿qué graficamos?
Podemos graficar en un gráfico 2 boxplots (uno por cada
detergente) y en otro gráfico 3 boxplot (uno por cada calor).
¿Problema?
#para que haga dos graficos

par(mfrow=c(1,2))
#por detergente
boxplot(manchas˜detergente)
title(’Manchas por detergente’)
#por calor
boxplot(manchas˜calor)
title(’Manchas por calor’)
Detergentes, ¿qué graficamos?
Manchas por detergente Manchas por calor

12
12
8
8
4
4
1 2 1 2 3

El gráfico que debemos hacer: Gráfico de Interacción
#miro en ambas direcciones

interaction.plot(detergente, calor, manchas)
#miro en ambas direcciones

interaction.plot(calor, detergente, manchas)
Gráficos de interacción para detergentes
manchas
calor detergente
mean of manchas
12
2
10
3 2
10
1 1
mean of
8
6
6
1 2
1 2 3
detergente calor
¿Interacción o no?
Hay que tener cuidado que significa que haya interacción.

No necesariamente estamos buscando rectas paralelas
Estamos buscando las mismas tendencias.
Otro ejemplo: como matar polilas...
En el archivo polillas.R tenemos el número de polillas que se

atraparon después de 48 horas. Se hizo un experimento donde
se consideraron dos Factores que pueden influir en atrapar
polillas:

polillas:
Factor 1: lugar en el árbol (en las ramas de arriba, en las del

medio, en las de abajo, en el piso)
Factor 2: tipo de trampa que se uso (esencia, azúcar o

quı́mico)

polillas:
Factor 1: lugar en el árbol (en las ramas de arriba, en las del

medio, en las de abajo, en el piso)
Factor 2: tipo de trampa que se uso (esencia, azúcar o

quı́mico)
Se quiere estudiar que combinación de factor hace que se

atrapen más polillas.
Datos polilla
#leo los datos
polilla=read.table("polillas.R",header=TRUE)
attach(polilla)
# miro que variables hay

names(polilla)
#[1] "Location" "atrapan" "cuantas"
#miro un poco los datos

head(polilla)
# Location atrapan cuantas
# 1 Top Scent 35
# 2 Top Scent 22
# 3 Top Scent 33
# 4 Top Scent 21
# 5 Top Scent 17
# 6 Middle Scent 36
Datos polillas. Gráficos.
Podemos graficar un boxplot por cada población (cada
combinación) (12 boxplots).
boxplot(cuantasãtrapan*Location)
title(’Cuantas atrapan por lugar y forma’)
Cuantas atrapan por lugar y forma

45
35
25
15
Chemical.Ground Sugar.Ground Scent.Lower Chemical.Middle Sugar.Middle Scent.Top

Datos polillas, ¿qué graficamos?
Podemos graficar en un gráfico 4 boxplot (uno por cada arbol) y
en otro gráfico 3 boxplot (uno por cada forma de atraparlas).
Problema?
#para que haga dos graficos

par(mfrow=c(1,2))
#por forma de atrapar

boxplot(cuantasãtrapan)
title(’Cuantas atrapan por forma’)
#titulo del grafico
#por lugar donde se atrapa

boxplot(cuantas˜Location)
title(’Cuantas atrapan por lugar’)
#titulo del otro grafico
Más gráficas de las polillas
45
45
35
35
25
25
15
15
Chemical Scent Sugar Ground Lower Middle Top

EL GRAFICO: INTERACTION PLOT
#para que haga dos gráficos en uno

par(mfrow=c(1,2))
#miro en ambas direcciones interaction.plot(Location, atrapan,

cuantas)
#miro en ambas direcciones interaction.plot(atrapan, Location,

cuantas)
gráficos de interaccion para las polillas
atrapan Location
35
35
Scent Lower
Sugar Middle
Chemical Top
Ground
mean of cuantas
mean of cuantas
30
30
25
25
20
20
Ground Middle Top Chemical Scent Sugar
Location atrapan
¿Hay o no hay interacción?
Tratar de contestar a la pregunta a partir de los gráficos. Luego

veremos una forma estadı́stica de contestar.
Una variable cuantitativa como respuesta y dos
cualitativas como predictora: resumen
Cuando tenemos una variable cuantitativa como respuesta que

tenemos que estudiarla en función de dos cualitativas
(predictora) el análisis exploratorio de datos consiste en:

variablilidad de la cuantitativa por cada combinación de las
categorı́a de las variables predictoras.
Resumen gráfico: un diagrama de caja de la variable

cuantitativa por cada combinación de categorı́a de la variables
predictoras o idem con histograma y si o si un gráfico de
interaccion.
Dos variables continuas: scatterplot y correlación
Consideremos los datos datos_para_ejemplos_2012.csv
los cuales corresponden a alumnos que cursaron la materia
Probabilidad y Estadı́stica en el segundo semestre del 2012.
Entre otras variables, ese conjunto de datos tiene la altura y
talla de calzado de los alumnos.
¿Qué tipo de variables son la altura y el número de calzado?

Dos variables continuas: scatterplot y correlación
Consideremos los datos datos_para_ejemplos_2012.csv
los cuales corresponden a alumnos que cursaron la materia
Probabilidad y Estadı́stica en el segundo semestre del 2012.
Entre otras variables, ese conjunto de datos tiene la altura y
talla de calzado de los alumnos.
¿Qué tipo de variables son la altura y el número de calzado?
Leamos los datos

alumnos=read.csv("datos_para_ejemplos_2012.csv")
attach(alumnos)
names(alumnos)
# [1] "IDENTIFICACION" "ALTURA"
# [3] "OJOS" "SEXO"
# [5] "EDAD" "PC."
# [7] "NETBOOK." "CALIFICACIONA"
# [9] "CALIFICACIONB" "VECESB."
# [11] "CALIFICACIONC" "INGRESO"
# [13] "HORAS" "CARRERA"
# [15] "ANTEBRAZO" "PIE"
# [17] "numero" "LETRA"
# [19] "VELOCIDAD"
Gráficos de cada variable - ALTURA
hist(ALTURA)
Histogram of ALTURA
15
Frequency
10
5
0
1.2 1.4 1.6 1.8
ALTURA
Gráficos de cada variable - número CALZADO
hist(PIE)
Histogram of PIE
20
15
Frequency
10
5
0
20 25 30 35 40 45 50
PIE
¿Cómo grafico la relación entre ellas?
plot(PIE, ALTURA, xlab="Pie", ylab="Altura")

title("Altura vs pie")
¿Cómo grafico la relación entre ellas?
plot(PIE, ALTURA, xlab="Pie", ylab="Altura")

Altura vs pie
1.8
1.6
Altura
1.4
1.2
25 30 35 40 45
Pie
¿Qué pasó?
Interpretando un scatterplot
I ¿Tienen los puntos un patrón claro con una dirección

particular, o pareciera que no hay un patrón claro?
I Si hay una tendencia, ¿es hacia abajo o hacia arriba? (si
miramos de izquierda a derecha)
I Si hay una tendencia, ¿sigue una linea recta? (en este
caso llamada asociación lineal), ¿o hay alguna curva o
otro patrón?
I ¿Hay outliers que se pueden distinguir del patrón general
de los datos?
Interpretar el gráfico anterior.
¿Un gráfico mejor?
Altura = ALTURA[PIE>30 & ALTURA>1.15]

Pie = PIE[PIE>30 & ALTURA>1.15]
Sexo = SEXO[PIE>30 & ALTURA>1.15]
plot(Altura˜Pie, xlab = "Pie", ylab = "Altura")
¿Un gráfico mejor?
Altura vs pie
1.85
1.75
Altura
1.65
1.55
36 38 40 42 44 46
Pie
¿Cuando usamos este gráfico? ¿qué conclusión exploratoria

se deduce?
¿Y si le agrego sexo? Otra forma.
library(car)
scatterplot(Pie, Altura, groups = Sexo,
legend.title = ’SEXO’, legend.coords = ’topright’,
smooth = FALSE, reg.line = FALSE, boxplots = FALSE)
SEXO
1.85
femenino
masculino
1.75
Altura
1.65
1.55
36 38 40 42 44 46
Pie
¿Para qué nos sirve este gráfico? ¿Qué conclusión

exploratoria se deduce?
Otro ejemplo: resumen gráfico
En los datos alumnos-esp.csv se quiere ver si el peso se puede
predecir a partir de la altura.
alumnos.esp =read.csv("alumnos-esp.csv", sep=";")
attach(alumnos.esp)
library(car)
scatterplot(altura, peso, legend.title = ’Sexo’,
reg.line=lm, legend.coords = ’bottomright’, smooth = FALSE, boxplots = F)
90
80
70
peso
60
50
160 170 180 190
altura
Parece lineal la relación. Agreguemos la recta de regresión.

Otro ejemplo: resumen gráfico
Agreguemos la linea de regresion.

scatterplot(altura, peso, legend.title = ’Sexo’,
reg.line=lm, legend.coords = ’bottomright’, smooth = FALSE, boxplots = F)
90
80
70
peso
60
50
160 170 180 190
altura
Otra forma de agregarle la recta de regresión
Agreguemos la linea de regresion.

plot(altura,peso)
modelo=lm(pesoãltura)
abline(modelo,col=’red’)
90
80
70
peso
60
50
160 170 180 190
altura
Grafico discriminado por sexo (primera opción)
Discriminado por sexo

scatterplot(altura, peso, groups = sexo, reg.line=lm,
legend.title = ’Sexo’, legend.coords = ’bottomright’, smooth = FALSE, boxplots = TRUE)
90
80
70
peso
60
Sexo
50
F
M
160 170 180 190
altura
Grafico discriminado por sexo (segunda opción)
Discriminado por sexo
plot(altura[sexo==’M’],peso[sexo==’M’],
xlim=c(min(altura),max(altura)),ylim=c(min(peso)-1,
max(peso)+1),col=’blue’,pch=15,xlab=’Altura’,ylab=’peso’)
points(altura[sexo==’F’],peso[sexo==’F’],col=’magenta’,pch=16)
legend(153,89,c(’Varones’,’Mujeres’),pch=c(15,16),col=c(’blue’,’magenta’))
title(’Peso en funcion de altura por sexo’)
modelo1=lm(peso[sexo==’M’]ãltura[sexo==’M’])
modelo2=lm(peso[sexo==’F’]ãltura[sexo==’F’])
abline(modelo1,xlim=c(min(altura[sexo==’M’]),
max(altura[sexo==’M’])),col=’black’)
abline(modelo2,,col=’red’)
Peso en funcion de altura por sexo

90
Varones
Mujeres
80
70
peso
60
50
160 170 180 190
Altura
Otro ejemplo: Lagos de Florida
El conjunto de datos FloridaLakes contiene datos que

describen las caracterı́sticas de muestras de agua tomadas en
n = 53 lagos de Florida. En cada lago se midió la alcalinidad
(concentración de carbonato de calcio en mg/L), la acidez (pH),
además se registró el nivel de mercurio medio para una
muestra de peces tomada en cada lago y finalmente también
se obtuvo un nivel de mercurio estandarizado ajustando los
promedios de mercurio para dar cuenta de la edad de los
peces de cada lago.
Lagos de Florida
Discuta para cada gráfico la información contenida en el
scatterplot. Si aparece una asociación negativa o positiva
discuta el significado en cada contexto. Ejemplo 2.34 Lock.
Imagen positiva de un presidente vs re-elección
Cuando un presidente en Estados Unidos trata de obtener la
reelección, ¿cuán fuerte es la relación entre la imagen positiva
del presidente y el resultado de la elección? La siguiente tabla
incluye todas las elecciones presidenciales desde 1940 en la
cual se muestra el ı́ndice de aprobación presidencial en el
momento de la elección y el margen de la victoria o la derrota
para el presidente. Los datos están en ElectionMargin.
Imagen positiva de un presidente vs. reelección
¿Cómo gráfico?
Imagen positiva de un presidente vs. reelección
¿Cómo gráfico?
Interpretación
Para los datos de la reelección presidencial, vemos una

asociación positiva ya que existe una tendencia de alza en el
margen de la victoria a medida que aumenta la aprobación del
candidato. Mientras que la puntos ciertamente no todos caen
exactamente en una lı́nea recta, podemos imaginar una lı́nea
que coincida con la tendencia general de los datos. Hay una
tendencia lineal general, y es una asociación relativamente
fuerte.
Resumen numérico de la asociación entre dos
variables
La correlación es una medida de la fuerza y dirección de

la asociación lineal entre dos variables cuantitativas.
Notación:
I La correlación entre dos variables cuantitativas de una
muestra se suele denotar por r .
I La correlación entre dos variables cuantitativas de una
población suele denotarse por ρ.
Propiedades de la correlación
Miremos las tablas de las correlaciones en los ejemplos

anteriores:
¿Qué vemos? ¿Entre que dos números está? ¿Cuando parece

dar positiva y cuando negativa la correlación? ¿Cuando está
más cerca de 1 o -1?
Propiedades de la correlación muestral
I −1 ≤ r ≤ 1
I El signo de r indica la dirección de asociación
I Valores de r cercanos a 1 o a -1 muestran fuerte relación
lineal, mientras que valores de r cercanos a 0 muestran no
relación lineal
I La correlación r no tiene unidades y es independiente de
la escala de cada variable
I La correlación es simétrica. La correlación entre x e y es
la misma que entre y y x
Fórmula para calcular la correlación
Para una muestra (x1 , y1 ), . . . (xn , yn ) la correlación muestral

entre las variables x e y se calcula como:
n
1 X xi − x̄ yi − ȳ
r=
n−1 sx,n−1 sy,n−1
i=1
En la computadora:
cor(x,y)
De los grillos y la temperatura.
El saber popular dice que uno puede determinar la temperatura

en una noche de verano contando cuantos grillos están
“chillando”. Acá la tabla de la cuenta en un verano de 1898.
Data 2.10 de Lock.
Usando R encuentre la correlación entre estas dos variables y

responda: ¿están fuertemente asociadas? (linealmente). Haga
un gráfico de la temperatura vs la cantidad de grillos chillando.
El saber popular dice que uno puede determinar la temperatura

en una noche de verano contando cuantos grillos están
“chillando”. Acá la tabla de la cuenta en un verano de 1898.
Data 2.10 de Lock.
Usando R encuentre la correlación entre estas dos variables y

responda: ¿están fuertemente asociadas? (linealmente). Haga
un gráfico de la temperatura vs la cantidad de grillos chillando.
r = .99. Wauuuuu.
Es siempre siempre importante hacer un gráfico quizas antes
de calcular la correlación para hacer conjeturas (ya veremos
pronto porque).
Cuidados con la correlación I
La figura siguiente muestra la esperanza de vida media (en
años) de una muestra de 40 paises vs el promedio de grasa en
la comida de cada paı́s (medida en gramos por capita por dı́a).
Ejemplo 2.36 Lock.
Interprete este gráfico.

Cuidados con la correlación I
La figura siguiente muestra la esperanza de vida media (en
años) de una muestra de 40 paises vs el promedio de grasa en
la comida de cada paı́s (medida en gramos por capita por dı́a).
Ejemplo 2.36 Lock.
Interprete este gráfico. Esto significa que debemos comer más

grasa para vivir más?????
Correlación no implica relación causa-efecto!!!!!
Es un estudio observacional ası́ que esto no significa que si

cambiamos una de las variables (por ejemplo consumo de
grasa) causará el incremento de la otra variable (esperanza de
vida).
¿Les parece que hay alguna variable confundida?

Correlación no implica relación causa-efecto!!!!!
Es un estudio observacional ası́ que esto no significa que si

cambiamos una de las variables (por ejemplo consumo de
grasa) causará el incremento de la otra variable (esperanza de
vida).
¿Les parece que hay alguna variable confundida? Si, la salud

de ese paı́s.
Cuidados con la correlación II
La temperatura del cuerpo para una persona tiende a cambiar
durante el dı́a de acuerdo al ritmo cardı́aco. Supongamos que la
temperatura del cuerpo de una mujer adulta se registra cada hora de
un dı́a, empezando a la 6 de la mañana. ¿Parece haber una
asociación entre el momento del dı́a y la temperatura corporal?
“estime la correlación”. Lock ejemplo 2.37.
Describa el comportamiento. ¿Están asociadas las variables?

¿Saben cuánto es la correlación?
Cuidados con la correlación II
La temperatura del cuerpo para una persona tiende a cambiar
durante el dı́a de acuerdo al ritmo cardı́aco. Supongamos que la
temperatura del cuerpo de una mujer adulta se registra cada hora de
un dı́a, empezando a la 6 de la mañana. ¿Parece haber una
asociación entre el momento del dı́a y la temperatura corporal?
“estime la correlación”. Lock ejemplo 2.37.
Describa el comportamiento. ¿Están asociadas las variables?

¿Saben cuánto es la correlación? -0.08. Casi cero!!!!!! ¿Por
qué?
La correlación mide la asociación LINEAL entre dos
variables.
Una correlación cercana a cero no significa

necesariamente que dos variabels NO estén
asociadas, ya que la correlación solo mide
asociación LINEAL.
Cuidados con la correlación III
Para estudiar la asociación entre dieta y niveles de retinor y beta
carotena en sangre, se registró una variedad de dietas y variables
demográficas de individuos, como ser alcohol consumido, promedio
diario de calorı́as, edad, genero, uso de multivitaminas, gramos de
grasa por dı́a, gramos de fibra por dı́a, si es fumador o no, etc. Lock
ejemplo 2.11.
Describir los datos que graficamos. ¿Cuál “estima” que es la

correlación? ¿Es cercana a cero?
Efecto de outliers
La correlación es r = 0.72, sin embargo si quitamos el punto

outlier (en realidad es UN ERROR). La correlación es
r = 0.15!!!!
Como dije antes: grafiquemos SIEMPRE, siempre, SIEMPRE

los datos ya que la correlación puede ser fuertemente
influenciada por outlieres.
Dos variables cuantitativas: resumen
Cuando tenemos dos variable cuantitativas y una es respuesta

y la otra es predictora

variablilidad por cada variable cuantitativa. Además, si en el
gráfico de respuesta vs predictora se ve asociaciń linear,
agregar el coeficiente de correlación y la recta de mı́nimos
cuadrados. Recordar: el coeficiente de correlación no dice
nada si la relación no es lineal. (Idem la recta de mı́nimos
cuadrados).
Resumen gráfico: un diagrama de dispersión donde ponemos

en el eje y la variable respuesta y en el eje x la variable
predictora. Si la relación es lineal agregar la recta de mı́nimos
cuadrados.
Repaso. Según la pregunta de interés podemos tener
Variables cualitativas
I Una variable. Resumen numérico: porcentajes.
resumen gráficos: barra, torta.
I Dos variables. Resumen: tablas de contingencia.
Porcentaje por celda, por filas, por columnas. Si una
variable es respuesta y la otra predictora se deben hacer
porcentajes por cada categorı́a de la variable predictora
I Dos variables. Resumen: tablas de contingencia.
Porcentaje por celda, por filas, por columnas. Si una
variable es respuesta y la otra predictora se deben hacer
porcentajes por cada categorı́a de la variable predictora
gráficos: diagrama de barra adosado o apilado. Siempre
poner porcentaje en el eje y.
Variables cuantitativas
I Una variable:
Resumen grafico: una medida de centro (media, mediana)
y una medida de variabilidad (desvio estandard, rango
intercuartilico, entre otros)
Resumen grafico: si es discreta se puede hacer lo que se
hace para cualitativas. Si es continua se puede hacer
diagrama de caja, histogramas
Variables cuantitativas
I Una variable:
Resumen grafico: una medida de centro (media, mediana)
y una medida de variabilidad (desvio estandard, rango
intercuartilico, entre otros)
Resumen grafico: si es discreta se puede hacer lo que se
hace para cualitativas. Si es continua se puede hacer
diagrama de caja, histogramas
I Dos variables cuantitativas: scatterplot
Una variable cuantitativa (respuesta) con una variable
categórina (predictores)
I Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de la variable predictora.
I Diagramas de caja por categorı́a o histograma por cada
categorı́a. O diagrama de dispersion. (cuando son pocos
datos)
Una variable cuantitativa (respuesta) con una variable
I Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de la variable predictora.
I Diagramas de caja por categorı́a o histograma por cada
categorı́a. O diagrama de dispersion. (cuando son pocos
datos)
Una variable cuantitativa (respuesta) con dos variable
Resumen numerico: una medida de centro y una de
variabilidad por cada categoria de cada uno de los cruces de
las variables predictoras.
Resumen grafico: boxplots e Interaction plots

Analisis Exploratorio de Datos

Caricato da

Informazioni sul documento

Descrizione originale:

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Analisis Exploratorio de Datos

Caricato da

Copyright:

Formati disponibili

Probabilidad y Estadı́stica

Cátedra de Probabilidad y Estadı́stica

Facultad de Ingenierı́a Quı́mica

del libro de Walpole, Myers, Myers y Ye

I También el EV será un medio de comunicación donde

I Por favor, agreguen su nombre completo y una foto (si es

I La Guı́a R es una guı́a del software que utilizaremos en

I Para las clases en necesario que los alumnos que tengan

I Regularidad: Tres controles de regularidad. Deberá

I Promoción: Tres parciales con peso 30-30-40: El alumno

I Comisiones de 120 hs. y 90hs.

I Como son los parciales y los controles.

I Fecha de parciales. Primero: sábado de la semana cuarta

I Código de honor en Parciales y Controles.

I Instalar R (ver en el EV las instrucciones).

I Instalar los paquetes (Sección 2 de la guı́a R)

I Copiar los datos y traerlos todas las clases (puede ser en

Es la ciencia de recolectar, describir

Los datos pennstate.csv corresponden a una encuestra

Estas son las primeras filas de los datos:

I Unidades o casos: los sujetos u objetos de los cuales

I Variable: es cualquier caracterı́stica de los casos o

Explicar que nos dice cada variable del primer estudiante.

¿Cómo obtuvieron ese archivo con los datos?

# leer los datos: ir al directorio correcto o

datos = read.csv(’pennstate.csv’, header = TRUE,

# con la sentencia header = T le estamos diciendo

#suelta las columnas

#ahora las puedo llamar con su nombre

# nos da los nombres de las variables

#[1] "Sexo" "Dormida"

head(datos) #miro los primeros alumnos

# Sexo Dormida SQ Altura numeroAleatorio

Una variable es una caracterı́stica que cambia de una persona

En el ejemplo del Censo tenemos diferentes tipos de variables:

I Variables cuantitativas o numéricas.

# nos da los nombres de las variables

#[1] "Sexo" "Dormida"

En los ejemplos de que involucramos más de una variable,

Cuando usamos una variable para ayudar a entender o

¿Usar los datos para qué?: para responder una pregunta.

Población: incluye todos los individuos u objeto de interés.

Muestra: es un subconjunto de una población. ¿Cualquier

Inferencia estadı́stica: es el proceso de usar datos de una

I La diferencia es, si tenemos datos poblacionales

I Importancia de datos muestrales vs. datos poblacionales

I ¿Qué porcentaje de personas se lava las manos después

El dı́a después de las elecciones presidenciales de 1948 en

El dı́a después de las elecciones presidenciales de 1948 en

Muestreo aleatorio simple: Tengo una población definida. El

Diseño experimental: El diseño experimental es una técnica

Ver Piedra papel y tijera:

Comencemos con dos definiciones:

Asociación: Dos variables están asociadas si el valor de una

Causa: Dos variables están asociadas por causalidad si el

I Un estudio muestra que hay una asociación negativa entre

La correlación y la causalidad están estrechamente

Una variable confundida, es una tercera variable que

Ejemplo: Venta helados-muertos ahogados.

¿Cuándo podemos establecer estadı́sticamente que una

La clave esta en como recolectamos los datos.

Si queremos estudiar como la variable predictora influye en la

Esto son los diseños de experimentos. Pero podemos siempre