Sei sulla pagina 1di 18

Universidad Nacional Tecnológica de Lima Sur

Facultad de Ingeniería y Gestión

Estadística General

Análisis Exploratorio de Datos

Mg. Myrna Manco Caycho

Mg. Myrna Manco C. Análisis Exploratorio de Datos 1


Definición de análisis exploratorio de datos
Conjunto de herramientas estadísticas que permiten una visualización
previa al análisis definitivo de los datos en estudio.

 OBJETIVOS:
 Evaluar la calidad y la consistencia de los datos.
 Determinar la distribución de las variables en estudio.
 Aplicar el tratamiento de datos ausentes.
 Detectar datos atípicos (outliers), asimetría y dispersión.
 Comprobar supuestos: normalidad, linealidad, homoscedasticidad.
 Realizar operaciones aritméticas sencillas y representaciones
fáciles de trazar que pueden emplearse para resumir con rapidez
los datos.
 Explorar formas de categorizar variables a través de búsqueda de
puntos de corte.
Mg. Myrna Manco C. Análisis Exploratorio de Datos 2
Diagrama de tallo y hojas

Permite observar al conjunto de datos como un


todo y destacar algunas características, tales
como:
 La simetría del conjunto de datos
 La variabilidad de los datos
 La presencia o no de “outliers”
 Mostrar la forma de un conjunto de datos.
 Concentración de los datos
 Brechas en el conjunto de datos

Mg. Myrna Manco C. Análisis Exploratorio de Datos 3


Ejemplo: Hudson Auto Reparación
Al Gerente de Hudson Auto Reparación le gustaría
tener una mejor idea de la distribución de los costos de
las refacciones de afinación de los motores. Se tomó
una muestra de las facturas de 50 clientes y se
redondearon los costos a los soles más cercanos.

91 78 93 57 75 52 63 80 56 62
71 69 72 89 66 75 79 75 72 76
89 74 62 68 97 58 77 65 80 58
85 97 88 68 83 68 71 69 67 74
62 82 98 89 79 65 79 69 62 73

Mg. Myrna Manco C. Análisis Exploratorio de Datos 4


Ejemplo: Diagrama de tallo y hojas
Datos: Hudson Auto Reparación
5 5 2 6 7 8 8
15 6 2 2 2 2 3 5 5 6 7 8 8 8 9 9 9
(16) 7 1 1 2 2 3 4 4 5 5 5 6 7 8 9 9 9
9 8 0 0 2 3 5 8 9 9 9
5 9 1 3 7 7 8

Asimétrica
No Normalidad
No Valor extremo

Mg. Myrna Manco C. Análisis Exploratorio de Datos 5


Diagrama de tallo y hojas extendido (Hudson Auto
Reparación)
Si el diagrama original de tallo y hojas ha condensado mucho los datos,
podemos ampliar el diagrama.

5 2
5 6 7 8 8
6 2 2 2 2 3
6 5 5 6 7 8 8 8 9 9 9
7 1 1 2 2 3 4 4
7 5 5 5 6 7 8 9 9 9
8 0 0 2 3
8 5 8 9 9 9
9 1 3
Mg. Myrna Manco C. 9 7 7 8 Análisis Exploratorio de Datos 6
DIAGRAMA DE TALLOS Y HOJAS

ABSORCIO Stem-and-Leaf Plot for


TRAT= Tres riegos diarios

Frequency Stem & Leaf

3.00 0 . 2&
17.00 0 . 66778899&
24.00 1 . 001233334444
42.00 1 . 555666667778888889999
46.00 2 . 00000111112233333334444
24.00 2 . 556677788999
9.00 3 . 0134&
7.00 3 . 789&
14.00 4 . 0011244
6.00 4 . 556
7.00 Extremes (>=479)

Stem width: 100


Each leaf: 2 case(s)

& denotes fractional leaves.


Gráfico de cajas de Tukey (Boxplots)
 Resumen con 5 números: Mínimo, cuartiles y máximo.
 Suelen dar una buena idea de la distribución.

 La zona central, ‘caja’, contiene al 50% central de las observaciones. Su tamaño


se llama ‘rango intercuartílico’ (R.I.)

Diagrama de cajas de Tukey: Resumen en 5 números


• Aplicable a variables
cuantitativas continuas.
0.08
• Útiles para comparar
0.06
diferentes
densidad

distribuciones.
0.04

• Valores extremos y una


0.02

Mín. P25 P50 P75 Máx.


idea de la simetría de la
distribución
0.00

40 45 50 55 60 65

Velocidad (Km/h) de 200 vehículos en ciudad

Mg. Myrna Manco C. Análisis Exploratorio de Datos 8


Gráfico de cajas de Tukey
 Es costumbre que ‘los bigotes’, no lleguen hasta los extremos, sino hasta las
observaciones que se separan de la caja en no más de 1,5 R.I. Más allá de
esa distancia se consideran anómalas, y así se marcan.
Diagrama de cajas de Tukey: Resumen en 5 números
0.04
0.03
densidad

0.02

P25 P50 P75


0.01

Mín. Máx.
0.00

80 90 100 110 120 130 140

Velocidad (Km/h) de 200 vehículos en autovía

Mín (Q3+1.5(Q3-Q1), máx(X1, X2, …, Xn))


Máx (Q1-1.5(Q3-Q1), mín (X1, X2, …, Xn))

Mg. Myrna Manco C. Análisis Exploratorio de Datos 9


Diagramas de caja y línea para la distribución de albuminemia (en
grs/dl) en pacientes con función hepática normal y en pacientes
con insuficiencia hepática

Función Insuficiencia
normal Hepática
Valor mínimo 3.1 1.9
Primer cuartil 3.7 2.4
Mediana 4.0 2.8
Tercer cuartil 4.3 3.1
Valor máximo 5.0 3.9

Mg. Myrna Manco C. Análisis Exploratorio de Datos 10


GRÁFICO DE CAJAS
Ejercicio: La siguiente tabla muestra los resúmenes descriptivos para los
datos sobre la cantidad de lluvia registrada por n estaciones de medición en
Madrid:

Mg. Myrna Manco C. Análisis Exploratorio de Datos 12


Indica cuál de estos diagramas de caja (box-plot) puede representar a este
conjunto de datos y da razones de por qué los otros no pueden representar a
los datos resumidos en la tabla

Tomado de: TEMA 5: ANÁLISIS EXPLORATORIO DE DATOS EN SPSS


ASIGNATURA DE ANÁLISIS ESTADÍSTICO DEL TURISMO II - Curso 2006/07

13
FACULTAD DE CIENCIAS EMPRESARIALES - UNIVERSIDAD DE HUELVA
Mg. Myrna Manco C. Tercer Curso. Diplomatura en Turismo Análisis Exploratorio de Datos
Tomado de Daniels
Mg. Myrna Manco C. Análisis Exploratorio de Datos 14
Distribuciones
bivariadas

Mg. Myrna Manco C. 15


PARTES DE UNA TABLA DE CONTINGENCIA

(Título)
CLASIFICACIÓN DE LOS PACIENTES SEGÚN SEXO Y CIUDAD, Nazca 2012

Encabeza
Sexo Ciudad miento
A B C D Total %
Femenino 4 3 2 1 10 33.3
Masculino 7 3 5 5 20 66.7
Total 11 6 7 6 30
% 36.7 20 23.3 20 100.0
Fuente: Tabla 1
Categoría
(valores) de la Matriz de
variable
datos
Fuente
GRÁFICO DE BARRAS HORIZONTALES (AGRUPADA)

Compara valores entre categorías

Artes, Cien. Soc., Educ. y Com.

Cien. Nat., Terapia y Enfermería

Adm. de Empresas y Secretarial

0 1 2 3 4 5 6 7

Masculino Femenino
GRÁFICO DE BARRAS HORIZONTALES (APILADA AL 100%)

Compara, entre categorías, el porcentaje que cada valor aporta al total.

Artes, Cien. Soc., Educ. y Com.

Cien. Nat., Terapia y Enfermería

Adm. de Empresas y Secretarial

0% 20% 40% 60% 80% 100%

Masculino Femenino