Sei sulla pagina 1di 23

ANÁLISIS EXPLORATORIO DE DATOS

ANÁLISIS EXPLORATORIO DE DATOS

La finalidad del Análisis Exploratorio de Datos (AED) es


examinar los datos previamente a la aplicación de cualquier
técnica estadística. De esta forma el analista consigue un
entendimiento básico de sus datos y de las relaciones existentes
entre las variables analizadas.

El AED proporciona métodos sencillos para organizar y


preparar los datos, detectar fallos en el diseño y recogida de
datos, tratamiento y evaluación de datos ausentes,
identificación de casos atípicos y comprobación de los
supuestos subyacentes en la mayor parte de las técnicas
multivariantes.
Introducción

¿Existe algún tipo de estructura (normalidad, multimodalidad,


asimetría, curtosis, linealidad, homogeneidad entre grupos,
homocedasticidad, etc.) en los datos que voy a analizar?.

¿Existe algún sesgo en los datos recogidos?.

¿Hay errores en la codificación de los datos?.

¿Cómo se sintetiza y presenta la información contenida en un conjunto


de datos?.

¿Existen datos atípicos (outliers)? ¿Cuáles son? ¿Cómo tratarlos?.

¿Hay datos ausentes (missing)? ¿Tienen algún patrón sistemático?


¿Cómo tratarlos?.
Objetivos

1) Definir qué es el Análisis Exploratorio de Datos (A.E.D.) y cuáles


son sus objetivos.
2) Indicar cuáles son las etapas a seguir en la realización de un
A.E.D.
3) Seleccionar los métodos gráfico y numérico apropiados para
examinar las
características de los datos y/o relaciones de interés.
4) Comprobar si se verifican algunas hipótesis de interés en los datos
(normalidad,
linealidad, homocedasticidad).
5) Identificar casos atípicos univariantes, bivariantes y
multivariantes.
6) Comprender los diferentes tipos de datos ausentes y evaluar su
impacto potencial.
RECOLECCIÓN DE DATOS ESTADÍSTICOS

Tabla de individuos por variables. ¿Cómo elegir a los individuos?


¿Cómo construir las variables?

Elección de los instrumentos


de medida; tal vez,
construcción del cuestionario
Variables
X1 X2   XP
Individuos o i1
unid. estadísticas i2


in
Elección de la población
y, tal vez, de la muestra
PRINCIPIO DEL MÉTODO DE MUESTREO

MUESTRA
 REPRESENTATIVA
x
POBLACIÓN
s2
2

Parámetro Estadístico:
Propiedad descriptiva Propiedad
de la población. descriptiva de la
INFERIR muestra.
Población estadística: Conjunto de todos los elementos que
cumplen una o varias características.

Muestra: Subconjunto de los elementos de una población.


Objetivo: Poder describir la población de partida. Para ello, la
muestra debe ser representativa de su correspondiente
población.
Muestreo: procedimiento de extracción de la muestra.
Es importante aprovechar la información de la muestra en un
análisis descriptivo antes de efectuar inferencias sobre la
población.
Muestra Probabilística: “Muestra a la que se llega mediante la
selección de unidades de muestreo, de modo que cada unidad de
la población tenga una probabilidad fija y conocida de ser
seleccionada”

Muestra No Probabilística: Cada unidad de la población no tiene


una probabilidad especifica de ser seleccionada.

Nivel de Presición Deseado (Error de Muestreo): “Diferencia


entre el resultado obtenido en la muestra y el verdadero valor de la
característica en la población.
Métodos de Muestreo Probabilístico

1. Muestreo Aleatorio Simple: es el proceso de enumerar cada


unidad de la población accesible y, a continuación, seleccionar la
muestra al azar.

2. Muestreo Aleatorio Estratificado: La población se divide en


grupos de acuerdo a alguna característica “importante” (edad,
NSE), y se selecciona una muestra aleatoria simple de cada grupo
(estrato).

3. Muestreo Aleatorio por Conglomerados: Cada unidad


seleccionada corresponde a un grupo de individuos agrupados en
forma natural (familia, cursos, comunidades, etc.).
Métodos de Muestreo No Probabilístico

1. Muestreo de casos consecutivos: consiste en elegir a


cada individuo que cumpla con los criterios de
selección dentro de un intervalo de tiempo específico o
hasta alcanzar un número definido de individuos.

2. Muestreo de conveniencia: es el proceso de


seleccionar a los miembros de la población accesible
que se puedan disponer con facilidad.

3. Muestreo a criterio: consiste en seleccionar “a dedo”


entre la población accesible a los individuos que se
suponen más apropiados para participar en el estudio.
RECOLECCIÓN DE DATOS ESTADÍSTICOS

1. Categóricas o cualitativas
Toman un número limitado de modalidades.
Proporciones.

Tipos de variables:
2. Reales o cuantitativas
Toman valores reales para los cuales
podemos calcular resúmenes numéricos

Media, varianza
desviación estándar
Escalas de medida

1.1) Escala nominal: Los números asignados


sólo sirven para distinguir categorías. Sexo
(0=hombre, 1=mujer)

1.2) Escala ordinal: Los números indican no


sólo igualdad/desigualdad (escala nominal)
sino también una relación de orden. Nivel de
depresión (0=bajo, 1=medio, 2=alto)
2.1) Escala de intervalo: En este caso
disponemos ya de unidad de medida (esto es,
sabemos cuánta diferencia hay entre elementos).
El origen de la escala es arbitrario. Temperatura
en grados centígrados o en grados Fahrenheit.

2.1) Escala de razón. En este caso, disponemos


tanto de unidad de medida como de un 0 absoluto.
En este caso, tenemos relaciones de
igualdad/desigualdad de razones. Peso, estatura.
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS

VARIABLES NOMINALES Y ORDINALES

q
auul
l
ry
cc
c
1
6
6
6 V
N
5
3
3
9 F
F
2
1
1
0
N
5
0
0
0 F
3
0
0 T

Fuma Mucho
13,0%

No Fuma

31,6%

Fuma Normal
32,1%

Fuma Poco
23,3%
Descripción de una variable cuantitativa
Escala de Intervalo o de razón
Índice de

Localización Variabilidad Forma Posición

1. Índice de localización o de tendencia central. Media, Mediana y Moda

2. Índices de variabilidad o de dispersión: Permite medir lo lejos o cerca que el


conjunto de observaciones está respecto a un valor central.
Varianza, desviación estándar, Desviación media, Error estándar de la
media y Amplitud.

 Xi  X SEx 
S
A  X max  X min
dm 
n n

Amplitud intercuantil: IQR= Q(3)-Q(1)


3. Índices de forma: Permiten estudiar las características de la
distribución de datos respecto a la clásica distribución normal.
Coeficiente de asimetría: permiten estudiar la simetría o asimetría
de la distribución.

X  Mo
As 
S
Skewness

Tipos de Asimetrías:

Asimetría Positiva Asimetría Negativa


Min Max Min Max
Mo Med X X Med Mo
Asimetría Positiva Asimetría Negativa
As  0 As  0
7
7

6
6

5
5

4
4

3
3

2
2

1
Count

Count
0
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 0
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00
HIJOS
HIJO S

s
Sta tistics
H
HIJOS
N
V
N Valid 25
M
Missing 0
M
Mean 4,8000
M
Median 5,0000
M
Mode 6,00
Tipos de apuntamiento:
10 5,0

8 4,0

6 3,0

Mesocúrtica:
4
Normal 2,0

2 1,0

Count
Count

0 0,0
1,00 2,00 3,00 4,00 5,00 6,00 7,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00

X Y

Leptocúrtica: Platicúrtica:
más apuntada que la normal por debajo de la normal

Coeficiente de Kurtosis: Medida de la concentración de la


distribución en torno a la media.
Cero: Distribución normal.
Positiva: La distribución tiende a concentrarse en torno a la media.
Negativa: Tiende a dispersarse más .
1.4 Índice de posición: Los cauntiles permiten posicionar a un sujeto respecto a un
conjunto de la distribución.

Q(p) D(p) P(p)


Cuartiles Deciles Percentiles

Amplitud intercuantil: IQR= Q(3)-Q(1)

Medida más resistente que la desviación estándar


CARACTERISTICAS PRINCIPALES de las
Tec. Exploratorias:
SIMPLICIDAD, RESISTENCIA y CLARIDAD, utilizando técnicas gráficas como
una forma fácil de penetrar en los datos.

Entender los datos tiene dos aproximaciones generales: exploración y confirmación.

Las técnicas exploratorias pueden generar hipótesis, que pueden ser tomadas como
punto de partida de la empresa científica.

Las técnicas confirmatorias están dirigidas a probar dichas hipótesis, lo cual será
posible realizar cuando tengamos datos que sean relevantes a las hipótesis
planteadas.

Buscar ideas e intentar probarlas son dos cosas diferentes, así que los dos
conjuntos de técnicas necesarias para ello son diferentes.

Objetivo: Vías numéricas y gráficas de Buscar Ideas.


PRINCIPIOS BÁSICOS

Parta identificar y describir las características de las distribuciones de


datos, el EDA difiere del Análisis Descriptivo tradicional en tres
puntos:
•Da más importancia a las medidas de localización, que tienen la
propiedad de la resistencia, razón por la cual son indicadores
adecuados para una gran variedad de distribuciones.

•Utiliza diversos resúmenes estadísticos en lugar de trabajar


únicamente con uno o dos.

•Utiliza resúmenes visuales más bien que numéricos, dando mucho


más relevancia a la información recogida de forma gráfica.
IMPORTANCIA DE LA FORMA DE LA
DISTRIBUCIÓN

P1: La forma de la distribución es, al menos, tan


importante como la localización y la variabilidad.

P2: Para describir la forma característica de una


distribución, las representaciones visuales son
superiores a las representaciones puramente
numéricas.

P3: La elección de resúmenes estadísticos para describir


una variable debería depender de lo apropiados que
sean los índices para describir la forma de la
distribución.
Elección de Índices según la forma de la distribución

Media Mediana Moda


varianza Desviación cuartil Amplitud

Muy poca información


Simétrica Asimétrica
para variables cuantitativas

CLONCLUSIÓN: Es fundamental examinar la forma de la distribución


antes de escoger índices estadísticos para describir cualquiera
de las características de las variables incluidas en el análisis.

LEMA: El análisis descriptivo debería empezar con los datos,


NO con resúmenes de los datos.

Potrebbero piacerti anche