Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
de los datos Los datos deben sa.sfacer los requerimientos para los cuales se pretenden u.lizar. Factores de calidad de los datos: exac%tud, integridad, consistencia, conabilidad, interpretabilidad, deben ser oportunos.
Preprocesamiento
Calidad de los datos Datos faltantes. Valores a>picos. Muestras o registros repe.dos.
Preprocesamiento
Datos
faltantes
Ignorar
el
registro.
Asignar
una
constante
global.
U.lizar
una
medida
de
tendencia
central
para
el
atributo.
U.lizar
una
medida
de
tendencia
central
para
las
muestras
que
pertenecen
a
la
misma
clase.
Conservar
el
registro,
pero
ignorar
la
variable.
Imputacin
por
mtodos
ms
avanzados.
Preprocesamiento
Ignorar el registro
Datos faltantes
Ignorar el registro
Datos faltantes
Datos
faltantes
Ignorar
el
registro.
Asignar
una
constante
global.
U.lizar
una
medida
de
tendencia
central
para
el
atributo.
U.lizar
una
medida
de
tendencia
central
para
las
muestras
que
pertenecen
a
la
misma
clase.
Conservar
el
registro,
pero
ignorar
la
variable.
Imputacin
por
mtodos
ms
avanzados.
Preprocesamiento
Eliminamos los registros en los que existen valores faltantes y calculamos la media de cada atributo con los datos que si tenemos. En el caso de variables cualita.vas, el mtodo ms simple consiste en asignar el valor ms frecuente (moda). Datos faltantes
Ac.vidad
1:
Realizar
una
funcin
en
R
que:
Lea
un
conjunto
de
datos.
Busque
valores
faltantes
en
el
conjunto
de
datos.
Iden.que
la
posicin
de
los
valores
faltantes.
Asigne
un
valor
a
los
valores
faltantes
basndose
en
una
medida
de
tendencia
central
para
el
atributo
correspondiente.
Datos faltantes
Datos
faltantes
Ignorar
el
registro.
Asignar
una
constante
global.
U.lizar
una
medida
de
tendencia
central
para
el
atributo.
U.lizar
una
medida
de
tendencia
central
para
las
muestras
que
pertenecen
a
la
misma
clase.
Conservar
el
registro,
pero
ignorar
la
variable.
Imputacin
por
mtodos
ms
avanzados.
Preprocesamiento
Ac.vidad
2:
Realizar
una
funcin
en
R
que:
Lea
un
conjunto
de
datos.
Busque
valores
faltantes
en
el
conjunto
de
datos.
Iden.que
la
posicin
de
los
valores
faltantes
para
una
misma
clase.
Asigne
un
valor
a
los
datos
faltantes
basndose
en
una
medida
de
tendencia
central
para
los
datos
del
atributo
que
pertenecen
a
la
misma
clase.
Datos faltantes
Exploracin y limpieza de los datos Datos faltantes. Valores a>picos. Muestras o registros repe.dos.
Preprocesamiento
Valores a>picos
Estrategias para deteccin: Diagrama de caja. U.lizar la desviacin estndar, en caso de una distribucin normal.
Preprocesamiento
Proporciona una visin general de la simetra de la distribucin de los datos; si la mediana no est en el centro del rectngulo, la distribucin no es simtrica. Es .l para ver la presencia de valores a>picos, tambin llamados outliers.
Valores a>picos
En una distribucin normal, los valores separados de la media por ms de tres desviaciones estndar pueden considerarse como a>picos.
Valores a>picos
Pruebas de normalidad
Valores a>picos
Valores a>picos
Estrategias de tratamiento
La exclusin de un registro con un valor a>pico, reduce la u.lidad del modelo. En caso de excluir, no excluir ms del 2% de los registros. Acotar la variable al 1er. o al 99no. percen.l. Colocar los valores extremos en una clase adicional.
Valores a>picos
Ac.vidad
3:
Realizar
una
funcin
en
R
que:
Lea
un
conjunto
de
datos.
Busque
valores
a>picos
en
el
conjunto
de
datos
e
iden.que
la
posicin
de
dichos
valores.
Realice
un
diagrama
de
caja
para
cada
uno
de
los
atributos,
indicando
tambin
el
>tulo
de
la
grca,
y
los
nombres
de
cada
atributo.
Valores a>picos