Sei sulla pagina 1di 18

Calidad

de los datos Los datos deben sa.sfacer los requerimientos para los cuales se pretenden u.lizar. Factores de calidad de los datos: exac%tud, integridad, consistencia, conabilidad, interpretabilidad, deben ser oportunos.

Preprocesamiento

Calidad de los datos Datos faltantes. Valores a>picos. Muestras o registros repe.dos.

Preprocesamiento

Datos faltantes
Ignorar el registro. Asignar una constante global. U.lizar una medida de tendencia central para el atributo. U.lizar una medida de tendencia central para las muestras que pertenecen a la misma clase. Conservar el registro, pero ignorar la variable. Imputacin por mtodos ms avanzados.

Preprocesamiento

Ignorar el registro

Datos faltantes

Ignorar el registro

Datos faltantes

Datos faltantes
Ignorar el registro. Asignar una constante global. U.lizar una medida de tendencia central para el atributo. U.lizar una medida de tendencia central para las muestras que pertenecen a la misma clase. Conservar el registro, pero ignorar la variable. Imputacin por mtodos ms avanzados.

Preprocesamiento

U.lizar una medida de tendencia central para el atributo.

Eliminamos los registros en los que existen valores faltantes y calculamos la media de cada atributo con los datos que si tenemos. En el caso de variables cualita.vas, el mtodo ms simple consiste en asignar el valor ms frecuente (moda). Datos faltantes

Ac.vidad 1:
Realizar una funcin en R que: Lea un conjunto de datos. Busque valores faltantes en el conjunto de datos. Iden.que la posicin de los valores faltantes. Asigne un valor a los valores faltantes basndose en una medida de tendencia central para el atributo correspondiente.

Datos faltantes

Datos faltantes
Ignorar el registro. Asignar una constante global. U.lizar una medida de tendencia central para el atributo. U.lizar una medida de tendencia central para las muestras que pertenecen a la misma clase. Conservar el registro, pero ignorar la variable. Imputacin por mtodos ms avanzados.

Preprocesamiento

Ac.vidad 2:
Realizar una funcin en R que: Lea un conjunto de datos. Busque valores faltantes en el conjunto de datos. Iden.que la posicin de los valores faltantes para una misma clase. Asigne un valor a los datos faltantes basndose en una medida de tendencia central para los datos del atributo que pertenecen a la misma clase.

Datos faltantes

Exploracin y limpieza de los datos Datos faltantes. Valores a>picos. Muestras o registros repe.dos.

Preprocesamiento

Valores a>picos

Estrategias para deteccin: Diagrama de caja. U.lizar la desviacin estndar, en caso de una distribucin normal.

Preprocesamiento

Deteccin mediante el diagrama de caja

Proporciona una visin general de la simetra de la distribucin de los datos; si la mediana no est en el centro del rectngulo, la distribucin no es simtrica. Es .l para ver la presencia de valores a>picos, tambin llamados outliers.

Valores a>picos

Deteccin mediante desviaciones estndar

En una distribucin normal, los valores separados de la media por ms de tres desviaciones estndar pueden considerarse como a>picos.

Valores a>picos

Pruebas de normalidad

Shapiro-Wilk. Kolmogorov-Smirnov Anderson-Darling.

Valores a>picos

Prueba Shapiro-Wilk u.lizando R

Valores a>picos

Estrategias de tratamiento

La exclusin de un registro con un valor a>pico, reduce la u.lidad del modelo. En caso de excluir, no excluir ms del 2% de los registros. Acotar la variable al 1er. o al 99no. percen.l. Colocar los valores extremos en una clase adicional.

Valores a>picos

Ac.vidad 3:
Realizar una funcin en R que: Lea un conjunto de datos. Busque valores a>picos en el conjunto de datos e iden.que la posicin de dichos valores. Realice un diagrama de caja para cada uno de los atributos, indicando tambin el >tulo de la grca, y los nombres de cada atributo.

Valores a>picos

Potrebbero piacerti anche