Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
de
Datos
Aplicada
Limpieza
de
Datos
Ulises CP
Ulises CP
Ulises CP
ValoresfaltantesindicadosconNA
Valoresfaltantesindicadoscon?
Explorandoelsubconjuntodedatosfaltantes
Cuntosvaloresfaltantesporatributo?
Cuntosvaloresfaltantesporobservacin?
Culeslarelacinentrelacan=daddevalores
faltantesporatributoyeltotaldeobservacionesdel
conjuntodedatos?
Culeslarelacinentrelacan=daddevalores
faltantesporobservacinyeltotaldeatributosdel
conjuntodedatos?
Valoresfaltantesencadaatributo
Atributo1
Atributo2
Atributod
Culesexcedenelmximopermi=do?
Omi=robservacionesconvaloresfaltantes
No.Valoresfaltantes>10%
EnR:
Paraformarunnuevosubconjunto.
Paracalcularlamediaporatributo
Eliminamos
los
registros
en
los
que
existen
valores
faltantes
Ulises CP
Ulises CP
Ac9vidad
1:
Realizar
una
funcin
en
R
que:
Lea
un
conjunto
de
datos.
Busque
valores
faltantes
en
el
conjunto
de
datos.
Iden9que
la
posicin
de
los
valores
faltantes.
Asigne
un
valor
a
los
valores
faltantes
basndose
en
una
medida
de
tendencia
central
para
el
atributo
correspondiente.
Datos faltantes
Ac9vidad
2:
Realizar
una
funcin
en
R
que:
Lea
un
conjunto
de
datos.
Busque
valores
faltantes
en
el
conjunto
de
datos.
Iden9que
la
posicin
de
los
valores
faltantes
para
una
misma
clase.
Asigne
un
valor
a
los
datos
faltantes
basndose
en
una
medida
de
tendencia
central
para
los
datos
del
atributo
que
pertenecen
a
la
misma
clase.
Datos faltantes
Valor
extremo
En
una
muestra
o
conjunto
de
datos
estra9cados,
un
valor
Extremo
es
una
observacin
o
Instancia
que
se
separa
numricamente
del
resto
de
los
datos.
Ulises CP
Ulises CP
Criterio de Chauvenets.
Diagrama de Caja
Reduccin
de
dimensionalidad
R3
R2
Ulises CP
Seleccin
de
atributos
Se
reere
al
proceso
de
seleccin
de
caracters@cas,
tambin
conocido
como
seleccin
de
variables.
Consiste
en
seleccionar
un
subconjunto
de
caracters@cas
relevantes
para
la
construccin
del
modelo.
La
asuncin
principal
para
el
uso
de
tcnicas
de
seleccin
es
que
los
datos
con@enen
muchas
caracters@cas
redundantes
o
irrelevantes.
Seleccin
de
atributos
Mtodos:
Score
de
Fisher.
Coeciente
de
correlacin
de
Pearson.
Prediccin
p@ma
de
la
clase.
Distancia
basada
en
grupos.
Estads@co
Chi-Square.
Para m clases:
Valoresfaltantes<NA