Sei sulla pagina 1di 19

Excel

Mini-Curso: Analizando Datos


con Microsoft Excel 2013

Edicin
2015

Clase 01: Limpieza de Datos e Importacin


www.excelfree.weebly.com

Miguel Caballero
Autor del Canal: Excel Free Blog

Fabian Torres
Co-Autor del Libro: Tablas
Dinmicas, La Quinta Dimensin

Excel Free Blog: Es una Canal de YouTube y Blog dedicado a impartir conocimiento de Excel para
aumentar la competitividad en cualquier persona que desee diferenciarse en el mundo empresarial

Esta Pgina fue dejada en blanco intencionalmente

Clase 01 Limpieza de Datos e Importacin

1.1 Importacin de datos


Antes de poder limpiar los datos para posteriormente hacer un
anlisis, es necesario generarlos. La recoleccin de datos hoy por
hoy se hace de una cantidad inimaginable de maneras y es
mrito para un curso completo sobre ello, no obstante, lo que
es importante, lo que est en el corazn del tema, es como
obtener datos que se encuentren codificados en distintos
formatos a una hoja de clculo de Excel.

La Importacin de datos es el proceso de extraer datos desde

Formato
La manera en la cual se
codifica un archivo para
que el sistema operativo
o S.O lo pueda leer, se
denomina formato.

alguna instancia u origen que los contenga, los cuales fueron


creados con otro programa, o que pertenece a versiones
antiguas, o que fueron generados por la misma versin en un
momento previo y no estn disponible en el documento actual.

1.2 Formatos en Excel


Microsoft Excel Puede abrir una gran variedad de formatos de
manera directa, los cuales se agrupan de manera simplificada en
las siguientes categoras:

Formatos de Hojas de Clculo


Figura 1. 1 Tal vez no hayas
escuchado hablar mucho de
formatos, pero estamos
familiarizados con ellos a
veces sin darnos cuenta, tal es
el caso del formato PDF.

Formatos de Gestores de Bases de Datos


Formatos de Archivos de Texto
Archivos HTML
Archivos XML

Clase 01 Limpieza de Datos e Importacin

La tabla presentada a continuacin describe brevemente cada


formato agrupado en su categora.

Hojas de Clculo

Tabla 1.1

Formato Detalle

Extensin

XLSX

Hojas de Clculos de Excel 2007 y


Posteriores.

XLSM

Hojas de Clculos de Excel 2007 y Posteriores


Habilitada para macros.

XLSB

Hojas Binarias de Excel 2007 y Posteriores


Habilitada para Macros.

XLTX
XLAM

Plantillas de Excel 2007 y Posteriores.


Archivo de Excel 2007 y posteriores para
complementos.

XLS

Hojas de Clculos Excel 2003, 2002, 2000, 97,


98 y 4.

XLM

Libro para macros en Excel 2003, 2002, 2000,


97, 98 y 4 (No incluye datos).

XLT

Archivo de Plantilla en Excel 2003, 2002, 2000,


97, 98 y 4.

XLA

Archivo de Excel 2003 y anteriores para


complementos.

DB

MDB
ACCDB

Base de datos Access 2003 y anteriores.

Base de datos Access 2007 y posteriores.

Contina.

Cada formato se identifica


por una serie de letras y/o
nmeros
que
generalmente
son
3
caracteres precedidos de
un punto despus del
nombre.

La
funcin
de
las
extensiones es poder
distinguir de qu manera
esta
codificado
del
archivo, lo cual es
fundamental para que el
sistema
operativo
disponga
del
procedimiento necesario
para
poder
leerlo,
interpretarlo y ejecutarlo.

Clase 01 Limpieza de Datos e Importacin

Continuacin

Web

Archivos de Texto

Formato Detalle
CSV

Las columnas se separan con


Coma y las filas con un retorno de carro.

TXT

Valores separados por TAB: las columnas se separan


con TAB y las filas con un retorno de carro.

PRN

Las columnas se separan con varios espacios y las filas


con retorno de carro.

DIF

VisiCalc: Primera hoja de clculo para computadoras


personales. (Raramente utilizado)

SYLK

MultiPlan: Primera hoja de clculo distribuida por


Microsoft. (Raramente Utilizado)

HTML

Excel puede abrir HTML localizado en nuestro PC o


en la WEB.

XML

Excel Puede abrir datos almacenados en XML.

.1
La forma ms adecuada de importar es bastante sencilla:

Obtener Datos Externos

Pestaa: [Datos] Grupo: [Obtener Datos Externos]

[1.1]

All va poder apreciar las categoras de formatos mencionadas


anteriormente, as como otras fuentes externas. En la figura 1.2
puede ver esto.

Clase 01 Limpieza de Datos e Importacin

Figura 1. 2 Grupo Obtener datos para importar orgenes de datos externos

Importar datos es bastante sencillo, pero consideremos los dos


casos presentados enseguida.

Ejemplo Base de Datos

Obtener Datos desde Tabla de Access

Considere que tiene que importar la tabla de datos en la base de datos Access
AdventureWorks llamada Production_ProductInventory.
E
Solucin
(A) Vamos a obtener datos externos [1.1] y pulsamos clic en el comando
desde Access.
(B) Ubicamos la base de datos AdventureWorks.accdb en nuestro
computador y pulsamos clic en abrir.
(C) En el cuadro de dilogo emergente navegamos mediante el Scroll y
ubicamos la tabla solicitada: Production_ProductInventory, Clic en
Aceptar.
Scroll hasta
ubicar la tabla

Aqu
aparecen
todas las tablas en
la base de datos
AdventureWorks

Seleccionar la Tabla
Clic en el
botn Aceptar

Figura 1. 3 Seleccionar la tabla en la base de datos

Contina.

Clase 01 Limpieza de Datos e Importacin

Continuacin
(D) El cuadro de dilogo que aparece a continuacin nos brinda la opcin
de ubicar la tabla en un rango en especfico, por ejemplo $D$1.

Asegrese de que
la opcin tabla este
seleccionada

Si los datos estn preparados


puede crear directamente una tabla
o grfico dinmico.

Si ests listo para


utilizar el corazn
de PowerPivot,
esta es la opcin

Especifique la
celda desde
donde desea que
aparezca la tabla

Figura 1. 4 Exportar una tabla a un rango especfico

El botn
cuadroAceptar.
de dilogo que parece a continuacin nos brinda la
(E) Clic en el
la tabla en un rango en especfico, por ejemplo
(F) Ahoraopcin
la tablade
esubicar
exportada
$D$1
Si el origen cambia,
podemos actualizar
esta tabla para que
detecte los cambios
utilizando el
comando actualizar
todo, que se
encuentra en la
pestaa DATOS o
simplemente
pulsando clic
derecho encima de la
tabla y actualizar

Figura 1. 5 Tabla Production_ProductInventory Importada en Excel

Clase 01 Limpieza de Datos e Importacin

Ejemplo Archivo de Texto

Obtener Datos desde un CSV

Considere que tiene que importar los datos Abalone Data que se encuentran en
formato CSV
E
Solucin
(A) Vamos a obtener datos externos y pulsamos clic en el comando: Desde
Texto.
(B) Ubicamos el archivo CSV, para este caso Abalone.CSV y clic en
importar.
(C) En el cuadro de dilogo que aparece pulsamos clic en siguiente
asegurando de dejar la opcin Delimitados activada. En el paso
siguiente deseleccionamos tabulacin y seleccionamos Coma.

Ratifique que
nicamente la
casilla Coma este
seleccionada

Figura 1. 6 Delimitado por comas

(D) Clic en siguiente y Finalizar.


(E) Clic en Aceptar.

Clase 01 Limpieza de Datos e Importacin

1.3 Limpieza de Datos

Raw Data
El trmino raw data se
utiliza para referirnos a
las datos antes de pasar
por un proceso de
limpieza,
en
otras
palabras, no han sido
sometidos a ningn tipo
de preparacin, as
como tampoco han sido
manipulados de alguna
manera para este fin. Los
datos
generalmente
contienen
inconsistencias porque
son generados por
personas diferentes, no
hay
estandarizacin,
falta de validacin, etc.

La limpieza de datos o preparacin de datos: es el proceso de


transformacin de Raw Data a una estructura consistente para
que posteriormente sean analizados. Este proceso incluye
identificar valores errneos, eliminar registros duplicados,
adecuar valores faltantes, ajustar los datos a un formato tabular,
etc., etc.

Si los datos a analizar no son debidamente preparados entonces


las conclusiones no sern confiables, lo que deriva en esfuerzo
superfluo, puesto que es necesario prepralos nuevamente y
analizarlos despus de ello. Aunque no es una regla universal,
casi siempre se pasa ms tiempo preparando los datos que
analizndolos

Para asegurar la calidad de los datos previamente importados es


necesario verificar varios tems, algunos de los ms comunes se
listan a continuacin:

Registro
Un registro es una fila de
datos la cual representa
un objeto nico de
datos. A las columnas de
datos las llamamos
campos.

Formato de Datos Tabular.


Formato de Columnas Consistente.
Eliminar Registros Duplicados.
Tratamiento de Valores Faltantes.
Eliminacin de Espacios y Caracteres Especiales.
Consistencia Mayscula/Minscula.

Clase 01 Limpieza de Datos e Importacin

Formato de Datos Tabular


El formato tabular es la manera de representar los datos en filas
y columnas; donde cada columna, denominada campo, tiene una

Por cada departamento, los


datos
se
segmentan
mediante una fila en blanco

representa un objeto en su totalidad. El formato tabular no tiene


etiquetas que agrupen filas, figura 1.7, ni

filas vacas que

segmenten la tabla, ni tampoco clculos predefinidos como

Contabilidad

etiqueta que la define claramente. Cada fila, llamada registro,

Servicio al
Cliente

totales y subtotales.

Si bien la tabla puede contener datos vacos, es recomendable que


resume SUMA Y CUENTA en la creacin de un reporte de tabla
dinmica. Filas figura 1.8 muestra el formato tabular.

Propiedades del formato tabular

Organizacin: Organizacin filas y columnas Claras.


Etiquetacin: Etiquetas claras y bien definidas solo para columnas.
Entereza: Ausencia de filas vacas y columnas vacas.
Ausentismo: Ausencia total de clculos prefinidos, sin totales ni
subtotales.

Procesos

se eviten, principalmente para no tener que manipular las funciones de

Nombre
Sandra
Andrs
Dayana
Camilo

Qj-Promedio
0.6375988
0.6759436
0.5682193
0.517822

Sonia
Alejandro
Anglica
Carlos
Gina

0.4521236
0.7808237
0.9155153
0.3051751
0.1453039

Jorge
Natalia
David
Tatiana
Victor
Valeria
Alvaro

0.2177068
0.9410365
0.298831
0.0053683
0.1470424
0.1446448
0.2910655

Figura 1. 7 Formato no Tabular

Validacin de Datos
Utilice validacin de datos
cuando se recolectan los
datos, de esta manera
garantizar uniformidad.

Categorizacin: Cada elemento de un campo de texto debe regirse


por subcategoras estndar, por ejemplo: Bogota y Bogot son
diferentes por el acento en la letra a. Debido a esto siempre se
debe definir un estndar para que los elementos queden
uniformes.
No celdas vacas (Opcionales): Preferiblemente ninguna celda vaca
y definir estndares para aquellas que lo tienen. Esto es
especialmente til para la creacin de reportes de tabla dinmica.

Nombre
Sandra
Andrs
Dayana
Camilo
David
Tatiana
Victor
Valeria
Alvaro

Qj-Promedio
0.6375988
0.6759436
0.5682193
0.517822
0.298831
0.0053683
0.1470424
0.1446448
0.2910655

Figura 1. 8 Formato Tabular

10

Clase 01 Limpieza de Datos e Importacin

Tip Rpido: Para cambiar un conjunto de celdas vacas por


algn carcter o palabras estndar escogida (a) seleccione la
columna donde va a reemplazar (b) pulse la combinacin Ctrl +
I y clic en especial en el cuadro de dilogo que aparece (c) Active
la opcin Celdas en blanco en el cuadro de dilogo Ir as especial,
y aceptar (d) pulse la tecla F2 (e) digite el carcter o palabra y (f)
pulse la combinacin de teclas Ctrl + Enter.

Formato de Columnas Consistente


Formato Igual
Tambin cercirese que
el formato aplicado a
uno y cada uno de los
datos en una columna
en
particular
sean
exactamente iguales.

Cuando importamos datos numricos a veces el separador


decimal y el separador de miles no coinciden, es decir, estn
invertidos. Por ejemplo nuestro Excel puede que este
configurado para que lea los nmeros de la siguiente manera:
147,456.99 mientras que en el origen de datos puede venir
configurado de la siguiente forma: 147.456,99. Cuando esto
sucede Excel lo interpreta como texto. La solucin a este
problema es bastante sencilla porque en el ltimo paso de
importacin podemos hacer clic en el botn Avanzadas y all
especificar cul es el separador decimal y el separador de miles.
Figura 1.9.

Especifique los
separadores.

Clic en el Botn
Avanzadas

Aceptar y
Finalizar.
Figura 1. 9 Especificar separadores

11

Clase 01 Limpieza de Datos e Importacin

Eliminar Registros Duplicados

ID

Score

Beer

Price

6347

92

Guinness

$20.35

Si los datos son extrados de mltiples fuente es probable que

5092

85

Samuel Adams Boston

$5.73

7646

80

Sierra Nevada

$11.61

existan filas duplicadas, las cuales no son deseadas para un

7220

79

Blue Moon

$13.96

anlisis porque inflan los resultados obteniendo conclusiones no

7646

80

Sierra Nevada

$11.61

6347

92

Guinness

$20.35

1212

69

Fat Tire

$5.03

1212

69

Fat Tire

$5.03

7076

62

Pilsner Urquell

$4.69

5115

60

Grolsch

$12.70

7181

59

Budweiser

$17.78

1212

69

Fat Tire

$5.03

muy confiables, por lo anterior en la mayora de la situaciones se


debe eliminar las filas duplicadas.

Veamos cmo hacer este sencillo procedimiento con un ejemplo

Ejemplo Duplicados

Figura 1. 10 Tabla BeersScore


mostrada parcialmente. Esta tabla
contiene filas duplicadas como es
el caso de la cerveza Guinness

Eliminar registros duplicados

Imagine que tiene que eliminar las filas duplicadas en la tabla BeersScore en el
Archivo de Excel Beers. La figura 1.10 la muestra parcialmente
E
Solucin
(A) Ubique la celda activa dentro de la tabla.
(B) Pestaa: [Datos] Grupo: [Herramientas de Datos] Comando: [Quitar
duplicados]

(C) Clic en Aceptar.


(D) Opcional. Si solamente desea que la eliminacin se lleve a cabo con
solo la coincidencia de algunas columnas, entonces, en el cuadro de
dilogo remover duplicados, que parece en el paso previo,
deselecciona las que columnas que no aplican.
Los valores duplicados son determinados por como se muestran y no
necesariamente como son almacenados, por ejemplo, los valores $20.53 y
20.53 no son considerados iguales.

12

Clase 01 Limpieza de Datos e Importacin

Tratamiento de Valores Faltantes


Los datos faltantes o valores faltantes ocurren cuando no se

Tipos de Datos
Faltantes

tiene ninguna informacin acerca de ellos, por lo tanto son


completamente desconocido para nosotros. Los valores
faltantes aparecen porque no hay respuesta,

porque es

ambiguo, porque la recoleccin de datos se hizo de manera


Entender la razn por la
cual
hay
valores
faltantes, facilita que tipo
de tratamiento abordar,
por ejemplo, si los datos
faltantes son aleatorios,
entonces la muestra de
los datos sigue siendo
representativa para la
poblacin. Por otra
parte, si lo datos
faltantes estn ausentes
de manera sistemtica,
entonces s que requiere
un anlisis exhaustivo, y
todo esta temtica es
acreedora de su propio
captulo e incluso de su
propio libro.

errnea, porque al momento de ingresar el dato se hizo de


manera inapropiada, etc.

Para abordar los valores faltantes podemos utilizar cualquiera


de las siguientes tcnicas:

No manipulacin

Imputacin

Imputacin Parcial

Eliminacin

Full Analysis

Interpolacin

Frecuentemente asumimos que no existen tales valores o


simplemente los trabajamos como un elementos distintos
desconocidos, sin embargo, pueden existir argumentos vlidos
del porque estos valores estn ausentes, tal vez por decisin.

No Manipulacin
Como su nombre lo indica, no se debe hacer nada con ellos y
llevar el acabo el anlisis, esto puede ser porque la muestra sigue
siendo significativa o porque se va a llevar a cabo un anlisis de
los valores faltantes.

13

Clase 01 Limpieza de Datos e Importacin

Figura 1.11 La imputacin de


datos, en su forma ms
simple, consiste en
reemplazar los valores
faltantes en un campo por un
dato escogido previamente y
que se ajuste al entendimiento
de estos valores.
Figura 1. 11

Imputacin e Imputacin Parcial

ID

Score

Beer

Price

6347

92

Guinness

$20.35

La imputacin consiste en reemplazar valores faltantes por uno

5092

85

Samuel Adams Boston

$5.73

7646

80

Sierra Nevada

$11.61

seleccionado. En el anlisis de datos estos valores faltantes

7220

79

Blue Moon

$13.96

7646

80

Sierra Nevada

$11.61

pueden causar serios dolores de cabeza que incluso se puede

6347

92

Guinness

$20.35

1212

69

Fat Tire

$5.03

derivar en una prdida de tiempo visto que no se puede extraer

1212

69

#N/A

$5.03

informacin significativa. Las tcnicas de imputacin son bastante

7076

62

Pilsner Urquell

$4.69

5115

60

Grolsch

$12.70

7181

59

Budweiser

$17.78

1212

69

Fat Tire

$5.03

1212

69

Fat Tire

$5.03

7524

54

Corona

$16.33

7168

35

#N/A

$14.84

9116

40

Beck's

$5.30

carcter o su propia palabra, por ejemplo: Desconocido. La figura

7168

35

Magic Hat

$14.84

6347

92

Guinness

$20.35

1.12 muestra un sencillo ejemplo con #N/A.

7220

79

#N/A

$13.96

7220

79

#N/A

$13.96

7220

79

Blue Moon

$13.96

amplias, adems, se encuentran en constante desarrollo y


perfeccionismo. En Excel los valores faltantes son especificados
con #N/A, sin embargo muchas personas utilizan su propio

Figura 1. 12 Valore faltantes en Excel

Como se mencion en la nota de la pgina anterior, es til saber


porque hay valores faltantes para poder saber que

mtodo

aplicar. Podemos considerar 3 casos simples de valores faltantes:

Faltantes Aleatorio.
Faltante que depende de una prediccin no observada.
Faltante que depende de s mismo.

Faltantes que dependen de una prediccin no observada: Los


datos faltantes ya no son aleatorios. Depende de la informacin
que no ha sido guardada.

Faltantes que
dependen de s
mismos
Este es el caso ms
complejo y est por fuera
del alcance de presente
artculo.

14

Clase 01 Limpieza de Datos e Importacin

Por ejemplo: si se est recolectando informacin acerca de los


ingresos de los graduados en una universidad, podemos saber
que los recin graduados son menos propensos a revelar su
salario, por lo que se pueden clasificar fcilmente estos salarios
en un intervalo previamente conocido y sustituir los faltantes
por dichos datos.

Tip Rpido: Para sustituir un conjunto de celdas que contienen


un carcter o frase especial (a) seleccione el rango de celdas
donde va a reemplazar (b) pulse la combinacin Ctrl + B y clic en
la pestaa reemplazar en el cuadro de dilogo que aparece (c)
En el cuadro de texto Buscar, digite la palabra o frase a
reemplazar, ejemplo: Desconocido (d) En el cuadro de texto
reemplazar con, escriba el valor por el cual sern sustituidos los
valores (e) Clic en el botn reemplazar todo.

Eliminacin
La tcnica de imputacin ms simple consiste en reducir el
tamao de los datos, de la muestra, mediante la eliminacin de
todas aquellas filas que contienen un valor faltante.

Ejemplo Duplicados

Eliminar registros duplicados

Suponga que sabe que los datos faltantes en la tabla Beers son aleatorios, dado
que son pocos faltantes lo que se pide es su eliminacin completa. Figura 1.12
E
Solucin
(A) Convierta la tabla tabular en una tabla estructurada de Excel si esta no
est de esta forma. Pulse la combinacin Ctrl + T y Aceptar.

Contina.

15

Clase 01 Limpieza de Datos e Importacin

Tip Rpido: No es necesario convertir los datos en una tabla


estructurada, lo importante es activar los filtros en los campos.
Tambin puede utilizar la combinacin de teclas Ctrl + Shift + L
para activar los autofiltros.

Continuacin
(B) Ubique el campo que contiene los valores faltantes, all en la flecha de
seleccin despliegue las opciones y filtre todos los #N/A
Filtrar por el
campo que
contiene los
valores faltantes

Filtrar los #N/A o


el carcter,
palabra o frase
que utilice para
denotarlos

Figura 1. 13 Filtrar todos los valores faltantes, es decir los #N/A, Si utiliza otro carcter,
palabra o frase para denotarlos, entonces, debe filtrar el de su uso.

Contina.

16

Clase 01 Limpieza de Datos e Importacin

Continuacin
(C) Seleccione todas las filas que contienen valores nulos, pulse clic
derecho encima de las etiquetas de filas y clic en eliminar.

Clic derecho
encima de
cualquier nmero
azul, con esto se
despliega el men
contextual

Clic en eliminar

(D) Por ltimo remueva el filtro (Ctrl+Shift+L). As, habr eliminado todos
los registros que contenan valores nulos en el campo Beer
Full Analysis
Full analysis consiste en varios mtodos que toman toda la
informacin disponible y mediante algoritmos iterativos
encuentra la mayor probabilidad de que un valor faltante
corresponda un datos especifico, hay que advertir que el estudio
de estos mtodos esta por fuera de este artculo.

Interpolacin
La interpolacin es un mtodo mediante el cual se crea o conoce
un dato basado en un conjunto discreto de puntos.

Clase 01 Limpieza de Datos e Importacin

17

Eliminacin de Espacios y Caracteres Especiales


Para evitarnos dificultades, es una buena prctica confirmar que
los datos no contienen espacios extras, dado que por ellos en una
comparacin que de manera lgica deberan coincidir, no lo
hace. Por ejemplo Excel no es igual a Excel con un espacio al final,
esto porque el primero tiene 5 caracteres y el ltimo 6 caracteres.

Hacer esta tarea es bastante fcil. La funcin ESPACIOS remueve


todos los espacios extra entre palabra y palabra dejando
nicamente un espacio. Por ejemplo si en la celda A1 tiene escrito
Excel

Free Blog, donde se pueden notar mltiples espacios

entre palabra y palabra, y aplicamos:

[1.2]

=ESPACIOS(A1)

Remover Espacios Extras

Entonces, retorna: Excel Free Blog con solo un espacio entre


palabra y palabra, sin espacios al principio ni al final.

Tambin es necesario remover caracteres no imprimibles los


cuales no son fciles de detectar, por ejemplo un dato importado
desde otra fuente pude contener TAB al final. Para remover estos
caracteres no imprimibles

[1.2]

=LIMPIAR(A1)

Estos cambios se deben realizar en columnas a parte y


luego copiar y pegar por valores para sustituir.

Remover Caracteres no
Imprimibles

18

Clase 01 Limpieza de Datos e Importacin

Consistencia Maysculas/Minsculas
Es una buena prctica, hacer que los textos en las columnas
sean consistente en trminos de maysculas y minsculas. Para
lograr esta consistencia Excel brinda las siguientes funciones:

MAYUSC: Convierte el texto a maysculas.


MINUSC: Convierte a texto en minsculas.
NOMPROPRIO: Convierte una cadena de texto en maysculas
o minsculas segn corresponda, la primera letra de cada.

Estos cambios se deben realizar en columnas a parte y


luego copiar y pegar por valores para sustituir.

Sumario
Importacin
La Importacin de datos es el proceso de extraer datos
desde alguna instancia u origen que los contenga, los
cuales fueron creados con otro programa, o que pertenece
a versiones antiguas

Directamente:
Hoja de Clculo, Beses
dataos y Archivos texto

Limpieza
Proceso de transformacin de Raw Data a una estructura
consistente para que posteriormente sean analizados.

Tareas:
Formato de Datos Tabular
Formato de Columnas Consistente
Eliminar Registros Duplicados
Tratamiento de Valores Faltantes
Eliminacin de Espacios y Caracteres Especiales
Consistencia Mayscula/Minscula

Valores Faltantes:
No manipulacin
Imputacin
Imputacin Parcial
Eliminacin
Full Analysis
Interpolacin

Potrebbero piacerti anche