Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Edicin
2015
Miguel Caballero
Autor del Canal: Excel Free Blog
Fabian Torres
Co-Autor del Libro: Tablas
Dinmicas, La Quinta Dimensin
Excel Free Blog: Es una Canal de YouTube y Blog dedicado a impartir conocimiento de Excel para
aumentar la competitividad en cualquier persona que desee diferenciarse en el mundo empresarial
Formato
La manera en la cual se
codifica un archivo para
que el sistema operativo
o S.O lo pueda leer, se
denomina formato.
Hojas de Clculo
Tabla 1.1
Formato Detalle
Extensin
XLSX
XLSM
XLSB
XLTX
XLAM
XLS
XLM
XLT
XLA
DB
MDB
ACCDB
Contina.
La
funcin
de
las
extensiones es poder
distinguir de qu manera
esta
codificado
del
archivo, lo cual es
fundamental para que el
sistema
operativo
disponga
del
procedimiento necesario
para
poder
leerlo,
interpretarlo y ejecutarlo.
Continuacin
Web
Archivos de Texto
Formato Detalle
CSV
TXT
PRN
DIF
SYLK
HTML
XML
.1
La forma ms adecuada de importar es bastante sencilla:
[1.1]
Considere que tiene que importar la tabla de datos en la base de datos Access
AdventureWorks llamada Production_ProductInventory.
E
Solucin
(A) Vamos a obtener datos externos [1.1] y pulsamos clic en el comando
desde Access.
(B) Ubicamos la base de datos AdventureWorks.accdb en nuestro
computador y pulsamos clic en abrir.
(C) En el cuadro de dilogo emergente navegamos mediante el Scroll y
ubicamos la tabla solicitada: Production_ProductInventory, Clic en
Aceptar.
Scroll hasta
ubicar la tabla
Aqu
aparecen
todas las tablas en
la base de datos
AdventureWorks
Seleccionar la Tabla
Clic en el
botn Aceptar
Contina.
Continuacin
(D) El cuadro de dilogo que aparece a continuacin nos brinda la opcin
de ubicar la tabla en un rango en especfico, por ejemplo $D$1.
Asegrese de que
la opcin tabla este
seleccionada
Especifique la
celda desde
donde desea que
aparezca la tabla
El botn
cuadroAceptar.
de dilogo que parece a continuacin nos brinda la
(E) Clic en el
la tabla en un rango en especfico, por ejemplo
(F) Ahoraopcin
la tablade
esubicar
exportada
$D$1
Si el origen cambia,
podemos actualizar
esta tabla para que
detecte los cambios
utilizando el
comando actualizar
todo, que se
encuentra en la
pestaa DATOS o
simplemente
pulsando clic
derecho encima de la
tabla y actualizar
Considere que tiene que importar los datos Abalone Data que se encuentran en
formato CSV
E
Solucin
(A) Vamos a obtener datos externos y pulsamos clic en el comando: Desde
Texto.
(B) Ubicamos el archivo CSV, para este caso Abalone.CSV y clic en
importar.
(C) En el cuadro de dilogo que aparece pulsamos clic en siguiente
asegurando de dejar la opcin Delimitados activada. En el paso
siguiente deseleccionamos tabulacin y seleccionamos Coma.
Ratifique que
nicamente la
casilla Coma este
seleccionada
Raw Data
El trmino raw data se
utiliza para referirnos a
las datos antes de pasar
por un proceso de
limpieza,
en
otras
palabras, no han sido
sometidos a ningn tipo
de preparacin, as
como tampoco han sido
manipulados de alguna
manera para este fin. Los
datos
generalmente
contienen
inconsistencias porque
son generados por
personas diferentes, no
hay
estandarizacin,
falta de validacin, etc.
Registro
Un registro es una fila de
datos la cual representa
un objeto nico de
datos. A las columnas de
datos las llamamos
campos.
Contabilidad
Servicio al
Cliente
totales y subtotales.
Procesos
Nombre
Sandra
Andrs
Dayana
Camilo
Qj-Promedio
0.6375988
0.6759436
0.5682193
0.517822
Sonia
Alejandro
Anglica
Carlos
Gina
0.4521236
0.7808237
0.9155153
0.3051751
0.1453039
Jorge
Natalia
David
Tatiana
Victor
Valeria
Alvaro
0.2177068
0.9410365
0.298831
0.0053683
0.1470424
0.1446448
0.2910655
Validacin de Datos
Utilice validacin de datos
cuando se recolectan los
datos, de esta manera
garantizar uniformidad.
Nombre
Sandra
Andrs
Dayana
Camilo
David
Tatiana
Victor
Valeria
Alvaro
Qj-Promedio
0.6375988
0.6759436
0.5682193
0.517822
0.298831
0.0053683
0.1470424
0.1446448
0.2910655
10
Especifique los
separadores.
Clic en el Botn
Avanzadas
Aceptar y
Finalizar.
Figura 1. 9 Especificar separadores
11
ID
Score
Beer
Price
6347
92
Guinness
$20.35
5092
85
$5.73
7646
80
Sierra Nevada
$11.61
7220
79
Blue Moon
$13.96
7646
80
Sierra Nevada
$11.61
6347
92
Guinness
$20.35
1212
69
Fat Tire
$5.03
1212
69
Fat Tire
$5.03
7076
62
Pilsner Urquell
$4.69
5115
60
Grolsch
$12.70
7181
59
Budweiser
$17.78
1212
69
Fat Tire
$5.03
Ejemplo Duplicados
Imagine que tiene que eliminar las filas duplicadas en la tabla BeersScore en el
Archivo de Excel Beers. La figura 1.10 la muestra parcialmente
E
Solucin
(A) Ubique la celda activa dentro de la tabla.
(B) Pestaa: [Datos] Grupo: [Herramientas de Datos] Comando: [Quitar
duplicados]
12
Tipos de Datos
Faltantes
porque es
No manipulacin
Imputacin
Imputacin Parcial
Eliminacin
Full Analysis
Interpolacin
No Manipulacin
Como su nombre lo indica, no se debe hacer nada con ellos y
llevar el acabo el anlisis, esto puede ser porque la muestra sigue
siendo significativa o porque se va a llevar a cabo un anlisis de
los valores faltantes.
13
ID
Score
Beer
Price
6347
92
Guinness
$20.35
5092
85
$5.73
7646
80
Sierra Nevada
$11.61
7220
79
Blue Moon
$13.96
7646
80
Sierra Nevada
$11.61
6347
92
Guinness
$20.35
1212
69
Fat Tire
$5.03
1212
69
#N/A
$5.03
7076
62
Pilsner Urquell
$4.69
5115
60
Grolsch
$12.70
7181
59
Budweiser
$17.78
1212
69
Fat Tire
$5.03
1212
69
Fat Tire
$5.03
7524
54
Corona
$16.33
7168
35
#N/A
$14.84
9116
40
Beck's
$5.30
7168
35
Magic Hat
$14.84
6347
92
Guinness
$20.35
7220
79
#N/A
$13.96
7220
79
#N/A
$13.96
7220
79
Blue Moon
$13.96
mtodo
Faltantes Aleatorio.
Faltante que depende de una prediccin no observada.
Faltante que depende de s mismo.
Faltantes que
dependen de s
mismos
Este es el caso ms
complejo y est por fuera
del alcance de presente
artculo.
14
Eliminacin
La tcnica de imputacin ms simple consiste en reducir el
tamao de los datos, de la muestra, mediante la eliminacin de
todas aquellas filas que contienen un valor faltante.
Ejemplo Duplicados
Suponga que sabe que los datos faltantes en la tabla Beers son aleatorios, dado
que son pocos faltantes lo que se pide es su eliminacin completa. Figura 1.12
E
Solucin
(A) Convierta la tabla tabular en una tabla estructurada de Excel si esta no
est de esta forma. Pulse la combinacin Ctrl + T y Aceptar.
Contina.
15
Continuacin
(B) Ubique el campo que contiene los valores faltantes, all en la flecha de
seleccin despliegue las opciones y filtre todos los #N/A
Filtrar por el
campo que
contiene los
valores faltantes
Figura 1. 13 Filtrar todos los valores faltantes, es decir los #N/A, Si utiliza otro carcter,
palabra o frase para denotarlos, entonces, debe filtrar el de su uso.
Contina.
16
Continuacin
(C) Seleccione todas las filas que contienen valores nulos, pulse clic
derecho encima de las etiquetas de filas y clic en eliminar.
Clic derecho
encima de
cualquier nmero
azul, con esto se
despliega el men
contextual
Clic en eliminar
(D) Por ltimo remueva el filtro (Ctrl+Shift+L). As, habr eliminado todos
los registros que contenan valores nulos en el campo Beer
Full Analysis
Full analysis consiste en varios mtodos que toman toda la
informacin disponible y mediante algoritmos iterativos
encuentra la mayor probabilidad de que un valor faltante
corresponda un datos especifico, hay que advertir que el estudio
de estos mtodos esta por fuera de este artculo.
Interpolacin
La interpolacin es un mtodo mediante el cual se crea o conoce
un dato basado en un conjunto discreto de puntos.
17
[1.2]
=ESPACIOS(A1)
[1.2]
=LIMPIAR(A1)
Remover Caracteres no
Imprimibles
18
Consistencia Maysculas/Minsculas
Es una buena prctica, hacer que los textos en las columnas
sean consistente en trminos de maysculas y minsculas. Para
lograr esta consistencia Excel brinda las siguientes funciones:
Sumario
Importacin
La Importacin de datos es el proceso de extraer datos
desde alguna instancia u origen que los contenga, los
cuales fueron creados con otro programa, o que pertenece
a versiones antiguas
Directamente:
Hoja de Clculo, Beses
dataos y Archivos texto
Limpieza
Proceso de transformacin de Raw Data a una estructura
consistente para que posteriormente sean analizados.
Tareas:
Formato de Datos Tabular
Formato de Columnas Consistente
Eliminar Registros Duplicados
Tratamiento de Valores Faltantes
Eliminacin de Espacios y Caracteres Especiales
Consistencia Mayscula/Minscula
Valores Faltantes:
No manipulacin
Imputacin
Imputacin Parcial
Eliminacin
Full Analysis
Interpolacin