Sei sulla pagina 1di 14

Data Organization in Spreadsheets

Karl W. Bromana and Kara H. Woob a Department of Biostatistics & Medical Informatics, University
of Wisconsin-Madison, Madison, WI; bInformation School, University of Washington, Seattle, WA
ABSTRACT
Las hojas de cálculo (spreadsheets) son herramientas de software ampliamente utilizadas para la
entrada, almacenamiento, análisis y visualización de datos. Focalizándose en los aspectos de registro
y almacenamiento de datos, este artículo ofrece recomendaciones prácticas para organizar datos de
hojas de cálculo, para reducir errores y facilitar análisis posteriores. Los principios básicos son: ser
consistente, escribir fechas como AAAA – MM – DD (año-mes-día), no dejar ninguna celda vacía,
organizar un dato por celda (con sujetos como filas, y variables como columnas, y con una sola fila
de encabezado), cree un diccionario de datos, no incluya datos en las filas de datos sin procesar, no
use fuente de color o destacado como datos, elige buenos nombres para las cosas, haga copias de
seguridad, use la validación de datos para evitar errores de registro y guarde los datos en archivos de
texto sin formato.

1. Introducción

Las hojas de cálculo, a pesar de su rectangularidad mundana, han sido objeto de angustia y
controversia durante décadas. Algunos de los escritores han advertido que "los programadores reales
no usan hojas de cálculo "y que debemos" detener esa hoja de cálculo subversiva "(Casimir 1992;
Chadwick 2003). Otros investigadores han aconsejado sobre cómo usar hojas de cálculo para mejorar
su productividad (Wagner y Keisler 2006). En medio de este debate, las hojas de cálculo han
continuado desempeñando un papel importante en los flujos de trabajo de los investigadores, y está
claro que son una herramienta valiosa que los investigadores es poco probable que abandonen por
completo.
Los peligros de las hojas de cálculo son reales, sin embargo- tanto así que la European Spreadsheet
Risks Interest Group mantiene un archivo público de "historias de terror" en la hoja de cálculo
(http://www.eusprig.org/horror-stories.htm). Muchos investigadores han examinado las tasas de error
en las hojas de cálculo, y Panko (2008) informó que en 13 auditorías de hojas de cálculo del mundo
real, un promedio del 88% contenía errores. Los programas populares de hojas de cálculo también
hacen que ciertos tipos de errores sean fáciles de cometer y difíciles de rectificar. Microsoft Excel
convierte algunos datos de nombres de genes en datos o almacenamiento de datos diferentes entre los
sistemas operativos, lo que puede causar problemas en análisis posteriores (Zeeberg et al. 2004; Woo
2014). Los investigadores que usan hojas de cálculo deben tener en cuenta estos errores comunes y
diseñar hojas de cálculo que sean ordenados, consistentes y tan resistentes a los errores como sea
posible.
Las hojas de cálculo a menudo se usan como una herramienta multipropósito para el registro,
almacenamiento, análisis y visualización de datos. La mayoría de los programas de hojas de cálculo
permiten a los usuarios realizar todas estas tareas, sin embargo, creemos que las hojas de cálculo son
las más adecuadas para el registro y el almacenamiento de datos; y que el análisis y la visualización
deben realizarse por separado. Analizar y visualizar datos en un programa separado, o al menos en
una copia separada del archivo de datos, reduce el riesgo de contaminar o destruir los datos sin
procesar en la hoja de cálculo.
Murrell (2013) comparó datos que están formateados por humanos a simple vista con datos
formateados por una computadora. Proporcionó un ejemplo extendido de código de computador para
extraer datos de un conjunto de archivos con arreglos complejos. Es importante que los analistas de
datos puedan trabajar con archivos de datos tan complejos. Pero si la planificación inicial de los
archivos de datos se planifica con un computador en mente, el proceso de análisis posterior se
simplifica.
En este artículo, ofrecemos recomendaciones prácticas para organizar los datos de la hoja de cálculo
de una manera que tanto los humanos como los programas de computador puedan leer. Siguiendo
este consejo, los investigadores crearán hojas de cálculo que son menos propensas a errores, más
fáciles de procesar para los computadores y más fáciles de compartir con los colaboradores y el
público. Las hojas de cálculo que adhieran a nuestras recomendaciones funcionarán bien con las
herramientas ordenadas y los métodos reproducibles descritos en otra parte de esta colección y
formarán la base de un flujo de trabajo analítico robusto y reproducible.
Para un conjunto de datos existente cuya disposición podría mejorarse, recomendamos no aplicar una
edición manual tediosa y potencialmente propensa a errores para revisar la disposición. Más bien,
esperamos que el lector pueda aplicar estos principios al diseñar el diseño para futuros conjuntos de
datos.

2. Ser coherente
La primera regla de organización de datos es ser coherente. Hagas lo que hagas, hazlo
coherentemente. Ingresar y organizar sus datos de manera consistente desde el principio evitará que
usted y sus colaboradores tengan que pasar tiempo armonizando los datos más adelante.
Use códigos coherentes para variables categóricas. Para una variable categórica como el sexo de un
ratón en un estudio genético, use un único valor común para los hombres (por ejemplo, "hombre") y
un único valor común para las mujeres (por ejemplo, "mujer"). No escriba algunas veces "M", y
otras veces "hombre". Elija uno y manténgalo.
Use un código coherente fijo para cualquier valor faltante. Nosotros preferimos que se llenen todas
las celdas, de modo que se pueda distinguir entre valores verdaderamente faltantes y valores que
faltan involuntariamente. Los usuarios de R prefieren "NA". Tú también podrías usar un guión. Pero
quédese con un solo valor en todo momento. Definitivamente no use un valor numérico como -999 o
999; Es fácil pasar por alto que está destinado a la falta de un dato. Además, no inserte una nota en
lugar de los datos, explicando por qué falta. Más bien, haga una columna separada con tales notas.
Use nombres de variables coherentes. Si en un archivo (por ejemplo, el primer lote de sujetos), tiene
una variable llamada "Glucose_10wk", entonces llámela exactamente así en otros archivos (por
ejemplo, para otros lotes de sujetos). Si se le llama variablemente "Glucose_10wk", "gluc_10weeks"
y "10 week glucosa", entonces el analista de datos tendrá que averiguar que todo esto es realmente lo
mismo.
Use identificadores de temas coherentes. Si a veces es "153" y a veces "mouse153" y a veces "mouse-
153F" y a veces "Mouse153", habrá trabajo adicional para descubrir quién es quién.
Utilice un diseño de datos coherente en varios archivos. Si sus datos están en varios archivos y utiliza
diferentes diseños en diferentes archivos, será un trabajo adicional para el analista combinar los
archivos en un conjunto de datos para su análisis. Con una estructura coherente, será fácil automatizar
este proceso.
Use nombres de archivo coherentes. Tenga algún sistema para nombrar archivos. Si un archivo se
llama "Serum_batch1_2015-01-30.csv", no llame al archivo para el siguiente lote
"batch2_serum_52915.csv", sino que use "Serum_batch2_2015-05-29.csv". Mantener un esquema de
nombres de archivos coherente ayudará a garantizar que sus archivos permanezcan bien organizados
y facilitará el procesamiento por lotes de los archivos si es necesario.
Use un formato coherente para todas las fechas, preferiblemente con el formato estándar AAAA-
MM-DD, por ejemplo, 2015-08-01. Si a veces escribe 8/1/2015 y otras 8-1-15, será más difícil usar
las fechas en análisis o visualizaciones de datos.
Use frases coherentes en sus notas. Si tiene una columna separada de notas (por ejemplo, “dead” or
“lo off curve”), sea coherente con lo que escribe. A veces no escriba “dead” y a veces “Dead”, o a
veces “lo off curve” y, a veces, “off curve lo.”
Tenga cuidado con los espacios adicionales dentro de las celdas. Una celda en blanco es diferente
de una celda que contiene un solo espacio. Y "masculino" es diferente de " masculino " (es decir, con
espacios al principio y al final).

3. Elija buenos nombres para las cosas


Es importante elegir buenos nombres para las cosas. Esto puede ser difícil, por lo que vale la pena
dedicarle un poco de tiempo y pensarlo.
Como regla general, no use espacios, ya sea en nombres de variables o nombres de archivos. Hacen
que la programación sea más difícil: el analista deberá incluir todo entre comillas dobles, como
"glucosa 6 semanas", en lugar de simplemente escribir glucosa_6_semanas. Donde podría usar
espacios, use guiones bajos o guiones. Pero no use una mezcla de guiones bajos y guiones; elige uno
y sea coherente.
Tenga cuidado con los espacios extraños al principio o al final de un nombre de variable. "Glucosa"
es diferente de "glucosa" (con un espacio adicional al final).
Evite caracteres especiales, excepto guiones bajos y guiones. Otros símbolos ($, @,%, #, &, *, (,),!,
/, Etc.) a menudo tienen un significado especial en los lenguajes de programación, por lo que pueden
ser más difíciles de manejar. También son un poco más difíciles de escribir. El principio principal en
la elección de nombres, ya sea para variables o para nombres de archivos, es corto, pero significativo.
Entonces no es demasiado corto. La Data Carpentry lesson sobre el uso de hojas de cálculo (ver
http://www.datacarpentry.org/spreadsheet-ecologylesson/02 common-errors) tiene una buena tabla
con nombres de variables de ejemplo buenos y malos, reproducidos en la Tabla 1. Estamos de acuerdo
con todos esto, aunque quizás reduciríamos parte de la capitalización. Entonces, tal vez max_temp,
precipitation, y mean_year_growth.
Finalmente, nunca incluya "final" en un nombre de archivo. Invariablemente, terminará con
"final_ver2". (No podemos decir eso sin hacer referencia al cómic PHD ampliamente citado,
http://bit.ly/phdcom_final).

4. Escriba las fechas como AAAA-MM-DD


Al ingresar fechas, recomendamos utilizar el estándar global "ISO 8601", AAAA-MM-DD, como
2013-02-27.
El tratamiento de las fechas de Microsoft Excel puede causar problemas en los datos. Los almacena
internamente como un número, con diferentes convenciones en Windows y Mac. Por lo tanto, es
posible que deba verificar manualmente la integridad de sus datos cuando salgan de Excel. Excel
también tiene una tendencia a convertir otras cosas en fechas. Por ejemplo, algunos símbolos
genéticos (p. Ej., “Oct-4”) pueden interpretarse como fechas y reformatearse. Ziemann, Eren y El-
Osta (2016) estudiaron las listas de genes incluidas en los archivos complementarios de 18 revistas
para los años 2005–2015, y descubrieron que alrededor del 20% de las listas tenían errores en los
nombres de genes, relacionados con la conversión de símbolos de genes a fechas o números con
comillas.
A menudo preferimos usar un formato de texto sin formato para las columnas en una hoja de cálculo
de Excel que van a contener fechas, para que no les haga nada. Esto es:

 Seleccionar la columna
 En la barra de menú seleccionar Formato  Celdas
 Elija “Texto” a la izquierda
Sin embargo, si hace esto en columnas que ya contienen fechas, Excel las convertirá en un valor de
texto de su representación numérica subyacente.
Otra forma de obligar a Excel a tratar las fechas como texto es comenzar la fecha con un apóstrofe,
como este: "2014-06-14 (ver http://bit.ly/twitter_apos). Excel tratará las celdas como texto, pero el
apóstrofe no aparecerá cuando vea la hoja de cálculo o la exporte a otros formatos. Este es un truco
útil, pero requiere diligencia y consistencia impecables. Alternativamente, puede crear tres columnas
separadas con año, mes y día. Esos serán números ordinarios, por lo que Excel no los estropeará.
Finalmente, podría representar las fechas como un entero de 8 dígitos del formulario AAAAMMDD,
por ejemplo, 20140614 para 2014-06-14 (ver Briney 2017).
La Figura 1 muestra una parte de una hoja de cálculo que obtuvimos de un colaborador. No
recordamos exactamente para qué eran estos, pero en cualquier caso tener diferentes formatos de
fecha dentro de una columna hace que sea más difícil usar las fechas en análisis posteriores o en
visualizaciones de datos. Tenga cuidado con las fechas y sea coherente.

5. No deje celdas vacías


Rellene todas las celdas. Use un código común para los datos faltantes. No todos están de acuerdo
con nosotros en este punto (por ejemplo, White et al. (2013) declararon una preferencia por dejar las
celdas en blanco), pero preferiríamos tener "NA" o incluso un guión en las celdas con datos faltantes,
para hacer esto claramente se saben que los datos faltan más bien que se dejasen en blanco
involuntariamente.
La Figura 2 contiene dos ejemplos de hojas de cálculo con algunas celdas vacías. En la Figura 2 (a),
las celdas se dejaron en blanco cuando un solo valor debía repetirse varias veces. ¡Por favor no hagas
esto! Es trabajo adicional para el analista determinar los valores implícitos para estas celdas. Además,
si las filas se ordenan en algún momento, puede que no haya forma de recuperar las fechas que
pertenecen a las celdas vacías.
La hoja de cálculo en la Figura 2 (b) tiene un diseño complejo con información para diferentes
tratamientos. Quizás esté claro que las columnas BE se refieren al tratamiento de "1 min", y las
columnas FI se refieren a "5 min", y que las columnas B, C, F y G se refieren a "normal", mientras
que las columnas D, E, H , y me preocupa "mutante". Pero si bien puede ser fácil de ver a simple
vista, puede ser difícil lidiar con esto en análisis posteriores.
Podrías completar algunas de esas celdas, para que quede más claro. Alternativamente, haga una
versión "ordenada" de los datos (Wickham 2014), con cada fila como una réplica y con los valores
de respuesta en una sola columna, como en la Figura 3. Discutiremos esto más adelante en la Sección
7.

6. Colocar solo una cosa en cada celda


Las celdas en su hoja de cálculo deben contener cada una un dato. No coloque más de una cosa en
una celda. Por ejemplo, podría tener una columna con "posición de placa" como "placa-pozo", como
"13-A01". Sería mejor separar esto en columnas "placa" y "pozo" (que contiene "13" y "A01"), o
incluso "placa", "well_row" y "well_column" (que contiene "13", "A" y "1"). O puede sentirse tentado
a incluir unidades, como "45 g". Es mejor escribir 45 y poner las unidades en el nombre de la columna,
como body_weight_g. Es incluso mejor dejar la columna como body_weight y colocar las unidades
en un diccionario de datos separado (consulte la Sección 8). Otra situación común es incluir una nota
dentro de una celda, con los datos, como "0 (por debajo del umbral)". En su lugar, escriba "0" e
incluya una columna separada con dichas notas.
Finalmente, no combine celdas. Puede parecer bonito, pero terminas rompiendo la regla de no tener
celdas vacías.

7. Házlo un rectángulo
El mejor diseño para sus datos dentro de una hoja de cálculo es como un solo gran rectángulo con
filas correspondientes a temas (sujetos) y columnas correspondientes a variables. La primera fila debe
contener nombres de variables, y no use más de una fila para los nombres de variables. Un ejemplo
de un diseño rectangular se muestra en la Figura 4.

Algunos conjuntos de datos no encajarán bien en un solo rectángulo, pero generalmente encajarán en
un conjunto de rectángulos, en cuyo caso puede hacer un conjunto de archivos Excel, cada uno con
un rectángulo de datos. Es mejor mantener cada rectángulo en su propio archivo; Las tablas dispersas
alrededor de una hoja de trabajo son difíciles de trabajar y dificultan la exportación de datos a archivos
CSV. También puede considerar tener un solo archivo de Excel con varias hojas de trabajo.
Preferimos tener múltiples archivos con una hoja cada uno para que podamos guardar más fácilmente
los datos como archivos CSV, pero si usa varias hojas de trabajo en un archivo, asegúrese de usar una
estructura coherente.
Algunos datos ni siquiera caben en un conjunto de rectángulos, pero tal vez las hojas de cálculo no
sean el mejor formato para ellos, ya que las hojas de cálculo son inherentemente rectangulares.
Los archivos de datos que recibimos generalmente no están en forma rectangular. Más a menudo,
parece que hay fragmentos de datos espolvoreados.
En la Figura 5 se muestran varios ejemplos. En las hojas de cálculo de la Figura 5 (a) y 5 (b), el
analista de datos deberá estudiar el diseño, determinar qué significa todo y luego dedicar un tiempo a
reorganizar las cosas. Si, desde el principio, los datos se organizaran como un rectángulo, ahorraría
mucho tiempo al analista. El ejemplo de la Figura 5 (c) se basó en un conjunto de datos que tenía una
hoja de trabajo separada para cada sujeto, cada uno en ese formato complicado.
Si todas las hojas de trabajo tienen exactamente el mismo diseño, entonces no es demasiado difícil
extraer la información relevante y combinarla en un rectángulo. (Se podría escribir un script en R,
Python o Ruby).
Pero es preferible no tener medias y SD y cálculos de cambio de pliegue que saturan los valores de
datos sin procesar, y parece que incluso para el registro de datos, sería más fácil tener todas las
mediciones en una hoja de trabajo. A veces es difícil ver cómo reorganizar las cosas como un
rectángulo, como en el ejemplo de la Figura 5 (d). Es una especie de rectángulo; podríamos completar
las celdas vacías en las dos primeras columnas repitiendo los valores individuales, de fecha y de peso.
Pero parece incorrecto repetir los pesos, ya que no son mediciones repetidas.
Tal vez sea mejor hacer dos tablas separadas, una con los pesos y otra con estas otras mediciones (que
son para un ensayo in vivo, la prueba de tolerancia a la glucosa: darle un poco de glucosa a un ratón
y medir los niveles de glucosa e insulina en suero en diferentes momentos después). Un ejemplo de
esto se muestra en Figura 6. Tenga en cuenta que también hemos cambiado el manejo de “lo off
curve” and “off curve lo” notes que estaban dentro de la columna de insulina, insertando "NA" y
agregando una columna "nota" (y siendo coherente en el texto utilizado en la nota). También
agregamos un nombre de columna para la primera columna con identificadores de sujeto.
Los diseños en la Figura 6 (a) y 6 (b) son ejemplos de datos "ordenados" (Wickham 2014): cada fila
es una unidad experimental, que generalmente es solo un tema, pero en el caso de la Figura 6 (b) es
un Medición de ensayo único en un sujeto. Reorganizar los datos en un formato "ordenado" puede
simplificar el análisis posterior. Pero el aspecto rectangular es la parte más importante.
Otro problema que vemos a menudo es el uso de dos filas de nombres de encabezado, como en la
Figura 7. En este tipo de situación, a menudo vemos celdas fusionadas: fusionando la celda "semana
4" con las dos celdas siguientes, de modo que el texto es centrado sobre las tres columnas con "fecha",
"peso" y "glucosa". Preferiríamos tener la información de la semana dentro del nombre de la variable.
Entonces, por ejemplo, podría haber una sola fila de encabezado que contenga Mouse ID, SEX,
date_4, weight_4, glucose_4, date_6, weight_6, etc. Alternativamente, conviértalo en un conjunto de
datos "ordenado" con cada fila como tema en un día en particular, como se muestra en la Figura 8.
Tenga simpatía por su analista (que podría ser usted mismo): organice sus datos como un rectángulo
(o, si es necesario, como un conjunto de rectángulos).
8. Crea un diccionario de datos
Es útil tener un archivo separado que explique cuáles son todas las variables. Es útil si esto se presenta
en forma rectangular, para que el analista de datos pueda utilizarlo en los análisis. Tal "diccionario
de datos" podría contener:

 El nombre exacto de la variable como en el archivo de datos


 Una versión del nombre de la variable que podría usarse en las visualizaciones de datos
 Una explicación más larga de lo que significa la variable
 Las unidades de medida
 Valores mínimos y máximos esperados
Esto es parte de los metadatos que querrá preparar: información sobre los datos. También querrá un
archivo Léame que incluya una descripción general del proyecto y los datos.
Un ejemplo de diccionario de datos se muestra en la Figura 9. Tenga en cuenta que este es un conjunto
de datos rectangular, como cualquier otro. La primera columna contiene los nombres de las variables.
La segunda columna es una versión más legible, como podría usarse en visualizaciones de datos. La
tercera columna agrupa las variables en diferentes categorías, que también pueden usarse en
visualizaciones de datos. La última columna es una descripción.
Se podría incluir mucha otra información. Por ejemplo, la información sobre los valores permitidos
para las variables sería útil para identificar errores de registro de datos.
9. No calcular en los archivos con datos brutos
A menudo, los archivos de Excel que nos envían nuestros colaboradores incluyen todo tipo de
cálculos y gráficos. Creemos firmemente que su archivo de datos primario debe contener solo los
datos y nada más: sin cálculos, sin gráficos.
Si está haciendo cálculos en su archivo de datos, eso probablemente significa que lo está abriendo
regularmente y escribiendo en él. Hacerlo conlleva cierto riesgo de que accidentalmente escriba
basura en sus datos.
(¿Le ha sucedido esto? Abre un archivo de Excel y comienza a escribir y no pasa nada, luego
selecciona una celda y puede comenzar a escribir. ¿A dónde se fue todo ese texto inicial? Bueno, a
veces se ingresó en alguna celda aleatoria, que se descubrirá más tarde durante el análisis de datos).
Su archivo de datos primario debe ser un almacén de datos inmaculado. Escríbalo, protéjalo, haga
una copia de seguridad y no lo toque.
Si desea hacer algunos análisis en Excel, haga una copia del archivo y haga sus cálculos y gráficos
en la copia.

10. No utilice color de fuente o resaltado como datos


Es posible que tenga la tentación de resaltar celdas particulares con datos sospechosos o filas que
deben ignorarse. O la fuente o el color de la fuente pueden tener algún significado. En su lugar,
agregue otra columna con una variable indicadora (por ejemplo,”trusted” with values TRUE or
FALSE).
Por ejemplo, en la Figura 10 (a), se resalta una entrada sospechosa. Sería mejor incluir una columna
adicional que indique los valores atípicos (como en la Figura 10 (b)). El resaltado es agradable
visualmente, pero es difícil extraer esa información para usarla en el análisis posterior. Los programas
de análisis pueden manejar mucho más fácilmente los datos almacenados en una columna que los
datos codificados en resaltado de celda, fuente, etc. (y, de hecho, este marcado se perderá por
completo en muchos programas).
Otro posible uso del resaltado sería indicar machos y hembras en un estudio con ratones resaltando
las filas correspondientes en diferentes colores. Pero en lugar de usar el resaltado para indicar el sexo,
es mejor incluir una columna de sexo, con valores Masculino o Femenino.

11. Hacer copias de seguridad

Realice copias de seguridad periódicas de sus datos. En múltiples ubicaciones. Y considere usar un
sistema de control de versiones formal, como git, aunque no es ideal para archivos de datos. Si quieres
ponerte un poco sofisticado, mira dat (https://datproject.org/).
Guarde todas las versiones de los archivos de datos, de modo que si algo se corrompe (por ejemplo,
escribe accidentalmente algunos de los datos y no los note hasta mucho más tarde), podrá volver y
corregirlos. Antes de comenzar a insertar más datos, haga una copia del archivo con un nuevo número
de versión: file_v1.xlsx, file_v2. xlsx, ...
Cuando no está ingresando datos activamente, y particularmente cuando haya terminado de ingresar
datos, proteja contra escritura el archivo. De esa manera, no cambiarás las cosas accidentalmente.

 En una Mac, haga clic con el botón derecho en el archivo en Finder y seleccione "Obtener
información". En el menú que se abre, hay una sección en la parte inferior en "Compartir y
permisos". Haga clic en "Privilegio" y seleccione "Leer". solamente."
 En Windows, haga clic con el botón derecho en el archivo en el Explorador de Windows y
seleccione "Propiedades". En la pestaña "General", hay una sección en la parte inferior con
"Atributos". Seleccione el cuadro "Solo lectura" y haga clic en " OK ".
¡Haga una copia de seguridad de sus datos!

12. Utilice la validación de datos para evitar errores


Con respecto a la tarea de registro de datos, es importante asegurarse de que el proceso esté lo más
libre de errores y libre de estrés repetitivo posible. Una herramienta útil para evitar errores de registro
de datos es la función de "validación de datos" en Excel (consulte http://bit.ly/excel_dataval), para
controlar el tipo de datos o los valores que los usuarios pueden ingresar en una celda.
Selecciona una columna
En la barra de menú, elija Datos → Validación Elija los criterios de validación adecuados. Por
ejemplo,
- Un número entero en algún rango
- Un número decimal en algún rango
- Una lista de posibles valores
- Texto, pero con un límite de longitud

Al mismo tiempo, puede seleccionar tipos de datos particulares para la columna, como el texto, para
evitar que Excel (o los nombres de los factores de transcripción) sean destruidos por Excel.
Mencionamos esto antes en la discusión de fechas, pero vale la pena repetir:

 Selecciona la columna
 En la barra de menú, seleccione Formato → Celdas
 Elija "Texto" a la izquierda
Esto puede parecer engorroso, pero si le ayuda a evitar datos errores de entrada, valdría la pena.

13. Guardar los datos en archivos de texto sin formato


Mantenga una copia de sus archivos de datos en formato de texto plano, con delimitadores de coma
o tabulación. Generalmente utilizamos archivos delimitados por comas (CSV). La hoja de cálculo en
la Figura 11 (a) se guardaría como un archivo de texto sin formato con comas que separan los campos,
como en la Figura 11 (b).

El formato CSV no es bonito de ver, pero puede abrir el archivo en Excel u otro programa de hoja de
cálculo y verlo de la manera estándar. Más importante aún, este tipo de formato de archivo no
propietario no requiere y nunca requerirá ningún tipo de software especial. Y los archivos CSV son
más fáciles de manejar en código.
Si alguna de las celdas en sus datos incluye comas, Excel pondrá comillas dobles alrededor del
contenido de cada celda cuando se guarde en formato CSV. Eso requiere un poco más de delicadeza
para tratar, pero generalmente no es una preocupación.
Para guardar un archivo de Excel como un archivo delimitado por comas:

 Desde la barra de menú, Archivo → Guardar como


 Junto a "Formato:", haga clic en el menú desplegable y seleccione "Valores separados por
comas (CSV)"
 Clic en Guardar"
 Excel dirá algo como: "Este libro contiene características que no funcionarán ...". Ignore eso
y haga clic en "Continuar".
 Salga de Excel. Le preguntará: "¿Desea guardar los cambios que realizó?" Haga clic en "No
guardar" porque acaba de guardarlos. (Excel realmente no quiere que use un formato que
no sea el suyo).
Tenga en cuenta que también hay una opción para guardar como "Texto delimitado por tabulaciones".
Muchas personas prefieren eso, especialmente aquellos que trabajan en países donde se utilizan
separadores decimales con comas.
También tenga en cuenta que, si su archivo de Excel contenía características críticas que no
funcionarán cuando se guarde como un archivo de texto sin formato, como las celdas resaltadas, eso
es un problema; esas características se perderán. Para su archivo de datos primario, mantenga las
cosas simples.

Resumen
Los programas de hojas de cálculo (como Microsoft Excel, Google Sheets y LibreOffice Calc) son
herramientas valiosas para ingresar, organizar y almacenar datos. También se pueden usar para
cálculos, análisis y visualizaciones, pero aquí nos hemos centrado en los aspectos de organización de
datos, y alentamos a los usuarios interesados en hacer cálculos o hacer visualizaciones de datos dentro
de hojas de cálculo para mantener sus archivos de datos primarios y solo datos, y para hacer sus
cálculos y visualizaciones en archivos separados.
Hemos ofrecido varias sugerencias sobre la mejor manera de organizar los datos dentro de una hoja
de cálculo. Nuestras principales preocupaciones son proteger la integridad de los datos y facilitar el
análisis posterior.
Centrarse principalmente en la adopción de estos principios para futuros proyectos. Si bien sus
archivos de datos actuales pueden no cumplir con estos estándares, es mejor no usar copiar y pegar
para reorganizar los archivos.
Al hacerlo, hay una buena posibilidad de introducir errores. La reorganización de datos se logra mejor
a través del código (como con un script R, Python o Ruby) para que nunca pierda el registro de lo que
hizo con los datos.

Potrebbero piacerti anche