Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Karl W. Bromana and Kara H. Woob a Department of Biostatistics & Medical Informatics, University
of Wisconsin-Madison, Madison, WI; bInformation School, University of Washington, Seattle, WA
ABSTRACT
Las hojas de cálculo (spreadsheets) son herramientas de software ampliamente utilizadas para la
entrada, almacenamiento, análisis y visualización de datos. Focalizándose en los aspectos de registro
y almacenamiento de datos, este artículo ofrece recomendaciones prácticas para organizar datos de
hojas de cálculo, para reducir errores y facilitar análisis posteriores. Los principios básicos son: ser
consistente, escribir fechas como AAAA – MM – DD (año-mes-día), no dejar ninguna celda vacía,
organizar un dato por celda (con sujetos como filas, y variables como columnas, y con una sola fila
de encabezado), cree un diccionario de datos, no incluya datos en las filas de datos sin procesar, no
use fuente de color o destacado como datos, elige buenos nombres para las cosas, haga copias de
seguridad, use la validación de datos para evitar errores de registro y guarde los datos en archivos de
texto sin formato.
1. Introducción
Las hojas de cálculo, a pesar de su rectangularidad mundana, han sido objeto de angustia y
controversia durante décadas. Algunos de los escritores han advertido que "los programadores reales
no usan hojas de cálculo "y que debemos" detener esa hoja de cálculo subversiva "(Casimir 1992;
Chadwick 2003). Otros investigadores han aconsejado sobre cómo usar hojas de cálculo para mejorar
su productividad (Wagner y Keisler 2006). En medio de este debate, las hojas de cálculo han
continuado desempeñando un papel importante en los flujos de trabajo de los investigadores, y está
claro que son una herramienta valiosa que los investigadores es poco probable que abandonen por
completo.
Los peligros de las hojas de cálculo son reales, sin embargo- tanto así que la European Spreadsheet
Risks Interest Group mantiene un archivo público de "historias de terror" en la hoja de cálculo
(http://www.eusprig.org/horror-stories.htm). Muchos investigadores han examinado las tasas de error
en las hojas de cálculo, y Panko (2008) informó que en 13 auditorías de hojas de cálculo del mundo
real, un promedio del 88% contenía errores. Los programas populares de hojas de cálculo también
hacen que ciertos tipos de errores sean fáciles de cometer y difíciles de rectificar. Microsoft Excel
convierte algunos datos de nombres de genes en datos o almacenamiento de datos diferentes entre los
sistemas operativos, lo que puede causar problemas en análisis posteriores (Zeeberg et al. 2004; Woo
2014). Los investigadores que usan hojas de cálculo deben tener en cuenta estos errores comunes y
diseñar hojas de cálculo que sean ordenados, consistentes y tan resistentes a los errores como sea
posible.
Las hojas de cálculo a menudo se usan como una herramienta multipropósito para el registro,
almacenamiento, análisis y visualización de datos. La mayoría de los programas de hojas de cálculo
permiten a los usuarios realizar todas estas tareas, sin embargo, creemos que las hojas de cálculo son
las más adecuadas para el registro y el almacenamiento de datos; y que el análisis y la visualización
deben realizarse por separado. Analizar y visualizar datos en un programa separado, o al menos en
una copia separada del archivo de datos, reduce el riesgo de contaminar o destruir los datos sin
procesar en la hoja de cálculo.
Murrell (2013) comparó datos que están formateados por humanos a simple vista con datos
formateados por una computadora. Proporcionó un ejemplo extendido de código de computador para
extraer datos de un conjunto de archivos con arreglos complejos. Es importante que los analistas de
datos puedan trabajar con archivos de datos tan complejos. Pero si la planificación inicial de los
archivos de datos se planifica con un computador en mente, el proceso de análisis posterior se
simplifica.
En este artículo, ofrecemos recomendaciones prácticas para organizar los datos de la hoja de cálculo
de una manera que tanto los humanos como los programas de computador puedan leer. Siguiendo
este consejo, los investigadores crearán hojas de cálculo que son menos propensas a errores, más
fáciles de procesar para los computadores y más fáciles de compartir con los colaboradores y el
público. Las hojas de cálculo que adhieran a nuestras recomendaciones funcionarán bien con las
herramientas ordenadas y los métodos reproducibles descritos en otra parte de esta colección y
formarán la base de un flujo de trabajo analítico robusto y reproducible.
Para un conjunto de datos existente cuya disposición podría mejorarse, recomendamos no aplicar una
edición manual tediosa y potencialmente propensa a errores para revisar la disposición. Más bien,
esperamos que el lector pueda aplicar estos principios al diseñar el diseño para futuros conjuntos de
datos.
2. Ser coherente
La primera regla de organización de datos es ser coherente. Hagas lo que hagas, hazlo
coherentemente. Ingresar y organizar sus datos de manera consistente desde el principio evitará que
usted y sus colaboradores tengan que pasar tiempo armonizando los datos más adelante.
Use códigos coherentes para variables categóricas. Para una variable categórica como el sexo de un
ratón en un estudio genético, use un único valor común para los hombres (por ejemplo, "hombre") y
un único valor común para las mujeres (por ejemplo, "mujer"). No escriba algunas veces "M", y
otras veces "hombre". Elija uno y manténgalo.
Use un código coherente fijo para cualquier valor faltante. Nosotros preferimos que se llenen todas
las celdas, de modo que se pueda distinguir entre valores verdaderamente faltantes y valores que
faltan involuntariamente. Los usuarios de R prefieren "NA". Tú también podrías usar un guión. Pero
quédese con un solo valor en todo momento. Definitivamente no use un valor numérico como -999 o
999; Es fácil pasar por alto que está destinado a la falta de un dato. Además, no inserte una nota en
lugar de los datos, explicando por qué falta. Más bien, haga una columna separada con tales notas.
Use nombres de variables coherentes. Si en un archivo (por ejemplo, el primer lote de sujetos), tiene
una variable llamada "Glucose_10wk", entonces llámela exactamente así en otros archivos (por
ejemplo, para otros lotes de sujetos). Si se le llama variablemente "Glucose_10wk", "gluc_10weeks"
y "10 week glucosa", entonces el analista de datos tendrá que averiguar que todo esto es realmente lo
mismo.
Use identificadores de temas coherentes. Si a veces es "153" y a veces "mouse153" y a veces "mouse-
153F" y a veces "Mouse153", habrá trabajo adicional para descubrir quién es quién.
Utilice un diseño de datos coherente en varios archivos. Si sus datos están en varios archivos y utiliza
diferentes diseños en diferentes archivos, será un trabajo adicional para el analista combinar los
archivos en un conjunto de datos para su análisis. Con una estructura coherente, será fácil automatizar
este proceso.
Use nombres de archivo coherentes. Tenga algún sistema para nombrar archivos. Si un archivo se
llama "Serum_batch1_2015-01-30.csv", no llame al archivo para el siguiente lote
"batch2_serum_52915.csv", sino que use "Serum_batch2_2015-05-29.csv". Mantener un esquema de
nombres de archivos coherente ayudará a garantizar que sus archivos permanezcan bien organizados
y facilitará el procesamiento por lotes de los archivos si es necesario.
Use un formato coherente para todas las fechas, preferiblemente con el formato estándar AAAA-
MM-DD, por ejemplo, 2015-08-01. Si a veces escribe 8/1/2015 y otras 8-1-15, será más difícil usar
las fechas en análisis o visualizaciones de datos.
Use frases coherentes en sus notas. Si tiene una columna separada de notas (por ejemplo, “dead” or
“lo off curve”), sea coherente con lo que escribe. A veces no escriba “dead” y a veces “Dead”, o a
veces “lo off curve” y, a veces, “off curve lo.”
Tenga cuidado con los espacios adicionales dentro de las celdas. Una celda en blanco es diferente
de una celda que contiene un solo espacio. Y "masculino" es diferente de " masculino " (es decir, con
espacios al principio y al final).
Seleccionar la columna
En la barra de menú seleccionar Formato Celdas
Elija “Texto” a la izquierda
Sin embargo, si hace esto en columnas que ya contienen fechas, Excel las convertirá en un valor de
texto de su representación numérica subyacente.
Otra forma de obligar a Excel a tratar las fechas como texto es comenzar la fecha con un apóstrofe,
como este: "2014-06-14 (ver http://bit.ly/twitter_apos). Excel tratará las celdas como texto, pero el
apóstrofe no aparecerá cuando vea la hoja de cálculo o la exporte a otros formatos. Este es un truco
útil, pero requiere diligencia y consistencia impecables. Alternativamente, puede crear tres columnas
separadas con año, mes y día. Esos serán números ordinarios, por lo que Excel no los estropeará.
Finalmente, podría representar las fechas como un entero de 8 dígitos del formulario AAAAMMDD,
por ejemplo, 20140614 para 2014-06-14 (ver Briney 2017).
La Figura 1 muestra una parte de una hoja de cálculo que obtuvimos de un colaborador. No
recordamos exactamente para qué eran estos, pero en cualquier caso tener diferentes formatos de
fecha dentro de una columna hace que sea más difícil usar las fechas en análisis posteriores o en
visualizaciones de datos. Tenga cuidado con las fechas y sea coherente.
7. Házlo un rectángulo
El mejor diseño para sus datos dentro de una hoja de cálculo es como un solo gran rectángulo con
filas correspondientes a temas (sujetos) y columnas correspondientes a variables. La primera fila debe
contener nombres de variables, y no use más de una fila para los nombres de variables. Un ejemplo
de un diseño rectangular se muestra en la Figura 4.
Algunos conjuntos de datos no encajarán bien en un solo rectángulo, pero generalmente encajarán en
un conjunto de rectángulos, en cuyo caso puede hacer un conjunto de archivos Excel, cada uno con
un rectángulo de datos. Es mejor mantener cada rectángulo en su propio archivo; Las tablas dispersas
alrededor de una hoja de trabajo son difíciles de trabajar y dificultan la exportación de datos a archivos
CSV. También puede considerar tener un solo archivo de Excel con varias hojas de trabajo.
Preferimos tener múltiples archivos con una hoja cada uno para que podamos guardar más fácilmente
los datos como archivos CSV, pero si usa varias hojas de trabajo en un archivo, asegúrese de usar una
estructura coherente.
Algunos datos ni siquiera caben en un conjunto de rectángulos, pero tal vez las hojas de cálculo no
sean el mejor formato para ellos, ya que las hojas de cálculo son inherentemente rectangulares.
Los archivos de datos que recibimos generalmente no están en forma rectangular. Más a menudo,
parece que hay fragmentos de datos espolvoreados.
En la Figura 5 se muestran varios ejemplos. En las hojas de cálculo de la Figura 5 (a) y 5 (b), el
analista de datos deberá estudiar el diseño, determinar qué significa todo y luego dedicar un tiempo a
reorganizar las cosas. Si, desde el principio, los datos se organizaran como un rectángulo, ahorraría
mucho tiempo al analista. El ejemplo de la Figura 5 (c) se basó en un conjunto de datos que tenía una
hoja de trabajo separada para cada sujeto, cada uno en ese formato complicado.
Si todas las hojas de trabajo tienen exactamente el mismo diseño, entonces no es demasiado difícil
extraer la información relevante y combinarla en un rectángulo. (Se podría escribir un script en R,
Python o Ruby).
Pero es preferible no tener medias y SD y cálculos de cambio de pliegue que saturan los valores de
datos sin procesar, y parece que incluso para el registro de datos, sería más fácil tener todas las
mediciones en una hoja de trabajo. A veces es difícil ver cómo reorganizar las cosas como un
rectángulo, como en el ejemplo de la Figura 5 (d). Es una especie de rectángulo; podríamos completar
las celdas vacías en las dos primeras columnas repitiendo los valores individuales, de fecha y de peso.
Pero parece incorrecto repetir los pesos, ya que no son mediciones repetidas.
Tal vez sea mejor hacer dos tablas separadas, una con los pesos y otra con estas otras mediciones (que
son para un ensayo in vivo, la prueba de tolerancia a la glucosa: darle un poco de glucosa a un ratón
y medir los niveles de glucosa e insulina en suero en diferentes momentos después). Un ejemplo de
esto se muestra en Figura 6. Tenga en cuenta que también hemos cambiado el manejo de “lo off
curve” and “off curve lo” notes que estaban dentro de la columna de insulina, insertando "NA" y
agregando una columna "nota" (y siendo coherente en el texto utilizado en la nota). También
agregamos un nombre de columna para la primera columna con identificadores de sujeto.
Los diseños en la Figura 6 (a) y 6 (b) son ejemplos de datos "ordenados" (Wickham 2014): cada fila
es una unidad experimental, que generalmente es solo un tema, pero en el caso de la Figura 6 (b) es
un Medición de ensayo único en un sujeto. Reorganizar los datos en un formato "ordenado" puede
simplificar el análisis posterior. Pero el aspecto rectangular es la parte más importante.
Otro problema que vemos a menudo es el uso de dos filas de nombres de encabezado, como en la
Figura 7. En este tipo de situación, a menudo vemos celdas fusionadas: fusionando la celda "semana
4" con las dos celdas siguientes, de modo que el texto es centrado sobre las tres columnas con "fecha",
"peso" y "glucosa". Preferiríamos tener la información de la semana dentro del nombre de la variable.
Entonces, por ejemplo, podría haber una sola fila de encabezado que contenga Mouse ID, SEX,
date_4, weight_4, glucose_4, date_6, weight_6, etc. Alternativamente, conviértalo en un conjunto de
datos "ordenado" con cada fila como tema en un día en particular, como se muestra en la Figura 8.
Tenga simpatía por su analista (que podría ser usted mismo): organice sus datos como un rectángulo
(o, si es necesario, como un conjunto de rectángulos).
8. Crea un diccionario de datos
Es útil tener un archivo separado que explique cuáles son todas las variables. Es útil si esto se presenta
en forma rectangular, para que el analista de datos pueda utilizarlo en los análisis. Tal "diccionario
de datos" podría contener:
Realice copias de seguridad periódicas de sus datos. En múltiples ubicaciones. Y considere usar un
sistema de control de versiones formal, como git, aunque no es ideal para archivos de datos. Si quieres
ponerte un poco sofisticado, mira dat (https://datproject.org/).
Guarde todas las versiones de los archivos de datos, de modo que si algo se corrompe (por ejemplo,
escribe accidentalmente algunos de los datos y no los note hasta mucho más tarde), podrá volver y
corregirlos. Antes de comenzar a insertar más datos, haga una copia del archivo con un nuevo número
de versión: file_v1.xlsx, file_v2. xlsx, ...
Cuando no está ingresando datos activamente, y particularmente cuando haya terminado de ingresar
datos, proteja contra escritura el archivo. De esa manera, no cambiarás las cosas accidentalmente.
En una Mac, haga clic con el botón derecho en el archivo en Finder y seleccione "Obtener
información". En el menú que se abre, hay una sección en la parte inferior en "Compartir y
permisos". Haga clic en "Privilegio" y seleccione "Leer". solamente."
En Windows, haga clic con el botón derecho en el archivo en el Explorador de Windows y
seleccione "Propiedades". En la pestaña "General", hay una sección en la parte inferior con
"Atributos". Seleccione el cuadro "Solo lectura" y haga clic en " OK ".
¡Haga una copia de seguridad de sus datos!
Al mismo tiempo, puede seleccionar tipos de datos particulares para la columna, como el texto, para
evitar que Excel (o los nombres de los factores de transcripción) sean destruidos por Excel.
Mencionamos esto antes en la discusión de fechas, pero vale la pena repetir:
Selecciona la columna
En la barra de menú, seleccione Formato → Celdas
Elija "Texto" a la izquierda
Esto puede parecer engorroso, pero si le ayuda a evitar datos errores de entrada, valdría la pena.
El formato CSV no es bonito de ver, pero puede abrir el archivo en Excel u otro programa de hoja de
cálculo y verlo de la manera estándar. Más importante aún, este tipo de formato de archivo no
propietario no requiere y nunca requerirá ningún tipo de software especial. Y los archivos CSV son
más fáciles de manejar en código.
Si alguna de las celdas en sus datos incluye comas, Excel pondrá comillas dobles alrededor del
contenido de cada celda cuando se guarde en formato CSV. Eso requiere un poco más de delicadeza
para tratar, pero generalmente no es una preocupación.
Para guardar un archivo de Excel como un archivo delimitado por comas:
Resumen
Los programas de hojas de cálculo (como Microsoft Excel, Google Sheets y LibreOffice Calc) son
herramientas valiosas para ingresar, organizar y almacenar datos. También se pueden usar para
cálculos, análisis y visualizaciones, pero aquí nos hemos centrado en los aspectos de organización de
datos, y alentamos a los usuarios interesados en hacer cálculos o hacer visualizaciones de datos dentro
de hojas de cálculo para mantener sus archivos de datos primarios y solo datos, y para hacer sus
cálculos y visualizaciones en archivos separados.
Hemos ofrecido varias sugerencias sobre la mejor manera de organizar los datos dentro de una hoja
de cálculo. Nuestras principales preocupaciones son proteger la integridad de los datos y facilitar el
análisis posterior.
Centrarse principalmente en la adopción de estos principios para futuros proyectos. Si bien sus
archivos de datos actuales pueden no cumplir con estos estándares, es mejor no usar copiar y pegar
para reorganizar los archivos.
Al hacerlo, hay una buena posibilidad de introducir errores. La reorganización de datos se logra mejor
a través del código (como con un script R, Python o Ruby) para que nunca pierda el registro de lo que
hizo con los datos.