Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1
Introduccin al estudio de la
variabilidad de las evidencias
arqueolgicas
Juan A. Barcel
Laboratori dArqueologia Cuantitativa i Aplicacions Informtiques
Universitat Autnoma de Barcelona
2006
INDICE
Presentacin.................................................................................................................... 3
Para qu sirve la estadstica en arqueologa? ............................................................ 7
La naturaleza estadstica de los datos arqueolgicos. ............................................... 13
Primeros pasos con PAST. Instalacin del programa.................................................. 20
Primeros pasos con PAST. Introduccin y manipulacin de datos arqueolgicos. ..... 21
Introduccin de datos................................................................................................. 21
Cargar y guardar datos................................................................................................ 23
Mover una fila o una columna.................................................................................... 24
Seleccin de reas....................................................................................................... 24
Renombrar filas y columnas....................................................................................... 26
Aumentar el tamao de la hoja de clculo.................................................................. 26
Cortar, copiar, pegar................................................................................................... 26
Eliminar...................................................................................................................... 27
Agrupar (colorear) filas.............................................................................................. 27
Ordenar valores en una columna................................................................................ 28
Transponer.................................................................................................................. 29
Resultados de las pruebas estadsticas........................................................................ 30
Qu forma tiene la distribucin? Histogramas........................................................ 31
Cun variables son las consecuencias materiales de las acciones sociales?
Estadstica Univariante................................................................................................... 40
El azar como medida de todas las cosas. La Ley de la Normalidad .................... 46
Explicar es Comparar - chi cuadrado-/Shapiro-Wilk (una muestra).
2
,Grficos QQ
de Normalidad. ............................................................................................................... 54
Asociacin, Relacin y Semejanza.Tres palabras clave para un mismo problema...... 70
Estudiando Relaciones entre variables. .................................................................... 800
Relacin entre variables cuantitativas........................................................................ 80
Una de las medidas de la intensidad de una relacin.................................................................... 8 88
Relacin entre variables cualitativas y cuantitativas................................................ 966
Analisis de Varianza Univariante................................................................................................. 1066
Relacin entre variables cualitativas...................................................................... 1144
Analisis de Correspondencias....................................................................................................... 1233
Contenidos del prximo volumen de la serie ......................................................... 1344
2
Presentacin
Aunque la mayora de arquelogos y arquelogas no lo crea, la arqueologa es una
disciplina matemtica (segn dijo en su da David Clarke), en pie de igualdad con la
qumica, la fsica, etc. Es decir, para resolver problemas arqueolgicos debemos utilizar
mtodos de razonamiento desarrollados en lenguaje matemtico. Obviamente no es ste
el lugar para discutir este punto, pero si los lectores y lectoras de este manual siguen
leyendo, entendern por qu digo lo que digo.
La dificultad est en que no sabemos matemticas. Aunque existen muchos programas
informticos que debieran ayudarnos a aplicar esas matemticas, lo cierto es que su uso
parece ser demasiado complicado para quien no tiene los conocimientos necesarios. Por
eso se ha escrito este libro, que:
proporciona ejemplos fciles de seguir de todas las tcnicas usadas en arqueologa,
documenta de manera esquemtica, intuitiva, simple y directa todas las funciones
estadsticas que pudieran llegar a ser tiles para arquelogos y arquelogas, mostrando
ejemplos claros de todas ellas,
no est basado en frmulas, sino que se explican para qu sirven los clculos que realiza
un programa informtico.
Este libro est ajustado al uso del programa gratuito PAST.
Este libro ha sido escrito especialmente para aquellos investigadores e investigadoras (y
estudiantes de arqueologa que pretenden convertirse en futuros profesionales de nuestra
disciplina) que no slo no tienen ni idea de las matemticas, sino que aprendieron a
odiarlas en sus aos de escuela. Nmeros aparecern en gran cantidad, pero las
operaciones (aritmticas, algebraicas, etc.) se obviarn y sern sustituidas por
explicaciones intuitivas de lo que se pretende con esas tcnicas.
Un segundo libro acompaa a este manual. Se trata de un libro de ejercicios y
problemas arqueolgicos, que pueden obtenerse en la pgina web de referencia para
este manual:
http://seneca.uab.es/prehistoria/Barcelo/manualestadistica.html
En ese documento (en formato .pdf) las distintas funciones estadsticas de PAST
presentadas y discutidas en el libro se ejemplifican con arreglo a varios casos
arqueolgicos reales. Se ha intentado que los lectores y lectoras del manual se vayan
3
acostumbrando al tipo de resultados estadsticos ms usuales en arqueologa y a la
complejidad de su lectura e interpretacin. A diferencia del manual en el que se
explican las tcnicas, en el Libro de Ejercicios y Problemas se insiste en el tipo de
problemtica histrica que los datos arqueolgicos debieran permitir resolver. Por eso
la estructura de ambos es distinta: el manual est estructurado de acuerdo con las
tcnicas y funciones estadsticas que se estudian, mientras que el Libro de Ejercicios y
Problemas est organizado de acuerdo con problemas arqueolgicos concretos que se
van resolviendo de manera ordenada. Se ha considerado que lo importante es aprender a
tener en cuenta que las distintas funciones estadsticas no pueden aplicarse a ciegas,
sino siempre considerando la pregunta concreta a la que se quiere responder.
En el Libro de Ejercicios y Problemas se ha puesto un inters especial en argumentar
qu funciones pueden ejecutarse y cuales NO deben realizarse con determinados
tipos de datos. Los ejemplos han sido elegidos precisamente para poner de manifiesto
las ventajas de la descripcin cuantitativa en arqueologa y los inconvenientes de la
cualitativa. Por eso hay ejemplos que parece que no proporcionan informacin relevante.
El documento que contiene esos problemas resueltos se ir actualizando frecuentemente,
incluyendo nuevos casos reales. Se invita a los lectores y lectoras a sugerirnos nuevos
ejemplos o casos que se deseen incluir.
Para este proyecto se ha elegido un programa informtico muy particular. El programa
PAST
1
Paleontological Statistics-, es original de yvind Hammer, D.A.T. Harper and
P.D. Ryan. Existen muchos y muy completos programas para realizar clculos
estadsticos, como por ejemplo SPSS, SAS y extensiones para Excel. Por qu otro
programa de estadstica? Porque
PAST es gratuito,
PAST est ajustado a su uso en paleontologa y arqueologa. Esto significa que
incluye algunas funciones que no aparecen en programas de uso general (como
cladstica, seriacin, morfometra y comparacin estratigrfica). Igualmente, no
incluye funciones raramente usadas en nuestras disciplinas, lo que permite al
programa ser ms ajustado y menos confuso.
PAST es fcil de usar, y apropiado para los cursos introductorios de paleontologa y
arqueologa cuantitativas.
Ya slo por su nombre past (pasado) parece hecho ex profeso para nosotros,
arquelogos. Es un acrnimo de estadstica paleontolgica, y la paleontologa y la
arqueologa tienen muchas semejanzas y analogas, al menos en lo que a metodologa se
refiere. No obstante, las funciones estadsticas usadas en paleontologa no siempre son
las mismas que las usadas en arqueologa, por eso necesitamos de un libro como ste,
que adapta PAST a su uso en arqueologa.
La pgina web de referencia del programa PAST, y donde puede obtenerse
gratuitamente es:
http://folk.uio.no/ohammer/past
1
Este manual se refiere a la versin 1.54. El programa se actualiza muy frecuentemente, as que es
conveniente visitar repetidas veces la pagina web de referencia para descargar la ltima versin.
4
Los usuarios pueden suscribirse a una lista de correo electrnico acerca del uso del
programa. Los detalles aparecen en la pgina web cuyo enlace es el siguiente:
http://nhm-lists.uio.no/mailman/listinfo/past-users@nhm.uio.no
Este manual es el primero de una serie de publicaciones del Laboratorio de Arqueologa
Cuantitativa de la Universidad Autnoma de Barcelona que documenta otras funciones
de PAST y que tambin recurrir a otros programas gratuitos. Por el momento estn
previstos los siguientes volmenes, que irn apareciendo con periodicidad anual:
Vol. 1. Introduccin al estudio de la variabilidad de las evidencias arqueolgicas
(Estadstica Univariante y Bivariante)
Vol. 2. Estadstica Multivariante
Vol. 3. Morfometra
Vol. 4. Anlisis Espacial
Vol. 5. Seriacin y Prediccin
En este primer libro tan slo vamos a tratar en general con la manera de enfocar el
anlisis de una distribucin de valores. Como es lgico, el anlisis de distintas
propiedades cuantitativas requiere estrategias y procedimientos diferentes. Aqu
meteremos dentro del mismo paquete el estudio de la magnitud, de la forma, de la
textura, de la composicin y de la localizacin de las evidencias arqueolgicas. Se me
ocurren dos mbitos especficos que requieren de una exposicin ms detallada: el
estudio de la forma y el de la localizacin. El primero se abordar en el volumen
dedicado a morfometra, en tanto que el segundo encontrar acomodo en el volumen
referido al anlisis espacial. Por otro lado, algunas de las tcnicas ms usuales no han
encontrado lugar en este primer libro por varias razones. Por ejemplo, en varias
ocasiones se menciona el anlisis de las semejanzas entre objetos (o estudio de la
similaridad), pero nada se explica de l. El estudio de la semejanza implica
necesariamente la comparacin de muchas variables, y eso es matemticamente ms
complejo. Por ese motivo he preferido dejarlo para introducir el prximo volumen, que
trata precisamente del anlisis multivariante. Adems, algn lector o lectora puede
encontrar a faltar referencias a la regresin. La mayora de libros de introduccin a la
estadstica la mencionan entre las tcnicas bsicas; quizs sea una tcnica fundamental
en otras disciplinas, pero en arqueologa prcticamente nunca me he encontrado
relaciones lineales que puedan ser analizadas por medio de ecuaciones de regresin
simple. Creo que el estudio de la regresin es muy interesante para introducir
cuestiones mucho ms tiles (pero tambin ms difciles) como el de las regresiones
mltiples y las regresiones no lineales. Todos esos temas habrn de esperar hasta el
volumen dedicado a seriacin y Ppediccin.
AGRADECIMIENTOS.
Este libro y los que le seguirn son el resultado de 15 aos de docencia de la
Arqueologa Cuantitativa en la Universitat Autnoma de Barcelona. Es por tanto obvio
que mi mayor agradecimiento va hacia los y las estudiantes que pasaron por las
asignaturas de Introduccin a la Arqueologa, Mtodos Cuantitativos en Arqueologa,
Recursos Instrumentales para la Investigacin Histrica, Tcnicas de Laboratorio,
Archivo y Campo, as como por la asignatura de doctorado Tcnicas de Inteligencia
5
Artificial en Arqueologa. Si aprendieron algo de m, tambin yo aprend mucho de
ellos y ellas.
Mi agradecimiento va tambin dirigido a mis compaeros y compaeras del equipo de
investigacin conjunto UAB/CSIC de Barcelona. Con ellos he realizado numerosos
anlisis estadsticos para interpretar los datos arqueolgicos procedentes de nuestras
excavaciones en Tierra del Fuego (Argentina), as como datos proporcionados por otros
compaeros en proyectos arqueolgicos en Prximo Oriente, Pennsula Ibrica y otros
lugares. Si la aplicacin de esas tcnicas permiti llevar a cabo muchos proyectos e
incluso sirvi para desarrollar algunos aspectos importantes de muchas Tesis Doctorales,
los problemas que plantearon estimularon una reflexin acerca de lo apropiado o
inapropiado de los mtodos que no podra haberse llevado a cabo sin su ayuda. Gracias
a todos ellos la estadstica dej de ser un mero recurso terico para convertirse en una
herramienta prctica, integrada en el trabajo cotidiano de arquelogos y arquelogas.
Y finalmente, pero no en ltimo lugar, a Laura y a Mart. El lleg cuando an no haba
empezado con este proyecto, y ahora est aqu, metiendo sus pequeas manitas en el
teclado del ordenador y deshaciendo aquello que yo pretendo hacer. Ella ha estado
siempre a mi lado, ley y corrigi varios manuscritos previos y se dedica en cuerpo y
alma a nosotros dos. Gracias.
6
Para qu sirve la estadstica en
arqueologa?
Si por un momento dejramos de pensar en la investigacin arqueolgica en los
habituales trminos narrativos y descriptivos, nos daramos cuenta de que como
investigacin cientfica que es, debe expresarse en trminos de problemas a resolver. La
arqueologa es una ciencia social, es una disciplina histrica, pero ni es la nica ciencia
social, ni la nica disciplina histrica. Por consiguiente no debemos pretender
responder aqu y ahora todos los problemas de la humanidad, sino resolver problemas
concretos y especficos que se refieran al tipo de datos que podemos llegar a manejar.
Debemos huir de trivialidades del tipo de: Cmo viva la gente en el pasado? y
centrarnos en:
Por qu est os mat er i al es
ar queol gi cos son como son, y
no de ot r a maner a?
El objeto de estudio de la arqueologa son las consecuencias materiales de la accin
humana, esto es del trabajo de mujeres y hombres. Como resultado de nuestro trabajo,
de nuestras relaciones con otras personas, producimos objetos, transformamos cosas, ya
sea de manera consciente, ya sea de manera inconsciente. Algunas de esas
consecuencias de lo que hacemos tienen una materialidad que va ms all de su mera
visibilidad. Por ejemplo, el lenguaje hablado es una consecuencia de la actividad social,
es perceptible, pero no tiene materialidad, a no ser que lo escribamos sobre un soporte
material. Por el contrario, un instrumento de trabajo o la pata de pollo que me com
anoche, son tambin consecuencias observables de la accin social, que adems tienen
la caracterstica de ser analizables en su materialidad.
Otras disciplinas se encargan de otros aspectos no materiales de la vida social. Debemos
saber lo suficiente de sociologa, de economa, de psicologa social, etc., pero nosotros
debemos centrarnos en aquellos aspectos que slo la investigacin arqueolgica puede
estudiar: aquello que se conserva de la accin social una vez que sta ha concluido. Y lo
que se conserva es, precisamente, un subconjunto de lo material. Debemos estudiar
cmo la accin social gener, a lo largo del tiempo, consecuencias materiales y sus
relaciones. Esto no significa que la causa de esa materialidad antigua observable en el
presente se reduzca a lo que se ha dado en llamar economicismo de va estrecha. No
slo la subsistencia genera consecuencias materiales, sino cualquier accin social, tanto
poltica, como econmica, como ideolgica.
Las ciencias sociales pretenden resolver dos tipos o modalidades de problemas:
7
qu tipos de accin social pueden ponerse en relacin con
conjuntos especficos de artefactos o fragmentos de artefactos. Es
decir, qu efectos materiales produce la accin social y de qu
manera podemos reconstruirla partiendo de la observacin de
esos efectos,
por qu la accin social en cuestin se produce, cambia o
permanece estable. Es decir, por qu varan a lo largo del tiempo
y/o del espacio los efectos materiales de la accin social.
Resulta obvio que la resolucin de problemas del primer tipo es una condicin para la
resolucin de los del segundo tipo. Si no sabemos qu acciones colectivas se produjeron
en un momento y lugar, difcilmente averiguaremos por qu cambiaron a travs del
tiempo, y por qu la accin colectiva cristaliz en distintas formaciones sociales.
Dentro de las ciencias sociales, la arqueologa aparece en realidad como una especie de
ingeniera inversa, cuyos resultados sern utilizados en investigaciones ms abstractas
o interpretativas acerca de la naturaleza social:
Qu acci n soci al ( pr oceso de t r abaj o)
caus ( det er mi n, condi ci on, i nf l uy)
el ef ect o mat er i al que puedo obser var
en el yaci mi ent o ar queol gi co?
Nosotros conocemos el efecto (material arqueolgico), y deseamos averiguar la accin
social que lo produjo. No quiere esto decir que la arqueologa sea una parienta pobre de
la historia, ni que arquelogas ni arquelogos no sean investigadores o investigadoras
de la historia, sino que antes de resolver un problema histrico (por qu pas?),
debemos resolver el problema arqueolgico (qu pas?).
Es en los distintos productos finales (materias primas, instrumentos, residuos y
desechos) donde quedan reflejados los procesos de trabajo. El estudio arqueolgico de
los productos, de los desechos de produccin y de los medios usados para producirlos
debiera permitirnos, entonces, identificar los lugares de produccin y establecer cules
han sido los procesos de trabajo y las acciones de uso, consumo y/o distribucin. La
arqueologa analiza los objetos que son resultado del trabajo, que son producto de la
accin colectiva. Pero no los estudiamos porque ellos mismos sean importantes, por las
intenciones o motivaciones individuales de los agentes que los produjeron, sino porque
constituyen el aspecto observable de una parte de la accin colectiva; porque
constituyen el conjunto de elementos materiales que usa el grupo humano para subsistir
y reproducirse. Los bienes producidos, ya sean destinados a ser comidos, bebidos o para
producir otros bienes, no son ms que elementos naturales alterados por el trabajo. Todo
lo que ha sido modificado en su forma, en su tamao, en su composicin, en su textura,
en su localizacin, es pues un elemento del registro arqueolgico. Los animales
salvajes, las piedras, la tierra, los bosques, los ros no son artefactos, sino recursos, pero
las carcasas animales, los bloques extrados de mineral, la tierra cultivada, el paisaje
transformado, el agua que se va a beber o se va a utilizar para regar son artefactos, ya
que su materialidad ha sido alterada por acciones colectivas como la caza, el despiece,
el transporte y reparticin de la carne, su coccin y la fragmentacin de huesos, el
cultivo, el embalse de aguas y su canalizacin, la deforestacin, la fabricacin de
instrumentos, etc. Es un artefacto todo lo que ha sido modificado por la accin
colectiva, que explota y organiza sus recursos, que deforesta, aterraza, y construye o
8
destruye. Si la accin colectiva modifica la naturaleza, entonces podemos utilizar las
modificaciones observables en la materialidad de las cosas para inferir las acciones
colectivas que se han realizado en determinado lugar. Es en este sentido, en el que todo
objeto socialmente producido funciona como smbolo o indicador de una realidad social
que est definida, precisamente por la accin colectiva, es decir, la capacidad del grupo
social para producir y reproducirse.
El primer paso en esa ingeniera inversa que pretende averiguar la causa partiendo de la
observacin del efecto es, lgicamente, describir esa materialidad resultado de la accin
social. La materialidad puede estudiarse con arreglo a 5 propiedades bsicas:
MAGNI TUD
TAMAO
COMPOSI CI N
TEXTURA
LOCALI ZACI ON ( en el t i empo y en el espaci o)
A su vez, las causas sociales de esas propiedades observables en las consecuencias
materiales de la accin social pueden resumirse en cuatro grandes grupos:
PRODUCCI N
USO/ CONSUMO
DI STRI BUCI N
ACCI ONES POST- DEPOSI TACI ONALES
El grfico muestra cmo causas y efectos se interrelacionan:
PROCESOS POST-DEPOSITACIONALES
PRODUCCION
Forma
Tamao
Distribucin Composicin
Textura
Localizacin
USO
ACCION INVESTIGADORA
Por descontado, en muchas ocasiones (a veces la mayora) los materiales arqueolgicos
tienen la forma o el tamao que tienen debido a todo lo que pas desde el momento
histrico de su depositacin hasta la excavacin arqueolgica. El elemento original que
fue consecuencia de la accin social pudo haberse roto, pudo haberse alterado en su
composicin qumica, pudo haberse desplazado, su contenido en carbono 14 pudo
haberse contaminado, etc. El primer problema arqueolgico a resolver consistir en
averiguar hasta qu punto lo que observamos es resultado de lo que tuvo lugar en el
yacimiento arqueolgico despus de que la accin social original se produjera. Una vez
que hayamos podido resolver qu aspectos de la materialidad arqueolgica no son una
consecuencia de todo aquello que sucedi en el yacimiento arqueolgico despus de su
9
formacin, pasaremos a plantear el problema arqueolgico propiamente dicho, que
puede esquematizarse de este modo:
Pero no es tan sencillo como parece. Este problema muy pocas veces puede resolverse
para elementos arqueolgicos individuales. Por qu esta vasija tiene esta forma?
Quizs porque es la forma ms apropiada para el uso al que se la destina, o bien por
accidente, por capricho de quien hizo esa cermica, o por otras razones. Hay millones
de causas posibles. Quiere esto decir que los problemas arqueolgicos esa ingeniera
inversa de la que hablbamos- es imposible?
En parte es as. La arqueologa es una ciencia imposible, de ah sus muchos fracasos
interpretativos. Pero existe una salvedad, que es precisamente la que justifica la
naturaleza matemtica de la arqueologa. Lo que no se puede resolver para un
elemento aislado, puede ser resuelto para un conjunto de elementos. Por qu estas
hachas tienen distintas longitudes? Porque fueron fabricadas con propsitos distintos.
Por qu en estas tumbas aparecen ajuares con composicin diversa? Porque fueron
producidos por rituales funerarios distintos. El problema arqueolgico se expresara
entonces de otro modo:
Es muy difcil, a veces imposible, saber por qu una tumba en particular tiene cierta
composicin (cantidad de ajuar), cierto tamao (volumen) o forma (es una fosa o un
tmulo o una urna dentro de fosa, etc.). Puede que sea la tumba del cacique local, de un
chamn, de una persona pobre, pero con muchos amigos, de alguien odiado y temido,
etc. No podemos conocer el significado concreto de cada elemento arqueolgico,
porque resulta imposible reconstruir las motivaciones de los agentes sociales que lo
produjeron o lo utilizaron. Pero s que podemos averiguar por qu hay diferencias de
composicin, tamao y forma en una necrpolis. Las tumbas son distintas porque las
causas que las generaron fueron distintas. Si no podemos precisar la causa individual, s
que podemos llegar a definir causas ms generales: lo que vara es el rito funerario, y el
rito funerario es diverso porque la personalidad social de la familia del fallecido es
diferente. Da igual si la persona enterrada fue una jefa, una chamn o una buena o mala
persona; lo que importa es que su tumba es distinta del resto, y el grado y la naturaleza
de esa diferencia puede medirse y estudiarse.
Por consiguiente, para explicar la dinmica de la accin colectiva, para explicar los
procesos histricos de creacin y transformacin de las formaciones sociales no es
Qu acciones de
PRODUCCION
USO
DISTRIBUCION
son la causa de
VARIACIONES
OBSERVADAS DE:
TAMAO
FORMA
COMPOSICION
TEXTURA
LOCALIZACION
Qu accin de
PRODUCCION
TAMAO
FORMA
es la causa de
USO
COMPOSICION
DISTRIBUCION
TEXTURA
LOCALIZACION
10
necesario averiguar por qu cada uno de los artefactos arqueolgicos (los productos del
trabajo realizado por un grupo de personas relacionadas, precisamente, en razn de ese
trabajo) son como son o aparecen donde aparecen, ya que ese estudio resulta, en la
prctica, imposible, adems de sin sentido. Tampoco necesitamos modelos universales
de accin colectiva para poder interpretar los observables arqueolgicos como sus
realizaciones particulares. Se trata simplemente de buscar las regularidades histricas en
la reproduccin de acciones colectivas especficas. Buscamos la regularidad o
irregularidad, la semejanza o la diferencia, la continuidad o la variacin de las
consecuencias materiales de distintas acciones sociales.
Comparando estados sucesivos de una misma trayectoria histrica, podemos estudiar
qu ha cambiado y en qu condiciones ha cambiado. En biologa se acepta que la
morfologa es el rastro dejado por el desarrollo, tenemos que comprender el desarrollo
si queremos comprender la evolucin. Semejante enfoque puede ser adaptado en
arqueologa, si aadimos a la morfologa (forma y tamao) propiedades como la
composicin, la textura y la localizacin. As por ejemplo, podemos estudiar todas las
formas de ritual funerario que han tenido lugar en el espacio que hoy ocupa la ciudad de
Barcelona desde las primeras manifestaciones hasta hoy en da. Ordenando
temporalmente las tumbas y cementerios, definiremos la trayectoria histrica de una
formacin social particular. Esta trayectoria est compuesta por los distintos estados que
ha ido adoptando la accin colectiva. Las semejanzas y las diferencias entre estados
consecutivos nos proporcionarn informacin acerca de la continuidad o discontinuidad
en su reproduccin.
El estudio de las causas de las diferencias observadas, de la variabilidad de las
consecuencias materiales de la accin social, constituye el tema bsico de investigacin
en arqueologa. Pero el estudio de la variabilidad, como el de la semejanza, o el de la
diferencia, y en realidad el anlisis de cualquier tipo de comparacin debe realizarse con
tiles lgicos muy especficos. Si no formalizamos estrictamente esta forma de pensar,
los resultados de la comparacin que haga yo nada tendrn que ver con las
comparaciones que haga otro investigador o investigadora. El estudio de la variabilidad
slo puede llevarse a cabo correctamente usando el lenguaje matemtico y reglas
especficas de razonamiento que constituyen precisamente el ncleo de la estadstica.
Intentaremos argumentar estas ideas en multitud de ejemplos a lo largo de este manual.
Problemas arqueolgicos para los que es posible encontrar una solucin por medio de
herramientas estadsticas seran, por ejemplo:
Por qu ciertas puntas de lanza tienen formas distintas? Se debe a procesos de
produccin diferentes, a que son productos de distintos talleres, de diferentes
procedencias, o bien el uso al que se destinaban era diferente?
Por qu distintos tipos de vasijas tienen distinta decoracin? La causa de la
variabilidad observada puede estar en el uso al que se destinaban esas cermicas,
a la forma en que fueron producidas, a su procedencia, etc.
Por qu distintos contenedores tienen una composicin diferente en trminos
porcentuales? Asumiremos que si el proceso de produccin y/o el uso al que se
destin cada contenedor es el mismo, entonces la composicin qumica de la
materia de la que estn hechos ser la misma. Produccin y/o intencin de uso
sern pues las causas de la variabilidad observada en la composicin.
11
Asumimos que el uso de los tiles lticos (cortar madera, raspar piel, etc.)
modifica las caractersticas visuales de la superficie de ese til. Son las llamadas
huellas de uso. El problema a resolver es entonces qu accin (de uso) explica
la variabilidad observada en la textura superficial de un conjunto de objetos
lticos. Los tiles que sirvieron para cortar madera tienen la misma textura que
los que sirvieron para raspar piel fresca? Es similar la textura superficial
huellas de uso- de los tiles de slex que sirvieron para cortar materias duras?
Por qu aparecen huesos distintos de diversas especies animales en un
yacimiento arqueolgico? Lo ms lgico sera suponer que eso es as porque los
habitantes de este lugar explotaron especies distintas, y cada especie tiene una
anatoma diversa, lo que motiva que el uso del cuerpo del animal (despiece,
carnicera, aprovechamiento de partes no crnicas, etc.) sea diferente, segn sea
la especie. Por qu aprovechaban de manera distinta las distintas partes del
animal? Por otro lado, por qu aprovecharon especies distintas? Quizs porque
slo cazaron las ms abundantes en su entorno, o quizs slo estaban interesados
en que les eran ms tiles, al margen de su abundancia o facilidad de captura.
Por qu distintos tipos de materiales arqueolgicos aparecen en localizaciones
distintas? La respuesta ms sencilla sera porque las consecuencias materiales de
la accin de trabajo (los artefactos) aparecen all donde la accin tuvo lugar. El
estudio de la variabilidad espacial consistir, por tanto, en estudiar si la
localizacin espacial de distintos tipos de artefactos o evidencias es o no es
distinta, y asociarla con las hiptesis acerca de qu es lo que se hizo en cada
localizacin. Por ejemplo, por qu en distintos sectores de un yacimiento
arqueolgico las muestras de carbn son distintas? Las explicaciones pueden ser
varias, pero en general se refieren a la adquisicin y aprovechamiento de la lea
por la sociedad en cuestin. Por ejemplo, porque esas eran las especies vegetales
leosas disponibles en el entorno, o porque esas especies tienen un rendimiento
calrico ms eficaz para cierta actividad de trabajo realizada en esa localizacin.
Por qu las tumbas de cierta necrpolis son diferentes? Uno de los temas de
investigacin recurrentes en la llamada arqueologa de la muerte es,
precisamente, el estudio de la variabilidad social, en trminos de la variabilidad
observada en el registro arqueolgico. En este caso, la variabilidad observada se
refiere a la variabilidad en la composicin de dicho registro, es decir, las
diferencias en el contenido de las tumbas. Cabra aadir tambin las diferencias
en la forma y en el tamao de las tumbas. La causa de esas diferencias, esto es,
la variabilidad social se puede entender de dos maneras: Variacin Horizontal
(diferencias de gnero, esto es, entre hombres y mujeres), y Variacin Vertical
(diferencias de riqueza) dentro de cada una de las categoras horizontales.
Si una serie de yacimientos arqueolgicos fueron ocupados en el mismo
momento por la misma gente y se encuentran muy prximos unos de otros, por
qu la presencia o ausencia de distintos tipos de materiales es diferente entre
ellos? Quizs porque las actividades que tuvieron lugar en cada uno de esos
sitios fue distinta, relacionada con la divisin social y espacial del trabajo en esa
sociedad.
12
La naturaleza estadstica de los datos
arqueolgicos.
Podramos pensar que la utilizacin de las matemticas y de los nmeros en arqueologa
o ciencias sociales no es ms que un recurso fcil para tapar los agujeros de la disciplina
y afirmar su cientificidad y precisin, ya que se usa el ms cientfico de los mtodos.
No es as, el uso de las matemticas y los nmeros no es ninguna panacea. Podemos
usar la matemtica sin finalidad alguna, como si el mero hecho de traducir en nmeros
nuestras observaciones arqueolgicas fuese ya bastante. Qu sentido tiene decir que
han aparecido 700 fragmentos de cermica, o que el peso de todos los huesos de ciervo
encontrados en esa cueva llegaba a los 5123 gramos? Esta forma a-crtica de
cuantificar la arqueologa es resultado de una visin, desgraciadamente muy
generalizada, que considera a esta disciplina como una ciencia de segundo orden, que
debe aceptar sin rechistar lo que otras disciplinas mejor equipadas conocen mejor. De
ese modo, se han usado las viejas teoras antropolgicas y/o histricas como si se tratase
de axiomas fundamentales de la dinmica social. En muy pocos casos se ha intentado
reevaluar esas teoras a la luz de los descubrimientos arqueolgicos. An peor,
prcticamente nunca se ha sealado el mbito especfico de la arqueologa en el estudio
de la sociedad humana.
Durante mucho tiempo arquelogos y arquelogas han permanecido absolutamente
ajenos/as a esta cuestin. O bien no se les ocurra que sus datos arqueolgicos podan
ser interpretados con ayuda de mtodos matemticos, o bien negaban explcitamente esa
posibilidad, creyendo que lo nico que haba que hacer era encontrar una fecha para los
cacharros que desenterraban. En los ltimos aos, sin embargo, son muchas las
investigadoras e investigadores que han descubierto la necesidad de sustituir
explicaciones tradicionales por estudios ms completos que pretenden averiguar la
causa social de la variabilidad material observada.
Las matemticas no sustituyen a las palabras, sino que nos permiten ir ms all de sus
capacidades descriptivas. Los nmeros describen aspectos que los sustantivos, los
adjetivos y verbos no pueden. Hemos de tener bien presente que la matemtica no es
una propiedad de la naturaleza. No hay cosas y fenmenos de tipo matemtico y otros
que no lo sean, sino que siempre que expresemos una idea por medio de relaciones de
orden entre sus componentes, estaremos expresndola matemticamente. La matemtica
es, por tanto, un lenguaje artificial usado para representar cosas. Los enunciados
13
2 +2 =5
2
la cermica est barnizada
son formalmente idnticos, aunque su contenido no sea intercambiable fcilmente.
Tericamente, puedo expresar una suma en palabras, al igual que puedo expresar los
rasgos materiales que caracterizan un objeto mediante nmeros, pero ello supondra
forzar los lmites del lenguaje. Sera como usar bombas atmicas para matar mosquitos!
Convengamos, pues, que cada tipo de lenguaje sirve para representar fenmenos
distintos. Por extensin, diremos que un fenmeno que slo puede expresarse
matemticamente es un fenmeno matemtico, no porque lo defina una propiedad
numrica, sino porque es distinto de los fenmenos describibles mediante palabras.
Estudiemos las caractersticas principales de este lenguaje matemtico. Su unidad
significativa bsica (el signo) es un concepto que recibe el nombre de CANTIDAD. El uso
habitual de la palabra indicara que es un tipo de propiedad: ciertas entidades tienen
cantidades de algo y otras no. Podramos definirla entonces como: aquella propiedad de
las entidades que admite una gradacin; en definitiva, cualquier propiedad que permita
una ordenacin de las entidades es una cantidad. Por consiguiente, la cantidad ser el
opuesto de aquellas propiedades absolutas que no admiten grados y que no generan
ordenaciones (CALIDAD). Llamaremos MEDICIN a la operacin de asignar nmeros
que representen el grado en que un objeto o fenmeno tenga la propiedad cuantitativa a
la que se ha hecho referencia; llamaremos DESCRIPCIN a la operacin de describir
etiquetas verbales o numricas- que representen la presencia o ausencia de la
propiedad cualitativaa la que se hace referencia.
Los filsofos no estn de acuerdo a la hora de investigar estos conceptos. Para algunos
(enfoque positivista), la cantidad es una propiedad inherente a los objetos, por lo que
existe antes que tenga lugar la operacin de medir. La cantidad no sera una
consecuencia de la observacin, ni sera el observador el que la impusiera, sino que
sera una caracterstica propia e intransferible del objeto observado. Para otros filsofos
(enfoque subjetivista) la cantidad no existe antes que el proceso de medicin tenga lugar.
No hay cantidades en la naturaleza, sino operaciones de medida artificiales, que
proporcionan unos resultados ms o menos coherentes. Como en todo, siempre hay
terceras vas; as, segn los partidarios del enfoque relacional, una cantidad existe si y
solo si existe una relacin cuantitativa entre dos objetos. Un objeto tendr, pues, una
cantidad de algo si toma parte en una relacin cuantitativa. Pero, qu es una
RELACIN CUANTITATIVA? Una relacin de orden, tal que:
A es mayor en q que B
A es igual en q que B
A es menor en q que B
Por ejemplo, un objeto A es de menor tamao (q) que otro objeto B. Tamao es aqu
una cantidad. Pero no todas las cantidades son iguales, sino que variarn segn la
relacin de orden que se pueda establecer. Los usos de las distintas cantidades sern,
obviamente, distintos. Consideremos el siguiente ejemplo: un objeto A es del mismo
color (q) que otro objeto B. Aqu color es una cantidad, ya que permite una relacin
2
S, ya lo s, esto es un error! Pero el enunciado, aunque errneo, sigue siendo un enunciado matemtico.
El lenguaje matemtico no slo sirve para expresar verdades, sino tambin errores. A diferencia del
lenguaje verbal, esos errores son fcilmente identificables. Si ests leyendo esta nota es porque
identificaste un error.
14
ordinal (este objeto es ms rojo que este otro), si bien sta es muy distinta a la
establecida por la propiedad tamao. Las cantidades basadas en la relacin (igual que)
son, en realidad pseudo-cantidades; las cantidades reales son aquellas basadas en los
tres operadores de orden (igual que =, menor que <, mayor que >).
En definitiva: existe una CANTIDAD si cierta propiedad permite ordenar un conjunto
de objetos. Hemos llamado MEDICIN (o medida) a la asignacin de nmeros a
ciertos objetos o acontecimientos de acuerdo a la intensidad de esa propiedad en el
objeto. No podremos medir un objeto aislado (que no forme parte de un conjunto
ordenado), a no ser que lo comparemos con los objetos existentes en un conjunto de
materiales ordenados de referencia. Esa ordenacin de referencia podr ser considerada
como el criterio objetivo de la medicin. Puesto que toda asignacin de nmeros es una
funcin matemtica, dicho criterio objetivo podr expresarse por medio de la funcin
que explique la ordenacin de objetos o acontecimientos. En otras palabras, la funcin
matemtica es la regla que necesitamos para asignar nmeros a objetos de acuerdo con
su ordenacin. Dispondremos de una ESCALA DE MEDIDA si y slo si disponemos de un
criterio de ordenacin relevante y de una funcin aritmtica, algebraica o lgica que lo
represente. Si esa funcin es aritmtica o algebraica, el orden de los objetos ser
numrico, y todas las relaciones de orden se expresarn mediante nmeros (ESCALA
NUMRICA). Si por el contrario la funcin es lgica asignaremos tan slo valores de
Identidad o Diferencia (si, no, presente, ausente). La escala resultante ser NOMINAL.
Para medir conjuntos de individuos usamos la analoga con ordenaciones consideradas
de referencia. Las escalas de medida habituales (el metro, el kilo, el grado centgrado)
constituyen ordenaciones de entidades segn las propiedades cuantitativas longitud,
masa, temperatura. Podemos medir la longitud, la masa y la temperatura de cualquier
individuo porque se han obtenido previamente unas ordenaciones de objetos (varillas o
bolas de metal, columnas de mercurio). Por ejemplo, para ordenar una serie de objetos
de acuerdo a su temperatura, necesitamos de una ordenacin de materiales (agua) en
diferentes estados. El punto de partida de la ordenacin (hielo) ocupa el lugar 0; el
ltimo lugar (100) se ha reservado arbitrariamente para otro estado fsico del agua
(vapor). Al dividir la escala en cien partes arbitrarias iguales, tendremos la unidad
denominada grado centgrado. Llamaremos instrumento de medicin a un aparato
que implemente de algn modo la ordenacin considerada de referencia. En resumidas
cuentas, lo que hemos de hacer es definir ordenaciones tericas y a continuacin
establecer analogas entre los elementos ordenados en esa escala de referencia y los
objetos que deseamos ordenar en un nuevo conjunto.
Los datos arqueolgicos, por tanto, no son cosas que se atesoran, sino medidas de la
realidad. La tarea de arquelogos y arquelogas no es tanto descubrir y desenterrar
artefactos, como medir ciertos efectos de la conducta humana que tuvieron lugar en el
pasado. Y tal y como hemos visto, slo hay cinco maneras genricas de medir cuerpos
slidos: teniendo en cuenta su tamao, su forma, su textura, su composicin y/o su
localizacin en el espacio y en el tiempo. Ms importante que las medidas individuales
sern las relaciones entre ellas. Veremos ms adelante lo que significa.
El tamao de las cosas se reconoce fcilmente como una propiedad cuantitativa. Pero
no existe una nica medida de tamao. En realidad el tamao de algo es un tipo de
informacin compuesta, a la que llegamos valorando tanto la longitud, como la anchura,
altura, superficie, volumen, peso, entre otras variables. Todos estos parmetros son bien
conocidos y a nadie le extraa que usemos nmeros para expresarlos. Disponemos de
los instrumentos y escalas de medida necesarios: el metro, el metro cuadrado, el metro
cbico, el gramo, etc. Es ms, a veces tendemos a confundir la palabra medidas con
15
los parmetros del tamao, como si sas fuesen las nicas medidas posibles en
arqueologa. En ocasiones, sin embargo, seguimos usando trminos cualitativos para
referirnos a esa propiedad cuantitativa. Decir de algo que es grande, pequeo, o
mediano, no nos permite saber nada acerca de la magnitud de la propiedad
cuantitativa en cuestin. El objeto es grande o es pequeo, pero como no sabemos en
realidad qu quiere decir grande, no sabemos si todos los objetos grandes son
igualmente grandes, o si unos son ms pequeos que otros. Describir cualitativamente
lo que en esencia es cuantitativo no slo complica la cuestin, sino que nos induce a
error en la mayora de las ocasiones.
Si nadie duda que el tamao de los materiales arqueolgicos sea una propiedad
cuantitativa, pocos lo diran con respecto al concepto forma. La forma de las cosas se
suele describir cualitativamente: esto es redondo, cuadrado, irregular, esfrico,
cilndrico, entre otras. En arqueologa hemos desarrollado un lenguaje especfico para
describir la forma de cualquier cosa; un caso puede ser: borde exvasado con parte
superior almendrada y perfil en S suavizada. Este tipo de descripcin verbal de la
forma no tiene ningn sentido. Ni describe ni permite entender aquello a lo que
pretendemos referirnos. La descripcin cualitativa de la forma es, casi siempre,
incompleta y arbitraria. Yo puedo decir que cierto artefacto es un plato, mientras que
otro investigador o investigadora afirmar que es un bol, y otro que es una escudilla.
Si en lugar de esos trminos comunes usramos otros ms formalizados, como tipo A,
tampoco lograramos mucho. La forma es una propiedad cuantitativa que se refiere a las
caractersticas mtricas del contorno de un objeto. Por consiguiente, la forma debe
expresarse geomtricamente y no verbalmente. En geometra existen ndices de
circularidad, cuadrangularidad, irregularidad, etc., basados en la relacin entre
permetro y ejes de simetra del objeto en cuestin. Podemos describir la forma de
cualquier evidencia arqueolgica haciendo uso de ecuaciones complejas que describan
el contorno o silueta. En fin, hay muchas maneras de describir cuantitativamente la
forma de un objeto. Lo importante es que al igual que el tamao, la propiedad
cuantitativa debe expresar una intensidad. Un objeto debe ser ms circular, o menos
esfrico, o ms parablico, o menos curvilneo que otro. Slo usando medidas
geomtricas podremos extraer toda la informacin que contiene la forma de los efectos
materiales de los procesos de trabajo. La complejidad de esta forma de medicin ha
hecho que le dediquemos un libro: el volumen 3 de esta serie de publicaciones de
Arqueologa y Estadstica estar dedicado por entero al anlisis morfomtrico.
Qu queremos decir con la textura de un objeto material? El uso habitual del trmino
se circunscribe a propiedades cualitativas ms o menos simples tales como rugoso,
liso, bruido. En realidad, y tal y como se ha desarrollado en la investigacin de
visin computacional, por textura nos referimos a todas las propiedades perceptibles de
la superficie de los objetos. Aquellos rasgos caractersticos de la materia de la que est
hecho el objeto, pero tambin todas las modificaciones que el objeto ha experimentado,
tanto las huellas de uso como los patrones decorativos fijados en su superficie.
Rugoso, liso, bruido son efectivamente formas de textura, pero tambin lo son
brillante, rojo, blanco, disperso, inciso, pulido y cualquier otra
caracterstica de la superficie de un elemento material que contribuya a decirnos de qu
materia est hecho, qu proceso de trabajo lo ha modificado y de qu manera. Lo ms
habitual es describir la textura cualitativamente, pero ello aade subjetividades no
recomendables. Realmente rugoso significa lo mismo para todo el mundo?
Fijmonos, por otro lado en la nomenclatura habitual del anlisis de huellas de uso en
restos lticos: brillo mate (no es eso una contradiccin?), pulido como de
16
mantequilla. De la misma manera que lo eran el tamao y la forma, tambin la textura
es una propiedad cuantitativa, que debe medirse en trminos de la intensidad o
magnitud de las variaciones perceptibles en la superficie del objeto. Cuanto mayor sea
esa irregularidad, mayor ser la textura. En un espejo, toda la superficie es igual, no hay
variaciones, por lo tanto tendr muy poca textura. Una cermica decorada excisa o
pintada tendr muchas variaciones: depresiones, trazas, marcas, lneas, puntos, etc.
Cuanto ms diversa, mayor ser su textura. Hay pocos trabajos en arqueologa que
hayan intentado un enfoque cuantitativo de la textura; ese enfoque es posible si
trabajamos a partir de imgenes y cuantificamos los distintos componentes de las
mismas
3
. Un ejemplo detallado referido a anlisis ltico aparece en el Libro de
Ejercicios y Problemas.
Ms sencilla parece la cuantificacin de la composicin. Datos composicionales son
aquellos que se refieren a la intensidad con que distintas propiedades aparecen en una
misma entidad, de manera tal que la suma de todas esas propiedades sea la misma para
todas las entidades que se comparan. Aunque esta definicin pueda parecer demasiado
abstracta, la idea fundamental es fcil de entender. No es ms que la manera usual de
medir la proporcin de distintos componentes en una entidad. Por ejemplo, la
proporcin de componentes qumicos o mineralgicos en una muestra arqueolgica, la
proporcin de objetos de ajuar en una tumba, la proporcin de cabaas de un
determinado tipo en un asentamiento, la proporcin de asentamientos de distinta
funcionalidad en un mismo territorio, etc. Siempre que usamos proporciones
(porcentajes), la suma es siempre la misma para todas las muestras, tumbas,
asentamientos o territorios que consideremos. Este hecho impone una limitacin
matemtica que hace que este tipo de datos no sea analizable como cualquier nmero, y
que exista una rama especializada de la estadstica para su anlisis
4
. A lo largo de este
libro y de los siguientes volmenes se ir explicando como proceder con estos datos
composicionales.
La ltima de las propiedades cuantitativas bsicas con las que describir los efectos
materiales de la accin social es la localizacin de esos efectos en el espacio y en el
tiempo. Empecemos con la localizacin en el espacio. Su definicin cuantitativa, en
trminos de coordenadas cartesianas x, y, z es bastante sencilla, y adems ltimamente
proliferan instrumentos de medida fciles de usar: GPS, estacin total topogrfica,
escner 3D. An hay quien quiere convertir esta propiedad cuantitativa en una serie de
descripciones cualitativas: territorio A, territorio B. No hay nada ms errneo que
imponer limitaciones cualitativas en el espacio, como las basadas en las fronteras
polticas: las vasijas campaniformes en la provincia X, las espadas de antenas en el valle
alto del ro Y. An ms grave es la descripcin cualitativa del micro-espacio en una
excavacin arqueolgica: en lugar de usar coordenadas cartesianas (x, y, z) con un nico
punto de referencia comn (0, 0, 0) se usa: la cuadrcula 2. La descripcin cualitativa
del espacio puede ser ms sencilla y ms barata, en trminos de instrumental necesario,
3
Pijoan-Lpez, J ., Barcel, J.A., Clemente, I., Vila, A., 2002, Variabilidad Estadstica en imgenes
digitalizadas de rastros de uso: resultados preliminares En Anlisis Funcional. Su aplicacin al estudio
de sociedades prehistricas I. Clemente, R. Risch, Gibaja, J ., (comps.). ArcheoPress, Oxford, BAR Int.
Series S1073., pp. 55-64.
Adn, M., Barcel, J .A. Pijoan-Lpez, J ., Piqu, R., Toselli, A., 2003, Spatial Statistics in
Archaeological Texture Analysis. En The Digital Heritage of Archaeology. Computer Applications and
Quantitative methods in Archaeology. Edited by M. Doerr & A. Sarris. Hellenic Ministry of Culture.
Archive of Monuments and Publications.
4
Aitchison, J . 1986. The statistical analysis of compositional data. Chapman and Hall, London, England,
416 pp.
17
pero tambin es intil dada la casi total ausencia de informacin procesable que permite
obtener. Lo mismo cabe decir de la localizacin temporal. Cuestiones econmicas
5
, o de
preservacin diferencial de muestras hace que no siempre podamos medir el tiempo de
la mayora de las evidencias arqueolgicas. Usamos, por lo tanto, descripciones
cualitativas de la localizacin temporal, tales como fase A, cultura del hacha sin decorar,
estrato 15. Si pudisemos elegir, que no siempre podemos, sera extraordinario que
todas las evidencias arqueolgicas estuviesen localizadas espacio-temporalmente en
cuatro dimensiones cuantitativas (x, y, z, t). Dos volmenes de esta serie estarn
dedicados monogrficamente al tema del espacio (volumen 4: Anlisis Espacial) y del
tiempo (volumen 5: Seriacin y Prediccin).
Qu significa, entonces, medir la conducta humana? Si pudisemos observarla, tal y
como se hace en sociologa y economa, podramos describir cualitativamente la forma
de la accin, distinguiendo as entre acciones distintas, agentes, medios y efectos o
consecuencias. Ello nos permitira medir adems la intensidad de todos ellos, tanto en
trminos del tamao de la accin, como del nmero, diversidad o importancia de los
agentes sociales, de los medios necesarios y/o de los efectos de esa accin sobre otros
agentes sociales. Podramos tambin localizar las distintas acciones, agentes, medios y
efectos en el espacio y en el tiempo. Cabe afirmar que aunque cualquier propiedad
cuantitativa sea, en teora, medible, lo cierto es que no sabemos medir la mayora de
aspectos de la realidad social. Los problemas en ciencias sociales radican de hecho en la
falta de instrumentos de medida. Podemos medir la felicidad? Si y slo si sta fuese
una propiedad cuantitativa, es decir, apareciese en el mundo real en intensidades
diversas, y stas fuesen perceptibles. Quizs sea la longitud de la sonrisa de una persona,
o determinada proporcin de cierta hormona en el torrente sanguneo, o la emisin de
una onda de cierta frecuencia por el cerebro.
Si no podemos observar la accin, ni los agentes, como es el caso en la investigacin
histrica, entonces medir la conducta humana se referir a medir la variabilidad de los
efectos que se perciben en el presente de las acciones que tuvieron lugar en el pasado.
Recordemos que nuestro objetivo es averiguar qu proceso histrico es el responsable
de las diferencias y semejanzas en el tamao, la forma, la textura, la composicin y la
localizacin de los efectos materiales de la accin social. En otras palabras, por qu los
procesos de trabajo que realizamos varan? Lo nico que debemos tener presente es que
la ordenacin de los objetos sociales es distinta a la ordenacin de los objetos fsicos,
porque unos y otros tipos de objetos son distintos, y las propiedades cuantitativas en las
que se basan las relaciones ordinales son distintas. Mediremos la variabilidad de tamao,
de forma, de textura, de composicin y de localizacin, y veremos como cada una de las
variantes se relaciona con las dems. Es importante tener en cuenta la longitud de los
muros de las casas, pero tambin debemos considerar cmo medir la importancia social
de un personaje, la riqueza de una comunidad, la pobreza de determinado medio
ambiente, el grado de poder coactivo ejercido por la lite social de determinado grupo
humano, etc.
El problema a resolver es por qu ciertas evidencias arqueolgicas tienen una forma o
un tamao o una composicin distinta a otras evidencias arqueolgicas, o aparecen en
una localizacin diferente. Diferencias y semejanzas tienen que ver con la capacidad de
variacin. El diccionario define variabilidad mencionando que est relacionada con la
calidad de cambiar y transformar. Algo variable es algo que cambia. Qu es lo que
5
Dataciones de carbono 14 a ms de 100 euros por muestra, o a ms de 600 euros por el mtodo AMS,
limitan el nmero de muestras que podemos datar.
18
cambia en nuestro caso? El valor de cierta propiedad cualitativa o cuantitativa en cierta
poblacin de DATOS, o sea, las observaciones puntuales cuyas propiedades hemos ido
midiendo (vasijas, puntas de lanza, restos seos de origen animal, tumbas, muros,
poblados, etc.). Denominaremos, por tanto, VARIABLE al aspecto (o concepto) cuyos
cambios sucesivos condicionan la ordenacin. Resulta evidente que el trmino variable
es sinnimo del de propiedad. Del mismo modo que las propiedades cuantitativas
(cantidades) son distintas de las propiedades cualitativas (propiedades no cuantificables),
e implican necesariamente maneras distintas de medir, distinguiremos varios tipos de
variables:
VARIABLES CUALITATIVAS (o CALIDADES), en las que slo disponemos
de dos grupos: individuos con la propiedad en cuestin, o individuos sin ella.
VARIABLES ORDINALES, en las que slo disponemos de informacin acerca
de quien va delante y quien va detrs: primero, segundo, tercero, cuarto, etc
VARIABLES CUANTITATIVAS (o MAGNITUDES), en las que conocemos
la distancia entre dos posiciones cualesquiera: a = 1,2; b =3,5; c =0.
La variabilidad tambin debe ser medida, como una propiedad cuantitativa que es. La
variabilidad es la caracterstica fundamental que posee la medida de una cierta
propiedad en un conjunto de individuos, y segn la cual, las medidas obtenidas son
diferentes de un individuo a otro.
La mera descripcin cualitativa de la variabilidad proporciona poca informacin;
quizs por el peso de la tradicin en arqueologa se ha incluido bajo el nombre de
estadstica, clculos que en realidad corresponden a cuantificaciones o sumatorias
simples. Cuntas cermicas de la forma F se han encontrado? Cuntos tiles lticos de
tipo t? En qu proporcin aparecen los restos correspondientes a difisis de miembros
anteriores derechos de ciervo en este yacimiento? Los datos, por s mismos, no son la
respuesta a un determinado problema. Pero constituyen el material bsico a partir del
cual podemos evaluar lo bien que podemos resolver el problema, cuan dudosa es una
respuesta particular o bien qu confianza podemos poner en ella. Los datos observados
y medidos necesitan ser procesados para averiguar hasta qu grado la incertidumbre
puede disiparse. El conocer la cantidad de incertidumbre asociada a los datos es la clave
para tomar la decisin apropiada. Ello nos permite sopesar las consecuencias de
diferentes opciones y escoger una que sea la menos perjudicial. La estadstica tal como
es entendida actualmente es la lgica a travs de la cual podemos subir un peldao en la
escalera que nos lleva de los datos a la informacin.
6
En nuestro caso, esa informacin hace referencia a la descripcin e interpretacin de la
variabilidad observada en las acciones sociales y en sus efectos materiales. En otras
palabras, usaremos clculos matemticos para conocer qu actividades, que fenmenos
y procesos sociales son diferentes. Cuando varan? Cmo varan? Por qu varan?
En este libro pretendo explicar cmo hacerlo. Pero antes de entrar en materia,
trataremos someramente la mejor manera de usar el programa de ordenador que
necesitamos.
6
C. RADHAKRISHNA RAO, 1994, Estadstica y Verdad. Aprovechando el azar. (trad. castellana)
Promociones y Publicaciones Universitarias, S.A., Barcelona, UNIVERSITAS-73.
19
Primeros pasos con PAST.
Instalacin del programa
La instalacin bsica de PAST es sencilla. Simplemente se debe bajar de Internet el
ejecutable Past.exe, y guardarlo en cualquier lugar del disco rgido. Haciendo doble-
click en el archivo, se ejecutar el programa. Los archivos para los ejemplos
arqueolgicos que aparecen en este manual pueden obtenerse en la Web de este libro, en
el archivo compactado ejemplos.zip:
http://seneca.uab.es/prehistoria/Barcelo/manualestadistica.html
Este archivo puede abrirse con ayuda de utilidades como WinZip WinRar.
Se sugiere crear una carpeta llamada PAST en cualquier lugar del disco rgido y
guardar todos los archivos en esa carpeta.
NOTA: Se han sealado algunos problemas con ciertas combinaciones de resolucin de
pantalla y tamao por defecto de las fuentes. La imagen se hace poco legible y puede
ser necesario aumentar el tamao de las ventanas para poder ver el texto y los botones.
Si esto sucediera, debiera ajustarse el tamao de fuente a fuentes pequeas en el panel
de control Pantalla en Windows.
PAST puede tener tambin problemas en algunas impresoras. Las impresoras de tipo
Postcript son las ms adecuadas.
Cuando se salga de PAST, un archivo llamado pastsetup aparecer automticamente
en la carpeta personal (por ejemplo, en Mis Documentos), conteniendo los directorios
de los ltimos archivos utilizados.
20
Primeros pasos con PAST.
Introduccin y manipulacin de datos
arqueolgicos.
PAST tiene una interfaz de usuario de tipo hoja de clculo. Los datos son introducidos
como una disposicin de celdas, organizadas en filas (horizontalmente) y columnas
(verticalmente).
Introduccin de datos
Para entrar datos en una celda, se debe hacer click con el ratn en ella y escribir dentro
el dato. Esto slo puede hacerse cuando el programa est en Edit Mode (modo
edicin).
Para seleccionar este modo se marca la casilla que aparece por encima de las celdas.
21
Cuando el modo de edicin no est seleccionado, las celdas estn bloqueadas y los datos
no pueden cambiarse. Puede navegarse por las celdas usando las teclas de flecha. Puede
introducirse cualquier tipo de texto en las celdas, pero casi todas las funciones esperan
nmeros. Tanto la coma (,) como el punto (.) son aceptables como separadores
decimales. Los datos de ausencia/presencia se codifican como 0 1 respectivamente.
Cualquier otro nmero positivo se interpretar como presencia.
Los datos ausentes se codifican mediante el interrogante (?). Es importante tener en
cuenta que no todas las funciones permiten trabajar con datos ausentes. Si aparece el
error Invalid values in selected column (valores no vlidos en la columna
seleccionada) o Different number of values (nmero de valores diferente) quiere
decir que esa funcin no puede trabajar con datos ausentes, o bien que ha encontrado
alguna casilla que inadvertidamente se ha dejado en blanco.
PAST permite representar informacin dicotmica en forma de casillas marcadas y
casillas sin marcar. Para ello basta con marcar la casilla superior Square Mode (modo
cuadrado) que aparece bajo la barra de Mens.
La convencin en PAST es que los individuos ocupen las filas, y las variables las
columnas (ver ms adelante Cargar y Guardar Datos). Esta forma de estructurar los
datos es muy importante, aunque muchas veces no se tiene en cuenta en arqueologa. Es
necesario estructurar el problema arqueolgico que pretendemos resolver organizando
la matriz de datos como una secuencia de individuos del mismo tipo descritos por
distintas variables. Las filas representarn a los individuos cuya variabilidad
necesitamos estudiar, y las columnas a las propiedades cualitativas y cuantitativas
usadas para describirlos. Es importante recordar que necesitaremos de una matriz de
datos distinta para estudiar individuos de tipo distinto. En palabras ms simples, las filas
22
de la matriz debern ser cualitativamente homogneas: vasijas con vasijas, huesos con
huesos, poblados con poblados, tumbas con tumbas. Los ejemplos y casos de estudio
utilizados en el Libro de Ejercicios y Problemas explican esta manera de estructurar y
organizar los datos.
NOTA: PAST no siempre es coherente con esta forma de estructurar los datos.
Programas comerciales como SPSS pueden usar cualquier columna para dividir una
poblacin en subpoblaciones, es decir en niveles de un factor explicativo. PAST no
puede hacerlo. La nica manera es definiendo cada columna como nivel. Esto puede
provocar que para realizar algunos clculos tengamos que modificar la matriz de datos,
de manera que organicemos los distintos valores de una variable cualitativa (por
ejemplo, el sexo del individuo enterrado en una tumba, el yacimiento en el que se ha
encontrado cierto artefacto en determinada cantidad) como columnas distintas, el nivel o
la fase cronolgica). Ms adelante se explica cmo hacerlo. Puede consultarse tambin
el Libro de Ejercicios y Problemas al respecto.
Cargar y guardar datos
La funcin Open (abrir) se encuentra en el Men File (archivo). PAST usa un
formato de archivo ASCII, para poder importar fcilmente de otros programas (por
ejemplo, Word) y para poder editarlos fcilmente con un procesador de textos. El
formato es el siguiente:
. Et i quet acol umna et i quet acol umna et i quet acol umna
Et i quet af i l a dat o dat o dat o
Et i quet af i l a dat o dat o dat o
Et i quet af i l a dat o dat o dat o
Por ejemplo:
. CERAMI CACOCI NA CERAMI CAdecoTi poA CERAMI CAt i poB
Yaci mi ent o1 1 3 5
Yaci mi ent o2 1 0 15
Yaci mi ent o3 0 10 6
Las celdas vacas se codifican con un interrogante (?), para que el programa reconozca
que ese dato falta. Las celdas estn separadas por un espacio en blanco, lo que significa
que nunca deben usarse espacios en las etiquetas de fila o columna. Tipo A es por
tanto una etiqueta de columna errnea que confundir al programa. Lo correcto ser:
TipoA o bien Tipo_A
La funcin Insert from file (insertar desde archivo) es til para concatenar conjuntos
de datos. El archivo cargado se insertar en la hoja de clculo existente en la posicin
seleccionada (arriba a la izquierda). Otros conjuntos de datos podrn insertarse a la
derecha y debajo de los datos existentes.
23
En cualquier caso, se recomienda que la matriz de datos no contenga caracteres
alfabticos ni alfanumricos. Si los datos son cualitativos, habr que traducirlos a
nmeros.
Datos desde Excel
Los datos procedentes de Excel pueden importarse de dos maneras:
Copiar desde Excel y pegar en PAST. Si quieres que la primera fila y columna
se copien en las celdas de las etiquetas en PAST, debers seleccionar la opcin
Edit labels (editar etiquetas).
En Excel se guardan los datos con el formato texto separado por tabuladores.
El archivo de texto resultante puede abrirse directamente en PAST.
Mover una fila o una columna
Una fila o una columna (incluyendo su etiqueta) puede moverse simplemente haciendo
click en la etiqueta y arrastrando a la nueva posicin. Es importante tener en cuenta que
el rea seleccionada debe ser contigua (no se pueden seleccionar columnas no contiguas.
(Lstima, PAST no es igual que Excel!). Por lo tanto, siempre que deseamos ejecutar
una funcin habr que mover primero las columnas referidas a las variables que nos
interesa, hacer que sean contiguas, y entonces marcar el rea para seleccionar los datos.
Seleccin de reas
La mayora de operaciones en PAST se realizan slo en el rea de la hoja de clculo que
el usuario ha seleccionado expresamente (marcado). Si se intenta ejecutar una funcin
que espera datos, y no se ha seleccionado ningn rea, se obtendr un mensaje de error:
No valid values in selected area (valores no vlidos en el rea seleccionada). Para
seleccionar distintas partes de la hoja de clculo, procederemos de la forma siguiente:
Una fila se selecciona haciendo click en la etiqueta de la fila (la columna ms a
la izquierda)
Una columna se selecciona haciendo click en la etiqueta de la columna (fila
superior)
Mltiples filas se seleccionan escogiendo la etiqueta de la primera fila, y
despus haciendo click y apretando la tecla maysculas al escoger filas
adicionales. No se puede arrastrar mltiples filas, esto no hace ms que mover la
fila de sitio.
Mltiples columnas se seleccionan de la misma manera, haciendo click en la
etiqueta de la columna y apretando la tecla maysculas.
PAST no puede seleccionar columnas que no sean adyacentes. Por lo tanto, para
seleccionar mltiples columnas habr que seleccionar primero una columna,
arrastrarla al lado de aquellas que tambin se van a seleccionar y seleccionar el
grupo haciendo click en la casilla superior y con la tecla maysculas.
24
La totalidad de las celdas se puede seleccionar haciendo click en la esquina
superior izquierda (la celda vaca en gris), o bien seleccionando Select all
(seleccionar todo) en el Men Edit (Edicin).
Se pueden seleccionar reas ms pequeas haciendo click y arrastrando con el
ratn desde la casilla superior hasta el final de la seleccin.
Es importante tener presente que slo se podrn seleccionar columnas cuando las
casillas superiores Edit Mode (modo editar) y Edit labels (editar etiquetas) NO
estn marcadas.
25
Renombrar filas y columnas
Cuando empieza PAST, las filas se numeran de la 1 a la 99, y las columnas de la A a la
Z. Para etiquetar mejor los grficos, se puede dar a filas y columnas nombres cortos ms
descriptivos. Para ello se usa la funcin Rename columns (renombrar columnas) o
Rename rows (renombrar filas) en el Men Edit (edicin). Deben seleccionarse
todas las celdas, o un rea menor, segn sea lo apropiado.
Otra manera es seleccionando la opcin Edit labels (editar etiquetas) encima de la
hoja de clculo. La primera fila y columna sern entonces editables de la misma manera
que el resto de las celdas.
Aumentar el tamao de la hoja de clculo
Por defecto, PAST tiene 99 filas y 26 columnas. Si los datos necesitan ms espacios, se
pueden aadir filas o columnas seleccionando Insert more rows (insertar ms filas) o
Insert more columns (insertar ms columnas) en el Men Edit (edicin). Se
insertarn filas/columnas justo despus del rea marcada, o por debajo y/o a la derecha,
segn sea el caso, si no se ha seleccionado ningn rea. Cuando se cargan grandes
archivos de datos, las filas y/o columnas se aaden automticamente segn sea
necesario.
Cortar, copiar, pegar
Las funciones copiar, cortar y pegar se encuentran en el Men Edit (edicin). Se
pueden cortar y/o copiar datos desde la hoja de clculo de PAST y pegarlos en otro
programa, por ejemplo Word o Excel. Igualmente, datos de otros programas pueden
pegarse en PAST. Recuerde que los bloques locales de datos (no todas las filas o
columnas) slo pueden marcarse cuando el modo Edit (edicin) NO est seleccionado.
Todos los mdulos que proporcionan una salida grfica tienen un botn Copy graphic
(copiar grficos). Este copiar la imagen grfica en la memoria del ordenador y
permitir pegarla en otros programas, como por ejemplo, un programa de dibujo para
editar la imagen. Los grficos se copian usando el Enhanced Metafile Format en
Windows. Esto permite editar elementos individuales de la imagen en otros programas.
Cuando se pega en CorelDraw, se deber elegir pegar especial en el Men edicin,
y a continuacin elegir Enhanced metafile. Algunos programas tienen una manera
bastante idiosincrsica de interpretar las imgenes EMF. Debe prestarse atencin a las
cosas raras que puedan suceder.
26
Eliminar
La funcin Remove (eliminar) del Men Edit (edicin) permite eliminar de la hoja
de clculo la(s) fila(s) o columna(s) seleccionadas. El rea eliminada no se copiar en la
memoria del ordenador y no podr pegarse en otro programa.
Agrupar (colorear) filas
Pueden marcarse filas seleccionadas (datos puntuales) con 12 colores usando la opcin
Tag rows (marcar filas) en el Men Edit (edicin). Cada grupo estar asociado con
un smbolo (punto, cruz, cuadrado, diamante, aspa, crculo, tringulo, lnea, barra,
cuadrado relleno, estrella, valo). Esto es til para mostrar grupos de datos diferentes en
los grficos, y tambin es requerido por alguno de los mtodos.
La opcin Numbers to colors (de nmeros a colores) en el Men Edit (edicin)
permite convertir los nmeros de 1 a 9 en una columna seleccionada en los colores
correspondientes (smbolos) para las filas. Es importante tener en cuenta que antes de
asignar colores, es preciso que los datos estn ordenados. Slo podr asignarse un
mismo color a una secuencia contigua de filas.
27
Ordenar valores en una columna
PAST no es Excel, por lo que muchas de las operaciones que son muy simples en este
ltimo no pueden hacerse en PAST. Conviene agrupar y ordenar secuencialmente los
datos en Excel y no esperar a hacerlo despus. Por ejemplo, la informacin cronolgica
del archivo cermica helenstica, contenido en ejemplos.zip, est muy desordenada.
Las muestras analizadas no aparecen ordenadas ni cronolgica ni tipolgicamente.
En PAST podemos ordenar en sentido ascendente o descendente una variable,
seleccionando la variable a ordenar y ejecutando despus la funcin Sort ascending
(ordenar en sentido ascendiente) Sort descending (ordenar en sentido
descendiente) del Men Transform (transformar).
Pero slo podemos ordenar usando una nica variable como criterio. Para usar una
variable de ordenacin adicional debemos seleccionar las filas que tienen el mismo
valor en la ordenacin anterior y ordenar esa seleccin usando una nueva variable. En el
Libro de Ejercicios y Problemas se citan expresamente varios ejemplos que utilizan este
mtodo.
28
Otra opcin sera abriendo los datos en Excel, ordenando segn dos variables en ese
programa, copiando la ventana y pegndola a continuacin en PAST.
Transponer
Las tcnicas y funciones estadsticas que contiene PAST estn diseadas para agrupar
siempre individuos, es decir, filas: la mayora de pruebas estadsticas asocian individuos
(vasijas con vasijas, huesos con huesos, yacimientos con yacimientos). Es lo que se
denomina anlisis en modo R, donde la R viene de rows (en ingls filas). Por el
contrario, en ocasiones podr ser interesante agrupar variables, por ejemplo, asociar el
tipo A y el tipo B de unas cermicas o metales, para ver si aparecen o no en los mismos
yacimientos. Es lo que se denomina anlisis en modo Q. Para cambiar entre modo Q
y modo R, filas y columnas pueden ser intercambiadas fcilmente usando la funcin
Transpose (transponer)
Esta funcin implica girar la matriz, de manera que lo que antes eran filas, ahora sean
columnas y viceversa. Una vez girada la matriz se podr estudiar la relacin entre las
variables, ya que ahora aparecen en las filas. La funcin Transpose (Transponer) en el
Men Edit, intercambiar filas y columnas.
Esta funcin permite convertir los datos de una variable cualitativa en niveles de un
factor, es decir, en columnas donde cada columna es una subpoblacin homognea de
29
acuerdo con un criterio (sexo de una tumba, cronologa de una fase, yacimiento, etc.).
Sin embargo, en muchos casos, el procedimiento no ser tan simple y tendremos que
seleccionar a mano cada subpoblacin, copiar los datos y pegarlos en un nuevo
documento.
Resultados de las pruebas estadsticas
Los clculos estadsticos se solicitan seleccionando una columna y seleccionando a
continuacin el comando necesario en los distintos mens. Los resultados aparecen en
una ventana especfica.
PAST tiene tendencia a proporcionar los resultados en notacin exponencial cientfica.
Recordemos que E5, significa que el decimal debe moverse a la derecha cinco
posiciones. 1,2318E5 es en realidad 12.318.000. Si el nmero que sigue al exponencial
(letra E) es negativo, entonces moveremos el decimal a la izquierda. En el caso de la
cifra 64,1172E-7 tendremos el nmero decimal 0,000000641172.
30
Qu forma tiene la distribucin?
Histogramas
Tal y como hemos argumentado en las primeras pginas de este libro, la primera tarea
en cualquier investigacin estadstica en arqueologa, una vez que hemos entendido el
problema que se debe resolver y la naturaleza de los datos y mediciones, es obtener una
primera impresin de la variabilidad del fenmeno. Es decir, nos preguntaremos si
tienen algo en comn o son distintos los valores que adopta una propiedad cuantitativa
en un conjunto de datos. En demasiadas ocasiones arquelogos y arquelogas olvidan
que la pregunta que deben resolver es por qu vara cierta propiedad (la forma, el
tamao, la composicin, la textura, la localizacin) en esa poblacin o conjunto de
materiales? La clave est en la naturaleza del conjunto de datos. No se trata de comparar
cualquier artefacto con cualquier otro, sino de estudiar por qu cierta poblacin es como
es y distinta por tanto de otra poblacin. Nuestra primera pregunta ser siempre: son
los datos lo suficientemente homogneos como para creer que se trata de una sola
poblacin? Aqu partimos del supuesto que una poblacin o conjunto homogneo de
materiales arqueolgicos es el constituido por las consecuencias materiales de una nica
accin o de varias acciones del mismo tipo. La mayor o menor variabilidad observada
deber explicarse entonces por la heterogeneidad del conjunto analizado, lo que supone
fijarse en la presencia de consecuencias materiales de acciones distintas.
La manera ms intuitiva imaginable de saber qu forma tiene la distribucin de un
conjunto de medias es la que resulta de asociar cada valor de una variable (columna en
PAST) con su frecuencia de aparicin en el conjunto. Cuntas vasijas tienen la misma
longitud? Cuntas tumbas masculinas tienen la misma cantidad de objetos de ajuar del
mismo tipo? La frecuencia es el nmero de veces que aparece el valor en una poblacin
de datos. La funcin PlotGraph nos proporciona un grfico de frecuencias no
agrupadas. Decimos que no estn agrupadas porque cada valor de la propiedad
cuantitativa en cuestin aparece aislado. No se juntan las co-ocurrencias, esto es, los
objetos que tienen el mismo valor en la variable.
31
La verdad es que este procedimiento grfico no es muy til si lo que buscamos es
describir la forma de la distribucin. En el eje inferior se representa la posicin de cada
valor en la columna original (primero, segundo, tercero, etc.) y en el eje vertical, el
valor concreto que adopta. Este tipo de representacin nos ser muy til para resolver
problemas de seriacin, pero no tanto para resolver problemas de variabilidad.
Cuando un gran conjunto de datos tiene muchos valores distintos en lugar de unos
cuantos valores repetidos, es posible agrupar los valores en un conjunto de clases o
categoras y elaborar una distribucin de frecuencias agrupadas. Su representacin
grfica es el histograma. El comando Histogram (histograma) del Men Plot
(grfico) dibuja histogramas para una o ms columnas.
100 200 300 400 500 600 700 800 90010001100120013001400150016001700180019002000
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
F
r
e
q
u
e
n
c
y
El eje inferior del histograma no representa datos, sino una escala numrica dividida en
intervalos o segmentos consecutivos; cuantos ms datos se siten en cada segmento,
32
ms larga ser la barra. En otras palabras, el histograma es el resultado de la
categorizacin de una variable cuantitativa, o una divisin de sus valores en grupos
cerrados. Cmo se logra esa categorizacin? Si nos ponemos a pensar, descubriremos
que dada una serie de nmeros hay infinitas maneras de hacer grupos con ellos. Por
qu un intervalo tiene que ser del 0 al 5 y otro del 6 al 11? El primer requisito es que
cada uno de los segmentos tenga exactamente la misma longitud que los dems. El
segundo requisito es que la cantidad de intervalos no sea elegida a capricho del
investigador o de la investigadora para evitar manipulaciones. Al imponer un nico
mtodo que determine simultneamente la cantidad y la longitud de cada intervalo o
segmento, se obtiene no slo una impresin visual de la densidad de la variable, sino
una medida de dicha densidad.
Un mtodo posible es el siguiente. Empezaremos determinando la amplitud o recorrido
de las frecuencias:
R =valor mximo - valor mnimo
A continuacin debemos elegir la cantidad de intervalos, segn la abundancia de
nuestros datos. Existen varias frmulas mgicas para ello, ninguna de las cuales tiene el
beneplcito de la mayora de investigadores. Debemos tener presente que toda lectura
de un histograma es subjetiva, y por tanto cada autor o autora nos va a sugerir una
manera particular para construir el grfico. A ttulo indicativo podemos usar la tabla
siguiente:
Nmero Individuos Nmero Intervalos
______________________________________________
32 6
64 7
128 8
256 9
512 10
1024 11
2048 12
4096 13
8192 14
16384 15
_____________________________________________
Se fija la amplitud de cada intervalo (todos son iguales) dividiendo la amplitud de la
distribucin (R) por la cantidad de intervalos que fija la tabla.
PAST calcula inteligentemente el ms apropiado nmero de intervalos, usando un
procedimiento ms complejo que el que acabamos de explicar, pero bastante parecido.
El programa ofrece, sin embargo, la posibilidad de variar el nmero de intervalos
(casilla Bins, en la ventana en la que aparece el diagrama). Para obtener el grfico,
nos aseguraremos que las casillas superiores Edit Mode (modo editar) y Edit labels
(editar etiquetas) NO estn seleccionadas, y seleccionaremos la columna cuyo
histograma deseamos obtener, haciendo click en la casilla que contiene el nombre de
la variable. El tercer comando del Men Plot (grfica) nos proporcionar el
histograma que aparece en una ventana nueva. El comando permite seleccionar
cualquier columna, sin tener que desplazarla, y tambin permite calcular el histograma
33
de una parte de la variable, seleccionando algunas casillas consecutivas, en lugar de la
columna entera.
Conviene tener presente que PAST no abre una nueva ventana cada vez que hace un
histograma, sino que cambia el contenido de la ventana en la que aparecen los
resultados.
Haciendo click en el centro de la ventana del histograma, podremos modificar algunos
aspectos del grfico, como tipo de letra, reticulado, etiquetas, ubicacin de los intervalos
en el eje, etc.
Veamos con ms detalle cmo es un histograma. En qu debemos fijarnos para
estudiar el histograma? En general, buscaremos el centro de la distribucin para ver si el
histograma es tanto ms apuntado en su centro que en sus extremos. Nos fijaremos en su
dispersin, es decir, si el contorno del histograma se apunta o, por el contrario, se aplana.
Nos fijaremos en cmo se reparten las observaciones en los distintos intervalos. En
resumen, intentaremos describir la forma de la distribucin. Si los datos son muy
diversos entre s, el histograma adoptar una forma irregular; por el contrario, si el
histograma adopta una forma simtrica interpretaremos que los datos son bastante
parecidos entre s.
34
30 40 50
10
20
30
F
r
e
q
u
e
n
c
y
20 30 40
10
20
30
F
r
e
q
u
e
n
c
y
Histograma de una distribucin regular Histograma de una distribucin irregular
Otra forma de irregularidad en la distribucin es aquella que presente valores extremos
(en ingls outliers). Se trata de valores mucho mayores o menores que la mayora. Hay
de dos tipos: aquellos que corresponden claramente a errores de medida o atribucin
una espada dentro de un conjunto de puales siempre tendr un valor extremo de
longitud-. Conviene identificarlos cuanto antes y eliminarlos de la base de datos. Otro
caso son aquellas observaciones obtenidas bajo circunstancias aparentemente normales,
pero que resultan estar extremadamente desviadas del corpus principal de observaciones.
Muchos investigadores recomiendan eliminarlos del anlisis posterior, y eso puede ser
conveniente a veces, pero en otras ser claramente contraproducente.
No hay normas de obligado cumplimiento en el caso de la presencia de este tipo de
valores extremos. Es posible que sean una consecuencia accidental o irrepetible, pero en
cualquier caso debemos comprender la razn de su accidentalidad o irrepetibilidad. El
problema con los valores extremos es que muchas veces desvirtan la forma de una
distribucin, hacindonos verla ms simtrica o asimtrica de lo que en realidad es. En
la mayora de ocasiones debiramos centrarnos es aquellas consecuencias materiales
que explican mejor la naturaleza de la accin que las ha producido. En pginas
siguientes veremos qu quiere decir esto de explicar mejor.
35
Veamos un ejemplo de forma de una distribucin de medidas de artefactos
arqueolgicos. Disponemos de los datos arqueomtricos de la composicin de un
conjunto de vidrios romanos (archivo vidrio). Si deseamos obtener el histograma de
la composicin de aluminio que tienen las distintas muestras, tendremos:
En este caso, para un total de 243 muestras de vidrio romano cuya composicin qumica
ha sido analizada, el programa calcula una distribucin dividida en 10 intervalos. Es
fcil de ver que el histograma no es simtrico. Hay demasiados objetos de vidrio con
una proporcin de aluminio en su composicin demasiado reducida (cola izquierda de
la distribucin). Esto quiere decir, probablemente, que en la serie de muestras hay
objetos distintos, que posiblemente fueron producidos de manera distinta y/o con un
propsito diferente a los dems.
Pero tambin puede ser que la irregularidad del grfico se deba a una mala seleccin del
nmero de intervalos. Para modificar este grfico, cambiaremos el valor que aparece en
la casilla bins (intervalos). Escribiremos 20 y presionaremos la tecla Intro.
La distribucin es ahora mucho ms clara. En realidad se distinguen dos distribuciones
regulares, una centrada alrededor de los valores bajos de la proporcin de aluminio, y
otra en valores medio-altos. Se distinguen tambin unos pocos objetos de vidrio con
valores extremos en su composicin. Poco ms nos dice este histograma. A fin de
36
cuentas su finalidad es la de obtener meramente una descripcin intuitiva de la
variabilidad del aluminio en la composicin de estos objetos romanos de vidrio.
Veamos ahora otro caso. Disponemos de las medidas de distintos parmetros de unas
lanzas de la Edad de Bronce y de Hierro (archivo lanzas). Si consideramos en primer
lugar la longitud mxima de esas puntas, el histograma resultante ser:
Es fcil de ver que los tamaos de las lanzas varan de manera muy irregular:
predominan objetos de pequeo tamao, si bien hay algunas excepciones de gran
tamao. El conjunto de lanzas estudiado es, por tanto, heterogneo. Por qu?
Probablemente porque nos hemos equivocado al meter en un mismo conjunto a las
lanzas de bronce y de hierro. Vamos a separarlas y a calcular sus respectivos
histogramas.
La primera tarea ser ordenar en sentido ascendente la variable MATERIA, con ayuda
del comando Sort ascending (ordenacin ascendente) del Men Transform
(transformar). Una vez ordenados los datos, ser fcil seleccionar la longitud de las
lanzas de bronce (MATERIA =1) por un lado y la longitud de las lanzas de hierro
(MATERIA=2) por otro. Recuerda que para poder seleccionar algunas de las casillas de
una columna es necesario que las casillas Edit Mode y Edit labels NO estn
seleccionadas, y que arrastres la columna al lado de la que vas a usar de referencia (en
este caso, arrastra LONGITUD MAXIMA al lado de MATERIA). Recuerda tambin
que el programa no va a guardar la ventana en la que aparece el primer histograma.
Tendrs que hacer primero el anlisis para las lanzas de bronce (MATERIA=1), guardar
ese histograma (por ejemplo seleccionando la figura y pegndola en un archivo de
Photoshop o del mismo Word), a continuacin hars lo mismo para el segundo
histograma, cuyos resultados borrarn los anteriores y los sustituirn.
37
Para poder comparar dos o ms histogramas es fundamental que las escalas de los
grficos sean idnticas, es decir, que los intervalos empiecen y acaben en los mismos
puntos. Asegrate que en las casillas X Start (punto inicial de X), X end (punto final
de X), Bins (grupos o intervalos), Start (principio), End (final) aparecen
exactamente los mismos nmeros. Si no es as se debe introducir el valor de longitud
ms pequeo ya sea de las lanzas de bronce o de las de hierro en la casilla Bin start, y el
valor de mayor longitud ya sea de las lanzas de bronce o de las de hierro en la casilla
Bin end. Es una buena costumbre que X Start empiece en 0, y que X End sea lo
suficientemente grande como para alcanzar la mayor lanza de todas, sea de hierro o de
bronce.
Longitud Mxima de lanzas de bronce Longitud Mxima de lanzas de hierro
38
Los histogramas siguen mostrndonos la irregularidad en la distribucin de valores, por
lo que deberemos concluir que no todas las puntas de lanza fabricadas en la misma
materia son semejantes.
Es importante tener en cuenta que los histogramas slo nos proporcionan una impresin
de la forma en que varan los valores de una propiedad cuantitativa en una poblacin
determinada. Si queremos ir ms all en el estudio de las causas de esa variabilidad,
deberemos medirla, y no slo describirla. Como es obvio, la aplicacin de la tcnica que
hemos aprendido en este captulo no va a permitirnos resolver un problema histrico.
Nos ayudar sin embargo a enunciarlo, descubriendo y describiendo la variabilidad
existente en nuestros datos. Ms adelante aprenderemos a explicarla y a evaluar por qu
esa variabilidad tiene esas caractersticas y no otras.
39
Cun variables son las consecuencias
materiales de las acciones sociales?
Estadstica Univariante
Existe una serie de funciones estadsticas que sirven para contrastar, parcialmente al
menos, las impresiones ms o menos subjetivas que nos ha proporcionado el examen de
los histogramas. La idea fundamental es que aunque las evidencias arqueolgicas
puedan mostrar una cierta incertidumbre a nivel individual, debe existir cierta
estabilidad entre todos los efectos individuales de una misma accin o proceso de
trabajo; debemos buscar pues, el orden en el desorden.
La media (en ingls: mean) de un conjunto de datos no es ms que una estimacin de
cmo debe ser el valor de una distribucin que se encuentra en el centro de la misma.
En otras palabras, si todas las consecuencias de una misma accin arrojan algunas
diferencias en el valor de ciertas medidas, Cul de esos valores es el que define
correctamente la accin? Tambin recibe el nombre de valor promedio y lo podemos
calcular sumando todas las medidas y dividiendo por la cantidad de individuos medidos.
Por ejemplo, supongamos que en un conjunto arqueolgico hay 105 fragmentos de
vasijas de cermica. Para conocer cul es el valor medio del peso de esos restos,
dividiremos la suma total del peso de restos que han sido identificados en el conjunto
(digamos 1 kg.) entre el nmero de restos (105). El valor promedio del peso de los
restos es de 9,52 gr. Qu quiere decir esta cifra? Simplemente, que hay muchos restos
de 5 y 1 gramo, junto a unos cuantos de 25 y 50. Imaginemos ahora la existencia de un
valor extremo: uno slo de los fragmentos pesa 500 gr., lo cual quiere decir que en el
conjunto hay, en realidad, 104 fragmentos que suman 500 gr. y 1 fragmento totalmente
diferente a los dems. El clculo de la media se ha visto afectado por no haber tenido en
cuenta el efecto de ese valor distinto a todos. Por consiguiente, la deteccin de estos
valores extremos es fundamental. En algunos casos se trata de obvios errores de medida
o muestreo, que pueden invalidar todo el anlisis. En aquellos casos en los que,
efectivamente, algunos individuos de la muestra sean totalmente diferentes de los
dems, habremos de tener en cuenta esa diferencia para que no altere los resultados de
los anlisis.
Precisamente porque se trata de un valor calculado, la media no tiene por qu coincidir
con un dato concreto. Denominaremos mediana (en ingls: median) a aquel individuo
40
situado en el centro exacto de la distribucin, esto es, que el 50 % de los datos sean
mayores que l y el 50 % menores. En algunos casos, no obstante, media y mediana
coincidirn.
La medida de asimetra (en ingls: skewness) en los valores de una variable nos indica
el grado con que los valores se distribuyen equilibradamente a lado y lado de un punto
central. Es una medida que nos dice el grado de deformacin de un histograma. Este
valor ser igual a 0 cuando haya el mismo nmero de valores mayores que la media que
de valores menores que la media. Si el valor es positivo, querr decir que las
observaciones mayores que la media tienen ms influencia; es decir, que la existencia
de uno o varios valores extremos condicionan la forma de la variabilidad. En el caso
contrario, una distribucin que tenga una asimetra negativa significativa se interpretar
por la existencia de demasiados valores con valores mucho menores a los de la media.
La medida de curtosis (en ingls: kurtosis) es una medida del grado en que las
observaciones estn agrupadas en el centro. Tambin es una medida de la deformacin
de un histograma. Si una variable tiene una curtosis positiva, en las colas de su
histograma hay una proporcin mayor de casos que en el centro. Por el contrario, si el
valor es negativo, su distribucin tiene las colas menos densas que las de una
distribucin normal. Si, por el contrario, su curtosis es negativa, diremos que todos los
valores se agrupan en el centro de la distribucin.
La media es un ndice estadstico que permite situar la posicin de una distribucin, ya
que da el valor de la variable hacia el cual tienden a agruparse los datos. Ahora bien,
saber cul es el centro geomtrico de los datos nos dice muy poco acerca de la variable.
Si lo usramos como un "resumen" de todo lo que contiene esa variable, estaramos
reduciendo demasiado el alcance de nuestra investigacin y, probablemente, estaramos
ignorando gran cantidad de informacin
Variabilidad = Dispersin
Una forma de estudiar la variabilidad es describiendo el grado de dispersin de las
medidas con respecto a un punto de referencia. Cuanto mayor sea dicha dispersin,
mayor ser la variabilidad. Por consiguiente, construiremos una medida de la
variabilidad si construimos una medida del grado de dispersin. Nada ms fcil.
Empezamos definiendo el punto de referencia; lo ms sencillo es que coincida con el
centro geomtrico de la ordenacin, esto es la media. La desviacin con respecto a la
media no es ms que la diferencia entre cada valor observado y dicho punto de
referencia central. Sin embargo, la suma de las desviaciones siempre es cero, debido al
efecto de neutralizacin entre las desviaciones de los valores observados menores que la
media (que son negativos) y los valores observados mayores que la media (que son
positivos). Este efecto de neutralizacin puede eliminarse si se hace algo para que todas
las desviaciones sean positivas.
Una forma de eliminar el efecto de neutralizacin positivo-negativo es elevar al
cuadrado cada una de las desviaciones. Como consecuencia de esa sencilla operacin
aritmtica todas las desviaciones con respecto a la media sern valores no negativos
(positivos o cero). A continuacin sumaremos todas las diferencias al cuadrado. Cuanto
mayor sea esa suma, mayor ser la variabilidad de la distribucin, porque ms
observaciones estarn ms alejadas del punto central. Y cuanto ms alejadas, ms
diferencias hay entre unas y otras.
41
Con el fin de averiguar la media de las dispersiones al cuadrado, dividiremos el
resultado entre el total de observaciones
7
. El valor obtenido es denominado varianza, y
puede ser utilizado para comparar la variabilidad de diversos conjuntos. El problema es
que la varianza es difcilmente interpretable. Por ejemplo, en un conjunto de objetos, los
de mayor tamao siempre tendrn una varianza superior a la de los productos de menor
tamao. Eso es fcil de ver, si tenemos en cuenta que la media de los productos grandes
es mayor (p.e. 55 cm. de longitud) que la de los pequeos (p.e. 3 cm.). Por consiguiente,
el valor absoluto de las diferencias de cada objeto con su media tender a ser superior
en el primer caso que en el segundo. Para evitar estos problemas, existe otra medida de
dispersin: la desviacin tpica estndar, que debe entenderse como una
transformacin de la medida de la varianza. Se calcula obteniendo la raz cuadrada de la
varianza.
Una forma de interpretar la desviacin tpica como medida de la variabilidad de un
conjunto de datos sera plantendonos preguntas tales como: "cuntos datos se sitan a
1 desviacin tpica de la media? Cuntos se sitan a 2 desviaciones tpica de la media?
De esta manera es posible diferenciar distintas series de datos, segn la forma que
adopta su dispersin.
Si los efectos materiales medidos de una misma accin arrojan diferencias, podemos
fiarnos que la media es realmente una estimacin correcta de una consecuencia tpica
de la accin? Suponemos que la media no es tan precisa como la mejor medicin, pero
tampoco es tan imprecisa como la peor de ellas. Para matizar o incluso, contrastar, la
media, se puede calcular el error tpico de la media (Std. Error), que es la desviacin
tpica de la distribucin muestral de la media, y debe entenderse como una correccin
de la desviacin tpica teniendo en cuenta el nmero de observaciones. Ms
especficamente, el tamao del error estndar de la media es inversamente proporcional
a la raz cuadrada del nmero de observaciones.
Para medir la variabilidad de los valores de una propiedad cuantitativa en PAST,
procederemos de la manera siguiente. Tras seleccionar la columna que nos interese, el
comando Univariate (univariante) del Men Statistics (estadstica) muestra los
siguientes coeficientes estadsticos
8
: nmero de individuos (N), valor ms pequeo
(Min), mayor valor (Max), media (mean), error tpico de la estimacin de la media
(Std. Error), varianza (variance), desviacin tpica de la poblacin (Std. Dev.),
mediana (median), asimetra (skewness) y curtosis (Kurtosis).
7
En realidad dividimos entre n - 1, por razones que no vienen al caso, y que estn relacionadas con la
teora de las probabilidades.
8
Los conos situados en la parte inferior de la ventana de resultados sirven para: 1) cerrar la ventana, 2)
copiar el contenido de la ventana para despus pegar los resultados en otro programa, por ejemplo en un
archivo Word, 3) imprimir resultados.
42
En PAST, esta funcin acepta valores ausentes en la base de datos inicial, es decir,
objetos que no han sido medidos por su pobre estado de conservacin o por cualquier
otra razn. En la matriz de datos, estos valores ausentes han sido representados
mediante el smbolo de interrogacin (?).
Desarrollemos el ejemplo de la composicin de vidrios romanos que apareca en el
captulo anterior. Para obtener los estadsticos univariantes de la variable proporcin
de aluminio, seleccionaremos la columna ALUMINIO y ejecutaremos el comando
Univariate del Menu Statistics. Los resultados son:
N 97
Min (mnimo) 1,61
Max (mximo) 2,17
Mean (media) 1,81959
Std. error (error tpico) 0,0116736
Variance (varianza) 0,0132186
Stand. Dev (desviacin tpica) 0,114972
Median (mediana) 1,83
Skewness (asimetra) 0,34913
Kurtosis (curtosis) 0,165398
Estas cifras nos dicen que se han medido 97 muestras (N=97), que la que tena menos
aluminio en su composicin tena 1,61%, y la que ms 2,17%. El valor promedio es de
1,819% y el punto central (mediana), es de 1,83%. La desviacin tpica es bastante baja
(0,0116), lo que nos permite concluir que la variabilidad es comparativamente escasa: la
mayora de valores se sita a escasa distancia del punto central. La asimetra no es muy
acusada (Skewness=0,34), como tampoco lo es la curtosis (Kurtosis=0,16), lo que
refuerza la idea de la homogeneidad, regularidad y escasa variabilidad en la
composicin de aluminio en esta coleccin de vidrios romanos.
Al igual que hacamos en el caso de los histogramas, tambin aqu podemos restringir el
clculo a un subconjunto ms homogneo de datos. Por ejemplo, en el archivo lanzas,
podemos calcular la media, la desviacin tpica y otros estadsticos univariantes de la
longitud o del peso tan slo de las lanzas de hierro encontradas en un contexto funerario.
Para ello ordenaremos (Men TransformSort ascending) la columna MATERIA. A
continuacin seleccionaremos dentro de la columna CONTEXTO aquellas casillas que
tengan una MATERIA=2 (hierro) y volveremos a ordenar (Men TransformSort
ascending; transformar ordenacin ascendente).
43
Seleccionaremos finalmente CONTEXTO=3 (lanzas halladas en tumbas) y
calcularemos las estadsticas univariantes de la longitud mxima y del peso.
Los resultados son:
LONGITUD MAXIMA PESO
N 6 7
Min 12,4 154,8
Max. 22,6 358,1
Mean 14,0714 248,686
Std. Error 2,48229 49,11
Variance 43,1324 16882,5
Standard. Dev. 6,56752 129,933
Median 14,1 322,9
Skewness -0,67726 -0,825711
Kurtosis -0,592671 -0,888374
44
Ambas series muestran una variabilidad muy semejante, aunque los valores de peso y
longitud sean totalmente distintos. Basta comparar la desviacin tpica con la media
para comprobarlo. Si la desviacin tpica es inferior a la mitad de la media, podremos
suponer que la variabilidad general es escasa. No obstante, el hecho que en el caso del
peso de las lanzas de hierro encontradas en contexto funerario la media y la mediana no
coincidan, indicara que existe algn valor extremo, esto es, una lanza mucho ms
pesada que las dems, observacin sta que no sucedera en el caso de la longitud de las
mismas lanzas. Hay una lanza, que teniendo una longitud comparable a las dems, es
mucho ms pesada.
45
El azar como medida de todas las
cosas. La Ley de la Normalidad
Qu hemos aprendido hasta ahora? Hemos descrito diferentes procedimientos para
medir y describir la variabilidad observada de las consecuencias materiales de la accin
social. Sin embargo, hemos argumentado que la autntica razn de aplicar tcnicas
estadsticas a la explicacin arqueolgica no es la de servir de mera descripcin de lo
observado, por precisa que pueda ser, sino reconstruir la accin o proceso de trabajo
que gener en el pasado los efectos materiales que podemos observar en el presente.
Obviamente, las evidencias arqueolgicas de las que disponemos no constituyen el
conjunto total de las consecuencias materiales de aquella accin. La mayora de ellas no
ha llegado hasta nosotros por diversas razones; a veces incluso por la debilidad de
nuestra propia metodologa de adquisicin de datos arqueolgicos! En realidad,
debiramos considerar que la poblacin original de efectos materiales de la accin
social debi ser enormemente grande, y aquello que nosotros hemos podido observar y
medir es un pequeo subconjunto. Para representar grficamente lo que suponemos que
fue la accin productora resulta til sustituir el histograma de frecuencias por una lnea
de trazo continuo que describa el perfil del histograma que en teora contuviese todos
los efectos imaginables de la accin en cuestin.
La curva traza la distribucin de todos los valores que hubieran podido ser producidos
por una nica accin social o proceso de trabajo. Por eso la curva es distinta al
histograma, ya que en este caso la poblacin no es resultado de una serie de
observaciones y/o mediciones. Es una poblacin terica de tamao indeterminable. Por
consiguiente, lo que se ha figurado en el grfico no son las frecuencias de aparicin de
ciertos valores concretos, sino una distribucin terica de probabilidades. Esto es,
una estimacin de la frecuencia que sera de esperar fuese observable en la realidad si se
hubiesen conservado todos los efectos materiales de la accin. Aunque a primera vista
46
pueda parecer muy parecida a un histograma de frecuencias, el eje Y (vertical) de la
distribucin de probabilidades es bastante distinto. En un histograma ese eje muestra el
nmero de observaciones en cada intervalo. En una distribucin de probabilidades el eje
no puede representar lo mismo, ya que hay infinitas observaciones posibles y no hay
intervalos. El grfico representa probabilidades en trminos del porcentaje de rea bajo
la curva. El rea bajo toda la curva representa a toda la poblacin; la proporcin del rea
situada entre dos valores sucesivos del eje X (horizontal) equivale a la probabilidad de
observar un valor en ese intervalo. Cuanto ms apuntada la curva, mayor superficie del
rea, y por tanto, ms probable ser ese valor. Cuanto ms ajustada sea la curva al eje X,
menor superficie y por tanto, menor ser la probabilidad de que ese valor de la
propiedad cuantitativa en cuestin haya sido producido por esa accin. Por esa razn el
eje Y suele denominarse densidad de probabilidad, un trmino difcil de definir, pero
que podemos entender intuitivamente.
Si la curva infinita es distinta al histograma, para qu sirve? Nos permite representar el
proceso que caus las observaciones. El uso de una curva con ese propsito presenta la
gran ventaja de que se dispone de una ecuacin matemtica que expresa la forma de esa
curva y, por tanto, la misma ecuacin describira matemticamente el proceso que caus
las observaciones. La idea es, entonces, representar todos los resultados posibles de un
proceso (de una accin social, esto es, el proceso de trabajo) por medio de una curva
terica, y a continuacin analizar si el histograma de los valores observados en un
contexto arqueolgico determinado se aproxima la curva terica o se diferencia de ella.
Debe insistirse en que esta distribucin de probabilidades es una curva terica que no se
mide en la realidad. Nunca dispondremos de todas las consecuencias materiales de una
misma accin social, por lo que la nica forma de definir la probabilidad con que cierto
efecto vaya a resultar observable es recurriendo a una teora o hiptesis concreta acerca
de la accin. Vamos a ver como esa definicin hipottica es posible.
En un ensayo escrito en 1756, Thomas Simpson plante el supuesto que afirmaba que la
distribucin probabilstica de errores en una observacin simple era anloga a la
distribucin probabilstica de las sumas de lanzamientos de varios dados. Es decir, los
errores accidentales de un proceso intencional son aleatorios, an cuando el proceso
que gener esos errores no tenga nada de aleatorio. Si observamos la forma en que se
distribuye un grupo de errores que se alejan de una norma o intencin, no hallaremos
probabilidades uniformes, sino que habr ms errores accidentales agrupados cerca del
valor medio del grupo con el nmero de errores reducindose conforme la magnitud del
error se hace mayor, hasta llegar a slo unos pocos valores en los extremos.
Este principio general se denomina curva normal y sirve para definir con precisin lo
que quiere decir ser normal. Est basado en el que quiz sea el resultado ms
importante para la estadstica: el Teorema del Lmite Central, que afirma, que la suma o
la media de un gran nmero de errores sigue una distribucin regular y simtrica y que,
47
por consiguiente, el mejor valor esperado de una distribucin cualquiera de datos es la
media de la poblacin. Una consecuencia de este teorema viene a decir que aquellos
resultados que se apartan de la media son tanto menos frecuentes cuanto ms se apartan
de sta, y, adems, tienden a compensarse con los resultados que se apartan de la media
en la misma medida pero en direccin opuesta.
En una distribucin que siga la curva normal, la desviacin tpica determina la longitud
de un intervalo simtrico alrededor del punto central (media). Si la variacin estuviese
producida exclusivamente por el azar, dentro de dicho intervalo debiera encontrarse la
mayora de las observaciones o casos, por lo que slo una pequea porcin de los casos
estarn lejos del punto central. Denominaremos a este segmento alrededor de la media
intervalo de confianza. Si los valores observados varan al azar a lado y lado de la
media, entonces el intervalo de confianza tiene unas propiedades muy interesantes: el
95,45 % de los datos se situar siempre en un intervalo situado a dos desviaciones
tpicas de la media. El 68,27 % de los datos se podr colocar en el intervalo
determinado por una desviacin tpica. Estos porcentajes son siempre los mismos sea
cual sea el valor de la media y de la desviacin tpica, ya que siempre que el azar es la
nica causa de la variabilidad, la distribucin adopta la misma forma. Calcularemos
ahora la longitud del intervalo de confianza de la curva normal que incluya el 95 % de
todas las observaciones y excluya el 5 %. Ese valor es 1,96. En otras palabras, un
intervalo de 1,96 veces la desviacin tpica incluir el 95 % de las observaciones si y
slo si las diferencias entre los valores ms grandes y ms pequeos que la media han
sido provocadas nicamente por el azar.
Durante bastante tiempo se crey que cualquier distribucin de frecuencias daban lugar
a este tipo de perfil, de ah el nombre curva normal. Sin embargo, no es ese el caso. De
hecho incluso el apelativo curva normal parece fuera de lugar, ya que no todos los
fenmenos frecuentes son normales. Mucho ms apropiado sera llamarla curva
caracterstica de errores aleatorios
9
. Lo fundamental es darse cuenta que esta ley afecta
no tanto al proceso que genera los datos en s (que NO es aleatorio), sino a las
diferencias existentes entre los errores o diferencias de cada observacin con su
respectiva medida de tendencia central.
Veamos de qu manera esta ley matemtica nos permite explicar el proceso de
formacin del registro arqueolgico. Recordemos que las evidencias arqueolgicas no
son ms que las consecuencias materiales de la accin social, del trabajo de hombres y
mujeres. Por consiguiente, nuestro supuesto de partida es que el registro arqueolgico
9
En 1844, Adolphe Qutelet, que fue uno de los pioneros en la aplicacin de la estadstica al estudio de
los fenmenos y procesos sociales, la llam ley de las causas accidentales.
48
es expresin del trabajo, esto es, de la accin social que lo produjo. Aquello que
caracteriza dicha accin social es, precisamente, su intencionalidad. Por qu? Porque
las acciones sociales se definen en trminos de las transformaciones que deben
realizarse con el propsito de cumplir cierto objetivo. Son conscientes (porque tenemos
un propsito en mente al realizarlas), si bien una accin puede ser intencional sin que el
agente que la lleve a cabo tenga que estar enterado de dicho objetivo. Las motivaciones
o las intenciones entonces no son meras condiciones para desarrollar una actividad, sino
factores reales que influyen en la accin y en sus consecuencias materiales.
Si un artesano o artesana tiene la intencin de producir cierto instrumento para poder
llevar a cabo una actividad de trabajo en concreto, todos los instrumentos que produzca
con la misma intencin tendern a tener los mismos valores de las propiedades
cuantitativas (forma, tamao, composicin, y/o textura) que definen su materialidad.
Accidentalmente ciertos objetos sern mucho mayores o mucho menores de lo que
pretenda, pero como esos objetos fuera de la norma son errores accidentales que no
coinciden con aquello que quera hacer, sern muy poco frecuentes. La artesana intenta
minimizar sus errores, y que la mayora de productos de su trabajo se siten en las
proximidades de una norma, es decir el valor de la propiedad cuantitativa ms ajustado
a la funcin que pretende tener el objeto producido. De este modo, si la propiedad
cuantitativa en cuestin nada tiene que ver con la intencionalidad de su proceso de
produccin, sus valores no estarn normalizados y la distribucin de sus diferencias
no seguir una curva simtrica. El artesano o la artesana normalizan ciertos aspectos
de su trabajo, esto es, fabrican sus vasijas de manera que su dimetro y su altura tengan
siempre la misma longitud ya que esta relacin condiciona la capacidad total del
recipiente, pero les ser indiferente el grosor de la pared o el dimetro de la base, por
ejemplo. Si bien el rango de variacin ser restringido, no estar normalizado.
Lo que buscamos es precisamente identificar la intencin con la que cierta persona o
grupo de personas en cierto momento llevaron a cabo una accin determinada. Si dicha
accin fue realmente intencional y tuvo un objetivo bien definido, entonces, las
consecuencias materiales de dicha accin deberan tener las mismas medidas, con pocas
diferencias entre ellas. Una gran mayora de los resultados materiales de la accin
seran muy semejantes entre s, mientras que unos pocos sern mucho mayores y otros
pocos sern mucho menores. Por este motivo, las colas de una distribucin intencional
de valores son siempre mucho menores que el centro de la distribucin, en donde se
concentran aquellos valores que son resultado de la accin. El sentido comn nos dice
que las diferencias entre los resultados materiales de una misma accin
intencionalmente ejecutada son debidas al azar. Por consiguiente, si en una serie de
objetos realizados con el mismo proceso de trabajo y con la intencin de realizar la
misma actividad observamos que una mayora de instrumentos tienen valores muy
prximos de las mismas propiedades cuantitativas y adems, slo unos pocos objetos
son o mucho mayores o mucho menores, y se observa idntico nmero de casos
demasiado pequeos y demasiado grandes, habremos identificado la consecuencia
material de una accin social intencionalmente realizada.
Del mismo modo, la estatura de todas las personas que vayan a leer alguna vez este
manual de arqueologa y estadstica parecen seguir una distribucin con la misma forma.
Probablemente el histograma de esos valores sea simtrico y relativamente poco
apuntado, lo que querr decir que la mayora de lectores y lectoras tendr una estatura
ms o menos semejante; unos pocos sern mucho ms altos o altas que el resto,
mientras que otros sern mucho ms bajos o bajas que la mayora. Quiere esto decir
49
que he escrito el manual intencionalmente para unos lectores o lectoras con determinada
estatura? Obviamente no. Aqu la intencionalidad no radica en leer este manual o no,
sino en las caractersticas biolgicas de la especie humana. La estatura de una persona
no es resultado de la suerte o del capricho de un Dios que juega a los dados con los
seres que crea, es un resultado de las caractersticas biolgicas de la especie, y de ciertas
caractersticas especficas del individuo, como herencia gentica, alimentacin infantil,
etc. Lo que vara al azar es la estatura de la gente con respecto a la tendencia general de
la estatura de todos los humanos. Las diferencias de estatura entre individuos son
aleatorias alrededor de su media, porque la evolucin de la especie ha marcado una
tendencia general en la estatura de sus miembros. La Naturaleza es intencional en el
sentido en que es direccional y regular. No es una intencionalidad en el sentido que lo
es una accin social, pero s se trata de una forma de regularidad.
Lo contrario de la curva normal es la ausencia de tendencia central, la distribucin
uniforme, que debe su nombre al hecho de que todos los valores de una variable tienen
la misma probabilidad de existir, porque lo que determina un valor u otro es el azar, la
suerte o la casualidad. En una poblacin normal, por el contrario, resultado de una
20 30 40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
F
r
e
q
u
e
n
c
y
20 30 40
20 30 40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
F
r
e
q
u
e
n
c
y
Distintos ejemplos de distribuciones uniformes (aleatorias) no normales
Distintos ejemplos de distribuciones normales
intencin concreta o de una tendencia inherente al proceso, los valores ms prximos a
la media tienen mayor probabilidad. Lo ms lgico es que un ser humano tenga una
estatura de 1,70 m., y es muy poco probable, aunque no imposible, que su estatura sea
de 2,33 m., o de 0,85 m. Del mismo modo, un instrumento ltico manufacturado por un
artesano con una intencionalidad concreta tendr una longitud mxima apropiada a su
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
F
r
e
q
u
e
n
c
y
30 40 50
10
20
30
F
r
e
q
u
e
n
c
y
20 30 40 50
10
20
30
F
r
e
q
u
e
n
c
y
20 30 40 50
10
20
30
40
F
r
e
q
u
e
n
c
y
50
funcin, y esta coincidir con la media de todos los instrumentos manufacturados por
ese artesano o artesana con esa misma intencionalidad, como ya se afirm al principio
de este captulo.
Otra forma de estudiar la intencionalidad o no de una serie de valores sera comparando
la media de longitudes observadas, por ejemplo, con cierta tendencia central esperada.
Qu quiere decir aqu esperada? Simplemente, que disponemos de algn tipo de
informacin terica previa (histrica o etnogrfica) que afirma que en ciertas
condiciones de trabajo, la longitud media de los artefactos usados para determinado
propsito es conocida. Lo que debemos hacer ser por tanto comparar la tendencia
central de nuestros datos con la tendencia central esperada. Como es lgico, eso slo
ser posible si nuestras observaciones y la distribucin esperada se distribuyen
normalmente.
PAST dispone de una funcin especfica para averiguar si las observaciones son en
realidad un subconjunto de una poblacin ms general con una media (terica) dada.
Despus de seleccionar la columna que contiene los datos de la poblacin observada,
ejecutaremos la funcin del Men Statistics T test (one sample)(test T para una
muestra). Como resultado se abre una ventana en la que debemos introducir el valor de
la media esperada.
En este caso estamos analizando la profundidad de ciertas estructuras excavadas en la
roca (archivo India1). Supongamos que la profundidad media esperada es de 65 cm.
51
Presionamos el botn Compute, y el resultado es el siguiente:
La prueba t para una muestra se limita a restar la media observada de la media esperada
y a relacionar esa diferencia con la desviacin tpica de los datos observados. Como en
la mayora de pruebas de hiptesis estadsticas, lo importante no es el valor concreto de
la prueba (aqu t= -2,177) sino interpretar dicho resultado con arreglo a la hiptesis que
se quiere contrastar. Si pretendemos averiguar si la media observada coincide con la
media terica, interpretaremos el resultado de la prueba mostrando la probabilidad de
que la Hiptesis de que sean la misma media p(same mean)- sea cierta.
En nuestro caso, la media (mean) de la profundidad en la poblacin de 103 depresiones
observadas es de 53,66 cm. Dicho valor es significativamente distinto del valor de
profundidad media esperado (65 cm), ya que la prueba t para una muestra, nos dice que
dada la dispersin de valores de profundidades observado (desviacin tpica), una
diferencia de medias como la existente entre 53,66 y 65 no puede aparecer al azar. La
probabilidad de que la poblacin observada tenga una media prxima a la esperada es
de tan slo 0,032. Ese valor lo leeremos de acuerdo con nuestro principio general:
Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que ambas medias son distintas. Si por el contrario p(same mean)
es un nmero mayor de 0,050 concluiremos que los datos observados constituyen un
subconjunto de una poblacin general, mucho mayor, cuya media es, precisamente,
la media esperada.
Como en nuestro caso ese valor es inferior a 0,050, rechazaremos la hiptesis de que los
datos observados respondan a las mismas circunstancias a las que se refiere la tendencia
central esperada. Los datos observados no se ajustan a la intencionalidad supuesta por el
modelo terico. Esta manera de proporcionar resultados puede parecer un tanto
irracional. Pero tiene mucho sentido si lo interpretamos en un sentido probabilstico. Un
hecho que slo tiene un 5% (0,050) de probabilidades de existir quiere decir que de 100
repeticiones del suceso slo en 5 ocasiones aparecera ese hecho. Si excavsemos 100
yacimientos de una misma poca y mismas caractersticas en un rea geogrfica bien
delimitada, y en slo 5 de ellos encontrsemos huesos de ciervo qu pensaramos?
Probablemente que los ciervos eran tan escasos en ese lugar y poca que el hecho de
encontrar tan pocas evidencias mostraran que su aparicin es un accidente, antes que la
norma. Pues eso es lo que hemos de hacer con los resultados de la prueba de normalidad.
Si la probabilidad de una hiptesis determinada es inferior a 0,050 diremos que esa
52
hiptesis es tan poco probable que no se cumple. Si por el contrario, esa probabilidad es
superior al 0,050, diremos que existe una probabilidad no negligible de que la hiptesis
sea vlida en esas circunstancias concretas.
En definitiva, lo que hemos afirmando en este captulo es que existe un modelo terico
que describe con exactitud la manera en que un proceso de trabajo o accin social
genera sus efectos materiales y que ese modelo terico coincide con lo que los
matemticos denominan curva normal. Lo que afirma este modelo terico es que si el
proceso causal es realmente intencional, entonces no todos los errores accidentales o
diferencias con lo que se pretenda conseguir con la accin sern igualmente probables.
Un accin ser normal o estar normalizada porque se considera normal que ese
artefacto o ese individuo tenga el valor concreto de la propiedad cuantitativa que mejor
define aquella caracterstica que determina la intencin con la que ha sido producido.
Pero es normal porque lo normal es que la mayora de objetos producidos con la misma
intencin tienden a tener el mismo valor de esa misma propiedad cuantitativa. Es decir,
los efectos materiales de cualquier accin intencional tienen una marcada tendencia
central, siendo cualquier variacin alrededor de ella estrictamente aleatoria. La media
de las propiedades cuantitativas puede interpretarse, entonces, como aquel valor al que
las observaciones se aproximan, es decir, la intencionalidad de la accin o proceso
causal. En otras palabras, si una accin intencional ha sido la causante de los distintos
valores de tamao, forma, textura, composicin y/o localizacin que adopta una serie
delimitada de consecuencias materiales, el valor esperado, el ms frecuente, el ms
probable, ser la media de todos ellos. Aquellas consecuencias accidentales de la accin
que se apartan de la intencin sern tanto menos frecuentes cuanto ms se apartan de la
tendencia central mostrada por todas las consecuencias. Por el contrario, en la
distribucin no intencional de valores, cualquier objeto podra tener cualquier valor. No
hay ninguna tendencia subyacente que nos permita suponer que las personas que
realizaron la accin de la cual el objeto arqueolgico es evidencia pretendieran hacer
algo concreto. Por consiguiente, podemos basar nuestra investigacin en el supuesto
que las diferencias observadas en un conjunto de artefactos y la norma o medida
intencional que caracteriz al proceso de trabajo que los produjo se comporta de un
modo similar a una distribucin aleatoria.
Este principio general es muy importante porque nos permite pasar de la observacin de
la variabilidad de cierta propiedad cuantitativa en un conjunto de datos arqueolgicos a
determinar la distribucin de las probabilidades asociadas con cada una de las acciones
que posiblemente generaran esos datos. Si y slo si podemos demostrar que los datos
observados y medidos en el registro arqueolgico son el resultado de una accin
intencional, entonces el promedio (tendencia central) de las medidas que hagamos de
las evidencias arqueolgicas disponibles caracterizarn el proceso de trabajo. Sin
embargo, si las medidas realizadas de las evidencias arqueolgicas no se distribuyen
segn la curva normal, entonces no podremos saber si el promedio de esas medidas
caracteriza o no la accin generadora. En definitiva, slo si la produccin del efecto
observado ha sido una accin intencional (humana) o regular (proceso bio-geolgico),
entonces las diferencias entre los valores observados se comportarn como sucesos
aleatorios y podrn ser descritos predictiblemente mediante distribuciones de
probabilidad.
53
Explicar es Comparar
2
- chi cuadrado-/Shapiro-Wilk (una muestra).
Grficos QQ de Normalidad.
El objetivo del anlisis estadstico es extraer toda la informacin posible de los datos
observados. La primera tarea del anlisis consistir, por tanto, en escrutar o examinar
cruzadamente los datos para averiguar los posibles defectos y entender sus especiales
caractersticas. El siguiente paso es la especificacin de un modelo terico que explique
las observaciones. En nuestro caso, ese modelo es el de la intencionalidad de la accin
social y sus efectos aleatorios en las diferencias que pudieran existir entre las distintas
consecuencias materiales de una misma accin. Sobre la base del modelo terico (la
curva normal o curva de causas accidentales) emprenderemos el anlisis inferencial,
que comprende la estimacin de parmetros desconocidos (la norma a la cual tiende la
intencionalidad de la accin), pruebas de hiptesis, prediccin de futuras observaciones
y toma de decisiones. Ahora bien, es importante tener en cuenta que la aplicacin de las
pruebas estadsticas que caracterizan la forma de una distribucin de datos se basa en el
hecho de que no existe una nica distribucin normal, sino una familia de distribuciones
con una forma comn, diferenciadas por los valores de su media y su varianza. En
realidad debemos tener presente que las distribuciones de probabilidad son tericas; se
usan como referencia o para comparar los datos observados.
De ah que en todo anlisis estadstico de un registro arqueolgico dado empecemos con
los histogramas y las pruebas de normalidad. La idea fundamental que vamos a explorar
es si la variabilidad de nuestras observaciones arqueolgicas tiene la estructura
caracterstica de lo que los estadsticos llaman normalidad, y que es consecuencia de la
intencionalidad de toda accin social. Si siempre que la intencionalidad interviene deja
una huella claramente perceptible (la curva en forma de campana), entonces, podremos
describir la manera particular en que es la intencionalidad humana la que determina los
valores concretos que ciertas propiedades cuantitativas adoptan. Si esto es as, entonces
concluiremos que el conjunto de datos observados ha sido producido por una accin
causal concreta, por una accin social de trabajo, y podemos interpretarla estimando sus
parmetros originales a partir de los datos medidos en el registro arqueolgico. El
propsito de este captulo es, precisamente, explicar cmo puede determinarse el grado
de normalidad de una distribucin.
54
Estas tcnicas estadsticas se utilizan de una manera un tanto peculiar, la cual necesita
de una breve explicacin previa. Para mostrar la influencia de la intencionalidad de la
accin social (o bio-geolgica que ha alterado post-depositacionalmente las evidencias
materiales de una accin humana anterior), deberemos desacreditar el supuesto de que
esa variabilidad no tiene explicacin. Ese supuesto de no explicacin que debemos
eliminar queda expresado en declaraciones como Estos resultados podran fcilmente
ser debidos al azar o Un modelo aleatorio se ajusta adecuadamente a los datos. Aqu,
aleatorio significa exactamente lo contrario que intencional. Si los datos no son
marcadamente inconsistentes con esa concepcin, entonces una explicacin de todo-
azar es sostenible, por lo que respecta a ese conjunto de datos. A menudo esto es
descrito como aceptacin de la independencia entre causa hipottica y efecto, o no
relacin causal. Si, por otra parte, los datos son inconsistentes con el modelo de todo-
azar, la hiptesis del azar es rechazada, y se aceptar el modelo intencional.
Recordemos que estamos comparando aqu dos modelos tericos: el intencional
(normal) y el no-intencional (aleatorio).
De este modo se demuestra que la estadstica, ms que una herramienta de
demostracin, es una herramienta de argumentacin, como ha afirmado R. P. Abelson
10
.
Una advertencia importante aqu es que los trminos usuales aceptar o rechazar una
hiptesis estadstica son semnticamente demasiado intensos. Las pruebas estadsticas
son ayudas a la argumentacin, no declaraciones con valor de verdad lgica. Adems, el
sentido comn debiera decirnos que la que consideraremos hiptesis nula (estos
resultados podran fcilmente ser debidos al azar) prcticamente nunca es literalmente
exacta. Necesitamos un ndice probabilstico para evaluar la capacidad explicativa de la
hiptesis. Ese ndice (que simbolizaremos en las pginas siguientes con la letra p) puede
utilizarse como indicador del grado de aceptacin o rechazo de esa hiptesis explicativa.
Tan correcto es aceptar la hiptesis nula en un caso concreto si su probabilidad es de
0,900, como rechazar la posibilidad de tal hiptesis si su probabilidad es inferior a 0,05.
Evidentemente, para un escptico resultara difcil mantener esa hiptesis nula cuando
los datos slo tienen cinco oportunidades entre cien de haber surgido de ella. Ahora
bien, el modo correcto de rechazar la hiptesis sera: Si fuera cierto que no hubiese
una diferencia sistemtica entre una distribucin terica uniforme y los datos
observados en este contexto arqueolgico preciso, entonces la probabilidad de que esos
datos sean los resultados materiales de una nica accin social es menor de 5%. Siendo
esto una base slida para dudar de la viabilidad de la hiptesis nula, esta es rechazada
11
.
En la prctica no usaremos una retrica tan compleja, sino expresiones ms simples del
tipo conservar la hiptesis nula o tratar la hiptesis nula como viable, "se ha
desacreditado la hiptesis nula. Aunque la frase que usemos sea ms simple, conviene
tener en cuenta qu es lo que en realidad est midiendo este ndice de significacin de la
hiptesis nula. Conviene no confundir la probabilidad de los datos dada una hiptesis
inicial con la probabilidad de la hiptesis dados los datos.
10
R.P. Abelson, 1998, La estadstica razonada: reglas y principios. (traduccin castellana) Barcelona,
Editorial Paids (Coleccin temas de Psicologa No. 3). Realmente no hay libros que traten estas
cuestiones, a medio camino entre la filosofa y la prctica. El libro de Abelson es modlico en su manera
de entender qu es y para qu sirve la estadstica. Muchas de las ideas de ste ltimo captulo estn
basadas en este libro. Vase tambin C. Radhakrishna Rao, 1994, Estadstica y verdad. Aprovechando el
azar. (Traduccin castellana). Barcelona, Promociones y Publicaciones Universitarias, S.A.
(UNIVERSITAS-73); D.J . Bennett, 2000, Aleatoriedad. (Traduccin castellana). Madrid: Alianza
Editorial (Materiales/Ciencia y Tecnologa No. 036).
11
Cita de Abelson, 1998, pag. 64.
55
Secuencias aleatorias de nmeros generados artificialmente nos capacitan para
descubrir, por comparacin, mecanismos fortuitos similares. Por lo tanto, para observar
si la distribucin de valores de longitud, peso, superficie, frecuencia, o la propiedad
cuantitativa que se quiera es o no normal (es o no resultado de una accin intencional)
deberemos comparar la distribucin observada con una distribucin terica, es decir,
una distribucin normal que tenga la misma media y desviacin tpica que la que
nosotros hemos observado. En PAST puede hacerse. La opcin Fit Normal (ajuste
normal) que aparece en la misma ventana que muestra el resultado del histograma
superpone a nuestra distribucin la curva de una distribucin normal ideal con una
media y desviacin tpica idnticas a las de nuestros datos.
Pero que los trazados coincidan ms o menos no dice mucho. Deberemos examinar el
histograma preguntndonos si los datos se distribuyen de forma simtrica con respecto a
su media o presentan algn grado de asimetra, pues es sta una de las caractersticas
fundamentales de la distribucin normal. Aunque la simetra de la distribucin pueda
valorarse de modo simple, atendiendo a algunas medidas descriptivas de la variable en
cuestin (comparando, por ejemplo, los valores de media, mediana), resultar til
estudiar a fondo los coeficientes de asimetra (en ingls Skewness) y curtosis (en ingls
Kurtosis) que obtenamos al calcular las estadsticas unidimensionales.
Los grficos de probabilidad normal constituyen otra importante herramienta grfica
para comprobar si un conjunto de datos puede considerarse o no procedente de una
distribucin normal y si la causa de la variabilidad observada es una accin
intencional. La idea bsica es semejante a la de la curva superpuesta al histograma:
compararemos en un mismo grfico los datos que han sido observados frente a los datos
tericos que se obtendran de una distribucin normal con la misma media y la misma
desviacin tpica. Si la distribucin de la variable coincide con la normal, los puntos se
concentrarn en torno a una lnea recta, aunque conviene tener en cuenta que siempre
tender a observarse mayor variabilidad en los extremos. Adems de permitir valorar la
desviacin de la normalidad, los grficos de probabilidad permiten conocer la causa de
esa desviacin. Una curva en forma de "U" o con alguna curvatura significa que la
distribucin es asimtrica con respecto a la normal, mientras que un grfico en forma de
56
"S" significar que la distribucin tiene colas mayores o menores que la normal, esto es,
que existen pocas o demasiadas observaciones en las colas de la distribucin.
PAST proporciona la funcin grfica denominada grfico Q-Q. Seleccionando la
columna a estudiar y la funcin Normal probability plot (grfico de probabilidad
normal) en el Men Plot, obtenemos:
Complicado? No tanto. El eje vertical del grfico muestra los valores observados de la
columna seleccionada en orden creciente. El eje horizontal contiene una estimacin de
las frecuencias acumuladas que seran de esperar en una distribucin normal con la
misma media y desviacin tpica que nuestros datos. En el caso que aparece en la figura
se est analizando un conjunto de 5 valores: 7, 3, 4, 11 y 9. Slo hay un objeto con cada
uno de esos valores, por lo que la frecuencia con que aparecen esos nmeros es de 1. Si
ordenamos esos valores de menor a mayor llegaremos a la conclusin que la frecuencia
acumulada de la observacin 11 es igual a 5. Esto quiere decir que 5 individuos de
nuestro conjunto de observaciones son menores o iguales a 11. Tambin podemos decir
que el 100% de los datos son menores o iguales a 11. Las frecuencias acumuladas
tambin nos dicen que el 20% de las observaciones son iguales o menores a 3; el 40%
son menores o iguales que 4, el 60% menores o iguales a 7, y el 80% son menores o
iguales a 9.
Datos
Frecuencias de
Aparicin
Frecuencias
Acumuladas
Frecuencias
Acumuladas
Relativas
3 1 1 1/5 =0,20
4 1 2 2/5 =0,40
7 1 3 3/5 =0,60
9 1 4 4/5 =0,80
11 1 5 5/5 =1,00
57
Utilizando clculos ms complejos, el programa calcula cules seran las frecuencias
acumuladas en una distribucin normal con el mismo nmero de datos, de igual media y
desviacin tpica. Como es lgico, si nuestra distribucin observada es normal, las
frecuencias acumuladas de una y otra sern idnticas y los puntos del grfico se
alinearn de acuerdo con una lnea recta
12
.
-2 -1 0 1 2 3
Normal order statistic medians
20
30
40
50
S
a
-2 -1 0 1 2 3
Normal order statistic medians
10
20
30
40
50
S
a
m
p
l
e
v
a
l
u
e
s
a
l
u
e
s
m
p
l
e
v
Grfico de probabilidad QQ de una distribucin normal y de otra que no lo es
En muchas ocasiones, un rpido vistazo a las estadsticas unidimensionales y al grfico
QQ debieran bastar para saber si la distribucin observada es resultado de una accin
intencional o no. Pero no siempre es as. Necesitamos unas pruebas ms slidas y
fiables. PAST dispone de las funciones
2
chi cuadrado (una muestra) y Shapiro-
Wilk (una muestra).
La ms recomendable es la prueba de Shapiro-Wilk, que comprueba si una nica
distribucin (una columna seleccionada) con ms de 3 observaciones pero menos de
5000 es normal. En realidad, lo que hace esta prueba es calcular la probabilidad de que
sea cierta la siguiente Hiptesis Nula:
H
0
: los datos observados se distribuyen normalmente, esto es, el 68% de ellos estn
a lado y lado de la media (a 1 desviacin tpica), y hay muy pocas observaciones muy
12
PAST proporciona tambin una prueba numrica de la fiabilidad de esta superposicin (PPCC, en el
margen de la ventana que contiene el grfico). No obstante, en la mayora de las ocasiones que he
comprobado personalmente, este test no distingue apropiadamente la normalidad de la no normalidad.
58
grandes o muy pequeas (slo un 5% de las observaciones se sitan a ms de 2 veces la
desviacin tpica).
La manera de hacer estos clculos es complicada, pero eso poco importa, ya que PAST
har los clculos por nosotros. En general, esta prueba est basada en una divisin entre
la suma ponderada del cuadrado de las observaciones y la sumatoria de las diferencias al
cuadrado (recordemos la frmula de la varianza). Es por tanto, una especie de
derivacin de la frmula general de la varianza. El valor de la prueba (representado
como W) no nos interesa tanto como la probabilidad de la hiptesis anterior, que se
deriva del valor de la W y del nmero de observaciones. Hace algunos aos era
necesario consultar unas tablas especficas para saber cul era la probabilidad que
corresponda a determinado resultado de la prueba de Shapiro-Wilk para una poblacin
de x datos u observaciones. Hoy en da, cualquier programa de clculos estadsticos nos
proporcionar el valor de la prueba junto con el de la probabilidad que le corresponde.
No nos fijaremos tanto en el valor de la W, sino en el valor de probabilidad de la
hiptesis de normalidad, que aparece en la ventana de resultados como p(normal). Ese
es el ndice probabilstico que mencionbamos al principio de este captulo.
Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que la serie NO es normal Si por el contrario p(normal) es un
nmero mayor de 0,050 concluiremos que los datos de la columna seleccionada SI se
distribuyen normalmente, es decir, alrededor del 68% de ellos estn a lado y lado de
la media (a 1 desviacin tpica), y hay muy pocas observaciones muy grandes o muy
pequeas (slo un 5% de las observaciones se sitan a ms de 2 veces la desviacin
tpica).
Veamos ahora una prueba distinta que tambin puede sernos de utilidad. Aunque
muchas veces se usa la prueba de
2
chi cuadrado- (una muestra) con el mismo
propsito que la Shapiro-Wilk, para averiguar si unos datos se distribuyen
normalmente, lo cierto es que la prueba
2
chi cuadrado- (una muestra) nos permite
averiguar lo contrario: si los datos se distribuyen uniformemente. Como es lgico, si
los datos se distribuyen uniformemente NO sern resultado de una accin intencional,
ya que la intencionalidad excluye la uniformidad. En una distribucin uniforme, todos
los intervalos en los que podamos dividir una serie de nmeros tienen la misma longitud,
esto es, la probabilidad de que un valor cualquiera se incluya en uno de ellos es la
misma para todos. En una distribucin normal, por el contrario, los intervalos centrales,
los ms cercanos a la media o tendencia central son mayores, por lo que la probabilidad
de que los valores se concentren en ellos es mayor que en los intervalos extremos.
Para realizar la prueba de
2
chi cuadrado- (una muestra) PAST divide los datos de la
columna seleccionada en cuatro grupos. El primero de ellos contiene aquellos valores
menores que la media, que estn a ms de 0,67 veces la desviacin tpica; el segundo
59
grupo contiene aquellos valores menores que la media, que estn a una distancia menor
de 0,67 veces la desviacin tpica. El tercer grupo contiene aquellos valores mayores
que la media, que estn tambin a una distancia menor de 0,67 veces la desviacin
tpica. El grupo restante contiene aquellas observaciones mayores que la media que
estn situados a ms de 0,67 veces la desviacin tpica. En resumidas cuentas, los
grupos segundo y tercero contienen los intervalos centrales de la distribucin, aquellos
situados ms cerca de la tendencia central. La prueba de
2
chi cuadrado- para una
muestra compara la frecuencia de observaciones en cada grupo. Si la serie es uniforme
(NO normal), entonces los cuatro grupos tendrn la misma cantidad de datos. Si la serie
no es uniforme (ES normal), entonces los dos primeros grupos debieran tener muchos
ms datos que los dos grupos extremos. Para aplicar esta prueba, ninguno de los grupos
debiera tener menos de 5 observaciones; todo lo ms, slo uno de los grupos puede
tener una frecuencia menor de 5, pero siempre superior a 1.
La prueba es muy sencilla y podra realizarse con una calculadora de bolsillo o incluso
con lpiz y papel. Se trata de sumar todas las diferencias entre los valores observados y
los de la distribucin normal con la misma media y la misma desviacin tpica. Esa
diferencia se lleva a cabo restando el valor observado del valor esperado, elevando al
cuadrado la diferencia, y dividiendo el resultado por el mismo valor esperado antes
utilizado. Todas las diferencias as obtenidas se suman, y el resultado es lo que se
denomina valor de la prueba. Si ese valor es muy grande, entonces los valores
esperados no son semejantes a los observados, y podemos concluir que los datos se
distribuyen normalmente. Existen tablas estadsticas que nos dicen el umbral a partir del
cual el resultado de la prueba es significativo, es decir, si la suma final es lo bastante
grande como para concluir la no normalidad de las observaciones. PAST incluye esas
tablas y proporciona no slo el resultado de la prueba, sino tambin la respuesta final a
la pregunta: es normal mi distribucin? Pero nos lo dice de la misma manera que lo
deca en el caso de la prueba de Shapiro-Wilk. La Hiptesis Nula de la prueba de
2