Sei sulla pagina 1di 134

ARQUEOLOGIA Y ESTADISTICA

1
Introduccin al estudio de la
variabilidad de las evidencias
arqueolgicas





Juan A. Barcel
Laboratori dArqueologia Cuantitativa i Aplicacions Informtiques
Universitat Autnoma de Barcelona

















2006
INDICE



Presentacin.................................................................................................................... 3
Para qu sirve la estadstica en arqueologa? ............................................................ 7
La naturaleza estadstica de los datos arqueolgicos. ............................................... 13
Primeros pasos con PAST. Instalacin del programa.................................................. 20
Primeros pasos con PAST. Introduccin y manipulacin de datos arqueolgicos. ..... 21
Introduccin de datos................................................................................................. 21
Cargar y guardar datos................................................................................................ 23
Mover una fila o una columna.................................................................................... 24
Seleccin de reas....................................................................................................... 24
Renombrar filas y columnas....................................................................................... 26
Aumentar el tamao de la hoja de clculo.................................................................. 26
Cortar, copiar, pegar................................................................................................... 26
Eliminar...................................................................................................................... 27
Agrupar (colorear) filas.............................................................................................. 27
Ordenar valores en una columna................................................................................ 28
Transponer.................................................................................................................. 29
Resultados de las pruebas estadsticas........................................................................ 30
Qu forma tiene la distribucin? Histogramas........................................................ 31
Cun variables son las consecuencias materiales de las acciones sociales?
Estadstica Univariante................................................................................................... 40
El azar como medida de todas las cosas. La Ley de la Normalidad .................... 46
Explicar es Comparar - chi cuadrado-/Shapiro-Wilk (una muestra).
2
,Grficos QQ
de Normalidad. ............................................................................................................... 54
Asociacin, Relacin y Semejanza.Tres palabras clave para un mismo problema...... 70
Estudiando Relaciones entre variables. .................................................................... 800
Relacin entre variables cuantitativas........................................................................ 80
Una de las medidas de la intensidad de una relacin.................................................................... 8 88
Relacin entre variables cualitativas y cuantitativas................................................ 966
Analisis de Varianza Univariante................................................................................................. 1066
Relacin entre variables cualitativas...................................................................... 1144
Analisis de Correspondencias....................................................................................................... 1233
Contenidos del prximo volumen de la serie ......................................................... 1344












2
Presentacin












Aunque la mayora de arquelogos y arquelogas no lo crea, la arqueologa es una
disciplina matemtica (segn dijo en su da David Clarke), en pie de igualdad con la
qumica, la fsica, etc. Es decir, para resolver problemas arqueolgicos debemos utilizar
mtodos de razonamiento desarrollados en lenguaje matemtico. Obviamente no es ste
el lugar para discutir este punto, pero si los lectores y lectoras de este manual siguen
leyendo, entendern por qu digo lo que digo.

La dificultad est en que no sabemos matemticas. Aunque existen muchos programas
informticos que debieran ayudarnos a aplicar esas matemticas, lo cierto es que su uso
parece ser demasiado complicado para quien no tiene los conocimientos necesarios. Por
eso se ha escrito este libro, que:

proporciona ejemplos fciles de seguir de todas las tcnicas usadas en arqueologa,
documenta de manera esquemtica, intuitiva, simple y directa todas las funciones
estadsticas que pudieran llegar a ser tiles para arquelogos y arquelogas, mostrando
ejemplos claros de todas ellas,
no est basado en frmulas, sino que se explican para qu sirven los clculos que realiza
un programa informtico.
Este libro est ajustado al uso del programa gratuito PAST.

Este libro ha sido escrito especialmente para aquellos investigadores e investigadoras (y
estudiantes de arqueologa que pretenden convertirse en futuros profesionales de nuestra
disciplina) que no slo no tienen ni idea de las matemticas, sino que aprendieron a
odiarlas en sus aos de escuela. Nmeros aparecern en gran cantidad, pero las
operaciones (aritmticas, algebraicas, etc.) se obviarn y sern sustituidas por
explicaciones intuitivas de lo que se pretende con esas tcnicas.
Un segundo libro acompaa a este manual. Se trata de un libro de ejercicios y
problemas arqueolgicos, que pueden obtenerse en la pgina web de referencia para
este manual:
http://seneca.uab.es/prehistoria/Barcelo/manualestadistica.html

En ese documento (en formato .pdf) las distintas funciones estadsticas de PAST
presentadas y discutidas en el libro se ejemplifican con arreglo a varios casos
arqueolgicos reales. Se ha intentado que los lectores y lectoras del manual se vayan
3
acostumbrando al tipo de resultados estadsticos ms usuales en arqueologa y a la
complejidad de su lectura e interpretacin. A diferencia del manual en el que se
explican las tcnicas, en el Libro de Ejercicios y Problemas se insiste en el tipo de
problemtica histrica que los datos arqueolgicos debieran permitir resolver. Por eso
la estructura de ambos es distinta: el manual est estructurado de acuerdo con las
tcnicas y funciones estadsticas que se estudian, mientras que el Libro de Ejercicios y
Problemas est organizado de acuerdo con problemas arqueolgicos concretos que se
van resolviendo de manera ordenada. Se ha considerado que lo importante es aprender a
tener en cuenta que las distintas funciones estadsticas no pueden aplicarse a ciegas,
sino siempre considerando la pregunta concreta a la que se quiere responder.
En el Libro de Ejercicios y Problemas se ha puesto un inters especial en argumentar
qu funciones pueden ejecutarse y cuales NO deben realizarse con determinados
tipos de datos. Los ejemplos han sido elegidos precisamente para poner de manifiesto
las ventajas de la descripcin cuantitativa en arqueologa y los inconvenientes de la
cualitativa. Por eso hay ejemplos que parece que no proporcionan informacin relevante.
El documento que contiene esos problemas resueltos se ir actualizando frecuentemente,
incluyendo nuevos casos reales. Se invita a los lectores y lectoras a sugerirnos nuevos
ejemplos o casos que se deseen incluir.

Para este proyecto se ha elegido un programa informtico muy particular. El programa
PAST
1
Paleontological Statistics-, es original de yvind Hammer, D.A.T. Harper and
P.D. Ryan. Existen muchos y muy completos programas para realizar clculos
estadsticos, como por ejemplo SPSS, SAS y extensiones para Excel. Por qu otro
programa de estadstica? Porque

PAST es gratuito,
PAST est ajustado a su uso en paleontologa y arqueologa. Esto significa que
incluye algunas funciones que no aparecen en programas de uso general (como
cladstica, seriacin, morfometra y comparacin estratigrfica). Igualmente, no
incluye funciones raramente usadas en nuestras disciplinas, lo que permite al
programa ser ms ajustado y menos confuso.
PAST es fcil de usar, y apropiado para los cursos introductorios de paleontologa y
arqueologa cuantitativas.
Ya slo por su nombre past (pasado) parece hecho ex profeso para nosotros,
arquelogos. Es un acrnimo de estadstica paleontolgica, y la paleontologa y la
arqueologa tienen muchas semejanzas y analogas, al menos en lo que a metodologa se
refiere. No obstante, las funciones estadsticas usadas en paleontologa no siempre son
las mismas que las usadas en arqueologa, por eso necesitamos de un libro como ste,
que adapta PAST a su uso en arqueologa.

La pgina web de referencia del programa PAST, y donde puede obtenerse
gratuitamente es:

http://folk.uio.no/ohammer/past

1
Este manual se refiere a la versin 1.54. El programa se actualiza muy frecuentemente, as que es
conveniente visitar repetidas veces la pagina web de referencia para descargar la ltima versin.
4
Los usuarios pueden suscribirse a una lista de correo electrnico acerca del uso del
programa. Los detalles aparecen en la pgina web cuyo enlace es el siguiente:
http://nhm-lists.uio.no/mailman/listinfo/past-users@nhm.uio.no

Este manual es el primero de una serie de publicaciones del Laboratorio de Arqueologa
Cuantitativa de la Universidad Autnoma de Barcelona que documenta otras funciones
de PAST y que tambin recurrir a otros programas gratuitos. Por el momento estn
previstos los siguientes volmenes, que irn apareciendo con periodicidad anual:

Vol. 1. Introduccin al estudio de la variabilidad de las evidencias arqueolgicas
(Estadstica Univariante y Bivariante)
Vol. 2. Estadstica Multivariante
Vol. 3. Morfometra
Vol. 4. Anlisis Espacial
Vol. 5. Seriacin y Prediccin
En este primer libro tan slo vamos a tratar en general con la manera de enfocar el
anlisis de una distribucin de valores. Como es lgico, el anlisis de distintas
propiedades cuantitativas requiere estrategias y procedimientos diferentes. Aqu
meteremos dentro del mismo paquete el estudio de la magnitud, de la forma, de la
textura, de la composicin y de la localizacin de las evidencias arqueolgicas. Se me
ocurren dos mbitos especficos que requieren de una exposicin ms detallada: el
estudio de la forma y el de la localizacin. El primero se abordar en el volumen
dedicado a morfometra, en tanto que el segundo encontrar acomodo en el volumen
referido al anlisis espacial. Por otro lado, algunas de las tcnicas ms usuales no han
encontrado lugar en este primer libro por varias razones. Por ejemplo, en varias
ocasiones se menciona el anlisis de las semejanzas entre objetos (o estudio de la
similaridad), pero nada se explica de l. El estudio de la semejanza implica
necesariamente la comparacin de muchas variables, y eso es matemticamente ms
complejo. Por ese motivo he preferido dejarlo para introducir el prximo volumen, que
trata precisamente del anlisis multivariante. Adems, algn lector o lectora puede
encontrar a faltar referencias a la regresin. La mayora de libros de introduccin a la
estadstica la mencionan entre las tcnicas bsicas; quizs sea una tcnica fundamental
en otras disciplinas, pero en arqueologa prcticamente nunca me he encontrado
relaciones lineales que puedan ser analizadas por medio de ecuaciones de regresin
simple. Creo que el estudio de la regresin es muy interesante para introducir
cuestiones mucho ms tiles (pero tambin ms difciles) como el de las regresiones
mltiples y las regresiones no lineales. Todos esos temas habrn de esperar hasta el
volumen dedicado a seriacin y Ppediccin.


AGRADECIMIENTOS.

Este libro y los que le seguirn son el resultado de 15 aos de docencia de la
Arqueologa Cuantitativa en la Universitat Autnoma de Barcelona. Es por tanto obvio
que mi mayor agradecimiento va hacia los y las estudiantes que pasaron por las
asignaturas de Introduccin a la Arqueologa, Mtodos Cuantitativos en Arqueologa,
Recursos Instrumentales para la Investigacin Histrica, Tcnicas de Laboratorio,
Archivo y Campo, as como por la asignatura de doctorado Tcnicas de Inteligencia
5
Artificial en Arqueologa. Si aprendieron algo de m, tambin yo aprend mucho de
ellos y ellas.

Mi agradecimiento va tambin dirigido a mis compaeros y compaeras del equipo de
investigacin conjunto UAB/CSIC de Barcelona. Con ellos he realizado numerosos
anlisis estadsticos para interpretar los datos arqueolgicos procedentes de nuestras
excavaciones en Tierra del Fuego (Argentina), as como datos proporcionados por otros
compaeros en proyectos arqueolgicos en Prximo Oriente, Pennsula Ibrica y otros
lugares. Si la aplicacin de esas tcnicas permiti llevar a cabo muchos proyectos e
incluso sirvi para desarrollar algunos aspectos importantes de muchas Tesis Doctorales,
los problemas que plantearon estimularon una reflexin acerca de lo apropiado o
inapropiado de los mtodos que no podra haberse llevado a cabo sin su ayuda. Gracias
a todos ellos la estadstica dej de ser un mero recurso terico para convertirse en una
herramienta prctica, integrada en el trabajo cotidiano de arquelogos y arquelogas.

Y finalmente, pero no en ltimo lugar, a Laura y a Mart. El lleg cuando an no haba
empezado con este proyecto, y ahora est aqu, metiendo sus pequeas manitas en el
teclado del ordenador y deshaciendo aquello que yo pretendo hacer. Ella ha estado
siempre a mi lado, ley y corrigi varios manuscritos previos y se dedica en cuerpo y
alma a nosotros dos. Gracias.






























6
Para qu sirve la estadstica en
arqueologa?









Si por un momento dejramos de pensar en la investigacin arqueolgica en los
habituales trminos narrativos y descriptivos, nos daramos cuenta de que como
investigacin cientfica que es, debe expresarse en trminos de problemas a resolver. La
arqueologa es una ciencia social, es una disciplina histrica, pero ni es la nica ciencia
social, ni la nica disciplina histrica. Por consiguiente no debemos pretender
responder aqu y ahora todos los problemas de la humanidad, sino resolver problemas
concretos y especficos que se refieran al tipo de datos que podemos llegar a manejar.
Debemos huir de trivialidades del tipo de: Cmo viva la gente en el pasado? y
centrarnos en:

Por qu est os mat er i al es
ar queol gi cos son como son, y
no de ot r a maner a?

El objeto de estudio de la arqueologa son las consecuencias materiales de la accin
humana, esto es del trabajo de mujeres y hombres. Como resultado de nuestro trabajo,
de nuestras relaciones con otras personas, producimos objetos, transformamos cosas, ya
sea de manera consciente, ya sea de manera inconsciente. Algunas de esas
consecuencias de lo que hacemos tienen una materialidad que va ms all de su mera
visibilidad. Por ejemplo, el lenguaje hablado es una consecuencia de la actividad social,
es perceptible, pero no tiene materialidad, a no ser que lo escribamos sobre un soporte
material. Por el contrario, un instrumento de trabajo o la pata de pollo que me com
anoche, son tambin consecuencias observables de la accin social, que adems tienen
la caracterstica de ser analizables en su materialidad.

Otras disciplinas se encargan de otros aspectos no materiales de la vida social. Debemos
saber lo suficiente de sociologa, de economa, de psicologa social, etc., pero nosotros
debemos centrarnos en aquellos aspectos que slo la investigacin arqueolgica puede
estudiar: aquello que se conserva de la accin social una vez que sta ha concluido. Y lo
que se conserva es, precisamente, un subconjunto de lo material. Debemos estudiar
cmo la accin social gener, a lo largo del tiempo, consecuencias materiales y sus
relaciones. Esto no significa que la causa de esa materialidad antigua observable en el
presente se reduzca a lo que se ha dado en llamar economicismo de va estrecha. No
slo la subsistencia genera consecuencias materiales, sino cualquier accin social, tanto
poltica, como econmica, como ideolgica.
Las ciencias sociales pretenden resolver dos tipos o modalidades de problemas:
7
qu tipos de accin social pueden ponerse en relacin con
conjuntos especficos de artefactos o fragmentos de artefactos. Es
decir, qu efectos materiales produce la accin social y de qu
manera podemos reconstruirla partiendo de la observacin de
esos efectos,
por qu la accin social en cuestin se produce, cambia o
permanece estable. Es decir, por qu varan a lo largo del tiempo
y/o del espacio los efectos materiales de la accin social.
Resulta obvio que la resolucin de problemas del primer tipo es una condicin para la
resolucin de los del segundo tipo. Si no sabemos qu acciones colectivas se produjeron
en un momento y lugar, difcilmente averiguaremos por qu cambiaron a travs del
tiempo, y por qu la accin colectiva cristaliz en distintas formaciones sociales.

Dentro de las ciencias sociales, la arqueologa aparece en realidad como una especie de
ingeniera inversa, cuyos resultados sern utilizados en investigaciones ms abstractas
o interpretativas acerca de la naturaleza social:

Qu acci n soci al ( pr oceso de t r abaj o)
caus ( det er mi n, condi ci on, i nf l uy)
el ef ect o mat er i al que puedo obser var
en el yaci mi ent o ar queol gi co?

Nosotros conocemos el efecto (material arqueolgico), y deseamos averiguar la accin
social que lo produjo. No quiere esto decir que la arqueologa sea una parienta pobre de
la historia, ni que arquelogas ni arquelogos no sean investigadores o investigadoras
de la historia, sino que antes de resolver un problema histrico (por qu pas?),
debemos resolver el problema arqueolgico (qu pas?).
Es en los distintos productos finales (materias primas, instrumentos, residuos y
desechos) donde quedan reflejados los procesos de trabajo. El estudio arqueolgico de
los productos, de los desechos de produccin y de los medios usados para producirlos
debiera permitirnos, entonces, identificar los lugares de produccin y establecer cules
han sido los procesos de trabajo y las acciones de uso, consumo y/o distribucin. La
arqueologa analiza los objetos que son resultado del trabajo, que son producto de la
accin colectiva. Pero no los estudiamos porque ellos mismos sean importantes, por las
intenciones o motivaciones individuales de los agentes que los produjeron, sino porque
constituyen el aspecto observable de una parte de la accin colectiva; porque
constituyen el conjunto de elementos materiales que usa el grupo humano para subsistir
y reproducirse. Los bienes producidos, ya sean destinados a ser comidos, bebidos o para
producir otros bienes, no son ms que elementos naturales alterados por el trabajo. Todo
lo que ha sido modificado en su forma, en su tamao, en su composicin, en su textura,
en su localizacin, es pues un elemento del registro arqueolgico. Los animales
salvajes, las piedras, la tierra, los bosques, los ros no son artefactos, sino recursos, pero
las carcasas animales, los bloques extrados de mineral, la tierra cultivada, el paisaje
transformado, el agua que se va a beber o se va a utilizar para regar son artefactos, ya
que su materialidad ha sido alterada por acciones colectivas como la caza, el despiece,
el transporte y reparticin de la carne, su coccin y la fragmentacin de huesos, el
cultivo, el embalse de aguas y su canalizacin, la deforestacin, la fabricacin de
instrumentos, etc. Es un artefacto todo lo que ha sido modificado por la accin
colectiva, que explota y organiza sus recursos, que deforesta, aterraza, y construye o
8
destruye. Si la accin colectiva modifica la naturaleza, entonces podemos utilizar las
modificaciones observables en la materialidad de las cosas para inferir las acciones
colectivas que se han realizado en determinado lugar. Es en este sentido, en el que todo
objeto socialmente producido funciona como smbolo o indicador de una realidad social
que est definida, precisamente por la accin colectiva, es decir, la capacidad del grupo
social para producir y reproducirse.

El primer paso en esa ingeniera inversa que pretende averiguar la causa partiendo de la
observacin del efecto es, lgicamente, describir esa materialidad resultado de la accin
social. La materialidad puede estudiarse con arreglo a 5 propiedades bsicas:

MAGNI TUD
TAMAO
COMPOSI CI N
TEXTURA
LOCALI ZACI ON ( en el t i empo y en el espaci o)

A su vez, las causas sociales de esas propiedades observables en las consecuencias
materiales de la accin social pueden resumirse en cuatro grandes grupos:

PRODUCCI N
USO/ CONSUMO
DI STRI BUCI N
ACCI ONES POST- DEPOSI TACI ONALES

El grfico muestra cmo causas y efectos se interrelacionan:

PROCESOS POST-DEPOSITACIONALES
PRODUCCION

Forma
Tamao
Distribucin Composicin
Textura
Localizacin

USO
ACCION INVESTIGADORA

Por descontado, en muchas ocasiones (a veces la mayora) los materiales arqueolgicos
tienen la forma o el tamao que tienen debido a todo lo que pas desde el momento
histrico de su depositacin hasta la excavacin arqueolgica. El elemento original que
fue consecuencia de la accin social pudo haberse roto, pudo haberse alterado en su
composicin qumica, pudo haberse desplazado, su contenido en carbono 14 pudo
haberse contaminado, etc. El primer problema arqueolgico a resolver consistir en
averiguar hasta qu punto lo que observamos es resultado de lo que tuvo lugar en el
yacimiento arqueolgico despus de que la accin social original se produjera. Una vez
que hayamos podido resolver qu aspectos de la materialidad arqueolgica no son una
consecuencia de todo aquello que sucedi en el yacimiento arqueolgico despus de su
9
formacin, pasaremos a plantear el problema arqueolgico propiamente dicho, que
puede esquematizarse de este modo:
Pero no es tan sencillo como parece. Este problema muy pocas veces puede resolverse
para elementos arqueolgicos individuales. Por qu esta vasija tiene esta forma?
Quizs porque es la forma ms apropiada para el uso al que se la destina, o bien por
accidente, por capricho de quien hizo esa cermica, o por otras razones. Hay millones
de causas posibles. Quiere esto decir que los problemas arqueolgicos esa ingeniera
inversa de la que hablbamos- es imposible?

En parte es as. La arqueologa es una ciencia imposible, de ah sus muchos fracasos
interpretativos. Pero existe una salvedad, que es precisamente la que justifica la
naturaleza matemtica de la arqueologa. Lo que no se puede resolver para un
elemento aislado, puede ser resuelto para un conjunto de elementos. Por qu estas
hachas tienen distintas longitudes? Porque fueron fabricadas con propsitos distintos.
Por qu en estas tumbas aparecen ajuares con composicin diversa? Porque fueron
producidos por rituales funerarios distintos. El problema arqueolgico se expresara
entonces de otro modo:

Es muy difcil, a veces imposible, saber por qu una tumba en particular tiene cierta
composicin (cantidad de ajuar), cierto tamao (volumen) o forma (es una fosa o un
tmulo o una urna dentro de fosa, etc.). Puede que sea la tumba del cacique local, de un
chamn, de una persona pobre, pero con muchos amigos, de alguien odiado y temido,
etc. No podemos conocer el significado concreto de cada elemento arqueolgico,
porque resulta imposible reconstruir las motivaciones de los agentes sociales que lo
produjeron o lo utilizaron. Pero s que podemos averiguar por qu hay diferencias de
composicin, tamao y forma en una necrpolis. Las tumbas son distintas porque las
causas que las generaron fueron distintas. Si no podemos precisar la causa individual, s
que podemos llegar a definir causas ms generales: lo que vara es el rito funerario, y el
rito funerario es diverso porque la personalidad social de la familia del fallecido es
diferente. Da igual si la persona enterrada fue una jefa, una chamn o una buena o mala
persona; lo que importa es que su tumba es distinta del resto, y el grado y la naturaleza
de esa diferencia puede medirse y estudiarse.
Por consiguiente, para explicar la dinmica de la accin colectiva, para explicar los
procesos histricos de creacin y transformacin de las formaciones sociales no es
Qu acciones de
PRODUCCION
USO
DISTRIBUCION
son la causa de
VARIACIONES
OBSERVADAS DE:
TAMAO
FORMA
COMPOSICION
TEXTURA
LOCALIZACION
Qu accin de
PRODUCCION
TAMAO
FORMA
es la causa de
USO
COMPOSICION
DISTRIBUCION
TEXTURA
LOCALIZACION
10
necesario averiguar por qu cada uno de los artefactos arqueolgicos (los productos del
trabajo realizado por un grupo de personas relacionadas, precisamente, en razn de ese
trabajo) son como son o aparecen donde aparecen, ya que ese estudio resulta, en la
prctica, imposible, adems de sin sentido. Tampoco necesitamos modelos universales
de accin colectiva para poder interpretar los observables arqueolgicos como sus
realizaciones particulares. Se trata simplemente de buscar las regularidades histricas en
la reproduccin de acciones colectivas especficas. Buscamos la regularidad o
irregularidad, la semejanza o la diferencia, la continuidad o la variacin de las
consecuencias materiales de distintas acciones sociales.
Comparando estados sucesivos de una misma trayectoria histrica, podemos estudiar
qu ha cambiado y en qu condiciones ha cambiado. En biologa se acepta que la
morfologa es el rastro dejado por el desarrollo, tenemos que comprender el desarrollo
si queremos comprender la evolucin. Semejante enfoque puede ser adaptado en
arqueologa, si aadimos a la morfologa (forma y tamao) propiedades como la
composicin, la textura y la localizacin. As por ejemplo, podemos estudiar todas las
formas de ritual funerario que han tenido lugar en el espacio que hoy ocupa la ciudad de
Barcelona desde las primeras manifestaciones hasta hoy en da. Ordenando
temporalmente las tumbas y cementerios, definiremos la trayectoria histrica de una
formacin social particular. Esta trayectoria est compuesta por los distintos estados que
ha ido adoptando la accin colectiva. Las semejanzas y las diferencias entre estados
consecutivos nos proporcionarn informacin acerca de la continuidad o discontinuidad
en su reproduccin.
El estudio de las causas de las diferencias observadas, de la variabilidad de las
consecuencias materiales de la accin social, constituye el tema bsico de investigacin
en arqueologa. Pero el estudio de la variabilidad, como el de la semejanza, o el de la
diferencia, y en realidad el anlisis de cualquier tipo de comparacin debe realizarse con
tiles lgicos muy especficos. Si no formalizamos estrictamente esta forma de pensar,
los resultados de la comparacin que haga yo nada tendrn que ver con las
comparaciones que haga otro investigador o investigadora. El estudio de la variabilidad
slo puede llevarse a cabo correctamente usando el lenguaje matemtico y reglas
especficas de razonamiento que constituyen precisamente el ncleo de la estadstica.
Intentaremos argumentar estas ideas en multitud de ejemplos a lo largo de este manual.
Problemas arqueolgicos para los que es posible encontrar una solucin por medio de
herramientas estadsticas seran, por ejemplo:

Por qu ciertas puntas de lanza tienen formas distintas? Se debe a procesos de
produccin diferentes, a que son productos de distintos talleres, de diferentes
procedencias, o bien el uso al que se destinaban era diferente?

Por qu distintos tipos de vasijas tienen distinta decoracin? La causa de la
variabilidad observada puede estar en el uso al que se destinaban esas cermicas,
a la forma en que fueron producidas, a su procedencia, etc.

Por qu distintos contenedores tienen una composicin diferente en trminos
porcentuales? Asumiremos que si el proceso de produccin y/o el uso al que se
destin cada contenedor es el mismo, entonces la composicin qumica de la
materia de la que estn hechos ser la misma. Produccin y/o intencin de uso
sern pues las causas de la variabilidad observada en la composicin.

11
Asumimos que el uso de los tiles lticos (cortar madera, raspar piel, etc.)
modifica las caractersticas visuales de la superficie de ese til. Son las llamadas
huellas de uso. El problema a resolver es entonces qu accin (de uso) explica
la variabilidad observada en la textura superficial de un conjunto de objetos
lticos. Los tiles que sirvieron para cortar madera tienen la misma textura que
los que sirvieron para raspar piel fresca? Es similar la textura superficial
huellas de uso- de los tiles de slex que sirvieron para cortar materias duras?

Por qu aparecen huesos distintos de diversas especies animales en un
yacimiento arqueolgico? Lo ms lgico sera suponer que eso es as porque los
habitantes de este lugar explotaron especies distintas, y cada especie tiene una
anatoma diversa, lo que motiva que el uso del cuerpo del animal (despiece,
carnicera, aprovechamiento de partes no crnicas, etc.) sea diferente, segn sea
la especie. Por qu aprovechaban de manera distinta las distintas partes del
animal? Por otro lado, por qu aprovecharon especies distintas? Quizs porque
slo cazaron las ms abundantes en su entorno, o quizs slo estaban interesados
en que les eran ms tiles, al margen de su abundancia o facilidad de captura.

Por qu distintos tipos de materiales arqueolgicos aparecen en localizaciones
distintas? La respuesta ms sencilla sera porque las consecuencias materiales de
la accin de trabajo (los artefactos) aparecen all donde la accin tuvo lugar. El
estudio de la variabilidad espacial consistir, por tanto, en estudiar si la
localizacin espacial de distintos tipos de artefactos o evidencias es o no es
distinta, y asociarla con las hiptesis acerca de qu es lo que se hizo en cada
localizacin. Por ejemplo, por qu en distintos sectores de un yacimiento
arqueolgico las muestras de carbn son distintas? Las explicaciones pueden ser
varias, pero en general se refieren a la adquisicin y aprovechamiento de la lea
por la sociedad en cuestin. Por ejemplo, porque esas eran las especies vegetales
leosas disponibles en el entorno, o porque esas especies tienen un rendimiento
calrico ms eficaz para cierta actividad de trabajo realizada en esa localizacin.

Por qu las tumbas de cierta necrpolis son diferentes? Uno de los temas de
investigacin recurrentes en la llamada arqueologa de la muerte es,
precisamente, el estudio de la variabilidad social, en trminos de la variabilidad
observada en el registro arqueolgico. En este caso, la variabilidad observada se
refiere a la variabilidad en la composicin de dicho registro, es decir, las
diferencias en el contenido de las tumbas. Cabra aadir tambin las diferencias
en la forma y en el tamao de las tumbas. La causa de esas diferencias, esto es,
la variabilidad social se puede entender de dos maneras: Variacin Horizontal
(diferencias de gnero, esto es, entre hombres y mujeres), y Variacin Vertical
(diferencias de riqueza) dentro de cada una de las categoras horizontales.

Si una serie de yacimientos arqueolgicos fueron ocupados en el mismo
momento por la misma gente y se encuentran muy prximos unos de otros, por
qu la presencia o ausencia de distintos tipos de materiales es diferente entre
ellos? Quizs porque las actividades que tuvieron lugar en cada uno de esos
sitios fue distinta, relacionada con la divisin social y espacial del trabajo en esa
sociedad.
12
La naturaleza estadstica de los datos
arqueolgicos.






Podramos pensar que la utilizacin de las matemticas y de los nmeros en arqueologa
o ciencias sociales no es ms que un recurso fcil para tapar los agujeros de la disciplina
y afirmar su cientificidad y precisin, ya que se usa el ms cientfico de los mtodos.
No es as, el uso de las matemticas y los nmeros no es ninguna panacea. Podemos
usar la matemtica sin finalidad alguna, como si el mero hecho de traducir en nmeros
nuestras observaciones arqueolgicas fuese ya bastante. Qu sentido tiene decir que
han aparecido 700 fragmentos de cermica, o que el peso de todos los huesos de ciervo
encontrados en esa cueva llegaba a los 5123 gramos? Esta forma a-crtica de
cuantificar la arqueologa es resultado de una visin, desgraciadamente muy
generalizada, que considera a esta disciplina como una ciencia de segundo orden, que
debe aceptar sin rechistar lo que otras disciplinas mejor equipadas conocen mejor. De
ese modo, se han usado las viejas teoras antropolgicas y/o histricas como si se tratase
de axiomas fundamentales de la dinmica social. En muy pocos casos se ha intentado
reevaluar esas teoras a la luz de los descubrimientos arqueolgicos. An peor,
prcticamente nunca se ha sealado el mbito especfico de la arqueologa en el estudio
de la sociedad humana.
Durante mucho tiempo arquelogos y arquelogas han permanecido absolutamente
ajenos/as a esta cuestin. O bien no se les ocurra que sus datos arqueolgicos podan
ser interpretados con ayuda de mtodos matemticos, o bien negaban explcitamente esa
posibilidad, creyendo que lo nico que haba que hacer era encontrar una fecha para los
cacharros que desenterraban. En los ltimos aos, sin embargo, son muchas las
investigadoras e investigadores que han descubierto la necesidad de sustituir
explicaciones tradicionales por estudios ms completos que pretenden averiguar la
causa social de la variabilidad material observada.
Las matemticas no sustituyen a las palabras, sino que nos permiten ir ms all de sus
capacidades descriptivas. Los nmeros describen aspectos que los sustantivos, los
adjetivos y verbos no pueden. Hemos de tener bien presente que la matemtica no es
una propiedad de la naturaleza. No hay cosas y fenmenos de tipo matemtico y otros
que no lo sean, sino que siempre que expresemos una idea por medio de relaciones de
orden entre sus componentes, estaremos expresndola matemticamente. La matemtica
es, por tanto, un lenguaje artificial usado para representar cosas. Los enunciados
13
2 +2 =5
2

la cermica est barnizada
son formalmente idnticos, aunque su contenido no sea intercambiable fcilmente.
Tericamente, puedo expresar una suma en palabras, al igual que puedo expresar los
rasgos materiales que caracterizan un objeto mediante nmeros, pero ello supondra
forzar los lmites del lenguaje. Sera como usar bombas atmicas para matar mosquitos!
Convengamos, pues, que cada tipo de lenguaje sirve para representar fenmenos
distintos. Por extensin, diremos que un fenmeno que slo puede expresarse
matemticamente es un fenmeno matemtico, no porque lo defina una propiedad
numrica, sino porque es distinto de los fenmenos describibles mediante palabras.
Estudiemos las caractersticas principales de este lenguaje matemtico. Su unidad
significativa bsica (el signo) es un concepto que recibe el nombre de CANTIDAD. El uso
habitual de la palabra indicara que es un tipo de propiedad: ciertas entidades tienen
cantidades de algo y otras no. Podramos definirla entonces como: aquella propiedad de
las entidades que admite una gradacin; en definitiva, cualquier propiedad que permita
una ordenacin de las entidades es una cantidad. Por consiguiente, la cantidad ser el
opuesto de aquellas propiedades absolutas que no admiten grados y que no generan
ordenaciones (CALIDAD). Llamaremos MEDICIN a la operacin de asignar nmeros
que representen el grado en que un objeto o fenmeno tenga la propiedad cuantitativa a
la que se ha hecho referencia; llamaremos DESCRIPCIN a la operacin de describir
etiquetas verbales o numricas- que representen la presencia o ausencia de la
propiedad cualitativaa la que se hace referencia.
Los filsofos no estn de acuerdo a la hora de investigar estos conceptos. Para algunos
(enfoque positivista), la cantidad es una propiedad inherente a los objetos, por lo que
existe antes que tenga lugar la operacin de medir. La cantidad no sera una
consecuencia de la observacin, ni sera el observador el que la impusiera, sino que
sera una caracterstica propia e intransferible del objeto observado. Para otros filsofos
(enfoque subjetivista) la cantidad no existe antes que el proceso de medicin tenga lugar.
No hay cantidades en la naturaleza, sino operaciones de medida artificiales, que
proporcionan unos resultados ms o menos coherentes. Como en todo, siempre hay
terceras vas; as, segn los partidarios del enfoque relacional, una cantidad existe si y
solo si existe una relacin cuantitativa entre dos objetos. Un objeto tendr, pues, una
cantidad de algo si toma parte en una relacin cuantitativa. Pero, qu es una
RELACIN CUANTITATIVA? Una relacin de orden, tal que:
A es mayor en q que B
A es igual en q que B
A es menor en q que B
Por ejemplo, un objeto A es de menor tamao (q) que otro objeto B. Tamao es aqu
una cantidad. Pero no todas las cantidades son iguales, sino que variarn segn la
relacin de orden que se pueda establecer. Los usos de las distintas cantidades sern,
obviamente, distintos. Consideremos el siguiente ejemplo: un objeto A es del mismo
color (q) que otro objeto B. Aqu color es una cantidad, ya que permite una relacin

2
S, ya lo s, esto es un error! Pero el enunciado, aunque errneo, sigue siendo un enunciado matemtico.
El lenguaje matemtico no slo sirve para expresar verdades, sino tambin errores. A diferencia del
lenguaje verbal, esos errores son fcilmente identificables. Si ests leyendo esta nota es porque
identificaste un error.
14
ordinal (este objeto es ms rojo que este otro), si bien sta es muy distinta a la
establecida por la propiedad tamao. Las cantidades basadas en la relacin (igual que)
son, en realidad pseudo-cantidades; las cantidades reales son aquellas basadas en los
tres operadores de orden (igual que =, menor que <, mayor que >).
En definitiva: existe una CANTIDAD si cierta propiedad permite ordenar un conjunto
de objetos. Hemos llamado MEDICIN (o medida) a la asignacin de nmeros a
ciertos objetos o acontecimientos de acuerdo a la intensidad de esa propiedad en el
objeto. No podremos medir un objeto aislado (que no forme parte de un conjunto
ordenado), a no ser que lo comparemos con los objetos existentes en un conjunto de
materiales ordenados de referencia. Esa ordenacin de referencia podr ser considerada
como el criterio objetivo de la medicin. Puesto que toda asignacin de nmeros es una
funcin matemtica, dicho criterio objetivo podr expresarse por medio de la funcin
que explique la ordenacin de objetos o acontecimientos. En otras palabras, la funcin
matemtica es la regla que necesitamos para asignar nmeros a objetos de acuerdo con
su ordenacin. Dispondremos de una ESCALA DE MEDIDA si y slo si disponemos de un
criterio de ordenacin relevante y de una funcin aritmtica, algebraica o lgica que lo
represente. Si esa funcin es aritmtica o algebraica, el orden de los objetos ser
numrico, y todas las relaciones de orden se expresarn mediante nmeros (ESCALA
NUMRICA). Si por el contrario la funcin es lgica asignaremos tan slo valores de
Identidad o Diferencia (si, no, presente, ausente). La escala resultante ser NOMINAL.
Para medir conjuntos de individuos usamos la analoga con ordenaciones consideradas
de referencia. Las escalas de medida habituales (el metro, el kilo, el grado centgrado)
constituyen ordenaciones de entidades segn las propiedades cuantitativas longitud,
masa, temperatura. Podemos medir la longitud, la masa y la temperatura de cualquier
individuo porque se han obtenido previamente unas ordenaciones de objetos (varillas o
bolas de metal, columnas de mercurio). Por ejemplo, para ordenar una serie de objetos
de acuerdo a su temperatura, necesitamos de una ordenacin de materiales (agua) en
diferentes estados. El punto de partida de la ordenacin (hielo) ocupa el lugar 0; el
ltimo lugar (100) se ha reservado arbitrariamente para otro estado fsico del agua
(vapor). Al dividir la escala en cien partes arbitrarias iguales, tendremos la unidad
denominada grado centgrado. Llamaremos instrumento de medicin a un aparato
que implemente de algn modo la ordenacin considerada de referencia. En resumidas
cuentas, lo que hemos de hacer es definir ordenaciones tericas y a continuacin
establecer analogas entre los elementos ordenados en esa escala de referencia y los
objetos que deseamos ordenar en un nuevo conjunto.
Los datos arqueolgicos, por tanto, no son cosas que se atesoran, sino medidas de la
realidad. La tarea de arquelogos y arquelogas no es tanto descubrir y desenterrar
artefactos, como medir ciertos efectos de la conducta humana que tuvieron lugar en el
pasado. Y tal y como hemos visto, slo hay cinco maneras genricas de medir cuerpos
slidos: teniendo en cuenta su tamao, su forma, su textura, su composicin y/o su
localizacin en el espacio y en el tiempo. Ms importante que las medidas individuales
sern las relaciones entre ellas. Veremos ms adelante lo que significa.
El tamao de las cosas se reconoce fcilmente como una propiedad cuantitativa. Pero
no existe una nica medida de tamao. En realidad el tamao de algo es un tipo de
informacin compuesta, a la que llegamos valorando tanto la longitud, como la anchura,
altura, superficie, volumen, peso, entre otras variables. Todos estos parmetros son bien
conocidos y a nadie le extraa que usemos nmeros para expresarlos. Disponemos de
los instrumentos y escalas de medida necesarios: el metro, el metro cuadrado, el metro
cbico, el gramo, etc. Es ms, a veces tendemos a confundir la palabra medidas con
15
los parmetros del tamao, como si sas fuesen las nicas medidas posibles en
arqueologa. En ocasiones, sin embargo, seguimos usando trminos cualitativos para
referirnos a esa propiedad cuantitativa. Decir de algo que es grande, pequeo, o
mediano, no nos permite saber nada acerca de la magnitud de la propiedad
cuantitativa en cuestin. El objeto es grande o es pequeo, pero como no sabemos en
realidad qu quiere decir grande, no sabemos si todos los objetos grandes son
igualmente grandes, o si unos son ms pequeos que otros. Describir cualitativamente
lo que en esencia es cuantitativo no slo complica la cuestin, sino que nos induce a
error en la mayora de las ocasiones.
Si nadie duda que el tamao de los materiales arqueolgicos sea una propiedad
cuantitativa, pocos lo diran con respecto al concepto forma. La forma de las cosas se
suele describir cualitativamente: esto es redondo, cuadrado, irregular, esfrico,
cilndrico, entre otras. En arqueologa hemos desarrollado un lenguaje especfico para
describir la forma de cualquier cosa; un caso puede ser: borde exvasado con parte
superior almendrada y perfil en S suavizada. Este tipo de descripcin verbal de la
forma no tiene ningn sentido. Ni describe ni permite entender aquello a lo que
pretendemos referirnos. La descripcin cualitativa de la forma es, casi siempre,
incompleta y arbitraria. Yo puedo decir que cierto artefacto es un plato, mientras que
otro investigador o investigadora afirmar que es un bol, y otro que es una escudilla.
Si en lugar de esos trminos comunes usramos otros ms formalizados, como tipo A,
tampoco lograramos mucho. La forma es una propiedad cuantitativa que se refiere a las
caractersticas mtricas del contorno de un objeto. Por consiguiente, la forma debe
expresarse geomtricamente y no verbalmente. En geometra existen ndices de
circularidad, cuadrangularidad, irregularidad, etc., basados en la relacin entre
permetro y ejes de simetra del objeto en cuestin. Podemos describir la forma de
cualquier evidencia arqueolgica haciendo uso de ecuaciones complejas que describan
el contorno o silueta. En fin, hay muchas maneras de describir cuantitativamente la
forma de un objeto. Lo importante es que al igual que el tamao, la propiedad
cuantitativa debe expresar una intensidad. Un objeto debe ser ms circular, o menos
esfrico, o ms parablico, o menos curvilneo que otro. Slo usando medidas
geomtricas podremos extraer toda la informacin que contiene la forma de los efectos
materiales de los procesos de trabajo. La complejidad de esta forma de medicin ha
hecho que le dediquemos un libro: el volumen 3 de esta serie de publicaciones de
Arqueologa y Estadstica estar dedicado por entero al anlisis morfomtrico.
Qu queremos decir con la textura de un objeto material? El uso habitual del trmino
se circunscribe a propiedades cualitativas ms o menos simples tales como rugoso,
liso, bruido. En realidad, y tal y como se ha desarrollado en la investigacin de
visin computacional, por textura nos referimos a todas las propiedades perceptibles de
la superficie de los objetos. Aquellos rasgos caractersticos de la materia de la que est
hecho el objeto, pero tambin todas las modificaciones que el objeto ha experimentado,
tanto las huellas de uso como los patrones decorativos fijados en su superficie.
Rugoso, liso, bruido son efectivamente formas de textura, pero tambin lo son
brillante, rojo, blanco, disperso, inciso, pulido y cualquier otra
caracterstica de la superficie de un elemento material que contribuya a decirnos de qu
materia est hecho, qu proceso de trabajo lo ha modificado y de qu manera. Lo ms
habitual es describir la textura cualitativamente, pero ello aade subjetividades no
recomendables. Realmente rugoso significa lo mismo para todo el mundo?
Fijmonos, por otro lado en la nomenclatura habitual del anlisis de huellas de uso en
restos lticos: brillo mate (no es eso una contradiccin?), pulido como de
16
mantequilla. De la misma manera que lo eran el tamao y la forma, tambin la textura
es una propiedad cuantitativa, que debe medirse en trminos de la intensidad o
magnitud de las variaciones perceptibles en la superficie del objeto. Cuanto mayor sea
esa irregularidad, mayor ser la textura. En un espejo, toda la superficie es igual, no hay
variaciones, por lo tanto tendr muy poca textura. Una cermica decorada excisa o
pintada tendr muchas variaciones: depresiones, trazas, marcas, lneas, puntos, etc.
Cuanto ms diversa, mayor ser su textura. Hay pocos trabajos en arqueologa que
hayan intentado un enfoque cuantitativo de la textura; ese enfoque es posible si
trabajamos a partir de imgenes y cuantificamos los distintos componentes de las
mismas
3
. Un ejemplo detallado referido a anlisis ltico aparece en el Libro de
Ejercicios y Problemas.
Ms sencilla parece la cuantificacin de la composicin. Datos composicionales son
aquellos que se refieren a la intensidad con que distintas propiedades aparecen en una
misma entidad, de manera tal que la suma de todas esas propiedades sea la misma para
todas las entidades que se comparan. Aunque esta definicin pueda parecer demasiado
abstracta, la idea fundamental es fcil de entender. No es ms que la manera usual de
medir la proporcin de distintos componentes en una entidad. Por ejemplo, la
proporcin de componentes qumicos o mineralgicos en una muestra arqueolgica, la
proporcin de objetos de ajuar en una tumba, la proporcin de cabaas de un
determinado tipo en un asentamiento, la proporcin de asentamientos de distinta
funcionalidad en un mismo territorio, etc. Siempre que usamos proporciones
(porcentajes), la suma es siempre la misma para todas las muestras, tumbas,
asentamientos o territorios que consideremos. Este hecho impone una limitacin
matemtica que hace que este tipo de datos no sea analizable como cualquier nmero, y
que exista una rama especializada de la estadstica para su anlisis
4
. A lo largo de este
libro y de los siguientes volmenes se ir explicando como proceder con estos datos
composicionales.
La ltima de las propiedades cuantitativas bsicas con las que describir los efectos
materiales de la accin social es la localizacin de esos efectos en el espacio y en el
tiempo. Empecemos con la localizacin en el espacio. Su definicin cuantitativa, en
trminos de coordenadas cartesianas x, y, z es bastante sencilla, y adems ltimamente
proliferan instrumentos de medida fciles de usar: GPS, estacin total topogrfica,
escner 3D. An hay quien quiere convertir esta propiedad cuantitativa en una serie de
descripciones cualitativas: territorio A, territorio B. No hay nada ms errneo que
imponer limitaciones cualitativas en el espacio, como las basadas en las fronteras
polticas: las vasijas campaniformes en la provincia X, las espadas de antenas en el valle
alto del ro Y. An ms grave es la descripcin cualitativa del micro-espacio en una
excavacin arqueolgica: en lugar de usar coordenadas cartesianas (x, y, z) con un nico
punto de referencia comn (0, 0, 0) se usa: la cuadrcula 2. La descripcin cualitativa
del espacio puede ser ms sencilla y ms barata, en trminos de instrumental necesario,

3
Pijoan-Lpez, J ., Barcel, J.A., Clemente, I., Vila, A., 2002, Variabilidad Estadstica en imgenes
digitalizadas de rastros de uso: resultados preliminares En Anlisis Funcional. Su aplicacin al estudio
de sociedades prehistricas I. Clemente, R. Risch, Gibaja, J ., (comps.). ArcheoPress, Oxford, BAR Int.
Series S1073., pp. 55-64.
Adn, M., Barcel, J .A. Pijoan-Lpez, J ., Piqu, R., Toselli, A., 2003, Spatial Statistics in
Archaeological Texture Analysis. En The Digital Heritage of Archaeology. Computer Applications and
Quantitative methods in Archaeology. Edited by M. Doerr & A. Sarris. Hellenic Ministry of Culture.
Archive of Monuments and Publications.
4
Aitchison, J . 1986. The statistical analysis of compositional data. Chapman and Hall, London, England,
416 pp.
17
pero tambin es intil dada la casi total ausencia de informacin procesable que permite
obtener. Lo mismo cabe decir de la localizacin temporal. Cuestiones econmicas
5
, o de
preservacin diferencial de muestras hace que no siempre podamos medir el tiempo de
la mayora de las evidencias arqueolgicas. Usamos, por lo tanto, descripciones
cualitativas de la localizacin temporal, tales como fase A, cultura del hacha sin decorar,
estrato 15. Si pudisemos elegir, que no siempre podemos, sera extraordinario que
todas las evidencias arqueolgicas estuviesen localizadas espacio-temporalmente en
cuatro dimensiones cuantitativas (x, y, z, t). Dos volmenes de esta serie estarn
dedicados monogrficamente al tema del espacio (volumen 4: Anlisis Espacial) y del
tiempo (volumen 5: Seriacin y Prediccin).
Qu significa, entonces, medir la conducta humana? Si pudisemos observarla, tal y
como se hace en sociologa y economa, podramos describir cualitativamente la forma
de la accin, distinguiendo as entre acciones distintas, agentes, medios y efectos o
consecuencias. Ello nos permitira medir adems la intensidad de todos ellos, tanto en
trminos del tamao de la accin, como del nmero, diversidad o importancia de los
agentes sociales, de los medios necesarios y/o de los efectos de esa accin sobre otros
agentes sociales. Podramos tambin localizar las distintas acciones, agentes, medios y
efectos en el espacio y en el tiempo. Cabe afirmar que aunque cualquier propiedad
cuantitativa sea, en teora, medible, lo cierto es que no sabemos medir la mayora de
aspectos de la realidad social. Los problemas en ciencias sociales radican de hecho en la
falta de instrumentos de medida. Podemos medir la felicidad? Si y slo si sta fuese
una propiedad cuantitativa, es decir, apareciese en el mundo real en intensidades
diversas, y stas fuesen perceptibles. Quizs sea la longitud de la sonrisa de una persona,
o determinada proporcin de cierta hormona en el torrente sanguneo, o la emisin de
una onda de cierta frecuencia por el cerebro.
Si no podemos observar la accin, ni los agentes, como es el caso en la investigacin
histrica, entonces medir la conducta humana se referir a medir la variabilidad de los
efectos que se perciben en el presente de las acciones que tuvieron lugar en el pasado.
Recordemos que nuestro objetivo es averiguar qu proceso histrico es el responsable
de las diferencias y semejanzas en el tamao, la forma, la textura, la composicin y la
localizacin de los efectos materiales de la accin social. En otras palabras, por qu los
procesos de trabajo que realizamos varan? Lo nico que debemos tener presente es que
la ordenacin de los objetos sociales es distinta a la ordenacin de los objetos fsicos,
porque unos y otros tipos de objetos son distintos, y las propiedades cuantitativas en las
que se basan las relaciones ordinales son distintas. Mediremos la variabilidad de tamao,
de forma, de textura, de composicin y de localizacin, y veremos como cada una de las
variantes se relaciona con las dems. Es importante tener en cuenta la longitud de los
muros de las casas, pero tambin debemos considerar cmo medir la importancia social
de un personaje, la riqueza de una comunidad, la pobreza de determinado medio
ambiente, el grado de poder coactivo ejercido por la lite social de determinado grupo
humano, etc.
El problema a resolver es por qu ciertas evidencias arqueolgicas tienen una forma o
un tamao o una composicin distinta a otras evidencias arqueolgicas, o aparecen en
una localizacin diferente. Diferencias y semejanzas tienen que ver con la capacidad de
variacin. El diccionario define variabilidad mencionando que est relacionada con la
calidad de cambiar y transformar. Algo variable es algo que cambia. Qu es lo que

5
Dataciones de carbono 14 a ms de 100 euros por muestra, o a ms de 600 euros por el mtodo AMS,
limitan el nmero de muestras que podemos datar.
18
cambia en nuestro caso? El valor de cierta propiedad cualitativa o cuantitativa en cierta
poblacin de DATOS, o sea, las observaciones puntuales cuyas propiedades hemos ido
midiendo (vasijas, puntas de lanza, restos seos de origen animal, tumbas, muros,
poblados, etc.). Denominaremos, por tanto, VARIABLE al aspecto (o concepto) cuyos
cambios sucesivos condicionan la ordenacin. Resulta evidente que el trmino variable
es sinnimo del de propiedad. Del mismo modo que las propiedades cuantitativas
(cantidades) son distintas de las propiedades cualitativas (propiedades no cuantificables),
e implican necesariamente maneras distintas de medir, distinguiremos varios tipos de
variables:
VARIABLES CUALITATIVAS (o CALIDADES), en las que slo disponemos
de dos grupos: individuos con la propiedad en cuestin, o individuos sin ella.
VARIABLES ORDINALES, en las que slo disponemos de informacin acerca
de quien va delante y quien va detrs: primero, segundo, tercero, cuarto, etc
VARIABLES CUANTITATIVAS (o MAGNITUDES), en las que conocemos
la distancia entre dos posiciones cualesquiera: a = 1,2; b =3,5; c =0.
La variabilidad tambin debe ser medida, como una propiedad cuantitativa que es. La
variabilidad es la caracterstica fundamental que posee la medida de una cierta
propiedad en un conjunto de individuos, y segn la cual, las medidas obtenidas son
diferentes de un individuo a otro.
La mera descripcin cualitativa de la variabilidad proporciona poca informacin;
quizs por el peso de la tradicin en arqueologa se ha incluido bajo el nombre de
estadstica, clculos que en realidad corresponden a cuantificaciones o sumatorias
simples. Cuntas cermicas de la forma F se han encontrado? Cuntos tiles lticos de
tipo t? En qu proporcin aparecen los restos correspondientes a difisis de miembros
anteriores derechos de ciervo en este yacimiento? Los datos, por s mismos, no son la
respuesta a un determinado problema. Pero constituyen el material bsico a partir del
cual podemos evaluar lo bien que podemos resolver el problema, cuan dudosa es una
respuesta particular o bien qu confianza podemos poner en ella. Los datos observados
y medidos necesitan ser procesados para averiguar hasta qu grado la incertidumbre
puede disiparse. El conocer la cantidad de incertidumbre asociada a los datos es la clave
para tomar la decisin apropiada. Ello nos permite sopesar las consecuencias de
diferentes opciones y escoger una que sea la menos perjudicial. La estadstica tal como
es entendida actualmente es la lgica a travs de la cual podemos subir un peldao en la
escalera que nos lleva de los datos a la informacin.
6
En nuestro caso, esa informacin hace referencia a la descripcin e interpretacin de la
variabilidad observada en las acciones sociales y en sus efectos materiales. En otras
palabras, usaremos clculos matemticos para conocer qu actividades, que fenmenos
y procesos sociales son diferentes. Cuando varan? Cmo varan? Por qu varan?
En este libro pretendo explicar cmo hacerlo. Pero antes de entrar en materia,
trataremos someramente la mejor manera de usar el programa de ordenador que
necesitamos.

6
C. RADHAKRISHNA RAO, 1994, Estadstica y Verdad. Aprovechando el azar. (trad. castellana)
Promociones y Publicaciones Universitarias, S.A., Barcelona, UNIVERSITAS-73.
19
Primeros pasos con PAST.
Instalacin del programa















La instalacin bsica de PAST es sencilla. Simplemente se debe bajar de Internet el
ejecutable Past.exe, y guardarlo en cualquier lugar del disco rgido. Haciendo doble-
click en el archivo, se ejecutar el programa. Los archivos para los ejemplos
arqueolgicos que aparecen en este manual pueden obtenerse en la Web de este libro, en
el archivo compactado ejemplos.zip:

http://seneca.uab.es/prehistoria/Barcelo/manualestadistica.html

Este archivo puede abrirse con ayuda de utilidades como WinZip WinRar.

Se sugiere crear una carpeta llamada PAST en cualquier lugar del disco rgido y
guardar todos los archivos en esa carpeta.

NOTA: Se han sealado algunos problemas con ciertas combinaciones de resolucin de
pantalla y tamao por defecto de las fuentes. La imagen se hace poco legible y puede
ser necesario aumentar el tamao de las ventanas para poder ver el texto y los botones.
Si esto sucediera, debiera ajustarse el tamao de fuente a fuentes pequeas en el panel
de control Pantalla en Windows.

PAST puede tener tambin problemas en algunas impresoras. Las impresoras de tipo
Postcript son las ms adecuadas.

Cuando se salga de PAST, un archivo llamado pastsetup aparecer automticamente
en la carpeta personal (por ejemplo, en Mis Documentos), conteniendo los directorios
de los ltimos archivos utilizados.




20
Primeros pasos con PAST.
Introduccin y manipulacin de datos
arqueolgicos.






PAST tiene una interfaz de usuario de tipo hoja de clculo. Los datos son introducidos
como una disposicin de celdas, organizadas en filas (horizontalmente) y columnas
(verticalmente).

















Introduccin de datos

Para entrar datos en una celda, se debe hacer click con el ratn en ella y escribir dentro
el dato. Esto slo puede hacerse cuando el programa est en Edit Mode (modo
edicin).



Para seleccionar este modo se marca la casilla que aparece por encima de las celdas.

21


Cuando el modo de edicin no est seleccionado, las celdas estn bloqueadas y los datos
no pueden cambiarse. Puede navegarse por las celdas usando las teclas de flecha. Puede
introducirse cualquier tipo de texto en las celdas, pero casi todas las funciones esperan
nmeros. Tanto la coma (,) como el punto (.) son aceptables como separadores
decimales. Los datos de ausencia/presencia se codifican como 0 1 respectivamente.
Cualquier otro nmero positivo se interpretar como presencia.

Los datos ausentes se codifican mediante el interrogante (?). Es importante tener en
cuenta que no todas las funciones permiten trabajar con datos ausentes. Si aparece el
error Invalid values in selected column (valores no vlidos en la columna
seleccionada) o Different number of values (nmero de valores diferente) quiere
decir que esa funcin no puede trabajar con datos ausentes, o bien que ha encontrado
alguna casilla que inadvertidamente se ha dejado en blanco.

PAST permite representar informacin dicotmica en forma de casillas marcadas y
casillas sin marcar. Para ello basta con marcar la casilla superior Square Mode (modo
cuadrado) que aparece bajo la barra de Mens.



















La convencin en PAST es que los individuos ocupen las filas, y las variables las
columnas (ver ms adelante Cargar y Guardar Datos). Esta forma de estructurar los
datos es muy importante, aunque muchas veces no se tiene en cuenta en arqueologa. Es
necesario estructurar el problema arqueolgico que pretendemos resolver organizando
la matriz de datos como una secuencia de individuos del mismo tipo descritos por
distintas variables. Las filas representarn a los individuos cuya variabilidad
necesitamos estudiar, y las columnas a las propiedades cualitativas y cuantitativas
usadas para describirlos. Es importante recordar que necesitaremos de una matriz de
datos distinta para estudiar individuos de tipo distinto. En palabras ms simples, las filas
22
de la matriz debern ser cualitativamente homogneas: vasijas con vasijas, huesos con
huesos, poblados con poblados, tumbas con tumbas. Los ejemplos y casos de estudio
utilizados en el Libro de Ejercicios y Problemas explican esta manera de estructurar y
organizar los datos.

NOTA: PAST no siempre es coherente con esta forma de estructurar los datos.
Programas comerciales como SPSS pueden usar cualquier columna para dividir una
poblacin en subpoblaciones, es decir en niveles de un factor explicativo. PAST no
puede hacerlo. La nica manera es definiendo cada columna como nivel. Esto puede
provocar que para realizar algunos clculos tengamos que modificar la matriz de datos,
de manera que organicemos los distintos valores de una variable cualitativa (por
ejemplo, el sexo del individuo enterrado en una tumba, el yacimiento en el que se ha
encontrado cierto artefacto en determinada cantidad) como columnas distintas, el nivel o
la fase cronolgica). Ms adelante se explica cmo hacerlo. Puede consultarse tambin
el Libro de Ejercicios y Problemas al respecto.


Cargar y guardar datos

La funcin Open (abrir) se encuentra en el Men File (archivo). PAST usa un
formato de archivo ASCII, para poder importar fcilmente de otros programas (por
ejemplo, Word) y para poder editarlos fcilmente con un procesador de textos. El
formato es el siguiente:

. Et i quet acol umna et i quet acol umna et i quet acol umna
Et i quet af i l a dat o dat o dat o
Et i quet af i l a dat o dat o dat o
Et i quet af i l a dat o dat o dat o

Por ejemplo:

. CERAMI CACOCI NA CERAMI CAdecoTi poA CERAMI CAt i poB
Yaci mi ent o1 1 3 5
Yaci mi ent o2 1 0 15
Yaci mi ent o3 0 10 6

Las celdas vacas se codifican con un interrogante (?), para que el programa reconozca
que ese dato falta. Las celdas estn separadas por un espacio en blanco, lo que significa
que nunca deben usarse espacios en las etiquetas de fila o columna. Tipo A es por
tanto una etiqueta de columna errnea que confundir al programa. Lo correcto ser:
TipoA o bien Tipo_A

La funcin Insert from file (insertar desde archivo) es til para concatenar conjuntos
de datos. El archivo cargado se insertar en la hoja de clculo existente en la posicin
seleccionada (arriba a la izquierda). Otros conjuntos de datos podrn insertarse a la
derecha y debajo de los datos existentes.

23
En cualquier caso, se recomienda que la matriz de datos no contenga caracteres
alfabticos ni alfanumricos. Si los datos son cualitativos, habr que traducirlos a
nmeros.

Datos desde Excel
Los datos procedentes de Excel pueden importarse de dos maneras:

Copiar desde Excel y pegar en PAST. Si quieres que la primera fila y columna
se copien en las celdas de las etiquetas en PAST, debers seleccionar la opcin
Edit labels (editar etiquetas).

En Excel se guardan los datos con el formato texto separado por tabuladores.
El archivo de texto resultante puede abrirse directamente en PAST.


Mover una fila o una columna

Una fila o una columna (incluyendo su etiqueta) puede moverse simplemente haciendo
click en la etiqueta y arrastrando a la nueva posicin. Es importante tener en cuenta que
el rea seleccionada debe ser contigua (no se pueden seleccionar columnas no contiguas.
(Lstima, PAST no es igual que Excel!). Por lo tanto, siempre que deseamos ejecutar
una funcin habr que mover primero las columnas referidas a las variables que nos
interesa, hacer que sean contiguas, y entonces marcar el rea para seleccionar los datos.

Seleccin de reas

La mayora de operaciones en PAST se realizan slo en el rea de la hoja de clculo que
el usuario ha seleccionado expresamente (marcado). Si se intenta ejecutar una funcin
que espera datos, y no se ha seleccionado ningn rea, se obtendr un mensaje de error:
No valid values in selected area (valores no vlidos en el rea seleccionada). Para
seleccionar distintas partes de la hoja de clculo, procederemos de la forma siguiente:

Una fila se selecciona haciendo click en la etiqueta de la fila (la columna ms a
la izquierda)
Una columna se selecciona haciendo click en la etiqueta de la columna (fila
superior)
Mltiples filas se seleccionan escogiendo la etiqueta de la primera fila, y
despus haciendo click y apretando la tecla maysculas al escoger filas
adicionales. No se puede arrastrar mltiples filas, esto no hace ms que mover la
fila de sitio.
Mltiples columnas se seleccionan de la misma manera, haciendo click en la
etiqueta de la columna y apretando la tecla maysculas.
PAST no puede seleccionar columnas que no sean adyacentes. Por lo tanto, para
seleccionar mltiples columnas habr que seleccionar primero una columna,
arrastrarla al lado de aquellas que tambin se van a seleccionar y seleccionar el
grupo haciendo click en la casilla superior y con la tecla maysculas.

24






















La totalidad de las celdas se puede seleccionar haciendo click en la esquina
superior izquierda (la celda vaca en gris), o bien seleccionando Select all
(seleccionar todo) en el Men Edit (Edicin).
Se pueden seleccionar reas ms pequeas haciendo click y arrastrando con el
ratn desde la casilla superior hasta el final de la seleccin.




















Es importante tener presente que slo se podrn seleccionar columnas cuando las
casillas superiores Edit Mode (modo editar) y Edit labels (editar etiquetas) NO
estn marcadas.
25


Renombrar filas y columnas

Cuando empieza PAST, las filas se numeran de la 1 a la 99, y las columnas de la A a la
Z. Para etiquetar mejor los grficos, se puede dar a filas y columnas nombres cortos ms
descriptivos. Para ello se usa la funcin Rename columns (renombrar columnas) o
Rename rows (renombrar filas) en el Men Edit (edicin). Deben seleccionarse
todas las celdas, o un rea menor, segn sea lo apropiado.

Otra manera es seleccionando la opcin Edit labels (editar etiquetas) encima de la
hoja de clculo. La primera fila y columna sern entonces editables de la misma manera
que el resto de las celdas.


Aumentar el tamao de la hoja de clculo

Por defecto, PAST tiene 99 filas y 26 columnas. Si los datos necesitan ms espacios, se
pueden aadir filas o columnas seleccionando Insert more rows (insertar ms filas) o
Insert more columns (insertar ms columnas) en el Men Edit (edicin). Se
insertarn filas/columnas justo despus del rea marcada, o por debajo y/o a la derecha,
segn sea el caso, si no se ha seleccionado ningn rea. Cuando se cargan grandes
archivos de datos, las filas y/o columnas se aaden automticamente segn sea
necesario.


Cortar, copiar, pegar

Las funciones copiar, cortar y pegar se encuentran en el Men Edit (edicin). Se
pueden cortar y/o copiar datos desde la hoja de clculo de PAST y pegarlos en otro
programa, por ejemplo Word o Excel. Igualmente, datos de otros programas pueden
pegarse en PAST. Recuerde que los bloques locales de datos (no todas las filas o
columnas) slo pueden marcarse cuando el modo Edit (edicin) NO est seleccionado.

Todos los mdulos que proporcionan una salida grfica tienen un botn Copy graphic
(copiar grficos). Este copiar la imagen grfica en la memoria del ordenador y
permitir pegarla en otros programas, como por ejemplo, un programa de dibujo para
editar la imagen. Los grficos se copian usando el Enhanced Metafile Format en
Windows. Esto permite editar elementos individuales de la imagen en otros programas.
Cuando se pega en CorelDraw, se deber elegir pegar especial en el Men edicin,
y a continuacin elegir Enhanced metafile. Algunos programas tienen una manera
bastante idiosincrsica de interpretar las imgenes EMF. Debe prestarse atencin a las
cosas raras que puedan suceder.



26

Eliminar

La funcin Remove (eliminar) del Men Edit (edicin) permite eliminar de la hoja
de clculo la(s) fila(s) o columna(s) seleccionadas. El rea eliminada no se copiar en la
memoria del ordenador y no podr pegarse en otro programa.


Agrupar (colorear) filas

Pueden marcarse filas seleccionadas (datos puntuales) con 12 colores usando la opcin
Tag rows (marcar filas) en el Men Edit (edicin). Cada grupo estar asociado con
un smbolo (punto, cruz, cuadrado, diamante, aspa, crculo, tringulo, lnea, barra,
cuadrado relleno, estrella, valo). Esto es til para mostrar grupos de datos diferentes en
los grficos, y tambin es requerido por alguno de los mtodos.



























La opcin Numbers to colors (de nmeros a colores) en el Men Edit (edicin)
permite convertir los nmeros de 1 a 9 en una columna seleccionada en los colores
correspondientes (smbolos) para las filas. Es importante tener en cuenta que antes de
asignar colores, es preciso que los datos estn ordenados. Slo podr asignarse un
mismo color a una secuencia contigua de filas.

27

Ordenar valores en una columna

PAST no es Excel, por lo que muchas de las operaciones que son muy simples en este
ltimo no pueden hacerse en PAST. Conviene agrupar y ordenar secuencialmente los
datos en Excel y no esperar a hacerlo despus. Por ejemplo, la informacin cronolgica
del archivo cermica helenstica, contenido en ejemplos.zip, est muy desordenada.
Las muestras analizadas no aparecen ordenadas ni cronolgica ni tipolgicamente.















En PAST podemos ordenar en sentido ascendente o descendente una variable,
seleccionando la variable a ordenar y ejecutando despus la funcin Sort ascending
(ordenar en sentido ascendiente) Sort descending (ordenar en sentido
descendiente) del Men Transform (transformar).
















Pero slo podemos ordenar usando una nica variable como criterio. Para usar una
variable de ordenacin adicional debemos seleccionar las filas que tienen el mismo
valor en la ordenacin anterior y ordenar esa seleccin usando una nueva variable. En el
Libro de Ejercicios y Problemas se citan expresamente varios ejemplos que utilizan este
mtodo.

28
Otra opcin sera abriendo los datos en Excel, ordenando segn dos variables en ese
programa, copiando la ventana y pegndola a continuacin en PAST.



Transponer

Las tcnicas y funciones estadsticas que contiene PAST estn diseadas para agrupar
siempre individuos, es decir, filas: la mayora de pruebas estadsticas asocian individuos
(vasijas con vasijas, huesos con huesos, yacimientos con yacimientos). Es lo que se
denomina anlisis en modo R, donde la R viene de rows (en ingls filas). Por el
contrario, en ocasiones podr ser interesante agrupar variables, por ejemplo, asociar el
tipo A y el tipo B de unas cermicas o metales, para ver si aparecen o no en los mismos
yacimientos. Es lo que se denomina anlisis en modo Q. Para cambiar entre modo Q
y modo R, filas y columnas pueden ser intercambiadas fcilmente usando la funcin
Transpose (transponer)

Esta funcin implica girar la matriz, de manera que lo que antes eran filas, ahora sean
columnas y viceversa. Una vez girada la matriz se podr estudiar la relacin entre las
variables, ya que ahora aparecen en las filas. La funcin Transpose (Transponer) en el
Men Edit, intercambiar filas y columnas.


























Esta funcin permite convertir los datos de una variable cualitativa en niveles de un
factor, es decir, en columnas donde cada columna es una subpoblacin homognea de
29
acuerdo con un criterio (sexo de una tumba, cronologa de una fase, yacimiento, etc.).
Sin embargo, en muchos casos, el procedimiento no ser tan simple y tendremos que
seleccionar a mano cada subpoblacin, copiar los datos y pegarlos en un nuevo
documento.


Resultados de las pruebas estadsticas

Los clculos estadsticos se solicitan seleccionando una columna y seleccionando a
continuacin el comando necesario en los distintos mens. Los resultados aparecen en
una ventana especfica.








PAST tiene tendencia a proporcionar los resultados en notacin exponencial cientfica.
Recordemos que E5, significa que el decimal debe moverse a la derecha cinco
posiciones. 1,2318E5 es en realidad 12.318.000. Si el nmero que sigue al exponencial
(letra E) es negativo, entonces moveremos el decimal a la izquierda. En el caso de la
cifra 64,1172E-7 tendremos el nmero decimal 0,000000641172.
















30
Qu forma tiene la distribucin?
Histogramas






Tal y como hemos argumentado en las primeras pginas de este libro, la primera tarea
en cualquier investigacin estadstica en arqueologa, una vez que hemos entendido el
problema que se debe resolver y la naturaleza de los datos y mediciones, es obtener una
primera impresin de la variabilidad del fenmeno. Es decir, nos preguntaremos si
tienen algo en comn o son distintos los valores que adopta una propiedad cuantitativa
en un conjunto de datos. En demasiadas ocasiones arquelogos y arquelogas olvidan
que la pregunta que deben resolver es por qu vara cierta propiedad (la forma, el
tamao, la composicin, la textura, la localizacin) en esa poblacin o conjunto de
materiales? La clave est en la naturaleza del conjunto de datos. No se trata de comparar
cualquier artefacto con cualquier otro, sino de estudiar por qu cierta poblacin es como
es y distinta por tanto de otra poblacin. Nuestra primera pregunta ser siempre: son
los datos lo suficientemente homogneos como para creer que se trata de una sola
poblacin? Aqu partimos del supuesto que una poblacin o conjunto homogneo de
materiales arqueolgicos es el constituido por las consecuencias materiales de una nica
accin o de varias acciones del mismo tipo. La mayor o menor variabilidad observada
deber explicarse entonces por la heterogeneidad del conjunto analizado, lo que supone
fijarse en la presencia de consecuencias materiales de acciones distintas.

La manera ms intuitiva imaginable de saber qu forma tiene la distribucin de un
conjunto de medias es la que resulta de asociar cada valor de una variable (columna en
PAST) con su frecuencia de aparicin en el conjunto. Cuntas vasijas tienen la misma
longitud? Cuntas tumbas masculinas tienen la misma cantidad de objetos de ajuar del
mismo tipo? La frecuencia es el nmero de veces que aparece el valor en una poblacin
de datos. La funcin PlotGraph nos proporciona un grfico de frecuencias no
agrupadas. Decimos que no estn agrupadas porque cada valor de la propiedad
cuantitativa en cuestin aparece aislado. No se juntan las co-ocurrencias, esto es, los
objetos que tienen el mismo valor en la variable.






31





















La verdad es que este procedimiento grfico no es muy til si lo que buscamos es
describir la forma de la distribucin. En el eje inferior se representa la posicin de cada
valor en la columna original (primero, segundo, tercero, etc.) y en el eje vertical, el
valor concreto que adopta. Este tipo de representacin nos ser muy til para resolver
problemas de seriacin, pero no tanto para resolver problemas de variabilidad.

Cuando un gran conjunto de datos tiene muchos valores distintos en lugar de unos
cuantos valores repetidos, es posible agrupar los valores en un conjunto de clases o
categoras y elaborar una distribucin de frecuencias agrupadas. Su representacin
grfica es el histograma. El comando Histogram (histograma) del Men Plot
(grfico) dibuja histogramas para una o ms columnas.

100 200 300 400 500 600 700 800 90010001100120013001400150016001700180019002000
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
F
r
e
q
u
e
n
c
y















El eje inferior del histograma no representa datos, sino una escala numrica dividida en
intervalos o segmentos consecutivos; cuantos ms datos se siten en cada segmento,
32
ms larga ser la barra. En otras palabras, el histograma es el resultado de la
categorizacin de una variable cuantitativa, o una divisin de sus valores en grupos
cerrados. Cmo se logra esa categorizacin? Si nos ponemos a pensar, descubriremos
que dada una serie de nmeros hay infinitas maneras de hacer grupos con ellos. Por
qu un intervalo tiene que ser del 0 al 5 y otro del 6 al 11? El primer requisito es que
cada uno de los segmentos tenga exactamente la misma longitud que los dems. El
segundo requisito es que la cantidad de intervalos no sea elegida a capricho del
investigador o de la investigadora para evitar manipulaciones. Al imponer un nico
mtodo que determine simultneamente la cantidad y la longitud de cada intervalo o
segmento, se obtiene no slo una impresin visual de la densidad de la variable, sino
una medida de dicha densidad.
Un mtodo posible es el siguiente. Empezaremos determinando la amplitud o recorrido
de las frecuencias:
R =valor mximo - valor mnimo
A continuacin debemos elegir la cantidad de intervalos, segn la abundancia de
nuestros datos. Existen varias frmulas mgicas para ello, ninguna de las cuales tiene el
beneplcito de la mayora de investigadores. Debemos tener presente que toda lectura
de un histograma es subjetiva, y por tanto cada autor o autora nos va a sugerir una
manera particular para construir el grfico. A ttulo indicativo podemos usar la tabla
siguiente:

Nmero Individuos Nmero Intervalos
______________________________________________
32 6
64 7
128 8
256 9
512 10
1024 11
2048 12
4096 13
8192 14
16384 15
_____________________________________________
Se fija la amplitud de cada intervalo (todos son iguales) dividiendo la amplitud de la
distribucin (R) por la cantidad de intervalos que fija la tabla.

PAST calcula inteligentemente el ms apropiado nmero de intervalos, usando un
procedimiento ms complejo que el que acabamos de explicar, pero bastante parecido.
El programa ofrece, sin embargo, la posibilidad de variar el nmero de intervalos
(casilla Bins, en la ventana en la que aparece el diagrama). Para obtener el grfico,
nos aseguraremos que las casillas superiores Edit Mode (modo editar) y Edit labels
(editar etiquetas) NO estn seleccionadas, y seleccionaremos la columna cuyo
histograma deseamos obtener, haciendo click en la casilla que contiene el nombre de
la variable. El tercer comando del Men Plot (grfica) nos proporcionar el
histograma que aparece en una ventana nueva. El comando permite seleccionar
cualquier columna, sin tener que desplazarla, y tambin permite calcular el histograma
33
de una parte de la variable, seleccionando algunas casillas consecutivas, en lugar de la
columna entera.










Conviene tener presente que PAST no abre una nueva ventana cada vez que hace un
histograma, sino que cambia el contenido de la ventana en la que aparecen los
resultados.

Haciendo click en el centro de la ventana del histograma, podremos modificar algunos
aspectos del grfico, como tipo de letra, reticulado, etiquetas, ubicacin de los intervalos
en el eje, etc.














Veamos con ms detalle cmo es un histograma. En qu debemos fijarnos para
estudiar el histograma? En general, buscaremos el centro de la distribucin para ver si el
histograma es tanto ms apuntado en su centro que en sus extremos. Nos fijaremos en su
dispersin, es decir, si el contorno del histograma se apunta o, por el contrario, se aplana.
Nos fijaremos en cmo se reparten las observaciones en los distintos intervalos. En
resumen, intentaremos describir la forma de la distribucin. Si los datos son muy
diversos entre s, el histograma adoptar una forma irregular; por el contrario, si el
histograma adopta una forma simtrica interpretaremos que los datos son bastante
parecidos entre s.

34



30 40 50
10
20
30
F
r
e
q
u
e
n
c
y
20 30 40
10
20
30
F
r
e
q
u
e
n
c
y











Histograma de una distribucin regular Histograma de una distribucin irregular
Otra forma de irregularidad en la distribucin es aquella que presente valores extremos
(en ingls outliers). Se trata de valores mucho mayores o menores que la mayora. Hay
de dos tipos: aquellos que corresponden claramente a errores de medida o atribucin
una espada dentro de un conjunto de puales siempre tendr un valor extremo de
longitud-. Conviene identificarlos cuanto antes y eliminarlos de la base de datos. Otro
caso son aquellas observaciones obtenidas bajo circunstancias aparentemente normales,
pero que resultan estar extremadamente desviadas del corpus principal de observaciones.
Muchos investigadores recomiendan eliminarlos del anlisis posterior, y eso puede ser
conveniente a veces, pero en otras ser claramente contraproducente.






No hay normas de obligado cumplimiento en el caso de la presencia de este tipo de
valores extremos. Es posible que sean una consecuencia accidental o irrepetible, pero en
cualquier caso debemos comprender la razn de su accidentalidad o irrepetibilidad. El
problema con los valores extremos es que muchas veces desvirtan la forma de una
distribucin, hacindonos verla ms simtrica o asimtrica de lo que en realidad es. En
la mayora de ocasiones debiramos centrarnos es aquellas consecuencias materiales
que explican mejor la naturaleza de la accin que las ha producido. En pginas
siguientes veremos qu quiere decir esto de explicar mejor.
35
Veamos un ejemplo de forma de una distribucin de medidas de artefactos
arqueolgicos. Disponemos de los datos arqueomtricos de la composicin de un
conjunto de vidrios romanos (archivo vidrio). Si deseamos obtener el histograma de
la composicin de aluminio que tienen las distintas muestras, tendremos:











En este caso, para un total de 243 muestras de vidrio romano cuya composicin qumica
ha sido analizada, el programa calcula una distribucin dividida en 10 intervalos. Es
fcil de ver que el histograma no es simtrico. Hay demasiados objetos de vidrio con
una proporcin de aluminio en su composicin demasiado reducida (cola izquierda de
la distribucin). Esto quiere decir, probablemente, que en la serie de muestras hay
objetos distintos, que posiblemente fueron producidos de manera distinta y/o con un
propsito diferente a los dems.

Pero tambin puede ser que la irregularidad del grfico se deba a una mala seleccin del
nmero de intervalos. Para modificar este grfico, cambiaremos el valor que aparece en
la casilla bins (intervalos). Escribiremos 20 y presionaremos la tecla Intro.












La distribucin es ahora mucho ms clara. En realidad se distinguen dos distribuciones
regulares, una centrada alrededor de los valores bajos de la proporcin de aluminio, y
otra en valores medio-altos. Se distinguen tambin unos pocos objetos de vidrio con
valores extremos en su composicin. Poco ms nos dice este histograma. A fin de
36
cuentas su finalidad es la de obtener meramente una descripcin intuitiva de la
variabilidad del aluminio en la composicin de estos objetos romanos de vidrio.
Veamos ahora otro caso. Disponemos de las medidas de distintos parmetros de unas
lanzas de la Edad de Bronce y de Hierro (archivo lanzas). Si consideramos en primer
lugar la longitud mxima de esas puntas, el histograma resultante ser:









Es fcil de ver que los tamaos de las lanzas varan de manera muy irregular:
predominan objetos de pequeo tamao, si bien hay algunas excepciones de gran
tamao. El conjunto de lanzas estudiado es, por tanto, heterogneo. Por qu?
Probablemente porque nos hemos equivocado al meter en un mismo conjunto a las
lanzas de bronce y de hierro. Vamos a separarlas y a calcular sus respectivos
histogramas.
La primera tarea ser ordenar en sentido ascendente la variable MATERIA, con ayuda
del comando Sort ascending (ordenacin ascendente) del Men Transform
(transformar). Una vez ordenados los datos, ser fcil seleccionar la longitud de las
lanzas de bronce (MATERIA =1) por un lado y la longitud de las lanzas de hierro
(MATERIA=2) por otro. Recuerda que para poder seleccionar algunas de las casillas de
una columna es necesario que las casillas Edit Mode y Edit labels NO estn
seleccionadas, y que arrastres la columna al lado de la que vas a usar de referencia (en
este caso, arrastra LONGITUD MAXIMA al lado de MATERIA). Recuerda tambin
que el programa no va a guardar la ventana en la que aparece el primer histograma.
Tendrs que hacer primero el anlisis para las lanzas de bronce (MATERIA=1), guardar
ese histograma (por ejemplo seleccionando la figura y pegndola en un archivo de
Photoshop o del mismo Word), a continuacin hars lo mismo para el segundo
histograma, cuyos resultados borrarn los anteriores y los sustituirn.
37

Para poder comparar dos o ms histogramas es fundamental que las escalas de los
grficos sean idnticas, es decir, que los intervalos empiecen y acaben en los mismos
puntos. Asegrate que en las casillas X Start (punto inicial de X), X end (punto final
de X), Bins (grupos o intervalos), Start (principio), End (final) aparecen
exactamente los mismos nmeros. Si no es as se debe introducir el valor de longitud
ms pequeo ya sea de las lanzas de bronce o de las de hierro en la casilla Bin start, y el
valor de mayor longitud ya sea de las lanzas de bronce o de las de hierro en la casilla
Bin end. Es una buena costumbre que X Start empiece en 0, y que X End sea lo
suficientemente grande como para alcanzar la mayor lanza de todas, sea de hierro o de
bronce.








Longitud Mxima de lanzas de bronce Longitud Mxima de lanzas de hierro

38
Los histogramas siguen mostrndonos la irregularidad en la distribucin de valores, por
lo que deberemos concluir que no todas las puntas de lanza fabricadas en la misma
materia son semejantes.
Es importante tener en cuenta que los histogramas slo nos proporcionan una impresin
de la forma en que varan los valores de una propiedad cuantitativa en una poblacin
determinada. Si queremos ir ms all en el estudio de las causas de esa variabilidad,
deberemos medirla, y no slo describirla. Como es obvio, la aplicacin de la tcnica que
hemos aprendido en este captulo no va a permitirnos resolver un problema histrico.
Nos ayudar sin embargo a enunciarlo, descubriendo y describiendo la variabilidad
existente en nuestros datos. Ms adelante aprenderemos a explicarla y a evaluar por qu
esa variabilidad tiene esas caractersticas y no otras.




















39

Cun variables son las consecuencias
materiales de las acciones sociales?

Estadstica Univariante







Existe una serie de funciones estadsticas que sirven para contrastar, parcialmente al
menos, las impresiones ms o menos subjetivas que nos ha proporcionado el examen de
los histogramas. La idea fundamental es que aunque las evidencias arqueolgicas
puedan mostrar una cierta incertidumbre a nivel individual, debe existir cierta
estabilidad entre todos los efectos individuales de una misma accin o proceso de
trabajo; debemos buscar pues, el orden en el desorden.
La media (en ingls: mean) de un conjunto de datos no es ms que una estimacin de
cmo debe ser el valor de una distribucin que se encuentra en el centro de la misma.
En otras palabras, si todas las consecuencias de una misma accin arrojan algunas
diferencias en el valor de ciertas medidas, Cul de esos valores es el que define
correctamente la accin? Tambin recibe el nombre de valor promedio y lo podemos
calcular sumando todas las medidas y dividiendo por la cantidad de individuos medidos.
Por ejemplo, supongamos que en un conjunto arqueolgico hay 105 fragmentos de
vasijas de cermica. Para conocer cul es el valor medio del peso de esos restos,
dividiremos la suma total del peso de restos que han sido identificados en el conjunto
(digamos 1 kg.) entre el nmero de restos (105). El valor promedio del peso de los
restos es de 9,52 gr. Qu quiere decir esta cifra? Simplemente, que hay muchos restos
de 5 y 1 gramo, junto a unos cuantos de 25 y 50. Imaginemos ahora la existencia de un
valor extremo: uno slo de los fragmentos pesa 500 gr., lo cual quiere decir que en el
conjunto hay, en realidad, 104 fragmentos que suman 500 gr. y 1 fragmento totalmente
diferente a los dems. El clculo de la media se ha visto afectado por no haber tenido en
cuenta el efecto de ese valor distinto a todos. Por consiguiente, la deteccin de estos
valores extremos es fundamental. En algunos casos se trata de obvios errores de medida
o muestreo, que pueden invalidar todo el anlisis. En aquellos casos en los que,
efectivamente, algunos individuos de la muestra sean totalmente diferentes de los
dems, habremos de tener en cuenta esa diferencia para que no altere los resultados de
los anlisis.
Precisamente porque se trata de un valor calculado, la media no tiene por qu coincidir
con un dato concreto. Denominaremos mediana (en ingls: median) a aquel individuo
40
situado en el centro exacto de la distribucin, esto es, que el 50 % de los datos sean
mayores que l y el 50 % menores. En algunos casos, no obstante, media y mediana
coincidirn.
La medida de asimetra (en ingls: skewness) en los valores de una variable nos indica
el grado con que los valores se distribuyen equilibradamente a lado y lado de un punto
central. Es una medida que nos dice el grado de deformacin de un histograma. Este
valor ser igual a 0 cuando haya el mismo nmero de valores mayores que la media que
de valores menores que la media. Si el valor es positivo, querr decir que las
observaciones mayores que la media tienen ms influencia; es decir, que la existencia
de uno o varios valores extremos condicionan la forma de la variabilidad. En el caso
contrario, una distribucin que tenga una asimetra negativa significativa se interpretar
por la existencia de demasiados valores con valores mucho menores a los de la media.
La medida de curtosis (en ingls: kurtosis) es una medida del grado en que las
observaciones estn agrupadas en el centro. Tambin es una medida de la deformacin
de un histograma. Si una variable tiene una curtosis positiva, en las colas de su
histograma hay una proporcin mayor de casos que en el centro. Por el contrario, si el
valor es negativo, su distribucin tiene las colas menos densas que las de una
distribucin normal. Si, por el contrario, su curtosis es negativa, diremos que todos los
valores se agrupan en el centro de la distribucin.
La media es un ndice estadstico que permite situar la posicin de una distribucin, ya
que da el valor de la variable hacia el cual tienden a agruparse los datos. Ahora bien,
saber cul es el centro geomtrico de los datos nos dice muy poco acerca de la variable.
Si lo usramos como un "resumen" de todo lo que contiene esa variable, estaramos
reduciendo demasiado el alcance de nuestra investigacin y, probablemente, estaramos
ignorando gran cantidad de informacin
Variabilidad = Dispersin
Una forma de estudiar la variabilidad es describiendo el grado de dispersin de las
medidas con respecto a un punto de referencia. Cuanto mayor sea dicha dispersin,
mayor ser la variabilidad. Por consiguiente, construiremos una medida de la
variabilidad si construimos una medida del grado de dispersin. Nada ms fcil.
Empezamos definiendo el punto de referencia; lo ms sencillo es que coincida con el
centro geomtrico de la ordenacin, esto es la media. La desviacin con respecto a la
media no es ms que la diferencia entre cada valor observado y dicho punto de
referencia central. Sin embargo, la suma de las desviaciones siempre es cero, debido al
efecto de neutralizacin entre las desviaciones de los valores observados menores que la
media (que son negativos) y los valores observados mayores que la media (que son
positivos). Este efecto de neutralizacin puede eliminarse si se hace algo para que todas
las desviaciones sean positivas.
Una forma de eliminar el efecto de neutralizacin positivo-negativo es elevar al
cuadrado cada una de las desviaciones. Como consecuencia de esa sencilla operacin
aritmtica todas las desviaciones con respecto a la media sern valores no negativos
(positivos o cero). A continuacin sumaremos todas las diferencias al cuadrado. Cuanto
mayor sea esa suma, mayor ser la variabilidad de la distribucin, porque ms
observaciones estarn ms alejadas del punto central. Y cuanto ms alejadas, ms
diferencias hay entre unas y otras.
41
Con el fin de averiguar la media de las dispersiones al cuadrado, dividiremos el
resultado entre el total de observaciones
7
. El valor obtenido es denominado varianza, y
puede ser utilizado para comparar la variabilidad de diversos conjuntos. El problema es
que la varianza es difcilmente interpretable. Por ejemplo, en un conjunto de objetos, los
de mayor tamao siempre tendrn una varianza superior a la de los productos de menor
tamao. Eso es fcil de ver, si tenemos en cuenta que la media de los productos grandes
es mayor (p.e. 55 cm. de longitud) que la de los pequeos (p.e. 3 cm.). Por consiguiente,
el valor absoluto de las diferencias de cada objeto con su media tender a ser superior
en el primer caso que en el segundo. Para evitar estos problemas, existe otra medida de
dispersin: la desviacin tpica estndar, que debe entenderse como una
transformacin de la medida de la varianza. Se calcula obteniendo la raz cuadrada de la
varianza.
Una forma de interpretar la desviacin tpica como medida de la variabilidad de un
conjunto de datos sera plantendonos preguntas tales como: "cuntos datos se sitan a
1 desviacin tpica de la media? Cuntos se sitan a 2 desviaciones tpica de la media?
De esta manera es posible diferenciar distintas series de datos, segn la forma que
adopta su dispersin.
Si los efectos materiales medidos de una misma accin arrojan diferencias, podemos
fiarnos que la media es realmente una estimacin correcta de una consecuencia tpica
de la accin? Suponemos que la media no es tan precisa como la mejor medicin, pero
tampoco es tan imprecisa como la peor de ellas. Para matizar o incluso, contrastar, la
media, se puede calcular el error tpico de la media (Std. Error), que es la desviacin
tpica de la distribucin muestral de la media, y debe entenderse como una correccin
de la desviacin tpica teniendo en cuenta el nmero de observaciones. Ms
especficamente, el tamao del error estndar de la media es inversamente proporcional
a la raz cuadrada del nmero de observaciones.

Para medir la variabilidad de los valores de una propiedad cuantitativa en PAST,
procederemos de la manera siguiente. Tras seleccionar la columna que nos interese, el
comando Univariate (univariante) del Men Statistics (estadstica) muestra los
siguientes coeficientes estadsticos
8
: nmero de individuos (N), valor ms pequeo
(Min), mayor valor (Max), media (mean), error tpico de la estimacin de la media
(Std. Error), varianza (variance), desviacin tpica de la poblacin (Std. Dev.),
mediana (median), asimetra (skewness) y curtosis (Kurtosis).


7
En realidad dividimos entre n - 1, por razones que no vienen al caso, y que estn relacionadas con la
teora de las probabilidades.
8
Los conos situados en la parte inferior de la ventana de resultados sirven para: 1) cerrar la ventana, 2)
copiar el contenido de la ventana para despus pegar los resultados en otro programa, por ejemplo en un
archivo Word, 3) imprimir resultados.
42



En PAST, esta funcin acepta valores ausentes en la base de datos inicial, es decir,
objetos que no han sido medidos por su pobre estado de conservacin o por cualquier
otra razn. En la matriz de datos, estos valores ausentes han sido representados
mediante el smbolo de interrogacin (?).

Desarrollemos el ejemplo de la composicin de vidrios romanos que apareca en el
captulo anterior. Para obtener los estadsticos univariantes de la variable proporcin
de aluminio, seleccionaremos la columna ALUMINIO y ejecutaremos el comando
Univariate del Menu Statistics. Los resultados son:

N 97
Min (mnimo) 1,61
Max (mximo) 2,17
Mean (media) 1,81959
Std. error (error tpico) 0,0116736
Variance (varianza) 0,0132186
Stand. Dev (desviacin tpica) 0,114972
Median (mediana) 1,83
Skewness (asimetra) 0,34913
Kurtosis (curtosis) 0,165398

Estas cifras nos dicen que se han medido 97 muestras (N=97), que la que tena menos
aluminio en su composicin tena 1,61%, y la que ms 2,17%. El valor promedio es de
1,819% y el punto central (mediana), es de 1,83%. La desviacin tpica es bastante baja
(0,0116), lo que nos permite concluir que la variabilidad es comparativamente escasa: la
mayora de valores se sita a escasa distancia del punto central. La asimetra no es muy
acusada (Skewness=0,34), como tampoco lo es la curtosis (Kurtosis=0,16), lo que
refuerza la idea de la homogeneidad, regularidad y escasa variabilidad en la
composicin de aluminio en esta coleccin de vidrios romanos.

Al igual que hacamos en el caso de los histogramas, tambin aqu podemos restringir el
clculo a un subconjunto ms homogneo de datos. Por ejemplo, en el archivo lanzas,
podemos calcular la media, la desviacin tpica y otros estadsticos univariantes de la
longitud o del peso tan slo de las lanzas de hierro encontradas en un contexto funerario.
Para ello ordenaremos (Men TransformSort ascending) la columna MATERIA. A
continuacin seleccionaremos dentro de la columna CONTEXTO aquellas casillas que
tengan una MATERIA=2 (hierro) y volveremos a ordenar (Men TransformSort
ascending; transformar ordenacin ascendente).

43


















Seleccionaremos finalmente CONTEXTO=3 (lanzas halladas en tumbas) y
calcularemos las estadsticas univariantes de la longitud mxima y del peso.









Los resultados son:
LONGITUD MAXIMA PESO

N 6 7
Min 12,4 154,8
Max. 22,6 358,1
Mean 14,0714 248,686
Std. Error 2,48229 49,11
Variance 43,1324 16882,5
Standard. Dev. 6,56752 129,933
Median 14,1 322,9
Skewness -0,67726 -0,825711
Kurtosis -0,592671 -0,888374
44

Ambas series muestran una variabilidad muy semejante, aunque los valores de peso y
longitud sean totalmente distintos. Basta comparar la desviacin tpica con la media
para comprobarlo. Si la desviacin tpica es inferior a la mitad de la media, podremos
suponer que la variabilidad general es escasa. No obstante, el hecho que en el caso del
peso de las lanzas de hierro encontradas en contexto funerario la media y la mediana no
coincidan, indicara que existe algn valor extremo, esto es, una lanza mucho ms
pesada que las dems, observacin sta que no sucedera en el caso de la longitud de las
mismas lanzas. Hay una lanza, que teniendo una longitud comparable a las dems, es
mucho ms pesada.








































45
El azar como medida de todas las
cosas. La Ley de la Normalidad







Qu hemos aprendido hasta ahora? Hemos descrito diferentes procedimientos para
medir y describir la variabilidad observada de las consecuencias materiales de la accin
social. Sin embargo, hemos argumentado que la autntica razn de aplicar tcnicas
estadsticas a la explicacin arqueolgica no es la de servir de mera descripcin de lo
observado, por precisa que pueda ser, sino reconstruir la accin o proceso de trabajo
que gener en el pasado los efectos materiales que podemos observar en el presente.
Obviamente, las evidencias arqueolgicas de las que disponemos no constituyen el
conjunto total de las consecuencias materiales de aquella accin. La mayora de ellas no
ha llegado hasta nosotros por diversas razones; a veces incluso por la debilidad de
nuestra propia metodologa de adquisicin de datos arqueolgicos! En realidad,
debiramos considerar que la poblacin original de efectos materiales de la accin
social debi ser enormemente grande, y aquello que nosotros hemos podido observar y
medir es un pequeo subconjunto. Para representar grficamente lo que suponemos que
fue la accin productora resulta til sustituir el histograma de frecuencias por una lnea
de trazo continuo que describa el perfil del histograma que en teora contuviese todos
los efectos imaginables de la accin en cuestin.






La curva traza la distribucin de todos los valores que hubieran podido ser producidos
por una nica accin social o proceso de trabajo. Por eso la curva es distinta al
histograma, ya que en este caso la poblacin no es resultado de una serie de
observaciones y/o mediciones. Es una poblacin terica de tamao indeterminable. Por
consiguiente, lo que se ha figurado en el grfico no son las frecuencias de aparicin de
ciertos valores concretos, sino una distribucin terica de probabilidades. Esto es,
una estimacin de la frecuencia que sera de esperar fuese observable en la realidad si se
hubiesen conservado todos los efectos materiales de la accin. Aunque a primera vista
46
pueda parecer muy parecida a un histograma de frecuencias, el eje Y (vertical) de la
distribucin de probabilidades es bastante distinto. En un histograma ese eje muestra el
nmero de observaciones en cada intervalo. En una distribucin de probabilidades el eje
no puede representar lo mismo, ya que hay infinitas observaciones posibles y no hay
intervalos. El grfico representa probabilidades en trminos del porcentaje de rea bajo
la curva. El rea bajo toda la curva representa a toda la poblacin; la proporcin del rea
situada entre dos valores sucesivos del eje X (horizontal) equivale a la probabilidad de
observar un valor en ese intervalo. Cuanto ms apuntada la curva, mayor superficie del
rea, y por tanto, ms probable ser ese valor. Cuanto ms ajustada sea la curva al eje X,
menor superficie y por tanto, menor ser la probabilidad de que ese valor de la
propiedad cuantitativa en cuestin haya sido producido por esa accin. Por esa razn el
eje Y suele denominarse densidad de probabilidad, un trmino difcil de definir, pero
que podemos entender intuitivamente.
Si la curva infinita es distinta al histograma, para qu sirve? Nos permite representar el
proceso que caus las observaciones. El uso de una curva con ese propsito presenta la
gran ventaja de que se dispone de una ecuacin matemtica que expresa la forma de esa
curva y, por tanto, la misma ecuacin describira matemticamente el proceso que caus
las observaciones. La idea es, entonces, representar todos los resultados posibles de un
proceso (de una accin social, esto es, el proceso de trabajo) por medio de una curva
terica, y a continuacin analizar si el histograma de los valores observados en un
contexto arqueolgico determinado se aproxima la curva terica o se diferencia de ella.
Debe insistirse en que esta distribucin de probabilidades es una curva terica que no se
mide en la realidad. Nunca dispondremos de todas las consecuencias materiales de una
misma accin social, por lo que la nica forma de definir la probabilidad con que cierto
efecto vaya a resultar observable es recurriendo a una teora o hiptesis concreta acerca
de la accin. Vamos a ver como esa definicin hipottica es posible.
En un ensayo escrito en 1756, Thomas Simpson plante el supuesto que afirmaba que la
distribucin probabilstica de errores en una observacin simple era anloga a la
distribucin probabilstica de las sumas de lanzamientos de varios dados. Es decir, los
errores accidentales de un proceso intencional son aleatorios, an cuando el proceso
que gener esos errores no tenga nada de aleatorio. Si observamos la forma en que se
distribuye un grupo de errores que se alejan de una norma o intencin, no hallaremos
probabilidades uniformes, sino que habr ms errores accidentales agrupados cerca del
valor medio del grupo con el nmero de errores reducindose conforme la magnitud del
error se hace mayor, hasta llegar a slo unos pocos valores en los extremos.




Este principio general se denomina curva normal y sirve para definir con precisin lo
que quiere decir ser normal. Est basado en el que quiz sea el resultado ms
importante para la estadstica: el Teorema del Lmite Central, que afirma, que la suma o
la media de un gran nmero de errores sigue una distribucin regular y simtrica y que,
47
por consiguiente, el mejor valor esperado de una distribucin cualquiera de datos es la
media de la poblacin. Una consecuencia de este teorema viene a decir que aquellos
resultados que se apartan de la media son tanto menos frecuentes cuanto ms se apartan
de sta, y, adems, tienden a compensarse con los resultados que se apartan de la media
en la misma medida pero en direccin opuesta.
En una distribucin que siga la curva normal, la desviacin tpica determina la longitud
de un intervalo simtrico alrededor del punto central (media). Si la variacin estuviese
producida exclusivamente por el azar, dentro de dicho intervalo debiera encontrarse la
mayora de las observaciones o casos, por lo que slo una pequea porcin de los casos
estarn lejos del punto central. Denominaremos a este segmento alrededor de la media
intervalo de confianza. Si los valores observados varan al azar a lado y lado de la
media, entonces el intervalo de confianza tiene unas propiedades muy interesantes: el
95,45 % de los datos se situar siempre en un intervalo situado a dos desviaciones
tpicas de la media. El 68,27 % de los datos se podr colocar en el intervalo
determinado por una desviacin tpica. Estos porcentajes son siempre los mismos sea
cual sea el valor de la media y de la desviacin tpica, ya que siempre que el azar es la
nica causa de la variabilidad, la distribucin adopta la misma forma. Calcularemos
ahora la longitud del intervalo de confianza de la curva normal que incluya el 95 % de
todas las observaciones y excluya el 5 %. Ese valor es 1,96. En otras palabras, un
intervalo de 1,96 veces la desviacin tpica incluir el 95 % de las observaciones si y
slo si las diferencias entre los valores ms grandes y ms pequeos que la media han
sido provocadas nicamente por el azar.






Durante bastante tiempo se crey que cualquier distribucin de frecuencias daban lugar
a este tipo de perfil, de ah el nombre curva normal. Sin embargo, no es ese el caso. De
hecho incluso el apelativo curva normal parece fuera de lugar, ya que no todos los
fenmenos frecuentes son normales. Mucho ms apropiado sera llamarla curva
caracterstica de errores aleatorios
9
. Lo fundamental es darse cuenta que esta ley afecta
no tanto al proceso que genera los datos en s (que NO es aleatorio), sino a las
diferencias existentes entre los errores o diferencias de cada observacin con su
respectiva medida de tendencia central.
Veamos de qu manera esta ley matemtica nos permite explicar el proceso de
formacin del registro arqueolgico. Recordemos que las evidencias arqueolgicas no
son ms que las consecuencias materiales de la accin social, del trabajo de hombres y
mujeres. Por consiguiente, nuestro supuesto de partida es que el registro arqueolgico

9
En 1844, Adolphe Qutelet, que fue uno de los pioneros en la aplicacin de la estadstica al estudio de
los fenmenos y procesos sociales, la llam ley de las causas accidentales.
48
es expresin del trabajo, esto es, de la accin social que lo produjo. Aquello que
caracteriza dicha accin social es, precisamente, su intencionalidad. Por qu? Porque
las acciones sociales se definen en trminos de las transformaciones que deben
realizarse con el propsito de cumplir cierto objetivo. Son conscientes (porque tenemos
un propsito en mente al realizarlas), si bien una accin puede ser intencional sin que el
agente que la lleve a cabo tenga que estar enterado de dicho objetivo. Las motivaciones
o las intenciones entonces no son meras condiciones para desarrollar una actividad, sino
factores reales que influyen en la accin y en sus consecuencias materiales.
Si un artesano o artesana tiene la intencin de producir cierto instrumento para poder
llevar a cabo una actividad de trabajo en concreto, todos los instrumentos que produzca
con la misma intencin tendern a tener los mismos valores de las propiedades
cuantitativas (forma, tamao, composicin, y/o textura) que definen su materialidad.
Accidentalmente ciertos objetos sern mucho mayores o mucho menores de lo que
pretenda, pero como esos objetos fuera de la norma son errores accidentales que no
coinciden con aquello que quera hacer, sern muy poco frecuentes. La artesana intenta
minimizar sus errores, y que la mayora de productos de su trabajo se siten en las
proximidades de una norma, es decir el valor de la propiedad cuantitativa ms ajustado
a la funcin que pretende tener el objeto producido. De este modo, si la propiedad
cuantitativa en cuestin nada tiene que ver con la intencionalidad de su proceso de
produccin, sus valores no estarn normalizados y la distribucin de sus diferencias
no seguir una curva simtrica. El artesano o la artesana normalizan ciertos aspectos
de su trabajo, esto es, fabrican sus vasijas de manera que su dimetro y su altura tengan
siempre la misma longitud ya que esta relacin condiciona la capacidad total del
recipiente, pero les ser indiferente el grosor de la pared o el dimetro de la base, por
ejemplo. Si bien el rango de variacin ser restringido, no estar normalizado.
Lo que buscamos es precisamente identificar la intencin con la que cierta persona o
grupo de personas en cierto momento llevaron a cabo una accin determinada. Si dicha
accin fue realmente intencional y tuvo un objetivo bien definido, entonces, las
consecuencias materiales de dicha accin deberan tener las mismas medidas, con pocas
diferencias entre ellas. Una gran mayora de los resultados materiales de la accin
seran muy semejantes entre s, mientras que unos pocos sern mucho mayores y otros
pocos sern mucho menores. Por este motivo, las colas de una distribucin intencional
de valores son siempre mucho menores que el centro de la distribucin, en donde se
concentran aquellos valores que son resultado de la accin. El sentido comn nos dice
que las diferencias entre los resultados materiales de una misma accin
intencionalmente ejecutada son debidas al azar. Por consiguiente, si en una serie de
objetos realizados con el mismo proceso de trabajo y con la intencin de realizar la
misma actividad observamos que una mayora de instrumentos tienen valores muy
prximos de las mismas propiedades cuantitativas y adems, slo unos pocos objetos
son o mucho mayores o mucho menores, y se observa idntico nmero de casos
demasiado pequeos y demasiado grandes, habremos identificado la consecuencia
material de una accin social intencionalmente realizada.
Del mismo modo, la estatura de todas las personas que vayan a leer alguna vez este
manual de arqueologa y estadstica parecen seguir una distribucin con la misma forma.
Probablemente el histograma de esos valores sea simtrico y relativamente poco
apuntado, lo que querr decir que la mayora de lectores y lectoras tendr una estatura
ms o menos semejante; unos pocos sern mucho ms altos o altas que el resto,
mientras que otros sern mucho ms bajos o bajas que la mayora. Quiere esto decir
49
que he escrito el manual intencionalmente para unos lectores o lectoras con determinada
estatura? Obviamente no. Aqu la intencionalidad no radica en leer este manual o no,
sino en las caractersticas biolgicas de la especie humana. La estatura de una persona
no es resultado de la suerte o del capricho de un Dios que juega a los dados con los
seres que crea, es un resultado de las caractersticas biolgicas de la especie, y de ciertas
caractersticas especficas del individuo, como herencia gentica, alimentacin infantil,
etc. Lo que vara al azar es la estatura de la gente con respecto a la tendencia general de
la estatura de todos los humanos. Las diferencias de estatura entre individuos son
aleatorias alrededor de su media, porque la evolucin de la especie ha marcado una
tendencia general en la estatura de sus miembros. La Naturaleza es intencional en el
sentido en que es direccional y regular. No es una intencionalidad en el sentido que lo
es una accin social, pero s se trata de una forma de regularidad.
Lo contrario de la curva normal es la ausencia de tendencia central, la distribucin
uniforme, que debe su nombre al hecho de que todos los valores de una variable tienen
la misma probabilidad de existir, porque lo que determina un valor u otro es el azar, la
suerte o la casualidad. En una poblacin normal, por el contrario, resultado de una
20 30 40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
F
r
e
q
u
e
n
c
y






20 30 40
20 30 40
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
F
r
e
q
u
e
n
c
y
Distintos ejemplos de distribuciones uniformes (aleatorias) no normales






Distintos ejemplos de distribuciones normales
intencin concreta o de una tendencia inherente al proceso, los valores ms prximos a
la media tienen mayor probabilidad. Lo ms lgico es que un ser humano tenga una
estatura de 1,70 m., y es muy poco probable, aunque no imposible, que su estatura sea
de 2,33 m., o de 0,85 m. Del mismo modo, un instrumento ltico manufacturado por un
artesano con una intencionalidad concreta tendr una longitud mxima apropiada a su
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
F
r
e
q
u
e
n
c
y
30 40 50
10
20
30
F
r
e
q
u
e
n
c
y
20 30 40 50
10
20
30
F
r
e
q
u
e
n
c
y
20 30 40 50
10
20
30
40
F
r
e
q
u
e
n
c
y
50
funcin, y esta coincidir con la media de todos los instrumentos manufacturados por
ese artesano o artesana con esa misma intencionalidad, como ya se afirm al principio
de este captulo.
Otra forma de estudiar la intencionalidad o no de una serie de valores sera comparando
la media de longitudes observadas, por ejemplo, con cierta tendencia central esperada.
Qu quiere decir aqu esperada? Simplemente, que disponemos de algn tipo de
informacin terica previa (histrica o etnogrfica) que afirma que en ciertas
condiciones de trabajo, la longitud media de los artefactos usados para determinado
propsito es conocida. Lo que debemos hacer ser por tanto comparar la tendencia
central de nuestros datos con la tendencia central esperada. Como es lgico, eso slo
ser posible si nuestras observaciones y la distribucin esperada se distribuyen
normalmente.

PAST dispone de una funcin especfica para averiguar si las observaciones son en
realidad un subconjunto de una poblacin ms general con una media (terica) dada.
Despus de seleccionar la columna que contiene los datos de la poblacin observada,
ejecutaremos la funcin del Men Statistics T test (one sample)(test T para una
muestra). Como resultado se abre una ventana en la que debemos introducir el valor de
la media esperada.




En este caso estamos analizando la profundidad de ciertas estructuras excavadas en la
roca (archivo India1). Supongamos que la profundidad media esperada es de 65 cm.












51


Presionamos el botn Compute, y el resultado es el siguiente:












La prueba t para una muestra se limita a restar la media observada de la media esperada
y a relacionar esa diferencia con la desviacin tpica de los datos observados. Como en
la mayora de pruebas de hiptesis estadsticas, lo importante no es el valor concreto de
la prueba (aqu t= -2,177) sino interpretar dicho resultado con arreglo a la hiptesis que
se quiere contrastar. Si pretendemos averiguar si la media observada coincide con la
media terica, interpretaremos el resultado de la prueba mostrando la probabilidad de
que la Hiptesis de que sean la misma media p(same mean)- sea cierta.

En nuestro caso, la media (mean) de la profundidad en la poblacin de 103 depresiones
observadas es de 53,66 cm. Dicho valor es significativamente distinto del valor de
profundidad media esperado (65 cm), ya que la prueba t para una muestra, nos dice que
dada la dispersin de valores de profundidades observado (desviacin tpica), una
diferencia de medias como la existente entre 53,66 y 65 no puede aparecer al azar. La
probabilidad de que la poblacin observada tenga una media prxima a la esperada es
de tan slo 0,032. Ese valor lo leeremos de acuerdo con nuestro principio general:

Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que ambas medias son distintas. Si por el contrario p(same mean)
es un nmero mayor de 0,050 concluiremos que los datos observados constituyen un
subconjunto de una poblacin general, mucho mayor, cuya media es, precisamente,
la media esperada.

Como en nuestro caso ese valor es inferior a 0,050, rechazaremos la hiptesis de que los
datos observados respondan a las mismas circunstancias a las que se refiere la tendencia
central esperada. Los datos observados no se ajustan a la intencionalidad supuesta por el
modelo terico. Esta manera de proporcionar resultados puede parecer un tanto
irracional. Pero tiene mucho sentido si lo interpretamos en un sentido probabilstico. Un
hecho que slo tiene un 5% (0,050) de probabilidades de existir quiere decir que de 100
repeticiones del suceso slo en 5 ocasiones aparecera ese hecho. Si excavsemos 100
yacimientos de una misma poca y mismas caractersticas en un rea geogrfica bien
delimitada, y en slo 5 de ellos encontrsemos huesos de ciervo qu pensaramos?
Probablemente que los ciervos eran tan escasos en ese lugar y poca que el hecho de
encontrar tan pocas evidencias mostraran que su aparicin es un accidente, antes que la
norma. Pues eso es lo que hemos de hacer con los resultados de la prueba de normalidad.
Si la probabilidad de una hiptesis determinada es inferior a 0,050 diremos que esa
52
hiptesis es tan poco probable que no se cumple. Si por el contrario, esa probabilidad es
superior al 0,050, diremos que existe una probabilidad no negligible de que la hiptesis
sea vlida en esas circunstancias concretas.
En definitiva, lo que hemos afirmando en este captulo es que existe un modelo terico
que describe con exactitud la manera en que un proceso de trabajo o accin social
genera sus efectos materiales y que ese modelo terico coincide con lo que los
matemticos denominan curva normal. Lo que afirma este modelo terico es que si el
proceso causal es realmente intencional, entonces no todos los errores accidentales o
diferencias con lo que se pretenda conseguir con la accin sern igualmente probables.
Un accin ser normal o estar normalizada porque se considera normal que ese
artefacto o ese individuo tenga el valor concreto de la propiedad cuantitativa que mejor
define aquella caracterstica que determina la intencin con la que ha sido producido.
Pero es normal porque lo normal es que la mayora de objetos producidos con la misma
intencin tienden a tener el mismo valor de esa misma propiedad cuantitativa. Es decir,
los efectos materiales de cualquier accin intencional tienen una marcada tendencia
central, siendo cualquier variacin alrededor de ella estrictamente aleatoria. La media
de las propiedades cuantitativas puede interpretarse, entonces, como aquel valor al que
las observaciones se aproximan, es decir, la intencionalidad de la accin o proceso
causal. En otras palabras, si una accin intencional ha sido la causante de los distintos
valores de tamao, forma, textura, composicin y/o localizacin que adopta una serie
delimitada de consecuencias materiales, el valor esperado, el ms frecuente, el ms
probable, ser la media de todos ellos. Aquellas consecuencias accidentales de la accin
que se apartan de la intencin sern tanto menos frecuentes cuanto ms se apartan de la
tendencia central mostrada por todas las consecuencias. Por el contrario, en la
distribucin no intencional de valores, cualquier objeto podra tener cualquier valor. No
hay ninguna tendencia subyacente que nos permita suponer que las personas que
realizaron la accin de la cual el objeto arqueolgico es evidencia pretendieran hacer
algo concreto. Por consiguiente, podemos basar nuestra investigacin en el supuesto
que las diferencias observadas en un conjunto de artefactos y la norma o medida
intencional que caracteriz al proceso de trabajo que los produjo se comporta de un
modo similar a una distribucin aleatoria.
Este principio general es muy importante porque nos permite pasar de la observacin de
la variabilidad de cierta propiedad cuantitativa en un conjunto de datos arqueolgicos a
determinar la distribucin de las probabilidades asociadas con cada una de las acciones
que posiblemente generaran esos datos. Si y slo si podemos demostrar que los datos
observados y medidos en el registro arqueolgico son el resultado de una accin
intencional, entonces el promedio (tendencia central) de las medidas que hagamos de
las evidencias arqueolgicas disponibles caracterizarn el proceso de trabajo. Sin
embargo, si las medidas realizadas de las evidencias arqueolgicas no se distribuyen
segn la curva normal, entonces no podremos saber si el promedio de esas medidas
caracteriza o no la accin generadora. En definitiva, slo si la produccin del efecto
observado ha sido una accin intencional (humana) o regular (proceso bio-geolgico),
entonces las diferencias entre los valores observados se comportarn como sucesos
aleatorios y podrn ser descritos predictiblemente mediante distribuciones de
probabilidad.


53

Explicar es Comparar

2
- chi cuadrado-/Shapiro-Wilk (una muestra).
Grficos QQ de Normalidad.








El objetivo del anlisis estadstico es extraer toda la informacin posible de los datos
observados. La primera tarea del anlisis consistir, por tanto, en escrutar o examinar
cruzadamente los datos para averiguar los posibles defectos y entender sus especiales
caractersticas. El siguiente paso es la especificacin de un modelo terico que explique
las observaciones. En nuestro caso, ese modelo es el de la intencionalidad de la accin
social y sus efectos aleatorios en las diferencias que pudieran existir entre las distintas
consecuencias materiales de una misma accin. Sobre la base del modelo terico (la
curva normal o curva de causas accidentales) emprenderemos el anlisis inferencial,
que comprende la estimacin de parmetros desconocidos (la norma a la cual tiende la
intencionalidad de la accin), pruebas de hiptesis, prediccin de futuras observaciones
y toma de decisiones. Ahora bien, es importante tener en cuenta que la aplicacin de las
pruebas estadsticas que caracterizan la forma de una distribucin de datos se basa en el
hecho de que no existe una nica distribucin normal, sino una familia de distribuciones
con una forma comn, diferenciadas por los valores de su media y su varianza. En
realidad debemos tener presente que las distribuciones de probabilidad son tericas; se
usan como referencia o para comparar los datos observados.
De ah que en todo anlisis estadstico de un registro arqueolgico dado empecemos con
los histogramas y las pruebas de normalidad. La idea fundamental que vamos a explorar
es si la variabilidad de nuestras observaciones arqueolgicas tiene la estructura
caracterstica de lo que los estadsticos llaman normalidad, y que es consecuencia de la
intencionalidad de toda accin social. Si siempre que la intencionalidad interviene deja
una huella claramente perceptible (la curva en forma de campana), entonces, podremos
describir la manera particular en que es la intencionalidad humana la que determina los
valores concretos que ciertas propiedades cuantitativas adoptan. Si esto es as, entonces
concluiremos que el conjunto de datos observados ha sido producido por una accin
causal concreta, por una accin social de trabajo, y podemos interpretarla estimando sus
parmetros originales a partir de los datos medidos en el registro arqueolgico. El
propsito de este captulo es, precisamente, explicar cmo puede determinarse el grado
de normalidad de una distribucin.
54
Estas tcnicas estadsticas se utilizan de una manera un tanto peculiar, la cual necesita
de una breve explicacin previa. Para mostrar la influencia de la intencionalidad de la
accin social (o bio-geolgica que ha alterado post-depositacionalmente las evidencias
materiales de una accin humana anterior), deberemos desacreditar el supuesto de que
esa variabilidad no tiene explicacin. Ese supuesto de no explicacin que debemos
eliminar queda expresado en declaraciones como Estos resultados podran fcilmente
ser debidos al azar o Un modelo aleatorio se ajusta adecuadamente a los datos. Aqu,
aleatorio significa exactamente lo contrario que intencional. Si los datos no son
marcadamente inconsistentes con esa concepcin, entonces una explicacin de todo-
azar es sostenible, por lo que respecta a ese conjunto de datos. A menudo esto es
descrito como aceptacin de la independencia entre causa hipottica y efecto, o no
relacin causal. Si, por otra parte, los datos son inconsistentes con el modelo de todo-
azar, la hiptesis del azar es rechazada, y se aceptar el modelo intencional.
Recordemos que estamos comparando aqu dos modelos tericos: el intencional
(normal) y el no-intencional (aleatorio).
De este modo se demuestra que la estadstica, ms que una herramienta de
demostracin, es una herramienta de argumentacin, como ha afirmado R. P. Abelson
10
.
Una advertencia importante aqu es que los trminos usuales aceptar o rechazar una
hiptesis estadstica son semnticamente demasiado intensos. Las pruebas estadsticas
son ayudas a la argumentacin, no declaraciones con valor de verdad lgica. Adems, el
sentido comn debiera decirnos que la que consideraremos hiptesis nula (estos
resultados podran fcilmente ser debidos al azar) prcticamente nunca es literalmente
exacta. Necesitamos un ndice probabilstico para evaluar la capacidad explicativa de la
hiptesis. Ese ndice (que simbolizaremos en las pginas siguientes con la letra p) puede
utilizarse como indicador del grado de aceptacin o rechazo de esa hiptesis explicativa.
Tan correcto es aceptar la hiptesis nula en un caso concreto si su probabilidad es de
0,900, como rechazar la posibilidad de tal hiptesis si su probabilidad es inferior a 0,05.
Evidentemente, para un escptico resultara difcil mantener esa hiptesis nula cuando
los datos slo tienen cinco oportunidades entre cien de haber surgido de ella. Ahora
bien, el modo correcto de rechazar la hiptesis sera: Si fuera cierto que no hubiese
una diferencia sistemtica entre una distribucin terica uniforme y los datos
observados en este contexto arqueolgico preciso, entonces la probabilidad de que esos
datos sean los resultados materiales de una nica accin social es menor de 5%. Siendo
esto una base slida para dudar de la viabilidad de la hiptesis nula, esta es rechazada
11
.
En la prctica no usaremos una retrica tan compleja, sino expresiones ms simples del
tipo conservar la hiptesis nula o tratar la hiptesis nula como viable, "se ha
desacreditado la hiptesis nula. Aunque la frase que usemos sea ms simple, conviene
tener en cuenta qu es lo que en realidad est midiendo este ndice de significacin de la
hiptesis nula. Conviene no confundir la probabilidad de los datos dada una hiptesis
inicial con la probabilidad de la hiptesis dados los datos.

10
R.P. Abelson, 1998, La estadstica razonada: reglas y principios. (traduccin castellana) Barcelona,
Editorial Paids (Coleccin temas de Psicologa No. 3). Realmente no hay libros que traten estas
cuestiones, a medio camino entre la filosofa y la prctica. El libro de Abelson es modlico en su manera
de entender qu es y para qu sirve la estadstica. Muchas de las ideas de ste ltimo captulo estn
basadas en este libro. Vase tambin C. Radhakrishna Rao, 1994, Estadstica y verdad. Aprovechando el
azar. (Traduccin castellana). Barcelona, Promociones y Publicaciones Universitarias, S.A.
(UNIVERSITAS-73); D.J . Bennett, 2000, Aleatoriedad. (Traduccin castellana). Madrid: Alianza
Editorial (Materiales/Ciencia y Tecnologa No. 036).
11
Cita de Abelson, 1998, pag. 64.
55
Secuencias aleatorias de nmeros generados artificialmente nos capacitan para
descubrir, por comparacin, mecanismos fortuitos similares. Por lo tanto, para observar
si la distribucin de valores de longitud, peso, superficie, frecuencia, o la propiedad
cuantitativa que se quiera es o no normal (es o no resultado de una accin intencional)
deberemos comparar la distribucin observada con una distribucin terica, es decir,
una distribucin normal que tenga la misma media y desviacin tpica que la que
nosotros hemos observado. En PAST puede hacerse. La opcin Fit Normal (ajuste

normal) que aparece en la misma ventana que muestra el resultado del histograma
superpone a nuestra distribucin la curva de una distribucin normal ideal con una
media y desviacin tpica idnticas a las de nuestros datos.
Pero que los trazados coincidan ms o menos no dice mucho. Deberemos examinar el
histograma preguntndonos si los datos se distribuyen de forma simtrica con respecto a
su media o presentan algn grado de asimetra, pues es sta una de las caractersticas
fundamentales de la distribucin normal. Aunque la simetra de la distribucin pueda
valorarse de modo simple, atendiendo a algunas medidas descriptivas de la variable en
cuestin (comparando, por ejemplo, los valores de media, mediana), resultar til
estudiar a fondo los coeficientes de asimetra (en ingls Skewness) y curtosis (en ingls
Kurtosis) que obtenamos al calcular las estadsticas unidimensionales.
Los grficos de probabilidad normal constituyen otra importante herramienta grfica
para comprobar si un conjunto de datos puede considerarse o no procedente de una
distribucin normal y si la causa de la variabilidad observada es una accin
intencional. La idea bsica es semejante a la de la curva superpuesta al histograma:
compararemos en un mismo grfico los datos que han sido observados frente a los datos
tericos que se obtendran de una distribucin normal con la misma media y la misma
desviacin tpica. Si la distribucin de la variable coincide con la normal, los puntos se
concentrarn en torno a una lnea recta, aunque conviene tener en cuenta que siempre
tender a observarse mayor variabilidad en los extremos. Adems de permitir valorar la
desviacin de la normalidad, los grficos de probabilidad permiten conocer la causa de
esa desviacin. Una curva en forma de "U" o con alguna curvatura significa que la
distribucin es asimtrica con respecto a la normal, mientras que un grfico en forma de
56
"S" significar que la distribucin tiene colas mayores o menores que la normal, esto es,
que existen pocas o demasiadas observaciones en las colas de la distribucin.
PAST proporciona la funcin grfica denominada grfico Q-Q. Seleccionando la
columna a estudiar y la funcin Normal probability plot (grfico de probabilidad
normal) en el Men Plot, obtenemos:

Complicado? No tanto. El eje vertical del grfico muestra los valores observados de la
columna seleccionada en orden creciente. El eje horizontal contiene una estimacin de
las frecuencias acumuladas que seran de esperar en una distribucin normal con la
misma media y desviacin tpica que nuestros datos. En el caso que aparece en la figura
se est analizando un conjunto de 5 valores: 7, 3, 4, 11 y 9. Slo hay un objeto con cada
uno de esos valores, por lo que la frecuencia con que aparecen esos nmeros es de 1. Si
ordenamos esos valores de menor a mayor llegaremos a la conclusin que la frecuencia
acumulada de la observacin 11 es igual a 5. Esto quiere decir que 5 individuos de
nuestro conjunto de observaciones son menores o iguales a 11. Tambin podemos decir
que el 100% de los datos son menores o iguales a 11. Las frecuencias acumuladas
tambin nos dicen que el 20% de las observaciones son iguales o menores a 3; el 40%
son menores o iguales que 4, el 60% menores o iguales a 7, y el 80% son menores o
iguales a 9.

Datos
Frecuencias de
Aparicin
Frecuencias
Acumuladas
Frecuencias
Acumuladas
Relativas
3 1 1 1/5 =0,20
4 1 2 2/5 =0,40
7 1 3 3/5 =0,60
9 1 4 4/5 =0,80
11 1 5 5/5 =1,00

57
Utilizando clculos ms complejos, el programa calcula cules seran las frecuencias
acumuladas en una distribucin normal con el mismo nmero de datos, de igual media y
desviacin tpica. Como es lgico, si nuestra distribucin observada es normal, las
frecuencias acumuladas de una y otra sern idnticas y los puntos del grfico se
alinearn de acuerdo con una lnea recta
12
.







-2 -1 0 1 2 3
Normal order statistic medians
20
30
40
50
S
a
-2 -1 0 1 2 3
Normal order statistic medians
10
20
30
40
50
S
a
m
p
l
e

v
a
l
u
e
s
a
l
u
e
s
m
p
l
e

v
Grfico de probabilidad QQ de una distribucin normal y de otra que no lo es
En muchas ocasiones, un rpido vistazo a las estadsticas unidimensionales y al grfico
QQ debieran bastar para saber si la distribucin observada es resultado de una accin
intencional o no. Pero no siempre es as. Necesitamos unas pruebas ms slidas y
fiables. PAST dispone de las funciones
2
chi cuadrado (una muestra) y Shapiro-
Wilk (una muestra).












La ms recomendable es la prueba de Shapiro-Wilk, que comprueba si una nica
distribucin (una columna seleccionada) con ms de 3 observaciones pero menos de
5000 es normal. En realidad, lo que hace esta prueba es calcular la probabilidad de que
sea cierta la siguiente Hiptesis Nula:

H
0
: los datos observados se distribuyen normalmente, esto es, el 68% de ellos estn
a lado y lado de la media (a 1 desviacin tpica), y hay muy pocas observaciones muy

12
PAST proporciona tambin una prueba numrica de la fiabilidad de esta superposicin (PPCC, en el
margen de la ventana que contiene el grfico). No obstante, en la mayora de las ocasiones que he
comprobado personalmente, este test no distingue apropiadamente la normalidad de la no normalidad.

58
grandes o muy pequeas (slo un 5% de las observaciones se sitan a ms de 2 veces la
desviacin tpica).

La manera de hacer estos clculos es complicada, pero eso poco importa, ya que PAST
har los clculos por nosotros. En general, esta prueba est basada en una divisin entre
la suma ponderada del cuadrado de las observaciones y la sumatoria de las diferencias al
cuadrado (recordemos la frmula de la varianza). Es por tanto, una especie de
derivacin de la frmula general de la varianza. El valor de la prueba (representado
como W) no nos interesa tanto como la probabilidad de la hiptesis anterior, que se
deriva del valor de la W y del nmero de observaciones. Hace algunos aos era
necesario consultar unas tablas especficas para saber cul era la probabilidad que
corresponda a determinado resultado de la prueba de Shapiro-Wilk para una poblacin
de x datos u observaciones. Hoy en da, cualquier programa de clculos estadsticos nos
proporcionar el valor de la prueba junto con el de la probabilidad que le corresponde.








No nos fijaremos tanto en el valor de la W, sino en el valor de probabilidad de la
hiptesis de normalidad, que aparece en la ventana de resultados como p(normal). Ese
es el ndice probabilstico que mencionbamos al principio de este captulo.

Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que la serie NO es normal Si por el contrario p(normal) es un
nmero mayor de 0,050 concluiremos que los datos de la columna seleccionada SI se
distribuyen normalmente, es decir, alrededor del 68% de ellos estn a lado y lado de
la media (a 1 desviacin tpica), y hay muy pocas observaciones muy grandes o muy
pequeas (slo un 5% de las observaciones se sitan a ms de 2 veces la desviacin
tpica).

Veamos ahora una prueba distinta que tambin puede sernos de utilidad. Aunque
muchas veces se usa la prueba de
2
chi cuadrado- (una muestra) con el mismo
propsito que la Shapiro-Wilk, para averiguar si unos datos se distribuyen
normalmente, lo cierto es que la prueba
2
chi cuadrado- (una muestra) nos permite
averiguar lo contrario: si los datos se distribuyen uniformemente. Como es lgico, si
los datos se distribuyen uniformemente NO sern resultado de una accin intencional,
ya que la intencionalidad excluye la uniformidad. En una distribucin uniforme, todos
los intervalos en los que podamos dividir una serie de nmeros tienen la misma longitud,
esto es, la probabilidad de que un valor cualquiera se incluya en uno de ellos es la
misma para todos. En una distribucin normal, por el contrario, los intervalos centrales,
los ms cercanos a la media o tendencia central son mayores, por lo que la probabilidad
de que los valores se concentren en ellos es mayor que en los intervalos extremos.

Para realizar la prueba de
2
chi cuadrado- (una muestra) PAST divide los datos de la
columna seleccionada en cuatro grupos. El primero de ellos contiene aquellos valores
menores que la media, que estn a ms de 0,67 veces la desviacin tpica; el segundo
59
grupo contiene aquellos valores menores que la media, que estn a una distancia menor
de 0,67 veces la desviacin tpica. El tercer grupo contiene aquellos valores mayores
que la media, que estn tambin a una distancia menor de 0,67 veces la desviacin
tpica. El grupo restante contiene aquellas observaciones mayores que la media que
estn situados a ms de 0,67 veces la desviacin tpica. En resumidas cuentas, los
grupos segundo y tercero contienen los intervalos centrales de la distribucin, aquellos
situados ms cerca de la tendencia central. La prueba de
2
chi cuadrado- para una
muestra compara la frecuencia de observaciones en cada grupo. Si la serie es uniforme
(NO normal), entonces los cuatro grupos tendrn la misma cantidad de datos. Si la serie
no es uniforme (ES normal), entonces los dos primeros grupos debieran tener muchos
ms datos que los dos grupos extremos. Para aplicar esta prueba, ninguno de los grupos
debiera tener menos de 5 observaciones; todo lo ms, slo uno de los grupos puede
tener una frecuencia menor de 5, pero siempre superior a 1.

La prueba es muy sencilla y podra realizarse con una calculadora de bolsillo o incluso
con lpiz y papel. Se trata de sumar todas las diferencias entre los valores observados y
los de la distribucin normal con la misma media y la misma desviacin tpica. Esa
diferencia se lleva a cabo restando el valor observado del valor esperado, elevando al
cuadrado la diferencia, y dividiendo el resultado por el mismo valor esperado antes
utilizado. Todas las diferencias as obtenidas se suman, y el resultado es lo que se
denomina valor de la prueba. Si ese valor es muy grande, entonces los valores
esperados no son semejantes a los observados, y podemos concluir que los datos se
distribuyen normalmente. Existen tablas estadsticas que nos dicen el umbral a partir del
cual el resultado de la prueba es significativo, es decir, si la suma final es lo bastante
grande como para concluir la no normalidad de las observaciones. PAST incluye esas
tablas y proporciona no slo el resultado de la prueba, sino tambin la respuesta final a
la pregunta: es normal mi distribucin? Pero nos lo dice de la misma manera que lo
deca en el caso de la prueba de Shapiro-Wilk. La Hiptesis Nula de la prueba de
2

chi cuadrado- (una muestra) es exactamente la opuesta de la que veamos en el caso


anterior: los datos NO se distribuyen normalmente. La prueba nos dice si los cuatro
intervalos tienen la misma cantidad de observaciones o no. Como es lgico, si tuvieran
la misma cantidad de observaciones, la serie se distribuira uniformemente y no
normalmente.












Resultados de PAST de chi-cuadrado (una nuestra) para una variable simulada normal
y para otra uniforme

Aqu vemos los resultados de la prueba para dos series de nmeros que hemos generado
al azar. En el primer caso, PAST ha establecido que estarn dentro del intervalo central
60
todas aquellas observaciones entre 26,87 y 33,193 (+inf sirve para etiquetar el intervalo
extremo que tiene valores mucho mayores que la media). De los resultados vemos que
el intervalo central es mayor que los dos extremos juntos. En una distribucin de 128
observaciones, un valor chi-cuadrado de 4,68 tiene una probabilidad muy baja. En otras
palabras, la serie NO es uniforme, porque la probabilidad de la hiptesis nula es muy
baja (menor que 0,050). En el segundo caso, los cuatro grupos tienen aproximadamente
el mismo nmero de observaciones. Para 128 observaciones, un valor de la prueba de
1,6875 tiene una probabilidad alta, de 0,193 (que es mayor que 0,050). Es decir, la
serie puede ser uniforme (por lo que NO sera normal). Fijmonos que con este uso de
las probabilidades no podemos afirmar que los datos siguen una u otra distribucin. En
realidad, slo podemos estar razonablemente seguros cuando NO cumplen la hiptesis
nula. Lo que afirmamos es que los datos no se distinguen razonablemente de una
distribucin terica dada, ya sea normal o uniforme.

Cuando una distribucin de valores no es normal, debemos investigar los motivos. Se ha
de tener presente que en la mayora de los casos reales, la causa de la regularidad o
irregularidad de una distribucin est relacionada con la seleccin subjetiva de
artefactos a medir que ha hecho la arqueloga o arquelogo. Del mismo modo, debemos
tener presente la importancia de la preservacin diferencial de los restos y de los
procesos post-depositacionales en la irregularidad de una distribucin que quizs
originalmente fue regular.

En general, nuestros datos no se distribuirn normalmente cuando los valores no sean
homogneos, es decir, cuando esos valores no hayan sido generados por un nico
proceso. Si mezclamos en un conjunto artefactos que fueron producidos por medio de
distintos procesos de trabajo, lo lgico es que sus propiedades de forma o de tamao
sean distintos, por lo que tambin lo sern sus medidas respectivas. Debiramos partir
del supuesto segn el cual aquello que ha sido encontrado en el mismo lugar del espacio
y procede del mismo momento del tiempo ha sido formado y/o deformado por los
mismos procesos causales, por lo que debiera mostrar una cierta homogeneidad, esto es,
poca variacin. Si, por el contrario, los datos tambin proceden de un nico contexto
arqueolgicamente bien definido, pero su variabilidad no se ajusta a una distribucin
normal, entonces lo ms probable es que se nos hayan mezclado en un conjunto
resultados de varios procesos, la excavacin no haya sido todo lo cuidadosa que debi
haber sido, o algn aspecto tafonmico se nos ha escapado de control. Normalmente las
distribuciones de aspecto extrao e irregular surgen a causa de un proceso irregular
introducido en la produccin de una distribucin de apariencia normal. Este tipo de
distribucin ha sido denominado mezcla o distribucin compuesta (en ingls mixture) y
en realidad hace referencia a una distribucin contaminada, ya que proviene de la
mezcla de un proceso intencional con otros procesos que deforman la distribucin. En
ocasiones ser posible separar todas las series con ayuda de las tcnicas y los
procedimientos explicados en el libro. Si no es as, entonces habr que usar criterios
externos subjetivos: hasta qu punto el investigador o la investigadora tienen evidencias
que la poblacin de datos es homognea, pero no regular.

PAST incluye una interesante funcin que nos permite desarrollar la hiptesis de que en
un conjunto de observaciones contiene en realidad ms de una distribucin. Si
seleccionamos cualquier columna numrica y ejecutamos la funcin Men
StatisticsMixture Analysis, PAST buscar en los datos las evidencias posibles de dos
o ms distribuciones normales. El fundamento de este procedimiento es el siguiente. Si
61
en un histograma tenemos varias puntas, se nos puede ocurrir que en realidad haya ms
de una distribucin superpuesta. La funcin de PAST descompone la serie en varias
distribuciones (tantas como se especifique en el cuadro Groups (grupos). Debe
tenerse en cuenta, sin embargo, que el procedimiento para definir la media y la
desviacin tpica ms probables para las supuestas distribuciones es muy complejo, por
lo que si solicitamos muchos grupos, el programa empieza a hacer divisiones por cero, y
nos proporciona mensajes de error. Lo ideal por tanto, es ser prudentes y estudiar pocas
superposiciones (2 3 grupos). Debemos experimentar varias veces hasta encontrar la
mejor divisin en distribuciones superpuestas.

Podemos usar el valor del logaritmo de probabilidad (Log l.hood) para elegir la mejor
solucin: en general, cuanto ms bajo ese valor, mejor ser la solucin. Esto quiere
decir que deberemos calcular este ndice para distintas hiptesis (2, 3, 4 ms grupos) y
elegir aquella divisin en grupos cuyo logaritmo de probabilidad sea menor.































Veamos un ejemplo de todo lo dicho hasta ahora. Usaremos el mismo ejemplo de la
proporcin de aluminio en la composicin de unos vidrios romanos. En primer lugar
calcularemos el histograma y el grfico de probabilidad QQ siguiendo los
procedimientos antes explicados. Al histograma le superpondremos la curva normal que
62
le corresponde, dada su media y desviacin tpica, marcando la casilla Fit Normal
(ajustar la curva normal).

1,6 1,7 1,8 1,9 2 2,1 2,2
10
20
30
F
r
e
q
u
e
n
c
y
-2 -1 0 1 2 3
Normal order statistic medians
1,5
1,6
1,7
1,8
1,9
2
2,1
2,2
S
a
m
p
l
e

v
a
l
u
e
s













Igualmente calcularemos la prueba de
2
chi cuadrado (una muestra), para saber si la
distribucin es uniforme y la prueba de Shapiro-Wilk para averiguar su posible
normalidad (simetra alrededor de la media).












En este caso, aunque la curva normal se superpone bastante bien a los datos, lo que
podra habernos hecho dudar, el grfico QQ demuestra que la distribucin de valores de
composicin de aluminio en esta serie de vidrios romanos se aleja de la que sera de
esperar bajo la hiptesis de una distribucin normal. En concreto las colas de la
distribucin, esto es, las diferencias extremas con respecto a la media, son demasiado
abundantes y adems no son simtricas. El test del chi-cuadrado (una muestra) es
engaoso. Una probabilidad de 0,034 de la Hiptesis Nula nos hace ver que los datos
son significativamente distintos de una distribucin uniforme. Pero eso no quiere decir
que sea normal, como lo pone de manifiesto la muy baja probabilidad que registra la
prueba de Shapiro-Wilk: la probabilidad de que en la fabricacin de estos vidrios se
haya normalizado la composicin de aluminio es slo de 0,019.

Por qu esta serie no es normal? Eso es lo que queremos averiguar. Ya hemos dicho
que no es necesario que todas las propiedades cuantitativas que describen una misma
entidad material deban estar normalizadas. Tan slo debiramos tener en consideracin
aquellas variables que podamos interpretar como consecuencia directa de la intencin
de la que esa variable es efecto. Si realizamos la prueba de Shapiro-Wilk para las
restantes columnas de la matriz de datos (archivo vidrio), resulta que slo la cantidad
de sodio (Na) est normalizada. Sin un anlisis que nos diga por qu aparece aluminio o
63
sodio en la masa de vidrio no podremos resolver nuestro problema arqueolgico. Es
necesario saber si esos son componentes naturales que dependen del lugar de
procedencia de la(s) materia(s) prima(s), si son materiales aadidos a cualquier vidrio,
si slo es necesario aadirlos para realizar recipientes con una funcin determinada, o
para provocar un color determinado, entre otras posibilidades que pudieran justificar su
ausencia. Por otro lado, la base de datos no nos informa acerca de la homogeneidad
histrica de los recipientes. Son todas producciones de un mismo taller, de una misma
poca, de una misma tipologa? Para desarrollar estas hiptesis debiramos buscar la
posibilidad de que hayan distribuciones superpuestas en este conjunto de datos. Para
ello, se selecciona de nuevo la columna Al y se ejecuta Men StatisticsMixture
Anlisis:













La primera hiptesis es que existan dos distribuciones superpuestas (Groups=2). Como
vemos el ajuste es bastante bueno (Log l.hood=78,43). Si estudisemos la posibilidad de
tres grupos, el logaritmo de la probabilidad aumenta, y aunque el ajuste sigue siendo
bastante bueno, parece ser mejor la idea de dos distribuciones superpuestas que la de
tres.















Volvamos a la solucin en dos distribuciones posiblemente superpuestas. El botn View
numbers (ver nmeros) nos proporciona un listado de las estadsticas univariantes de
esas distribuciones superpuestas, y de la probabilidad que sean distribuciones normales:




64
Media Desviacin Tpica Probabilidad Distribucin Normal

1,6638 0,02478 0,16271
1,8499 0,099351 0,83729

Por consiguiente, el conjunto de valores medidos de la composicin de aluminio no
sera normal porque la poblacin estudiada no es homognea sino que contiene dos
poblaciones distintas mezcladas: la primera con cantidades de aluminio en su
composicin alrededor de 1,6638%, y la otra con cantidades mayores, alrededor de
1,8499%. Si bien las muestras analizadas cuyos valores compositivos se acercan a esas
tendencias centrales pueden asignarse con cierta facilidad a una u otra poblacin,
algunos de los objetos de vidrio no pueden ser asignados a ninguna de las poblaciones,
ya que la cantidad de aluminio en su composicin est dentro de lo que cabra esperar
como valores extremos (grandes para la primera serie, pequeos para la segunda) tanto
en una como en otra. Los objetos de vidrio con proporciones de vidrio alrededor de
1,7% seran indeterminables.

Ms ejemplos aparecen en el Libro de Ejercicios y Problemas asociado con este manual.
Hasta aqu el anlisis de la normalidad de una variable cuantitativa. Cul sera el caso
de una variable cualitativa? En realidad no tiene sentido hablar de la normalidad de una
variable cualitativa, aunque en muchas ocasiones se afirma la intencionalidad con que
cierto cambio cualitativo aparece en una poblacin. Las calidades o los calificativos de
los objetos arqueolgicos no pueden ordenarse de mayor a menor, por lo que no tienen
puntos centrales ni la forma de la distribucin es indicativa de tendencia alguna. En
todo caso, el clculo de las proporciones y/o de los porcentajes de aparicin de
determinados rasgos podra darnos a entender, aunque de manera un tanto subjetiva, la
existencia o no de intencionalidad. Aqu la mayor frecuencia debera ser entonces la
evidencia de intencionalidad; si existe la misma probabilidad de que un objeto tenga
cierta decoracin o de que no la tenga, por ejemplo, entonces cabr afirmar que la
decoracin no es un rasgo intencional o normalizado. Por el contrario, si ciertas
decoraciones son ms frecuentes que otras, entonces lo ms frecuente y habitual
constituir la evidencia material de la tendencia intencional con que fue fabricado.
Podemos usar una variacin de la tcnica de
2
chi cuadrado- para calcularlo. En lugar
de la prueba para una muestra que usbamos en el caso de las variables cuantitativas,
optaremos por el la prueba de dos muestras. PAST dispone de esa funcin en el Men
Statistics chi-square (two samples). Para calcularlo, sin embargo, no nos vale la
matriz original de datos, sino que necesitamos calcular previamente el nmero de
valores en cada categora.
Veamos un ejemplo, usando el archivo ceramicas. En este archivo se ha descrito
cualitativamente la decoracin de unas cermicas calcolticas siguiendo la siguiente
terminologa: 1) no decorado, 2) inciso, 3) martimo, 4) cordado,5) decorado no campaniforme,
6) liso, 7) veraza, 8) epicampaniforme, 9) engrutada.
Ordenemos la columna Decoracin con el procedimiento que ya hemos visto (Men
Transform sort ascending).
65

A continuacin anotemos el nmero de filas que tiene cada valor de esta variable
cualitativa. Hacerlo es fcil seleccionando las filas con el mismo valor, y ejecutando la
funcin Univariate del Men Statistics. El primer resultado (N) nos proporciona el
nmero de observaciones para cada valor cualitativo:
1) no decorado, 0 casos
2) inciso, 13 casos
3) martimo, 12 casos
4) cordado, 4 casos
5) decorado no campaniforme, 8 casos
6) liso, 19 casos
7) veraza, 2 casos
8) epicampaniforme, 0 casos
9) engrutada; 1 caso

Dadas estas frecuencias, la prueba de
2
chi cuadrado (dos muestras)- no es efectiva,
ya que hay demasiados grupos con frecuencias inferiores a 5. Por tanto, debiramos
concluir que la serie es NO uniforme. Sin embargo, tampoco es normal.

Veamos qu sucede si seleccionamos tan slo los valores ms frecuentes: decoracin
incisa, estilo campaniforme martimo, estilo campaniforme cordado, decorado no
campaniforme, y cermicas lisas. Crearemos un nuevo archivo (FileNew) con tres



columnas, una que especifique el tipo de decoracin, otra en la que consten las
frecuencias de aparicin de cada tipo, y otra con el valor terico que debiera tener cada
66
categora si la serie fuese uniforme. Dado que tenemos en total 56 observaciones
(13+12+4+8+19) y 5 grupos o categoras, el valor esperado ser de 56/5=11,2.












Calculemos ahora esta variante de la prueba de
2
chi cuadrado-. Seleccionaremos dos
columnas, la columna frecuencia y la columna valor esperado, y ejecutaremos la
funcin chi-squared (two samples) del Men Statistics.















Los resultados aparecen en una nueva ventana:











Fijmonos ahora que tanto las dos casillas de abajo (Sample vs. Expected y One
constraint) (muestra frente esperada y una condicin) deben estar seleccionadas en
este caso. La primera de ellas sirve para explicar al programa que la segunda columna
contiene los valores de una distribucin terica (en este caso, valores esperados de una
distribucin uniforme). One constraint (una condicin) debe marcarse si los valores
esperados han sido normalizados para ajustarse al nmero de observaciones, tal y como
67
es nuestro caso. Ya veremos ms adelante otras formas de utilizar esta funcin
estadstica. Por ahora nos interesa tan slo su uso para estudiar la posible
intencionalidad en los cambios cualitativos que experimenta un fenmeno.

El valor de chi-cuadrado es de 11,321, al que para el nmero de datos en nuestro
archivo le corresponde una probabilidad de 0,023, un valor de probabilidad muy bajo.
Por tanto concluimos, en este caso, que las distintas frecuencias de aparicin de los
distintos valores cualitativos NO son uniformes. Los diversos valores aparecen en
cantidades significativamente diferentes, lo que puede ser indicio de su intencionalidad.

Es importante tener en cuenta que la prueba de
2
chi cuadrado- slo permite averiguar
la posible uniformidad en la variacin de los datos. Si bien es cierto que una serie
uniforme nunca ser normal, la no normalidad no es sinnimo de uniformidad.

A lo largo de este captulo hemos visto diferentes tcnicas para averiguar si nuestras
observaciones arqueolgicas tienen la estructura caracterstica de aquello que los
estadsticos llaman normalidad, y que es consecuencia de la intencionalidad de toda
accin social. Pero tan importante como responder afirmativamente a esta pregunta es
dar una respuesta correcta cuando la variabilidad no se ajusta al modelo terico de la
curva normal. La no normalidad no siempre es un resultado de la no intencionalidad de
la accin, sino de la calidad de los datos analizados. Por consiguiente, junto a las
pruebas de normalidad debemos realizar una serie de comprobaciones, que no
necesariamente son estadsticas, pero sin las cuales ninguna interpretacin estadstica
ser posible
13
. Entre esas comprobaciones podramos destacar las siguientes preguntas:

Cmo han sido recogidos y registrados los datos?

Estn esos datos libres de errores de registro y de medida? Estn bien
definidas las acciones sociales o procesos de trabajo que verosmilmente estn
asociados a las mediciones de magnitud, forma, textura, composicin y
localizacin? Hay diferencias entre las medidas debidas a las personas que
realizaron las mediciones? Hay diferencias entre los instrumentos y/o medios
de medida (calibre, microscopio ptico, microscopio electrnico, etc.)?

Son los datos genuinos, es decir, son tan ciertos como parecen, o bien han sido
fabricados expresamente para ajustarse a una hiptesis previa? Han sido
descartadas algunas observaciones a discrecin del observador o de la
observadora? Hay valores anmalos en los datos que puedan tener influencia
indebida en las conclusiones estadsticas?

Cul es la poblacin efectiva para la cual facilitan informacin los datos
observados? Existen datos faltantes de forma parcial o completa en las
unidades seleccionadas para ser observadas? Los datos obtenidos son de una
poblacin homognea o de una mezcla?

No se pueden dar frmulas exactas ni procedimientos universales que nos ayuden a
seleccionar aquellos datos que pueden interpretarse, discriminando aquellos que no
proporcionan informacin. Se trata de una cuestin arqueolgica y no estadstica.

13
Adaptado de Rao, 1994, p. 79. Obra citada en nota 4.
68
Estadsticamente podemos saber si los datos presentados son susceptibles de ser
analizados; no podemos saber, sin embargo, si se trata de los mejores datos posibles.
Los nicos consejos generales que se pueden dar hacen referencia a la fiabilidad del
proceso de excavacin como manera de seleccionar datos interpretables: si la
localizacin (tanto espacial como temporal), de los datos es lo suficientemente precisa,
podremos partir del supuesto que las evidencias materiales encontradas en un lugar
concreto y en un momento especfico son ms homogneas que aquellas que proceden
de un lugar impreciso del espacio y que han podido producirse en un intervalo de
tiempo muy grande. Las malas excavaciones, aquellas que no definen con precisin
distintos contextos topo-estratigrficos, nunca podrn proporcionar datos interpretables,
de tipo estadstico ni de otro tipo.
Esto quiere decir que nunca empezaremos nuestra investigacin calculando el
histograma, ni obteniendo las estadsticas unidimensionales, ni tampoco ajustando las
curvas de normalidad a todos los datos observados y medidos en una excavacin
arqueolgica. Debemos tener presente que cuantos ms datos incluyamos en el anlisis,
menos probable ser que la distribucin de diferencias entre los valores observados de
magnitud, de forma, de textura, de composicin o de localizacin y los valores
intencionalmente esperados sigan una distribucin normal. Por qu? Pues porque
cuantos ms artefactos o materiales incluimos en nuestra base de datos, ms tendemos a
descontextualizar el registro, incluyendo en el mismo conjunto consecuencias
materiales de acciones distintas. Cuando una sociloga aumenta el nmero de
entrevistas a personas con el fin de obtener una informacin no sesgada de su intencin
de voto, el aumento de datos es homogneo. Realiza ms entrevistas a ms votantes,
hasta conseguir que la poblacin entrevistada tenga la misma composicin que la
poblacin de referencia (votantes posibles). En arqueologa, si en un lugar de la
excavacin tenemos 30 fragmentos de huesos animales, esa es la poblacin total
disponible para poder analizar la accin o acciones sociales que tuvieron lugar en ese
emplazamiento. Obviamente no disponemos de la totalidad de efectos materiales de la
accin, pero nada de lo que hagamos nos permitir ampliar la poblacin de las
consecuencias materiales que originalmente existieron. Si a esos 30 fragmentos les
aadimos otros 100 fragmentos procedentes de otros emplazamientos, lo que estaremos
haciendo ser complicar las cosas. Dado que proceden de contextos diferentes, las
evidencias arqueolgicas de cada contexto habrn tenido un proceso de formacin
distinto.
En definitiva, debemos procesar tan slo datos fiables. Cuanto ms informacin errnea,
poco segura, incierta o mezclada introduzcamos en el anlisis, peores resultados, y ms
difcil ser descubrir cuando, cmo y dnde nos hemos equivocado en la interpretacin.
La investigacin slo tendr sentido si analizamos, por ejemplo, las tumbas femeninas
de la fase 1 identificadas en el sector noroeste de la necrpolis, y las comparamos a las
tumbas masculinas de la misma fase y sector. No tiene ningn sentido que mezclemos
datos de contextos espaciales, temporales y funcionales distintos. Razn por la cual la
primera parte de toda investigacin estadstica en arqueologa ser separar las
consecuencias de una accin realizada en cierta accin, de las consecuencias de la
misma u otras acciones en contextos diversos. El Libro de Ejercicios y Problemas
ilustra varios casos concretos.

69
Asociacin, Relacin y Semejanza.
Tres palabras clave para un mismo
problema.










Por asociar se entiende en el habla cotidiana: juntar una cosa con otra. De manera
ms formal y rigurosa diremos que dos entidades estarn asociadas cuando una
determinada propiedad se cumpla en ambas; por ejemplo, dos objetos estarn asociados
si ambos son blancos, o han sido encontrados en el mismo lugar, o si ambos fueron
producidos por el mismo proceso de trabajo, etc.
Dado que no todas las formas de asociacin son iguales, en las pginas siguientes
distinguiremos entre relacin y semejanza del siguiente modo:
ASOCIACIN: Algo en comn

ASOCIACION ENTRE OBJ ETOS ASOCIACION ENTRE FENMENOS

Semejanza Relacin
Diremos pues que la semejanza es la asociacin que se establece entre objetos o
individuos cuando tienen los mismos valores en algunas de sus propiedades. Por su
parte, una relacin es una asociacin entre fenmenos o procesos, es decir, entre las
variables o propiedades que describen una poblacin de objetos o individuos asociados.
Recordemos la estructura de las matrices de datos arqueolgicos. Las columnas de la
matriz representan las propiedades, en tanto que las filas expresan los individuos.
Analizaremos qu relaciones existen entre las columnas, en tanto que mediremos la
semejanza entre las filas.
Esta definicin de los trminos asociacin, relacin y semejanza es una convencin
arbitraria. En otros manuales o en diccionarios generales encontraremos definiciones
distintas. La adoptada aqu servir para distinguir los distintos problemas arqueolgicos
y nos ayudar a diferenciar las funciones estadsticas necesarias para resolverlos.

Buena parte de este captulo y el resto de este libro estar dedicado a explicar las
tcnicas y procedimientos estadsticos para estudiar las relaciones, como acabamos de
70
ver, las asociaciones entre procesos o fenmenos, tal y como se expresan en la variacin
conjunta de unas variables. El tema de la semejanza no se abordar en este libro, sino
en el volumen 2 de esta serie de publicaciones, dedicado al Anlisis Multivariante. He
tomado esta decisin, porque el estudio de la relacin puede entenderse en el caso
simplificado de slo dos variables, y las matemticas necesarias son muy sencillas.
Pero el estudio estadstico de la semejanza entre artefactos implica tomar en
consideracin, simultneamente, una gran cantidad de variables. Tampoco es tan difcil,
pero me ha parecido mejor presentar detenidamente ese anlisis junto con otros
ejemplos de anlisis multivariante. Con todo, algunas ideas generales acerca de la
funcin explicativa de la semejanza en arqueologa sern necesarias.
Cmo sabremos que una cosa est asociada con otra cosa?Que esa cosa sea semejante
a otra cosa, o que est relacionada con otro fenmeno? La respuesta la obtendremos por
medio de la comparacin, es decir, observando en qu se parecen o diferencian los
valores de las propiedades que definen ya sea al objeto o al fenmeno. As, diremos que
dos objetos son semejantes cuando algunas propiedades son comunes en ellos, aunque
no lo sean todas. Por consiguiente, aunque no sean idnticos (todas las propiedades
iguales) son semejantes porque algunas propiedades son compartidas. Es importante
tener en cuenta que la semejanza no es una caracterstica exclusiva de la forma o del
tamao de las cosas: dos objetos pueden ser semejantes, aunque su forma sea distinta,
siempre y cuando las restantes propiedades (composicin, localizacin, textura) sean
iguales. Un ejemplo de semejanza es la que estableceremos entre dos vasijas con la
misma forma o dos instrumentos lticos con distinta forma, pero que aparecen en el
mismo lugar. Cuando investigamos si la tumba A y la tumba B tienen algo en comn,
estamos ante un problema de semejanza, basado en el supuesto de que tumbas iguales (o
parecidas) son resultado de un mismo tipo de ritual funerario. El estatus social de los
individuos all enterrados sera el mismo porque las tumbas tienen la misma forma y
caractersticas constructivas, el mismo tipo y cantidad de ajuar, el cadver ha sido
dispuesto de igual manera, aparece la misma deformacin craneana. Ese es tambin el
caso de la semejanza entre casas o entre fases estratigrficas: si tienen, aunque sea
parcialmente, la misma composicin (o contenido) sern semejantes, sea cual sea la
forma del contorno de los mismos. En definitiva, dos o ms consecuencias materiales de
una misma accin social estarn asociadas (sern semejantes) cuando tengan el mismo
tamao, la misma forma, la misma textura, la misma compasin y/o aparezcan en el
mismo lugar.
Ms difcil es observar una relacin entre procesos fenmenos. Dos o ms acciones
sociales estarn asociadas (se relacionarn la una con la otra) cuando concurran a una
misma finalidad. Si dos acciones contribuyen a lo mismo, sus consecuencias materiales
(propiedades cuantitativas) no sern independientes, sino que estarn relacionadas y
dependern una de la otra. Por qu decimos que la forma de unos artefactos est
relacionada con la localizacin de los mismos? Esas propiedades estarn relacionadas
cuando la mayora de los objetos con una misma forma aparezcan en una localizacin
determinada y los que tienen otra forma aparezcan en otra localizacin. Composicin y
forma estarn relacionadas cuando objetos con la misma forma tengan una composicin
distinta a objetos con otra forma. Aqu no estamos comparando por capricho la forma de
un objeto con la composicin de otro. Lo que nos interesa averiguar es si el proceso de
trabajo responsable de la composicin de unos artefactos es tambin la accin social
responsable de su forma. Resulta fundamental recordar que dos propiedades de la
materialidad de las evidencias arqueolgicas covaran cuando ambas contribuyen a una
misma intencin.
71
Diremos entonces que dos fenmenos o procesos estn relacionados cuando podemos
comprobar que las propiedades cuantitativas que los definen varan conjuntamente, es
decir, que los objetos que tienen valores muy altos en una variable tienen tambin
valores muy altos en otra variable, y que los objetos con valores muy bajos en una de
ellas, tienen valores muy bajos en la otra. Este es un ejemplo caracterstico de relacin
lineal positiva.
Imaginemos que un equipo interdisciplinario de arquelogas y arquelogos observa en
un yacimiento que las cermicas del tipo A aparecen siempre en el interior de las casas y
junto a molinos de piedra, mientras que en otro yacimiento prximo, datado en el mismo
periodo, esas mismas cermicas aparecen indistintamente en el interior y exterior de las
casas, pero nunca junto a molinos de piedra. Ahora bien, en este ltimo yacimiento, la
cermica del tipo A aparece asociada con otro tipo de cermica, del tipo B, que no ha
aparecido nunca en el primer yacimiento. Por relacin se entiende aqu si la forma de un
recipiente (A B) permite predecir su contexto de uso (dentro o fuera de la casa, en
presencia o en ausencia de un molino). Si la forma no afecta para nada a la probabilidad
de uso del recipiente en un contexto determinado, entonces, las variables forma y
localizacin sern independientes. En el caso contrario, diremos que son dependientes,
es decir, que la forma del artefacto predice la localizacin en la que dicho artefacto fue
depositado. Dos eventos son independientes si la ocurrencia (o no ocurrencia) de uno
no afecta la probabilidad de ocurrencia del otro. Dicho de otro modo, cul es la
probabilidad de que los valores de esas variables (yacimiento, ubicacin interior/exterior,
tipo de cermica, presencia/ausencia de molinos) aparezcan juntos? Sera til saber si es
ms probable que la cermica tipo A aparezca en un yacimiento o en otro, si es ms
probable que esa misma cermica aparezca en el interior o exterior de las casas, cerca o
lejos de molinos, etc. En trminos matemticos, lo que se plantea es traducir la
proporcin de cermicas tipo A que ha aparecido en el interior de las casas de un
yacimiento y junto a molinos de piedra, en la probabilidad de que una cermica de ese
tipo aparezca en esas circunstancias. A continuacin deberemos averiguar si esa
proporcin o esa probabilidad es distinta de la que se producira al azar.
Es importante tener en cuenta que para poder entender una asociacin debemos tener
informacin acerca del mecanismo que la caus, y no simplemente la mera observacin
de algo en comn entre unas entidades. Aqu radica la verdadera naturaleza de la
interpretacin en arqueologa. Slo podremos interpretar las evidencias arqueo-lgicas
estudiando cmo una variable provoca que otra vare conjuntamente. Una de las
variables ser la causa y la otra, el efecto. Qu variable es la independiente y qu
variable es la dependiente no resulta ser nunca obvio. La variable independiente es la
que asumimos que provoca o explica los cambios en la dependiente. Pero cul ser la
variable explicativa en cada caso: la longitud o la anchura de unos artefactos, la
superficie o el volumen de unas construcciones, la cantidad o la diversidad de bienes en
el ajuar funerario de unas tumbas, la cantidad de aluminio o la cantidad de hierro en la
composicin arqueomtrica de unos instrumentos?
Si tenemos presentes todas estas consideraciones, entonces podremos comprender cul
es el autntico propsito de todo anlisis estadstico en arqueologa: estudiar si las
propiedades que caracterizan las evidencias arqueolgicas estn relacionadas con la
expresin concreta de la accin social o proceso de trabajo que las caus.
Solemos denominar factor a la expresin concreta de esas causas. Los factores son en
realidad variables, cuyos distintos valores reciben el nombre de niveles. Esos niveles
72
son criterios que contribuyen a definir subpoblaciones entre las cuales las propiedades
cuantitativas varan. Slo a partir del estudio de los niveles de uno o varios factores
podremos llegar a interpretar por qu varan las propiedades cuantitativas que definen el
tamao, la forma, la textura, la composicin y la localizacin de las consecuencias
materiales de la accin social. As, por ejemplo, el sexo de la persona enterrada (factor
causal) en la tumba nos ayudar a determinar dos subpoblaciones (hombre, mujer), que
a su vez permitir interpretar las diferencias observadas en la forma y composicin de
los ajuares en trminos de las diferencias sociales del ritual funerario entre hombres y
mujeres (niveles del factor causal).
Lo ms sencillo y a la vez efectivo sera que el factor explicativo se expresara
cualitativamente, en distintas categoras o niveles que representaran cada una de ellas
una causa posible. En principio, podra ser aconsejable trabajar con slo dos niveles de
un mismo factor explicativo:

la accin X es la causa de la variabilidad observada,
la accin X NO es la causa de la variabilidad observada.
En cualquier caso, el factor explicativo tendr tantos niveles o categoras como
explicaciones alternativas hipoteticemos.
Un factor causal constituye la variable independiente que nos permite averiguar cmo y
por qu vara una propiedad dependiente. El problema es que en arqueologa el factor
causal (la variable independiente) es invisible, ya que la accin causal se produjo en el
pasado. Cmo podemos estudiar una relacin entre un fenmeno observado en el
presente (el registro arqueolgico) y otros (la accin social y/o los procesos post-
depositacionales) que no pueden ser percibidos ni aqu ni ahora?
En una investigacin experimental, la solucin al problema ser sencilla. Imaginemos
que deseamos averiguar por qu la superficie de unos tiles lticos presenta diferencias
observables de textura (por ejemplo, reas de micropulido observables al microscopio
con una forma tendente a la circularidad). Experimentalmente, elaboraremos unos tiles
en el laboratorio con el mismo tipo de materia prima y los dividiremos en dos conjuntos:
con un conjunto cortaremos madera fresca, y con el otro haremos cualquier otra accin.
Con este procedimiento estamos definiendo la variable independiente o factor causal.
En este caso en concreto, ese factor (el trabajo realizado con el instrumento) estar
dividido en dos niveles: 1) cortar madera fresca, 2) no cortar madera fresca.
En una situacin experimental como la imaginada al reproducir en el laboratorio el
trabajo de cortar madera con instrumentos de slex es fcil saber cul es el factor causal,
ya que somos nosotros los que ejecutamos la tarea experimental y podemos observar la
relacin entre causa y efecto. La obvia alternativa a la experimentacin suele ser la
analoga etnoarqueolgica, que a diferencia de lo que viene siendo habitual, tambin
debiera ser analizada estadsticamente. Aqu, en lugar de experimentar el cortar madera
con unos instrumentos lticos replicados, observamos cmo otros realizan la tarea, y los
efectos materiales de esa accin sobre los instrumentos lticos. Tanto en un caso como
en el otro debieran hacerse clculos estadsticos con datos no arqueolgicos. Es en el
contexto experimental donde planteamos la relacin entre factor causal y variable
dependiente (magnitud, forma, textura, composicin, localizacin). Si y slo si los
resultados del estudio experimental nos permiten afirmar que el factor definido en esas
circunstancias precisas explica la variabilidad observada en las mismas circunstancias,
73
podremos explicar un caso arqueolgico comparable: si la variabilidad observada en el
caso arqueolgico se estructura de la misma manera que la variabilidad observada en las
circunstancias experimentales y/o etnoarqueolgicas, entonces el factor causal que
explicaba la variabilidad experimentalmente o etnoarqueolgicamente observada
explicar la variabilidad arqueolgicamente determinada.

Si ni siquiera hemos podido observar la accin en un contexto etnoarqueolgico, sino
que lo nico que tenemos son observaciones arqueolgicas, no tendremos posibilidad de
definir factor causal alguno. En ausencia de un mtodo experimental o de una analoga
etnoarqueolgica que nos permita asignar cada observacin arqueolgica a uno de los
posibles niveles del factor causal, ste se podr expresar deductivamente. Por ejemplo:

a) Si la forma del objeto presupone la funcin del mismo, una explicacin de la
variabilidad observada en tamao, textura, composicin y localizacin podr
explicarse por distintos usos (niveles del factor) de distintos objetos. Sin
embargo, aunque muchas veces se ha afirmado que la forma de las cosas est
relacionada universalmente con su funcin, no siempre esto es as.

b) Si la textura de las superficies visibles del objeto presupone la funcin del
mismo, una explicacin de la variabilidad observada en tamao, forma,
composicin y localizacin podr explicarse por distintos usos (niveles del
factor) de distintos objetos. Debemos tener en cuenta que la decoracin es una
forma de textura, y que las diferencias decorativas suelen estar relacionadas con
factores ideolgicos, culturales o funcionales. El problema es que el factor
causal ser meramente descriptivo, ya que muy probablemente no entenderemos
la causa de la variabilidad en el patrn decorativo. Podemos llegar a descubrir
que existe una relacin, probablemente causal, entre distintos tipos decorativos y
distintas formas de los artefactos, pero si desconocemos qu causa la variacin
de los tipos decorativos, no podremos interpretar la relacin descubierta.

c) Si la composicin del objeto presupone el procedimiento de trabajo para
obtenerlo, una explicacin de la variabilidad observada en forma, tamao,
textura, y localizacin podr explicarse por distintos procedimientos de trabajo
(niveles del factor) para manufacturar distintos objetos.

d) Si la localizacin del objeto presupone el tipo de accin social realizada en esa
localizacin, una explicacin de la variabilidad observada en la frecuencia de
objetos o materiales con distinta forma, tamao, textura y composicin podr
explicarse por las distintas actividades que se realizaron en distintos lugares.
Aqu seguimos el supuesto general que hace referencia a la homogeneidad
probable de aquellos elementos materiales que tienen una misma localizacin:
aquello que ha sido encontrado en el mismo lugar del espacio y procede del
mismo momento del tiempo ha sido formado y/o deformado por los mismos
procesos causales, aunque la consecuencia material no afecte por igual a todos
los materiales. Por consiguiente debieran existir diferencias significativas en las
caractersticas materiales (tamao, forma, textura, composicin) de las
evidencias arqueolgicas identificadas en distintas localizaciones. Esas
diferencias podran ayudarnos a explicar qu acciones sociales y actividades de
trabajo tuvieron lugar en esos mismos lugares. La localizacin aparece como
74
factor causal, simplemente porque aceptamos como axioma que lo que se
encuentra en lugares distintos fue producido de manera distinta si no es similar.
Todo lo dicho hasta aqu nos permite adelantar un principio fundamental. Explicar el
registro arqueolgico supone definir y estudiar una relacin entre una variable
cualitativa (el factor causal, dividido en tantos niveles como hiptesis alternativas haya)
y una o varias variables cualitativas o cuantitativas que miden las caractersticas
materiales de los efectos de la accin social (magnitud, forma, textura, composicin y
localizacin). Esa relacin ser aleatoria
14
cuando podamos demostrar que el factor
contribuye sin ningn tipo de orden ni concierto a la variabilidad de la(s) variable(s)
dependiente(s). Una relacin ser sistemtica cuando la variabilidad de la(s) variable(s)
dependiente(s) pueda describirse en trminos de conjuntos bien definidos coincidentes
con cada uno de los niveles del factor. En captulos anteriores hemos caracterizado la
variabilidad generada por factores aleatorios en trminos de una distribucin uniforme,
es decir, aquella en la que cualquier valor es igualmente posible. Por su parte, la
variabilidad generada por un factor sistemtico ser aquella en la que se registre, para
cada uno de los niveles del factor causal, una clara tendencia central y en donde los
valores extremos de cada nivel sean tanto menos probables cuanto ms alejados estn
de dicha tendencia central.
Es en este sentido que explicar equivale a estudiar la relacin entre factor y variable
dependiente, comparando los niveles de un factor, para observar su sistematicidad o
aleatoriedad. Ese estudio ser ligeramente distinto si hemos definido el factor causal
experimentalmente, analgicamente o por mera observacin.
Por medio de la experimentacin desearemos probar si la variable dependiente nos
permite distinguir ntidamente entre los distintos niveles del factor experimental. Decir
que el factor experimental (cortar madera fresca/no cortar madera fresca) es sistemtico
es asumir que esa accin de trabajo reproducida en las condiciones controladas del
laboratorio altera los valores de la variable dependiente en el grupo experimental de
manera distinta a como lo hace en el grupo de datos de control, es decir, aquellos tiles
simulados con los que no se ha realizado actividad alguna y/o se ha realizado algn
trabajo que nada tenga que ver con cortar madera (por ejemplo: raspar hueso, cortar piel,
etc.). La manera ms sencilla de comprobarlo es comparando las medidas de tendencia
central entre el conjunto experimental y el conjunto de control.
Hay tres posibles explicaciones para estos datos experimentales:
a) la variabilidad observada en las reas de micropulido de las huellas de uso puede
quedar plenamente explicada por el factor sistemtico (cortar madera/no cortar
madera),
b) la variabilidad observada de las huellas de uso puede quedar plenamente
explicada por factores aleatorios tales como los errores de muestreo y/o de
medida,
c) la variabilidad observada requiere ser explicada mediante ambos factores,
sistemticos y aleatorios.

14
Y por tanto diremos que el factor causal es aleatorio o estocstico. Modernamente suele utilizarse el
adjetivo estocstico para referirse a procesos o mecanismos causales cuyo comportamiento no puede
ser predicho con precisin.
75
Los dos primeros casos son ms sencillos, por lo que convendra comprobar primero las
hiptesis ms simples antes que la ms compleja. La tercera posibilidad podemos
dejarla en suspenso hasta que se demuestre que tanto a) como b) son inadecuadas. La
primera posibilidad consistira en una relacin completamente sistemtica entre el
factor causal y la variable dependiente sin variabilidad por azar. Esta situacin sera
inmediatamente evidente en el conjunto de los datos: todas las huellas de uso
observadas e identificadas en los instrumentos con los que se experiment el corte de
maderas tendran exactamente la misma forma, y adems seran totalmente diferentes
de las huellas de uso en aquellos instrumentos del grupo de control, esto es, aquellos
con los que se han experimentado otras actividades. Este resultado puede ser posible en
las ciencias fsicas y biolgicas, donde la variabilidad por azar suele ser muy pequea.
Con datos arqueolgicos e hiptesis histricas referentes a acciones sociales, este
resultado es bastante infrecuente.
Dejando a un lado estos extraos casos con ausencia de error, estamos ante la eleccin
entre la explicacin todo es resultado del azar, y la explicacin todo es resultado de
un factor sistemtico ms azar. La vida sera intolerable si los fenmenos ocurrieran al
azar de una forma completamente impredecible. Cada fenmeno es una curiosa mezcla
de determinismo y azar. El azar tal vez sea la anttesis de cualquier principio de
regularidad, pero el camino a seguir para descubrir la regularidad que subyace a todo
proceso o accin intencional es descubrir precisamente las leyes de ese mismo azar.
Buscamos diversas alternativas y convertiremos en probabilidad su ocurrencia como
medida de su incertidumbre. Conociendo las consecuencias de cada resultado y la
probabilidad de que ocurra, la toma de decisiones llevadas a cabo bajo incertidumbre
puede reducirse a un mero ejercicio de lgica deductiva. Ya no ser ms una cuestin
de acierto o fracaso porque s.
Ya sea porque el factor causal haya sido definido en un contexto etnoarqueolgico o
bien haya sido definido por mera deduccin a partir de la semejanza o no semejanza de
artefactos arqueolgicos, adoptaremos la misma estrategia. Tambin en estos casos
actuaremos por comparacin. La pregunta a resolver sigue siendo la misma por qu
distintos objetos arqueolgicos tienen valores distintos de cierta propiedad (cuantitativa
o cualitativa)? Porque unos de ellos tienen el valor que tienen como resultado de cierta
accin causal (un trabajo intencional), en tanto que otros no fueron sometidos a ese
trabajo particular, por lo que la propiedad cuantitativa tendr unos valores que no son
aquellos impuestos por la accin causal considerada. El factor causal divide la
poblacin de objetos arqueolgicos medidos cuantitativa o cualitativamente en, como
mnimo, dos grupos: aquellos sobre los cuales actu la causa, y aquellos sobre los que
no actu. Por ejemplo, imaginemos que cada uno de los niveles de un factor es un
contexto o circunstancia especfica en la que se realiz cierto trabajo y que afect a los
resultados concretos de dicha actividad. Por ejemplo, vasos usados para beber/vasos no
usados para beber; cermicas de coccin reductora/cermicas de coccin oxidante,
poblados en llano/poblados que estn en cualquier otra localizacin que no sea en llano;
materiales de la fase 3/materiales de cualquier otra fase que no sea la fase 3, etc. En
algunas sociedades, no es lo mismo el ritual funerario para una mujer o para un hombre,
como tambin puede ser distinto si se trata de una mujer de clase social dominante o de
una pobre trabajadora socialmente marginada. El factor cualitativo nos servir para
distinguir las tumbas que contienen un cuerpo femenino de uno masculino, o un
enterramiento rico de uno pobre.
76
En los casos etnoarqueolgicos procederemos del mismo modo que en el caso
experimental, donde habamos definido dos niveles del factor causal: uno con aquellas
observaciones sobre las cuales haba actuado el factor causal (conjunto experimental) y
otro nivel con aquellas observaciones sobre las cuales no haba actuado el factor causal
(grupo de control). La observacin etnoarqueolgica o la documentacin histrica
deben permitirnos distinguir entre la causa y la no causa. Por ejemplo, usando textos
histricos podemos distinguir las poblaciones que en poca romana o medieval tuvieron
un mercado, de aquellas que no lo tuvieron. En este caso el factor causal sera la
actividad comercial. Usando documentacin etnolgica podramos distinguir la
localizacin de los procesos de trabajo realizados por mujeres de la localizacin de
aquellos realizados por hombres. Aqu el factor causal sera la diferencia de gnero. Si
el factor causal ha sido definido deductivamente, deberemos buscar las diferencias que
cierta variable dependiente (por ejemplo, el tamao, o el color, o la decoracin, etc.)
experimenta de acuerdo con los niveles en que se haya dividido el factor causal:
forma circular/forma no circular,
composicin tipo A/cualquier composicin que no sea tipo A,
localizacin en X/localizacin en cualquier otro lugar que no sea X.
El problema es que en muchas ocasiones limitamos el factor causal a un solo nivel del
proceso causal, olvidando su alternativa. Es como si tan slo hubiramos documentado
los poblados con mercado, o slo las actividades realizadas por los hombres en una
comunidad, o los objetos con un nico tipo de composicin, o los encontrados en un
nico lugar, dejando de lado los efectos observables de la ausencia de ese factor causal.
La comparacin de los efectos de una causa hipottica con un conjunto de control mal
construido sern siempre errneos. De ah que para responder cualquier problema
arqueolgico siempre necesitaremos de un conjunto de control que deber ser lo ms
exhaustivo posible, de manera que contenga de un modo u otro toda la variabilidad
diferente a la de la causa hipotetizada.
El propsito del anlisis ser estudiar si ciertas propiedades estn relacionadas con un
factor dividido en niveles claramente diferenciados. Obviamente con esto no quiero
decir que toda explicacin arqueolgica tiene que incluir cualquier alternativa
imaginable. Es imposible definir el factor explicativo funcin: contenedor,
enumerando todas las posibles sustancias contenibles y todos los propsitos con los que
stas se hayan colocado all. De lo que se trata es de construir categoras generales que
incluyan las alternativas individuales. Si queremos averiguar por qu vara la forma de
unos contenedores cermicos, no usaremos como factor sistemtico aquel que incluya
alternativas tales como guardar grano de trigo recin segado durante cinco das en
ambiente fresco y seco, guardar grano de cebada recin segada durante cinco das en
ambiente fresco y seco, guardar grano de trigo recin segado durante quince das en
ambiente fresco y seco, etc. El modo correcto de establecer el factor sistemtico en
este caso ser por medio de alternativas ms generales, como guardar grano durante
intervalos de tiempo cortos, guardar grano durante intervalos de tiempo largos, etc.
Sin embargo, s que es preciso que agrupemos en niveles distintos de un mismo factor
tan slo aquellos objetos que estn asociados (son semejantes en algo, contribuyeron a
la misma finalidad, etc.). Muchos otros ejemplos de este tipo pueden citarse fcilmente,
en donde el factor puede ser el espacio, el tiempo, la funcin, el proceso de trabajo, la
materia trabajada, etc. As, si nos interesara averiguar si la fabricacin de lanzas que se
77
han depositado como ajuar funerario era distinta a la fabricacin de lanzas que se han
utilizado para cazar, o para guerrear, tendramos que estudiar la variacin de la forma y
funcin de esos instrumentos. Por otro lado, si pretendemos averiguar si la composicin
qumica de la pasta cermica con la que se fabricaron contenedores de agua es distinta a
la composicin qumica de la pasta cermica con la que se fabricaron contenedores de
vino, estudiaremos cmo cada uno de los niveles del factor uso pudo haber
determinado la variabilidad observada de la propiedad cuantitativa composicin.

Sea cual sea la manera de definir los niveles del factor causal o variable independiente,
necesitaremos disear una prueba de significacin. Al igual que veamos en el caso de
las pruebas de ajuste a la normalidad o intencionalidad de la accin causal, la prueba en
este caso consistir en demostrar que no es cierto que no exista una diferencia
sistemtica entre las observaciones experimentales y las de control. Si los datos no son
marcadamente inconsistentes con esa concepcin, entonces una explicacin de todo-
azar es sostenible, por lo que respecta a ese conjunto de datos. A menudo esto es
descrito como aceptacin de la independencia entre causa hipottica y efecto, o no
relacin causal. Si, por otra parte, los datos son inconsistentes con el modelo de todo-
azar, la hiptesis nula es rechazada, y se concluye que el factor causal influye de
manera sistemtica en la variabilidad observada, existiendo, todo lo ms, un pequeo
componente aleatorio, que puede ocultar parcialmente la sistematicidad del factor causal,
pero no eliminarlo.

Si esas diferencias superan cierta intensidad, concluiremos que no podran haberse
producido al azar y que por lo tanto hay suficiente base como para afirmar que el factor
hipottico explica buena parte de la variabilidad observada.

Del mismo modo como hemos hecho para asegurar la normalidad o no normalidad de
una distribucin de valores, la evaluacin de la capacidad explicativa del factor causal
tiene una lectura probabilstica en esa prueba. El nivel concreto (valor p) puede
utilizarse como indicador del grado de aceptacin o rechazo de la hiptesis nula. Tan
correcto es aceptar en un caso concreto la hiptesis de que el factor causal es aleatorio si
su probabilidad es de 0,900, como rechazar la posibilidad de una hiptesis semejante si
su probabilidad es inferior a 0,05. Como vimos en el captulo anterior resulta difcil
mantener que no hay relacin entre el factor y la variable dependiente cuando una
variabilidad como la observada slo tiene cinco oportunidades entre cien de haber
surgido de ese factor causal. Ahora bien, el modo correcto de rechazar la hiptesis sera:
si fuera cierto que no hay diferencia sistemtica entre los valores que la variable
dependiente adopta en cada uno de los niveles del factor, entonces la probabilidad de
que las medias observadas sean tan diferentes como lo son en la poblacin estudiada, o
ms diferentes, es menor del 5%. Siendo esto una base slida para dudar de la viabilidad
de la hiptesis nula, esta es rechazada.
Hoy en da, la inferencia estadstica clsica, es decir, la confianza absoluta en el ndice
de significacin de un posible factor aleatorio para explicar la ausencia de relacin entre
factor y variable dependiente est siendo puesta en duda
15
. Pruebas de hiptesis como
las que veremos en los prximos captulos ya no aparecen en la bibliografa
especializada como la solucin a todas las inseguridades y la respuesta absoluta a todas
las explicaciones. Y la razn de esta desconfianza estriba en que el grado de

15
Ver Abelson, obra citada; R.B. Kline, 2004, Beyond Significance testing. Reforming data analysis
methods in behavioural research. American psychological Association, Washington, DC.
78
probabilidad de la hiptesis nula no slo depende de la diferencia entre el valor
observado y el valor esperado en el caso del supuesto, sino tambin del nmero de datos
analizado
16
. Por lo tanto, en casos de muestras grandes, los efectos pequeos parecern
mucho ms significativos de lo que son en realidad.
Por esta razn es aconsejable complementar la interpretacin cualitativa del resultado
de la prueba (diferencia significativa o no significativa) con algo ms objetivo,
indicativo del grado o intensidad de la diferencia producida por el factor causal cuando
se demuestra que la relacin entre este y la variable dependiente es sistemtica. La
hiptesis nula (aquella que propone que el azar es la causa de la variabilidad observada
y que no hay otra explicacin posible) est siempre en competencia con hiptesis
alternativas. Si deseamos hacer una afirmacin cuantitativa acerca de la probabilidad de
que la hiptesis nula sea la apropiada, deben considerarse las capacidades relativas de
otras hiptesis para explicar los datos observados. No podemos simplemente convertir
el nivel de significacin al cual ha sido rechazada la hiptesis nula en un ndice
cuantitativo de su valor de verdad.
El candidato ms obvio para cuantificar la robustez de una conclusin de una simple
prueba de significacin es la magnitud en bruto de la relacin. La intensidad de la
diferencia producida por el factor sistemtico en cada una de las subpoblaciones
definidas por los distintos niveles de dicho factor estar asociada al tamao de la
diferencia media observada. Una ventaja de la magnitud en bruto de la relacin como
medida es que su valor esperado es independiente de nmero de datos observados. Por
consiguiente, a la hora de publicar los resultados de un anlisis estadstico habremos de
enumerar:
a) el nmero de datos analizados,
b) el valor bruto de la diferencia entre los niveles del factor (diferencia de
medias, de varianzas, de rangos). Ese valor bruto puede expresarse en valor
numrico o bien grficamente mediante histogramas para cada nivel del
factor, diagramas de dispersin, diagramas de caja, tablas de contingencia,
anlisis de correspondencias, etc. Veremos todos esos procedimientos en los
captulos siguientes. Otra manera de proporcionar ese resultado sera
dividiendo el resultado de la diferencia de medidas por la desviacin tpica
de las observaciones. La versin actual de PAST no proporciona este
procedimiento, por lo que debiera realizarse mediante el uso de una
calculadora,
c) el valor resultante de la prueba (t =, F=, U=, r=,
2
=, etc.) (vase Captulos
siguientes),
d) la probabilidad asociada a ese valor resultante, si la hiptesis de no
explicacin fuese viable en ese caso.
Estos cuatro elementos debieran figurar siempre en nuestros trabajos, ya que sin ellos
nunca podr saberse si la aceptacin o rechazo de la explicacin aleatoria ha sido
realizada de manera objetivamente correcta o no.


16
Ese clculo se haca tradicionalmente consultando tablas estadsticas; hoy lo realiza el programa
(PAST), sin que el usuario tenga que intervenir.
79
Estudiando Relaciones entre
variables.



Relacin entre variables cuantitativas
Relacin entre variables cualitativas y cuantitativas
Relacin entre variables cualitativas.








El captulo anterior puede haber parecido a algn lector o lectora demasiado abstracto y
difcil. Llegado a este punto vamos a introducir ciertas consideraciones prcticas para
poder entender mejor los procedimientos tratados hasta ahora. Pero primero debemos
hacer una advertencia. Debido a que las tcnicas y funciones estadsticas son distintas,
tendremos que distinguir tres grandes familias de problemas arqueolgicos segn la
relacin que existente entre variables de distinto tipo. La forma de describir una
relacin ser diferente segn el tipo de variables o propiedades que intentemos
relacionar. As, por ejemplo, es muy distinto si intentamos relacionar la extensin de
unos asentamientos y su duracin temporal, que si intentamos relacionar el ritual usado
en un funeral con el estatus social de la persona enterrada. Aunque la definicin de
relacin sigue siendo la misma: aquello que relaciona una propiedad con otra, aquello
que vara, su tratamiento estadstico ser distinto, porque en el primer caso tratamos de
una relacin entre variables cuantitativas, mientras que en el segundo caso nos
encontramos ante una relacin entre variables cualitativas.

Distinguiremos, pues, entre relaciones cuantitativas, relaciones semi-cuantitativas y
relaciones cualitativas.


Relacin entre variables cuantitativas
Cuando la informacin arqueolgica disponible ha sido el resultado de la medicin de
dos variables cuantitativas, los datos numricos suelen expresarse como pares ordenados
(x, y) donde x es la variable independiente e y es la variable dependiente.
80
Con el fin de disponer de una impresin intuitiva de la relacin entre dos variables
cuantitativas utilizaremos un diagrama de dispersin. Este diagrama representa
grficamente todos los pares ordenados de dos variables cuantitativas que estn en un
sistema de ejes coordenados. La variable que se supone es la independiente se traza en
el eje horizontal y la variable que se supone es la dependiente en el eje vertical.
En PAST seleccionamos dos columnas, aquellas que correspondan a la relacin que
queremos investigar, y ejecutaremos la funcin XY graph (grfico XY) del Men Plot
(Grficos). PAST slo permite seleccionar columnas adyacentes, de modo que selec-







cionaremos y arrastraremos las columnas que nos interese, con el fin de que estn una al
lado de la otra. Para ello, es preciso recordar que las casillas Edit Mode y Edit Labels no
deben estar marcadas. Consideremos el siguiente ejemplo, extrado de la base de datos
lanzas. Marcando la casilla Labels (etiquetas) en el margen derecho de la ventana,








tendremos la posibilidad de ver en la pantalla cada punto etiquetado con su nombre
(primera columna de la hoja de clculo).
81
Haciendo doble click en el centro del grfico se abre una ventana que permite modificar
algunos aspectos estticos como el tipo de letra, el reticulado, y alguna otra posibilidad,
aunque stas no sean muchas.







En la siguiente figura aparece representada la relacin entre las variables LONGITUD (eje
vertical) y PESO (eje horizontal) de un conjunto de puntas de lanza de bronce y hierro.
Cada punto corresponde a un artefacto arqueolgico, con un valor de longitud y un valor
de peso. Podemos ver fcilmente que cuanto mayor es el peso, mayor es la longitud.
Esta relacin resulta obvia, ya que cuanto mayor sea el tamao de un artefacto, mayor
cantidad de materia prima ser necesaria para su manufactura, y por tanto, ms pesado
ser el objeto. En la grfica, esta relacin adopta una forma especfica: es posible trazar
una lnea recta que pase muy cerca de todos los puntos.







En el grfico constatamos que siempre que aumenta la longitud aumenta paralelamente
el peso. Pero supongamos que la artesana que produce esos artefactos quiere ahorrar
materia prima y recurre a una tecnologa distinta: en lugar de grandes objetos macizos
que necesitan demasiada materia prima, cuando se trate de fabricar objetos muy grandes,
los har huecos, mientras que continuar haciendo objetos macizos siempre y cuando
sean lo suficientemente pequeos. La grfica es ahora distinta
17
:

17
Lectoras y lectores pueden llevar a cabo este ejercicio por s mismos, variando los datos originales y
volviendo a calcular el grfico con ayuda de la funcin XY Graph (grfico XY) del Men Plot
(grficos).
82








Los datos han cambiado y la forma en que los puntos estn alineados ha cambiado
tambin, porque la naturaleza de la relacin cuantitativa es diferente. Ya no es cierto que
cuanto mayor sea el peso, mayor ser la longitud. Ahora, cuando aumenta el peso de un
objeto, no necesariamente aumenta de forma paralela su longitud. Diremos entonces que
no hay relacin lineal.
As pues, los diagramas de dispersin nos permiten describir relaciones entre pares de
variables. Permiten, igualmente, hacernos una idea de la direccin de la relacin, que
suele expresarse en trminos de su signo: relacin positiva relacin negativa. Una
relacin del primer tipo se registrar cuando a medida que los valores de una de las
variables aumente, la otra variable tambin aumenta. Por el contrario, cuando los
incrementos en el valor de una variable se vean acompaados por decrecimientos en la
segunda, tendremos una relacin negativa.





Relacin lineal positiva Relacin lineal negativa
El diagrama de dispersin nos explica tambin la forma de la relacin. Hemos
mencionado ya la existencia de relaciones lineales, pero no todas las relaciones son de
ese tipo. Las relaciones lineales son montonas porque a todo lo largo de la relacin
(condicin matemtica de "monotona") a medida que vara una variable, vara la otra en
proporciones constantes (que es lo que caracteriza a las relaciones lineales). En una
83
relacin no montona la variacin no es constante a todo lo largo de la relacin sino
que a medida que vara una variable, vara la otra en proporciones que no son constantes.






Ejemplo de relacin no montona.

Una relacin no lineal, por su parte ser aquella en la que los aumentos en un sector del
grfico seran compensados con una disminucin en otro sector. Por ejemplo, podemos
considerar que en una necrpolis, a medida que aumenta la riqueza de una tumba
aumenta el volumen de la misma, hasta llegar a determinado nivel de riqueza, en el cual
aunque aumente la riqueza, la tumba tiene el mismo tamao. Finalmente, las tumbas
ms ricas usan un funeral de distinto tipo (cremacin), de manera tal que parece como si
el volumen disminuyera a medida que aumenta la cantidad de bienes de ajuar.







Ejemplo de relacin no lineal no montona

En el grfico anterior, la ausencia de relacin lineal no implica la aleatoriedad de la
representacin geomtrica. Podemos distinguir fcilmente unas tumbas pequeas y
pobres, unas tumbas pequeas y muy ricas y una mayora en el medio de tumbas en
donde no existe relacin de ningn tipo entre riqueza y volumen de la tumba.
84

El siguiente diagrama muestra un caso an ms caracterstico de ausencia de relacin.
Aqu los distintos puntos se sitan aleatoriamente. Cualquier valor de la variable x
parece estar relacionado con cualquier valor de la variable y.
















Ejemplo de ausencia de relacin
2122232425262728293031323334353637383940414243
x
20
30
40
50
y

PAST dispone de herramientas adicionales para estudiar las caractersticas de una
relacin entre dos variables cuantitativas. Nos interesa especialmente la posibilidad de
marcar la forma aproximada de la nube de puntos. Consideremos el siguiente ejemplo,
tambin extrado de la base de datos lanzas (relacin peso/longitud).


















Marcando la casilla 95% ellipses (elipse del 95%), PAST nos traza el centro
aproximado de la distribucin, es decir, la parte del grfico en la que se sitan la
mayora de los datos. Observando la forma y el grado de alargamiento de esta elipse,
podremos adquirir una impresin del mayor o menor grado de alineamiento de los
puntos, y por tanto, de la intensidad de la relacin. Si comparamos este grfico (relacin
85
entre la longitud mxima y el peso) con el que representa la relacin entre el peso y la
anchura inferior del taln de la punta de lanza:
1000 2000 3000
peso
1
2
3
a
n
t
a
l
s
u
p

las diferencias saltan a la vista. En el primer caso, la elipse es mucho ms alargada que
en este ltimo caso, por lo que la relacin es mucho ms intensa en el primer caso que
en el segundo.

Una condicin necesaria para poder realizar con xito el anlisis de las relaciones entre
variables cuantitativas es que busquemos relaciones entre objetos asociados (es decir,
semejantes). Es obvio que no hay relacin de ningn tipo entre la longitud y la anchura
si hemos metido en la misma bolsa huevos y castaas. Si las filas de la matriz contienen
objetos de distinto tipo, la relacin dejar de ser bivariante, para convertirse en
multivariante.

Ese es el caso de la base de datos que hemos estado analizando hasta ahora. Las puntas
de lanza son como mnimo resultado de dos procesos de trabajo distintos: los que
permitieron fabricar puntas de lanza de bronce y los que permitieron fabricar puntas de
lanza de hierro. Si adems consideramos que hay casi 1000 aos de diferencia entre la
lanza ms antigua y la ms reciente del conjunto analizado, descubriremos que es
evidente que buscbamos una relacin entre objetos no asociados. Si exista una cierta
relacin entre peso y longitud es que aunque distintos, son objetos pertenecientes a un
mismo tipo funcional: la punta de lanza.

Sera conveniente distinguir las distintas poblaciones y estudiar la forma de la relacin
en cada una de ellas. PAST nos permite distinguir en el grfico ambos tipos de puntas
de lanza. Seleccionaremos la columna MATERIA y ejecutaremos la funcin Numbers to
colors/symbols (de nmeros a colores/smbolos) del Men Edit. Como resultado, las lanzas de
hierro (MATERIA =2) se sealan en rojo, y las de bronce (MATERIA =1) en negro.







86















A continuacin volvemos a realizar el grfico de dispersin de la misma manera que
hemos hecho antes, seleccionando 2 columnas y ejecutando en el Men Plot el comando
XY graph.















Los puntos corresponden a las lanzas de bronce y las cruces a las lanzas de hierro. Si
queremos distinguir ms completamente ambos conjuntos, marcaremos en el grfico la
casilla Convex hull (casco o lmite convexo).
1000 2000 3000
peso
1
2
3
a
n
t
a
l
s
u
p














87
De esta manera, PAST calcula el polgono que incluye a todas las observaciones de una
misma categora.

Una explicacin ms detallada del ejemplo de las puntas de lanza, as como otros
ejemplos de relaciones entre variables cuantitativas aparece en el Libro de Ejercicios y
Problemas.


Una de las medidas de la intensidad de una relacin
Hemos mencionado varias veces la idea de medir la intensidad de una relacin lineal.
Los diagramas nos han permitido observar cmo cuando cambia un valor de una
variable, puede cambiar el valor de otra variable. Una medida de la intensidad de esa
relacin ser una medida del grado con que los puntos estn dispersos alrededor de la
recta imaginaria que pasa por el centro de la nube de puntos: si estn muy prximos a
ella, el grado de relacin lineal ser intenso; si, por el contrario, los puntos estn muy
dispersos alrededor de la recta; el grado de relacin lineal ser dbil.
Una primera aproximacin a esa medida nos la proporciona el clculo de la covariacin,
que no es ms que la media aritmtica de las diferencias de cada valor con respecto a su
propia media. Imaginemos que la longitud media de unos artefactos es de 23,5, y el peso
medio de 1500 gr. A cada artefacto restamos la longitud medida de la longitud media.
Hacemos lo mismo en el caso del peso. A continuacin multiplicamos la diferencia de
longitud por la diferencia de peso. La covariacin ser la divisin de la suma total de
todas esas multiplicaciones por el nmero total de observaciones
18
.
El problema de este coeficiente es que es difcil de interpretar. Cuanto mayor sea, mayor
ser la intensidad de relacin. Pero es difcil saber cundo la covariacin se refiere a una
relacin intensa y cundo se refiere a una relacin dbil. Si ponderamos el valor de
covariacin teniendo en cuenta las desviaciones tpicas de cada variable, entonces
obtendremos el coeficiente de correlacin de Pearson, cuyo valor vara de -1 a +1.
2122232425262728293031323334353637383940414243
x
20
30
40
50
y





Correlacin =+1,0 Correlacin = -1,0 Correlacin = 0,01
Dado que en todos los casos este coeficiente de correlacin es mucho ms prctico y
claro que el de co-variacin, nos basaremos en l siempre que deseemos calcular la
intensidad de una relacin. Para realizar estos clculos en PAST slo es necesario

18
En la prctica (como vimos en el caso del clculo de la varianza) el denominador es n-1 y no n, por
razones que no vienen ahora al caso.
88
seleccionar al menos dos columnas y ejecutar la funcin Correlation (correlacin) del
Men Statistics. Los resultados aparecen en forma de matriz.



















LONGMAX LONGTALO ANCHOMAX ANTALSUP
LONGMAX
2,56371E-9
19
0,000345752 0,000299229
LONGTALO 0,781952
0,000448849 0,0708632
ANCHOMAX 0,53773 0,529015
0,0566635
ANTALSUP 0,542456 0,288649 0,303816


En esta matriz de resultados, la diagonal corresponde a la correlacin de cada variable
consigo misma. En la ventana de resultados de PAST estas casillas aparecen en blanco,
si bien debiera aparecer el valor 1. La correlacin de una variable consigo misma es
siempre igual a 1 (relacin lineal mxima). Como el valor siempre es el mismo, no suele
ser tenido en cuenta, y por eso PAST no lo proporciona. La matriz de correlaciones que
muestra el programa no es simtrica, si bien el valor del coeficiente de correlacin s lo
es. Es decir, la correlacin de longitud mxima con la longitud del taln es igual a la
correlacin de la longitud del taln con la longitud mxima. Si la matriz de resultados
de PAST no es simtrica es porque el programa ahorra espacio y nos proporciona el
mximo de informacin, obviando la que ya se conoce. As, en la mitad inferior de la
tabla (en negrita) aparecen los coeficientes de correlacin propiamente dichos (que son
simtricos, aunque no aparezca representado su valor simtrico). En la mitad superior de
la matriz (en menor tamao) aparece la probabilidad de la hiptesis nula (la relacin es
aleatoria, esto es, la covariacin es debida nicamente al azar). As, el coeficiente de
menor valor es el que se refiere a la relacin entre la anchura superior del taln de las

19
Se trata de un nmero en notacin exponencial cientfica. Como el nmero que sigue al exponencial
(letra E) es negativo, entonces moveremos el decimal a la izquierda nueve posiciones. En el caso de la
cifra 2,56371E-9 tendremos el nmero decimal 0,00000000256371.

89
lanzas con la longitud del taln (correlacin=0,288). A este grado de intensidad de la
relacin lineal le corresponde una probabilidad de la hiptesis de no relacin sistemtica
de 0,070. Lo leeremos como hicimos en el caso de la normalidad de una distribucin y
como haremos siempre que queramos contrastar una hiptesis estadstica:

Si la significacin probabilstica de la hiptesis nula nos indica una probabilidad
menor de 0,050 (5%), diremos que las dos variables estn relacionadas. Si por el
contrario la probabilidad es un nmero mayor de 0,050 concluiremos que las
columnas seleccionadas NO estn relacionadas linealmente.
El coeficiente de correlacin de Pearson slo mide la intensidad de una relacin lineal
entre aquellos fenmenos o procesos representados por las variables seleccionadas. Si
ese coeficiente est prximo a 0 (y la probabilidad de la hiptesis de norRelacin es lo
suficientemente baja, menor de 0,050), entonces NO habr relacin lineal. Esto no
quiere decir que no haya relacin, simplemente, que sta no es lineal. Las relaciones no
montonas o las relaciones no lineales son formas muy complejas de asociacin, muy
difciles de detectar y an ms de interpretar. Esa es la razn por la que en la mayora de
estudios estadsticos slo se busca la existencia o ausencia de relacin lineal. El motivo
es muy claro: una relacin lineal nos ayuda a explicar una relacin causa-efecto de una
manera que cualquier otro tipo de relacin no puede. As por ejemplo, una relacin no-
lineal afirma que una causa provoca un efecto unas veces, pero otras no. Esto es
claramente una mala explicacin. Imaginemos que el estatus social de una persona a
veces est reflejado en su tumba por la cantidad de ajuar, pero a veces por la presencia
de cierto tipo especfico de objeto. En esas circunstancias sera imposible predecir el
estatus social basndose en la observacin arqueolgica, porque en ocasiones el efecto
es uno y en otras ocasiones es otro. Ciertamente, el mundo real es como es debido a la
presencia de relaciones no-lineales, pero una explicacin debe ser siempre lo ms
simple posible. De ah la importancia de la linealidad. Dejaremos para otras
publicaciones (volumen 2: Anlisis Multivariante, volumen 5: Seriacin y Prediccin)
el tema de estas formas complejas de relacin.
La importancia explicativa de las relaciones lineales para entender mecanismos causales
viene reforzada por otra medida de la intensidad de una relacin lineal, derivada del
coeficiente de Pearson. Se trata del coeficiente de determinacin, para cuyo clculo
nos limitaremos a elevar al cuadrado el coeficiente de Pearson:
coef. de determinacin =r
2
En muchos casos su significado es ms intuitivo que el del coeficiente de Pearson.
Indica la cantidad de cambios en la variable dependiente que han sido provocados por la
independiente y por nadie ms. El valor de este coeficiente de determinacin suele
multiplicarse por 100 para situarlo en una escala porcentual, que recibe el nombre de
porcentaje del nivel de explicacin.
Por ejemplo, supongamos el caso en el que la relacin entre antigedad (fecha en aos
de calendario) y longitud mxima de un objeto el coeficiente de correlacin de Pearson
sea de 0,97. Este valor nos indica que debiera existir una fuerte relacin positiva entre la
datacin y la longitud de unos artefactos: cuanto ms recientes sean los artefactos, ms
largos sern. Si elevamos al cuadrado ese valor para obtener su coeficiente de
determinacin:
90
r =0,97; r
2
=0,97
2
=0,94
este resultado nos dice que la mayor parte de la variacin registrada (el 94%) en la
longitud medida de los artefactos, se debe nica y exclusivamente a las variaciones de la
datacin de esos artefactos.
Si por el contrario el coeficiente de Pearson entre datacin y longitud fuese de 0,4,
habramos concluido la existencia de una relacin poco intensa entre esas dos variables.
Elevando al cuadrado 0,4 obtendremos el coeficiente de determinacin, que en este caso
sera igual a 0,16 (0,4
2
=0,16): si bien existe una cierta relacin entre ambas variables, la
fecha de manufactura de esos artefactos slo explica el 16% de la variacin en la
longitud de los artefactos fabricados.

Este anlisis de la correlacin lineal est basado en el supuesto previo que las dos
variables cuya relacin lineal se investiga se distribuyan normalmente. En este sentido,
las observaciones deben ordenarse simtricamente alrededor de una medida de
tendencia central, y los valores extremos no deben superar el 5% del total de los datos.
Esto es as porque la tcnica utiliza como parmetros fundamentales la media, la
varianza y la desviacin tpica de cada variable. En realidad lo que hace el coeficiente es
estimar la importancia de las diferencias de las medias, como si esta medida de
tendencia central fuese un resumen adecuado de todas las observaciones en la variable.
Si la variable no est normalizada, entonces el promedio de los valores no puede usarse
como un ejemplo paradigmtico del valor tpico de esa variable.

En otras palabras, slo podremos relacionar linealmente fenmenos que hayamos
demostrado previamente son resultado de una intencin expresa, y que adems expresan
convenientemente la relacin entre factor causal y expresin material de la
consecuencia intencional de dicho factor causal. De hecho, en la mayora de los casos,
la ausencia de relacin entre dos variables puede ser debida a que una o las dos no son
el resultado de una y slo una accin. Antes de llevar a cabo el estudio de la correlacin,
deberemos analizar por separado cada una de las variables y analizar su grado de ajuste
a la normalidad (cf. captulo anterior), as como su naturaleza explicativa. Es preciso
tener en cuenta que el estudio de relaciones explicativas slo puede llevarse a cabo en
una poblacin de datos que sabemos estn asociados causalmente. Si estamos
relacionando poblaciones de objetos no asociados (o cuya posible asociacin se
desconoce) o si esa asociacin es indirecta, no es que no est permitido usar un
coeficiente determinado, sino que el estudio mismo de la relacin no proporciona
ninguna informacin. Debemos tener bien presente que no sera lcito correlacionar la
cantidad de ratones en una ciudad con la cantidad de matrimonios. Es posible que sea
cierto que cuantos ms matrimonios, ms ratones, pero qu tiene que ver? Por qu
debiramos estudiar la relacin entre el borde del labio de unas vasijas encontradas en
cierto poblado prehistrico y la cantidad de restos seos animales en el mismo poblado?
Relacionar todo con todo, por la nica razn que son medidas disponibles para el
anlisis no nos lleva a ningn lado. Tendremos que averiguar si la longitud del borde de
las vasijas est relacionada con la altura total de esas vasijas, porque esa relacin
mtrica posiblemente defina una forma que es resultado de un proceso de trabajo
intencional dirigido a la fabricacin de instrumentos que se usaron de modo concreto.
Del mismo modo, puede ser importante estudiar la relacin existente entre la cantidad
de ajuar y la diversidad de objetos en tumbas masculinas contemporneas de una misma
necrpolis. No tiene sentido estudiar esa relacin en todas las tumbas, masculinas y
91
femeninas, ni en todos los perodos, porque las normas sociales constituyen acciones
intencionales que tienen unos condicionantes especficos.

Como veremos a continuacin, existen coeficientes alternativos al coeficiente de
Pearson que no estn basados en la condicin de normalidad. Sin embargo, esto no
quiere decir que si los datos no son normales, debemos cambiar el procedimiento
estadstico y ya est. Los datos pueden no ser simtricos con respecto a una tendencia
central; ello puede obedecer a varias razones que deben ser conocidas antes de aplicar
las nuevas pruebas. Por ejemplo, el proceso de medida puede ser inexacto o poco fiable
dada la naturaleza de los datos estudiados.

Cuando no conocemos ni la media ni la desviacin tpica de unas medidas podemos
aplicar el coeficiente de correlacin de Spearman, que no utiliza las medidas de
tendencia central usuales, sino tan slo las diferencias de magnitud entre una variable y
otra.

























Para calcularlo, se deben sustituir los valores reales medidos por su posicin ordinal. Es
decir, en lugar de 1,34 36,13 el nmero que sea, ordenaremos todos los valores
originales del menor al mayor y les asignaremos su rango o nmero de orden: 1, 2, 3,
4, 5, etc. Valores iguales debieran tener el mismo rango, aunque su posicin en la
secuencia sea distinta. Si, por ejemplo, encontramos tres valores iguales a 3,5 a partir
del 5 rango, asignaremos los rangos que les correspondan (por ejemplo, 6, 7 y 8),
sumaremos esos tres rangos (6+7+8) y dividiremos entre el nmero de valores iguales
(3). A cada uno de los tres valores le corresponder el rango 7. El siguiente valor se
situar a partir del rango 9. La idea es pues ordenar todos los datos de ambas variables
segn esos rangos ordinales, calculndose a continuacin qu variable tiene rangos ms
92
bajos (valores menores) ms altos (valores mayores). El coeficiente de Spearman no
es ms que el coeficiente de correlacin de los rangos ordinales. La mayora de las
propiedades del coeficiente de Pearson siguen cumplindose en el caso de esta
correlacin ordinal, incluyendo la manera de interpretar el resultado, que oscila entre +1
y -1 con 0 indicando la ausencia de relacin lineal.

Alternativamente, el coeficiente de Kendall relaciona todos los pares (x, y) posibles y
los califica como concordantes o discordantes. Los pares son concordantes si varan
en la misma direccin (los dos aumentan, o los dos disminuyen) y discordantes en el
caso contrario. El coeficiente es igual al nmero de pares concordantes menos el
nmero de pares discordantes, ponderado de manera que el resultado se site tambin en
el intervalo +1 -1, con una lectura idntica a la de los coeficientes de Pearson y de
Spearman.

A diferencia de lo que suceda en el caso del clculo del coeficiente de Pearson, en el
que podamos seleccionar dos o ms columnas y PAST nos proporcionaba una matriz
de coeficientes (la mitad inferior para el coeficiente y la mitad superior para la
probabilidad de la hiptesis de correlacin), en el caso de los coeficientes de Spearman
y de Kendall, PAST slo permite seleccionar dos columnas adyacentes. Los resultados
aparecen en una ventana especfica. El coeficiente de correlacin de Spearman aparece
mencionado como Spearmans rs y el de Kendall como Kendalls Tau. El programa
proporciona el valor del coeficiente (que vara entre +1 y -1) y la probabilidad de la
hiptesis de no relacin lineal (p-uncorr).

Veamos un ejemplo muy sencillo. Estudiaremos a continuacin la relacin entre
distintos componentes qumicos de una muestra de vidrios romanos obtenida por
anlisis arqueomtrico (archivo vidrio). Consideremos, por ejemplo, la relacin entre
las distintas proporciones de sodio y aluminio que pueden aparecer. Arrastraremos la
columna NA para ponerla al lado de la columna AL, seleccionaremos ambas columnas
y ejecutaremos la funcin del Men Plot XY graph.















Es fcil de ver que la nube de puntos no es alargada ni se dispone linealmente. Esto
quiere decir que probablemente no hay relacin entre ambas composiciones, o que de
existir, su intensidad es muy baja. Dado que slo una de las variables ha superado
previamente la prueba de Shapiro-Wilk (normalidad) calcularemos el coeficiente de
correlacin de Spearman (Men Statistics Spearman/Kendall).
93













Los resultados son los de esperar. El valor del coeficiente de Spearman (Spearmans rs
=0,18979) est asociado a una probabilidad de la hiptesis de no relacin bastante baja
(p-uncorr = 0,0626), pero no lo suficiente como para rechazarla. Tanto en el caso del
coeficiente de Spearman como en el de Kendall, la probabilidad de la hiptesis de no
relacin es superior a 0,05. Por lo tanto concluiremos que no hay relacin lineal entre
ambas composiciones: la proporcin de aluminio no determina ni ayuda a predecir la
cantidad de sodio en la masa de vidrio, ni viceversa.

Consideremos ahora el caso de la variacin en la composicin de hierro y magnesio. El
diagrama de dispersin correspondiente es:
















La nube de puntos y la elipse del 95% son mucho ms alargadas. Los coeficientes de
correlacin de Spearman y Kendall, por su parte, muestran que la probabilidad de la
hiptesis de no relacin es prcticamente nula
20
, y que el valor de los coeficientes (0,69
el coeficiente rs de Spearman y 0,54 el coeficiente Tau de Kendall) es bastante alto.





20
Una vez ms, se trata de nmeros en notacin exponencial cientfica. Como el nmero que sigue al
exponencial (letra E) es negativo, entonces moveremos el decimal a la izquierda quince posiciones.
7,3828E-15 equivale aqu a 0,000000000000073828.
94









Por consiguiente, en la mayora de muestras analizadas, un contenido alto de hierro va
acompaado de un alto contenido de magnesio. Aunque no hayamos podido concluir
que la cantidad de esos componentes est intencionalmente generada durante el proceso
de produccin, parece que s existe una intencionalidad, no en la cantidad absoluta de
los componentes, sino en la cantidad relativa de unos con otros.
En el Libro de Ejercicios y Problemas podrn encontrarse otros casos de aplicacin prctica de
estas tcnicas y procedimientos.



















95
Relacin entre variables cualitativas y
cuantitativas


En este punto del libro vamos a tratar las relaciones entre variables cuantitativas y
factores cualitativos. En este caso, la variable numrica representar cierta propiedad
cuantitativa del efecto observado, mientras que el factor causal tendr tantos niveles
como hiptesis cualitativamente diferentes hayamos podido argumentar.
PAST tiene una manera muy particular de representar los niveles de un factor
cualitativo. Otros programas de clculos estadsticos, como SPSS, se limitan a
representarlos como una variable adicional, esto es, una columna en la que cada nivel
tiene una etiqueta numrica: 1=hombre; 2=mujer. El programa contiene entonces las
funciones necesarias para dividir los datos en dos poblaciones distintas y comparar sus
valores: la media de las tumbas de los hombres con la media de las tumbas de mujeres,
y as sucesivamente. Eso no es posible en la versin actual de PAST. Al usar este
programa debemos dividir los datos en tantas poblaciones como niveles tenga el factor,
y cada poblacin se tendr que representar como una columna. Necesitaremos entonces
una columna para las tumbas masculinas, otra columna para las tumbas femeninas, o
bien, una columna para los contenedores de agua, otra columna para los contenedores
de vidrio, etc.
La mejor manera de adaptar los datos originales al formato necesario para comparar
niveles de un factor es usando el programa Excel, seleccionando all los datos que
tengan el mismo valor de la variable cualitativa y pegndolos como una columna nueva
en un nuevo archivo de PAST.
Es lo que hemos hecho con el archivo lanzas. Aqu los niveles del Factor Materia
son dos: bronce y hierro. En Excel (Men DatosFiltraFiltro Automtico)
seleccionaremos el valor MATERIA=1 (bronce) y pegaremos todas las observaciones
as seleccionadas en un nuevo archivo de PAST (lanzas2). Lo mismo haremos con el
valor MATERIA=2, aadiendo la nueva columna al lado de la anterior. Obviamente,
deberemos distinguir el nombre de la columna indicando que se trata de lanzas de hierro
o de bronce. En este caso nos hemos limitado a aadir un 1 un 2 para distinguir si se
trata del conjunto de medidas de las lanzas de bronce o de hierro.

96

La mejor manera de empezar el anlisis de la relacin entre una variable cualitativa
(factor) y una variable cuantitativa es usando un grfico. PAST nos permite representar
la variabilidad cuantitativa de cada nivel de un factor mediante un diagrama de caja.























Hemos arrastrado la columna que corresponde al peso de las lanzas de bronce (peso1)
junto a la columna que contiene los datos del peso de las lanzas de hierro (peso2). A
continuacin seleccionamos ambas y ejecutamos la funcin Plot Box plot (grfico de
Caja). Para entender este grfico, veamos con ms detalle los distintos valores del peso
de las lanzas de bronce (peso1):

67,70 204,50 170,30 176,80 543,20 628,20 401,00 302,40 623,50 978,90 607,90
165,60 307,90 192,40 524,70 111,20 178,70 273,40 1304,40 238,80

Si los ordenamos de menor a mayor tenemos:

67,70 111,20 165,60 170,30 176,80 178,70 192,40 204,50 238,80 273,40 302,40 307,90
401,00 524,70 543,20 607,90 623,50 628,20 978,90 1304,40

Hay 20 medidas. Busquemos la punta de lanza cuyo valor es tal que el 25% de todas las
observaciones es menor y el 75% es mayor. Como el 25% de 20 es 5, buscaremos la
quinta punta de lanza con menor peso (176,80). Del mismo modo, buscaremos la punta
de lanza cuyo valor es tal que el 25% de todas las observaciones es mayor y el 75% es
menor. Como el 25% de 20 es 5, buscaremos la quinta punta de lanza con mayor peso
(607,90). El grfico de caja usa estos dos valores para dibujar la caja central, es decir,
un rectngulo cuyo lado inferior se sita en el punto 176,80 del eje vertical y cuyo lado
superior se sita en el punto 607,90 del mismo eje. Como es lgico, cuanta mayor
diferencia exista entre estos dos valores, ms alargada ser la caja, lo que quiere decir
97
que mayor ser la dispersin y la variabilidad de la mayora de los datos (dentro de la
caja se coloca el 50% de todas las observaciones). En el centro de la caja aparece
marcada la mediana, y en los extremos de cada grfico la longitud de los segmentos a
lado y lado de la caja representa la diferencia que hay entre los valores que delimitan el
intervalo central y los valores extremos de cada serie.

Resulta fcil de ver en el grfico anterior que la variabilidad de peso de las puntas de
lanza es prcticamente idntica en cada una de las circunstancias sealadas por los
niveles del factor Materia. La longitud de la caja y la ubicacin de la mediana es
prcticamente igual, y slo se diferencia por la aparicin de un valor extremo (una lanza
muy pesada) entre las de hierro.

Este tipo de grfico puede realizarse para todos los niveles de un factor como sea
necesario, aunque el nmero de observaciones en cada uno no sea igual. Por ejemplo,
en el archivo helenstico, el factor Cronologa tiene 28 niveles que corresponden a
28 perodos sucesivos: 1) 115- 50 a. n. e. , 2) 115- 86 a. n. e. , 3) 125- 86
a. n. e. , 4) 150- 110 a. n. e. , 5) 150- 125 a. n. e. , 6) 150- 50 a. n. e. , 7) 150-
86 a. n. e. , 8) 160- 130 a. n. e. , 9) 175- 150 a. n. e. , 10) 190- 160 a. n. e. ,
11) 200- 125 a. n. e. , 12) 200- 150 a. n. e. , 13) 225- 165 a. n. e. , 14) 225-
175 a. n. e. , 15) 225- 180 a. n. e. , 16) 225- 190 a. n. e. , 17) 250- 175 a. n. e. ,
18) 250- 215 a. n. e. , 19) 250- 225 a. n. e. , 20) 275- 175 a. n. e. , 21) 280-
250 a. n. e. , 22) 300- 200 a. n. e. , 23) 300- 215 a. n. e. , 24) 300- 250 a. n. e. ,
25) 300- 265 a. n. e. , 26) 325- 250 a. n. e. , 27) 325- 260 a. n. e. , 28) 325-
275 a. n. e. No es relevante aqu si los perodos tienen la misma duracin o no.
Simplemente deseamos comparar si la composicin de la pasta de unas cermicas
helensticas del gora de Atenas vara con respecto al factor Cronologa. Con ayuda
de Excel y usando el procedimiento de seleccin antes explicado seleccionaremos tres
de esos niveles: uno de los ms antiguos (300-265 a.n.e.), el ms reciente (115-50 a.n.e.)
y uno intermedio (250-215 a.n.e.). Compararemos la presencia de hierro y calcio como
materiales traza en la composicin (partes por milln). Los datos organizados en niveles
aparecen en el archivo helenstico2.
















Arrastraremos las distintas columnas que muestran la variabilidad de la composicin de
hierro (FE) de manera que sean contiguos los tres niveles cronolgicos a analizar. La
funcin Plot Box Plot nos proporcionar los grficos que necesitamos.
98

















Relacin cronologa /hierro Relacin cronologa /calcio
1 2 3 4
Sample
4E4
5E4
6E4
7E4
1 2 3 4
Sample
1E5
2E5
Y
Y

Las tres columnas se ordenan de la ms reciente (izquierda) a la ms antigua (derecha).
Vemos fcilmente que no parece haber una relacin entre la composicin y la
cronologa, ya que la variabilidad (longitud de la caja) no vara a medida que se pasa de
un perodo a otro (es decir, vara la cronologa). Las medianas de la cantidad de hierro o
de la cantidad de calcio estn aproximadamente a la misma altura, lo que significa que
estas propiedades no covaran con la variable cronologa.

Como ya hemos visto en captulos anteriores, los diagramas slo nos dan una primera
impresin de la variabilidad y, en este caso, de la relacin entre factor y propiedad
cuantitativa. Necesitamos contrastar de manera rigurosa la hiptesis que afirme que NO
hay diferencias cuantitativas entre los distintos niveles del factor considerado. Viendo
los grficos creemos que no hay diferencias entre el peso de las lanzas de hierro y las de
bronce, o entre la composicin qumica de las cermicas helensticas de tres perodos
cronolgicos diferentes. Pero, es cierta esa suposicin?

Se dice que existe una relacin o dependencia entre una variable cuantitativa y un factor
cualitativo cuando la media m
1
de los valores cuantitativos en el nivel n
1
del factor es
diferente del valor medio m
2
de la misma variable cuantitativa en el nivel n
2
. Se llega a
esta conclusin cuando la diferencia de las medias observadas m
1
y m
2
es significativa.
Se dice que no existe relacin o quehay independencia entre una variable cuantitativa y
un factor cualitativo cuando la media m
1
de los valores cuantitativos en el nivel n
1
del
factor es igual al valor medio m
2
de la misma variable cuantitativa en el nivel n
2
. Se
hace esta afirmacin cuando la diferencia de las medias observadas m
1
y m
2
no es
significativa. Aqu no hay posibilidad de caracterizar la naturaleza de la relacin ni
medir su intensidad. No podemos decir si sta es lineal o no lineal, positiva o negativa.
Cuando una de las variables implicadas en la relacin es cualitativa, lo nico que
podemos decir es si hay o no hay relacin.

99
Cuando estudiemos un factor con tan slo dos niveles y las observaciones de cada nivel
del factor se distribuyan normalmente
21
usaremos una prueba de comparacin de medias
denominada prueba t de Student
22
. Esta prueba es muy sencilla: consiste en calcular el
cociente de la diferencia de las medias y la diferencia de las desviaciones tpicas. Es
importante tener en cuenta que la prueba t de Student slo es aplicable cuando las
varianzas son iguales. Necesitamos, por tanto, comparar primero las varianzas y una vez
que stas son adecuadamente similares, comparar las medias. La prueba de comparacin
de varianzas es la prueba F, que consiste en sacar el cociente de la varianza mayor entre
la menor de las dos poblaciones comparadas. Por lo tanto, si la prueba F es negativa,
entonces debern usarse con mucha precaucin los resultados de la prueba t.

















En PAST moveremos las columnas que representan cada uno de los niveles del factor
de manera que las columnas a relacionar queden una al lado de la otra. Habiendo
seleccionando las dos columnas ejecutaremos la funcin Statistics F and t tests (two
samples) (pruebas F y t (dos muestras)). El programa nos proporciona en una ventana
de resultados el valor de los estadsticos F y t y la probabilidad de que las varianzas o
las medias de las poblaciones originales sean las mismas. En la ventana de resultados
aparece adems un resultado de t basado en el supuesto de no igualdad de varianzas
(Uneq. var. t) (prueba de Welch), que debe usarse en ese caso.

Vamos a interpretar los resultados que aparecen en esa ventana. En general, y como ya
hicimos en el caso de las pruebas de normalidad, no nos interesa tanto el valor de dichas
pruebas, sino la interpretacin de dichos resultados en trminos de la hiptesis nula que
afirma la ausencia de relacin y lo aleatorio de las diferencias observadas en la variable
cuantitativa. As, usando los datos del archivo lanzas2, vemos que las lanzas de
bronce tienen un peso medio (mean media-) de 400,8 gr. frente a un peso medio de
las lanzas de hierro de 484,97. Antes de comparar esas medias, compararemos las
varianzas respectivas. La varianza es mayor en el caso del peso de las lanzas de hierro

21
La prueba de Shapiro-Wilk para una distribucin con respecto a la distribucin normal puede
proporcionar una idea acerca de este supuesto. Esa prueba ya ha sido explicada detalladamente en el
captulo sobre la Ley Normal.
22
No es que esta prueba fuese diseada por un estudiante. Su nombre se debe a que quien la invent, el
seor Gossett, trabajaba para la marca de cervezas Guinness, y sta obligaba a sus empleados a publicar
sus investigaciones con un apodo.
100
que en el caso de las de bronce; ello es indicio que la variabilidad de estas ltimas es
mayor. En este caso la prueba F muestra que la hiptesis de igualdad de varianzas no se
cumple -p(same variance)- puesto que el resultado es de 0,024. Para interpretar el
resultado recurriremos al mismo principio general que hemos mencionado
repetidamente:

Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que ambas varianzas son distintas. Si por el contrario p(same
variance) es un nmero mayor de 0,050 concluiremos que los datos observados
constituyen un subconjunto de una poblacin general, cuya varianza es igual.

El valor de la prueba t que proporciona el programa no sera, pues, todo lo fiable que
sera de desear, ya que no se cumple la condicin previa de igualdad de varianzas.
PAST nos ofrece la Prueba de Welch para contrastar la significacin de t en estos casos.
Nos fijaremos en el resultado Uneq. Var. T (prueba t en el caso de varianzas distintas).
En este caso, para un valor t =-0,61081, la probabilidad de la hiptesis de no relacin es
de 0,54.

Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que ambas medias son distintas, y por tanto que hay relacin
entre el factor y la variable cuantitativa, pues la propiedad cuantitativa tiene valores
significativamente distintos en los distintos niveles del factor. Si por el contrario
p(same mean) es un nmero mayor de 0,050, concluiremos que los niveles del factor
no pueden diferenciarse con respecto a la propiedad cuantitativa en cuestin y por
tanto NO podremos afirmar la existencia de una relacin entre el factor y la
propiedad cuantitativa.

Concluiremos que en este caso del peso de lanzas de hierro y bronce el valor de p no es
claramente superior a 0,050, por lo que no hay diferencias entre ambas muestras, y por
tanto, tampoco hay relacin pues la variable cualitativa (materia) no co-vara con el
peso de los artefactos. Las diferencias observadas del factor cualitativo no explican las
diferencias cuantitativas.

PAST nos ofrece una funcin estadstica alternativa que ayuda a interpretar los
resultados de la prueba t cuando el nmero de observaciones es muy pequeo (inferior a
15). La prueba permutation t test (prueba t de permutacin) que se indica en la ltima
fila de la ventana de resultados compara el estadstico t observado (diferencia
normalizada entre medias) con el estadstico t calculado en 1000 (u otro valor
seleccionado por el usuario) repeticiones aleatorias de pares. Esta prueba proporciona
resultados ms exactos que la prueba t genrica en el caso de distribuciones no normales
o muestras pequeas. En este caso su resultado es perfectamente coincidente con el
obtenido por la prueba usual. As, en el ejemplo antes mencionado se demostrara que
no hay relacin entre el peso y la materia en la que se fabricaron las lanzas.

Supongamos que no tenemos los datos reales que describen cada nivel del factor
considerado, pero s alguna informacin relativa al mismo. Por ejemplo, en determinada
rea geogrfica una quinta parte de los poblados prehistricos identificados destacan de
los dems por su gran superficie, mientras que en un rea geogrfica vecina ninguno
destaca, sino que todos los poblados parecen tener una superficie muy homognea.
Dado que la informacin procede de prospecciones, no disponemos de los valores
101
concretos de superficie construida para cada uno de los poblados de cada una de las
reas. PAST dispone de un programa especfico que nos permite experimentar a gusto
del usuario situaciones como la anterior. Sin necesidad de seleccionar ninguna columna
ejecutaremos la funcin Statistics F and t tests from parameters (Pruebas F y t a
partir de parmetros).











En nuestro caso, Sample 1 (muestra 1) y Sample 2 (muestra 2) corresponden a los
dos niveles del factor rea geogrfica. Hemos visto que en el primer grupo unos
asentamientos se distinguan de la mayora. Eso significa que su varianza ser mayor
que en el segundo nivel, donde todos los poblados tienen una magnitud semejante.

Empecemos a experimentar. En la regin donde las diferencias en la superficie de los
poblados no son muy grandes (poblados de 1 hectrea junto a otros de 1,2, 0,8 incluso
alguno de 0,4), la media y la varianza sern muy pequeas (en un caso la varianza sera
de 1 y en el otro de 0,15). Si las diferencias son muy grandes (poblados de 0,5 hectreas
junto a otros de 5 ha), la media y la varianza sern mucho mayores (en este caso las
varianzas seran 3 y 2,1 respectivamente). Cuan grande ha de ser la diferencia de
medias y varianzas para que los niveles del factor sean diferentes y podamos distinguir
diferencias significativas entre el tamao de los poblados en las dos reas?

Introduzcamos algunos valores en la ventana del programa











El primer supuesto es que en una regin (sample 1) haya 8 poblados bastante distintos
entre s (la extensin de los poblados tienen una varianza de 2,1) frente a otra regin
(sample 2) con 6 poblados mucho ms semejantes entre s (la extensin de los
poblados tienen una varianza de 0,15). En estas circunstancias, cundo las diferencias
seran significativas? Cuando la diferencia en la extensin media de los poblados en
cada regin sea superior a 2 kilmetros cuadrados. Fijmonos que la hiptesis de no
relacin (probabilidad de medias iguales) es claramente inferior a 0,05, tanto en el caso
de que se asuman varianzas iguales como en el caso de que las varianzas demuestren ser
102
distintas (como es este supuesto). Es decir, la relacin entre la localizacin geogrfica
(factor cualitativo) y la extensin construida (variable cuantitativa) depende de la
variabilidad entre regiones del mismo modo que de la variabilidad existente dentro de
cada regin. Lectores y lectoras pueden experimentar libremente, para aprender en qu
condiciones los dos niveles de un factor demuestran estar relacionados con diferencias
significativas en cierta propiedad cuantitativa. Se puede variar la diferencia entre niveles
(diferencia de medias), la diversidad dentro de cada nivel (varianza) y la cantidad de
observaciones. Es fcil de ver que la diferencia de medias es mucho ms relevante para
determinar una relacin entre factor y propiedad cuantitativa que la diferencia de
varianzas o la distinta cantidad de datos de cada uno de los niveles considerados.

Una ltima variante de la prueba t de Student, es aquella que se denomina prueba para
datos apareados. Supongamos que estamos midiendo la forma y la magnitud de unas
fosas, y disponemos de dos medidas de anchura obtenidas en ambos extremos. O
supongamos que para medir la composicin mineralgica de la pasta de ciertas
cermicas hemos analizado por separado dos muestras de cada recipiente. En estos
casos los datos no son independientes, ya que lo que en el fondo estamos comparando
son dos medidas de la misma entidad, por lo que requieren de una ligera modificacin
del clculo de significacin de la t. Siempre que estudiemos diferencias dentro de una
misma entidad (por ejemplo la diferencia entre el lado izquierdo y el derecho, la
diferencia entre los extremos de un objeto, etc.) ejecutaremos la funcin Statistics
Paired tests (estadsticas pruebas apareadas), que se llevan a cabo y se interpretan
exactamente igual que como hemos visto hasta ahora.

Antes de pasar al caso en que el factor cualitativo tenga ms de dos niveles,
estudiaremos aquellas circunstancias en las que las observaciones no se distribuyen
normalmente. La condicin de aplicacin de las pruebas que acabamos de desarrollar es
que cada la variable cuantitativa que se est relacionando se distribuya normalmente en
cada una de las subpoblaciones definidas por los niveles del factor cualitativo. Es decir,
la extensin de los poblados debe ser una variable normalizada en la regin 1 y en la
regin 2, el peso debe estar normalizado en las lanzas de bronce y en las lanzas de
hierro, la cantidad de ajuar debe estar normalizada en las tumbas masculinas y en las
tumbas femeninas, etc. Evidentemente, si los valores medidos de la propiedad
cuantitativa no son simtricos alrededor de una medida de tendencia central, la
diferencia entre las medidas de tendencia central para cada nivel del factor no tendr
ningn sentido. No podremos utilizar ni la prueba F ni la prueba t. Tal y como se
argument en el caso de las relaciones cuantitativas, es importante que antes de analizar
la relacin entre dos poblaciones de datos no normales nos planteemos la causa de dicha
normalidad. Nunca insistiremos lo suficiente en el hecho que las pruebas de hiptesis
estadsticas no pueden hacerse con cualquier poblacin de datos, sino con aquellas
evidencias arqueolgicas que se sepa a ciencia cierta que son la consecuencia de
determinada accin intencional, y que su variabilidad no est afectada por otros factores.
En ocasiones, sin embargo, el estudio de la normalidad no puede hacerse y no sabemos
si las medidas se distribuyen simtricamente alrededor de una medida de tendencia
central. En esas circunstancias la prueba U de Mann-Whitney puede usarse para
comprobar si las medianas (y no las medias) de dos niveles de un factor son diferentes,
siempre y cuando cada uno de los niveles tenga ms de 7 observaciones. Esta prueba es
no paramtrica, lo que significa que las distribuciones pueden tener cualquier tipo de
distribucin. Funciona asignndoles un rango ordinal a cada una de las medidas. Es lo
mismo que hicimos en el caso del coeficiente de correlacin de Spearman. Es decir, en
103
lugar de 1,34 36,13 el nmero que sea, ordenaremos todos los valores originales del
menor al mayor y les asignaremos su rango o nmero de orden: 1, 2, 3, 4, 5, etc.
Valores iguales debieran tener el mismo rango, aunque su posicin en la secuencia sea
distinta. Si, por ejemplo, encontramos tres valores iguales a 3,5 a partir del 5 rango,
asignaremos los rangos que les correspondan (por ejemplo, 6, 7 y 8), sumaremos esos
tres rangos (6+7+8) y dividiremos entre el nmero de valores iguales (3). A cada valor
le corresponder, por consiguiente el rango 7. El siguiente valor se situar a partir del
rango 9. La idea es pues ordenar todos los datos de ambas variables segn esos rangos
ordinales, calculndose a continuacin qu variable tiene rangos ms bajos (valores
menores) ms altos (valores mayores).

La prueba de Mann-Whitney comparar los rangos medios de los valores en cada nivel
del factor. As, si el rango medio de uno de ellos es mayor que el otro querr decir que
los valores de la propiedad cuantitativa en ese nivel son mayores que en el otro nivel.



Seleccionando dos columnas adyacentes y ejecutando la funcin Statistics Mann-
Whitney, PAST nos proporcionar el resultado de la prueba y la probabilidad de la
hiptesis de no relacin (diferencias aleatorias entre los rangos medios).

Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que los rangos promedios son distintos en cada nivel, y por tanto
hay relacin entre el factor y la variable cuantitativa, pues la propiedad cuantitativa
tiene valores significativamente distintos en los distintos niveles del factor. Si por el
contrario p(same) es un nmero mayor de 0,050 concluiremos que los niveles del
factor no pueden diferenciarse con respecto a la propiedad cuantitativa en cuestin y
por tanto NO podremos afirmar la existencia de una relacin entre factor y propiedad
cuantitativa.

En el ejemplo que aqu aparece (archivo lanzas2), la probabilidad de la hiptesis nula
es bastante alta, por lo que no existe relacin entre la materia de la punta de lanza y la
longitud mxima de las puntas, ya que no se registran diferencias apreciables entre los
valores de longitud mxima medidos en uno y otro nivel del factor materia.

Mientras que las pruebas F y t comparaban los estadsticos univariantes que
caracterizaban cada uno de los niveles del factor, laprueba de Kolmogorov-Smirnov
104
(dos muestras) compara la forma global de la distribucin de los valores, sin asumir
que alguna de ellas est normalizada. Esta prueba puede usarse para comprobar si dos
distribuciones independientes de datos numricos no divididos en intervalos son
distintas. Si lo que se desea es comprobar si los valores de un nivel son mayores o
menores que los de otro nivel habr de usarse la prueba anteriormente citada de Mann-
Whitney.

El procedimiento para la prueba de Kolmogorov-Smirnov en PAST es semejante al de
las restantes pruebas de hiptesis estadsticas. Arrastrando y moviendo las columnas que
nos interese y seleccionando finalmente dos columnas adyacentes, ejecutaremos la
funcin StatisticsKolmogorov-Smirnov (two samples).



Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que las distribuciones de valores son globalmente distintas en
cada nivel, y por tanto que hay relacin entre el factor y la variable cuantitativa, pues
la propiedad cuantitativa tiene valores significativamente distintos en los distintos
niveles del factor. Si por el contrario p(same) es un nmero mayor de 0,050,
concluiremos que los niveles del factor no pueden diferenciarse con respecto a la
propiedad cuantitativa en cuestin y por tanto NO podremos afirmar la existencia de
una relacin entre factor y propiedad cuantitativa.

Tal y como veamos en el ejemplo de la prueba de Mann-Whitney, en este ejemplo la
probabilidad de la Hiptesis Nula es bastante alta, por lo que no podemos concluir que
exista relacin entre la materia de la punta de lanza (factor) y la longitud mxima de las
puntas (propiedad cuantitativa), ya que no se registran diferencias apreciables entre los
valores de longitud mxima medidos en uno y otro nivel del factor materia.

Cuando el factor analizado se presenta en ms de dos niveles, los clculos que debemos
hacer para contrastar la hiptesis de no relacin son algo distintos. Supongamos que
queremos averiguar las variaciones de textura observadas en la superficie de unos
instrumentos lticos (huellas de uso) que han sido sometidos a varias actividades:
machacar races, triturar pigmentos vegetales, cortar juncos, etc. En este caso tenemos
ms de dos categoras. Sera tambin el caso de comparar la composicin arqueomtrica
de unos artefactos divididos en cuatro o ms grupos tipolgicos o morfofuncionales, o
bien el caso de comparar las caractersticas de unos artefactos procedentes de varios
perodos histricos o fases estratigrficamente delimitadas.

105
El Anlisis se denomina anlisis de varianza, puede que para muchos ms conocido
por sus siglas en ingls ANOVA (Analysis of Variance).


Analisis de Varianza Univariante
El anlisis de varianza es tambin un mtodo de comparacin de medias. Plantea las
dos hiptesis siguientes:
HIPTESIS NULA: las medias de cada una de las categoras o niveles del factor
cualitativo son iguales, es decir, no tenemos una poblacin distinta para cada
categora, sino una sola poblacin resultado de una nica accin causal.
(Siempre y cuando la distribucin observada sea normal, es decir, intencional).
HIPTESIS ALTERNATIVA: la media de la variable cuantitativa en cada uno de los
niveles del factor es distinta, por lo que cada nivel distingue poblaciones
diferenciadas con su propia accin causal. (Siempre y cuando la distribucin
observada sea normal, es decir, intencional).
Estas dos hiptesis se comprueban a partir del clculo de la variabilidad de los valores
medios de la propiedad cuantitativa en los distintos niveles del factor cualitativo.

Si los niveles del factor no separasen poblaciones diferentes sera lgico suponer que la
media de cada uno de los grupos se parecer a la media de los dems (las variaciones
entre las medias se debern nicamente a la influencia del azar), siendo por tanto muy
pequea la varianza de dichas medias. Si por el contrario el factor cualitativo distingue
poblaciones que tienen medias muy diferentes del valor cuantitativo, las diferencias
entre la media de cada uno de los grupos exceder de la influencia atribuida al azar, y la
varianza de todas las medias ser mayor que en el caso contrario. Diremos que no existe
relacin entre la variable cuantitativa y el factor cualitativo cuando el valor medio
cuantitativo sea el mismo en los grupos cualitativamente determinados por el factor.
Esto significa que el valor medio es independiente del nivel del factor. Por el contrario,
existir relacin cuando el valor medio de la variable cuantitativa nos permita distinguir
entre las distintas realizaciones de la accin causal (niveles del factor).

El anlisis de varianza, por tanto, compara la varianza observada entre las medias de
una misma variable cuantitativa correspondientes a los distintos niveles de un factor
cualitativo, con la varianza que debera observarse en el caso de que la hiptesis nula
fuese verdadera.
No es preciso que los niveles que hemos de comparar de un factor tengan el mismo
nmero de datos.
Aunque la descripcin que aparece a continuacin pueda parecer muy complicada en
una primera lectura, conviene destacar que el anlisis de varianza no es ms que una
prueba t multiplicada por todos los niveles adicionales. En realidad, si calculsemos un
anlisis de varianza de un factor con slo dos niveles (por ejemplo, tintes
vegetales/tintes minerales, aprovechamiento de cormorn/aprovechamiento de pingino)
el resultado sera idntico que el de la prueba t de Student.
106
Las varianzas se calculan con arreglo al principio general ya estudiado en el captulo
dedicado a la estadstica univariante:
(una varianza) es una medida del grado de dispersin de los datos con respecto
a un punto de referencia (tendencia central). Empezamos definiendo el punto de
referencia: la media. La desviacin con respecto a la media no es ms que la
diferencia entre cada valor observado y dicho punto de referencia central. Al
elevar al cuadrado cada una de las desviaciones, todas las desviaciones con
respecto a la media sern valores no negativos (positivos o cero). A
continuacin sumamos todas las diferencias al cuadrado, y dividimos el
resultado entre el total de observaciones menos 1.
Necesitamos calcular por un lado la varianza entre las medias de los distintos niveles
(perodos cronolgicos en este caso), y por el otro la varianza de todas las observaciones,
prescindiendo del hecho de que estn divididas en grupos definidos por los niveles del
factor. La primera varianza la denominamos varianza entre grupos y se calcula como

Suma del cuadrado de las medias de cada categora Suma Total / Nmero total de observaciones
______________________________________________________________________________________________________________________________________
Nmero de niveles del factor 1


Su numerador recibe el nombre de suma de cuadrados correspondiente a la varianza
entre-grupos. El denominador indica el nmero de grados de libertad de dicha varianza.
El valor resultante muestra, por tanto, la varianza de una medida entre tantos niveles de
un factor como hayan sido definidos.
Una vez conocida la varianza de las medias, pasamos a calcular la varianza de las
observaciones en cada uno de los perodos cronolgicos usando el procedimiento
general. Si calculamos la media ponderada de las varianzas de cada columna,
obtendremos la varianza intra-grupo o residual. Esta variabilidad es debida a la
variabilidad propia de los individuos, y no tiene nada que ver con la existencia de
grupos o niveles. Por eso en algunas ocasiones se denomina varianza residual o
incluso error. Se define como varianza total a la media ponderada de lavarianza entre-
grupos y residual. Recibe este nombre porque es la varianza entre todos los datos del
anlisis.
Al mencionar ms arriba la prueba F de igualdad de varianzas vimos que a diferencia de
las medias, que se comparan estudiando su diferencia, las varianzas se comparan
dividiendo la mayor entre la menor. Eso es lo que hace el anlisis de varianza: dividir la
varianza entre grupos por la varianza intra-grupos, usando el resultado de ese cociente
para ver si la hiptesis nula se cumple o no.
No es tan complicado como pueda parecer. Para explicarlo, usaremos el ejemplo antes
citado al comentar los diagramas de caja: la variacin cronolgica de la composicin de
la pasta de unas cermicas helensticas del gora de Atenas. Habamos seleccionado
tres de esos niveles: uno de los ms antiguos (300-265 BC), otro ms reciente (115-50
BC) y uno intermedio (250-215 BC), y habamos estudiado grficamente la variacin de
la presencia de hierro y calcio como materiales traza en la composicin (partes por
milln). Los datos organizados en niveles aparecen en el archivo helenstico2. En
PAST agruparemos en primer lugar las columnas (una por nivel del factor cualitativo)
107
que deseemos analizar, seleccionaremos todas ellas y ejecutaremos la funcin
Statistics One-way ANOVA (anlisis de varianza de una direccin).


PAST proporciona dos ventanas de resultados para el anlisis de varianza. La primera
ventana contiene los resultados propiamente dichos de la prueba. Divide las distintas
fuentes de variacin como ya hemos visto en varianza entre grupos (between groups)
y varianza intra grupo (within group). Sabiendo que la frmula general de la varianza
es un cociente entre la suma al cuadrado de las desviaciones con respecto a la media y
el nmero de desviaciones calculadas (o grados de libertad), PAST divide los
resultados en el numerador (Sum of squares o suma de cuadrados) y el denominador
(df degrees of freedom- o grados de libertad). Recordemos que en este caso el factor
est dividido en tres niveles (3 perodos), por lo que el denominador de la varianza
entre-grupos (los grados de libertad) ser:
Nmero de niveles del factor 1
Por consiguiente, en el ejemplo que tratamos tenemos 2 grados de libertad. En el caso
de la varianza intra-grupos, como estamos ponderando la varianza media de cada uno de
los niveles del factor, el denominador (los grados de libertad) ser:
Nmero de observaciones-niveles del factor
En el ejemplo al que hacemos referencia, dado que tenemos 20 datos, el denominador de
la varianza intra-grupo ser 17.
Y cul es el resultado de todo esto? El valor de cada varianza aparece bajo la columna
Mean square (cuadrado medio)
23
, y el valor de la prueba bajo la etiqueta F. Pero

23
Recordemos que PAST tiene tendencia a proporcionar los resultados en notacin exponencial cientfica.
E8 significa que el decimal debe moverse a la derecha ocho posiciones; E7 significa que el decimal debe
moverse a la derecha siete posiciones. 1,28234E8 es en realidad 128234000; 6,41172E7 se convierte en
64117200, y as sucesivamente.
108
como siempre, no nos fijaremos tanto en los valores absolutos de la prueba sino en la
probabilidad de la hiptesis de no relacin (p(same)):
Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que la varianza de cada nivel es distinta, y por tanto que hay
relacin entre el factor y la variable cuantitativa, pues la propiedad cuantitativa vara
significativamente en los distintos niveles del factor. Si por el contrario p(same) es un
nmero mayor de 0,050, concluiremos que los niveles del factor no pueden
diferenciarse con respecto a la propiedad cuantitativa en cuestin y por tanto NO
podremos afirmar la existencia de una relacin entre factor y propiedad cuantitativa.
En el caso de la composicin arqueomtrica de las cermicas helensticas del gora de
Atenas, la hiptesis de no relacin es bastante probable p(same): 0,6605-, por lo que
concluiremos diciendo que la proporcin de hierro en la fabricacin de esas cermicas
NO vara con el paso del tiempo.
PAST proporciona adems una prueba de igualdad de varianzas entre los niveles del
factor, lo cual, como vimos anteriormente en el caso de la comparacin de medias es un
requisito antes de evaluar el resultado del anlisis de varianza propiamente dicho: los
valores en cada nivel deben estar, por un lado normalmente distribuidos (ser simtricos
y regulares alrededor de la tendencia central), y por el otro ser comparables. Si estas
condiciones no se cumplen, habra que elegir otra prueba (el test de Welch, que corrige
la probabilidad de la hiptesis de no relacin cuando las varianzas de los diferentes
niveles son iguales, o incluso, como veremos ms adelante, la prueba de Kruskal-
Wallis).
Finalmente, PAST proporciona una segunda ventana de resultados que contiene una
matriz de las comparaciones por pares de los distintos niveles del factor. No slo
debemos averiguar si hay o no hay diferencias entre todos los niveles, sino determinar
entre qu niveles en concreto hay diferencias. Una vez que sabemos que hay diferencias
en las varianzas en general, tendramos que ver si la media de cada nivel es diferente a
la media de los otros niveles. Este procedimiento se lleva a cabo mediante la prueba
HSD
24
de Tukey. Esta prueba se basa en el estadstico Q, que es una prueba de
comparacin de medias semejante a la t de Student y que usa para evaluar la
significabilidad estadstica de las diferencias entre los distintos niveles. Esta prueba
tiende a producir unos valores de probabilidad de la hiptesis de no relacin un tanto
elevados, por lo que sera de inters elevar un poco el umbral de significacin, con lo
que la regla para interpretar el resultado queda del modo siguiente:
Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,080 (8%), diremos que ambas medias son distintas, y por tanto la propiedad
cuantitativa tiene valores significativamente distintos en estos niveles del factor (pero
no necesariamente entre otros niveles). Si por el contrario la probabilidad es un
nmero mayor de 0,080 concluiremos que estos niveles en concreto del factor no
pueden diferenciarse con respecto a la propiedad cuantitativa en cuestin
25
.

24
Acrnimo en ingls de Honestly Significant Difference o diferencias honestamente significativas.
25
El valor de significacin en esta prueba es distinto al que venamos considerando: 0,08 y no 0,05 como
en las otras pruebas. Este hecho suele ser olvidado en muchos manuales y a veces es motivo de ciertos
reparos a la hora de elegir esta prueba. Pruebas ms complejas como la de Scheff pueden parecer ms
ortodoxas, pero la prueba HSD de Tuckey es mucho ms sencilla e intuitiva.
109
PAST proporciona los resultados de la prueba de Tukey en forma de una matriz:

FEperiodo1 FEperiodo18 FEperiodo25
FEperiodo1 0 0,6137 0,7892
FEperiodo18 1,352 0 0,9532
FEperiodo25 0,934 0,4178 0
Aprendimos a leer esta matriz en el caso de las correlaciones. Recordemos que la
diagonal es la comparacin de cada nivel consigo mismo, y por tanto no nos interesa.
Ms que el valor de la prueba (comparacin de medias) que aparece en la mitad inferior
(en negrita), nos interesa la probabilidad de la hiptesis de no relacin, que aparece en la
mitad superior derecha de la matriz. En este ejemplo, la hiptesis de no relacin es muy
probable en todas las comparaciones de niveles entre s. Este resultado era de esperar, ya
que la primera parte del anlisis de varianza haba determinado la independencia de la
proporcin de hierro con respecto al paso del tiempo. Si el resultado del anlisis de
varianza afirma la inexistencia de relacin y de diferencias entre los niveles, entonces
los resultados de la prueba HSD de Tukey sern equivalentes. El inters de la prueba
radica precisamente en localizar dnde estn las diferencias, en el caso en que el anlisis
de varianza haya eliminado la probabilidad de la hiptesis de no relacin.
En el ejemplo que acabamos de utilizar, el anlisis de varianza nos permite concluir que
el paso del tiempo no explica las diferencias observadas en la cantidad de hierro usada
para la fabricacin de estas cermicas helensticas. Si la explicacin de la variabilidad
compositiva no est en el perodo cronolgico, quizs la variacin morfofuncional
(tipolgica) s la explique. Usaremos Excel de la forma explicada al inicio de este
captulo para preparar un nuevo archivo en el que cada columna registrar las
mediciones arqueomtricas de la proporcin de hierro para distintos tipos cermicos
(archivo helenstico 3).








Hemos seleccionado dos formas distintas de jarras para agua (tipos 19 y 21), un
kantharos (tipo 24), y dos formas distintas de cacerola (en griego clsico: lopas) (tipos
11 y 13). Seleccionando las cinco columnas y ejecutando Statistics One-way ANOVA,
obtenemos los siguientes resultados:

110









La probabilidad de la hiptesis de no relacin es muy baja (5,175E-9 equivale a
0,00005175), por lo que concluiremos que existe relacin entre la cantidad de hierro
usada en la fabricacin de las cermicas y el tipo morfofuncional del recipiente. La
prueba HSD de Tukey nos permite demostrar que el tipo 21 tiene la misma cantidad
proporcional de hierro que el tipo 13, y distinta cantidad a la de los tipos 24, 19 y 11. El
tipo 24 tiene la misma composicin que el tipo 19 y el tipo 11, y distinta a la de los tipos
21 y 13. El tipo 19 tiene la misma composicin que los tipos 24 y 11, pero distinta a la
de los tipos 21 y 13. El tipo 11 tiene la misma composicin que los tipos 24 y 19, pero
distinta a la de los tipos 21 y 13. Y finalmente, el tipo 13 tiene la misma composicin de
hierro que el tipo 21, y distinta composicin que los tipos 24, 19 y 11. En definitiva: el
anlisis pone de manifiesto dos grandes conjuntos: uno conformado por los tipos 21 y
13 y otro por los tipos 24, 19 y 11. Tenemos un primer conjunto formado por un tipo de
jarra para agua y un tipo de cacerola frente a otro conjunto formado por otro tipo de
jarra para agua, otro tipo de cacerola y un kantharos. Es decir, estamos en presencia de
un caso en que a igualdad de tipo morfofuncional, distinta composicin; compartiendo
composicin aquellos recipientes que tienen distinta forma y funcin.
Cuando medias o varianzas son desconocidas o no pueden calcularse por la razn que
sea, podremos aplicar la prueba de Kruskal-Wallis, que es una alternativa no
paramtrica al anlisis de varianza, de la misma manera que la prueba de Mann-Whitney
era una alternativa no paramtrica a la prueba t de Student. Estudia la hiptesis de no
relacin (si las observaciones en los distintos niveles del factor proceden de una misma
poblacin), a partir de los rangos promedio y la suma de rangos en cada uno de los
niveles. Ya utilizamos esta estrategia en ocasiones anteriores. Como vimos en el
coeficiente de correlacin de Spearman o en la prueba de Mann-Whitney, se sustituan
los valores observados por su posicin ordinal. La idea es ordenar todos datos de todos
los niveles segn esos rangos ordinales, calculndose a continuacin qu nivel concentra
rangos ms bajos (valores menores) ms altos (valores mayores).
Tras mover, agrupar y seleccionar las columnas que nos interesan, ejecutaremos la
funcin StatisticsKruskal-Wallis. En el caso anteriormente mencionado de la relacin
entre las trazas de hierro en la composicin de las cermicas helensticas y el factor
111
cronolgico (archivo helenstico 2), obtendremos los valores que siguen a
continuacin:








Como de costumbre, nos fijaremos en la probabilidad de la hiptesis de no relacin
(p(same)).
Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que la variable cuantitativa se ordena en rangos de manera
distinta en cada nivel, y por tanto que hay relacin entre el factor y la variable
cuantitativa, pues la propiedad cuantitativa vara significativamente en los distintos
niveles del factor. Si por el contrario p(same) es un nmero mayor de 0,050,
concluiremos que los niveles del factor no pueden diferenciarse con respecto a la
propiedad cuantitativa en cuestin y por tanto NO podremos afirmar la existencia de
una relacin entre factor y propiedad cuantitativa.

En este caso p(same) tiene un valor muy alto (0,579), por lo que concluiremos que no
habiendo diferencias ordinales apreciables en los distintos niveles cronolgicos, no hay
relacin entre las trazas de hierro en la composicin y el paso del tiempo. Por el
contrario, en el caso de la relacin entre las trazas de hierro en la composicin y el
factor morfofuncional de las cermicas (archivo helenstico 3), la probabilidad de la
hiptesis de no relacin est muy por debajo del umbral habitual de 0,050 (el valor en
notacin cientfica 0,5802E-5 equivale a 0,0005802). Por lo que afirmaremos la
existencia de diferencias significativas entre los niveles morfofuncionales y la
proporcin de hierro en la composicin.












112
Al igual que en el caso del anlisis de varianza, PAST ofrece una matriz posterior que
analiza en detalle la presencia o ausencia de diferencias entre cada uno de los niveles. Si
en el caso del anlisis de varianza este anlisis post-hoc estaba basado en la prueba t
para todos los pares posibles de niveles del factor, en el caso del anlisis no paramtrico
est basado en la prueba de Mann-Whitney antes explicada, para comparar los rangos
medios de cada uno de los niveles del factor cualitativo con los dems. La matriz
resultante, con los valores del estadstico en la mitad inferior izquierda, y la
probabilidad de la hiptesis de no relacin en la mitad superior derecha es igual a la que
veamos anteriormente. En este caso, aunque no se cumpla la condicin de normalidad
dentro de cada nivel, los resultados del anlisis de varianza mtrico (ANOVA+prueba t)
y del no paramtrico (Kruskal-Wallis+prueba Mann-Whithney) son iguales.




























113
Relacin entre variables cualitativas






Usaremos PAST para abrir el archivo Prospeccin. Qu tiene de particular esta
matriz de datos?
















Pues tiene de particular que NO es una matriz de datos. Aqu cada fila contiene la suma
total de unos artefactos, mientras que cada columna representa a una poblacin concreta.
En este caso un rea arqueolgica cuyas distintas zonas han sido prospectadas. El
archivo muestra las cantidades totales de distintos tipos de artefactos (hachas, restos de
talla, molinos de piedra de distinto tipo y percutores de caractersticas diversas)
identificados en cinco reas. Es una Tabla de Contingencia.

Las matrices de datos contienen datos individuales ordenados por variables. En las
tablas de contingencia, por el contrario, las filas contienen totales o sumatorias.
Fijmonos en las diferencias existentes entre este archivo y alguno de los archivos
utilizados en el captulo anterior. El archivo Helenstico, por ejemplo, situaba un
artefacto distinto en cada fila, descrito por medio de tantas variables diferentes como
columnas. Por su parte, el archivo Helenstico3 era una ordenacin posterior en el que
un artefacto distinto segua apareciendo en cada fila, pero ahora las columnas ya no
representaban variables, sino conjuntos. La matriz de datos ya no poda leerse como una
configuracin estructurada de filas y columnas, sino como un conjunto de columnas
ordenadas.




114












Nada de eso aparece en el archivo Prospeccin. Es en todo caso, una disposicin
ordenada de casillas o celdas, que constituye la expresin visible de una matriz de datos
del siguiente tipo:













Y qu podemos decir del archivo que contiene la descripcin de una necrpolis? El
archivo necrpolis, usado en los ejercicios de este manual, NO es una Tabla de
Contingencia, si bien es cierto que tampoco es una matriz de datos tpica. Cumple, sin

















115
embargo con el requisito fundamental de las matrices de datos: cada fila contiene un
nico individuo. En este caso una tumba. Puede decirse que tambin contiene
sumatorias y totales: la frecuencia de aparicin de platos lisos, nforas, jarros, etc.
Ahora bien, esos totales, ms que resmenes de una variable cualitativa, son una
variable cuantitativa que puede usarse para afirmar la intensidad de la propiedad
presencia de plato liso, presencia de nfora, presencia de jarro. Cuantos ms objetos de
ese tipo en una tumba, mayor es el valor de la variable.

Esta introduccin es muy importante para entender la naturaleza de las relaciones
cualitativas. El archivo prospeccin no es ms que una manera de disponer los datos
con el fin de analizar la relacin entre dos variables cualitativas: el tipo de artefacto y la
localizacin, en este caso, el lugar o yacimiento arqueolgico en el que se ha contado
esa cantidad de artefactos. Como ya vimos en su momento, relacin significa en este
caso que hay algo que conecta ambas fuentes cualitativas de variacin. No habra
relacin si la suma de frecuencias de cada tipo fuese idntica en cada localizacin, o si
esas frecuencias variasen al azar.

En el mbito ms concreto de la investigacin arqueolgica, diremos que dos variables
cualitativas estarn relacionadas cuando contribuyan a definir un factor cualitativo que
explique las diferentes frecuencias con que aparecen esas calidades en cada uno de los
niveles del factor. El esquema bsico que debiramos seguir es el siguiente:
NIVEL A DE FACTOR F NIVEL B DE FACTOR F
atributo x Si No
atributo y No Si
Estamos ante un planteamiento tpico de prueba de hiptesis estadstica, como hemos
visto en captulos anteriores:
HIPTESIS NULA: las reparticiones observadas (niveles A y B del factor) proceden
de muestras cuyas poblaciones tericas de partida son idnticas.
HIPTESIS ALTERNATIVA: las reparticiones observadas (niveles A y B del factor)
proceden de poblaciones tericas diferentes.
Lo que nos preguntamos es si es ms probable que el atributo x, por ejemplo, aparezca
en el nivel A, o si por el contrario, la probabilidad de que aparezca el atributo x en el
nivel A es la misma de que aparezca en el nivel B. Usando esta terminologa tendramos:
HIPTESIS NULA: la probabilidad que el atributo x aparezca en el nivel A es la
misma de la que aparezca en el nivel B
HIPTESIS ALTERNATIVA: la probabilidad que el atributo x aparezca en el nivel A
es distinta de la que aparezca en el nivel B.

Como es lgico, no resulta obvio cul es el factor y cul la variable dependiente, cul es
la causa y cul el efecto. En este caso podemos suponer que las variaciones
morfofuncionales (tipologa) constituyen la expresin visible de las consecuencias
materiales de una accin social (variable dependiente o efecto observado) que no tiene
116
por qu ser la misma en los distintos lugares (factor o causa probable). El problema
arqueolgico a responder aqu sera si diversidad de acciones sociales que tienen lugar
en distintos lugares afectan a la variabilidad morfofuncional de los artefactos que
aparecen en esos lugares como consecuencia de las acciones concretas que en ellos
tuvieron lugar.

Ya hemos dicho varias veces a lo largo de este manual que arquelogos y arquelogas
debieran elegir, siempre que sea posible, descripciones cuantitativas de los efectos
materiales de la accin social. Pero hay veces en que no tenemos accin. Un concepto
como el de la variabilidad morfofuncional es muy difcil de expresar como una cantidad.
El espacio es ms fcil definirlo cuantitativamente en trminos de coordenadas
geogrficas, pero sucede que en pocas ocasiones disponemos de los tiles necesarios
para realizar ese tipo de medicin. Todo ello nos indica que debemos tener en
consideracin relaciones entre factores cualitativos y variables cualitativas. El estudio
de esas relaciones exige mtodos y procedimientos caractersticos, distintos de los
usados en el estudio de las relaciones cuantitativas y/o semicuantitativas.

El punto de partida es, como no, construir la tabla de contingencia. Este tipo de
disposiciones de datos relacionan dos variables
26
. Las columnas contienen los distintos
niveles del factor independiente, y las filas los distintos valores cualitativos de la
variable dependiente, a razn de una fila diferente para cada valor.

A diferencia de otros programas, PAST no contiene ninguna funcin que pueda contar
el nmero de veces que aparece determinado valor, o el nmero de filas con el mismo
valor en una columna. Por consiguiente, no podremos convertir una matriz de datos
cualitativos en una tabla de contingencia de manera simple. Y eso siempre y cuando el
valor cualitativo haya sido representado mediante un cdigo numrico, como por
ejemplo: 1=presencia; 0=ausencia, o bien, uno ms complejo como el que aparece en
el archivo helenstico: 1) 115- 50 a. n. e. , 2) 115- 86 a. n. e. , 3) 125- 86
a. n. e. , 4) 150- 110 a. n. e. , 5) 150- 125 a. n. e. , 6) 150- 50 a. n. e. , 7) 150-
86 a. n. e. , 8) 160- 130 a. n. e. , 9) 175- 150 a. n. e. , 10) 190- 160 a. n. e. ,
11) 200- 125 a. n. e. , 12) 200- 150 a. n. e. , 13) 225- 165 a. n. e. , 14) 225-
175 a. n. e. , 15) 225- 180 a. n. e. , 16) 225- 190 a. n. e. , 17) 250- 175 a. n. e. ,
18) 250- 215 a. n. e. , 19) 250- 225 a. n. e. , 20) 275- 175 a. n. e. , 21) 280-
250 a. n. e. , 22) 300- 200 a. n. e. , 23) 300- 215 a. n. e. , 24) 300- 250 a. n. e. ,
25) 300- 265 a. n. e. , 26) 325- 250 a. n. e. , 27) 325- 260 a. n. e. , 28) 325-
275 a. n. e.

Abramos el archivo Campaniforme. Se trata de una caracterstica matriz de datos de
presencia/ausencia, codificados mediante 1 y 0. Vamos a estudiar la relacin entre dos
variables cualitativas: la presencia/ausencia de cermica campaniforme de estilo
internacional y la naturaleza del yacimiento (en cueva o a cielo abierto). El
procedimiento es bastante tedioso y consiste en: 1) ordenar la columna que contiene el
factor por medio del comando TransformSort Ascending (ordena en sentido
ascendente), 2) contar el nmero de filas de la columna que contiene la variable
dependiente con el mismo valor para cada uno de los niveles que se han identificado en

26
En programas comerciales como SPSS, es posible crear tablas de contingencia de 3 ms variables.
Pero en estos casos, las pruebas estadsticas pierden mucho de su fiabilidad. El problema de relacionar
ms de dos variables ya sean stas cualitativas o cuantitativas lo veremos en el segundo volumen de esta
serie de publicaciones sobre arqueologa y estadstica.
117
el factor; 3) introducir las frecuencias as contadas en un nuevo archivo. En
campaniforme se describen 35 yacimientos arqueolgicos. 7 de esos yacimientos son
cuevas, pero en ninguna de ellas se han hallado fragmentos de cermica campaniforme
de estilo martimo. Por el contrario, hay cuatro presencias de ese tipo de decoracin
cermica, pero ninguna de ellas se encontr en una cueva. La tabla de contingencia
correspondiente es:

EN CUEVA NO EN CUEVA
DECO. CAMPANIF. INT 0 4
SIN DECO.CAMPANIF. INT 7 24


El caso del archivo aves es mucho ms complicado, ya que se han analizado ms de
5000 fragmentos de huesos de aves de un yacimiento arqueolgico. Para construir la
Tabla de Contingencia usaremos el programa Excel, y pegaremos los resultados en
PAST. Empezaremos creando la estructura de la tabla de contingencia. Nos interesa
relacionar la categoras taxonmicas (Pingino, Cormorn, Aves de Mar Grandes, Aves
de Mar Pequeas, etc,) con el momento de uso del yacimiento (8 fases de ocupacin, de
la ms antigua B, a la ms reciente J ). En realidad esas categoras no son realmente
taxonmicas, sino que que pueden parecer arbitrarias; estn basadas en las posibilidades
de comparacin entre distintos grupos de aves que van ms all de los estrictamente
taxonmico, y que tienen en cuenta las semejanzas etolgicas, de estacionalidad, de
biomasa, etc.




En Excel usaremos el asistente para crear tablas dinmicas en el Men datos.
Seguimos los pasos indicados y cruzamos las variables originales Categora y
Episodio. De todos los episodios, seleccionaremos tan slo aquellos restos seos cuya
ubicacin estratigrfica sea clara e indiscutible, prescindiendo de aquellos fragmentos
que no puedan asociarse a una sola fase de ocupacin.

Una vez generada la tabla dinmica en Excel, copiamos los datos en PAST:




118














Una vez construida la tabla, usaremos el mismo procedimiento que el que hemos
descrito para otro tipo de relaciones, esto es, la comprobacin de la hiptesis de no
relacin mediante una prueba estadstica. En este caso, necesitaremos la prueba de
2
,
tambin conocida como prueba de chi-cuadrado.

El clculo de este procedimiento es muy sencillo e intuitivo. Imaginemos que tenemos
la siguiente tabla de contingencia, en la que se relacionan un factor cualitativo de dos
niveles (tumbas masculinas y femeninas) y una variable cualitativa con slo dos valores
nominales (presencia o ausencia de determinado elemento en el ajuar de la tumba).


PRESENCIA AUSENCIA Total de tumbas
TUMBAS
MASCULINAS
0 24 24
TUMBAS
FEMENINAS
17 4 21
Total de tumbas 17 28 45

Como en los casos anteriores, la prueba compara los datos observados con unos datos
tericos: aquellos que seran de esperar si no hubiesen diferencias significativas. Si se
hubiese detectado el mismo nmero de presencias de ese elemento del ajuar en tumbas
masculinas y femeninas, no habra relacin. Basndonos en esta idea, definiremos las
frecuencias esperadas en el supuesto de no relacin multiplicando los totales de fila y
columna y dividiendo por el nmero total de tumbas, lo que nos permitir averiguar la
frecuencia que sera de esperar de acuerdo con la hiptesis de no relacin:


PRESENCIA AUSENCIA Total de tumbas
TUMBAS
MASCULINAS
0 (17 x 24)/45=9,06 24 (28 x 24)/45=14,9 24
TUMBAS
FEMENINAS
17 (17 x 21)/45=7,9 4 (28 x 21)/45=13,01 21
Total de tumbas 17 28 45

En este caso en concreto, no habra relacin si ese elemento del ajuar apareciese en 9
tumbas masculinas y en 8 tumbas femeninas. La diferencia entre 9 y 8 se debera tan
slo a que en la necrpolis hay ms tumbas masculinas que femeninas. Es fcil de ver
que las frecuencias observadas son distintas a las calculadas de esta manera. La prueba
119
de
2
compara unas y otras de la siguiente manera: se resta la frecuencia observada de
la frecuencia esperada, el resultado de la diferencia se eleva al cuadrado, y a
continuacin se divide por la frecuencia calculada. Sumaremos todas las diferencias as
obtenidas y ya habremos obtenido el valor del estadstico
2
. Slo faltar estudiar la
probabilidad de la hiptesis de no relacin que le corresponde a ese valor, dada una
tabla de contingencia con el nmero de casillas como la que se ha estudiado. Ese valor
lo proporciona el programa, y lo interpretaremos de la manera habitual:
Si la significacin probabilstica de la prueba nos indica una probabilidad menor de
0,050 (5%), diremos que la variable cualitativa tiene una frecuencia de valores
distinta en cada nivel, y por tanto que hay relacin entre el factor y la variable
cualitativa. Si por el contrario p(same) es un nmero mayor de 0,050, concluiremos
que los niveles del factor no pueden diferenciarse con respecto a la propiedad
cualitativa en cuestin y por tanto NO podremos afirmar la existencia de una relacin
entre factor y propiedad cualitativa.
Para realizar el clculo en PAST, seleccionaremos las columnas respectivas,
arrastrndolas si fuese preciso para que estuviesen una al lado de la otra y ejecutaremos
la funcin Statistics Chi^2 (two samples). Debe tenerse en cuenta que las columnas
que deben seleccionarse son numricas (en nuestro caso PRESENCIA y AUSENCIA).
La columna que contiene las etiquetas (tumbas masculinas, Tumbas femeninas) es
alfabtica y no debe incluirse nunca en el estudio. De otro modo, PAST respondera que
no reconoce el tipo de datos.


















PAST nos proporciona la frecuencia de cada uno de los valores nominales de la variable
cualitativa, el valor del estadstico, una medida de la complejidad de la tabla (grados de
libertad), y dos maneras distintas de calcular la probabilidad de la hiptesis de no
relacin.





120









Dejemos de lado por el momento el valor Monte Carlo p(same) y fijmonos en el
p(same) que aparece inmediatamente debajo del valor chi^2. En este caso es un nmero
bajsimo (2,2985E-8 en notacin exponencial equivale a 0,00022985 en notacin
decimal), muy inferior al valor lmite de 0,05. Por ese motivo diremos que cuando vara
el gnero de la persona enterrada, cambia la proporcin de determinado artefacto en la
tumba. Es decir, la presencia de dicho artefacto se relaciona con el gnero y el estatus
social de quien fue depositado en la tumba. Si ese valor p(same) hubiese sido superior a
0,050 habramos concluido que no haba diferencias entre tumbas masculinas y
femeninas y que por tanto la presencia de ese artefacto no estaba relacionada con el
gnero de la persona.

De las dos casillas de la parte inferior de la ventana de resultados (Sample vs. Expected
y One constraint) slo One constraint debe estar seleccionada. En el captulo dedicado a
la prueba de
2
para averiguar la normalidad de variables cualitativas ya se present el
uso de la primera casilla para explicar al programa que la segunda columna no contiene
los valores de otra muestra, sino el valor de una distribucin terica. Como en este caso
estamos comparando dos subpoblaciones (tumbas masculinas y tumbas femeninas)
dejaremos esta casilla sin marcar. One constraint debe marcarse si los valores esperados
han sido normalizados para ajustarse al nmero de observaciones, tal y como es nuestro
caso. El hecho de marcar o no esta casilla afecta al clculo de los grados de libertad
(degrees freedom) y, por tanto, al valor de la probabilidad de la hiptesis nula.

La prueba de
2
se puede aplicar casi en cualquier ocasin en la que se relacionen
variables cualitativas. Requiere, eso s, que las frecuencias calculadas sean mayores de 5.
Eso es a veces un problema en arqueologa, cuando tenemos pocas tumbas sexadas y
analizamos la presencia de objetos poco frecuentes. El mtodo de Monte Carlo para
calcular la probabilidad de la hiptesis de no relacin es til, precisamente, cuando la
cantidad de datos analizados es muy pequea. En el caso anterior produce un resultado
muy semejante al mtodo general, ya que el nmero de tumbas analizadas es bastante
alto.

PAST slo permite comparar dos columnas o dos poblaciones a la vez. Para estudiar
una relacin ms compleja, esto es factores cualitativos con ms de dos niveles
(columnas), debemos ejecutar otro comando de PAST: Statistics Contingency Table.
Ese es el caso del ejemplo que usbamos al iniciar este captulo: la proporcin de
distintos artefactos en cinco reas prospectadas (archivo Prospeccin).





121














La ventana de resultados nos proporciona ahora el tamao de la tabla de contingencia
(M; N:) en este caso, 12 x 5, ya que tenemos 12 tipos de artefactos y 5 reas
diferenciadas. Aparece tambin el valor de la probabilidad de la hiptesis de no relacin
p(no assoc)-, basada en
2
, y el valor de dos nuevos estadsticos que estudiaremos a
continuacin. La hiptesis de no relacin no se cumple en este caso, ya que su
probabilidad es extremadamente baja, seal que hay relacin entre la localizacin de la
accin y la variabilidad morfofuncional de los instrumentos usados y/o producidos en
cada localidad.

Veamos para qu sirven los dos nuevos estadsticos. La V de Cramer (Cramers V) es
una medida de la intensidad de la relacin que se basa en
2
cuadrado. Tiene un valor
entre 0 y 1 y puede alcanzar el 1 para tablas de cualquier dimensin. En nuestro caso
alcanza un valor de 0,251, que es bastante bajo. En general, para valores inferiores a 0,6
deberamos concluir que aunque existan indicios de relacin entre ambas variables
cualitativas, la cantidad de relacin es escasa. Este estadstico complementa el resultado
de la prueba de
2
: el factor causal (la variabilidad espacial) slo explica alrededor de la
cuarta parte (25%) de la variacin en la variable dependiente (la diversidad
morfofuncional). El coeficiente de contingencia (Contingency C) es otra medida de
asociacin basada en
2
. Siempre toma un valor comprendido entre 0 y 1 pero, en
general, no puede llegar a valer 1. Su valor mximo posible depende del nmero de filas
y columnas de la tabla. En general, usaremos la V de Cramer para establecer la
intensidad de relacin entre un factor cualitativo y una variable dependiente cualitativa.

En el ejemplo de la prospeccin hemos descubierto que existe relacin entre
variabilidad morfofuncional de los artefactos y la variabilidad de la localizacin de la
accin social. Sin embargo, an nos falta bastante para caracterizar esta relacin. Para
explicar el hecho de que existe relacin, aunque su intensidad sea baja, deberamos
explorar todos los recovecos de esa relacin. As pues, tendremos que estudiar las
diferencias con que los distintos tipos de artefactos aparecen en todos los pares posibles
de yacimientos. En el caso del AREA 1, nos llevara a comparar este yacimiento con
todos los dems:

COMPARACIN PROBABILIDAD HIPTESIS NULA V DE CRAMER
AREA 1/AREA 2 0,25 0,20
AREA 1/AREA 3 1,362E-5 0,36
AREA 1/AREA 4 8,197E-6 0,40
AREA 1/AREA 5 9,0383E-12 0,43
122

En esta tabla vemos cmo la intensidad de la relacin aumenta a medida que aumentan
las diferencias. Lectores y lectoras pueden seguir este ejemplo, calculando los
estadsticos respectivos al resto de emparejamientos. Puede ser un tanto tedioso, pero es
fcil. Basta con arrastrar las columnas, de manera que aquellas que comparemos estn
una al lado de la otra, las seleccionamos y ejecutamos Statistics Contingency table
para cada par de columnas.

Hay otra manera de realizar ese anlisis profundo de la relacin cualitativa.
Matemticamente hablando es un tipo de anlisis muy complejo, que normalmente no
aparece en los manuales de introduccin. Es considerado por muchos autores como una
tcnica de anlisis multivariante
27
, aunque en realidad se trata tan slo de una manera
grfica e intuitiva de visualizar las diferencias existentes entre las casillas de una tabla
de contingencia. Nos referimos al anlisis de correspondencias.


Analisis de Correspondencias
Este anlisis puede utilizarse para investigar tanto la magnitud como la naturaleza
sustantiva de la relacin entre las filas y las columnas de una tabla de contingencia. El
objetivo primario de esta tcnica estadstica es transformar una tabla con nmeros
indicando las frecuencias de aparicin de distintas cosas o calidades en una
representacin grfica que facilite la interpretacin de dicha informacin. Como tal
debiramos compararlo con los histogramas o diagramas de dispersin que hemos
utilizado en captulos anteriores para describir intuitivamente las caractersticas de la
variacin de los valores de una o varias propiedades cuantitativas.
Vamos a ver cmo es esa representacin grfica. En el archivo Prospeccin
seleccionaremos todas las columnas (en este caso las cinco reas arqueolgicas
prospectadas) y ejecutaremos el comando Multivar Correspondence.










27
Por esa razn el comando para realizar este anlisis aparece en PAST en el Men Multivar. No obstante,
como veremos a continuacin, debiera incluirse como una tcnica de interpretacin de tablas de
contingencia que, por definicin, son bivariantes y no multivariantes.
123
En la parte inferior de la ventana de resultados seleccionaremos View scatter
(visualizar dispersin).












Haciendo doble click en el centro del grfico se abre una ventana que permite modificar
algunos aspectos estticos como el tipo de letra, el reticulado, etc., aunque aqu tampoco
son muchas las posibilidades.







Por otro lado, si previamente se ha creado un cdigo de colores segn cierta categora
(Edit Numbers to color/symbols de nmeros a colores/smbolos), en el diagrama
los tipos distintos aparecern con colores o smbolos diferentes.
El diagrama anterior es el resultado de marcar las casillas Rows (samples) y Rows labels
(filas (muestras); etiquetas de filas), lo que nos permite visualizar un grfico que
convierte las diferencias entre los distintos valores de la variable cualitativa
variabilidad morfofuncional (tipologa), en distancias en el plano. Cuanto ms
alejados estn dos puntos, mayores son las diferencias. Es decir, que en el rea en la que
la prospeccin ha puesto de manifiesto la presencia de gran cantidad de restos de talla
124
aparecen muy pocos molinos de tipo M4. Los puntos que corresponden a esas dos
variables son los ms alejados en el sentido horizontal del grfico. Del mismo modo, all
donde aparecen molinos de tipo M3 aparecen pocos materiales que no sean molinos,
hachas o percutores (categora otros). Es decir, molinos-M3 y otros son los
puntos ms alejados verticalmente en el grfico. Por otro lado, parece como si en las
reas prospectadas donde han aparecido percutores no se hayan encontrado tantos
molinos, y viceversa. Se trata de la misma informacin que veamos en la tabla de
contingencia, pero traducida aqu en distancias geomtricas.
Volvamos a los datos originales, para entender mejor las diferencias que ilustra el
anlisis de correspondencias. En la tabla de contingencia se observa que el rea 2 es la
que tiene ms restos de talla (67), y que tiene relativamente pocos molinos, como no sea








del tipo M4, mientras que en otras reas las proporciones son muy distintas. El anlisis
de correspondencias tambin nos permite visualizar las diferencias entre las reas
prospectadas (representadas como columnas distintas de la tabla) como distancias
geomtricas en el plano. Simplemente retiraremos las marcas de las casillas referidas a
Rows, y marcaremos en su lugar las casillas Column dots y Column labels (puntos de
columna, etiquetas de columna).









125
Finalmente, tenemos la opcin de representar simultneamente las diferencias entre las
filas y las columnas marcando a la vez las casillas de Rows (filas) y Columns
(columnas).









Es fcil de ver que por medio del anlisis de correspondencias intentamos relacionar
tipos de artefactos y yacimientos, de manera que los tipos aparecen en el diagrama cerca
de los yacimientos en los que se encuentran en mayor proporcin. Por otro lado, los
yacimientos parece que se sitan cerca de los tipos de artefacto que mejor los
representan: los que son ms frecuentes en ellos, e infrecuentes en los dems. Adems,
los yacimientos con composiciones arqueolgicas semejantes deben situarse prximos
entre s, mientras que los tipos con una semejante distribucin espacial sern vecinos en
el grfico. Vemos en este caso cmo se distinguen tres conjuntos de reas arqueolgicas:
los emplazamientos 1 y 2, caracterizados por la relevancia de los restos de talla, las
reas 3 y 4, que se distinguen por la relevancia de los molinos de tipo 2 y 3, y
finalmente el rea 5, que se diferencia de todas las dems.
Recordemos que la prueba de
2
nos permiti afirmar la existencia de relacin entre
variabilidad morfofuncional (entre tipos de artefactos) y variabilidad espacial (entre
yacimientos), es decir que las proporciones de los distintos tipos de artefactos
covariaban con las distintas localizaciones. El anlisis de correspondencias nos permite
estudiar ms a fondo la naturaleza de esa relacin. Tal y como lo hemos calculado,
como una sumatoria de diferencias ponderadas entre la frecuencia observada y la
esperada si no hubiese relacin, el estadstico
2
es la suma de las contribuciones de
cada una de las celdas o casillas individuales. En consecuencia, cada casilla de la tabla
contribuye en algo al valor final del estadstico. Si una casilla se diferencia mucho de
una frecuencia esperada, entonces la contribucin de esa celda al valor final ser grande.
Por el contrario, si una casilla se aproxima al valor de su frecuencia esperada, entonces
su contribucin ser muy baja. Un valor muy alto del resultado final de la prueba indica
que en algn punto de la tabla de contingencia las frecuencias observadas son muy
distintas de las esperables si NO hubiese relacin entre el factor cualitativo y la variable
cualitativa. La prueba no nos dice, sin embargo, qu casilla (o casillas) estn
provocando ese valor tan alto, tan slo que por ah estn. Para eso est el anlisis de
correspondencias, que nos dice cmo se diferencian las distintas casillas o celdas de la
tabla.
126

PAST proporciona otro tipo de grfico, adems del que visualiza la relacin entre las
filas y las columnas de la tabla de contingencia. Si hacemos memoria, en la ventana
inicial de resultados, al lado del botn View scatter (visualizar la dispersin) apareca
otro botn: Relay plot (grfico de relevos). Este es un diagrama compuesto que
proporciona un grfico para cada columna analizada (en nuestro caso, niveles del factor
espacio: cada uno de los yacimientos o conjuntos contextualizados de materiales
arqueolgicos). El eje vertical ordena las filas (en nuestro vaso, la variable dependiente
variabilidad morfofuncional: tipo de artefacto) de acuerdo con la coordenada en la
que aparecen en el primero de los ejes que definen el anlisis (relay index). En nuestro
caso, la ordenacin es: RESTOS DE TALLA, PERCUTORES-OTRO, MOLINOS M3,
MOLINOS M2, PERCUTORES P1, PERCUTORES P2, OTROS OBJ ETOS,
MOLINOS M1, PERCUTORES P3, PERCUTORES P4, HACHAS, MOLINOS M4.
En el eje horizontal, es decir, la longitud del segmento, se representa la frecuencia o
abundancia observada de ese artefacto (fila) en cada conjunto arqueolgico (columna).



El grfico nos permite ver que los tipos que ms contribuyen a definir las diferencias
entre las reas son RESTOS DE TALLA (el segmento pegado al eje inferior del
diagrama), MOLINOS M1, PERCUTORES P3, P4 y MOLINOS M4 (ltimo segmento).
Ahora que sabemos qu resultados nos proporciona el anlisis de correspondencias;
vamos a examinar brevemente cmo lo hace. Las matemticas son algo complicadas, y
muy parecidas a las de los anlisis multivariantes
28
, porque hacen uso de lgebra de
matrices y no de simple aritmtica.
Hay tres conceptos bsicos en un anlisis de correspondencias: los perfiles, las masas y
las distancias
2
.
Cuando estudiamos una tabla de contingencia no tiene mucho sentido comparar las
frecuencias observadas entre s. En cada yacimiento se ha encontrado una cantidad

28
Por eso el anlisis de correspondencias suele incluirse entre los anlisis multivariantes: porque en un
momento de su clculo utiliza el mismo algoritmo, la denominada factorizacin, aunque en el caso
habitual lo hace tan slo sobre dos variables. Ms detalles sobre esta cuestin se ofrecen en el segundo
volumen de esta serie: Anlisis Multivariantes.
127
distinta de artefactos, por lo que decir que en uno hay 35 hachas y en el otro slo 13
tiene poco sentido. Depende del total de artefactos en cada uno. Para la comparacin
necesitamos reducir las filas o las columnas de la tabla a una base comn. Esto es muy
fcil usando una base comn de 100 y calculando los porcentajes de filas o columnas. El
conjunto de los porcentajes de las frecuencias en una fila o columna se denomina perfil
de dicha fila o columna. Del mismo modo, podemos calcular un perfil promedio,
buscando, por ejemplo, el promedio con que aparecen los distintos artefactos (filas) en
cada yacimiento (columna).
Los perfiles constituyen un ejemplo de vectores matemticos. Un vector es un segmento
de recta dirigido en el espacio. Es el concepto que usamos para traducir los datos
numricos en la tabla de contingencia en puntos situados en un plano terico. As, se
convierte cada fila y columna de la tabla en un vector cuyas coordenadas vienen
definidas precisamente por su perfil. Dicho vector se refiere a un espacio
multidimensional que slo existe en la teora. Se trata de un espacio imaginario que
tiene tantas dimensiones como filas o columnas tiene la tabla. El truco del anlisis de
correspondencias es convertir ese espacio imposible en un plano con slo dos
dimensiones.
El segundo concepto fundamental del anlisis de correspondencias es el de la masa
asociada a cada perfil. Cada perfil est compuesto de un cierto nmero de elementos.
Por ejemplo, se identificaron 107 artefactos en la prospeccin del rea 1, que
constituyen el perfil
(0 42,2 0,93 10,02 4,67 9,34 3,73 17,75 8,41 0 0 1,86)

En este perfil cada nmero corresponde al porcentaje de cada uno de los tipos de
artefactos. A este perfil debe asignrsele un peso proporcional a los 107 artefactos que
tiene. La siguiente columna, rea 2, tiene ms artefactos (158) y por tanto, su perfil
tendr un peso algo mayor. La masa de las columnas equivale al total de cada columna
dividido por el total de individuos. Como hay en total 819 artefactos, la masa de la
primera columna (el rea 1) ser de 0,130. La masa correspondiente al rea 5 (aquella
en la que se han identificado ms artefactos), ser de 219 / 819 =0,26. El objetivo de
este mecanismo de peso es permitir a cada elemento (artefacto en este caso) contribuir
igualitariamente a su correspondiente perfil.

El perfil promedio (de las columnas, en este caso) es, a su vez, el perfil de los totales de
fila de la tabla de contingencia, y equivale al peso promedio de los perfiles de columna
individuales, en donde los pesos son las masas correspondientes. En otras palabras, el
perfil promedio puede entenderse como aquel punto que est en el centro de la nube de
puntos formada por los distintos perfiles individuales.

Hasta aqu nos hemos referido a los vectores de perfiles en las columnas de la tabla de
contingencia como si fuesen puntos situados en un espacio de 12 dimensiones (una para
cada fila o tipo de artefacto). Por ejemplo, el perfil de la columna que corresponde al
rea 1 es un punto con 12 coordenadas, 0 en la primera dimensin, 42,2 en la segunda,
0,93 en la tercera y as sucesivamente. Con un poco de imaginacin podremos hacernos
una idea intuitiva de la posicin de un perfil en ese espacio y las distancias que existen
entre los puntos. Esa distancia se calcula mediante una frmula derivada del teorema de
128
Pitgoras
29
que estudiamos en la escuela en nuestra infancia (s, hace mucho tiempo!).
La distancia debe calcularse entre todos los pares posibles de yacimientos: entre las
reas 1 y 2, entre las reas 1 y 3, y as sucesivamente. Para calcularla, obtendremos la
raz cuadrada de las diferencias al cuadrado de cada perfil. Esas diferencias se ponderan
usando el elemento correspondiente del perfil promedio. A causa de la analoga con el
concepto del
2
para calcular diferencias al cuadrado entre proporciones relativas a su
frecuencia esperada, esa distancia se denomina distancia
2
.

Hay muchas maneras de justificar la eleccin de esta forma de calcular las distancias
entre las casillas o celdas de la tabla de contingencia. En un sentido matemtico estricto,
la divisin de cada diferencia al cuadrado por la frecuencia esperada (el perfil promedio)
estandartiza las observaciones y compensa la mayor varianza de las frecuencias altas y
la menor frecuencia de las frecuencias bajas. En la prctica significa que si no
compensramos de esa manera la diferencia entre dos perfiles, las diferencias entre las
proporciones mayores tenderan a dominar cualquier otro aspecto, y el anlisis
proporcionara un resultado trivial y la mayora de las veces errneo: las mayores
diferencias en valor absoluto son las ms importantes. Al pesar de manera diferencial
la contribucin de cada perfil, igualamos la contribucin de cada casilla al clculo
global.

Cada perfil de fila y de columna tiene su respectiva masa, la suma de todas ellas es igual
a 1. Esos perfiles corresponden a vectores que tienen un centro de gravedad o centroide,
que equivale al perfil promedio. Calcularemos con todo ello la inercia global del
conjunto de puntos, es decir, de todas las casillas o celdas de la Tabla de Contingencia.
Cada perfil contribuye un poco a esa inercia global, en la medida de su masa por el
cuadrado de la distancia de su propio perfil y el perfil promedio. La suma de la inercia
de cada perfil de fila y de columna nos dar la inercia global. Ese valor debemos
entenderlo como una medida de la dispersin de los perfiles en el espacio
multidimensional, de la misma manera que la varianza es una media de la dispersin de
valores en un espacio unidimensional. Cuanto mayor la inercia global, mayor dispersin
y mayor diferencia entre las distintas celdas de la tabla.

Una vez que se han traducido las diferencias y semejanzas entre las celdas o casillas de
la tabla en trminos de vectores en un espacio multidimensional caracterizados por sus
perfiles y sus masas respectivas, debemos hacer algo para poder visualizar las distancias
ponderadas entre ellos. Ello se consigue mediante un truco geomtrico: proyectando las
coordenadas del vector multidimensional en un plano bidimensional (o, cuando ello no
es posible, en un espacio con la menor dimensionalidad posible, usualmente menor de 4
dimensiones). Ello equivale a buscar el plano ms prximo a todos los puntos
multidimensionales. La manera de hacerlo es un tanto complicada e implica usar el
centroide de la nube de puntos multidimensional, la inercia de cada perfil y el perfil
promedio.

Esto es fcil de entender en el caso de pasar de tres dimensiones (volumen) a slo dos
(plano).

29
Era aquello de un triangulo rectngulo en donde el cuadrado de la hipotenusa (el lado ms largo) era
igual a la suma del cuadrado de los catetos (los lados ms cortos). De ah que para calcular la longitud de
la hipotenusa si se conoca la longitud de los catetos bastaba con obtener la raz cuadrada de la suma de
cuadrados. La distancia entre los puntos equivale a la hipotenusa. Lo que nosotros conocemos es la
longitud de cada cateto, que no es ms que la diferencia entre los respectivos perfiles.
129



Para aquellos y aquellas a quienes no les gustan las matemticas puede ser difcil de
entender que los vectores originales estn en un espacio de ms de cuatro dimensiones,
pero para el ordenador es francamente fcil:
















Si la reduccin de la dimensionalidad no puede encontrar un plano bidimensional que
explique, como mnimo, ms del 75% de la varianza acumulada, PAST permite
visualizar planos adicionales, basados en una tercera dimensin (botn Axes 2+3 en la
ventana de resultados del grfico).

En el anlisis de correspondencias, la cercana de los perfiles de un vector al plano se
mide por medio de la suma ponderada de las distancias al cuadrado de los puntos con
respecto al plano. El objetivo del anlisis es encontrar el plano que minimice la inercia
residual, ya que:

INERCIA TOTAL=INERCIA EN EL PLANO +INERCIA RESIDUAL

La inercia residual es una medida de la cantidad de inercia o varianza que se ha perdido
al reducir los perfiles multidimensionales a un formato bidimensional o de
dimensionalidad reducida. El anlisis encuentra aquel plano en el que esa prdida sea
mnima.

Esos planos que mejor se ajustan a la nube de puntos de perfil son los que constituyen el
diagrama propio del Anlisis de Correspondencias. En esas representaciones tenemos
130
una imagen de la posicin autntica de las celdas de la tabla, como si fuesen observadas
de un plano de visin ptima en el espacio multidimensional de todos los perfiles. Por s
mismos, estos diagramas no nos dan ninguna indicacin de cmo se ajustan los puntos
al plano elegido, pero la calidad de la representacin puede resumirse usando una
medida dada en una escala porcentual. Esa medida cuantifica la cantidad de varianza, o
inercia, explicada por esa representacin concreta.

PAST proporciona el valor propio o eigenvalue de la solucin. Este aparece en la
ventana de resultados inicial, antes de solicitar el diagrama de dispersin de los puntos.









El eigenvalue de cada uno de los ejes que definen los planos que mejor se ajustan a los
perfiles vectoriales de las casillas de la tabla equivale al coeficiente de correlacin entre
los puntos del grfico que representan las filas y los que representan las columnas. La
siguiente columna nos da la medida deseada: el porcentaje de similitud (similarity) entre
todas las celdas de la tabla explicada para cada dimensin. Como un plano tiene dos
dimensiones, la inercia o varianza explicada por ese plano ser la suma de las
dimensiones que definen ese plano. En el caso aqu estudiado de las reas prospectadas,
los diagramas representaban el plano definido por las dimensiones o ejes principales 1 y
2. La suma de sus inercias respectivas contribuye a explicar un 88% de la variabilidad.

Ahora bien, este resultado es tan slo una medida del ajuste del plano seleccionado a los
puntos. Es una medida de la calidad de la representacin visual, y no una medida de la
intensidad de relacin, la cual viene dada por ndices estadsticos como la V de Cramer,
mencionada anteriormente en este captulo.

Veamos en un par de supuestos ideales cmo el anlisis de correspondencias explica la
intensidad de una relacin cualitativa y no slo su forma. Construyamos tres tablas de
contingencia que definan la relacin cualitativa paradigmtica en arqueologa: entre la
variabilidad morfofuncional (tipologa) de los artefactos y la variabilidad espacial
(conjuntos) con la que aparecen dichos artefactos.







Caso A Caso B Caso C

En la primera tabla (caso A), las frecuencias absolutas de los distintos tipos en cada uno
de los conjuntos son muy semejantes en los tres conjuntos, aunque existan claras
diferencias en las proporciones entre conjuntos. Por tanto no debe haber relacin. Las
131
dos tablas siguientes muestran diferencias significativas entre los distintos conjuntos en
la frecuencia de aparicin de cada tipo, por lo que SI debiera haber relacin. Las
diferencias son ms marcadas en la ltima tabla (caso C), lo cual sera indicio de una
relacin ms intensa. Estas observaciones estn contrastadas por los resultados de la
prueba de
2
y la prueba V de Cramer (Statistics Contingency Table):








Caso A Caso B Caso C

Veamos ahora el anlisis de correspondencias de esas tres tablas de contingencia. En los
tres casos, el espacio multidimensional original (12 dimensiones) se puede reducir a un
espacio de 2 dimensiones sin prdida de las relaciones entre las celdas de la tabla. El
plano seleccionado explica en los tres casos el 100% de la asociacin entre celdas.
PAST nos permite definir con precisin la escala del grfico, por lo que hemos decidido
definir un mnimo de -0,2 y un mximo de 0,2, tanto para el eje de las abscisas como
para el de las ordenadas. Si los ejes no se trazan a idntica escala, la comparacin no
tendr sentido
30
.











-0,1 0 0,1 0,2
Axis 1
-0,1
0
0,1
0,2
A
x
is

2
conjunto A
conjunto B
conjunto C
1
2
3
4
-0,1 0 0,1 0,2
Axis 1
-0,1
0
0,1
0,2
A
x
i
s

2
conjunto A
conjunto B
conjunto C
1
2
3
4
-0,1 0 0,1 0,2
Axis 1
-0,1
0
0,1
0,2
A
x
i
s

2
Caso A Caso B Caso C

En el caso A, en donde partamos de un supuesto de no relacin, los perfiles de fila y
columna aparecen representados en el centro geomtrico del plano de menor dimensin.
Adems es importante sealar que si ampliamos la escala:








30
Para ello, y como ya vimos en el caso de histogramas y diagramas de dispersin, basta con introducir el
valor requerido en las casillas X start, X end, Y start, Y end, que aparecen a un lado de la ventana de
resultados grficos.
132

conjunto A
conjunto B
conjunto C
1
2
3
4
-0,006 -0,005 -0,004 -0,003 -0,002 -0,0010 0,001 0,002 0,003 0,004 0,005 0,006
Axis 1
-0,002
-0,001
0
0,001
A
x
i
s

2















Caso A

Los perfiles de filas y los perfiles de columnas aparecen totalmente disociados, ya que
no son independientes el uno del otro: cualquier tipo de artefacto puede aparecer en
cualquier conjunto. A partir del momento en que las diferencias proporcionales
aumentan entre los conjuntos, aumenta la relacin y aumenta la distancia entre las
celdas. Esa distancia es irregular, porque es un resultado de la diferente contribucin de
cada proporcin en la sumatoria final que es la prueba de
2
. Slo en el caso C, donde la
relacin es intensa (superior a 0,67 segn la prueba V de Cramer), filas y columnas se
asocian de acuerdo con las diferencias observadas.

Tanto el eigenvalue como la inercia global no varan en los tres casos, lo que indica que
no deberemos usar esos valores para indicar la intensidad de la relacin. Todo anlisis
de correspondencia deber ir introducido por las pruebas generales de contingencia,
interpretndose conjuntamente ambos tipos de anlisis estadsticos.

Volviendo a los datos del archivo Prospeccin, recordemos que aunque la presencia
de relacin entre variabilidad morfofuncional y variabilidad espacial era
incontrovertible, esa relacin era poco intensa (V de Cramer =0,25). Por qu? Porque
entre las cinco reas prospectadas comparadas haba casi tantas diferencias como
semejanzas. La contribucin de cada rea a la relacin era muy diferente, y no como en
el caso simulado de la tercera tabla, donde cada uno de los tres conjuntos era diferente
al resto. Al ser semejantes las reas 1 y 2 por un lado, y la 3 y la 4 por otro, el valor de
la intensidad de la relacin disminua.











133


Contenidos del prximo volumen de
la serie




ANLISIS MULTIVARIANTES EN ARQUEOLOGA


Introduccin al Estudio de la semejanza entre elementos arqueolgicos

Definicin
Ejemplos
Coeficientes de semejanza
Matrices de semejanza
Particin en clases
Anlisis jerrquico de clases

Interpretacin de las relaciones de semejanza entre elementos arqueolgicos

Variabilidad vs. semejanza
Tipologa y clasificacin
Induccin automtica
Anlisis discriminante

De la semejanza entre individuos a la relacin entre fenmenos

Semejanzas y distancias
La definicin conceptual de dimensin y la nocin de espacios semnticos
Introduccin al anlisis de componentes principales
Interpretacin del anlisis de componentes principales
Comparando el anlisis de componentes principales y el anlisis de correspondencias
Variaciones del anlisis de componentes principales (anlisis cannico, escalas
multidimensionales, anlisis de coordenadas principales, etc.)

Complejidad y multidimensionalidad

El Concepto de multidimensionalidad
Multidimensionalidad de un fenmeno o mltiples relaciones entre fenmenos?
Multinormalidad
El estudio simultneo de mltiples relaciones: MANOVA





134

Potrebbero piacerti anche