Sei sulla pagina 1di 601

HUBERT M. BLALOCK, JR.

ESTADISTICA
SOCIAL

GB
0 ANIVERSARIO

FONDO DE CULTURA ECONMICA

MXICO

Prim era edicin en ingls


Prim era edicin e n espaol,
Segunda edicin e n ingls,
Segunda edicin en espaol, d e la segunda en ingls,
Q uinta reim presin,

1960
1966
1972
1978
1994

T tulo original:

Social Statistics

1960, 1972, Me Graw-Hill, Inc. Nueva York

D . R . 1966, F o n d o d e C u l t u r a E c o n m ic a
D. R. 1986, F o n d o d e C u l t u r a E c o n m ic a , S. A. d e C. V.
C arretera PicachoA jusco 227; 14200 Mxico, D. F.

ISBN 968-16-0135-1
Im preso e n Mxico

A
An n , S u s ie
y K atie

E ste lib r o h a sid o e s c rito fu n d a m e n ta lm e n te p a r a aq u e llo s e s tu


d ia n te s d e sociologa, ta n to los y a titu la d o s c o m o lo s q u e a n
n o lo e s t n , q u e se p ro p o n g a n d e d ic a rs e a la in v e stig a ci n social.

D u ran te los doce aos tran sc u rrid o s desde que apareci la p ri


m era edicin, ta n to el nivel de p rep araci n com o la com plejidad
de la estad stica ap licad a h a n experim entado u n a m ejo ra consi
derable, n o slo en el cam po de la sociologa, sino e n los de la
ciencia poltica, la antropologa, la geografa y el tra b a jo social.
A p e sa r de ello, u n a ab ru m a d o ra m ayora de los estudiantes, o
de los q ue ejercen en estos terren o s, carecen de la necesaria
b ase m atem tica que les p erm ita o b ten er p len a v en taja de la bi
blio g rafa tcn ica sobre estad stica, m atem tica y econom etra,
cuyos m ateriales au m en ta n rpidam ente. T eniendo e n m en te tales
dato s bsicos h a sido escrito este texto, tra ta n d o de evitar, h asta
donde es posible, la s derivaciones m atem ticas, bastan d o u n a
r p id a revisin de ciertos principios algebraicos, listados en el
A pndice 1, p a ra q ue el estu d ian te m edio obtenga u n a p re p a ra
cin suficiente. Aun cu an d o n o re su lte n ecesario e n u n p rim e r
cu rso de estad stica p o n e r de relieve dichas derivaciones m atem
ticas, el a u to r est convencido de la necesidad de en te n d e r p e r
fectam en te ciertas ideas bsicas y fundam entales so b re las que
se asien tan los prin cipios de la deduccin estadstica. Tal cosa
re s u lta ind isp en sab le si h a de lograrse algo m s que u n conoci
m ien to lim itad o a "re c e ta s estadsticas. H em os pu esto p o r ello
especial in ter s en la lgica q u e fu n d a m e n ta la deduccin esta
dstica, incluyendo asim ism o u n captulo relativo a la p robabili
dad, en ta n to se h a p re sta d o m en o r atencin a m ateria s m s o
m enos ru tin a ria s estu d iad as e n textos elem entales.
Uno de los p roblem as m s difciles e n la enseanza de la esta
dstica ap licad a es el de lo g rar in c ita r a los estudiantes, de m a
n e ra q u e stos su p eren su te m o r a las m atem ticas y ap ren d an
a ap lica r la estad stica e n su s p ro p io s cam pos de in ters. P or
e sta ltim a razn el a u to r n o h a in te n ta d o c u b rir u n a gam a am
p lia de aplicaciones, eligiendo p o r el co n tra rio ejem plos de in te
rs fu n d am en tal p a ra los socilogos. T am bin h a escogido o tro s
ejem plos de cam pos fronterizos de la sociologa, tom ados de te
rren o s tales com o la psicologa social, el tra b a jo social y la con
d u cta poltica. E n la m ayora de los casos cada nuevo tem a h a
sido ilu stra d o con u n solo ejem plo, p o r su p o n er que m uchos
e stu d ian tes p e rd eran el hilo bsico del razonam iento si se u tili
zasen m uchos de ellos p a ra ilu s tra r u n punto. Se proporcionan,
sin em bargo, ejem plos adicionales b a jo la fo rm a de ejercicios
q ue ap arecen al final de cada captulo. E n general h a tra ta d o

el a u to r de lo g rar u n equilibrio razonable e n tre la conveniencia


d e estab lecer los principios bsicos e n fo rm a ta n clara y concisa
com o re su lte posible, y la necesidad de re p e tir algunas de las
ideas m s dificultosas cada vez que exam ina u n nuevo tem a.
H a sta donde es posible, las ideas nuevas h an sid o p resen tad as
grad u alm en te y lo q u e es igualm ente im p o rtan te se h a n he
cho esfuerzos p a ra que cada nuevo tem a quede relacionado con
los que h an p reeedido. Al h acerlo as se tuvo p re se n te la m eta
fun d am en tal, co nsistente en b rin d a r u n a apreciacin de las sem e
janzas bsicas que fu n d am en tan m uchas de las p ru e b as (te sts)
y m ediciones m s com nm ente usadas.
Casi to d as las sugerencias que h e recibido de p erso n as deseo
sas de ay u d ar a m e jo ra r la p rim e ra edicin se re fera n m s a la
conveniencia de au m en ta r que a la de re d u cir el libro, dando a
en ten d e r q ue m uchos de los tem as trata d o s originalm ente debe
ra n ser exam inados m s tcnicam ente. E n m i opinin, ta n to los
socilogos com o los estudiosos de ciencias polticas, en p artic u la r,
precisan verse m s expuestos, ta n to a una bibliografa de m ayor
nivel tcnico so b re diseos experim entales, com o a procedim ien
tos p a ra el u so de ecuaciones sim ultneas relacionadas con la
investigacin n o experim ental. R esult claro q u e si se agregaban
estos m ateriales al texto original, ste p e rd e ra su atra ctiv o com o
in tro d u cci n ad ecuada p a ra los estu d ian tes que asp ira n a la m aes
tra en ciencias sociales. Se resolvi, pues, que los diseos expe
rim entales, el anlisis de facto res y los m todos de ecuaciones
sim ultneas, as com o o tro s tem as m s avanzados, seran tra ta
dos en u n tex to separado, a cargo de dos de m is colegas: Lewis
F. C rter y K rishnan N am boodiri.
Se incluye en el texto cierto n m ero de secciones, p rrafo s
y ejercicios que, o bien son conceptualm ente difciles o p resupo
nen q ue el estu d ian te posee cierta fam iliaridad con tem as cubier
to s en cursos acerca de los m todos de investigacin. E stas p a r
tes del tex to h a n sido sealadas con asteriscos (* ), y pueden ser
ledas sin d eten erse en ellas, o b ien elim inadas del todo. Los
in stru cto re s q u e utilicen el tex to en cursos de u n sem estre
p o d r n in d icar a los estu d ian tes la conveniencia de o m itir dichos
m ateriales.
Se h a llevado a cabo u n a leve revaluacin e n los aspectos tc
nicos, em p ero sin cam b iar la e stru c tu ra b sica del texto. Hay
ciertas m odificaciones en la seccin relativa a la estad stica des
criptiva, seccin a la que el a u to r h a aadido discusiones sobre
supuestos y conceptos bsicos, confiando as en a c la ra r la rela
cin en tre los m odelos estadsticos y el m undo re al con el que
el cientfico social h a de tra ta r. Adems de estos cam bios, la
p resen te edicin contiene discusiones acerca de diversos proce
dim ientos, tests y m ediciones que h an venido siendo usados cada
vez m s d u ra n te la dcada de 1960-1969.

El cap tu lo ix, sobre la probabilidad, h a sido am pliado m edian


te el exam en de p erm u tas, diagram as e n rbol, T eorem a d e Ba
yes y clculos relacionados con las probabilidades condicionales
y la nocin de valores previstos. T am bin al captulo x, q u e in
cluye u n a explicacin d e la distribucin binom ial, h a agregado
el a u to r u n a breve discusin de dicha d istribucin binom ial, la
distrib u ci n h ipergeom trica y la distribucin de Poisson. E stas
agregaciones facilitarn la transicin a o tro s textos,^orientados
especficam ente a la estad stica n o p aram trica.
E l a u to r h a au m entado asim ism o el espacio dedicado a tcnicas
n o p aram tricas, incluyendo el test de F riedm an p a ra anlisis
recprocos de fluctuaciones con o rd e n ; gam m a y dyx, com o m edi
das de asociacin o rd in a l; u n te st p a ra la interaccin relativa a la
d iferencia de diferencias de proporciones, y la norm alizacin en
el caso de procedim ientos con escala nom inal. El lecto r encon
tr a r adem s u n a discusin am pliada acerca de las propiedades
de las v arias m edidas ordinales y tcnicas d e divisibilidad con
escalas ordinales.
De m an era anloga h a sido am pliado el com entario de los acer
cam ientos p aram tricos p a ra incluir en l la discusin de los
supuestos p a ra el m odelo lineal general, cubriendo adem s el
acercam iento de la variab le sim ulada com o perspectiva altern a
en el anlisis de la covariacin. T am bin se h an agregado los
principios esenciales bsicos d e la teo ra que fu n d am en ta el uso
de com binaciones lineales, aplicndola a la discusin del e rro r
n o rm al de la m edia, la diferencia de m edias, la diferencia de las
diferencias de p roporciones y el em pleo d e com paraciones o rto
gonales en el caso de m u estras m ltiples.
E n u n esfuerzo p a ra a y u d a r al lecto r en la apreciacin del cua
d ro global, el a u to r h a incluido u n a ta b la resu m en d e tests y
m ediciones, tab la que aparece en el in te rio r de la tap a, as com o
am plios sum arios al final de los captulos u , xiv y xx.
Son m uchas las personas que h an colaborado e n esta revisin,
p ero el a u to r deseara d a r gracias de m an era especial a R ichard
G. Ames, E rica B orden y Louis G oodm an p o r sus com entarios en
relacin con la to talid a d del m anuscrito.
P o r su ayuda en la p rep araci n de la p rim e ra edicin, deseo
d a r gracias de m an era destacada a los estud iantes y colegas de
la U niversidad de M ichigan, quienes leyeron varios b o rrad o res
del lib ro y sugirieron m ejoras. A R ichard T. LaPierre, S anford
D om busch, R obert Ellis, S an to Cam illeri y T heodore A nderson
m i ap recio p o r leer y c ritic a r el m an u scrito original. Deseo igual
m en te agrad ecer p o r la correccin de pruebas, el m ecanografiado
y la revisin de los clculos, la ayuda p re sta d a p o r Ann Blalock,
D iane Etzel, Ann Laux y Doris Slesinger. G racias igualm ente a
Daniel O. Price, m erecedor de am plio reconocim iento p o r h ab e r
estim u lad o m i in ters e n la estadstica.

Quedo en deu d a con el p ro feso r S ir R onald A. F isher, de Cam


bridge, con el d o cto r F ran k Yates, de R otham sted y con los se
ores Oliver a n d Boyd, Ltd., de Edim burgo, p o r su autorizacin
p a ra re im p rim ir los cuadros iii, iv y v de su lib ro Cuadros esta
d sticos para investigaciones biolgicas y agrcolas. T am bin es
toy reconocido a los distin to s editores y autores, m encionados
en los lugares adecuados, quienes am ablem ente dieron perm iso
p a ra el u so de varios cuadros y form as de com putacin.
H ubert M. B lalock , Ja.

P rim e ra P a r te

INTRODUCCIN

E l cam po d e la estad stica tien e m ltiples aplicaciones, com o lo


d em u estra el hecho de que se den cursos de ella en m ateria s ta n
dispares com o son la odontologa y la sociologa, la ad m in istra
cin de negocios y la zoologa, la salud pblica y la enseanza.
A p e sa r d e ello, existen to d av a m uchas concepciones err n eas
acerca de la n atu raleza d e esta disciplina en estad o de r p id o
desarrollo. La id ea que de la estad stica se h ace el lego, puede
d ife rir m u ch o de la que tien e de ella el estad g rafo profesional.
A veces se supone q u e el estadgrafo es u n a p erso n a que m ani
p u la n m ero s p a ra d em o strar s u p u n to d e vista. P o r o tra p a rte ,
en cam bio, algunos estu d ian tes de sociologa o de o tra s ciencias
sociales, p ro p en d en a ad m ira rle com o a alguien que, con la ayuda
d e su calculadora, p u ed e co n v ertir casi cualquier estu d io en
"cien tfico . D ebido p osiblem ente al re sp eto q u e m uchas p e rso
n as sien ten p o r to d o aquello que en alguna fo rm a se relaciona
con las m atem ticas, a m uchos estu d ian tes les re s u lta difcil
in scrib irse en u n cu rso d e estad stica sin c ie rta aprehensin.
P ese a q u e les in fu n d a te m o r la perspectiva de tra b a ja r con n
m eros, es posible tam b in que esp eren dem asiado d e u n a disci
p lin a q u e p arece ta n form idable. Antes, pues, de e n tra r dem asia
do r p id a m en te en m ateria , con lo que correm o s el riesgo d e
p e rd e r la perspectiva, em pecem os p o r p re g u n ta rn o s q u e s exac
tam en te la estad stica y q u es aquello q u e p u ed e y aquello que
n o p u ed e hacer.
T al vez re su lte m s fcil em pezar indicando aquello q u e la
estad stica n o e s .E n p rim e r lugar, la estad stica n o es en m odo
alguno u n m scodo con el q u e u n o p u e d a p ro b a r casi to d o aquello
que d esea p ro b a r. V erem os, a n te s bien, q u e los estadgrafos
po n en especial em peo e n estab lecer las reglas del juego d e ta l
m an era q u e las in terp retacio n es n o vayan m s all de los lm ites
de los datos. Sin em bargo, n o h ay n ad a en los m todos estad s
ticos e n s m ism os q ue sea capaz de ev itar q u e el individuo su
perficial o intelectu alm ente poco escrupuloso saq u e sus p ro p ias
conclusiones, a p e sa r de los datos, y u n o de los aspectos m s
im p o rtan tes de u n cu rso d e introduccin a la estad stica consiste
p recisam en te en p o n e r a los estu d ian tes en gu ard ia c o n tra los
posibles abusos de esta h erram ien ta.
La estad stica no es sencillam ente u n a coleccin d e hechos. Si
lo fu era, n o v ald ra m ucho la p en a estudiarla. Ni constituye ta m
poco u n su stitu tiv o del p en sam iento a b stra c to te rico o del exa
m en m inucioso de los casos excepcionales. E n algunos d e los
lib ro s de texto m s antiguos solan e n c o n tra rse p ro lijas discu-

15

siones acerca de los m ritos del estu d io casustico, fre n te al m


todo estadstico. Ahora, en cam bio, ad m tese claram en te que los
m todos estadsticos n o se "oponen" en m odo alguno al anlisis
cualitativo de los casos p artic u la res, sino que am bos m todos se
com plem entan. Y n i siq u iera es exacto que la estad stica slo
sea aplicable en , p resencia de u n gran n m ero de casos, o que
no p u ed a em p learse en los estudios de exploracin. Finalm ente,
la estad stica n o es tam poco u n s u s titu to de la m edida, o de la
p rep araci n cuidadosa de u n a cdula de investigacin o de otros
in stru m en to s p a ra la recoleccin de datos. Se in sistir con m a
y o r detalle en este ltim o aspecto al final del p re se n te captulo
y en el siguiente.
Y ahora, habiendo indicado lo q u e la estad stica n o es, pode
m os acaso a firm a r decididam ente aquello que es? In fo rtu n ad a
m ente, los estadgrafos m ism os p arece n d iscre p ar algo e n tre s
en cu an to a la extensin de aquello que deba co m p ren d erse b ajo
el apelativo general de "estad stic a. A doptando u n p u n to de vista
pragm tico, podem os decir p o r n u e stra p a rte q u e la estad stica
com prende dos funciones m uy vastas, y que n a d a de aquello que
no cum ple dichas $ o s M ic i s fo rm a p a rte de ella. L a p rim era
es la de la descripcin, el resu m en de la info rm acin de tal m odo
que se p u ed a em p lear m ejo r. Y la segunda es la de la induccin,
con sisten te en fo rm u la r generalizaciones a p ro p sito de u n a de
term in ad a poblacin sobre la base de u n a m u e stra ex trad a de
la m ism a. E sta s dos funciones se exam inarn a su tiem po.
1.1. Funciones de la estadstica
La estadstica descriptiva. E n la investigacin social, u n a persona
se e n c o n tra r a m enudo en la situacin de d isponer de tan to s
datos, que le re su lte difcil ab so rb e r la inform acin en tera. Puede
h a b e r re u n id o 200 cuestionarios y p re g u n ta rse con todo, em ba
razosam ente, "q u hago con to d o ello?" Con ta m a a inform acin
h a b ra de re s u lta r excesivam ente difcil, excepto tal vez p a ra las
m en tes ex tra o rd in aria m e n te fotogrficas, ca p ta r intuitivam ente
lo que los datos contienen. E n u n a fo rm a u o tra, pues, la infor
m acin h a de re d u cirse h a sta un p u n to en que p u ed a verse cla
ra m e n te lo que hay en e lla : h a de resum irse^ Con el em pleo de
m edidas de clculo, tales com o po rcen tajes, prom edios, desvia
ciones e stn d a r y coeficientes de correlacin, re su lta posible re
d u cir los datos a proporciones m anuables. Al re su m ir los datos
su stituyendo grandes cantidades p o r unas pocas m edidas, cierta
inform acin h a de p erd rse necesariam ente y, lo q u e es m s
grave, es posible o b ten er re su ltad o s engaadores, a m enos que
pe los in te rp re te con m ucha precaucin. De ah que convenga
in d icar claram en te las lim itaciones de to d a m edida resum ida.
La estad stica descriptiva es m u y til en aquellos casos e n que

el investigador necesita m an eja r relaciones m u tu as en tre m s de


dos variables. Supongam os, p o r ejem plo, que resu lte preciso
em p lear ocho o diez variables com o ayuda p a ra explicar las ta
sas de delincuencia, y supongam os p o r o tra p a rte que aquellas
variables explicativas o independientes e stn altam ente relacio
nad as e n tre s. Si se desea aislar el efecto ocasionado p o r u n a
o dos de tales variables, lim itndonos a las consecuencias de
las dem s, cm o h ab ra que proceder? Qu gnero de supues
tos re su ltaran necesarios? Situaciones de este grado de com
plejid ad se p lantean en u n a ram a de la estadstica conocida
con el n om bre de anlisis m ultivariado. E n los captulos xv,
xvi, xix y xx exam inarem os algunos problem as relativam ente sen
cillos de anlisis m ultivariado, reservando otros casos m s com
plejos p a ra un segundo volum en.
La estadstica inductivai La estad stica re su lta ra u n a m ateria
m uy fcil si la atencin p u d iera lim itarse a las m edidas descrip
tivas. Tal vez u n a funcin m ucho m s im p o rtan te de la estad s
tica, y en todo caso la que re te n d r la m ayor p a rte de n u estra
atencin en este texto, es la derla induccin? consistente en infe
r ir p ropiedades de u n a poblacin sobre la base de u n a m u estra
con resu ltad o s conocidos. La induccin estadstica, com o se la
aco stu m b ra llam ar, im plica u n razonam iento m ucho m s com
plejo que el de la estad stica descriptiva, pero, si se la com pren
de y utiliza bien, se convierte en un in stru m en to m uy im p o rtan te
p a ra el d esarrollo de u n a disciplina cientfica. La estadstica in
ductiva se b asa d irectam ente en la teo ra de la probabilidad, que
es u n a ram a de las m atem ticas. Tenem os, pues, as, una disci
plin a p u ram en te deductiva que p ro p o rcio n a u n a b ase racional
p a ra el razonam iento inductivo. Que el a u to r sepa, no existe o tra
b ase racional alguna p a ra la induccin. E ste p u n to general se
exam inar con m ayor detalle en el captulo vm .
E xisten algunas razones de orden prctico en cuya v irtu d re
su lta a veces necesario tr a ta r de generalizar sobre la base de una
inform acin lim itada. La m s obvia de ellas es la del facto r tiem
po-costo. Sera absolutam ente im practicable, y no digam os ya
p ro h ib itiv am en te costoso, p re g u n ta r a cada electo r cm o se pro
pone votar, con objeto de p red ecir en esta form a el resultado
d e u n a votacin nacional. Ni puede el investigador co rrien te
p erm itirse visitar a todos y cada uno de los residentes de una
g ran ciu d ad p a ra e stu d ia r sus prejuicios, la m ovilidad social o
cu alq u ier o tro fenm eno p o r el estilo. Lo p rim ero que hace, en
efecto, es decidir la n atu raleza exacta del grupo que se propone
generalizar ("la poblacin ). Puede escoger a todos los ciudada
nos en edad de votar, o todos los varones blancos de dieciocho
aos cum plidos, que viven en los lm ites' de la ciudad de D etroit.
E n tal caso suele p o r lo reg u lar ex tra er una m u estra consistente

en u n a p ro p o rci n relativam ente pequea de las p ersonas en


cuestin, p e ro in teresndose a n te to d o no en esa m u e stra p a r
ticu lar, sino en la poblacin m s n um erosa de la q u e h a sido
ex trada. Puede en co n trar, p o r ejem plo, que, en esa m u estra
p a rtic u la r de 200 varones blancos, existe u n a relacin negativa
e n tre la educacin y el prejuicio. Aun adm itiendo que en o tro
co n ju n to de 200 individuos m u estread o s el re su ltad o p u d o hab er
sid o to talm en te d istinto, p ro p e n d er sin em b arg o a establecer
ciertas in feren cias acerca del c a r c te r de la relacin en el caso
de h ab erse estu d iad o la poblacin e n te ra de los varones blancos
ad u lto s e n D etroit.
O tra razn que lleva a generalizar so b re la base de u n a infor
m acin lim itad a es la de que p u ed e se r im posible u tiliza r a toda
la poblacin, p o rq u e sta sea in fin ita o difcil de definir. Al repli
c a r u n ex p erim ento en las ciencias n atu ra les o sociales, el obje
tivo p arece s e r siem pre c ie rta clase de generalizacin d e la que
se esp era que se v erificar "en circunstancias sim ilares". O bien
u n esp ecialista en ciencias sociales puede h a b e r re u n id o datos de
todos los casos d e que dispone. P uede h ab erse servido, p o r ejem
plo, com o unidades de anlisis, en u n estudio so b re la m igracin
in terio r, d e todos los 50 estados [d e los E stados U nidos], desean
d o sin em bargo generalizar acerca d e la m igracin e n condicio
n es "se m ejan tes. E n cada u n o de dichos casos, la situacin
re q u ie re el re cu rso a la estad stica inductiva.
Llegados a este pun to , alguien p o n d r tal vez u n a p reg u n ta
p o r el estilo de s ta : "si la estad stica es ta n im p o rtan te, cm o
es que ciencias com o la fsica y la qum ica, p o r ejem plo, hayan
p o d id o p ro g resar ta n to sin el em pleo extenso de las tcnicas es
tad sticas? D ifieren acaso stas en algo? Es obvio que s lo
hacen. Algunas d e las ciencias n atu ra les se h an desarrollado,
sin duda, p o r espacio de siglos sin el em pleo de la estadstica
inductiva. P ero esto parece se r an te to d o cuestin d e su erte o,
p a ra reco n o cer el m rito de los esfuerzos de los cientficos, se
d a u n co n tro l relativam ente satisfacto rio de los elem entos p er
tu rb a d o re s del m edio. E n efecto, ta l com o se p o n d r de m ani
fiesto en cap tu lo s ulteriores, en la m edida en que im p era n condi-'
ciones de lab o ra to rio escrupulosam ente controladas, la necesidad
p r ctica de las tcnicas estadsticas es m enor. E n este sentido,
la estad stica es el sustitutivo, p a ra el indigente, d e los experi
m entos com plicados de lab o ra to rio en los que se h a n tenido en
cu en ta todas las variables re lev an tes1in ip o rtan tes. H ay que sub-.
ray ar, con todo, que m uchos de los knismos principios estad sti
cos se aplican a los experim entos de lab o rato rio en m a teria de
fsica, a los experim entos algo m enos precisos en m a te ria de agri
c u ltu ra y a las investigaciones sociales. As, p o r ejem plo, si un
ex perim ento en fsica se h a replicado 37 veces con los m ism os
resu ltad o s, es p erfectam en te concebible, sin em bargo, que ensa-

yos subsiguientes den resultados distintos. P or consiguiente, el


cientfico h a de generalizar sobre la b ase de u n n m ero lim itado
de experim entos, y las inferencias que establece son en esencia
estad sticas p o r su carcter. E n fo rm a anloga, el problem a del
e rro r de m edicin puede concebirse tam bin en trm inos de es
tadstica. E n efecto, p o r m uy preciso que sea el in stru m en to de
m edicin, el cientfico nu n ca obtiene exactam ente el m ism o re
sultad o con cada replicacin. Puede a trib u ir dichas diferencias
ya sea a e rro r de m edicin o a efectos p ertu rb ad o re s de algunas
variables incontroladas. La estadstica se hace especialm ente ne
cesaria cuan d o de u n a replicacin a o tra las diferencias son ta
les, que n i se las puede ig n o rar n i a trib u ir a e rro r de m edicin.
P or lo tan to , fundam entalm ente, la inferencia estad stica p u n tu a
liza todas las generalizaciones cientficas, au n q u e la necesidad de
u n a p rep araci n estad stica y el em pleo de tcnicas estadsticas
com plicadas vare considerablem ente de u n cam po de actividad
a otro.
1.2. E l lugar d e la estadstica en el proceso de la investigacin
La im p o rtan cia de la estad stica en el proceso de la investigacin
se exagera e n ocasiones debido al destacado lugar que ocupa en
los planes d e estudios de graduacin. La estad stica m ism a no
co m prende problem as d e m edicin, tales com o la elaboracin
de ndices o la pu ntuacin de las preg u n tas d e u n cuestionario.
C om prende, an tes bien, u n a m anipulacin de cifras, p artiendo
del su p u esto que se h a n cum plido determ inados requisitos en el
proceso de m edicin. De hecho, las consideraciones estadsticas
slo se in tro d u cen en la fase de anlisis del proceso de investi
gacin u n a vez que se h an re u n id o todos los datos, al principio
de la m ism a, cuando se pro y ectan los planes iniciales del anli
sis y cu an d o se h a de e x tra e r u n a m uestra.
M ientras que la indicacin que acaba de h acerse en el sentido
de que la estad stica slo e n tra en las fases tcnicam ente co
rrectas del anlisis y del m u estreo del proceso de investigacin,
p o d ra con to d o in d u cir a e rro r, a m enos que fu e ra preciso. No
significa ciertam en te que el cientfico en m a te ria social pu ed a
p lan ea r y llevar a cabo su investigacin e n te ra sin conocim ien
to alguno de estad stica, y p o n erla luego en m anos del estadgra
fo dicindole: "H e aqu, m i lab o r est te rm in a d a : ahora, anal
cela u sted . Si as lo hiciera, los resultados p robablem ente sern
poco satisfactorios, cuando n o intiles p o r com pleto. Es obvio,
e n efecto; que los problem as que h a b r n de en c o n trarse en el
anlisis h an de anticiparse e n cada etap a del proceso de inves
tigacin, y en este sentido las consideraciones estadsticas hallan
aplicacin a to d o lo largo del m ism o. Un anlisis estadstico, p o r
m uy elab o rad o que sea, ra ra m e n te o nunca llegar a com pensar

las fallas de u n pro y ecto m al concebido o d e u n in stru m e n to de


recoleccin de datos deficiente. E ste ltim o p u n to m erece u n
co m en tario especial. Significa, en efecto, que la estad stica pue
de ciertam en te c o n stitu ir u n au x iliar valioso de u n ac ertad o dis
c u rrir juicioso, p e ro nunca, en cam bio, u n s u stitu to del m ism o.
D esde el p u n to de vista del socilogo n o es m s q u e u n in stru
m ento.
Dicho lo a n terio r, agregar q u e la estad stica re s u lta en los
exm enes ex p loratorios u n a h e rra m ie n ta m ucho m s flexible de
lo que p o d ra im aginarse. B uena p a rte de la investigacin social
se b asa en ideas tericas sum am ente ten tativ as, las que n o cons
titu y en u n a gua p recisa en funcin de las interrelacxones que
cabe esp erar, de las variables que h an de s e r co n tro lad as en el
anlisis, o incluso de las p rio rid ad e s y secuencias a que h an de
s u je ta rs e las etap as del anlisis. Con frecuencia se sorprenden
los estu d ian tes a n te la com plejidad que ad q u iere el anlisis de
datos, ta n p ro n to com o se in tro d u cen en el c u a d ro h a sta una
m ed ia docena de variables. E s especialm ente e n estos casos
cu an d o u n conocim iento de la teo ra estad stica de diseos ex
p erim en tales, o de la tcnica de la estim acin m ed ian te ecua
ciones sim u ltneas p asa a se r u n in stru m en to valioso, m ediante
el cual pu ed en ser clarificadas algunas relaciones de u n a gran
com plejidad. Los m todos verbales o intuitivos re su lta n absolu
tam en te inadecuados. E n u n tex to general, tal com o el presente,
slo pu ed en ab o rd arse tem as de diseo experim ental y anlisis
m u ltiv ariad o , p e ro es im p o rta n te te n e r en cu en ta q u e hay n u
m erosas m ateria s m ucho m s avanzadas, las q u e h a n m o strad o
su vala in clu so en aquellas investigaciones ex ploratorias cuyo
p ro p sito co n siste en d eterm in a r la im p o rtan cia relativ a de n u
m erosos facto res, al o b je to de re d u c ir d e m a n e ra sistem tica el
m arg en de altern ativ as, crean d o hiptesis m s p recisas p a ra su
u so en investigaciones u lterio res.
1.3. A dvertencia
E n p resen cia de u n n m ero o de u n a ecuacin m atem tica, algu
nos estu d ian tes ex p erim en tan u n tem o r que va desde u n a ligera
ap reh en si n h a sta la inhibicin m en tal com pleta. Si el lecto r es
de stos, d eb er tr a ta r especialm ente de deponer to d a idea p o r
el estilo acerca de que la estad stica es algo que ya s que nunca
llegar a e n te n d e r. E n efecto, el grado de m atem ticas reque.
rid o en este texto es tal, que los cursos de lgebra de la escuela
secundaria, aadidos a las pocas operaciones algebraicas elem en
tales q u e se exponen en el A pndice 1, constituyen u n a p re p ara
cin suficiente. H ay que re c o rd a r, con todo, q u e los textos de
m atem ticas y estad stica n o se leen com o u n a novela. P o r lo
reg u lar, e n efecto, la m a te ria se p re se n ta en fo rm a m uy conden-

sa d a . D e a h , p u e s, q u e se re q u ie ra n u n a le c tu r a a te n ta y u n a
d isp o sic i n de e s p r itu activ a, y n o sim p le m e n te p asiv a , f r e n te
al m a te ria l p re s e n ta d o . s ta es la ra z n d e q u e n o se p u e d a
p r e s c in d ir de u n tr a b a jo c o tid ia n o y d e la re so lu c i n d e los p ro
b le m a s p r c tic o s in c lu id o s al fin a l de c a d a ca p tu lo .
B iblio g ra fa

1. Downie, N. M. y R. W. H eath: Basic Statistical Methods, 2- ed. Harper and Row, Fublishers, Incorporated, Nueva York, 1965, caps. 1 y 2.
2. Hagood, M. J. y D. O. Price: Statistics for Sociotogiss, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 1 y 2.
3. Hammond, K. R., y J. E. Householder: Introduction to the Statisti
cal Method, Alfred A. Knopf, Inc., Nueva York, 1962, cap. 1.
4. Hays, W. L .: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, pp. 1-12.
5. Tippett, L. H. C .: Statistics, 2? ed., Oxford University Press, Nueva
York, 1956.
6. Walker, H. M .: Mathematics Essential for Elementary Statistics,
Henry Holt and Co., Inc., Nueva York, 1951.
7. Waliis, W. A. y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, caps. 1-3.

E s t e captulo tien e p o r objeto esbozar en lneas generales las re


laciones existentes e n tre las proposiciones tericas, las hiptesis
em pricas, la m edida y los m odelos m atem ticos. M uchos de los
problem as trata d o s en este captulo no suelen exam inarse en
conexin con los cursos de estadstica, lo que se debe en p arte
a la tendencia poco afo rtu n ad a consistente en dividir la m ateria
en cursos con las apelaciones de "te o ra , "m todos de investiga
cin y "estad stica. E sto ocasiona que las relaciones internas
e n tre dichas m aterias resu lten a veces oscurecidas. Con objeto
de situ a r a la estad stica en la debida perspectiva, conviene pres
ta r atencin a las relaciones e n tre las proposiciones tericas y
las hiptesis de investigacin p o r u n a p arte, y e n tre estas lti
m as y los m odelos m atem ticos p o r la otra.
Se suele decir con frecuencia que el objeto de la investigacin
est en v erificar hiptesis desarrolladas tericam ente y que los
m todos estadsticos capacitan p a ra efectu ar dichas pruebas. Hay
que te n e r p resente, sin em bargo, que los procesos im plicados
en p asa r de la teo ra a las hiptesis reales de investigacin y de
stas a los enunciados de probabilidad del tip o em pleado en la
inferencia estad stica no son en m odo,alguno directos. En efecto,
en am bos casos hay que to m a r decisiones, las cuales pueden d ar
lu g ar a u n grado considerable de controversia. Exam inem os
p rim ero el ca rc te r de las decisiones que se req u ieren p a ra des
arro llar, a p a r tir de proposiciones tericas, hiptesis verificables.

*11.1. Teora e h ip te sis: definiciones operativas


E n el in stan te en que em pezam os a disear u n proyecto de inves
tigacin enderezado a verificar u n a proposicin que puede apa
recer en u n tra b a jo terico, re su lta evidente que h ay que h acer
varias cosas an tes de p o d er p ro ced er a la prueba. Tom em os a
ttu lo de ejem plo concreto la siguiente proposicin: "Cuanto
m s elevada es la condicin social de u n a persona, tan to m en o
res son sus prejuicios en relacin con los negros. Supongam os
que la "condicin social se haya definido com o la posicin que
la p erso n a ocupa en relacin con o tras en la je ra rq u a social, y
los "p reju icio s" com o tendencia latente a la discrim inacin de
* El asterisco que precede una seccin, prrafo o ejercicio indica que la
materia que contiene o es de comprensin difcil o trata de conceptos con
los que probablemente no estn familiarizados los estudiantes que slo disr
ponen de una preparacin limitada en materia de metodologa de investiga
cin. El estudiante principiante puede perfectamente omitir dichos pasajes
o leerlos superficialmente. Por su parte, el asterisco que precede al ttulo
de una seccin indica que la seccin entera puede omitirse si se quiere.

22

u n a m in o ra o com o a c titu d negativa b a sa d a en juicios preform ados. Aun si s p re fie re s u stitu ir p o r o tra s las definiciones de
esos dos conceptos, se d e sc u b rir sin d u d a alguna que, cuales
q u iera que sean las definiciones escogidas, re su lta im posible s e r
v irse d irectam en te de ellas p a ra decidir cul sea exactam ente la
condicin de Jones, pongam os p o r caso, o el grado de sus p r e
juicios.
La razn de ello resid e en que la m ayora d e las proposiciones
son m s bien tericas q u e operativas. E n la definicin terica,
en efecto, u n concepto se define en trm inos d e o tro s conceptos
que se d an p o r com prendidos. E n el m odelo ideal del sistem a
co m pletam ente deductivo, se to m aran ciertos conceptos sin d e
fin ir (p rim a rio s), y todos los dem s se definiran en trm inos
de aqullos. E n la g eom etra euclidiana, p o r ejem plo, los con
ceptos de p u n to y recta pueden to m arse sin definir, pudiendo
luego d efinirse las nociones d e ngulo, tringulo o rectngulo
en fu ncin de aquellos trm inos. Pese a que la eleccin de
conceptos n o definidos es h a s ta cierto p u n to a rb itra ria , el hecho
de que ten g an que ex istir siem pre algunos conceptos p rim ero s o
p rim ario s re su lta de la necesidad in h ere n te de definir los con
cep to s tericos en trm in o s unos de otros.
P or o tra p arte , las definiciones operativas son definiciones que
enuncian efectivam ente los procedim ientos em pleados en la m e
dicin ([8 ], pp. 58 a 65). La definicin op erativ a de "lo n g itu d ,
p o r ejem plo, in d icar exactam ente cm o deba m ed irse el largo
de u n cuerpo. El ejem plo de u n a definicin o p erativ a del p re
ju icio im p licar u n a p ru e b a com o la de la escala d e la distancia
social de B ogardus o, ta l vez, u n a relacin de conceptos a n ti
negros en u n a lista de 24 puntos, ju n ta m e n te con instrucciones
d etallad as p a ra recoger los datos, v alo ra r los puntos, etbtera.
Como q u iera que to d a m edicin im plica com o re q u isito m nim o
alguna clasificacin, la definicin o p erativ a p u ed e co n sid erarse
com o u n co n ju n to d etallad o de instrucciones q u e p erm iten cla
sificar a los individuos en fo rm a inequvoca. De este m odo, la
nocin del grado d e confianza o g aran ta de seguridad queda in
teg ra d a en dicho concepto de la definicin operativa. La defini
cin h a de se r lo b a s ta n te p recisa p a ra que todas las personas
q ue se sirvan del p rocedim iento lleguen a los m ism os resultados.
Lo q ue las definiciones tericas del p reju icio y de la condicin,
social consignadas m s a rrib a no lo p erm itirn , p o r supuesto, di
rectam en te.
S ostenem os, pues, que en to d a ciencia se utilizan dos tipos dis
tin to s de definiciones. D iversas m aneras altern ativ as de en fo car
la relacin e n tre la te o ra y la investigacin conducen esencial
m en te a la m ism a conclusin. N o rth ro p designa lo que hem os
llam ado definiciones tericas com o "conceptos p o r postu laci n ,
y las definiciones operativas com o conceptos p o r intuicin" [9].

P o r n u estra p a rte nos hem os servido de u n a term inologa que


p arece im p licar que hay dos m aneras distintas de definir un
"m ism o concepto, en tanto que N orthrop p re fiere referirse a
dos tipos distintos de conceptos. Otros, todava prefieren pen sar
en trm inos de ndices, m s que de definiciones operativas. El
concepto de ndice im plica p o r lo regular que el procedim iento
em pleado da slo un indicador im perfecto de alguna variable
sealada que no es m edible directam ente. De acuerdo con este
pu n to de vista, pues, hay dos cosas: u n a variable sealada y un
in dicador de esta variable. Pero, independientem ente del punto
de vista que cada cual prefiera, es indispensable com prender el
carcter del nexo en tre ias dos clases de definiciones, de concep
tos o de variables. Podem os p re g u n ta r si existe o 210 un m todo
p u ram en te lgico de ju n ta r las dos clases de definiciones. O tra
fo rm a de p lan tea r la cuestin consistira en p re g u n ta r si existe
o no m odo lgico alguno de decidir si una definicin operativa
d eterm in ad a (o un ndice) m ide "realm en te el concepto o la
variable te ricam ente definidos. La resp u esta a am bas cuestio
nes p arece ser negativa.
N o rth ro p sostiene esencialm ente que no hay m an era alguna de
asociar las dos clases de conceptos o definiciones, excepto p o r
va de convencin o de com n acuerdo. La gente en general est
sim plem ente de acuerdo en que debera em plearse u n a determ i
n ad a definicin operativa como m edida de u n determ inado con
cepto, si las operaciones parecen razonables sobre la base de la
definicin terica. Puede p resu m irse que, si varias definiciones
operativas son posibles, se escogern aquellas que parecen m s
apropiadas y al m ism o tiem po m s seguras. El ca rc te r de apro
p iado h a de juzgarse inevitablem ente sobre la b ase de la com
prensin que uno tiene de la definicin terica. Se em plea a
veces el trm in o de validez aparente p a ra designar el carcter
ap ropiado de u n ndice o de una definicin operacional ([11],
p. 165). Idealm ente, segn lo seala B ridgm an, las operaciones
y las definiciones tericas h ab ra n de asociarse sobre la base de
u n o a uno ([2 ], pp. 2 3 ss). O en o tro s trm inos, si cam biam os
la operacin, deberam os servirnos de o tro concepto. Sin em
bargo, sem ejante ideal es tal vez irre al en el estad o actual de
desarrollo de las ciencias sociales. Su aplicacin conducira sin
du d a alguna ya sea a u n a rigidez capaz de ahogar todo nuevo
progreso m etodolgico o a u n a proliferacin de conceptos te
ricos [1].
Qu puede hacerse, pues? Podem os a d m itir la posibilidad de
ten er asociado un nm ero de diversas operaciones o de ndices
a cada concepto terico. Pero en tal caso podem os en contrarnos
con una dificultad com n: dichos procedim ientos pueden d ar
resu ltad o s d istintos. Uno de los procedim ientos em pleados p a ra
m ed ir el p reju icio puede llevar a resultados que indiquen que

n u estra "h ip tesis h a sido confirm ada. E n ta n to que, en otro


caso, o tro procedim iento puede conducir a la conclusin opues
ta. E n cierto sentido, as es com o se opera el progreso, a condi
cin de que no conduzca a u n a disp u ta interm inable acerca de
cul p rocedim iento m ide "realm en te el p reju icio (cuya esencia
se supone co m prendida). Con objeto de prev en ir confusiones
im p o rta darse cuenta de que la prueba efectiva se hace en tr
m inos de los conceptos tal com o se los ha definido opracionalm ente. Por lo tanto, as proposiciones que com portan conceptos
definidos tericam ente no son verificadles directam ente. As, pues,
si se dan dos definiciones operativas d istin tas del p reju icio se
verificarn dos hiptesis distintas.
Se h a adm itido que puede re su lta r deseable ten er asociada m s
de una operacin con cualquier concepto terico dado, y se ha
sealado que sem ejantes operaciones pueden conducir a re su lta
dos diversos. E stam os ah o ra en condiciones de p ro p o rcio n ar un
criterio eficaz, pragm tico, p a ra una definicin terica em prica
m ente satisfacto ria del concepto. Supongam os que tenem os un
concepto definido tericam ente y varias definiciones operativas
susceptibles de asociarse con dicha definicin terica. S obre la
base de esta ltim a definicin, la m ayora de los cientficos esta
r n p ro b ablem ente de acuerdo en que algunas de las operaciones
d eb eran elim inarse p o r cuanto no se aplican a lo que est con
tenido en la definicin terica. Pueden decidir, p o r ejem plo, que
las p reg u n tas relativas a las tendencias delictivas o los gustos
m usicales no deberan em plearse p a ra m ed ir el prejuicio. Pero
puede h ab e r varias operaciones que ocupen m s o m enos el m is
m o lu g ar en la opinin de dichos jueces. E n o tro s trm in o s:
sobre la b ase de la definicin terica, los expertos pueden no
e s ta r en condiciones de ponerse de acuerdo acerca de que u n de
term in ad o p rocedim iento operativo debiera escogerse con p re fe
ren cia a otros. Podem os decir en tal caso que, en la m edida &n
que dichos diversos procedim ientos dan resultados diferentes (en
igualdad de circu n stan cias), la definicin terica es deficiente,
en el sentido de que necesita p robablem ente revisin o aclara
cin. P o r ejem p lo : el concepto prejuicio p u ed e acaso hab erse de
finido de tal m odo que re su lte dem asiado vago. Tal vez se consi
d e ra r necesario d istin g u ir en tre varias clases o dim ensiones del
prejuicio, asociando operaciones d istin tas a cada u n a de ellas. En
u n a fo rm a p o r el estilo de sta que se la reconozca explcita
m en te o no, el proceso de investigacin puede utilizarse p a ra
ay u d ar a ac la rar los conceptos tericos.
Parece, pues, h ab e r en esta form a, dos lenguajes distintos, re
lacionados. p o r u n a especie de diccionario al que se h a llegado
p o r consenso, que perm ite asociar los conceptos de u n o de ellos
con los del otro. Los cientficos piensan en el lenguaje terico
y realizan sus experim entos en el lenguaje operativo. No es ne

cesario aso ciar operaciones con todos los conceptos del lenguaje
terico. Sin em bargo, im p o rta p ercatarse de q u e los conceptos
que n o h an sido definidos operativam ente n o deberan p o r lo
re g u la r ap a rec er en enunciados que p reten d en co n stitu ir hipte
sis com probadas. E n efecto, si esto ocurre, las cuestiones plan
tead as p o r las "hiptesis" carecern p o r lo re g u lar de sentido
desde el p u n to de vista operativo y conducirn probablem ente a
u n d eb ate interm inable.
II.2. E l nivel de m e d ici n : escalas nom inles, rdinales
y d e intervalo
A cabam os de v er que el proceso consistente e n p a sa r de los con
ceptos definidos tericam ente a los definidos o p erativam ente no
es en m odo alguno directo. E n efecto, al aso c ia r u n ,tipo de con
cepto con el otro , h an de tom arse ciertas decisiones. Y en fo r
m a anloga, el proceso enderezado a seleccionar el m odelo m a
tem tico o estadstico apro p iad o p a ra em plearlo en u n a tcnica
de investigacin determ in ad a o en un procedim iento operativo
co m p o rta asim ism o cierto nm ero de decisiones im portantes.
P odra acaso pen sarse que, u n a vez que un fenm eno h a sido
m edido, la eleccin de u n sistem a m atem tico sera cosa de sim
ple ru tin a. E sto depende de lo q u e se en tien d e p o r m edida. Si
em pleam os el trm in o p a ra re fe rim o s n icam en te a aquellos ti
pos de m dicin usu alm en te em pleados en u n a ciencia com o la
fsica ( v.gr. la m edicin d e la longitud, del tiem p o o la m asa),
entonces la eleccin de u n sistem a m atem tico n o constituye
p rcticam en te problem a. P ero si am pliam os el concepto de la
m edicin p a ra incluir en l ciertos procedim ientos m enos preci
sos de em pleo co rrien te en las ciencias sociales com o se h a r en
este texto, en to n ces el p roblem a se hace m s com plejo. Podem os,
pues, d istin g u ir e n tre distin to s niveles de m edicin, y habrem os
de en c o n tra r diversos m odelos estadsticos ap ro p iad o s a cada
u n o de ellos.1
Escalas nom inales. La operacin bsica y a la vez m s sencilla
en toda ciencia es la de la clasificacin. Al clasificar trata m o s de
sep arar elem entos desde el p u n to de vista de determ inadas ca
ractersticas, decidiendo acerca de cules son m s sem ejantes y
cules m s distintos. N u e stro p ropsito consiste en agruparlos
p o r categoras que sean lo m s hom ogneas posible en com pa
racin con las diferencias e n tre las categoras. Si la clasificacin
es til, se ver que las categoras son tam bin hom ogneas con
resp ecto a otras variables [10]. As p o r ejem plo, agrupam os unas
p ersonas de acuerdo con sus respectivas religiones (m etodistas,
p resb iterian o s, catlicos, etc.) y vem os si la religin g u ard a al
1 Para exmenes ms detallados de estos distintos niveles de medicin
vanse [5], [7], [12] y [13].

guna relacin con el preju icio o el conservadurism o poltico. Po


dram os acaso h allar que los p resb iterian o s tienden a se r m s
conservadores que los catlicos, siendo las puntuaciones de
aqullos relativam ente altas en com paracin con stos. Si se hu
b ie ra n seleccionado los individuos segn el color del pelo, criterio
de clasificacin perfectam ente adecuado, probablem ente n o se
h ab ra n en contrado diferencias significativas e n tre las clases en
relacin con o tras variables estudiadas. E n otros trm in o s: las
diferencias en tre las clases de color del pelo h ab ran sido ligeras
en com paracin con la s diferencias den tro de cada categora.
As, pues, la clasificacin es fundam ental p a ra toda ciencia.
Todos los dem s niveles de m edicin, cualquiera que sea su p re
cisin, com prenden bsicam ente la clasificacin com o operacin
m nim a. Podem os, pues, considerar la clasificacin com o el nivel
m s b a jo de m edicin, en el sentido m s am plio del trm ino.
Damos a las categoras nom bres arb itra rio s, a m an era de etique
ta s convenientes, sin fo rm u lar supuesto alguno acerca de las
relaciones en tre aqullas. As p o r ejem plo, colocam os a los p res
b iterian o s y a los catlicos en c a te g o ra s, distintas p ero n o p re
suponem os que los u nos sean "m ayores que" o "m ejores" que los
otros. A condicin de que las categoras sean exhaustivas (que
com prendan todos los casos) y no se superpongan o se excluyan
m u tu am en te (q u e ningn caso figure en m s de u n a categora),
tenem os las condiciones m nim as necesarias p a ra la aplicacin
de los m todos estadsticos. Se h a utilizado la expresin de es
cala nom inal con referencia a ese nivel, el m s sim ple de todos,
de m edicin. Desde el p u n to de vista form al, las escalas n o m i
nales poseen las propiedades de sim etra y transitividad. P or
sim etra entendem os q u e una relacin q u e sea v erd ad e n tre A y
B lo es tam bin e n tre B y A. En ta n to que p o r tran sitiv id ad en
tendem os que si A = B y B = C, entonces A C. R esum ido, esto
significa sim plem ente que si A est en la m ism a clase que B, o en
una clase distinta, B est en la m ism a clase que A, o en u n a
clase distin ta, respectivam ente, y que si A y B estn en u n a nism a clase y B y C tam bin en u n a m ism a clase entonces A y C
han de e sta r tam bin en la m ism a clase.
H ab ra que se alar que los nm eros pueden asociarse a rb itra
riam en te con cada categora, p ero esto n o autoriza en ningn
m odo el em pleo de las operaciones aritm ticas usuales con di
chos nm eros. La funcin de los nm eros, en este caso, gs exac
tam en te la m ism a que la de nom bres, esto es la de designar las
categoras. E s obvio que no ten d ra sentido alguno adicionar
cifras de seguridad social y nm eros de cu arto s e n u n hotel. Pese
a que nunca caerem os en la tentacin de efectu ar u n a operacin
tan ridicula com o sta se dan casos, sin em bargo, en la inves
tigacin cientfica social, en que el ab surdo n o re su lta en m odo
alguno tan obvio. As pues, pese a que los valores num ricos

pu ed an a trib u irse a rb itra ria m e n te a diversas categoras el em


pleo de ciertas operaciones m atem ticas de las m s corrientes
(sum a, resta, m ultiplicacin y divisin) requiere, con todo, la
ejecucin de ciertas operaciones m etodolgicas en el procedim ien
to de clasificacin. Tendrem os en breve ocasin de v er cul deba
se r el c a r c te r de dichas operaciones.
Escalas ordinales. R esulta a m enudo posible o rd e n a r las cate
goras segn el grado en que poseen u n a carac te rstic a determ i
nada, sin que p o r ello estem os en condiciones de decir cuntas
poseen. As pues, nos representam os u n sim ple continuo a cuyo
largo pueden o rdenarse los individuos. Tal vez podam os colocar
a los individuos de tal m odo que nu n ca estn dos en el m ism o
lu g ar del continuo. Sin em bargo, p o r lo re g u lar existir cierto
n m ero de conexiones. E n tal caso n o estam os en condiciones
de distin g u ir e n tre determ inados individuos, y los hem os ag ru p a
do ju n to s en u n a m ism a categora. P ero estam os en condiciones,
con todo, es d ecir que todos esos individuos tienen puantuaciones su p eriores a las de o tro s individuos determ inados. Podem os,
p o r ejem plo, clasificar fam ilias conform e a su respectivo estado
socioeconm ico, en "su p e rio r, m edia superior", m edia infe
rio r" e in fe rio r. P odram os incluso lim itarn o s a dos catego
ras, la "su p e rio r" y la "in ferio r.
El tipo de m edicin que estam os exam inando se sit a m ani
fiestam en te a u n nivel algo su p e rio r al que em pleam os p a ra obte
n e r u n a escala nom inal, ya que con ella podem os n o slo ag ru p ar
a los individuos en categoras separadas, sino o rd e n a r adem s
ests categoras unas con resp ecto a las o tras. D esignam os este
nivel de m edicin cm o escala o rd in al. A dem s de poseer las
p ropiedades sim tricas de la escala nom inal, la escala ordinal es
asim trica en el sentido de que algunas relaciones especiales pue
den ser verd ad e n tre A y B y no serlo, en cam bio, e n tre B y A.
As p o r ejem plo, la relacin m ay o r que" ( > ) es asim trica, p o r
cu an to si A > B , no puede se r cierto que B > A. La transitividad,
en cam bio, sigue subsistiendo, ya que si A > B y B > C ,\entonces
A > C. Son estas propiedades, p o r supuesto, las que nos perm iten
colocar A, B , C . .. a lo largo de u n m ism o continuo.
Im p o rta a d v e rtir que el nivel o rd in al de m edicin n o nos p ro
porciona inform acin alguna acerca de la m agnitud d e las diferen
cias e n tre los elem entos. E n efecto sabem os solam ente que A
es m ayor que t, p ero n o sabem os cunto m ayor sea. Como tam
poco podem os decir que la diferencia e n tre A y B sea m en o r que
la que hay e n tre C y D.2 P o r consiguiente, n o podem os adicionar
o re s ta r d istancias sino en u n sen tid o m uy restrin g id o . As p o r
ejem plo, si tuviram os las siguientes relaciones
2 Se ha empleado el trmino mtricamente ordenado para designar escalas
en las que es posible ordenar la magnitud de las diferencias entre elemen
tos. Vase [73.

--------- 1-------------- 1----------------- ------ 1---------D

podem os decir que la distancia


AD = AB + BC + CD
p ero no podem os tr a ta r de co m p arar e n tre s las distancias
AB y CD. E n o tro s trm inos, cuando tran sfo rm am o s relaciones
de ord en en operaciones m atem ticas, no podem os p o r lo regular
servirnos de las operaciones usuales de sum a, resta, m ultiplica
cin y divisin. E n cam bio, s podem os em p lear las operaciones
"m ayor q u e" y m e n o r q u e , siem pre que esto p re sen te alguna
utilidad.
Escalas de intervalo y de proporcin. E n el sentido restrin g id o
de la p alab ra, el trm in o m edida puede em plearse p a ra designar
casos en los que n o slo estam os en condiciones de o rd e n ar
o b jeto s segn el grado en que poseen u n a carac te rstic a d eter
m inada, sino que podem os in d icar asim ism o la distancia exacta
e n tre ellos. Si esto es posible, podem os o b ten er lo que se designa
com o u n a escala de intervalo. No re su lta difcil co m p ren d er que
el nivel de m edicin de escala de intervalo req u iere el estableci
m ien to de algn tip o de u n id ad fsica de m edicin que pueda
co n sid erarse p o r todos com o u n a n o rm a com n y sea repetible,
esto es, que pueda aplicarse in d efin id am en te con los m ism os
resu ltad o s. El largo se m ide en trm in o s de pie o m etros, el
tiem po en segundos, la te m p e ra tu ra en grados F ahrenheit o cen
tg rad o s, el p eso en lib ras o gram os, y el ingreso en dlares, etc
tera . P o r o tra p arte , n o existen u nidades sem ejantes de inteli
gencia, au to rid a d o prestigio, en las que todos los socilogos
p u ed an p o n erse de acu erd o y de las que se pueda su p o n er que
perm an ecen co n stan tes d e u n a situacin a o tra. D ada u n a unidad
de m edida, re su lta posible decir que la d iferencia e n tre dos m a r
cas es de veinte unidades, o que u n a d iferencia es dos veces m a
y o r que o tra. E sto significa que es posible adicionar o re s ta r
m arc as en fo rm a anloga a com o aadim os pesas a u n a balanza
o quitam os 6 pulgadas de u n a ta b la con u n a sie rra ([3 ], pp. 296 a
298). Y en fo rm a sem ejan te podem os adicionar los ingresos de
m arid o y m u jer, en ta n to que carece d e sen tid o ad icio n ar sus
cu o tas de inteligencia (IQ ).
Si adem s es posible situ a r en la escala u n p u n to cero absoluto
o n o arb itra rio , entonces tenem os u n nivel de m edicin algo m a
yor, que suele designarse com o escala de razn ( ratio scale). En
ta l caso estam os en condiciones de co m p arar m arcas sirvindo
nos de sus proporciones. Podem os, p o r ejem plo, decir que una
m arca es dos veces m s a lta que o tra. Si el p u n to cero fu era

arb itra rio , com o es el caso en las escalas de grados centgrados


y de F ah renheit, aquello n o sera legtim o. As, p o r ejem plo, no
decim os que 70 F ahrenheit son el doble de 35 centgrados si
bien podem os decir que la diferencia e n tre dichas tem p eratu ras
es la m ism a que en tre 105c y 70 F ahrenheit. S in em bargo, p rc
ticam ente en todos los casos que conoce el au to r, e s ta distincin
e n tre escala de intervalo y escala de proporcin es p u ram en te
acadm ica, ya que es ex trem adam ente difcil e n c o n tra r u n a es
cala legtim a de intervalo que n o sea al propio tiem po u n a escala
de proporcin. E sto se debe al hecho de que, u n a vez establecida
la m ag n itu d de la unidad, es casi siem pre posible concebir cero
unidades, p ese a que nunca podam os h a lla r u n cuerpo que no
posea largo o m asa, u o b ten er u n a te m p e ra tu ra de cero 'ab so lu to .
As pues, p rcticam en te en todos los casos en que se dispone de
una unidad, ser legtim o em plear todas las operaciones corrien
tes de la aritm tica, incluidas las races cuadradas, las potencias
y los logaritm os.
* S usctanse algunas im p o rtan tes cuestiones acerca de la legiti
m idad de servirse de escalas de intervalo en el caso de cierto
n m ero d e variables sociolgicas y sociopsicolgicas. In fo rtu
nad am en te, no re su lta posible d iscu tir estas cuestiones e n detalle
en u n texto general com o el p resen te, p ese a lo cual vam os a
m encionar brevem ente alguna d e ellas. Se sostiene en ocasiones
que u n a variab le como, p o r ejem plo, el ingreso n o constituye en
realidad, si se calcula en dlares, u n a escala de intervalo ya que
u n a diferencia de $ 1 000 posee u n significado psicolgico distinto
segn que se d e n tre ingresos de $ 2 000 y $ 3 000 o e n tre ingre
sos de f 30 000 y $ 31 000. Al parecer, este argum ento confunde la
cuestin. P o rq u e lo q u e aqu se dice efectivam ente es que el in
greso calculado en dlares y el "ingreso psicolgico" (a suponer
que se lo p u ed a m ed ir en trm inos de alguna u n id a d ) n o se rela
cionan d irectam en te o en fo rm a lineal. Y esto es u n a cuestin
de hecho q u e carece d e im p o rtan cia e n relacin con la cuestin de
sab e r si existe o n o u n a u n id ad legtim a de m edida.
* AI llevar a cabo la enum eracin de actos de conducta, de p er
sonas, de ocupaciones, o de grupos de diversa ndole, se obten
drn m uchas escalas de razn. La proporcin de actos crim ina
les, p o r ejem plo, se obtiene co n tan d o el n m ero re g istrad o de
tales actos y com parndolos con la b ase de poblacin. La m a
y o r p a rte d e n u estro s datos censales de ciudades, stados o regiones, se ob tien en contando varias clases de gente y dividiendo
las cifras as o b tnidas p o r la b a se de la poblacin: p o r ciento
urbano, p o rc en tje d e la fuerza de tra b a jo en situacin de desem
pleo, tam a o pro m edio d e las fam ilias, p o rc en taje de n o blancos,
etctera. L a com plejidad de la divisin del tra b a jo puede ser
m edida en funcin del nm ero de ocupaciones diferentes, o bien
puede obten erse u n ndice de la com plejidad organizativa contan

do el n m ero de oficinas sucursales. E n ocasiones surgen dis


cusiones acerca de si tales m ediciones constituyen realm ente "es
calas de razn" (v er C olem an [4 ] p ara u n excelente planteam iento
de este p ro b lem a). Si se tom a el p u n to de vista estricta m e n te
operativo, segn el cual la m edida utilizada constituye la defini
cin d e la v ariable de in ters, cabr poca duda de que se h ab r
as o btenido u n a legtim a escala de razn, y a que h an sido con
tad as u n id ad es p recisas, y tales unidades h an sido tom adas com o
equivalentes (y p o r ta n to in tercam b iab les). De esta, m anera, si
aadim os a u n a d eterm in ad a poblacin 1 000 negros y le re sta
m os 1 000 blancos, harem os la suposicin fun d am en tal de que, en
ord en a la m edida usada, n o hay diferencia, b ien sean unos u
o tro s los negros o los blancos im plicados. P o r o tra p a rte el
p u n to cero est bien definido. La afirm acin de que el porcen
ta je de n o blancos en u n a ciudad es igual a cero n o ofrece am
bigedad.
* E n cu an tas ocasiones surge u n a discrepancia acerca de la ade
cuacin de las m edidas enum eradas, o de s stas legitim an la
adopcin de m ediciones relativas al nivel proporcional, experi
m en to u n a vehem ente sospecha de que el p ro b lem a bsico tiene
u n c a r c te r to talm en te distinto, a s a b e r: el de la relacin e n tre la
m ed id a u tilizad a y la construccin te rica q ue in te n ta m edirse.
P o r ejem p lo : la pro p o rci n de desem pleados puede s e r utilizada
com o indicacin del m al funcionam iento d e la eco n o m a; u n p o r
ce n ta je m in o rito rio, com o indicador de u n a am enaza p lan tead a
p o r la m inora, o u n p o rc en taje u rb a n o com o in dicador de la
influencia ejercida p o r los valores urbanos. E n tales casos n u n
ca p o d r la estad stica resolver per se u n a controversia, re su l
tan d o p o r ello necesario soslayar lo s p ro b lem as bsicos, supo
niendo, p o r el co n trario , q u e slo nos in te re sa la variable que
in ten tam o s m edir.
* P u ed e su scitarse o tra cuestin a p ro p sito de si es posible o
n o conseguir u n a escala de intervalo en m a te ria de m edicin de
la actitu d . Se h an efectu ad o varios in ten to s enderezados a con
seguir dicho fin. E n el m to d o T h u rsto n e d e los intervalos de
aparien cia igual, se p ide a lo s jueces que agrupen objetos en m on
to n es situ ad o s-a distancias iguales a lo largo del continuo de la
ac titu d ([1 1 ], pp. 359 a 365). Se d iscu rre esencialm ente diciendo
que, si se d a u n alto grad o de consenso e n tre los jueces, puede
em p learse legtim am ente u n a escala de intervalo. E ste procedi
m iento, as se sostiene, es esencialm ente el m ism o que se em plea
p a ra o b te n e r escalas de intervalo en o tra s disciplinas. E ste argu
m en to p arece legtim o, a condicin q u e se d efectivam ente u n
alto grad o de consenso e n tre los jueces y a condicin que stos
dispongan de u n gran n m ero de m ontones en los que se pu ed an
clasificar los objetos. As, p o r ejem plo, si se vieran obligados
a clasificar los objetos en u n o de tre s o c u a tro m ontones, po d ra

m os c o n tar con u n grado elevado de consenso, debido sim ple


m en te a la to squedad del in stru m en to de m edicin. H abra, en
efecto, tal m argen de variabilidad d en tro de cada m ontn, que
difcilm ente p o d ra sostenerse que los objetos de los diversos
m ontones estaban a igual distancia unos de otros. P ero aun ad
m itiendo u n a concordancia p erfec ta y la m xim a lib ertad en el
ag ru pam iento de los objetos en m ontones, aun as sigue el m todo
de T h u rsto n e p re sen tan d o dificultades p o r lo que se refiere al
concepto de la u n id ad de referencia. Se hace necesario p o stu lar
que es la existencia de dicha un id ad la que hace posible el acuer
do e n tre los jueces. P uede afirm a rse razonablem ente que, en
este p u n to del desarrollo de la m edicin de la actitu d , la m ayora
de las tcnicas dan unas aproxim aciones m uy m ediocres de las
escalas de intervalo. P robablem ente de m uchas de ellas no de
b iera siq u iera considerarse que proporcio nan escalas ordinales
legtim as. Las consecuencias de ello p o r lo que se refiere al an
lisis estad stico se ir n haciendo m s claras a m edida que vaya
m os avanzando.
II.3. M edicin y estadstica
Hem os visto que existen diversos niveles de m edicin, con sus
p ro piedades peculiares cada uno. Debe observarse que estos dis
tin to s niveles fo rm an u n a escala cum ulativa ellos m ism os. En
efecto, la escala o rdinal posee todas las p ropiedades de la escala
nom inal adem s de la ordinal. A su vez, la escala de intervalo
posee todas las propiedades de las escalas nom inal y ordinal y,
adem s, u n a u n id ad de m edida, en ta n to que la escala de p ro p o r
cin p re sen ta el nivel m s elevado, ya que posee n o slo una
un id ad de m edida, sino, adem s, u n cero absoluto. El carcter
cum ulativo de estas escalas significa que, al analizar nuestros
datos estam os siem pre autorizados a descender u n o o m s gra
dos en el nivel de m edicin. E n efecto, si tenem os u n a escala de
intervalo, tenem os al p ro p io tiem po u n a escala ordinal, y pode
m os servirnos de esta circunstancia en n u estro s anlisis estads
ticos. E sto re su lta r a veces necesario, cuando no dispongam os
de tcnicas estadsticas o stas sean en algn m odo deficientes en
cu an to a m an ip u lar la variable com o escala de intervalo. Sin
em bargo, al p ro c ed er as perdem os inform acin. As, p o r ejem
plo, si sabem os que Jones tiene u n ingreso de $ 11 000 y Sm ith
un o de $ 6 000 y slo nos servim os del hecho de que Jones cuenta
con el m ayor de los dos ingresos en cuestin, entonces desperdi
ciam os la inform acin relativa a que la diferencia de los ingresos
es de $ 5 000. P o r lo tanto, en la m ayora de los casos resu ltar
v entajoso servirnos del nivel de m edicin m s alto que podam os
legtim am ente adoptar.
Y qu pu ed e decirse del proceso inverso consistente en subir

la escala de m edicin, pasando, p o r ejem plo, de la ordinal a la


de intervalo? E stam os a veces ten tad o s de hacerlo, ya que esta
ram os en condiciones de servirnos de tcnicas estadsticas m s
poten tes. Es incluso posible que lo hagam os sin darnos cuenta
en ab soluto de lo que h a sucedido exactam ente. Im p o rta p erca
ta rs e de que no hay n a d a en los procedim ientos estadsticos o
m atem tico s de los que nos servim os en ltim a instancia que
nos p e rm ita verificar la legitim idad de n u estro s m todos de in
vestigacin. E l em pleo de un determ inado m odelo m atem tico
supone que se ha alcanzado cierto nivel de m edicin. La respon
sabilidad en cu anto a decidir si sus procedim ientos operativos
p erm iten o no el em pleo de determ inadas operaciones m atem
ticas recae exclusivam ente sobre el investigador. ste h a de deci
dirse en p rim e r lu gar p o r el nivel de m edicin adecuado, y esto
decidir a su vez acerca del sistem a m atem tico apropiado. En
otro s trm in o s: u n determ inado m odelo m atem tico puede aso
ciarse a cierto nivel de m edicin conform e a las consideraciones
exam inadas en la seccin precedente. As, p o r ejem plo, las ope
raciones aritm ticas corrientes slo pueden em plearse p o r lo re
g u lar con las escalas de intervalo y de razn.
*
Nos en fren tam os aqu u n a vez m s con el problem a de ten er
que tra d u c ir de u n lenguaje a otro. El lenguaje operativo com
p o rta determ in ad as operaciones fsicas, tales com o el em pleo de
u n a u n id ad de m edida. El lenguaje m atem tico, a su vez, im pli
ca un sistem a to talm en te ab stra cto de sm bolos y operaciones
m atem ticas, y es til no slo porque es preciso y est altam ente
d esarrollado1, sino debido tam bin a que su carc te r ab stracto
p erm ite la aplicacin a u n a gran variedad de problem as em pri
cos. Las m atem ticas se sirven del razonam iento deductivo p o r
el que se p asa de u n co n ju n to de definiciones, supuestos y reglas
de operacin a un conjunto de conclusiones m ediante u n razona
m iento p u ram en te lgico. En s m ism as, las m atem ticas n ad a
nos dicen acerca de la realidad, ya que todas las conclusiones
estn contenidas en las definiciones, los supuestos y las reglas
originales, no habindose determ inado em pricam ente. As, pues,
si h an de ser de alguna u tilid ad p ara el cientfico las conclusio
nes m atem ticas han de trad u c irse inversam ente a los lenguajes
op erativ o y terico [5].
Sostenem os, pues, que n o es legtim o servirse de un sistem a
m atem tico que com porta las operaciones de su m ar o re sta r, si
esto no est legitim ado p o r el m todo de m edicin. Aunque el
sentido de este hecho slo nos re su ltar plenam ente claro cuando
em pecem os a servirnos de las diversas escalas de m edida, esta
m os diciendo en realidad que no podem os re m o n ta r legtim am en
te en la jera rq u a de m edicin, a m enos que el proceso m ism o de
la m edicin haya sido m ejorado. Lo que ninguna m anipulacin
m atem tica puede hacer. Cmo decidim os, pues, cul nivel de

m edicin es el legtim o? In fo rtu n ad am en te , el p ro b lem a no es tan


sencillo com o p o d ra suponerse. Unos pocos ejem plos b astarn
p a ra d ar u n a id ea de la com plejidad del m ism o.
* P ara ilu s tra r u n o de estos problem as es necesario distinguir
las escalas ordinales y de in terv alo de la escala parcialm ente or
denada que re su lta de la com binacin de dos o m s escalas ord i
nales (o de in terv alo ) en u n solo- ndice. O curre con frecuencia,
en sociologa y en las o tras ciencias sociales, que aquello que p o r
lo p ro n to p arece ser u n a sim ple escala o rdinal (o de intervalo)
es en re alid ad u n a com binacin de varias escalas o rd in ale s (o de
in terv alo ), con el re su ltad o de que no puede h acerse u n a clasifi
cacin inequvoca de individuos sin a d o p ta r p rev iam en te ciertas
o tra s decisiones. Tom em os, p o r ejem plo, el caso de la condicin
socioeconm ica. P or lo regular, solem os d eterm in a r la condi
cin de u n a p erso n a exam inando cierto nm ero de crite rio s distin
tos, tales com o su ingreso, ocupacin, educacin, antecedentes
fam iliares o la zona de residencia. Si A se clasifica m e jo r que B
segn todos y cada uno- de dichos criterios, entonces A puede
obviam ente clasificarse com o m s alto que B p o r lo que se refie
re a la condicin general. Pero, qu o cu rre si A tien e u n ingreso
su p erio r al de B , y ste, en cam bio, u n no m b re de fam ilia m s
p ro m in en te? Cul de los dos ocupa e n este caso el m e jo r rango
social? Tenem os aqu v aria s/a lte rn ativ as. La p rim e ra consiste en
d e ja r de lado la nocin de condicin general y p e n sa r en trm inos
de dim ensiones sep arad as de la m ism a, cada u n a de las cuales
p u ed a acaso a d m itir u n nivel o rd in al de m edicin. T erm inam os
as n o con una, sino con varias escalas ordinales, y la cuestin
em p rica est en sa b e r h a sta qu p u n to las d istin tas dim ensiones
pu ed an relacionarse e n tre s. P o r supuesto, si existe u n a relacin
p erfec ta e n tre to d as las dim ensiones, la cuestin se convierte en
p u ram en te acadm ica, y a que A, si es su p erio r a B en cada u n a
de las dim ensiones, lo ser tam b in e n todas ellas. E n la p r c
tica, sin duda, e sto no o cu rre nunca.
* N u e stra segunda altern ativ a consiste en tr a ta r de " fo rz a r la
aplicacin de u n a escala o rdinal a los datos, ad o p tan d o algunas
decisiones acerca del peso relativ o de cada dim ensin y de las
equivalencias que ello im plica. As, p o r ejem plo, si podem os ad
m itir que u n ao suplem entario de in stru cci n equivale a $1 338.49
de ingreso su p lem entario, podem os tra d u c ir las un id ad es educa
tivas en u n id ad es de ingreso, llegando as a u n a escala unidim en
sional. O bviam ente, el p roblem a de tra d u c ir los antecedentes fa
m iliares o el rea de residencia es m s com plicado todava. El
m to d o de m edicin que aqu estam os exam inando co m porta un
tip o de con stru ccin de ndice. B aste decir que sem ejan te cons
tru cci n de ndice com porta usu alm en te algunas decisiones arb i
tra ria s a p ro p sito de los pesos relativos que haya que a trib u ir.
Si el sistem a d e ponderacin se d e ja ju stific ar, entonces puede

em plearse u n a escala o rd in al; en caso contrario, subsiste la duda


acerca de si los individuos pueden o no clasificarse legtim am en
te en relacin con el rango.
* U no de los m todos com nm ente em pleados p a ra obtener
una escala ordinal consiste en servirse de uno o m s jueces p ara
clasificar a los individuos conform e a u n criterio como, p o r ejem
plo, el del po d er o del prestigio. Supongam os, p a ra sim plificar,
que no hay m s que un juez y que se le ha im puesto la tare a de
clasificar a los individuos segn su posicin social en la locali
dad. Suponiendo que la p ersona coopere, el m todo em pleado
nos garan tiza la obtencin de u n a escala o rdinal independiente
m en te de cm o los individuos se com paren realm en te a los ojos
del juez. Es posible que, si se h u b iera em pleado otro m todo,
no se h a b ra obtenido escala ordinal alguna. Si se h u b iera utili
zado u n a tcnica de com paraciones apareadas, en la que se p ro
n u n ciaran juicios en tre cada com binacin p o r pares, el juez po
d ra h ab er tasado a Sm ith m s alto que a Brown, a ste m s alto
que a Jones, p ero a este ltim o m s alto que al prim ero, S m ith;
violando en esta form a la propiedad de tran sitiv id ad de las esca
las ordinales. El investigador h a de proceder ah o ra a u n a eleccin.
Puede llegar a la conclusin de que existe u n a escala parcial
m ente o rd en ad a de u n a clase u otra. O puede considerar que el
juez es inconsecuente o com ete e rro r. Como lo' seala Coombs,
este pro b lem a relativo a lo que haya que designar como e rro r de
m edicin es un dilem a bsico1con el que se en cu en tra el socilofo ([7 ], pp. 485 a 488). E n trm inos generales, ste puede adop
ta r u n alto nivel de m edicin y considerar las desviaciones del
tip o que se acaba de sealar com o erro res de m edicin, o puede
d escen d er a u n nivel m s b ajo de sta.
* Puede ilu strarse el m ism o dilem a en el caso de la escala de
G uttm an. E n el tipo perfecto de sta, las preg u n tas tienen una
p ro p ied ad cum ulativa que ju stifica la adopcin de u n a escala
o rd in al [14]. Las preg u n tas pueden o rdenarse de m odo que se
vaya pasando de un lm ite in ferio r a u n lm ite superior, de tal
m odo que el tipo exacto de re sp u esta de un individuo pueda
rep ro d u cirse a p a rtir de su puntuacin total. As, p o r ejem plo,
si se tienen cinco problem as aritm ticos que vayan del m s fcil
al m s difcil, la p ersona que resuelva el m s difcil e s ta r tam
bin lgicam ente en condiciones de resolver los m s fciles. Si
resuelve co rrectam ente tre s de los problem as, stos sern los
tres m s fciles, fallando en los otros dos. E n u n a escala perfec
ta de d istancia social, las preg u n tas relativas al p rejuicio pueden
disponerse conform e al grado de la intim idad de contacto con la
m inora considerada. U na persona que est dispuesta a casarse
con un negro, e sta r dispuesta, p o r supuesto, a vivir en la m ism a
calle que uno de ellos; si lo acepta como vecino, no te n d r in
conveniente en sen tarse a su lado en el autobs. As, pues, pode

m os v er e n la escala p e rfe c ta de G uttm an que la p erso n a que


co n teste afirm ativ am en te c u a tro p re g u n ta s h a b r co n testad o exac
tam en te las m ism as que u n a p erso n a con tre s afirm aciones, m s
una. Si la escala slo estu v iera p arcialm en te ord en ad a, p o d ra
decirse que en ciertos aspectos A tien e m s p reju icio s que B,
y en o tro s aspectos m enos, ya que los dos individuos h a n acep
tad o com binaciones d istin tas de preguntas.
* Sin em bargo, en la p r ctica ra ra m e n te alcanzam os u n a escala
p erfec ta de G uttm an, si es q u e la alcanzam os alguna vez. E n efec
to, h ay siem p re algunas p ersonas cuyo tip o de re sp u estas se des
va del tipo ideal. S on stas acaso inconsecuentes p o rq u e acep
ta n a u n neg ro com o vecino p e ro se niegan a se n ta rse a su lado
en el au to b s? T al vez. Pero, p o r o tra p arte , tal vez no sea as.
A m enos que el in vestigador est d ispuesto a suponer q u e dispone
de u n a escala o rd inal legtim a, n o puede so sten er que el individuo
consid erad o com eta e rro r. Y si el n m ero de e rro re s alim enta,
em pezam os a so spechar de n u e stra escala. P or o tra p a rte , siem
p re estam o s dispuestos a to le ra r cierto n m ero relativam ente
p equeo de erro res. Es este p rin cip io el que se h alla a la base
de la decisin relativ a a a c e p ta r la escala de G u ttm an com o escala
ordinal, si el n m e ro de erro res, m edido p o r el coeficiente de
rep ro d u ctib ilid ad , es m uy pequeo. Sin em bargo, conviene p er
catarse del hecho de que la decisin es h a sta cierto p u n to arb i
tra ria , y de que en ltim a in stan cia nos en fren tarem o s con el
p ro b lem a de d ecidir a qu debam os llam ar erro r.
* E sto s ejem plos deberan b a s ta r p a ra in d icar que n o siem pre
es cosa fcil d ecidir cul tip o de escala pueda em p learse legti
m am ente. Desde u n pu n to de vista ideal, h a b ra que servirse de
u n a tcnica de reu n i n de datos que p e rm ita los niveles m s bajos
de m edicin, si stos son los nicos que los datos adm iten, antes
que re c u rrir a tcnicas que ad a p te n violentam ente la escala a los
datos. As, pues, el m todo de las com paraciones ap aread as slo
d a r u n a escala ordinal si el juez est efectivam ente en condi
ciones de clasificar a los individuos. P or o tra p arte, si se !e in
v ita a colocarlos en u n orden preciso de clasificacin, h ab r de
hacerlo, as crea o n o que esto puede lograrse legtim am ente.
H abindose servido de este ltim o m todo de reunin de datos
y no estan d o en condiciones de d e m o stra r em pricam ente que los
individuos pueden o rd en arse sin vio len tar los datos, h ab r de
suponer la existencia de u n solo continuo.
Con o b jeto de in sistir en el hecho de que toda tcnica estads
tica co n sid erad a presupone siem pre u n nivel especfico de me
dicin, nos aco stu m b rarem o s a in d icar siem pre el nivel de
m edicin re q u erid o p o r cada procedim iento. Al elegir e n tre p ro
cedim ientos alternativos u n a de las preg u n tas m s im p o rtan tes
a fo rm u lar es s ta : "E s legtim o a c ep tar el nivel de m edicin
que u n a d eterm in ad a tcnica re q u ie re ? Si no lo es, ta l vez deba

e n c o n trarse u n pro cedim iento alternativo. S i la n ica considera


cin fuese el nivel de m edicin, se sim plificara el p roblem a de
la eleccin e n tre pro cedim ientos alternativos.
E n co n tram o s con frecuencia, sin em bargo, que ciertos procedi
m ientos que n o tien en gran d es exigencias en c u a n to a la m edida,
y que p o r ta l razn p arece n preferibles, re su lta n m enos satisfac
torios en relacin con o tra s ca ractersticas deseables. As se ve
u n o e n fre n ta d o con decisiones difciles, en las que est im plcita
la n ecesidad de so p esar la seriedad relativ a de las diversas cla
ses de p resunciones violadas. E n tales casos puede re s u lta r de
seable an alizar n u estro s d ato s m ed ian te la aplicacin de diferen
tes m todos, observando si las conclusiones as obtenidas difieren
e n tre s en fo rm a considerable.
E n este p u n to puede o c u rrir que n u e stro exam en d e estos
d iferen tes niveles de m edicin y de los problem as de eleccin
e n tre p ru e b as y m ediciones alternativas, no n o s ilu stre gran cosa.
Uno de los peligros de la estad stica "de re cetario " consiste e n u n a
excesiva sim plificacin de los criterios y los problem as im plcitos
en la adopcin de decisiones relativas al anlisis de datos. Es
im posible exagerar la im p o rtan cia que tiene, al u tiliza r cualquier
tcn ica estad stica, el te n e r p re sen te las presunciones im plcitas
q u e el p ro ced im ien to requiere. E n el curso del p re sen te exam en,
u n a de las p rim era s p reg u n tas a fo rm u larse es la relativ a al nivel
de m edicin que puede legtim am ente aceptarse.
II.4. O rganizacin del libro
La organizacin de los re sta n te s captulos viene d eterm in ad a p o r
c iertas consideraciones, la p rim e ra de las cuales consiste en p re
se n ta r a n te to d o las ideas m s sim ples, p asan d o gradualm ente
a las d e m ay o r com plejidad. Como cada u n a de las secciones
p resu p o n e el conocim iento de m ateriales que prev iam en te h an
sido tra ta d o s, re su lta conveniente seguir e s ta organizacin, p a
san d o p o r alto solam ente los p rrafo s o secciones precedidos de
asterisco. E l captulo xiv, p o r excepcin, p u ed e se r saltad o e n su
to talid ad , o bien englobado con las p ru e b a s y procedim ientos
"no p aram trico s" contenidos en los captulos xvi y x v m . El ca
p tu lo xxi, acerca del m u estreo , puede s e r ledo en relacin con
el cap tu lo ix relativo a la p robabilidad, a u n cuando el captulo
so b re m u estreo contiene v arias secciones q u e slo p o d r n en ten
derse cuan d o hayan sido ledos los captulos xi, x m y xvi. Lo
fu n d am en tal del cap tulo x v n p o d r se r asim ilado sin h a b e r p re
v iam ente ab o rd ad o el cap tu lo xvi sobre anlisis de diferencias.
Se recom ienda, en general, que se estu d ien ios distin to s tem as
en el o rd en en que se p re sen tan .
Los in stru m en to s estad stico s n o son fcilm ente agrupables
b a jo u n o o dos ap artad o s, y p o r ta l razn los ttu lo s que o sten tan

las principales divisiones del libro son slo parcialm ente adecua
dos, lim itndose p o r el co n trario a c e n tra r la atencin prim aria.
La Segunda P arte se lim ita al tem a de la estad stica descriptiva,
en tan to que en las p arte s T ercera y C uarta el principal, aunque
no el nico, foco de atencin, se refiere a la induccin, a la
p ru eb a de hiptesis y a la estim acin de p arm etro s de pobla
cin basad a en datos de m uestreo. E n las p arte s Segunda y
T ercera nos lim itarem os casi p o r en tero a los procedim ientos
que tra e n im plcita u n a sola variable p o r vez, en ta n to que en
la C uarta P arte pasam os a problem as m s difciles tales como
el m an ejo sim ultneo de dos o m s variables.
E n trelazad a en estas distinciones e n tre descripcin e induccin,
as como en tre las estadsticas univariables y bivariables o multivariables, se observa u n te rc e r principio organizativo, a sab er:
el relativo a los niveles de m edicin p a ra cada u n a de las variables.
M uchos de los ttulos de los captulos sealan este nivel de
m edicin, p ero tal vez el m e jo r m todo p a ra lo g rar u n a perspec
tiva resu m id a del contenido consista en acu d ir al cu ad ro de p ru e
bas y m ediciones que aparece en las guardas. E n su p rim era
colum na ap arecen los procedim ientos a u sa r con variables sim
ples. Vemos all que en el cap tu lo m nos ocuparem os de las
m ediciones m uy sim ples (p o rcen tajes, proporciones y razones),
utilizados ta n to con las dicotom as como con las escalas genera
les nom inales con m s de dos categoras. Las p ru e b as de hipte
sis relativas a escalas nom inales sim ples sern estu d iad as en los
captulos x, xi y x n . Las m edidas (m ediana, desviacin cuadril)
adecuadas p a ra ser utilizadas con u n a escala ordinal, sencillas,
sern exam inadas brevem ente en los captulos v y vi, en ta n to que
en el captulo x se d iscutir u n a m uy sencilla p ru e b a (la bino
m ial), aplicable a datos ordinales. D edicarem os algo m s de nues
tra atencin a las escalas de intervalos y razones, las que exa
m inarem os e n los captulos iv a v n , relativos a procedim ientos
descriptivos univariados, y de nuevo en los captulos xi y x n de
la T ercera P arte, relativos a la estad stica inductiva.
Com enzando con el captulo x m volverem os n u e stra atencin
a las relaciones e n tre dos o m s variables, lo que desde luego
supone que habrem os de ocuparnos del nivel de m edicin de la
variable segunda (y adicional), ta n to com o de la prim era. Las
colum nas 2 a 5 del cuadro ofrecen varias com binaciones en rela
cin con el nivel de m edicin de las dos variables. P or ejem plo:
la casilla su p erio r de la colum na 2 se refiere a aquellas situacio
nes en que se dan dos dicotom as relacionadas e n tre s (p o r
ejem plo, sexo c o n tra preferencias p olticas). E n la segunda casi
lla de la colum na 2 se tiene en cuenta la posibilidad de que la
p rim era escala nom inal tenga m s de dos categoras (p o r ejem
plo: p ro testan tes, catlicos y ju d o s). En la te rc e ra casilla una
de las variables es u n a dicotom a (p o r ejem plo, sexo) e n tan to

que la segunda es u n a escala ordinal, y as sucesivam ente. Hay


u n a sola casilla sin ocupar, a s a b e r : aquella e n que u n a variable
se m ide en el nivel o rd in al y la segunda en el nivel de intervalo
o de razn. Aun cuando tales situaciones p u ed en p o r supuesto
s e r resu eltas, carecem os de in stru m en to s realm en te satisfactorios
que no re q u ie ran u n a p rd id a de inform acin al re d u cir el nivel
de m edicin en cu alq u iera de las dos variables. No hay nece
sid ad alguna de llen ar las casillas situadas sobre las que ocupan
la diagonal del cuadro, ya que las cu b ren aquellas situadas b ajo
dicha diagonal.
R esu lta p re m a tu ro en estos m om entos p o n er a discusin cada
u n a de las posibilidades relacionadas en el cuadro. El pu n to m s
im p o rta n te a sealar es el de que el nivel de m edicin afectado
co nstituye u n a de las consideraciones m s im p o rtan tes al llevar
a cabo u n a eleccin e n tre diversos procedim ientos. La eleccin
es relativa, aunque no en teram ente, sim ple, en tan to u n o se en
cu e n tre lim itado al uso de slo dos variables. R esulta m ucho
m s difcil en el caso del anlisis m ultivariado, en el que con
frecuencia pued e u n o tra b a ja r con cinco o incluso h a sta quince
o veinte variables al m ism o tiem po, y donde re s a lta com o sum a
m en te im p ro b ab le que todas ellas sean m edidas al m ism o nivel,
y donde a m enudo es poco deseable u tiliz a r dem asiados m todos
de p ru e b a y m edicin. E n los captulos xv, xvx, xix y xx se exa
m in an estos p roblem as de anlisis m ultivariado. E n ciertos luga
res, p a rtic u la rm e n te al final de los captulos xiv y xx, se en
co n tra rn , en fo rm a resum ida, algunas de las consideraciones
relativ as a la seleccin e n tre procedim ientos alternativos.
Como se observar, n o todas las com binaciones posibles son
m an ejad as e n este texto con el m ism o grado de m inuciosidad.
O curre as, no slo p o r lim itaciones de espacio y p o r la necesidad
de d eten erse en el exam en de las ideas fundam entales, sino p o r
q ue la teo ra estad stica se en cu en tra m ucho m s avanzada en
ciertos aspectos. Se h a tra b a ja d o m ucho m s, en p artic u la r,
en el sec to r de la llam ada e stad stica p a ra m tric a , relativa a las
escalas de in terv alo y de razn, que en el de los procedim ientos
ordinales, p o r lo cual n u estro s in stru m en to s p a ra el uso de las
escalas de in terv alo y de tiem p o e stn m ucho m s desarrollados,
especialm ente en el caso del anlisis m ultivariado. La diferencia
e n tre las escalas de in terv alo y razn no h a sido tam poco explo
ta d a en la teo ra estadstica, p o r lo m enos h a sta el nivel que a
n o so tro s nos in teresara. La razn b sica e strib a en que los m o
delos estad stico s con los que generalm ente tra b a ja m o s e stn b a
sados en u n a ecuacin lineal general que es aditiva, en lugar de
a b a rc a r razones o variables. P o r tal m otivo, y p a ra todo objetivo
p rctico , no es necesario te n e r p re sen te ta l distincin segn se
avanza en la lectura. S er em p ero n ecesario a c u d ir peridica
m en te al cu ad ro de las guardas.

losario

El lector h a r bien en acostum brarse a explicar en sus propios t r


m inos el significado de los conceptos im portantes. Los nuevos con
ceptos introducidos en este captulo son:
la
la
* la
la
la

escala de intervalo,
escala nom inal,
definicin operativa,
escala ordinal y
escala de razn.
B iblio g rafa

1. Blalock, H. M .: "The Measurement Problem: A Gap between the


Languages of Theory and Research ; en H. M. Blalock y Ann B.
Blalock (E.) Methodology in Social Research, McGraw-Hill Book
Company, Nueva York, 1968, cap. 1.
2. Bridgman, P. W .: The Logic of Modern Physics, The Macmillan
Co Nueva York, 1938, pp. 1-39.
3. Cohn, M. R. y E, Nagel: An Introduction to Logic and Scientific
Metkod, Harcourt, Brace and Company, Inc., Nueva York, 1937,
caps. 12 y 15.
4. Coleman, James S.: Introduction to Mathematical Sociology, The
Free Press, Nueva York, 1964, cap. 2.
5. Coombs, C. H., H. Raiffa y R. M. Thrall: "Some Views on Mathe
matical Models and Measurement Theory", Psychological Review,
vol. 61, pp. 132-144, marzo de 1954.
6. Coombs, C. H.: A Theory of Data, John Wiley & Sons, Inc., Nue
va York, 1964.
7. Coombs, C. H .: "Theory and Methods of Social Measurement,
en L. Festinger y D. Katz (ed.), Research Methods in the Behavioral Sciences, The Dryden Press, Inc., Nueva York, 1953, pp. 471-535.
8. Lundberg, G. A.: Foundations of Sociology, The Macmillan Com
pany, Nueva York, 1939, caps. 1-2.
9. Northrop, F. S. C., The Logic of the Sciences and the Humanities,
The Macmillan Company, Nueva York, 1947, caps. 5-7.
10. Radcliffe-Brown, A. R.: A Natural Science of Society, The Free
Press of Glencoe, 111., Nueva York, 1957, pp. 2842.
11. Selltiz, C., M. Jahoda, M. Deutsch y S. W. Cook: Research Me
thods in Social Relations, Henry Holt and Company, Inc., Nueva
York, 1959, caps. 5 y 10.
12. Senders, V. L., Measurement and Statistics, Oxford University
Press, Nueva York, 1958, cap. 2.
13. Stevens, S. S.: "Mathematics, Measurement, and Psychophysics",
en S. S. Stevens (ed.), Handbook of Experimental Psychology,
John Wiley & Sons, Inc., Nueva York, 1951, pp. 1-49.
14. Stouffer, S. A., et ai.: Measurement and Prediction, Princeton Uni
versity Press, Princeton, N. J., 1950, caps. 1 y 3.
15. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 2.

S eg u n d a P a rte

E S T A D S T IC A D E S C R IP T IV A UNIVARIADA

I I I . ESCALAS N O M IN A L E S : P R O P O R C IO N E S ,
P O R C E N T A JE S Y R A ZO N ES
E s m u c h o m s sencillo re su m ir los datos que com portan escalas
nom inales que en el caso en que se em plean escalas de intervalo.
La operacin aritm tica b sica es, en el p rim e r supuesto, la
de c o n tar el n m ero de los casos al in te rio r de cada categora y de
a n o ta r sus tam aos relativos. Un grupo determ inado puede cons
ta r de 36 varones y 24 m u jeres, o de 25 p ro testan te s, 20 catli
cos y 15 judos. Sin em bargo, p a ra p o d er estab lecer com para
ciones con otro s grupos, hay que te n e r en cu en ta el n m ero de
casos en cada un o de los grupos considerados. Las m edidas que
se exam inan en el p re sen te captulo p erm iten establecer com pa
raciones e n tre diversos grupos, m ediante norm alizacin esencial
m en te en relacin con el tam ao. Sin d u d a alguna, dos de las
m edidas en cuestin, la de las proporciones y la de los p o rc en ta
jes, son ya conocidas de todos.
I I I .1. P roporciones
Con o b jeto de p o d er servirnos de las proporciones, hem os de
p re su m ir que el m to do de clasificacin h a sido ta l que las cate
goras son m u tu am en te exclusivas y exhaustivas. E n o tro s trm i
n o s: cada individuo h a sido pu esto en u n a categora y en u n a
sola. Con fines de sim plificacin, tom em os u n a escala nom inal
q u e co n ste d e c u a tro categoras, con N u N 2, N s y N 4 casos re s
pectivam ente. S upongam os que el n m ero to ta l de los casos sea
N. La pro p o rci n de casos en cualquier categora dada e s t defi
n id a com o el n m ero en la categora dividido e n tre el n m ero
to tal de casos. P o r lo ta n to , la proporcin de individuos de la
p rim e ra categora se halla d ad a p o r la ca n tid ad N 1/N , y las p ro
porciones de las dem s categoras son respectivam ente de N 2/N ,
N 3/ N y N J N . Es obvio que el valor de u n a proporcin n o puede
ser m ay o r que la unidad. .En efecto, com o q u iera que
Nj. + N 2 + N 3 + N = N
tenem os que
Nx
N2
_ J_ + __L +
N
N

Ns
N

Ni
N
_ L = -------- = i
N
N

As, pues, si adicionam os las proporciones de los casos en todas


las categoras (m u tu am en te exclusivas), el re su ltad o es la unidad.

43

Es sta u n a p ro p ied a d im p o rta n te de las p ro porciones que se


d eja ex ten d er fcilm ente a cu alq u ier n m ero de categoras.
Ilu strem o s el em pleo de las proporciones con los datos dados
en el cu ad ro I I I .1.

C uadro II I .l.

N m ero de delincuentes y de no delincuentes en


dos localidades hipotticas
Sujetos

Localidad 1

Localidad 2

Delincuentes
Prim er delito
Reincidentes
No delincuentes

58
43
481

68
137
1081

Total

582

1286

R esulta m s bien difcil decir cul de las dos localidades cuenta


con m ayor n m ero de delincuentes, p o rq u e son diversam ente
grandes. E n cam bio, si expresam os los datos en trm in o s de
proporciones, podem os establecer u n a com paracin directa. E n
efecto, la p ro p o rci n de p rim ero s delitos es, en la com unidad 1,
de 58/582, o .100; la de la localidad 2, en cam bio, es de 68/1 286
o sea .053. Las dem s proporciones pu ed en calcularse en form a
anloga, resu m ien d o los re su ltad o s en fo rm a de c u a d ro (cu ad ro
III.2 ). El cu ad ro en cuestin nos p e rm ite ap re c ia r que los nm e
ro s relativos de delincuentes son m u y parecidos en las dos lo
calidades, p ero que la segunda de ellas contiene u n nm ero
considerablem ente m s b a jo de p rim ero s delitos y u n a p ro p o r
cin m s a lta de reincidentes.

C uadro

III.2. Proporciones de delincuentes y de no delincuentes


en dos localidades hipotticas
Sujetos

Localidad 1

Localidad 2

Delincuentes
Prim er delito
Reincidentes
No delincuentes

.100
.074
.826

.053
.107
.841

Total

1.000

1.001

La sum a de las proporciones d e la localidad 2 n o d a exacta


m en te la unidad, debido a los e rro re s de redondeo. E n ocasiones
es conveniente p re s e n ta r los dato s de ta l m odo que las sum as

sean ex actam en te igual a 1.000. E sto puede acaso exigir el aju ste
de algunas de las proporciones de las categoras, en cuyo caso
m odificam os p o r convencin las cifras de las categoras que com
p re n d en el m ay o r n m ero de casos.1 E l argum ento en favor de
ese pro ced im ien to est en que u n cam bio en la ltim a cifra deci
m al de u n a p ro p o rci n m ayor es relativ am en te m enos im por
ta n te que el m ism o cam bio en u n a cifra m enor. As, p o r ejem plo,
p o d ra cam b iarse la pro p o rci n de los no delincuentes de la localid ad 2 en .840, d e m odo q u e la su m a re s u lta n te sea igual a la
unid ad .
El cu ad ro III.2 com prende proporciones del n m ero to tal de
casos en cada u n a de las com unidades. Supngase, sin em bargo,
que el in ters se c e n trab a sobre to d o en los delincuentes, y que
desebam os conocer la p ro p o rci n de los reincidentes entre los
delincuentes. E l n m ero to ta l de delincuentes e n las dos localida
des es resp ectivam ente de 101 y 205. P o r lo tan to , e n tre los delin
cuentes, las pro p orciones de los reincidentes son respectivam ente
de 43/101, o .426 y 137/205, o .668. A p rim e ra vista estas cifras
p u ed en p ro p o rcio n ar u n a im presin lig eram en te diferente de la
del p rim e r co n ju n to de proporciones. H abram os de g u ard arn o s
especialm en te de concluir que el segundo espcim en es m s
delictivo" que el p rim ero. P o r supuesto, este ltim o co n ju n to de
p ro p o rcio n es n ad a nos dice en absoluto acerca de las cifras rela
tivas de no delincuentes en los dos especm enes considerados.
E s obvio q ue no existe su stitu tiv o alguno de la lectu ra a te n ta de
los cuadros. C onstituye u n bu en principio aco stu m b rarse a de
te rm in a r siem pre las categoras que se hallan com prendidas en
el n m ero to tal de casos que sirve de denom inador de la p ro p o r
cin. El lecto r debiera siem pre p re g u n ta r: "de qu es esto la
p ro p o rci n ? Y la re sp u esta re su lta r clara del conjunto.
I1I.2 P orcentajes
Los p o rcen tajes pueden o b ten erse de las proporciones m ultipli
cando sim plem ente p o r 100. La p a la b ra p o rc en taje significa por
ciento. P or lo tan to , al servirnos de los p o rc en tajes norm alizam os
en relacin con el volum en, calculando el n m ero de individuos
que h ab ra en u n a categora d eterm in ad a si el to ta l de los casos
fu era 100, perm aneciendo in altera d a la p roporcin en cada cate
gora. Y com o q uiera que las proporciones sum adas dan la uni
dad, es obvio que los p o rcen tajes sum arn 100, a m enos que las
categoras no sean m u tu am en te exclusivas o exhaustivas.
Al re p ro d u cir resultados, los p o rcentajes se em plean con
m ucha m ayor frecuencia que las proporciones. Las cifras del cua
dro XII.2 h ab ra n podido expresarse lo m ism o e n trm inos de

i Puede utilizarse exactamente el mismo procedimiento en el caso de poroentajes.

p o rcen tajes. M ejor que servirnos de los m ism os datos, tom em os


o tro cuadro que puede servir p a ra iiu s tra r otros diversos aspec
tos. Supongam os que tenem os tres agencias de servicios dom s
ticos con u n a distribucin de casos com o la que se indica en el
cu ad ro III.3.
Como es usual, los p o rcen tajes se h an dado h a sta el p rim er
decim al y se h an operado los aju stes de los ltim os dgitos, de
m odo que los totales den exactam ente 100. Aqu el nm ero de ca
sos de cada agencia es lo suficientem ente grande com o p a ra ju s
tificar el em pleo de p orcentajes. Sin em bargo, si el nm ero de
casos h u b iera sido m enor, el em pleo de aqullos h a b ra resultado
equvoco'. E n efecto, supngase que la agencia C h ab a trata d o
slo 25 casos en total. Si h u b iera hab id o cu a tro m ad res solteras
y siete p arejas de novios, los po rcen tajes en dichas categoras
h ab ra n sido respectivam ente del 16 y del 28 p o r ciento. Y com o
q u iera que m uchas personas aco stu m b ran m ira r slo los p o r
cen tajes y no el nm ero efectivo de casos com prendidos, po
d ra fcilm ente o btenerse la im presin de que h ab a m uchas m s
p arejas de novios que de m ad res solteras. Como se ver cuando
lleguem os a la estad stica inductiva, la diferencia e n tre cuatro
y siete casos p u ed e deberse perfectam en te a factores pu ram en te
casuales. El em pleo de los p o rc en tajes y las proporciones com
p o rta p o r lo re g u lar u n a estabilidad m ucho m ayor de las cifras.
P o r lo tan to , he aqu dos reglas generales im p o rta n te s: 1) ind
quese siem pre el nm ero de casos ju n ta m en te con los porcentajes
o las proporciones, y 2) n o se calcule nunca u n porcentaje, a m e
nos que el n m ero d e casos en que est basado se halle a proxiCuadro I I I .3. D istribucin de los n m eros y porcentajes de casos
tratados p o r tres agencias hipotticas de servicios dom sticos
Clase de casos

Matrimonios
Divorciados
Novios
Madres solteras
Otros
Total

Agencia A

Agencia B

Agencia C

Total

N?

Ni

/0

N-

63
19
27
13
11

47.3
14.3
20.3
9.8
8.3

88
37
20
32
16

45.5
19.2
10.4
16.6
8.3

41
26
15
21
9

36.6
23.2
13.4
18.8
8.0

192
82
62
66
36

43.8
187
14.2
15.1
8.2

133 100.0

193 100.0

112 1.00.0

438 100.0

m id a d de los 50 o ms. Si el nm ero de casos es m uy pequeo,


ser preferible in d icar el nm ero efectivo de ellos en cada cate
gora, sin re c u rrir a los po rcen tajes. En el caso an terio r, por
ejem plo, indicaram os sim plem ente que la agencia C haba tra
ta d o cu a tro m ad res solteras y siete p arejas de novios.

Vase ah o ra la colum na del to tal que indica la distribucin en


p o rcen tajes de las tres agencias ju n tas. E sas cifras se han ob
tenido sum ando el n m ero de casos de cada tipo y el nm ero
to tal de casos trata d o s p o r las tres agencias ju n tas. P a ra el
clculo de ios p o rcen tajes totales se utiliz, pues, com o base
u n N de 438. Supngase, sin em bargo, que el nm ero de casos
no nos h u b iera sido dado en el cuerpo del cuadro, sino que se
h u b iera presentado- com o en el cuadro III.4. E n tal caso po
d ra d arse la tentacin de o b ten er los po rcen tajes totales to
m an d o directam ente la m edia aritm tica de los tres p o rc en ta
je s de cad a hilera. S em ejante p rocedim iento n o ten d ra en cuenta
el hecho de que las tre s agencias h ab an tra ta d o nm eros di
feren tes de casos; slo se ju stific ara si los nm eros de stos
fu e ran efectivam ente iguales. El procedim iento correcto consis
tira en p o n d e ra r cada p o rc en taje p o r el nm ero correspondien
te de casos. Uno de los m edios p a ra hacerlo consistira en calcu
la r h acia a tr s p a ra o b ten er el n m ero efectivo de casos de cada
casilla. Lo que p o d ra efectuarse m ultiplicando el nm ero to tal
de casos tra ta d o s p o r la agencia p o r la proporcin de u n a catego
ra d eterm in ad a. P or ejem plo, (133)(.473) = 63.
Cuadro III.4. D istribucin en porcentajes de los casos tratados
p o r tres agencias hipotticas d e servicios dom sticos, con los
porcentajes dispuestos verticalm ente

Clase de casos

Agencia A
(N = 133)
%

Agencia B
(N = 193)
Vo

Agencia C
(N = 112)

Matrimonios
Divorciados
Novios
Madres solteras
Otros

47.3
14.3
20.3
9.8
8.3

45.5
19.2
10.4
16.6
8.3

36.6
23.2
13.4
18.8
8.0

Total

100.0

100.0

100.0

O bsrvese que los p o rc en tajes dados en los cuadros III.3 y


III.4 tien en p o r objeto- co n te sta r a ciertas p reg u n tas y n o otras.
Nos p erm iten ex am inar cada agencia p o r sep arad o y v er la dis
trib u ci n de los casos tra ta d o s. P erm iten adem s la com para
cin de las agencias e n tre s e n relacin con los casos trata d o s.
As, p o r ejem plo, las agencias B y C tra ta ro n relativ am en te m s
m ad res solteras y perso n as divorciadas de las que tra t la agen
cia A. Supngase, sin em bargo, que nos in tere sa b an a n te todo
los casos de cierto tip o y el n m ero relativo de ellos tra ta d o s p o r
cada agencia. As, p o r ejem plo, p o d ra eventualm ente interesar-

Cuadro

III.5 . D istribucin en porcentajes de los casos tratados


p o r tres agencias hipotticas de servicios dom sticos, con los
porcentajes calculados horizontalm ente
Clase de casos

Agencia A
(N = 133)

Agencia B
(N = 193)

Agencia C
(N = 112)

32.8
23.2
43.5

45.8
45.1
32.3
48.5
_*

21.4
31.7
24.2
31.8
_*

Matrimonios (N= 192)


Divorciados (N =82)
Novios (N = 62)
Madres solteras ( N- 6 6 )
Otros ( N~36)
*

19.7

_*

Total
(N = 438)

100.0
100.0
100.0
100.0
__ *

Los porcentajes no se calculan cuando la base es inferior a 50.

n o s sab e r el p o rc en taje de todos los m atrim onios que pasaron


p o r la agencia B . E n estas condiciones re su lta ra m s conve
nien te calcu lar los p o rcen tajes a travs del cuadro. E a efecto,
po d ram o s to m a r el n m ero to ta l de m atrim onios y v er cules
p o rcen tajes de dicha categora fu e ro n tra ta d o s respectivam ente
p o r las agencias A, B y C. Los p o rcen tajes su m aran entonces
100 en el sen tid o horizontal del cuadro, y no en el vertical, y los
resu ltad o s se resu m iran com o en el cuadro III.5.
De m odo que los p o rcen tajes pueden calcularse tan to en sen
tid o vertical com o en sentido horizontal. Por lo tan to , los cua
dros h an de exam inarse siem pre cuidadosam ente p a ra ver exac
tam en te cm o se h an calculado aqullos. P ara los casos en que
la p ro p ia teo ra nos dicta cul es la variable que debe ser tom a
da com o cau salm ente dependiente y cul ha de ser considerada
causalm ente p rim a ria o independiente, p o d r b astarn o s u n a sim
ple regla em prica. Si tenem os la costum bre de s itu a r la varia
ble independiente en la p a rte alta del cuadro, y la variable de
p endiente al lado izquierdo, los p o rcen tajes su m ar n 100 hacia
abajo, y las com paraciones se h a r n de izquierda a derecha. En
el ejem plo relativo a la com paracin de niveles de delincuencias
en dos localidades, ca b ra n o rm alm en te su p o n er que ciertas ca
ractersticas locales pueden te n e r influencia sobre la delincuen
cia, m s bien que a la inversa.
Cuando com putam os los p o rcen tajes p ara que sum en 100 hacia
abajo, lo que en re alid ad hacem os es norm alizar los tam aos de
las localidades, ya que reconocem os que los factores que se refie
re n a sus tam aos relativos, o los m uestreos realizados dentro
de cada localidad, no dependen causalm ente de sus niveles de
delincuencia. Al co m p u tar hacia ab ajo los po rcen tajes estam os
controlando aquellos factores que afectan al tam a o de los dos
m uestreos. E ste p u n to qu ed ar m s en claro u n a vez que haya
m os considerado el concepto de inclinacin de u n a lnea recta

en la que u n a de las variables fig u ra com o dependiente de la o tra


(v e r cap tu lo xvrr).
R esu ltar que los po rcen tajes com putados en la direccin su
gerida p u ed en ser considerados com o casos especiales de dichos
declives.
II I.3. R azones
La razn de u n n m ero A con respecto a o tro nm ero B se de
fine com o A dividido e n tre B . La cantidad que precede se pone en
el n u m erad o r, en tan to que la que sigue fo rm a el denom inador.
S upngase que en una eleccin local se hallan inscritos 365 re p u
blicanos, 420 dem cratas y 130 independientes en calidad de vo
tan tes. E n este caso la razn de los republicanos a los dem cra
tas es de 365/420, y la de los republicanos y los dem cratas a los
independientes es de (365 + 420)/130. O bsrvese que, a diferen
cia de la proporcin, la razn puede to m a r u n valor su p erio r a
la unidad. Vemos asim ism o q u e la expresin que precede o que
sigue pueden constar, u n a y o tra, de cantidades d istin tas ( v.gr.
republicanos y d em cratas). G eneralm ente la razn se reduce a
su expresin m s sim ple elim inando en el n u m era d o r y el deno
m in ad o r los factores com unes. As, pues, la razn de los dem
cratas a los independientes se escrib ir com o 42/13 o bien, en
fo rm a equivalente, com o 42:13. En ocasiones es conveniente ex
p re s a r la razn en trm inos de u n denom inador form ado p o r la
unidad. P o r ejem plo, la razn de los dem cratas a los indepen
d ientes pu ed e escribirse com o 3.23 a 1.
E s obvio que las proporciones re p resen tan u n tip o especial de
razn en la que el denom inador es el n m ero to tal de los casos
y el n u m era d o r u n a cierta fraccin de aqul. Sin em bargo, el
trm in o de razn se em plea p o r lo re g u lar p a ra re ferirse a casos
en los q ue A y B re p re se n ta n categoras separadas y distintas.
P odram os, p o r ejem plo, estab lecer la razn de los delincuentes
a los n o delincuentes, o de los m atrim onios a los novios. Es evi
d ente que con cu atro o cinco categoras el n m ero de razones
posibles susceptible de calcularse es m uy grande. En consecuen
cia, a m enos que el in ters se cen tre a n te to d o en uno o varios
p ares de categoras, ser en general m s econm ico y m enos su
je to a confusin p o r p a rte del lecto r servirse de los p o rcentajes
y las proporciones. O bsrvese que, si las categoras slo son dos,
ser posible calcular la proporcin d irectam en te a p a r tir de la
razn y viceversa. As, p o r ejem plo, si sabem os que la razn de
los varones a las m u jeres es de 3 :2, entonces en cada cinco p er
sonas h a de darse u n prom edio de tres varones y dos m ujeres.
La p ro p o rci n de los varones es, pues, de 3/5, o .6.
Las razones pu eden ex presarse en trm inos de cualquier b ase
que re su lte conveniente. L a base de la razn est indicada p o r la

m ag n itu d del d enom inador. As, p o r ejem plo, las razones relati
vas al sexo se in d ican convencionalm ente en trm in o s del nm ero
de varones p o r 100 m u jeres. P o r lo tan to , u n a raz n de 94 en
m ateria de sexo in d icar que el n m ero de los varones es ligera
m en te in fe rio r al de las m u jere s, en ta n to que u n a razn de
sexos de 108 significara u n a ligera p re p o n d eran cia de los p ri
m eros. Las bases que co m p o rtan nm eros grandes, tales como
1 000 o 100 000, se em plean a m enudo al calcular cuotas, o tro tipo
de razn, cuando el em pleo de las proporcion es o los po rcen tajes
co n d u cira a valores decim ales pequeos. Las cuotas de n atali
dad, p o r ejem plo, suelen d arse e n trm in o s del n m ero de naci
m ien to s vivos p o r 1 000 m u jeres e n ed ad de p ro c rea r. Las cuotas
de asesinatos pueden darse en trm in o s del n m ero de asesinos
p o r 100 000 h ab itan tes.
Las cuotas de crecim iento constituyen o tro tip o co rrien te de
razn. Al calcu lar u n a de estas cuotas, tom am os el crecim iento
efectivo d u ra n te el perio d o considerado, dividido e n tre el volum en
al principio del periodo. As, p o r ejem plo, si la poblacin de una
ciu d ad au m en ta de 50 000 a 65 000 e n tre 1940 y 1950, la cuota de
crecim iento d u ra n te el decenio en cuestin s e r de
65 000 - 50 000
---------- ---------- = .30
50 000
o 30 p o r ciento. E n el caso de cuotas de crecim iento, es obvio
q ue los p o rc en tajes se p re s ta n bien m s all del 100 p o r ciento,
en ta n to que sern negativos si la ciu d ad h a experim entado un
descenso de poblacin.
G

losario

Porcentaje
Proporcin
Tasa
Razn
E j e r c ic io s

1. Supngase que se da el siguiente cuadro que m uestra la relacin


entre la asistencia a la iglesia y el ao de clase en una determinada
universidad:
Asistencia
a la
iglesia

1er. Ao

2 Ao

Inferior

Superior

Asistencia regular
Asistencia irregular

83
31

71
44

82
61

59
78

295
214

Total

114

115

143

137

509

Ao de clase
Total

a) Cul es el porcentaje de asistencia regular en el conjunto? Res


puesta, 57.96 %.
b ) Cul es la razn de los estudiantes de primer ao a los del ao
superior?
c) E ntre los asistentes regulares, cul es la razn de los aos infe
riores a los superiores (de los 1? y 2? aos a los aos inferior y
superior)? Respuesta, 1.09 a 1.
d) Cul es la proporcin de los asistentes irregulares entre los es
tudiantes del ao superior? La proporcin de estudiantes de ao
superior entre los asistentes irregulares? Respuesta .364; .569.
e) Hay relativamente ms asistentes irregulares entre los estudian
tes de 1* y 2 aos que entre los de las clases inferior y superior?
Exprsense los resultados en porcentajes.,
f) Resmanse los datos en varias proposiciones.
2. Al estudiar la relacin entre la productividad industrial y el tipo
de lder de los grupos, un psiclogo social obtiene los siguientes datos,
que m uestran los niveles de productividad agrupados en tres tipos
distintos de direccin:
Grupos de tipo de lder del grupo
Total

Productividad
Democrtico

Liberal

Autoritario

Alta
Mediana
Baja

37
26
24

36
12
20

13
71
29

86
109
73

Total

87

68

113

268

a) En qu direccin preferira el lector calcular los porcentajes?


Por qu?
b ) Calclense los porcentajes y resmanse los datos en forma breve.
c) Cul es la razn de los productores de nivel alto a los de nivel
bajo en cada uno de los grupos? En relacin con estos datos par
ticulares, resumen las tres razones la situacin de modo ade
cuado? Expliqese.
3. Si la razn de los blancos a los no blancos es de 8/5 en una deten
minada localidad, cul es la proporcin de los no blancos? Supngase
que la razn de los blancos a los negros fuera de 8/5, podra obte
nerse la proporcin de negros en la misma forma? Por qu, o por
qu no?
4. Si una ciudad tena una poblacin de 153 468 habitantes en 1940
y de 176118 en 1950, cul fue la tasa de crecimiento (expresada en
porcentaje) entre 1940 y 1950? Respuesta, 14.76%.
5. Si en un determinado condado hay 12160 varones y 11913 mu
jeres, cul es la razn entre los sexos (expresada en trminos del
nmero de varones por 100 mujeres)?

B iblio g ra fa

1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2* ed.,


Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 24 a 31.
2. Freeman, L. C.: Elementary Applied Statistics, John Wiley & Sons,
Inc., Nueva York, 1965, cap. 4.
3. Hagood, M. J. y D. O. Price: Statistics for Soeiologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 7.
4. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 4.
5. Zeisel, H ans: Say I t w ith Figures, 5? edicin, Harper and Row,
Publishers, Incorporated, Nueva York, 1968, caps. 1 y 2.

IV . ESCA LAS D E IN T E R V A L O : D IS T R IB U C IO N E S D E
F R E C U E N C IA Y R E P R E S E N T A C I N GRFICA
E n e l p re se n te captulo nos ocuparem os de m todos p a ra el re
su m en de datos m uy p arecid o s a los del captulo precedente.
V am os a ag ru p a r las escalas de intervalo en categoras, a o rd e n a r
stas y a servirnos de dichos grupos p a ra d a r u n a visin con
ju n ta de la d istrib u cin d e los casos. Al p ro c ed er en esta form a,
p odem os re d u c ir la in form acin relativ a a u n n m ero m uy gran
de de casos a u n a fo rm a m uy sim ple, que p e rm ita al le c to r
re p re se n ta rse en q u fo rm a estn d istrib u id o s los casos. M s
a d e la n te co m probarem os que ag rupando los datos podem os asi
m ism o sim p lificar considerablem ente ciertos clculos. E n los dos
cap tu lo s siguientes nos ocuparem os de m todos de resu m en de
dato s en fo rm a m s com pacta, de m odo que p u ed an se r descri
to s p o r varios n m eros expresando m edidas que re p re se n ta n
fo rm as tp icas y grado de hom ogeneidad.
IV .l. D istribuciones de frecuencia: agrupam iento de los datos
E n el cap tu lo p reced en te nos hem os en c o n trad o con slo pocas
decisiones im p o rtan tes, si h a h ab id o alguna, en relacin con el
re su m e n de los datos. E sto se debe al h echo de que, presu m ib le
m ente, las clases estab a n y a d eterm inadas y lo nico que h aba
q ue h a c e r era c o n tar el n m ero de casos en cada clase y luego
n o rm alizar en relacin co n el n m ero de casos del espcim en
co n ju n to , calculando u n a proporcin, u n p o rc e n ta je o u n a razn.
E n cam bio, si los datos de la escala de in terv alo h an de re su
m irse del m ism o m odo, hay que a d o p tar u n a decisin inicial en
relacin con las categoras q u e se van a u tilizar. Ya que p o r lo
re g u la r los datos e sta r n d istrib u id o s de m odo continuo, sin o con
p eq u e as lagunas, e n tre cifras contiguas, el esq u em a de clasifi
cacin p u ed e se r m uy a rb itra rio . S er m en este r decidir cu n tas
categoras se van a u tiliza r y en dnde deban establecerse los
39.2 %
28.1
22.8
44.3
36.3
18.2
27.1
33.6
39.5
21.6
46.1

11.6%
263
33.4
58.1
20.7
37.1
28.8
19.3
32.3
37.9
21.5

36.3 %
27.1
25.6
33.1
9.3
21.6
27.8
43.7
22.4
37.1
13.3

26.3 %
35.1
21.6
13.4
26.3
17.5
33.6
28.2
15.1
24.9

37.1 %
23.0
46.8
27.8
29.9
12.3
26.5
19.9
26.3
10.0
53

15.3 %
26.1
7.1
33.4
39.4
23.6
28.3
83.6
26.1
20.7

27.3 %
31.0
16.8
22.1
5.3
37.2
26,9
47.1
29.2
11.8

23.5 %
36.3
26.9
42.7
24.3
37.1
24.8
4.8
14.3
22.9

13.3 %
27.3
46.6
33.0
17.8
25.1
41.0
9.7
14.6
36.0

pu ntos de interseccin. In fo rtu n ad am en te, no- existen reglas sim


ples p a ra h acer esto, ya que la decisin depende de los objetivos
perseguidos p o r m edio de la clasificacin. Sirvm onos, p a ra ilus
tr a r el carc te r del problem a, de u n ejem plo sencillo. Supngase
que los nm eros indicados al final de la pgina a n te rio r re p re
sen tan el p o rc en taje de electores elegibles que vo tan en la elec
cin de u n consejo escolar, en 93 colegios electorales de u n a de
term in ad a ciudad.
Los datos b ru to s p resentados en esta fo rm a n o sirven p r cti
cam ente de n ad a en cu an to a p ro p o rcio n ar al lecto r u n a idea cla
ra de lo que est sucediendo. Y esto es ta n to m s as cuanto
m ayor sea el n m ero de los casos. Supngase que deseram os
co m p arar dicha localidad con o tra en relacin con la p articip a
cin electoral. Una r p id a o jead a echada a los datos indica que la
m ayora de los d istrito s tuvieron u n a participacin de 20 a 40 %
y que h u b o u no con u n a cifra extrem adam ente alta.
R esulta sin em bargo realm ente difcil ob ten er u n a id ea clara de
la distribucin total.
N m ero y m a gnitud de los intervalos. Con o b jeto de represen
tarn o s dicha d istribucin total, ser til clasificar las cifras ve
cinas en u n a m ism a categora. Sin em bargo, nos encontram os
en seguida con un problem a. De cuntos intervalos habrem os
de servirnos al a g ru p ar los datos? Cul ha de se r su extensin?
P o r lo pro n to , no tiene o b jeto em plear intervalos de am plitud
o lm ites peculiares. As, pues, escogerem os m s bien intervalos
de am plitud 5, 10 o 20 que u n o de am plitud 4.16, pongam os p o r
caso. Y tam bin nu estro s puntos term inales, o lm ites de clase
com o se los suele llam ar, sern p o r lo regular nm eros redondos,
tales com o 5.0 o 10.0. Si tenem os duda acerca de los intervalos
de los que h ab rem os de servirnos definitivam ente es preferible
clasificar las cifras sirvindonos de u n n m ero m ayor de in ter
valos relativam ente pequeos. La razn de ello es obvia: si nos
servim os de intervalos pequeos, siem pre podem os agrupar, in
m ediatam ente, los casos en intervalos m ayores. E n ta n to que si
em pezram os con u n pequeo n m ero de intervalos grandes, no
podem os luego subdividirlos, com o no sea rehaciendo todos los
clculos. P o r lo tan to , nos decidirem os probablem ente a clasifi
ca r los datos en intervalos de am p litu d 5 p o r ciento, com o en el
cuadro IV .l.
Y
si exam inam os ah o ra las frecuencias en cada categora, ve
m os que la im agen que p re sen tan es relativam ente angulosa e
irreg u lar. Podem os probablem ente explicarnos las variaciones
en tre categoras contiguas en trm inos de fluctuaciones casuales.
Si hub iera hab ido m s casos, habram os podido c o n tar con u n a
distribucin m s suavizada. El razonam iento que se halla a la
base de este ju icio intuitivo se d estacar m s claram en te en ca
ptulos u lterio res. B aste de m om ento decir que em pricam ente

Cuadro IV .1. D istribucin de la frecuencia, con datos agrupados


en intervalos de 5 por ciento
Intervalo

Frecuencia, f

0.0-- 4.9
5.0-- 9.9
10.0--14.9
15.0--19.9
20.0--24.9
25.0--29.9
30.0--34.9
35.0--39.9
40.0--44.9

1
4
9
8
16
23
8
14
4

Intervalo

Frecuencia, f

45.0 - -49.9
50.0--54.9
55.0--59.9
60.0--64.9
65.0 - -69.9
70.0--74.9
75.0--79.9
80.0--84.9

4
0
1
0
0
0
0
1

93

siem p re p arece o c u rrir as. S in em bargo, dado n u estro N d e 93


d istrito s, lo m e jo r que podem os h a c e r p a ra o b ten er u n a d istri
bu ci n de aspecto m s re g u la r es servirnos de u n n m ero m en o r
de in terv alo s m s am plios. S irvindonos de intervalos de 10 en
10, obtenem os el cu ad ro IV.2.

C uadro

IV .2. D istribucin de la frecuencia, con datos agrupados


en intervalos de 10 por ciento
Intervalo

0.0 9.9
10.0 19.9
20.0 29.9
30.0 39.9
40.0 49.9
50.0 59.9
60.0 69.9
70.0 79.9
80.0 89.9

Frecuencia, f
5

17
39
22
8
1

0
0
1
93

Si hu b iram o s em pleado intervalos m ayores todava, digam os,


p o r ejem plo, de 20, el c u a d ro se p re se n ta ra com o el cuadro IV.3.
Aqu em pezam os a o scu recer ya la m ayor p a rte de n u e stra in
fo rm acin inicial. E n efecto, sabem os slo que aproxim adam en
te las dos terceras p a rte s de los casos se sit an e n tre 20.0 y 39.9,
p ero viendo los datos en esta form a, no podem os decir m ucho
acerca de dnde se sit e el grueso de los casos al in te rio r de ese

C uadro

IV.3. D istribucin de las f recuencias con datos agrupados


en intervalos de 20 por ciento
Intervalo

0.0 19.9
20.0 39.9
40.0 59.9
60.0 79.9
80.0 99.9

Frecuencia, f
22

61
9
0
1
93

in terv alo realm ente m uy grande. E n resum en, hem os de encon


tr a r u na fo rm a a m odo de servirnos de gran n m ero de in
tervalos de m odo que la visin n o re su lte dem asiado detallada
o irregular, n i servirnos de ta n pocos que se p ierd a dem asiada
inform acin. Y dicho sea de paso, observam os que, al resu m ir
los datos de la escala de intervalo, se pierde prcticam ente siem
pre algo de inform acin im portante. E n ta n to que, p o r o tra p a r
te, incluir to d a la inform acin conduce a p re se n ta r ta n to detalle,
que la visin re su lta m s bien oscurecida que aclarada.
Pese a que se h an indicado frm ulas m atem ticas que pueden
serv ir de gua p o r lo que se refiere al n m ero de intervalos a
utilizar, esas frm ulas dan a m enudo la im presin de exactitud,
en tan to que la m e jo r decisin se b a sa r norm alm ente en el sen
tid o com n y en el o b jeto a que se destine la tab la de frecuencia.
In d ep endientem ente del n m ero de casos o de la reg u larid ad de
la lnea, lo m s p ru d e n te consiste en seguir la regla prctica
de que el in terv alo n o debera ser m ayor que la m ag n itu d de di
ferencia e n tre valores que pueden ignorarse sin perjuicio. Una
diferencia de $ 5 e n tre precios de casas, p o r ejem plo, es insignifi
cante, en ta n to que no es as si se tra ta de los precios de cam isas.
P o r consiguiente, el intervalo d eber com prender los casos cuyos
valores pu ed an considerarse p a ra fines prcticos com o sem e
jantes.
Los datos indicados m s a rrib a p resen tan o tro problem a. Qu
p asa con el nico colegio que o sten ta u n a participacin del 83.6
p o r ciento a la vista? Si nos servim os de intervalos de u n a am
p litu d de 10, varias clases quedan vacas, con dicho nico colegio
abandonado, p o r as decir, a s m ism o. Sin duda, esto es lo que
hay que h acer, si es que los datos h an de resu m irse cuidadosa
m ente. Dicho colegio es efectivam ente nico. P or o tra p arte , en
d eterm inadas circunstancias puede se r conveniente ab rev iar la
tabla. Si los p o rcentajes fu eran bien m s all de 100 y si hubiera
varios extrem os que se extendieran p o r sobre de 10 o m s in ter
valos, nos en frentaram os a u n a decisin m s difcil todava. E n

tal caso, en efecto, se p re se n ta n varias alternativas. P rim ero,


podem os serv im o s de intervalos de am p litu d es diversas, p erm i
tien d o que los intervalos extrem os sean m u ch o m s grandes que
los otro s. As, p o r ejem plo, podram os serv im o s de u n solo in
terv alo de 50.0 a 89.9, lo que com prendera las dos m arcas m ayo
res. P o r supuesto, al p ro c ed er en esta fo rm a perdem os in fo rm a
cin, ya que ah o ra tenem os u n a indicacin m ucho m enos precisa
de las cifras correspondientes a los dos casos extrem os.
E n segundo lugar, podram os servim os de u n intervalo abierto
p a ra co m p ren d er los casos extrem os. La ltim a categora po d ra
leerse en tal caso com o "50 p o r ciento o m s". Aqu, sin em
bargo, perdem os todava m s inform acin que an teriorm ente,
au n q u e sabem os que en este ejem plo concreto los po rcen tajes no
pued en ir m s all de 100. P ero si los datos se re firiera n a ingre
sos y que el ltim o in terv alo fu e ra de "$ 20 m il o m s, el lector
n o te n d ra en ab so luto m an era alguna de adivinar, sobre la b ase
de la sola tabla, cules pu d iero n h a b e r sido los ingresos m s
altos. Conviene observar, con todo, que e n d eterm inadas circuns
tancias pued e no re v estir im p o rtan cia alguna sa b e r cules sean
esos ingresos m s altos. E n ta l caso, las sim plificaciones in tro
ducidas m ed ian te el em pleo de intervalos ab ierto s pu ed en com
p e n sa r con v en taja los inconvenientes. Con distribuciones que
p re se n ta n xm n m ero red u cid o de casos m uy extrem os, p u ed e no
darse altern ativ a satisfac to ria alguna. Si alguien desea, p o r ejem
plo, in d icar los ingresos de los ciudadanos m s ricos sin desfigu
r a r su tab la, le re su lta r m s fcil hacerlo e n el tex to de su
exposicin. Como lo verem os en captulos sucesivos, no debieran
em p learse in tervalos abiertos si el objetivo p rim ero de la ag ru
pacin de los datos consiste en sim plificar los clculos y n o en
exponer aqullos de m odo significativo.
L m ite s verdaderos. El lecto r h a b r observado que, al indicar
los intervalos, los lm ites de las clases se h a n establecido de tal
m odo que stas no se en tre co rten . De hecho, existe u n pequeo
vaco e n tre u n a y o tra . Los lm ites suelen p o r lo regular fija rse
en esta fo rm a p a ra ev itar to d a am bigedad fre n te al lector. E n
efecto, si se h u b iera fijad o com o de 10 a 20, de 20 a 30, etctera,
se h a b ra p lan tead o la cuestin de qu hacem os con u n a m arca
de 20 exactam ente. E n realidad, siem pre h a b r am bigedad, cual
q u ie ra q u e sea la fo rm a e n q u e se fijen los intervalos, com o p o
dem os ap reciarlo al p re g u n ta rn o s ah o ra qu h a b r que h ac er con
un caso q ue se site e n tre 19.9 y 20. O bservam os, p o r supuesto,
q ue no hay tales casos, p e ro u n poco de reflexin nos convencer
de q ue esto es debido al hecho de que los datos se h an redon
deado a la dcim a del p o rc en taje m s prxim o. P or lo tan to ,
hem os d e co n testa r a la siguiente cuestin: "cules casos corres
ponden en realid ad a un intervalo determ inado, puesto que los
datos se h a n red ondeado? V em os in m ed iatam en te que los ver

daderos lm ites d e las clases n o son los m ism os que los que se
h a n fijado. Si hu biram os seguido las reglas convencionales del
redondeo, u n colegio con u n a particip aci n ligeram ente superior
a 19.95 se h a b ra redondeado en 20.0, situ n d o lo en el intervalo
de 20.0 a 29.9. Y si el p o rc en taje h u b ie ra quedado p o r deb ajo de
19.95, p o r poco que as fuera, lo habram os red o n d ead o en 19.9,
colocando el colegio en cuestin en la categora inm ediatam ente
in ferio r. P o r lo tan to , los verdaderos lm ites efectivam ente em
pleados son los sig u ien tes:
d e -0 .0 5 a 9.95
de 9.95 a 19.95
de 19.95 a 29.95
etctera.
Vemos que, al servim os de los verdaderos lm ites, cada in ter
valo tien e u n a am p litu d exactam ente de 10.0 (m s bien que de 9.9)
y que el lm ite su p erio r de u n intervalo coincide exactam ente con
el lm ite in ferio r del siguiente.1 Si la m arc a h u b ie ra sido exacta
m en te de 9.95000, h ab ram o s seguido el p rocedim iento conven
cional red o n d ean do hacia arrib a, ya que el n m ero dgito que
preced e al ltim o cinco es im par.2 Podem os, pues, asig n ar a cada
caso, de m odo inequvoco, su in terv alo propio. O bsrvese que si
el red o n d eo se h a operado h ac ia la cifra prxim a, com o suele
se r el caso, el v erd ad ero lm ite co m p o rta r siem pre la separa
cin de la diferencia e n tre los lm ites fijados de dos intervalos
contiguos. As, p o r ejem plo, si p artim o s la d iferencia e n tre 19.9
y 20.0, obtenem os 19.95. La convencin consiste e n in d icar las
cifras de ta l m odo que se exprese el grado de ex actitu d de la
m edicin, o sea que 10.45 indica u n a ex actitu d a dos lugares deci
m ales, 10.450 a tre s y 10.4 a uno. Dicho grado de ex actitu d debe
ind icarse siem pre, d e m odo que el le c to r p u ed a averiguar los
lm ites v erdaderos si desea servirse d e ellos en sus clculos. As,
p o r ejem plo, si se indica que los lm ites son respectivam ente 10.00
a 19.99, sabem os que la m edicin es exacta h a s ta dos decim ales,
que el red o n d eo se h a operado a la prxim a centsim a d e -----

100

del 1 p o r ciento, y que, en consecuencia, los v erdaderos lm ites


van de 9.995 a 19.995. Si los lm ites se h u b iera n indicado com o

1 Si el lmite ms bajo es cero y que los valores no pueden ser negativos


(como en el caso de los porcentajes), consideramos de todos modos que to
dos los intervalos son de la misma amplitud, imaginando que el lmite in
ferior del primer intervalo es en realidad .05 y que las marcas se han re
dondeado en 0.00.
2 Obsrvese que en el caso de los intervalos de los que nos hemos servido
habra una desviacin muy ligera, ya que los casos que quedan exactamente
entre intervalos se situarn siempre en la categora superior. En la mayora
de los casos prcticos dicha desviacin puede ignorarse.

10 a 19, entonces los verdaderos lm ites h ab ra n sido, p o r su


puesto, 9.5 a 19.5.
E n unos pocos casos, como, p o r ejem plo, el de la edad en re la
cin con el ltim o aniversario, los datos pueden n o hab erse
red o n d ead o en la fo rm a convencional. S in em bargo, si nos pregun
tam os a cul intervalo corresponda u n caso determ inado, la re s
p u esta h a b ra de ser siem pre clara. Como q u iera que, en efecto,
u n a p erso n a que vaya a cu m p lir 20 aos m a an a cuenta hoy 19,
es obvio que el intervalo fijad o com o de 15 a 19 tiene com o ver
daderos lm ites los valores 15 y 20. Pese a que p u ed a p arece r que
andam os con sutilezas al distinguir e n tre los lm ites indicados
y los lm ites verdaderos, verem os, sin em bargo, en los captulos
sucesivos q ue estos ltim os h a n de utilizarse en los clculos, au n
que p o r lo reg u lar n o se indiquen explcitam ente al p re sen tarse
los dato s en form a de d istribucin de frecuencia.
D atos discretos y continuos. Los datos de los que nos hem os
servido son continuos, en el sentido de que cualquier valor h u
b iera p odido obtenerse tericam ente p a ra u n porcentaje, a con
dicin que la ex actitud de m edicin fu e ra lo suficientem ente p re
cisa y q ue los intervalos fu e ran m uy grandes. As, p o r ejem plo,
el v alo r de 17.4531 p o r ciento es ta n posible com o el de 17.0000
p o r ciento. Algunos otros tipos de datos son discretos, ya que no
todos los valores son posibles. E n efecto, u n a m u je r puede ten er
ex actam ente 0, 1, 2 o inclusive 17 nios, p ero no puede te n e r 2.31
nios. El ingreso y el volum en de u n a ciudad son variables te
ricam en te discretas, y a que n o es posible te n e r u n ingreso de
$ 3 219.5618, o que u n a ciudad tenga u n a poblacin de 43 635.7 h a
b itan tes. Debido a las lim itaciones de to d o in stru m en to de m e
dicin y a la necesidad subsiguiente de h ab e r de red o n d ear en u n
p u n to u o tro, los datos em pricos vienen siem pre en fo rm a dis
c re ta ; p ero en m uchos casos podem os p o r lo m enos concebir u n a
distrib u ci n continua susceptible de alcanzarse con un in stru
m en to de m edicin perfecto. Como lo verem os en el captulo
relativ o a la curva n orm al, los m atem ticos h an de d esa rro llar
a m en u d o distribuciones tericas que ad o p tan u n a variable con
tinua.
E n algunos casos, com o los del ingreso o n m ero de h ab itan tes
de u n a ciudad, n o re su lta dem asiado difcil concebir los datos
com o continuos, aunque se tra te en realidad de unidades m uy pe
queas (centavos, p erso n as) que no se d ejan subdividir. Pero,
qu o cu rre con el n m ero de nios en u n a fam ilia? Aqu p a re
ceram os v io len tar excesivam ente los hechos si adm itiram os
continuidad. Al p re s e n ta r los datos en u n a distribucin de fre
cuencia no se nos o cu rrir, p o r supuesto, servim os de intervalos
que vayan de 0.5 a 2.4 o de 2.5 a 4.4 nios. E m plearem os senci
llam en te intervalos com o de 0 a 2, de 3 a 4, etctera, y no h ab r
am bigedad alguna p o r lo que se refiere a los huecos e n tre aqu-

los. E n algunos clculos, sin em bargo, se r necesario, p o r razo


nes p ragm ticas, tr a ta r los casos com o continuos y d isp o n er m a r
cas discretas en in tervalos pequeos. E n efecto, p o r ra ro que se
n o s p u ed a a n to ja r, podem os n ec esitar c o n sid erar a las m adres
con u n h ijo com o e n u n in terv alo d e 0.5 a 1.5 nios. P a ra la m a
y o ra de los o b jeto s obtendrem os lo s m ism os re su ltad o s que
o b ten d ram o s m an teniendo los datos en fo rm a discreta. Con el
fin de ad a p ta rse a los m odelos establecidos p o r los m atem ticos,
en este y otro s casos ser necesario h a lla r u n com prom iso con la
realidad. A condicin de que nos dem os p erfec ta cu en ta de lo que
estam os haciendo, n o re s u lta r de ello confusin alguna o slo
m uy poca.
IV.2. D istribuciones de frecuencia cum ulativa
P a ra algunos o b jeto s es conveniente p re se n ta r los d ato s e n u n a
fo rm a algo d istin ta. E n lugar de in d icar el n m ero d e casos en
cad a intervalo, podem os in d icar el n m ero de m arc as que son
m enores (o m ay o res) que xm v alor determ inado. E n el caso de
los intervalos de los que nos hem os estad o sirviendo, n o hay, p o r
supuesto, colegios electorales con u n a p articip aci n de votantes
in ferio r a cero, hay cinco con m enos del 9.95 p o r ciento, 22 con
m enos del 19.95 p o r ciento, y los 93 ju n to s tienen u n a p artic ip a
cin in ferio r al 89.95 p o r ciento. As, pues, podem os p re se n ta r
los datos en fo rm a acum ulada, ta l com o se indica en el cuadro
IV.4. O bsrvese que podem os acu m u lar lo m ism o h acia a rrib a
que h a d a a b a jo p re g u n ta n d o cuntos casos estn p o r encim a de
u n valor d eterm inado. Las frecuencias cximulativas su elen indi
carse p o r lo re g u la r con u n a F m ayscula, en lu g ar de la miCuadro IV.4. D istribucin de frecuencia cum ulativa
Acumulacin hacia arriba
Nmero de
casos por
debajo de

0.0
9.95
19.95
29.95
39.95
49.95
59.95
69.95
79.95
89.95

Frecuencia
acumulada, Por ciento
F

0
5
22
61
83
91
92
92
92
93

0.0
5.4
23.7
65.6
89.2
97.8
98.9
98.9
98.9
100.0

Acumulacin h ada abajo


Nmero de Frecuencia
casos por acumulada, Por ciento
encima de
F

0.0
9.95
19.95
29.95
39.95
49.95
59.95
69.95
79.95
89.95

93
88
71
32
10
2
1
1
1
0

100.0
94.6
76.3
34.4
10.8
2.2
1.1
1.1
1.1
0.0

nscula. Si querem os, podem os convertir las frecuencias efecti


vas en p o rcen tajes. T endrem os ocasin de servim os d e las
distrib u cio n es cum ulativas en el captulo v al calcular las m edia
nas, as com o m s ad elan te en el captulo xiv.
IV.3. P resentacin grfica: histogram as, polgonos de frecuencia
y ojivas
H ay p erso n as que sienten re p aro en in te rp re ta r los cuadros y
que ca p ta n m e jo r los m ateriales presen tad o s en fo rm a grfica
%
-43.0
-32.3
-21.5
-10.8

10 20 30 40

50 60 70 80 90 100

F ig . IV .l. H istogram a de intervalos iguales.

o visual. U no de los m odos m s sencillos y tiles de p re se n ta r


los dato s de tal m an era que las diferencias e n tre las frecuencias
se d estaq u en fcilm ente consiste en servirse de figuras de reas
o a ltu ra s p roporcionales a las frecuencias en cada categora.
Puede, p o r ejem plo, u tilizarse u n a b a r ra p a ra re p re se n ta r cada
categora, ind icando la a ltu ra de la m ism a s u m ag n itu d relativa.
Si la escala es nom inal, la ordenacin efectiva de las b a rra s no
rev iste im p o rtan cia. P o r lo que se refiere a las escalas ordinales
y de in terv alo , las b a rra s pueden disponerse en s u p ro p io orden,
con lo q ue d an u n a b u en a indicacin visual de la distribucin
de la frecuencia. La fig u ra re su lta n te se llam a histogram a. La
frecu en cia ab so lu ta o la p roporcin de los casos pueden indi
ca rse a lo larg o de la ordenada, com o en la fig u ra IV .l.
H ay que o b serv ar que si las alturas de las b a rra s se tom an
com o p roporcionales a las frecuencias en cada intervalo de clase,
el c u a d ro visual puede re s u lta r confuso, a m enos q u e todos los
in terv alo s sean cerrados y d e am p litu d igual. Supngase, p o r
ejem plo, q u e u n o de los intervalos cen trales h u b iera sido de
an cho 20 e n lu g ar de 10. E n co n traram o s en consecuencia un

m ay o r n m ero de casos en el intervalo, y el re su lta d o sera


com o e n la fig u ra IV.2. Es obvio que si deseam os o b ten er un
h isto g ram a que re p resen te los datos en form a m s adecuada,
debiram os d a r a la b a rra la m ita d solam ente del alto, ya que het
%
40 -43.0

30 -32.3
20 -21.5
10 -10.8
..... ,
t____i
0 --- --- --------1

0 10 20 30 40 50 60 70 80

--
.

90 100

Fig. IV.2. H istogram a de intervalos desiguales y alturas


proporcionales a las frecuencias.
m os doblado el ancho y, en prom edio, hem os incluido u n doble
n m ero de casos en el intervalo m ay o r d e lo q u e sera el caso
en uno u o tro de los dos intervalos de tam a o norm al. E sto nos
d ara u n h isto g ram a (vase figura IV.3) m ucho m s sem ejante al
%
-43.0
-323
-21.5
-10.8

10

20

.... i
30 40

________ _

50

60

70

_________1

80

j
90 100

Fig. IV.3. H istogram a d e intervalos desiguales y reas


proporcionales a las frecuencias.
o btenido inicialm ente. Una breve reflexin nos convencer de
que si hem os de p e n sa r en trm inos de reas m s que en altu
ras, podrem os m an ip u lar m s fcilm ente los datos que com por
tan intervalos desiguales. E n o tro s trm in o s: dejam os que las

reas de los rectngulos sean proporcionales al n m ero de los


casos. E n el caso especial im p o rtan te en que todos los in terv a
los sean de ancho igual, las altu ra s sern tam bin, p o r supuesto,
prop o rcio n ales a las frecuencias. Si el ancho de cada rectngulo
se to m a com o u n id ad y si las altu ra s se re p resen ta n com o p ro
f %
dnLdxn

1
0

i10

i___ i________ u- i

20 30

40

50 60

70

80

90 100

F ig . I V .4. Polgono de frecuencia.

porciones, entonces el re a to ta l com prendida en el histo g ram a


ser la un id ad . As, p o r ejem p lo :
1(5/93) + 1(17/93) + 1(39/93) + .......... + 1(1/93) = 1
Al e stu d ia r la curva n o rm al en el captulo v n , verem os que es
necesario' tr a ta r con reas, antes que con a ltu ra s, y ser conve
n ien te to m a r el rea to ta l b a jo el histo g ram a com o unidad.
O tro m odo m uy p arecid o de p re se n ta r g rficam ente u n a dis
trib u ci n de frecuencia es el del polgono de frecuencia. P ara
ob ten erlo , u nim os sim plem ente los p u n to s m edios de los lados
su p erio res de cada rectngulo p o r m edio de re ctas y b o rram o s
luego los rectngulos, com o e n la fig u ra IV.4. O bsrvese q u e los
p u n to s extrem os del polgono de frecuencia se h a n colocado so
b re la ln ea b ase (e je h o rizo n ta l) en los p u n to s m edios de los
intervalos a uno y o tro lad o de los dos intervalos de los extre
m os. N o rm alm en te n o nos serviram os de los dos tipos de figu
ras, p ero, su p erp oniendo el polgono de frecuencia sobre el h isto
gram a, vem os que el re a delim itada p o r las dos figuras h a de
ser igual. E sto es as p o rq u e p o r to d o trin g u lo que queda al
in te rio r del polgono de frecuencia, p ero ex terio rm en te al h isto
gram a, hay u n trin g u lo idntico debajo del histogram a, p ero
fu e ra del polgono d e frecuencia. As, pues, podem os tam bin
co n sid erar com o u n id ad el re a delim itada p o r dicho polgono.
Obsrvese, sin em bargo, q u e n o hem os hecho m s q u e conectar

p o r m edio de re ctas cierto n m ero de puntos. Los puntos m is


m os pu ed en re p re s e n ta r el n m ero de casos en cad a intervalo,
p ero hem os de guardarnos de in fe rir que hay cierto n m ero de
casos en cu alq u ier o tro p u n to a lo largo del trazo continuo. As,
p o r ejem plo, no hem os d e in fe rir que hay aproxim adam ente 28
casos con m arcas de 20 exactam ente.
Los polgonos de frecuencia pueden em plearse asim ism o p ara
re p re se n ta r d istribuciones de frecuencia cum ulativa. La figura
F

93.00 -100

, '

69.75 -75 -------------,

46.50 -50
23.25 -25
0, -"i
0 10

/
i

20

30

40

50

60

70

80

90 100

Fig. IV.5. Ojiva que representa una distribucin d e frecuencia


acum ulativa.
q ue en ta l caso re su lta se designa com o ojiva. A lo largo de la
o rd en ad a o eje Y podem os in d icar frecuencias o porcentajes. Co
locam os, en cam bio, las m arcas de la variable de escala de in
tervalo a lo larg o del e je de las X (a b scisa), lo m ism o que
an terio rm en te, e n el b ien en tendido de que las frecuencias re
p resen tad as in dican el n m ero d e casos de valor inferior al eje
de la X . P o r ejem plo, en la fig u ra IV.5 vem os q u e aproxim ada
m en te el 75 % de las m arc as son m enores que 34. P or lo tanto,
las ojivas se pueden u s a r com o u n m todo grfico de determ i
n a r el n m ero de casos p o r encim a o p o r deb ajo de u n cierto
valor. E s obvio que la fo rm a d e la ojiva h a b r de se r siem pre
o creciente o decreciente segn que se acum ule hacia a rrib a o
h acia ab ajo . La curva ser, e n cam bio, horizontal e n los in te r
valos vacos. Si la distrib u ci n de frecuencia es del tip o de nues
tro s datos anterio res, con el n m ero m ayor de casos en los in te r
valos que quedan cerca del cen tro de la distribucin, la ojiva
te n d r fo rm a de S, con la inclinacin m s r p id a a proxim idad
de los in tervalos que contienen el m ayor n m ero de casos.

Glosario
Datos continuos y datos discretos
Distribucin cumulativa
Distribucin de frecuencia
Polgono de frecuencia
Histograma
Ojiva
Lmites verdaderos
E j e r c ic io s

1. Supngase que las cifras a continuacin representan los ingresos


anuales de un grupo de residentes de una localidad:
$3 850
4 360
2140
3330
7 810
5 340
2 970
4140
3 000
1610
4 570
1940
2 780

$ 2 760
4340
5210
3410
4570
9300
3 320
1790
4560
3 800
13 460
5 210
2 690

$ 2 860
4 350
7 310
3 550
4210
5 490
2110
23 400
3 760
4170
6170
2 350
8 340

$ 3 890
11740
3 560
2740
7110
10300
4440
3 370
5170
3160
2 800
3180
4 240

$ 3 340
4350
2610
8190
4250
3 460
19310
2 670
3 100
5130
1710
4320
9 830

a) Constryase una distribucin de frecuencia y una distribucin


cumulativa.
b) Cules son los verdaderos lmites?
c) Trcese un histograma, un polgono de frecuencia y una ojiva.
2. En un examen de tipos de visita entre amigos ntimos y parien
tes, 81 interrogados son invitados a indicar el nmero de los amigos
y parientes que visitan por lo menos una vez al mes. Los resultados
son los siguientes (las cifras indican el nm ero efectivo de personas
regularmente visitadas):
3
2
5
4
9
4
5
3
4

5
4
6
14
4
3
4
11
3

2
2
4
3
1
5
2
4
14

3
5
3
5
4
7
3
5
5

3
3
2
6
2
3
6
19
2

4
3
2
3
4
5
1
4
1

1
3
6
4
3
6
3
5
4

8
0
3
2
5
2
16
2
3

4
3
5
4
0
2
5
2
4

a) Constryase una distribucin de frecuencia y una distribucin


cumulativa.

b) Justifiqese lo m ejor que se pueda la eleccin de los intervalos.


c) Trcese un histograma, un polgono de frecuencia y una ojiva.
3. Indquense los lmites verdaderos en cada uno de los siguientes
intervalos:
a) 1000 1900
2000 2 900
b) 1000 1 999
2000 2 999

c) 1.000 1.999 (Respuesta,


2.000 2.999 0.9995 1.9995)
d) .010 .019
.020 .029

Qu se ha supuesto en cada uno de los casos a propsito del mto


do de redondeo?
B

ibliografa

1. Anderson, T. R. y M. Zelditch: A Basic Course in Statistics, 2- edv


Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 4.
2. Downie, N. M. y R. W. H eath : Basic Statistical Methods, 2' ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 3.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, caps. 4 y 5.
4. McCollough, C., y L. van A ta: Introduction to Descriptive Statis
tics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 1.
5. Mueller, J. H., K. Schuessler y H, L. Costner: Statistical Reasoning in Sociology, 2 ed. Houghton Mifflin Company, Boston,
1970, cap. 4.
6. Weiss, R. S .: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 5.

i m o s que las escalas nom inales pueden resu m irse fcilm ente en
trm inos de porcen tajes, proporciones o razones, y que dichas
m edidas de resum en son fundam entalm ente intercam biables. En
o tro s trm in o s: b asta u n tipo determ inado de m edida p a ra des
c rib ir los datos. E n el caso de las escalas de intervalo, a su vez,
vimos que los datos pueden describirse p o r m edio de u n a distri
bucin de frecuencia. Podem os servirnos tam bin de tipos dis
tin to s de m edidas, siendo las m s im p o rtan tes de ellas las de
tipism o o de tendencia central y las de heterogeneidad o dis
persin. Verem os que existe en cada caso cierto nm ero de m e
didas d istin tas e n tre las que podem os elegir, cada u n a de las
cuales re n e propiedades, ventajas e inconvenientes aigo diferen
tes. P o r lo tan to , el resu m en de las escalas de intervalo es algo
m enos directo que en el caso de las nom inales. E n el p resen te
captulo nos ocupam os de las m edidas de tipism o, en ta n to que
en el siguiente exam inarem os las de dispersin. Tom ados ju n
tos, dichos dos tipos de m edidas re su ltarn norm alm ente ade
cuados p a ra la descripcin de los datos de escala de intervalo.
La idea que tiene el lego a p ropsito del trm in o prom edio pro
pende a ser m s bien vaga o am bigua. E n efecto, puede n o darse
cu en ta de que existen varias m edidas diversas del tipism o y que,
en d eterm inadas circunstancias, dichas m edidas dan resultados
m uy d istintos. El hecho de que sea posible o b ten er tales m edi
das diferen tes de tendencia central supone que es necesario
co m p ren d er las v en tajas y los inconvenientes de cada u n a de
ellas. Im p o rta, pues, sab e r en cules circunstancias cada u n a
sea adecuada. P o r qu la Oficina del Censo indica ingresos m e
dianos y n o ingresos m edios? T endra algn sentido in d icar al
lego que la fam ilia "m ed ia tiene 2.3 hijos y vive en u n a casa de
4.8 cu arto s? E n cules circunstancias es de poca im portancia
la m ed id a que se em plee? stas son algunas de las num erosas
cuestiones que p o d ran p lan tearse acerca del tip o de prom edio
que hem os de calcular.

V .l. La m edia aritm tica


H ay dos m edidas im p o rtan tes de tendencia cen tral em pleadas en
la investigacin sociolgica: la m edia aritm tica (designada a
continuacin sim plem ente com o m e d ia ) y la m ediana. La m edia
es con m ucho la m s com n de las dos y se define com o la sum a
de las m arcas dividida p o r el nm ero to tal de los casos com pren
didos. P a ra in d icar la m edia se utiliza p o r convencin el sm bolo
67

X, au n q u e a veces se em plee tam b in la le tra M. P o r lo tanto,


la f rm u la de la m ed ia aritm tic a es la sig u ie n te :
N
2 X'

X- -V*X%1"..........

x =

------- ----------------- = ------------N

'

( V .l )

en la que X x re p re se n ta la p u n tu aci n del p rim e r individuo, X 2


la del segundo, y X t la del individuo general.1 Si no existe am bi
gedad, podem os p re sc in d ir de los subndices y e sc rib ir sim ple
m en te
-

2X

X = ------M

en donde se en tien d e que to d as las cantidades se sum an.


La m ed ia posee la p ro p ied a d algebraica de que la sum a de las
desviaciones de cada m arc a con re sp ecto a la m ed ia ser siem
p re cero. S im blicam ente esto pu ed e exp resarse m ed ian te la
ecuacin sig u ien te:
2 (X -X ) = 0
=*i
E ste hecho n o h a de so rp re n d e r en absoluto si tenem os e n cuen
ta la definicin de la m edia. La p ru e b a es sencilla. Como quiera
que tenem os u n a sum a de n m ero s cada u n o de los cuales, es
en realidad, u n a diferencia, podem os descom poner la expresin
in d icad a en la diferencia d e dos sum as. E n la siguiente fo rm a :
y

2 (Xt - X ) =
<=*1

2 Xt 1=1

y _
2 X
i= 1

Pero, com o q u iera que X es u n a constante, ten em o s:


N
2 X*
&

i=l

.2 X = N X = N ------------ = 2 X*

= i

JV

C i

y vem os in m ed iatam en te que la d iferencia es cero.


La p ro p ied ad m encionada p u ed e u tilizarse p a ra sim plificar el

1 Para el examen de la notacin de adicin vase el Apndice I.

clculo de la m edia. Supngase, p o r ejem plo, que hem os de


calcu lar la m edia de los n m eros 72, 81, 86, 69 y 57. S um ando
y dividiendo p o r cinco obtenem os u n a X 73.0. Si sustraem os
ah o ra esta m edia de cad a u n a de las cifras y adicionam os los re
siduos, verificam os que la su m a re su lta n te es cero.
X

X-73

72
81
86
69
57

X-70

1
8
13
- 4
-1 6

2
11
16
- 1
-1 3

15

Supngase, en cam bio, que hubiram os an ticip ad o u n a m edia


de 70 y la hu b iram o s re sta d o de cada u n a de las cifras en cues
tin. E ntonces la su m a re su lta n te n o es cero, sino que observa
m os q ue cada u n a de las nuevas diferencias es m ayor en tre s
u n id ad es (e n direccin positiv a) que las diferencias originarias.
Vem os as q ue hem os an ticip ad o u n a m ed ia que es dem asiado
p eq u e a en tre s u n idades. Si aadim os a h o ra u n fa c to r de co
rrecci n de tre s a la m edia anticipada, obtenem os la m edia correc
ta. E n la p rctica, sin em bargo, no co m p araram o s los dos ju e
gos de diferencias e n esta form a, sino que, observando q u e la
su m a del segundo g ru p o de diferencias es de + 15 y sabiendo
q ue h ay cinco trm in os, e sto indica que en pro m ed io estbam os
de 15/5, o sea 3.0 u n idades, p o r deb ajo de la m ed ia verdadera.
Y com o pued e v erificarse fcilm ente, si h u b iram o s anticipado
u n v alo r dem asiado alto, entonces la su m a de las diferencias
h a b ra sido negativa, y hubiram os debido su stra e r de la m edia
an ticip ad a p a ra o b ten er la correcta. Si X' re p resen ta la m e
dia anticip ad a, podem os estab lecer u n a f rm u la de la m edia en
trm in o s d e la m edia su p u esta y de u n fa c to r de correccin:

( X i - X )

X = X + ----------------N

( V.2)

o bien, en p a la b r a s :

la suma de desviaciones de sta


La media verdadera = a la media supuesta + --------------------------------------------.
nmero de casos
Con o b jeto de verificar la correccin de esta frm ula desarrolla
m os la expresin de la derecha y o b te n e m o s:

S xt
i=i
X' + -

iV

= X ' + -

JV
N
2 X*
t=i

= X' + -

A?

2 X'
i=i
Af
NX
N

2 Xi
i= l
T

= x

Pese a que p u ed a p arece r que nos hayam os to m ad o m ucha


m olestia calculando X p o r rodeo en esta form a, este m todo p er
m ite sin em bargo ah o rra rse a m enudo u n a considerable cantidad
de tra b a jo cuando no se dispone de calculadoras de escritorio.
E l em pleo de u n a m edida an ticip ad a p erm ite p o r lo re g u lar re
d u cir la m ag n itud de los nm eros que h a n de adicionarse. En
efecto, cu an to m s cerca quede la m edia su p u esta de la verda
dera, ta n to m en ores sern en m agnitud las diferencias resu ltan
tes. E ste p rin cipio nos ser p artic u la rm en te til cuando em pren
dam os el clculo de las m edias de datos agrupados.
O tra p ro p ied ad de la m edia puede fo rm u larse com o sigue: la
sum a de las desviaciones cuadradas d e cada cifra con respecto
a la m edia es m en o r que la sum a de las desviaciones cuadradas
con resp ecto a cualquier o tro nm ero. O en o tro s t rm in o s :
2 (Xi ~ X ) 2 = m nim o.

i= l

* La p ru eb a de esta propiedad es m uy sencilla. C onsiderem os


las desviaciones de X t alrededor de cualquier o tro n m ero X ' que
previam ente hayam os tra ta d o com o m edia anticipada. S um ando
y re sta n d o la m edia real X de cada u n a de dichas expresiones
podrem os a n o ta r :
Xi - X ' = ( X - X ) + ( X - X ' )
Elevando los dos trm inos al cu ad rad o obtenem os:
(X i - X' ) s = ( X t - X )2 + 2( Xi - X ) ( X - X ) + ( X ~ X )2
R esum iendo p a ra todos los casos N o b te n d re m o s:

2 ( X i - X ') 2 ^ 2 ( X i - X p
= i

i= i

+ 2(X X ') 2 ( X * - X ) + 2 ( X - X ' ) 2

= i

i= i

en do n d e h a sido posible esc rib ir la ca n tid a d 2(X X ') fre n te al


signo d e su m ar en el segundo trm ino, ya q u e se tra ta de u n a
co n stan te. In m ed iatam en te verem os que to d o el segundo trm in o
N
debe s e r igual a cero, pues acabam os de m o s tra r que 2 ( X

i= l

X ) = 0. P o r o tra p a rte , el ltim o trm in o co n sta de N trm inos,


to d o s iguales a (X X ')2. T endrem os p o r ta n to
2

2 (X j X )2 + N ( X X ')2

i=i

<=i

y as se co m prueba que la sum a de las desviaciones a lre d ed o r de


X ' al cu a d rad o es igual a la su m a de las desviaciones alred ed o r
de la m ed ia verd adera, al cuadrado, m s u n t rm in o al cuadrado
que n u n ca pu ed e s e r negativo.
C uanto m s g ran d e sea la diferencia e n tre X ' y X, ta n to m ayor
ser el segundo trm in o situ ad o a la derecha.
T endrem os frecuentes ocasiones p a ra u tiliza r e sta p ro p ied ad
v
_
de los cu ad rad o s de la m edia, y la ca n tid a d 2 (X* X )2 h a b r de
t= i
a p a re c e r en g ran p a r te d e lo que sigue, com o u n a m edida de la
variacin to ta l o heterogeneidad.
V.2. La m ediana
A m en u d o necesitam os localizar la posicin del caso m edio cuan
do los d ato s se h a n o rd e n ad o de m ay o r a m enor. O podem os
d iv id ir u n g rupo de estu d ian tes en p o rc en tajes localizando los in
dividuos q ue tienen exactam ente el 10 p o r ciento de la clase que
q u ed a d eb ajo de ellos, ex actam ente el 32 p o r ciento d eb ajo de
ellos, etctera. Las m ed id as de este tip o se designan a m enudo
com o m ed id a s de posicin, ya que localizan la posicin de algn
caso tp ico (o atpico) en relacin con o tro s individuos. La m e
d ian a es ta l vez la m s im p o rta n te de estas m edidas de posicin.
D efinim os la m ed ian a com o u n nm ero que posee la pro p ied ad
d e te n e r el m ism o n m ero de m arcas con valores m enores que
las que h ay de valores m aypres. La m ed ian a divide h ab itu alm en
te el to ta l de los datos en dos m itades. Si el n m ero de los ca
sos es im p ar, la m ed ian a ser sim plem ente la m arca del caso

del m edio. Si N es p ar, no h a b r caso cen tral y, de hecho, cual


q u ier n m ero e n tre los valores de los dos casos centrales ten d r
la p ro piedad de dividir las m arcas e n dos grupos iguales. As,
pues, si N es p ar, la m ediana queda definida am biguam ente. Por
convencin tom am os entonces com o valor nico de la m ediana
la m edia aritm tica de los dos datos centrales.
Si
tuviram os los nm eros 72, 81, 86, 69 y 57, la m ediana sera
72 (e n ta n to que la m edia es 73). Si h u b iera u n sexto trm ino,
digam os, p o r ejem plo, 55, las dos m arcas centrales seran 69 y 72,
y tom aram os com o m ediana (69 + 72)/2, o sea 70.5. Si se da el
caso de que los dos casos centrales tengan la m ism a m arca,
la m ediana ser, p o r supuesto, este m ism o dato. O bsrvese que
si N es im par, la m ediana ser el dato (N + l) /2 . Si el nm ero
de los datos es p ar, la m ediana se en c o n trar en el ce n tro e n tre
el dato N /2 y el d ato (N + l)/2 . As, p o r ejem plo, si N = 251, la
m ediana ser el dato del caso centsim o vigsim o sexto, y si
N = 106, tom am os u n valor m edio e n tre las cifras de los casos
quincuagsim o terc ero y quincuagsim o cuarto. E stas frm ulas
re su ltarn tiles p o r lo re g u lar cuando N sea relativam ente
grande.
Vimos que la m edia posee las propiedades sig u ien tes:
S (X - X ) = 0

i= l
y

1 (X t X )2 = m nim o.
i=l
La razn de que la p rim e ra pro p ied ad se verifique es fundam en
talm en te que, cuando se su strae la m edia de cada u n o de los
datos, las diferencias resu ltan tes son tales que las m arcas nega
tivas se eq u ilib ran exactam ente con las positivas. P ero supngase
que h ubiram os prescindido p o r com pleto de los signos, consi
deran d o to d as las diferencias com o positivas, qu o c u rrir en
este caso? P uede d em o strarse que si se h u b iera re sta d o la m e
diana de cada u n a las m arcas prescindiendo del signo de las di
ferencias y sum ando los residuos, se o b ten d ra u n a sum a m enor
que la cifra co m parable de cu alq u ier o tra m edida de tendencia
central. E n sm bolos esto se expresa a s :
y
2 |Xi M d | = m nim o
<=i
en donde M d re p resen ta la m ediana y las b a rra s a am bos lados
de la expresin (X i M d ) indican q u e hay que to m a r el valor
positivo (o "ab so lu to ) de cada diferencia. A unque esta p ro p ie

d ad de la m ediana posea ta l vez algn inters, n o parece, sin em


bargo, te n e r aplicaciones directas de alguna significacin socio
lgica.
V.3. Clculo de la m edia y la m ediana de datos agrupados
M todo largo para el clculo de la m edia. C uando el n m ero de
datos se hace gran de y los clculos se realizan a m ano, el com pu
ta r la m ed ia o la m ediana puede re su lta r tedioso. La m ayora
de los cientficos sociales cu en tan con p rogram as de com putacin
q ue resuelven estos y o tro s clculos con facilidad. E n general
re su lta p referib le u tiliza r tales program as cuando as parece con
veniente, pues as dism inuyen los riesgos de in c u rrir en e rro res
de com putacin y redondeo, a la vez que se obtiene u n a econo
m a considerable e n tiem po y dinero. Debe, sin em bargo, conocer
se el p rocedim iento p a ra co m p u tar varias m edidas sin re c u rrir
a tales pro g ram as, ya que con frecuencia re su lta inconvenien
te d isp o n er los datos en fo rm a adecuada p a r a su m an ejo p o r
co m p u tad o ras rpidas. E n tales casos re su lta til a g ru p ar los da
tos p o r categoras, com putando la m edia o la m ediana, tom ando
com o base las re su ltan te s distribuciones de frecuencias. E n oca
siones se tr a ta de datos que nos son dados ya en fo rm a agrupada,
pud ien d o re su lta r im posible o inconveniente re g re sa r a los datos
originales p a ra p ro ced er a su com putacin. Un ejem plo de da
tos en grupos lo constituyen los censos. P or ellos sabrem os que
hay cierto n m ero d e p ersonas con edades d e 0 a 4 o d e 5 a 9
aos, p e ro desconocerem os la edad exacta de cad a individuo.
Como verem os m s abajo, el em pleo d e los datos agrupados
puede sim plificar n u e s tra la b o r considerablem ente. Pero, p o r o tra
p arte, al agru p arlos en categoras, perdem os sin poderse evitar
inform acin. Podem os sa b e r solam ente, p o r ejem plo, que hay
17 p erso n as con ingresos e n tre $ 2 000 y $ 2 900, p ero n o sabem os
cm o se h allan d istrib u id as exactam ente en el in te rio r de dicho
intervalo. Con o b jeto de calcu lar la m edia o la m ediana de tales
datos agrupados, hem os d e p ro c ed er a h a c e r ciertos supuestos
sim plificadores acerca de la posicin de los individuos en el in te
rio r de cad a categora. E n el caso de la m edia, tra ta re m o s todos
los casos com o si se h allaran concentrados en los p untos m edios
de sus in tervalos respectivos. Y al calcular la m ediana supon
drem os que aqullos se h allan esparcidos a distancias iguales en
el in te rio r de cada intervalo. P o r supuesto, esas sim plificaciones
llevan a p a re ja d a c ierta inexactitud. E n efecto, no podem os es
p e ra r o b ten er en esta fo rm a exactam ente los m ism os resu ltad o s
que nos p ro p o rcio n aran los datos b ru to s. Pero, p o r o tra p arte ,
si el n m ero de datos es grande, las distorsiones introducidas
s e r rrp o r lo re g u la r insignificantes y com pensarn so b rad am en te
el ah S rro de tiem po. Es obvio, p o r lo dem s, q u e cuanto m s an

gostos sean los intervalos, ta n to m enos inform acin perderem os


y tan to m ay o r ser la exactitud. As, p o r ejem plo, si sabem os que
hay 17 casos e n tre $ 2 000 y $ 2 900 y 26 casos e n tre $ 3 000 y $ 3 900,
podem os o b ten er resu ltad o s m s exactos im aginando que los 17
casos se h allan en el p u n to m edio del p rim e r in terv alo y los
26 en el p u n to m edio del segundo, que si hu b iram o s de situ ar
los 43 casos ju n to s en el p u n to m edio del in terv alo m ay o r de
$ 2 000 a $ 3 900. E stas sim plificaciones tienen m ayores pro b ab i
lidades de co n d u cir a e rro re s en el caso de intervalos extrem os,
ya q ue los d ato s de dichos intervalos pueden re s u lta r desviados
hacia el ce n tro de la distrib u ci n to tal. E n e s ta form a, si hay
17 casos en el in terv alo m s bajo , la m ayora de ellos pueden
e n c o n trarse en la m ita d su p erio r del m ism o. Sin em bargo, si el
n m ero de los individuos e n dichos intervalos extrem os es m uy
pequeo, com o suele suceder, es p ro b a b le que la d isto rsi n in tro
ducida sea insignificante.
De ah q u e al calcu lar la m edia de datos agrupados tratem os
todos los casos com o si estuvieran situ ad o s e n el p u n to m edio
de sus in tervalos respectivos. Si lo p refiriram o s, podram os su
ponerlos esparcidos a distancias iguales en el in te rio r del in te r
valo, pero, com o es fcil verificar, esto conducira a los m ism os
resu ltad o s, ya que la m edia de cada in terv alo q u ed a ra exactam en
te en el p u n to m edio del m ism o. Como q u iera que todos los ca
sos de u n in terv alo se tra ta n com o si tu v ieran el m ism o valor,
podem os m u ltip licar el n m ero de casos de cada in terv alo p o r
su v alo r com n, en lu g ar de ad icio n ar los datos separadam ente.
As, p o r ejem plo, si hem os colocado 26 casos a la a ltu ra del valor
d e 3 450, el p ro d u c to de 26 X 3 450 se r igual a la su m a de 26
m arcas sep arad as de 3 450 cada una. Y si hacem os esto con to
dos los intervalos, sum am os los p ro d u cto s y dividim os e n tre el
n m ero to ta l de casos, ob ten d rem o s la m edia aritm tica. La
f rm u la de sta se convierte e n ta l caso e n :
fc

Te

fitr ii

/Mj

__
4=1
i= 1
X = ---------------------------------N
2n

(V.3)

en la q ue / = n m ero de casos de la categora -sima con 2 / t=A/


m{ = p u n to m edio de la categora -sima
k = n m ero de las categoras.
E l ejem plo expuesto en el cu ad ro V .l a c la rar el proceso.
E n el cu ad ro V .l todos los intervalos son de la m ism a am pli
tu d . E sto no es esencial, a condicin q ue se em pleen puntos m e
dios correctos. S in em bargo, es necesario servirse de intervalos
cerrados. Supngase, en efecto, que el ltim o intervalo hubiera

sido de $ 7 000 p a ra arrib a . Qu p u n to m edio tom aram os? No


poseem os abso lu tam ente base alguna qu nos p e rm ita juzgar, a
m enos que nos rem ontem os a los datos originales. Algunas ve
ces esto resu lta posible, ya que las categoras extrem as slo com
p ren d en a m enudo relativam ente pocos datos. E n stos re su lta
p o r lo re g u lar m s lgico servirse de la m ed ia real de los datos
Cuadro V .l. Clculo de la m edia de datos agrupados por el

m todo largo
Lmites fijados
$2000-2 900
3 000-3 900
4 000-4 900
5000-5900
6000-6 900
7 000-7 900

Lmites verdaderos

Puntos medios
("i)

ft

fimi

$ 1 950-2 950
2 950-3 950
3 950-4 950
4 950-5 950
5950-6950
6 950-7 950

$2450
3 450
4 450
5450
6450
7 450

17
26
38
51
36
21

$ 41650
89700
169100
277 950
232 200
156450

189

$967050

Totales
2 /,
X = -

967050
= $5117
189

de la categora ex trem a que del p u n to m edio de algn intervalo


m ayor. E n los casos en que n o re su lta posible rem o n tarse a los
datos originales, ser necesario ad o p ta r u n supuesto razonable
en relacin con el v alor del p u n to m edio. De ah que sea decidi
d am en te m s ventajoso p a ra nosotros servirnos de intervalos
cerrad o s siem pre que h ay a de calcularse u n a m edia. Segn ve
rem o s en el cap tulo vi, esto se aplica asim ism o al clculo de la
desviacin estn dar, la m edida m s com nm ente em pleada de
dispersin.
M todo corto para el clculo de la m edia. El m todo a rrib a in
dicado co m p o rtar p o r lo re g u lar la m ultiplicacin de nm eros
b a sta n te grandes (v.gr., 2 450X 17), a m enos que re su lte que los
p u n to s m edios son n m eros sim ples. Con u n a calculadora m o
d e rn a dichos p ro d u cto s pueden calcularse y acum ularse fcil
m ente. Pero, si los clculos h an de h acerse a m ano, existe un
m edio m u ch o m s sencillo de calcular la m ed ia de datos agru
pados. E ste m todo, llam ado "co rto , parece a p rim e ra vista com
p o rta r m s tra b a jo que el "largo", pero, u n a vez dom inado, se
revela com o m ucho m s sencillo que el otro. F undam entalm ente,
el m to d o co rto consiste en an ticip ar u n a m edia y servirse en

e sta fo rm a de n m eros m s pequeos en la m ultiplicacin. Lue


go se aade, com o an terio rm en te, u n fa c to r de correccin a la
m edia supuesta.
Con o b jeto de sim plificar n u estro s clculos, tom em os com o
m edia an ticip ad a el p u n to m edio de u n o de los intervalos. E n el
ejem p lo a rrib a tra ta d o podem os v er p o r inspeccin que la m edia
ser algo in ferio r a $ 5 450, p u n to m edio del c u a rto intervalo. La
v en taja de serv irn o s de u n p u n to m edio com o m edia su p u esta es
obvia. E n efecto, todos los dem s datos e starn en ta l caso a
cierto n m ero de intervalos de distancia de la m edia supuesta,
ya que cad a m arc a se supone h allarse en u n o u o tro de los puntos
m edios. Si restam o s ah o ra la m edia su p u esta de cad a u n a de las
m arcas, o b ten d rem os diferencias de exactam ente $ 1 000, $ 2 000
o $ 3 000 en am b as direcciones. M ultiplicam os luego esas diferen~
d a s p o r las frecu encias ap ro p iad as p a ra o b ten er el fa c to r de
correccin q u e h a de a ad irse a la m edia anticipada. E n o tro s
trm inos, h a b r 17 casos con m arc as de exactam ente $ 3 000 m e
nos que aq u lla; h a b r 26 casos con u n a diferencia de $ 2 000,
etctera. Si nos servim os de u n a colum na di que re p re se n te la
diferencia e n tre las m arcas efectivas y la m edia anticipada, p o d e
m os m o d ificar la f rm u la (V.2) y esc rib ir la f rm u la de la m edia
com o sigue:

fA

x = r + _ LL

( v .4)

N
donde
di = X t - X '
y podem os d isp o n er n u estro s clculos en u n cu ad ro com o en el
cu ad ro V.2. Una vez m s, el fa c to r de correccin se obtiene to
m an d o la desviacin to ta l con re sp ecto a la m ed ia an ticip ad a
(a q u 63 000) y despus dividiendo e n tre el n m ero de casos, lo
q ue d a la ca n tid ad prom edio en que la m edia an ticip ad a se sepa
ra de la verdadera.
E n este ejem plo, el fa c to r de correccin h a re su lta d o se r ne
gativo, in dicando que la m edia an ticip ad a e ra dem asiado grande.
H ay que o b serv ar que si hubiram os an ticip ad o p a ra la m edia
o tro v alo r cualquiera, h ab ram o s llegado al m ism o resu ltad o . Si
se elige com o m ed ia an ticip ad a el p u n to m edio de te rc e r in te r
valo ($ 4 4 5 0 ), el fa c to r de correccin es de $667, el cual, adicio
nado a $ 4 450 d a el re su ltad o correcto. Dicho sea de paso, esto
constituye u n m edio de control m uy til de n u e s tra lab o r. Ob
srvese que si h u b iram os elegido el p u n to m edio d e cualquier
o tro intervalo, h ab ram o s realizado m s trab a jo , y a q u e los n
m eros a su m a r en la colum na /td4 h a b ra n sido n u m ricam ente
m ayores. Y si h u b iram os fallad o en serv im o s de u n p u n to m e

dio, las desviaciones resp ecto de la m edia su p u esta h ab ra n com


p o rta d o n m ero s m ucho m enos sim ples, con lo que n o nos
h ab ram o s a h o rrad o tra b a jo alguno. U na vez que el proceso se
h ay a com prendido bien, es posible o m itir en el cu ad ro de clculo
la colu m n a de los p u n to s m edios.
E l lecto r h a b r sin d u d a observado que cada u n a de las desvia
ciones resp ecto de la m edia p re su n ta del ejem plo a n te rio r es un
Cuadro V.2. Clculo de la m edia de datos agrupados p o r el

m to d o corto
Limites
verdaderos

Puntos
medios

$1950-2950
2950-3 950
3 950-4950
4 950-5950
5950-6950
6 950-7 950

$2450
3 450
4 450
5450
6450
7450

17
26
38
51
36
21

$ - 3 000
- 2 000
-1 0 0 0
0
1000
2 000

Totales

189

fA
$ -5 1 0 0 0
-5 2 0 0 0
- 3 8 000
0
36 000
42 000
$ - 6 3 000

le
2 fA
_
1
J
X =
=A
* ' i+---
N
= 5450 +

-6 3 0 0 0
= 5 450
189

333

= $5117
m ltip lo exacto de 1 000, o sea la m agnitud del intervalo utilizado.
E sto ser siem pre as, a condicin que todos los intervalos ten
gan la m ism a am plitud. P o r lo tan to , podem os p o n e r la am p litu d
del in terv alo com o fa c to r en cada u n o de los p ro d u cto s fA> m ul
tip lican d o p o r d icha a m p litu d u n a vez te rm in a d a la adicin. E n
o tro s t rm in o s : pudim os h a b e r obtenido la su m a de 63 000 de
la m an era sig u iente:
- 63 000 = 1 000( 51 - 52 - 38 + 0 + 36 + 42).
En lo que equivale a lo m ism o, pudim os h a b e r expresado las
desviaciones originales en t r m inos del n m ero de intervalos (o
desviaciones g ra d u an tes ) resp ecto de la m edia supuesta. P or
lo tan to , d eterm inam os cu n to s intervalos d ista la m edia supues
ta de la v erd ad era y, finalm ente, tran sp o rta m o s la m agnitud del
e rro r h acia a tr s a las unidades originales, m ultiplicando este

fa c to r de correccin p o r la m agnitud del intervalo. Designando


la desviacin en am plitudes de intervalo com o d', podem os re
visar n u e stro cu ad ro en la fo rm a indicada en el cu ad ro V.3.
Si se han em pleado intervlos desiguales, h a b r que m odificar
esta segunda f rm ula del m todo breve. A algunas personas les
p arece r m s fcil re m o n ta rse al m todo an terio r, sirvindose

Cuadro V.3.

Clculo de la m edia de datos agrupados p o r el m todo


corto y de las desviaciones graduales

Lmites
verdaderos

Puntos medios

*i

U*i

$ 1 950-2 950
2 950-3 950
3 950-4 950
4 950-5 950
5 950-6 950
6 950-7 950

$2 450
3 450
4 450
5 450
6450
7 450

17
26
38
51
36
21

-3
-2
1
0
1
2

-5 1
-5 2
-3 8
0
36
42

Totales

189

-6 3

La f rm u la m odificada es a h o ra :

A udi

X = X ' + _1JL----- i
N

(V.5)

en donde i re p resen ta la am p litu d de intervalo. P or co n siguiente:


X - 5 450 +

189

1 000 = 5 117

de d t en lugar de d \ y escribiendo las diferencias efectivas en


las u n id ad es originales. Y alternativam ente, si slo difieren del
re sto en cuanto' a am p litu d u n o o dos intervalos, podem os to m ar
com o am p litu d i de in terv alo la am p litu d de la m ayora de los
intervalos de clase. Las desviaciones de los p u n to s m edios de
los intervalos re sta n te s resp ecto de la m edia su p u esta pueden
en este caso ex presarse en fo rm a de fracciones de los interva
los enteros. As, p o r ejem plo, si el ltim o intervalo h u b iera sido
de $ 6 950 a $ 8 950, en lu g ar de $ 6 950 a $ 7 950, entonces el p u n to
m edio h a b ra sido $ 7 950 en lu g ar de $ 7 450. P o r lo tanto, la
desviacin resp ecto de la m edia p re su n ta h a b ra sido de $ 2 500,
o sean 2.5 am p litudes de intervalo. Si el intervalo h u b iera ido
h a sta $ 9 950, el v alor d \ h u b iera sido de 3.0, segn se deja com
p ro b a r fcilm ente.

Clculo de la m ediana. Al calcular la m ed ian a de datos agru


pados, tra ta re m o s todos los casos al in te rio r de u n intervalo dado
com o si estuvieran d istribuidos a distancias iguales en el m ism o.
Localizam os p rim ero el intervalo que contiene el caso m edio,
e interp o lam o s luego p a ra en c o n trar la posicin exacta de la
m ediana. Al d eterm in a r el intervalo que contiene a sta, es p o r

C uadro V.4.

Clculo de la m ediana de datos agrupados

Lmites verdaderos

Ni de casos
inferiores a

11 950-2 950
2 950-3 950
3 950-4950
4 950-5 950
5 950-6 950
6 950-7950

17
26
38
51
36
21

17
43
81)
132)
168
189

$2950
3 950
(4950
15 950
6950
7 950

Total

189

lo re g u la r conveniente o b ten er la distrib u ci n de frecuencia


acum ulativa. Pese a que no es absolutam ente necesario, es p re
ferib le ac o stu m b ra rse a disponer p o r e sc rito la distribucin
acu m u lativ a com pleta y a in d icar en u n a colum na sep arad a el
significado de cada u n a de las cifras de dicha colum na (F ). La
d istrib u ci n acum ulativa de los datos an terio res se da en el cua
d ro V.4. A ttu lo de co n tro l de n u e stra adicin, observam os que
todos los 189 casos h a n de q u ed a r p o r d eb a jo de $ 7 950.
A continuacin localizam os el intervalo q u e contiene el dato
m edio o l JV/2-simo. Aqu es 189/2 = 94.5, de m odo que busca
m os el in terv alo que contenga los casos nonagsim o c u a rto y
nonagsim o quinto. O bsrvese que, si los datos n o h u b iera n es
ta d o agrupados, h ab ra m o s localizado el d ato (N + l)/2-sim o,
o sea el nonagsim o quinto. La razn de esta inconsecuencia
ap a ren te se ex am in ar m s abajo. Como q u iera que hay 81 ca
sos p o r deb ajo de $ 4 950 y 132 p o r debajo de $ 5 950, la m ediana
h a de q u ed a r en algn lu g ar del in terv alo que va de $ 4 950 a
$ 5 950. C onstituye u n b u en p rocedim iento m a rc a r dicho in te r
valo con Un p arn tesis, y a que se d a a veces la tendencia de leer
los dato s a p a r tir de la cifra 81, con lo que se obtiene el intervalo
incorrecto' de $ 3 950 a $ 4 950.
E xam inem os ah o ra m s de cerca el intervalo que contiene la
m ediana. H ay en ste 51 casos y, en consecuencia, habrem os
de d iv id ir el in terv alo e n tero en 51 subintervalos de am plitud
$ 1 000/51, o $49.61 cada uno. S ituam os cada uno de los 51 casos
en el p u n to m edio de su subintervalo propio. El caso octogsim o

p rim ero q u ed a r as situ ad o en el ltim o sub in terv alo del in ter


valo de $ 3 950 a $ 4 950, y el caso 132-avo ser slo ligeram ente
in ferio r al lm ite su p erio r del intervalo que contiene la m ediana.
Ahora procedem os sim plem ente a c o n ta r subintervalos h asta
lleg ar a aqulla. Si los datos no estuvieran agrupados, h ab ra
m os localizado la m arc a del caso (N + \ )/2, o sea el nonagsim o
quinto. De acuerdo con n u e stra convencin, dicho caso se situa
ra en el p u n to m ed io del decim ocuarto subintervalo o, exacta
m ente, a 13.5 subintervalos del lm ite in ferio r del intervalo. Ob
srvese que este m ism o valor se h u b iera obtenido re sta n d o 81
81

94.5

-----J | +H I I I I l-l H I I | l | -------------------------------- ----------------

4,950

132
I !

5,950

de 94.5 o N /2 . Es p o rq u e estam os operando con p u n to s m e


dios de in tervalos pequeos que contam os exactam ente N /2
intervalos, con o b jeto de localizar la posicin del caso {N + l)/2 .
El v alo r de la m ed ian a pu ed e ah o ra o b ten erse m ultiplicando
sim plem ente el n m ero de subintervalos ab arcad o s p o r la m ag
n itu d de cada u no de ellos y aadiendo el re su lta d o al lm ite
in ferio r del intervalo. E l procedim iento co n ju n to pu ed e resu
m irse en la f rm u la siguiente:
N /2 F
M d = t + -------------- i

(v .6 )

en la que F = frecuencia acum ulativa co rresp o n d ien te al lm ite


in ferior,
/ = n m ero de casos del intervalo q u e contiene la mediana,
l = lm ite in ferio r del intervalo q u e contiene la m e
diana,
i = am p litu d del in terv alo que contiene la m ediana.
La can tid ad i / f re p resen ta la m ag n itu d de cada subintervalo, y
N /2 F da la d istan cia (e n su b in terv alo s) e n tre el lm ite inferior
del in tervalo y la m ediana. E n n u estro p roblem a tenem os, pues :
M d = 4 950 + 5 ~ 81 1 000 = 4 950 + 13.5 - i 51
51
= 4 950 + 265 = $ 5 215.
E xiste u n cam ino alternativo, p e ro equivalente, de re p resen ta r
el proceso conducente a la obtencin de la m ediana. E n efecto,
en lu g ar de b u sca r la m agnitud de cada subintervalo y m ultipli

cando p o r el n m ero de los subintervalos, podem os d iscu rrir


que, com o quiera q ue hay 51 casos en el intervalo en tero y que
hem os de re c o rre r 13.5 de estos intervalos m s pequeos p a ra
llegar a la m ediana, hem os de re co rre r 13.5/51 del intervalo en
tero. P o r lo tan to , si m ultiplicam os la m ag n itu d del intervalo
(1 000) p o r la fraccin de la distancia to tal que hem os de reco
rre r, obtenem os el re su ltad o deseado llam ado interpolacin. Al
u tiliza r la frm ula es indiferente, p o r supuesto, cul de las dos
explicaciones nos parezca m s satisfactoria. Con objeto de no
h acem o s dem asiado dependientes de la frm ula, es m ejo r discu
r r ir el proceso cada vez, sirvindonos de aqulla com o control,
h a s ta que se haya co m prendido a fondo. A ttu lo de o tro control
hay que observ ar que la m ediana pudo h a b e rse asim ism o obte
n ido restando cierta ca n tid ad del lm ite superior u. Como pede
d em o strarse fcilm ente, la frm ula se convierte en ta l caso e n :
Md = u ~

(V.7)

en la q ue F re p resen ta ah o ra la frecuencia acum ulativa co rresp o n


d iente al lm ite su p erio r del intervalo. N um ricam ente esto d a :
132 * 94.5 __
M d = 5 950 --------- ----- 1000 = $5 215.

V.4. C om paracin de la m edia y la m ediana


H abiendo exam inado los m todos de clculo utilizados en la ob
tencin de la m edia y la m ediana ta n to de datos agrupados com o
no agrupados, tcanos ah o ra co m p arar sus propiedades. Saltan
a la v ista varias diferencias e n tre las dos m edidas. P rim ero, la
m edia u tiliza m s inform acin que la m ediana, p o r cuanto al calcu
la r la m edia nos servim os de la totalidad de las m arcas exactas,
e n ta n to q ue la m ediana slo com porta la m arc a del caso m edio.
Volviendo a las m arcas 72, 81, 86, 69 y 57, vem os que si la m arca
m s a lta h u b iera sido 126 en lu g ar de 86, la m ediana h ab ra
p erm an ecid o in alterada, en ta n to que la m edia h ab ra aum en
tad o considerablem ente. Y en fo rm a anloga, si la m arca infe
rio r h u b iera sido cero, la m edia h a b ra b ajad o , perm aneciendo
la p W ia n a nuevam ente inalterada. P or consiguiente, podem os
estab lecer u n a diferencia m uy im p o rtan te e n tre am bas m edidas,
a sab e r :\ La m edia resulta afectada por cam bio de los valores
extrem os, en tanto que la m ediana perm anece inalterada, a m e
n os que cam bie asim ism o el valor del caso medi'. E n nuestro
ejem plo, m ien tras 72 siga siendo el te rc e r caso despus del re o r
denam iento, la m ediana p erm an ecer inalterada.

E s ta im p o rta n te d iferencia e n tre las dos m edidas nos perm ite


decid ir en la m ayora de los casos cul de ellas re su lta m s a p ro
p iada. P o r lo re g u la r deseam os q u e n u e s tra m ed id a se sirva de
to d a la info rm acin disponible. E n u n a fo rm a u o tra ponem os
in tu itiv am en te m s fe e n la m ed id a que cum ple dicha condicin.
P ese q ue al p re sen te n o sea posible re fo rza r dicha fe con un
slido razo n am iento estadstico, p u ed e darse, con todo, cierta
ju stificaci n de la p re fere n cia de la m edia en las circunstancias
co rrien tes. R esulta, en efecto, que la m edia es p o r lo re g u la r
u n a m ed id a m s estab le que la m ediana, en c u a n to v a ra m enos
d e u n a m u e s tra a o tra. C uando enderecem os n u e s tra atencin
a la E stad stic a inductiva, verem os q u e p o r lo re g u la r el inves
tig ad o r tien e m s in te r s e n generalizar a p ro p sito d e la pobla
cin q u e en su m u e stra p a rtic u la r. E st p erfectam en te p ercatad o
d e que si se h u b ie ra to m ad o o tra m u e stra los re su lta d o s n o h a
b ra n sid o ex actam ente los m ism os. Si se h u b iera to m ad o u n a
g ran can tid ad d e m u e stra s del m ism o tam ao, h a b ra podido ver
sim p lem en te e n cunto las m edianas de las m u estras diferan
e n tre s. Lo q ue aqu decim os es q u e las m edianas de las m ues
tr a s d ifieren d e u n o a o tro de ellos m s que las m edias corres
p o n d ien tes. P ero com o q u iera que en la p r c tic a slo extraem os
p o r lo re g u la r u n a sola m u estra, im p o rta sab e r q u e la m edida
q u e em pleam os d a r re su ltad o s seguros, en cu a n to q u e h a b r u n
m n im o de v ariab ilid ad de u n a m u e stra a la prxim a. Podem os,
p o r consiguiente, estab le cer la siguiente regla p r c tic a : en caso
d e duda, em plese la m edia con preferencia a la m ediana.
D ebido al h echo de que u tiliza todos los datos, en ta n to que
la m ed ian a n o depende de los valores extrem os, la m edia puede
p ro p o rcio n ar e n d eterm in ad as circunstancias re su ltad o s m uy
am biguos. H em os de te n e r p re se n te que, al serv im o s de u n a
m ed id a de ten d en cia central, tra ta m o s de o b te n e r u n a sim ple
descripcin de lo q u e e n n u e stro s datos hay de "tpico". Supn
gase, p a ra to m a r u n caso extrem o, q u e en la serie de cinco n
m eros el d ato su p e rio r fu e ra la de 962. La m ed ian a seguira sien
do en n u e s tro caso 72, e n ta n to que la m ed ia su b ira a 1 241/5,
o sea 248.2. A hora bien, es este v alo r "tp ico , en alguna form a,
de los d ato s? C iertam ente no. N o se e n c u e n tra en p a rte alguna
cerca de los d ato s de los cinco casos. Es verdad, p o r supuesto,
que en u n ejem plo ta n extrem ado nin g u n a m ed id a p a rtic u la r p o
d ra utilizarse p a r a d escrib ir adecuadam ente el caso tpico, pero,
com o q u iera q u e c u a tro de los cinco datos se sit an alrededor
de 72, el em pleo de la m ed ian a re su lta ra m an ifiestam en te m e
nos equvoco. Podem os, pues, d ecir q u e: siem pre que una dis
tribucin es fu ertem e n te asim trica, esto es, siem pre que hay
consid erab lem ente m s casos extrem os en u n a direccin que en
o tra, la m ediana ser por lo regular m s apropiada que la media.
La relacin e n tre la desviacin y las posiciones relativas de la

m edia y la m ediana se indica en la figura V .l. Como q uiera que


puede re su lta r afectad a p o r unos pocos valores extrem os, la m e
dia se v er "em p u ja d a en la direccin de la asim etra, esto es,
h acia la cola. Si la distribucin es p erfectam ente sim trica, la
m edia y la m ediana coincidirn. Sabem os que las distribuciones
relativas a los ingresos suelen e sta r desviadas p o r lo regular
Simtrica

. . .

Asim trica negativa

x
Asim trica positiva

Fig. V .l. R elacin entre la asim etra y las posiciones relativas


d e la m edia y la m ediana
h acia los ingresos superiores, con m uy pocos de ellos extrem a
d am en te altos. R esultara, pues, m uy im preciso p re se n ta r ingre
sos m edios en el m arco de u n a corporacin o de u n a localidad
pequea. P o r ello los d ato s relativos al ingreso se d an p o r lo
re g u la r sirvindose de la m ediana, m s que de la m edia. Sin
duda, si la d istribucin e s t m uy desviada, el hecho debera
m encionarse al p re se n ta r los datos. E n tales casos, puede resu l
ta r til in d icar am bas cosas, la m edia y la m ediana, pese a que
esto slo ra ra m e n te se hace as en la prctica.
La m ed ia tien e u n a segunda p ro p ied ad que n o posee la m e
d ian a: se deja m an ip u lar algebraicam ente con m ayor facilidad.
As, p o r ejem plo, p recisa o b ten er a m enudo u n prom edio pon
d erad o d e varios conjuntos de datos. Supngase que tenem os
los siguientes ingresos m edios correspondientes a las tres locali
dades A, B y C :

Localidad

Habitantes

A
B
C

10000
5000
8000

Media
$3 518
4760
4122

Si el n m ero d e h a b ita n te s de las tre s localidades fu e ra el m is


m o, po d ram o s to m a r la m edia de esos tre s datos com o m edia
general. P ero es el caso que la localidad A es dos veces m ayor
que la localidad B, o sea, e n o tro s trm inos, que la cifra $ 3 518
re p re se n ta u n doble n m e ro de casos de los que re p resen ta la
cifra $ 4 760. Si los 23 m il h a b ita n te s se h u b iera n p u esto ju n to s
calculndose la m edia general, la cifra re su lta n te h a b ra refle
ja d o dicho hecho. P ara o b te n e r la m edia co rrecta, hem os de
p o n d e ra r cada m edia sep a rad a p o r el n m ero p ro p io de casos,
sum ando luego y dividiendo fin alm en te e n tre el n m ero to tal de
stos (23 000). O btenem os en esta fo rm a :
2 N tX x
X = --------N

(V.8)

en donde N t y X { re p re se n ta n respectivam ente el n m e ro de ca


sos y la m ed ia de la categora i-sima, indicando k el n m ero de
las categoras. Tenem os, p o r consiguiente:
- _ 10 000(3 518) + 5 000(4 760) + 8 000(4 122)
Ji. ........... .........
23 000
91 956 000
23 000

=$ 3 998.09

Podem os ju s tific a r fcilm ente ese p rocedim iento d e p o n d era


cin observando que la m edia de la categora i-sim a fu e en re a
lid ad o b ten id a adicionando los datos y dividiendo p o r A^.2 P or
lo tan to , el p ro d u c to N iX t re p re se n ta la sum a de todos los datos
d e dicha categora. As, pues, la adicin de los p ro d u cto s y la di
visin e n tre N nos d a el m ism o re su lta d o que se h a b ra obtenido
si se h u b iera n ignorado las categoras p o r com pleto. E ste tipo
de m anipulacin algebraica de la m ed ia re su lta en ocasiones m uy
til. N o h a d e re s u lta r difcil d arse cu en ta q u e la m ediana
general de los d ato s com binados n o p u ed e o b ten erse en dicha

2 Casi siempre ponderemos X i con w{, representando la expresin '2wiX i/


2 w4 nuestra media ponderada. Por lo regular hacemos la ponderacin en
tal forma que suma una cantidad conveniente como la unidad (esto es,
= 1) o la muestra total de tamao N, como en el ejemplo anterior.

form a. E n efecto, si conociram os los valores de los casos m e


dios de cad a u n a de las categoras separadas, nos fa lta ra toda
va conocer el v alor del caso m edio de los datos com binados.
Obsrvese, finalm ente, u n a diferencia im p o rtan te e n tre la m e
dia y la m ediana. El clculo de la m edia re q u ie re u n a escala de
in terv alo . E n efecto, sin u n a escala de in terv alo no te n d ra sen
tido alguno h a b la r de su m ar m arcas. E s m an ifiestam en te nece
sario suponer, p o r ejem plo, que la su m a de los n m eros 30 y 45
equivale a la de los n m ero s 20 y 55, ya que am bos p ares poseen
la m ism a m edia. La m ediana, en cam bio, puede em plearse ta n to
con la s escalas o rd in ales com o con las de intervalo. La m arca
n u m ric a real de la m ed ian a carecer de sentido, a m enos que
dispongam os de u n a escala de intervalo, p e ro ser sin du d a
posible situ a r la m a rc a m edia. E sto significa que, e n tre o tro s, po
dem os se p a ra r los casos en u n a o dos categoras, segn que
aqullos queden p o r en cim a o p o r d eb ajo d e la m ediana. P o r lo
ta n to , las m ed id as de posicin pu ed en em plearse con escalas
o rd inales, hecho que re su lta m uy til p a ra el desarrollo' de p ru e
b a s que n o req u ieren escalas de intervalo.
V.5. O tras m edidas de tendencia central
E x isten todava algunas o tra s m edidas de tendencia cen tral, nin
guna de las cuales, sin em bargo, e n c u e n tra u n em pleo m uy co
rrie n te en la investigacin sociolgica. U na de ellas es el m odo,
q u e es sim plem ente la m arc a m s frecuente. Si, p o r ejem plo,
to m am o s las tre s series de n m eros siguientes:
(1)
( 2)
(3)

71,
71,
71,

75, 83, 75, 61, 68


75, 83, 74, 61, 68
75, 83, 75, 83, 68

podem os decir que la p rim e ra tien e u n m od o de 75, ya que hay


d os trm in o s de dicha m arca, en ta n to q u e ninguna o tra a p a re
ce dos veces. N o h ay m odo alguno en la segunda serie de n m e
ros, p e ro los h ay dos, en cam bio, e n la te rc e ra (75 y 83). E l
m odo re su lta ta l vez m s til cuando se d a u n nm ero m ayor
de casos y cu an do los datos h an sido agrupados. E n ta l caso
h ablam os a veces de u n a categora m odal, to m an d o el p u n to
m edio de la m ism a com o m odo. E n los datos agrupados que
hem os utilizado, la categ o ra m odal sera la de $ 5 000 a $ 5 900.
E n u n a d istribucin de frecuencia, el m odo re s u lta r indicado
p o r el p u n to m s elevado de la curva. E n u n a distrib u ci n sim
tric a con u n solo m odo en el centro, la m edia, la m ediana y el
m odo sern p o r supuesto, idnticos. Podem os d istin g u ir asim is
m o e n tre d istrib uciones "unim odales" y "bim odales, tom ando
esta ltim a la fo rm a que aparece en la fig u ra V.2. Al h a b la r de

distribuciones bim odales, n o solem os p o r lo re g u la r su p o n er que


am b as cspides tengan exactam ente el m ism o alto, com o p are
cera deducirse de la definicin. H ay que o b serv ar que, com o
q u iera que el m odo se refiere a la categora con el m ayor nm e
ro de casos, podem os servim os de dicho concepto ta n to al des
c rib ir escalas nom inales, com o ordinales o de intervalo. De esta
m an era en el caso de las escalas nom inales p o d r considerarse la

categora m odal com o u n tip o d e tendencia central, siem pre que


se tenga bien p re sen te que ello n o supone u n ordenam iento de
categoras.
O tras dos m edidas de tendencia central que prcticam ente
n o se ven n u n ca en la lite ra tu ra sociolgica son la m edia arm
nica y la m edia geom trica. Se definen respectivam ente p o r las
siguientes f rm u las:
N
M edia arm nica = --------------ir

2
-1 Xi

N ___________ _
M edia geom trica = > / ( X x) ( X 2) ........ ( X N)
E n esta ltim a frm ula, la N a rrib a del radical indica que to
m am os la raz JV-sima del p ro d u c to de N datos.
V.6. Deciles, cuartiles y percentiles
Al exam inar la m ediana, sealam os que hay o tras m edidas posicionales, ta le s com o los percentiles, que pueden utilizarse p ara
fija r la p o sicin de datos m ayores que u n a proporcin determ i
n ad a de casos. E sas m edidas, au n q u e n o sean necesariam ente
m edidas de tip ic id a d o de tendencia central, son anlogas di
rectam en te a la m ediana. As, p o r ejem plo, en lugar de buscar
u n n m ero q u e tenga la m ita d de los datos p o r encim a o p o r

d eb ajo de s m ism o, podem os q u e re r d e te rm in a r el v alor del p ri


m e r cu artil, que posee la p ro p ied a d d e que u n cu a rto de los datos
sean de m en o r m ag n itu d que la suya. Y en fo rm a sem ejante, el
te rc e r cu a rtil re p re se n ta la m arc a que tien e p o r deb ajo d e ella,
e n cu an to a m agnitud, a los tre s cu a rto s de los casos. Si se p re
fiere, se pu ed e dividir la d istrib u ci n en 10 deciles, fijan d o m a r
cas q u e tengan u n a dcim a, dos dcim as o nueve dcim as d e los
casos con valores m enores. Tal vez el lecto r est m s fam iliari
zado con los p ercentiles, q u e dividen la d istrib u ci n e n 100 p o r
ciones d e tam a o igual. As, p o r ejem plo, el e stu d ia n te que falla
en el nonagsim o p rim e r p ercen til sabe q u e el 91 p o r ciento de
los dem s estu d ian tes ten an puntuaciones m s b ajas q u e l.
E l clculo de los deciles, los cuartiles y los p ercentiles es direc
ta m en te anlogo al de la m ediana. E n el caso d e dato s ag ru p a
dos, d eterm in arem os p rim e ro el in terv alo e n cuyo in te rio r que
d a la m ed id a de posicin deseada. S irvindonos luego de los
d ato s del cu ad ro V.4, ob ten d rem o s el p rim e r cu a rtil localizando
la posicin del caso N /4 o 47.25-simo. De la colum na de la fre
cuencia cum ulativa vem os que el p rim e r cu a rtil h a de situ arse
en algn lu g ar e n tre el in terv alo de $ 3 950 a $ 4 950. Y com o
q u iera que en dicho in terv alo hay 38 casos, hem os de re c o rre r
los (47.25 43 )/38 de e sa distancia. As, pues, el valor del p rim e r
c u a rtil Q i ser:
47 25 43
Q1 = 3 950 + ^---------- 1 000 = 3 950 + 112 = $ 4 062
38
O tras m edidas de posicin pueden calcularse en fo rm a anloga.
Obsrvese, in cid entalm ente, que p o r definicin la m ediana es
equ iv alen te al segundo cu artil, al q u in to decil, y al quincuag
sim o p ercen til. Si b ien los deciles, cu artiles y percentiles slo
se em plean m uy ra ra m e n te e n la investigacin sociolgica, con
viene p o r lo m enos conocer su sentido.
G losario

Decil
Media
Mediana
Modo
Percentil
Cuartil
Distribucin asim trica
E je r c ic io s

1. Indquense la media, la m ediana y el modo de los nmeros siguien


tes: 26, 37, 43, 21, 58, 26, 33 y 45, Respuesta, 36.1; 35; 26.

2. Calclense una media y una mediana de los datos compilados en


el ejercicio 1, cap. iv. Hgase lo mismo en relacin con el ejercicio 2,
cap. iv.
3. Calclense el tercer cuartil, el cuarto decil y el septuagsimo pri
m er percentil de los datos del ejercicio 1, cap. iv.
4. Los siguientes datos (hipotticos) m uestran la distribucin del
porcentaje de las familias granjeras en 60 distritos. Calclense la
media y la mediana. Respuesta, 32.83; 32.83.
Intervalo
%

Frecuencia

10-19
20-29
30-39
40-49
50-59

7
16
21
12
4
60

5. Sirvindose de los datos del ejemplo anterior, indique el lector


en qu form a resultaran afectadas la media y la mediana (aumenta
das, reducidas, inalteradas) si:
a) el ltimo intervalo se ampliara de 50 a 69, permaneciendo las
mismas frecuencias. Respuesta, aum entada; la misma.
b) si se aadiera un 10 por ciento a cada intervalo (haciendo los
intervalos 20 a 29, 30 a 39, etctera), con frecuencias inalteradas;
c) los intervalos permanecieran inalterados, pero pasando dos ca
sos de la categora 20 a 29 a la categora 30 a 39 (haciendo que las
frecuencias fueran 7, 14, 23, 12 y 4);
d) los intervalos permanecieran inalterados, pero se doblaran to
das las frecuencias.
_6. Un grupo de 10 muchachos y 7 muchachas participaron en un acer
tijo algebraico. Supngase que la puntuacin media de los muchachos
ue 84 y su mediana 74, en tanto que, en relacin con las mucha
chas, tanto la media como la mediana resultaron en 79. El m aestro
concluye que en esa prueba los muchachos obtuvieron un resultado
mejor que las muchachas. Est su conclusin justificada? Por qu,
o por qu no? Cmo cabra explicar la gran diferencia entre la media
y la mediana en los muchachos?
7. Supngase que se ha encontrado que la edad media de los 50 go
bernadores (de los Estados Unidos) es de 51.6 aos, la de 100 sena
dores 62.3, y la de 435 diputados de 44.7. Cul es la edad media de
todos esos polticos? Supngase que las cifras anteriores indicaran
medianas, podra obtenerse la mediana general del mismo modo?
Por qu, o por qu no?
B iblio g rafa

1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2? ed.,


Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 5.
2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2' ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 4.

3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry


Hol and Company, Inc., Nueva York, 1952, cap. 8.
4. McCollouhg, C. y L. van Atta: Introduction to Descriptive Statis
tics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 2.
5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociology, 2* ed. Houghton Mifflin Company, Boston,
1970, cap. 5.
6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive Approach, Wadsworth Publishing Company, Inc., Belmont, Cal. 1962,
caps. 2 y 6,

V I. ESCA LA S D E IN T E R V A L O : M ED ID A S
D E D IS P E R S I N
E n la investigacin sociolgica la atencin se con cen tra en m u
chos casos en m edidas de tendencia central. P o r ejem plo, pode
m os q u e re r c o m p arar varios tipos de religin en relacin con la
asisten cia m ed ia a la iglesia o el nivel m edio de ingreso. Pode
m os tam b in d esear o btener, sin em bargo, m ed id as de hom oge
neidad. Tal vez hayam os p a rtid o de la hiptesis que u n a de las
religiones ex tra e r sus adeptos en m ay o r g ra d o que las o tras de
u n a m ism a capa social. S in em bargo, au n si estam o s interesados
an te to d o en c o m p arar m edidas de tendencia cen tral, necesita
m os, con todo, sab e r algo acerca de la dispersin en cada grupo.
Nos dam os cu en ta in tu itiv am en te d e que, si cada religin fu e ra
ex trem ad am en te heterognea en cuanto al ingreso y a la asis
ten cia a la iglesia, u n a d iferencia d eterm in ad a e n tre sus m e
d ias (digam os de $ 2 000) n o sera ta n im p o rta n te o indicativa
com o se ra el caso si cada g ru p o fu e ra p erfectam en te hom o
gneo.
C uando lleguem os a la estad stica inductiva, estarem o s en con
diciones de ju stific a r dicha intuicin y de a p re c ia r p o r qu las
m edidas de d ispersin son ta n im p o rtan tes. E n el p re sen te cap
tu lo vam os a co n cen trarn o s en el m ecanism o, en tan to que en el
siguiente darem os u n a in terp re taci n de la m edida de dispersin
m s im p o rta n te : la desviacin estn d ar.

V I.l. E l recorrido
De las d istin tas m edidas de dispersin que vam os a exam inar en
este captulo, el re co rrid o es con m ucho el m s sim ple. El reco
rrid o se define com o la diferencia e n tre la m arc a m s a lta y la
m s b aja. As, pues, e n relacin con los datos proporcionados en
el captulo a n te rio r (72, 81, 86, 69 y 57), el re c o rrid o sera la dife
ren cia e n tre 86 y 57, o sea 29. P o r lo re g u lar solem os in d icar el
re co rrid o ya sea p o r m edio de la diferencia real (29), o dando
las dos m arc as extrem as, v.gr. 57 y 86. Si los datos se h a n agru
pado, tom am os com o re co rrid o la diferencia e n tre los puntos
m edios de las categoras extrem as. As, pues, si el p u n to m edio
del in tervalo in ferio r es 2 450 y el del intervalo su p e rio r 7 450, el
re co rrid o ser de 5 000.
La sim plicidad extrem a del re co rrid o com o m ed id a de disper
sin p re sen ta a la vez ven tajas e inconvenientes. E n efecto, el
re co rrid o pued e re s u lta r m uy til si se tr a ta de o b ten er unos
clculos m uy rpidos que p u ed an p ro p o rcio n ar u n a indicacin
b ru ta de la dispersin, o si los clculos h a de hacerlos alguna

90

p erso n a que n o est fam iliarizada con la estad stica. Si los datos
h an d e p re sen tarse a u n a audiencia relativ am en te ingenua, el reco
rrid o ser tal vez la n ica m edida de dispersin que aqulla est
en condiciones de in te rp re ta r fcilm ente. S in em bargo, el nivel de
p re p araci n de los socilogos est alcanzando rp id am en te u n
p u n to tal, que podem os legtim am ente su p o n er que en ten d ern
tam b in m edidas algo m s com plicadas y satisfactorias. E l in
conveniente del re co rrid o es obvio: se b a sa exclusivam ente en
dos casos, que son, adem s, los dos casos extrem os. Y com o
q u iera que los casos extrem os suelen se r ra ro s o poco com unes
en la m ay o ra de los problem as em pricos, nos dam os cu en ta que
p o r lo re g u lar es u n a cuestin de az ar q u e obtengam os u n o o dos
de ellos en n u e stra m u estra. Supngase, p o r ejem plo, que en la
localidad investigada hay u n m illonario. Si escogem os 10 perso
nas al azar, es p ro b ab le que aqul n o e st incluido e n tre ellas.
Pero, supngase que s est. E n ta l caso el re co rrid o de los in
gresos ser ex trao rd in ariam en te am plio y m uy engaador en
cu an to m edida de dispersin. Si nos servim os del re co rrid o
com o m edida, n a d a sabem os acerca de la variacin de las m a r
cas e n tre los dos valores extrem os, excepto que stas se sit an
en algn lu g ar en el in te rio r de dicho re co rrid o . As, pues, com o
re su lta del ejem plo a n terio r, el re co rrid o v a ria r considerable
m en te de u n a m u e stra a o tra. P or o tra p a rte , el re co rrid o ser
p o r lo re g u la r m ayor en las m u estras grandes que en las peque
as, sim plem ente p o rq u e e n los p rim ero s tenem os m s p ro b a
bilidades de in clu ir a los casos individuales extrem os. sta es
la razn de que el re c o rrid o n o se em plee p o r lo re g u la r en so
ciologa, excepto al nivel de tipo m s exploratorio.
O tra m ed id a su m am ente sim ple, la razn de variacin, puf de
s e r utilizada e n el caso de los datos en grupo, lo que re su lta
especialm ente adecuado en el caso de las escalas nom inales.
C onsiste b sicam ente en u n a m edida del grad o en que se con
ce n tran los dato s en la categora m odal, en lu g ar de que se les
e n cu en tre distrib u idos u n iform em ente a lo larg o de to d as las ca
tegoras. Se define a s :
V i?. = 1 - f moaJ N ,
en donde /modaj se re fiere al n m ero de casos en la categora mo
dal, y N al n m ero to ta l de casos. E s evidente que e sta m edida
re s u lta insensible a la distrib u ci n de casos en las categoras no
m odales, siendo p o r o tra p a rte dependiente del proceso de categorizacin. S u v en taja ra d ic a en su sencillez extrem a y en su
atracci n intuitiva, adem s del hecho de que en el caso de las
escalas nom inales no es posible h a c e r uso d e u n a ordenacin de
categoras que p erm ita h a b ilita r m edidas de u n m ayor re fin a
m iento.

VI.2. La desviacin cuartil


O tra m ed id a em pleada algunas veces en los cam pos de la psico
loga y la enseanza, p ero que ra ra m e n te ap arece en la lite ra tu ra
sociolgica, es la desviacin cu a rtil o re co rrid o sem i-intercuartil.
La desviacin cu artil Q es u n tipo de reco rrid o , pero, en lugar
de re p re se n ta r la diferencia e n tre los valores extrem os, s define
a rb itra ria m e n te com o la m ita d de la d istancia e n tre el p rim ero
y el te rc e r cu artiles. O en fo rm a sim blica:

en donde Qi y Q3 re p resen ta n respectivam ente al p rim e ro y te r


cer cu artiles. O bsrvese que la desviacin c u a rtil m ide el reco
rrid o ocupado p o r la m ita d ce n tral de los casos. Como quiera
que Qi y Q3 v aria rn m enos de u n a m u e stra a o tra que los casos
m s extrem os, la desviacin c u a rtil re p re se n ta u n a m ed id a m u
cho m s estab le que el re co rrid o . P or o tra p a rte , e n cam bio, no
saca provecho del co n ju n to de la inform acin. N o estam os m i
diendo la v ariabilidad e n tre los casos cen trales ni tom am os en
consideracin lo que o cu rre en los extrem os de la distribucin.
De ah, pu es, q u e enderecem os n u e s tra atencin, a o tra s dos m e
didas que s poseen esta p ro p ied a d deseable.
VI.3. La desviacin m edia
Si deseam os serv im o s de todos los datos, el sentido com n nos
su g erir que to m em os las desviaciones de cada d ato con resp ecto
a alguna m ed ida de tendencia cen tral y que calculem os luego
alguna especie de p ro m ed io d e dichas desviaciones, con o b jeto
de co n tro lar el n m ero de casos com prendidos. S era posible
to m a r com o m ed id a de ten d en cia c e n tral la m ed ian a o el m odo,
p ero p o r lo re g u la r tom am os la m edia, ya que s ta es en la
m ay o ra de los casos la m ed id a p a rtic u la r m s satisfactoria.
Supngase que sum ram os sim plem ente las desviaciones efecti
vas resp ecto d e la m edia. P o r desgracia, com o sabem os, el resu l
ta d o sera siem p re cero, y a que las diferencias positivas y nega
tivas se com pensan m u tu am en te. E sto sugiere que, p a ra o b ten er
u n a m ed id a de d ispersin a lre d ed o r de la m edia, hem os de des
h acem o s e n u n a fo rm a u o tra d e los signos negativos. Se nos
o cu rren in m ed iatam en te dos m to d o s: 1) ig n o rar los signos y
to m a r slo los valores absolutos d e las diferencias, o 2) cu a d rar
las diferencias. E sto s dos m todos conducen efectivam ente a las
dos m edidas re sta n te s de dispersin que hem os d e exam inar en
este captulo, a sa b e r: la desviacin m edia y la desviacin es
tn d ar.

La desviacin m edia se define com o la m edia aritm tica de las


diferencias absolutas de cada m arca con resp ecto a la m edia,
> en sm b o lo s:
2 )Xt - X \
<==1
Desviacin m edia = -----------------N

(V I.2)

La m edia de los n m eros 72, 81, 86, 69 y 57 es 73.0. Si su stra e


m os 73.0 de cada u n o de dichos nm eros, ignorando los signos, y
luego adicionam os los re su ltad o s y dividim os en tre 5, o b te n e m o s:
y
_
2 |j^ ._x \
'
1 + 8 + 13 + 4 + 1 6
42
8.4
N
5
5
Podem os p o r consiguiente decir que el prom edio de los datos
d ifiere de la m ed ia en 8.4.
Pese a que la desviacin m edia p re sen ta u n a in terp retaci n
in tu itiv a m s d irecta que la desviacin estn d a r, tiene, con todo,
varios inconvenientes graves. P rim ero, los valores absolutos no
se d ejan m an ip u lar algebraicam ente con facilidad. Segundo y m s
im p o rtan te, la desviacin m edia no es de fcil in terp re taci n
te rica ni conduce a re su ltad o s m atem ticos sim ples. Con fi
nes p u ra m e n te descriptivos, la desviacin m edia puede se r ade
cuada, pese a que, segn verem os, la desviacin e st n d a r se
d eja in te rp re ta r m s fcilm ente en trm inos de la curva norm al.
C uando lleguem os a la estad stica inductiva verem os que la des
viacin e st n d a r se u tiliza sobre todo a cau sa de su su p erio rid ad
terica. sta es la raz n de que slo ra ra m e n te encontrem os
en la lite ra tu ra sociolgica referencias a la desviacin m edia.
VI.4. La desviacin estndar
H abiendo elim inado m s o m enos o tras varias m edidas de dis
p ersin, podem os ah o ra d irig ir n u e stra atencin a la m s til
y frecu e n te de las m ed id as: la desviacin estndar. sta se de
fin e com o la raz cu a d rad a de la m edia aritm tic a de las desvia
ciones cu ad rad as con resp ecto a la m edia, o en sm b o lo s:
(Xt-X)*
N

(V I.3)

en donde s se em plea p a ra designar la desviacin estn d ar.1 O en


1 Algunos textos definen s con N 1 en el denominador en vez de N. La
razn de ello no resultar clara hasta e n el captulo XI.

p a la b ra s : tom am os la desviacin de cad a m arc a con respecto


a la m edia, a la d ra m o s cada diferencia, sum am os los resultados,
dividim os e n tre el n m ero de casos y extraem os la raz cuadrada.
P ara conseguir u n a re sp u esta correcta, es indispensable que las
operaciones se efecten exactam ente e n el o rd e n indicado. E n
n u e stro ejem plo n um rico la desviacin e st n d a r p o d ra conse
guirse com o sigue:
*

(X.-X)

(Xt - X P

72
81
86
69
57

1
8
13
- 4
-1 6

1
64
169
16
256

X = 73.0

---

--506

s = V506/5 = V101.2 = 10.06


E l significado intuitivo de la desviacin e s t n d a r n o nos aparece
r claram en te h a s ta m s adelante, cuando nos sirvam os de s p a ra
d am o s las re a s b a jo la curva norm al. P o r el m om ento la acepta
m os sim plem ente com o u n n m ero ab stracto . Sin em bargo, algu
n a s p ro p ied ad es de la desviacin e stn d a r son y a m anifiestas
desde ah o ra. O bservam os, en efecto, que cu an to m ay o r es la dis
persi n alred ed o r d e la m edia ta n to m ayor es la desviacin estn
dar. Si to d o s los cinco valores h u b iera n sido cero, las desviaciones
alred ed o r de la m edia h a b ra n sido cero, y s tam b in h ab ra sido
cero. P o r o tra p a rte , vem os que las desviaciones extrem as con
resp ecto a la m edia p esan m s, con m ucho, en cu an to a deter
m in a r el v alo r d e la desviacin estn d a r. E n efecto, los valores
169 y 256 dom inan las o tra s tre s desviaciones cuadradas. Al
c u a d ra r las desviaciones, pese a que despus extraigam os la raz
cu ad rad a, estam os en re alid ad dando m s peso relativo a los va
lores extrem os todava de lo que e ra el caso al calcu lar la m edia.
E sto sugiere q u e hem os d e m itig ar n u e stro en tu siasm o inicial
a p ro p sito de la desviacin e st n d a r e n cu an to "la m e jo r" m edida
p a rtic u la r de dispersin. C iertam ente, si hay varios casos extre
m os, querem os que n u e stra m ed id a lo seale. P ero si la d istri
bucin p re se n ta unos pocos casos m uy extrem os, la desviacin
no rm al pued e conducir a re su ltad o s engaosos, e n cu an to pue
de se r ex tra o rd in aria m e n te grande. E n tales casos nos servira
m os p ro b ab lem en te com o m edida de tendencia ce n tral de la m e
diana y, ta l vez, de la desviacin cu a rtil com o m edida de
dispersin. S in em bargo, p a ra la m ayora de los datos la des
viacin n o rm al re su lta r adecuada.

E s razonable p re g u n ta r: "p o r qu m o lestarse en e x tra e r la


raz cu a d rad a al calcu lar u n a m edida de d ispersin? U na re s
p u esta fcil, au n q ue poco satisfactoria, sera la d e decir que as
es com o se define la desviacin e stn d a r. P o d ra ju stific arse la
extraccin de la raz c u a d ra d a sealando que, y a que hem os cu a
d ra d o cada desviacin, lo que hacem os es com pensar dicho paso
an terio r. Sin em bargo, re s u lta m s com prensible ju stific a r la ex
tracci n de la raz en trm in o s d e su c a r c te r prctico. Como quie
r a que, en efecto, m s ad elan te habrem os d e h a c e r u n em pleo
considerable de la cu rv a norm al, la desviacin estn d a r, ta l com o
se la h a definido, re s u lta se r u n a m ed id a m uy til. P a ra o tro s
fines nos servirem os del cu ad rad o d e la desviacin n o rm al o va
riancia, que se define com o:
2 ( Xt - X P
<=i
V ariancia = s2 = -----------------N
Los m atem tico s h a n en co n trad o q u e el concepto de variancia
posea m ay o r v alor te ric o que la desviacin estn d ar. A p a r tir
del cap tu lo xvi, h arem o s u n uso creciente d e la variancia, p ero
d e m o m en to podem os lim ita r n u e stra atencin a la desviacin
e st n d a r. Los dos conceptos son p o r lo dem s ta n fcilm ente in
tercam b iab les, q ue podem os p a s a r sin dificu ltad del u n o al otro .
Que se defina la v arian cia com o cu a d rad o d e la desviacin es
t n d a r o sta com o raz cu a d rad a d e la variancia, esto n o reviste
im p o rtan cia alguna.
Clculo de la desviacin estndar de datos no agrupados. Si
b ien la desviacin e st n d a r puede calcularse siem pre a p a r tir
de l f rm u la b sica que se acaba de dar, re s u lta a m enudo m s
sencillo servirse de f rm u las de clculo que n o req u ieren la sus
tracci n de la m edia de cada m arc a sep arad a. E n efecto, no slo
la m ed ia n o ser p o r lo re g u la r u n n m e ro entero, sino que
u su alm en te se co m etern e rro re s d e redondeo al em p lear la
f rm u la an tes indicada. Con o b jeto de v er de qu m odo poda
m os sim p lificar los clculos, desarrollem os la expresin que est
a b a jo del radical. T en e m o s:
2

i= l

2 { X ? - 2X j l + X*)
_

=1

2 X ? - 2X 2 X i + N X 2
i
t=i
N

O bsrvese que, com o q u iera que X es constante, pudim os tom ar


la fre n te al signo de sum acin en el segundo trm in o del n u m era
dor. E n el te rc e r trm ino, a su vez, nos hem os servido del hecho
de que, p a r a to d a co nstante k, te n e m o s :
2 k = N k.
i=l
_
w
Pero, com o q u iera q u e X = 2 X J N , el trm ino cen tral del nu =*i

m era d o r se red u ce a 2X 2, y podem os e s c rib ir:


X
_ 2
2 (X t ~ X )

i= l

4=1

_,

.V
2
2 X,2 X 4

___

i= l

___

2X2 + X2 = ------------X2
M

P o r lo ta n to :

N
r
2
2 X,
-X *

\T

(W .4)

Algunas o tras frm ulas de clculo altern ativ as son las sig u ien tes:

v ^-(4y
(^X
i)
-V
2

4=1

(VI.5)

2 X -------------------= i
jv

/ N

(V I.6)3

\ 2

(VL7)
Si b ien cu alquiera de las form as precedentes puede utilizarse
com o f rm u la de clculo, la ecuacin (V I.7) es la que com porta,

2 La obtencin de las ecuaciones (VI.6) y (VI.7) a partir de la ecuacin


(VI.5) se deja como ejercicio.

con todo, m enos errores d e redondeo, p o r ello se la recom ienda.


Sirvm onos de u n a de dichas frm ulas de clculo (ec. VI.7) en
el p roblem a an terio r, e n donde N = 5.
Xi
72
81
86
69
57

*<2
5184
6561
7 396
4761
3 249

365

27151

E n adicin al n m ero to ta l de casos, las dos cantidades requeri-

-V

!f

das son S I , y 2 X t. A m bas sum as pueden acum ularse sim ul=i


i=i

tn eam en te con las m odernas calculadoras de oficina. Calcula


m os ah o ra s a p a r tir de (V I .7):
s = 1/5 V 5(27 151) - (365)2 = 1/5 V 135 755 - 133 225 = 10.06
Nos hem os servido de este problem a m uy sencillo p a ra ilu s tra r
q u e Ja f rm u la de clculo d a el m ism o re su ltad o num rico que la
f rm u la b sica de la ecuacin (V I.3). Como q u iera que X resu lt
ser u n en tero , la f rm u la de clculo h a com portado en realidad
m s tra b a jo que la frm ula original. P ero norm alm ente, p o r su
p uesto, esto n o ser as.
* Clculo de la desviacin estndar de datos agrupados. Si los
datos h an sido agrupados, podem os sim plificar n u e stra lab o r
considerablem ente tra ta n d o cada caso com o si se h allara en el
p u n to m edio de u n intervalo y sirvindose de u n a m edida su
pu esta. Sin du d a introducim os con ello alguna inexactitud, p ero
el ah o rro de tiem po es sustancial. Siguiendo u n a convencin co
rrie n te , supongam os que
= X t X . E n consecuencia, las x m i
nsculas re p resen ta n desviaciones resp ecto de la m edia, y la
f rm u la bsica de la desviacin est n d a r se convierte e n :

Podem os m odificar ah o ra la frm ula tom ando en cuenta el he


cho de que h a b r u n gran n m ero de casos trata d o s todos com o
si tu v ieran el m ism o valor, esto es, uno de los p untos m edios. Si
m u ltiplicam os el n m ero de casos en cada clase p o r el p u n to

m edio p ro p io y sum am os luego los p ro d u cto s, nos podem os


a h o rra r el tra b a jo de su m a r todos los N casos. La f rm u la de la
desviacin e st n d a r se convierte as en :

(V I.8)
en donde /{ es el n m ero de casos del intervalo i-simo y A: el
n m ero de intervalos.8
S upongam os a h o ra que anticipam os u n a m ed ia y tom am os las
desviaciones con re sp ecto a sta, e n lu g ar de re sp ecto de la m e
dia v erd ad era. M ostram os en el cap tu lo a n te rio r que la sum a de
las desviaciones c u a d rad a s de la m edia ser m en o r que cual
q u ier o tro v alor que la su m a d e las desviaciones cuadradas. E n
p artic u la r, la su m a de las desviaciones cu a d rad a s de la m edia
an ticip ad a se r m ay o r que la cifra o b ten id a sirvindonos de
la m ed ia v erdadera, a m enos, p o r supuesto, que aqulla coincida
con sta. Puede, pues, d em o strarse que cu an to m s cerca queda
la m ed ia su p u esta de la v erdadera, ta n to m en o r re su lta la sum a
de las desviaciones cu ad rad as de la m edia supuesta. E n o tro s
t rm in o s: si nos servim os de u n a m ed ia su p u esta, esperam os
o b ten er u n a sum a de cu ad rad o s dem asiado grande. Lo m ism o
que an terio rm en te, podem os servirnos d e u n fa c to r de correc
cin, al que su straem o s luego del valor o b ten id o utilizando la
m ed ia an ticipada. La f rm u la de la desviacin est n d a r se con
v ierte e n tal caso e n :

en donde los d re p re se n ta n las diferencias e n tre cada m arc a y


la m ed ia an ticip ad a y son d irec tam en te anlogos a los x, de la
ecuacin (V I.8).
Antes de to m a r u n ejemplo- num rico, exam inem os la f rm u la
p reced en te con m ay o r atencin. El segundo trm in o d eb ajo del
rad ical re p re se n ta el fa c to r de correccin que h a de su strae rse
de las desviaciones cu ad rad as de la m edia supuesta. R ecordando
la f rm u la de la m edia expresada en trm in o s de la m edia su
p u esta, o sea:

8 Obsrvese que no se elevan al cuadrado las frecuencias


en el numerador de la expresin bajo el radical.

ji

que aparecen

2 fA
vemos que

&

i1

=X-X'

N
y que, p o r lo ta n to :
fc

2 ] fA \

De este modo, el fa c to r de correccin re su lta se r el cu ad rad o de


la diferencia e n tre las m edias verd ad era y la supuesta. Vemos
inm ed iatam en te que, si hubiram os an ticip ad o la m edia exacta
m ente, el facto r de correccin h a b ra sido cero. P o r lo tanto,
cu an to m ay o r sea la diferencia e n tre las m edias verd ad era y su
p u esta ta n to m ayor ser el fa cto r de correccin. Una suposicin
deficiente conducir siem pre al re su ltad o correcto, p ero com
p o rta r m arcas n u m ricas m ayores en am bos trm in o s de la
frm ula.
sta puede m odificarse m s todava si p referim os p en sa r en
trm in o s de desviaciones graduales d. Lo m ism o que e n el cap
tulo v, ponem os en fa c to r la am plitud del intervalo de cada dt
y m ultiplicam os el re su ltad o final p o r i, lina vez el proceso te r
m inado. La f rm u la se convierte as e n :

=i ' V

~( i

) 2

O bsrvese q u e efectivam ente n o hem os hecho m s q u e sac ar la


am p litu d i del intervalo, de d eb a jo del radical.
Al calcu lar la desviacin e st n d a r de d ato s agrupados, pode
m os ah o ra ex ten d e r el p rocedim iento em pleado p a r a la m edia,

Cuadro

VI. 1. Clculo d e la desviacin estndar utilizando datos


agrupados

Lmites verdaderos Puntos medios


$1950-2950
2 950-3 950
3 950-4 950
4 950-5950
5950-6950
6 950-7 950

fi

$2450
3450
4450
5450
6 450
7 450

Wt

17
26
38
51
36
21

Totales

-3
-2
-1
0
1
2

189

= 1 000 J
" 189

__ (

V 189 /

-5 1
-5 2
-3 8
0
36
42

153
104
38
0
36
84

-6 3

415

\ 2

1000 V 2.1%.111

= 1444
a adiendo la colum na f idi2. Atraque en re alid ad p odram os ob
te n e r las desviaciones cu ad rad as d i2 y m u ltip licar luego p o r f u
re su lta r con to d o m ucho m s sim ple m u ltip licar las dos ltim as
colum nas em pleadas en o b te n e r la m edia (e sto e s : d{ x f{d{). En
efecto, h ab ien d o m u ltiplicado d / p o r s m ism o, vem os que todos
los n m ero s negativos se h acen ah o ra positivos.4 Calculem os
ah o ra la desviacin e st n d a r de los datos agrupados utilizados
en el cap tu lo precedente. Con fines de ilu straci n nos servire
m os de la ecuacin (V I.10), p ese a q u e p o r lo re g u la r la (V I.12)
co m p o rta r m enos e rro re s de redondeo.
* Obsrvese bien que la ltima columna del cuadro VI.l no se obtiene

elevando al cuadrado la columna


var tambin al cuadrado.

ftdv

ya que al hacerlo traera consigo ele

(w

O btuvim os en esta fo rm a u n a m edia de $ 5 117 y u n a desvia


cin e st n d a r de $ 1 444. E stos dos n m ero s pueden serv ir ah o ra
p a ra re su m ir los d ato s o p a ra co m p ararlo s con datos de o tra
m u estra. Segn verem os m s ad elan te que p u ed en em plearse
tam b in p a ra v erificar hiptesis o p a ra ap re c ia r m edidas de
poblacin.
VI.5. E l coeficiente d e variabilidad
E s a veces conveniente c o m p arar varios grupos en relacin con
su hom ogeneidad relativa, en casos en que dichos gru p o s tienen
m edias d istin tas. P odra, pues, re s u lta r engaoso co m p arar las
m agnitudes ab so lu tas de las desviaciones e st n d a r. C abra es
p e ra r que, con u n a m edia m uy grande, p o d ra en c o n trarse p o r
lo m enos u n a desviacin e st n d a r suficientem ente grande. As,
pues, alguien p o d ra in te re sa rse en p rim e r lu g ar p o r el tam a o
de la desviacin e s t n d a r en relacin con el d e la m edia. E sto
sugiere que podem os o b te n e r u n a m ed id a de la variabilidad re la
tiv a dividiendo la desviacin e st n d a r e n tre la m edia. El resu l
tad o se h a llam ado coeficiente de variabilidad y se designa con
u n a V. As, p u e s: c

X
P ara ilu s tra r las v en tajas del coeficiente de variabilidad con
resp ecto a la desviacin e st n d a r, supngase q u e xm psiclogo
social tr a ta de d e m o stra r que p a ra todos los fines prcticos dos
grupos son ig u alm ente hom ogneos en relacin con la edad. En
u n o de los grupos la e d a d m ed ia es d e 26, con u n a desviacin
e st n d a r de 3. E n el o tro la ed ad m edia es de 38 aos, con u n a
desviacin e s t n d a r de 5. P o r lo tan to , los coeficientes de varia
b ilid a d son resp ectiv am en te 3/26 = .1 1 5 y 5/38 = .132, o sea u n a
diferencia m u ch o m s peq u e a que la q u e se d a e n tre las dos
desviaciones e stn d a r. E n vista del hecho d e que p o r lo re g u lar
la ed ad exacta re su lta m enos im p o rtan te, al d eterm in a r in te re
ses, capacidades y posicin social, a m ed id a que au m en ta la edad
pro m ed io de los m iem bros del grupo, la com paracin de los dos
coeficientes de v ariabilidad p o d ra re s u lta r m uy bien, e n este
caso, m u ch o m enos engaosa que si se em p learan las desviacio
nes estn d a r.
Si se desea, puede u tilizarse tam b in u n a variancia relativa.
P o r desgracia, estas m edidas relativ as d e dispersin se hallan
citad a s con m uy p oca frecu en cia en la lite ra tu ra sociolgica. Es
m u ch o m s frecuente, efr efecto, e n c o n tra r las m edias y las des
viaciones e s t n d a r relacionadas en colum nas adyacentes.

VI.6. Otras m edidas resum idas


Slo hem os exam inado dos tipos de m edidas resum idas : las de
tendencia central y las de dispersin. Son posibles, adem s, o tras
m edidas, au n que slo se las utiliza ra ra m e n te en la investigacin
sociolgica. Sin duda, encontram os a m enudo d ad a la d istrib u
cin de frecuencia en tera, p ero esto no constituye u n a m edida p a r
ticu lar de resum en. R esulta a veces deseable in d icar en u n a dis
trib u ci n el grado de asim etra. Una de las m edidas de sta saca
provecho del hecho de que cu an to m ayor es la asim etra tan to
m ayor re su lta la diferencia e n tre la m edia y la m ediana. E sta
m edida se h alla dada p o r la f rm u la:
3(X - M d)
A sim etra = -----------------5

Si la distrib u cin est desviada hacia la derecha (grandes m a r


cas p o sitiv as), la m edia ser m ayor que la m ediana, y el resu l
tad o ser u n n m ero positivo. En ta n to que la distribucin des
viada h acia la izquierda d ar u n resu ltad o negativo.
Con m uy poca frecuencia, tam bin, hallam os en sociologa re
ferencias al ca rc te r general de las cspides d e u n a distribucin
asim trica. Utilzase el trm in o de picudez en relacin con dicha
m edida, que exam inarem os brevem ente u n a vez que hayam os vis
to la curva norm al. P or lo regular, los textos de estad stica es
critos an te to d o p a ra los estu d ian tes de econom a se ocupan
m s a fondo ta n to de la desviacin com o de la picudez. Tal vez
cuando em pecem os a alcanzar u n a m ayor precisin en la des
cripcin de las form as exactas de las distribuciones de las varia
bles sociolgicas hallarem os u n m ayor em pleo p a ra estas o tra s
m edidas descriptivas.
Glosario

Coeficiente de variabilidad
Desviacin media
Desviacin cuartil
Recorrido
Desviacin estndar
Variancia
E jercicios

1. Calclense las desviaciones media y estndar de los datos indica


dos en el ejercicio 1, cap. v. Respuesta, 9.62; 11.59.
2.
Calclense las desviaciones estndar y cuartil de los datos agru
pados en el ejercicio 1, cap. iv. Hgase lo mismo con los del ejercicio
2, cap. iv.

3. Calclese la desviacin estndar de los datos del ejercicio 4,


cap. v. Contrlense los clculos escogiendo una media anticipada y
una frmula de clculo distintas. Respuesta, 10.83.
4. Indquese en qu form a resultara afectada la desviacin normal
por los cambios indicados en el ejercicio 5, cap. v.
B iblio g rafa

1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2- ed.,


Holt, Rinehart and Winston, Inc., Nueva York, 1968, pp. 76-84.
2. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 5.
3. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 9.
4. McCollough, C., y L. van A tta: Introduction to Descriptive Sta
tistics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, cap. 3.
5. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning
in Sociotogy, 2 ed., Houghton Mifflin Company, Boston, 1970, cap. 6.
6. Weinberg, G. H., y J. A. Schumaker: Statistics: An Intuitive
Approach, Wadsworth Publishing Company, Inc. Belmont, Cal. 1962,
cap. 3.
7. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 7.

L a nocin de la distribucin de frecuencia es ya fam iliar. El p re

sen te captulo se ocupa de u n tipo m uy im p o rtan te de d istrib u


cin de frecu en cia: la cu rv a n orm al. E sta distribucin es m uy
til, no slo p o rq u e u n gran n m ero de distribuciones em pricas
se en cu en tran se r aproxim adam ente norm ales, sino debido tam
bin a su significado terico en la estad stica inductiva. E n este
m om ento, el le c to r n o debe preo cu p arse p o r las aplicaciones en
las que se em plea la curva norm al. E n efecto, el o b jeto del p re
sen te captulo est en in d icar las propiedades de la curva en
cuestin y en fam iliarizar al lecto r con el em pleo de cuadros
basados en la m ism a. E sta distribucin se exam ina e n la esta
dstica d escriptiva m s que en la inductiva p o r dos razones p rin
cipales. P rim ero, la curva n orm al puede em plearse p a ra p ro p o r
cio n ar u n a in terp re taci n de la desviacin estn d ar. Y en segundo
lugar, sern tiles al lecto r p a ra fam iliarizarse con la distribucin
norm al algunos captulos antes de exponerse a pru eb as estad s
ticas que req u ieren facilidad en la m anipulacin de la m ism a.
P o r lo tan to , cuanto m e jo r se com prenda la m a te ria expuesta en
este captulo, tan to m enos dificultad se ex p erim en tar m s ade
lante.
V II.1. D istribuciones de frecuencias finitas versus infinitas
Las distribuciones de frecuencia h a s ta aqu exam inadas com por
tab an un n m ero finito de casos. De hecho, p o r supuesto, todas
las d istribuciones em pricas co m portan n ecesariam ente u n n
m ero fin ito de casos, aunque ta l vez m uy grande. Sin em bargo,
los m atem ticos consideran ventajoso a m enudo p en sa r en t r
m inos de distribuciones basadas en u n n m ero de casos infinita
m en te grande. Ms bien que tr a ta r con distribuciones em pricas
de aspecto anguloso, com o las que ejem plifican el histogram a
o el polgono de frecuencia, re su lta posible concebir curvas lisas
basadas en u n n m ero indefinidam ente grande de casos y sus
ceptibles de se r expresadas en trm in o s de ecuaciones m atem
ticas relativ am ente sencillas. La distribucin n o rm al es u n a de
tales curvas. Antes de exam inar esta distribucin especfica, con
v en d r e stu d ia r la n atu raleza del proceso a travs del cual se
d esarrolla u n a curva lisa sem ejante.
Em pecem os con un h istogram a que com prende cinco intervalos
(fig u ra V ll.la ) . Con fines de sim plicidad supondrem os que la
distribucin de frecuencia es sim trica. Ya vim os que si el n
m ero de intervalos au m en tab a sin cam biar N , la fo rm a del h is
to g ram a tien d e a hacerse irregular. Supngase, sin em bargo, que

104

el n m ero de casos se h a aum entado asim ism o. E n ta l caso,


com o en la fig u ra V II. Ib, ser posible serv irse de u n m ayor n
m ero de intervalos m s angostos, cada u n o de los cuales tenga
u n n m ero suficiente de casos p a ra m a n te n e r la regularidad. Si
el n m ero de casos sigue aum entando, pueden em plearse todava
m s rectngulos, conservando, con todo, el tipo reg u lar (fig.

:d f

"TTTTt-t- - ..
()

Fig. V II.L C om paraciones d e curvas lisas con histogram as de


a m plitudes diferentes de intervalo
V II.lc ). Las curvas lisas se h an trazad o p o r los p u n to s m edios
del lad o su p erio r de cada rectngulo. R esulta claro que los rec
tngulos van form ando aproxim aciones cada vez m ejores a la
cu rva lisa a m edida q u e el n m ero de los m ism os aum enta,
esto es, a m edida que dism inuye el ancho de cada intervalo.
Im aginem os ah o ra u n n m ero de casos en au m en to incesante,
con intervalos cada vez m s angostos, h a sta que los rectngulos
se aproxim en ta n ntim am en te a la curva lisa que ya n o podam os

a p reciar diferencia alguna e n tre aqullos y sta. Designam os la


curva lisa a la que se van acercando incesan tem en te los re ctn
gulos cad a vez m s angostos com o lm ite de la distribucin de
frecuencia.1 Pese a que no podam os im aginam os u n n m ero infi
n ito de casos, podem os, sin em bargo, concebir u n n m ero tan
gran d e de ellos, que los rectngulos se acerquen a la curva lisa
con el grad o de ex actitu d deseado.
Se re c o rd a r q u e el rea de cada rectngulo puede utilizarse
p a ra re p re se n ta r la pro p o rci n de casos com prendidos en el in-

Fig. V II.2. C omparacin d e las reas debajo de la curva y debajo


del rectngulo
tervalo. Como ya se indic en el cap tu lo iv, el rea to tal de to
dos los rectngulos se suele h a c e r igual a la unidad. As, pues,
si la p ro p o rcin d e los casos del p rim e r in terv alo es .10, en to n
ces dicho m ism o n m ero re p re se n ta el re a re al del p rim e r
rectngulo. O bservam os ah o ra que el rea del rectngulo co rres
p o n d ien te p u ed e ap ro x im arse al rea que q u ed a deb ajo de la
cu rv a lisa al in te rio r de cu alq u ier intervalo dado. Es lo que
indica la fig u ra VII.2. A m edida q u e el n m ero de rectngulos
au m enta, el rea to tal de los rectngulos se convierte en u n a
aproxim acin cada vez m e jo r al rea que q u ed a b a jo la curva
lisa. E sto puede verse observando que las reas ach u rad as se
van h acien d a cada vez m s pequeas. E n el lm ite, pues, el rea
d eb ajo de la curva lisa p u ed e o b ten erse sum ando las reas de
u n n m ero in definidam ente gran d e de rectngulos. Y com o quie
r a q u e el rea deb ajo d e los rectngulos es la unidad, el rea
d eb ajo de la curva lisa ser asim ism o igual a la unidad. El p ro
ceso q ue acabam os d e d escrib ir es exactam ente la clase de proce
so que se h alla en la ra m a d e las m atem ticas designada com o
clculo.
1 La nocin de lmite se examina tambin en la seccin IX.l.

VII.2. F orm a general de la curva norm al


La curva n o rm al es u n tipo especial de curva lisa sim trica.
Como q u iera q ue la curva norm al es lisa, perfectam en te sim trica
y se b asa en un n m ero indefinidam ente grande de casos, slo es
posible ap ro x im arse a la m ism a m ediante distribuciones de fre
cuencia que co m p o rtan datos efectivos. Tiene fo rm a de cam pana

y posee cierto n m e ro de propiedades m atem ticas notables, al


gunas de las cuales se sealarn brevem ente. Como q uiera q u e es
sim trica y unim odal, su m edia, m ediana y m odo coinciden. La
fo rm a general de la d istribucin n o rm al se indica en la fi
g u ra VII.3.
* L a ecuacin m atem tica de la curva n orm al es relativam ente
sencilla en las n o rm as de los m atem ticos. A unque el lecto r no
h a b r de em p lear n u n ca dicha frm ula, ya que se h an confeccio
n ad o cuadros con ta l objeto, ser til, sin em bargo, que la vea,
p a ra se alar y v erificar algunas de las propiedades de e s ta dis
trib u ci n terica. La frm ula es com o sigue:

Y = - - - - - -- - - -

- e - ( x - x ) * / 2 *

sV2jc
e n donde Y es la a ltu ra de la curva p a ra u n valor determ inado
d e X . Como q u ie ra que ta n to jt com o e son co n stan tes (iguales
resp ectivam ente a 3.14 y 2.72), la f rm u la slo com porta dos m e
didas de resum en, la m edia X y la desviacin e st n d a r s? P or
lo tan to , la fo rm a exacta de la curva n o rm al ser conocida si se
nos dan los valores de dichas m edidas. E n otros trm in o s: hay
m uchas curvas n orm ales, u n a p a ra cada com binacin d e la m edia
y de la desviacin estn d ar.
* R ecordando que u n a can tid ad afectad a de u n exponente ne
gativo pued e esc rib irse com o la recproca de dicha ca n tid a d ele2 Cuando lleguemos a la estadstica inductiva se introducir otra nota
cin para la media y la desviacin estndar. La frmula de la curva nor
mal suele escribirse en trminos de una media de i y una desviacin es
tndar de o.

vada a la p o ten cia positiva, podem os esc rib ir la f rm u la com o


sig u e :

en la que e h a sido su stitu id a p o r su valor num rico. Suponga


m os q ue el v alo r de s es fijo, y busquem os el v alo r d e X p a ra el

Fig. V II.4. C om paracin d e curvas norm ales d e igual desviacin


estndar pero d e m edias d iferen tes
cual Y ser u n m xim o. E s obvio q u e Y ser m xim a cuando
el d enom inador incluido en los p arn tesis sea m nim o. P ero dicho
den o m in ad o r co n sta de u n n m ero positivo m ay o r que la unidad
elevado a u n a p o ten cia que n o p u ed e se r negativa, ya que u n
n m ero real cu ad rad o n o puede se r n u n ca m e n o r que cero.
P o r consiguiente, el denom inador alcanzar su m nim o cuando
i exponente sea cero. Y esto o c u rrir cuando X ad o p te el valor
de X , ya que ten d rem o s X X 0. E sto m u e stra q u e el m odo
(y, p o r consiguiente, la m ed ia y la m ed ian a) es realm en te X , he
cho q ue ya se h a b a sealado, p e ro sin dem ostrarlo. Podem os
ver, asim ism o, que la ecuacin da u n a curva que es sim trica
alred ed o r de X . Como q u iera que la can tid ad X X est al cua
d ra d o y no puede, p o r consiguiente, ser negativa, las desviaciones
resp ecto de X e n u n a u o tra direccin p ro d u c irn valores idn
ticos de Y .
La ecuacin especfica p a ra to d a curva n orm al p a rtic u la r pue
de o b ten erse em pleando los valores propios de I y s. E n la fi
gura V II.4 p u ed en verse curvas n o rm ales de la m ism a desviacin
estn d ar, p ero d e m edias distin tas. P o r o tra p a rte , las curvas
de desviaciones e st n d a r d istin tas v a ria r n en la configuracin de
las cspides, ta l com o se indica en la fig u ra V II.5. C uanto m e
n o r sea la desviacin norm al, ta n to m s p u n tiag u d a re su ltar
la curva.

H a b ra q ue se a la r que no to d as las curvas sim tricas en fo r


m a de cam pana son norm ales. A unque las curvas de la figura
VII.5 difieran e n cu an to a las cspides, e sto se debe nicam ente
a diferencias en sus desviaciones norm ales. Todas ellas son n o r
m ales en cu an to a la form a. P o r regla general, las curvas sim
tric a s unim odales p u ed en ser m s o m enos puntiagudas o apla-

Fig. VII.5. C om paracin d e dos curvas norm ales d e m edias


iguales p ero con desviaciones estndar diferentes
n ad a s q u e la curva norm al, au n siendo su s desviaciones e stn
d a r las m ism as. Algunas de estas curvas pueden verse e n la
fig u ra VII.6. Las que son m s p u n tiag u d as que la n o rm al se de-

Fig. V II.6. C om paracin d e una curva norm al con curvas de su


m ism a desviacin estndar pero d istin ta s en m a n to a las cim as
signan com o leptocrticas y las m s p lan as que aqulla com o
platicrticas. A d iferencia de la curva n o rm al, las ecuaciones de
las curvas lep to c rticas y p latic rtica s tien d en a c o m p o rta r m e
didas de resum en, adem s de la m edia y la desviacin estndar.
VII.3. reas bajo la curva norm al
Con frecu en cia es n ecesario d e te rm in a r la p ro p o rci n de casos

que quedan al in te rio r de u n in terv alo dado. A fortunadam ente,


la curva n o rm al posee u n a p ro p ied ad im p o rtan te que hace que
dicha ta re a re su lte relativam ente sencilla. E n efecto, resulta
q u e in d ep en d ien tem ente de la m ed ia o de la desviacin n o r
m al que u n a curva ostente, h a b r u n rea constante (o p ro p o r
cin de casos) en tre la m edia y una ordenada, que es una distan

cia determ inada a partir de la m ed ia en trm inos de unidades


de desviacin estndar. La figura V II.7 ayuda a ilu s tra r el sen
tid o de e s ta afirm acin.
As, pues, si vam os en u n a desviacin est n d a r a la derecha
d e la m edia, en co ntrarem os siem pre .3413 del rea incluida en tre
la m edia y la o rd e n ad a en dicho punto. P or consiguiente, dos
veces dicha rea, o .6826 e sta r n incluidas e n tre las dos ordena
d a s situ ad as a u n a desviacin e st n d a r a am bos lados d e la m edia.
E n o tro s trm in o s: u n poco m s d e dos tercios de los casos se
e n c o n tra r n siem pre en el in te rio r de una desviacin estn d a r
de la m edia. Y en fo rm a anloga, el rea com prendida e n tre la
m ed ia y la o rd en ad a a dos desviaciones e st n d a r de aqulla ser
siem p re .4773 y, p o r lo tan to , u n poco m s del 95 p o r ciento del
re a e sta r co m prendido e n tre la p a re ja de o rdenadas a dos des
viaciones e s t n d a r a am bos lados de la m edia. P rcticam ente,
todos los casos esta r n com prendidos en el in te rio r de tres
desviaciones e s t n d a r de la m edia, aunque la curva n o rm al se
ex tien d a te ricam ente al in fin ito en am bas direcciones. P o r su
puesto, las d istancias de la m edia n o necesitan se r siem pre m l
tiplos exactos d e la desviacin estn d ar. M ediante u n procedi
m ien to que vam os a d escrib ir en breve, es posible d eterm in a r las
reas e n tre dos o rdenadas cualesquiera. P or ejem plo, si nos
ap a rtam o s e n 1.96 desviaciones e st n d a r a am bos lados de la
m edia, com prenderem os casi exactam ente el 95 p o r ciento del
rea, en ta n to q ue e n tre las ordenadas a 2.58 desviaciones n o r
m ales de la m ed ia q u ed ar incluido el 99 p o r ciento del rea.
E sta p ro p ied ad de la curva n orm al b rin d a u n a in terp retaci n

de la desviacin n orm al y u n m todo p a ra re p re s e n ta r en fo rm a


visual el significado de e s ta m edida de dispersin. C ierto nm ero
de distrib u cio n es em pricas de frecuencia son lo b a sta n te sem e
jan te s p a ra q ue estas relaciones e n tre las reas y la desviacin
n o rm al se verifiquen razonablem ente bien. Inclusive en el caso
de d istribuciones de ingresos, que p ropenden a disto rsio n arse en
la direccin de los ingresos elevados, encontram os norm alm ente
dos tercios de los casos en el in te rio r de u n a desviacin est n d a r
de la m edia. H ay que te n e r presente, con todo, que au n q u e la
curva n o rm al p ro p o rcio n a u n a interpretacin de la desviacin
estn d ar, esta p ro p ied ad no pu ed e em plearse p a ra d efin ir lo
que se en tien d e p o r desviacin estn d ar. L a definicin se hace
en trm in o s de la frm ula. La propiedad en cuestin slo se
verifica en el caso de distribuciones norm ales o aproxim ada
m en te tales.
R esulta posible to m a r cualquier curva n o rm al y tra n sfo rm a r
sus valores num ricos de ta l fo rm a que p u ed a utilizarse u n sim
p le cu ad ro p a ra evaluar la p roporcin de casos al in te rio r de
cu alq u ier intervalo deseado. Vam os a ilu s tra r este proceso p o r
m edio de u n ejem plo num rico. Supongam os que tenem os u n a
cu rv a n o rm al con u n a m edia de 50 y u n a desviacin est n d a r
de 10. B usquem os la pro p o rci n de los casos en el intervalo de
50 a 65. E m pezam os p o r d eterm in a r a cuntas desviaciones es
t n d a r se h alla 65 de la m edia 50. P ara ello tom am os la diferencia
e n tre estos dos valores, esto es, 15, y dividim os e n tre la m agnitud
de la desviacin estn d a r. E n el p re sen te caso el re su ltad o es
1.5. De m odo general podem os servirnos de la f rm u la:
X -X
Z = -----------s
10

en donde X es el valor de la ord en ad a y Z re p re se n ta la desvia


cin con resp ecto a la m ed ia en unidades d e desviacin estn d ar.
* Antes de ex am inar cm o p u ed e u tilizarse el valor num rico
d e Z p a ra d eterm in a r la pro p o rci n de los casos e n tre la m edia
y la o rd en ad a co rrespondiente a Z, perm tasen o s d a r u n a in te r
p retaci n altern ativ a de sta. Podem os p e n sa r en trm in o s de
u n a tran sfo rm aci n efectiva de la variable X en la variable Z.
E n ta n to q u e la d istribucin d e la variable X es n orm al con una
m ed ia de X y u n a desviacin e st n d a r de s, la nueva variable,
en cam bio, es n o rm al con u n a m edia de cero y u n a desviacin
e s t n d a r de uno.8 E sta desviacin con u n a m edia cero y u n a
3 La verificacin de este hecho se deja como ejercicio (vase ejercicio 3).

desviacin e s t n d a r de uno se designa com o fo rm a estndar, y


la Z se designa a m enudo com o la marca. La tran sfo rm aci n de
variables se ilu s tra en la figura VII.8. S ustraem os de cada X la
co n stan te X . Al s u s tra e r este valor co n stan te (aq u 50) de cada
X , hem os co rrid o cada m arc a original en 50 unidades a la izquier
d a y, p o r lo tan to , hem os desplazado efectivam ente la curva

Fig. VII.8. C om paracin de las fo rm a s estndar y general de la


curva norm al
n o rm al original a u n a posicin d irectam en te sobre el origen.
E sto tien e en cu en ta el n u m era d o r en la expresin d e Z. Divi
dim os ah o ra cad a diferencia X X e n tre la m ag n itu d d e la des
viacin estn d a r. Al hacerlo, o estrecham os la curva o la ensan
cham os, segn que su desviacin e st n d a r sea o n o m ayor que
la un id ad . Podem os, pues, p e n s a r que hem os desplazado prim e
ro la posicin d e la curva n orm al original y q u e luego hem os
cam biado la m ag n itu d de la desviacin estn d a r, de m odo que
quede so b re la fo rm a estn d a r. Al dividir e n tre la desviacin es
t n d a r de 10, hem os cam biado esencialm ente las unidades a lo
larg o del e je horizontal, d e m odo que u n a distancia de 10 sobre
el eje de X co rresponde a la d is ta n d a de 1 sobre el e je de Z.
In d ep en d ien tem en te de la in terp re taci n que se d, un valor
de Z = 1.5 in d ica que la o rd e n ad a se en c u en tra a 1.5 desviaciones
e st n d a r de la m edia. E n el caso de la fo rm a estn d a r, esto sig
nifica, p o r supuesto, que la o rd e n ad a m ism a coincide con el va
lo r 1.5 de la escala Z. Se h a n co n stru id o tablas que m u estran
reas exactas p a ra la fo rm a e st n d a r d e la cu rv a norm al. El
cu ad ro C del A pndice 2 es u n a de ellas. Los valores de Z se dan
de a rrib a a b a jo en el m argen izquierdo, y horizontalm ente arrib a.
Los dos dgitos de Z se o btienen leyendo de a rrib a abajo, y el
terc ero leyendo horizontalm ente. L as cifras del cuerpo del cua
d ro indican la p roporcin del rea e n tre la m edia (o sea cero)
y la o rd e n ad a co rresp o n d ien te a Z. E n el ejem plo an terio r, ve
m os que se hallan contenidas e n dichos lm ites las .4332 del rea.
Si Z h u b iera sido 1.52, el rea co rrespondiente h a b ra sido .4357.

VII.4. Ilustraciones suplem entarias del em pleo de la tabla norm al


Supongam os que querem os h a lla r el rea ach u rad a de la curva
norm al indicada en la fig u ra VII.9. E n este caso el valor de Z e s :
143 - 168

-25

12

~12~

= -2 .0 8

El hecho de que Z sea negativa indica sim plem ente que el rea
ach u rad a se sit a a la izquierda de la m edia. Al u tilizar la tabla

F ig .

VII.9. Curva norm al, con porcin achurada representando


el rea en una sola cola

norm al, el signo de Z puede ignorarse, ya que la curva es p e r


fectam ente sim trica. Del cu ad ro vem os que el rea com pren
dida e n tre la m edia y u n a Z de 2.08 es .4812. Como quiera que
el rea to tal es la unidad, el rea a la izquierda de la m edia h a
de se r .5 (p o r sim etra). P or consiguiente, el rea ach u rad a puede
o b ten erse re sta n d o el rea com prendida e n tre la m edia y la
o rd en ad a del rea to ta l a la izquierda de la m edia. As, p u e s :
(P ro p o rcin de casos ^ 143) = .5000 .4812 = .0188
P or lo tan to , m enos del 2 p o r ciento de los casos tienen m arcas
in ferio res o iguales a 143.4 El tipo de problem a ilustrado en este
ejem plo es m uy co rriente, debido al hecho de que las com pro
baciones d e hiptesis casi siem pre com prenden las colas de u n a
d istrib u ci n de frecuencia. Si hubiram os qu erid o h allar el rea

4 En una distribucin continua, la proporcin de los casos que sean exac


tamente 143.0 ser cero. Esto puede verse si imaginamos dos ordenadas
extremadamente prximas una de otra. La proporcin de casos entre estas
dos ordenadas ser tambin muy pequea. Y si a continuacin dejamos
que las dos ordenadas se vayan aproximando indefinidamente, la propor
cin de los casos se har infinitamente pequea. Recurdese que la lnea
matemtica no tiene grueso. En la prctica podr haber algunos casos con
marcas de 143.0, debido a defectos de medicin. Sin embargo, como quiera
que estamos tratando de una distribucin terica, no importa que la orde
nada ella misma se incluya o no en el intervalo. En adelante, nos referi
remos simplemente al rea entre dos ordenadas (pero sin comprender a
stas), o rea inferior a un valor dado.

to ta l fu e ra de la regin definida p o r 168 25 (com o la indican las


re a s ac h u rad a s de la fig u ra V II.10), h ab ram o s doblado simplem e n te el re su lta d o an te rio rm e n te obtenido, ya que las dos reas
ac h u rad a s son exactam ente del m ism o tam ao.
P a ra to m a r o tro ejem plo, supongam os q u e necesitam os obte
n e r el rea a c h u rad a indicada e n la fig u ra V I I .ll. E s ta rea se

Fig. V II.10. C urva norm al, con porciones achuradas presentando


reas en am bas colas
calcu la h allan d o p rim ero la p ro p o rci n de casos e n tre la m edia
y la o rd e n ad a B y su strayendo luego la p roporcin de casos e n tre
la m ed ia y la o rd e n ad a A. Las Z co rrespondientes a B y A son
re sp ectiv am en te 2.0 y 1.2. Tenem os, p u e s:
P rop o rci n e n tre B y la m ed ia
P rop o rci n e n tre A y la m ed ia
P roporcin e n tre A y B

.4773
.3849
.0924

P o r consiguiente, ligeram ente m s del 9 p o r cien to d e los casos


q u ed a n e n tre .42 y .46. O bsrvese que si se h u b ie ra deseado obte-

Fig, V I I .ll. Curva norm al con porcin achurada, representando


el rea entre d o s ordenadas
n e r el re a e n tre o rdenadas a am bos lados de la m edia, el resu l
ta d o se h a b ra obtenido m s fcilm ente p o r adicin que p o r
su stracci n .

G losario

Leptocrtico
Distribucin de frecuencia lmite
Curva normal
Platicrtico
Marca estndar
E jercicios

1. Ya se calcularon la media y la desviacin estndar de los datos del


ejercicio 1, captulo iv. Cul fue la proporcin de los casos dentro
de una desviacin estndar de la media? Al interior de dos desviacio
nes estndar? De tres desviaciones estndar? Con cunta aproxima
cin corresponden dichas cifras a las que encontraramos si la distri
bucin fuese exactamente normal? Contstese a las mismas preguntas
en relacin con el ejercicio 2, captulo iv. Comprense y expliqense
las diferencias entre los resultados de los dos grupos de datos.
2.
Si la media de una distribucin normal es de 80 y su desviacin
estndar de 12,
a) Qu proporcin de casos se halla entre 80 y 93? Respuesta, .3606.
b) Qu proporcin de casos se halla entre 90 y 105? Entre 70 y 105?
Respuesta, .1838.
c) Qu proporcin de casos es inferior a 68?
d) Cuntas desviaciones estndar se necesitaran a ambos lados de
la media para obtener dos colas que comprendan cada una el 2
por ciento exactamente del rea total? El 10 por ciento del rea
total? Respuesta, 2.054.
ej Cul m arca tiene por encima de ella el 4 por ciento de los casos?
(en otros trminos, sitese la percentil 96).
* 3. Verifiqese que la form a estndar de la curva normal tiene una
media de cero y una desviacin estndar igual a la unidad. (Indica
cin: vuelva a escribirse la frmula de la curva normal en trminos
de Z, aprovechando el hecho de que Z = (X X)/ s. )
4.
Las calificaciones primarias de diversas pruebas de aptitud y
actitud son tratadas a menudo por los psiclogos como escalas de
intervalo. Dichas calificaciones suelen a menudo convertise luego
en calificaciones estndar con medias y desviaciones estndar conve
nientes. Supngase que la calificacin media prim aria en un examen
de admisin en la universidad es de 117 con una desviacin estndar de
28.5. Supngase, adems, que esas calificaciones primarias estn dis
tribuidas normalmente.
a) Cul es la proporcin de calificaciones por encima de 131? De
bajo de 79?
b) Cules son las calificaciones primarias correspondientes a los
cuartiles primero, segundo y tercero?
*c) En los exmenes de la universidad, las calificaciones primarias
se normalizan de modo que la media de la distribucin normal

sea exactamente de 500 y la desviacin estndar de 100. Concre


tamente, cmo se norm alizarn los grupos de datos anteriores
para obtener una meda de 500 y una desviacin estndar de 100?
(Indicacin: cmo se normalizara para obtener una media
igual a cero y una desviacin estndar igual a la unidad?)
B ibliografa

1. Downie, N. M., y R. W. H eath: Basic Statistical Methods, 2 ed.,


Harper and Row, Publishers, Incorporated, Nueva York, 1965, cap. 6.
2. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 14.
3. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning
in Sociology, 2 ed., Houghton Mifflin Company, Boston, 1970,
cap. 6.
4. Weinberg, G. H., y J. A. Schum aker: Statistics: An Intuitive Approach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962,
cap. 8.
5. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons, Inc.,
Nueva York, 1968, pp. 147-156.

T ercera P arte

E S T A D S T IC A IN D U C TIV A

E l objeto de este breve captulo est en d a r u n b osquejo genera l de la estad stica inductiva y, en p artic u la r, de los razo n a
m ien to s que se h allan a la base de la verificacin de las h ip
tesis estadsticas. E s m u y fcil verse ta n ab ru m ad o p o r ios
detalles de cad a p ru e b a p a rtic u la r en co n trad a, que re su lte im
posible p e rc ib ir las sem ejanzas q u e to d as ellas tien en en co
m n. E n ta l caso, el aprendizaje de la estad stica p u ed e con
v ertirse fcilm ente en u n ejercicio de "re c e ta rio co n sisten te
e n a p re n d e r de m em o ria las frm ulas y los p rocedim ientos. P o r
ello este captulo es m uy im p o rtan te y deb era releerse a te n ta
m en te u n a vez que el le c to r haya visto las dos o tres p rim e ra s
p ru e b as especficas.1
V III.l. E sta d stica y parm etros
E l o b jeto de las generalizaciones estad sticas est en decir algo
acerca de diversas ca rac te rstic as de la poblacin estu d iad a, so
b re la b ase de h echos conocidos a p ro p sito de u n a m u e s tra sa
cad a de dicha poblacin o universo.2 D esignarem os las c a ra c te
rsticas de la poblacin com o parm etros, en c o n tra ste con las
carac te rstic as de la m u estra, que se designan com o estadsticos.
A estas altu ras, el le c to r est ya fam iliarizado con cierto n m ero
de p arm etro s y e stad sticas: m edias, m edianas, proporciones,
desviaciones estn d a r, etctera. Llegado aqu, el le c to r d eb era
h ac er u n a distincin p recisa e n tre las carac te rstic as q u e se re
fieren a la poblacin y las que se refieren a la m u estra. P a ra de
sig n ar las p rim eras suelen p o r lo re g u la r em plearse las le tra s del
alfab eto griego, e n ta n to que las le tra s latin as designan las carac
te rsticas de la m u estra.3 As, pues, en ad elan te designarem os la
m ed ia de la poblacin con jx, y la de la m u e stra con X ; la desvia
cin e st n d a r de la p rim e ra con a, y la de la m u e stra con s.
P uede establecerse u n a distincin im p o rta n te e n tre p a r m e tro s
y estadsticas. E n efecto, los p arm etro s son valores fijos re fe
rid o s a la poblacin y, p o r lo regular, no se conocen.4 As, p o r

1 Un momento muy adecuado para la nueva lectura ser despus del ca


ptulo XI.
2 Los trminos poblacin y universo ( universe ) suelen ser intercambiables,
en la literatura estadstica.
8 Por desgracia, esta regla comporta cierto nmero de excepciones,
4 Los parmetros se tratarn siempre como fijos, aunque en realidad pue
dan variar con el tiempo. As, por ejemplo, la edad promedio de una po
blacin variar de un momento al prximo. Por ello deber entenderse la
nocin de muestras repetidas en trminos de un gran nmero de muestras
sacadas simultneamente, y no en secuencia temporal. En muchas ocasio119

ejem plo, en cualquier m om ento dado, la edad o el grado prom e


dios de todos los estu d ian tes de la U niversidad de H arvard p u e
den no conocerse, p ero se h allarn probablem ente ser los m is
m os p a ra todos los observadores. Las estadsticas varan, por
o tra p arte, de u n a m u estra a otra. Si se escogieran al azar 10
m u estras d iferentes de estudiantes universitarios, no esperara
m os que todos ellos p re sen tara n exactam ente las m ism as edades
prom edios. Es m s, desconfiaram os si fu e ra as. A diferencia
de los p arm etro s, los valores de las estad sticas de uria m u estra
d eterm in ad a se conocen o pueden calcularse. P ero no sabem os,
sin em bargo, c u n rep resen tativ a sea la m u estra en relacin con
la poblacin, o h asta qu pu n to la estadstica o b ten id a se aproxi
m e al p a r m e tro desconocido com parable.
Lo que nos in tere sa efectivam ente es la poblacin, y n o en una
m u estra p a rtic u la r cualquiera. E n efecto, escogem os u n a m u estra
p o r razn de conveniencia, p ero n u e stro objetivo consiste p r cti
cam ente siem pre en sacar conclusiones a p ro p sito de diversos
p arm etro s de la poblacin; sobre la base de estadsticas de
m u estras conocidas, sin duda, p e ro sin im p o rtan cia en s m ism os.
E n las verificaciones de hiptesis form ulam os supuestos a p ro
p sito de los p arm etro s desconocidos, y preg u n tam o s a conti
nuacin cm o seran n u estras estadsticas especficas si dichos
supuestos fu e ran correctos. Al p ro ced er as, trata m o s de decidir
racionalm ente si los valores supuestos de dichos p arm etro s son
o n o razonables a la vista de la evidencia de que disponem os.
P o r lo tan to , la verificacin de hiptesis puede considerarse como
u n a fo rm a especial de proceso de decisin. Como q uiera que los
raciocinios q ue se hallan a la b ase de las hiptesis son m s bien
com plejos, no e s ta r p o r dem s exam inarlos aqu brevem ente. E n
captulos sucesivos verem os cm o se aplican a las verificaciones
especficas.
VIII.2. Pasos en la verificacin de una hiptesis
E n ciencias sociales el trm in o de hiptesis se em plea en cierto
n m ero de sentidos distintos. A veces se utiliza p a ra designar
u n a proposicin te rica que p re sen ta alguna re m o ta posibilidad
de verificacin indirecta. O tras veces, en cam bio, se em plea p a ra
designar el tip o de afirm acin que puede efectivam ente com pro
b arse estadsticam ente. Con o b jeto d e re d u c ir la confusin ser,
pues, conveniente in d icar cm o se em plea el trm in o en este
texto. Los criterios utilizados p a ra definir lo que debam os en-

nes, nuestro objetivo cientfico consiste en realidad en deducir la naturaleza


de los procesos causales que dan origen a los valores de poblacin, los que
suponemos son fijos. Al estudiar estadstica parece sin embargo prudente
limitarse inicialmente al concepto ms simple de generalizacin de poblacio
nes fijas.

ten d er p o r verificacin de u n a hiptesis son m s bien estricto s


y d escartaran m uchas de las llam adas "p ru eb as que se encuen
tra n en la lite ra tu ra co rrien te en m ateria de ciencias sociales. Sin
em bargo, son adecuados a los requisitos m s b ien rgidos estable
cidos p o r los estadgrafos. E n cuanto tales, en efecto, rep resen
ta n u n ideal con referencia al cual puede com pararse el carcter
adecuado o inadecuado de cualquier com probacin real.
La hiptesis es u n enunciado acerca de un acontecim iento fu
tu ro , o de u n acontecim iento cuyo resu ltad o se desconoce e n el
m om ento de la prediccin, form ulado de m odo que pueda descar
tarse. 0 en trm inos m s precisos, digam os que se h a com pro
b ad o u n a hiptesis cada vez que se h an efectuado los siguientes
p asos:
1. Todos los re su ltad o s posibles del experim ento u observacin
se h an anticipado a la verificacin.5
2. Se h a llegado a u n acuerdo, antes de p ro ced er a la verifica
cin, acerca de las operaciones o procedim ientos a em p lear e n la
determ inacin de cules resultados se p ro d u c a n efectivam ente.
3. Se h a decidido previam ente cules de los resultados im plica
rn, caso de pro d ucirse, el d escarte de la hiptesis y cules su
confirm acin. Como re su lta de lo indicado m s arrib a, el d escarte
h a de h ab erse ten ido en cuenta com o u n o de los resultados po
sibles.
4. Se h a efectuado el experim ento, o se h a observado el acon
tecim iento, se h an reg istra d o los re su ltad o s y se h a decidido si la
hiptesis quedaba o n o descartada.
Los p asos que se acaban de e n u m erar son m uy generales. La
induccin estad stica tiene que ver an te to d o con los pasos 3 y 4,
ya que el estadgrafo h a de suponer que los dos p rim ero s pasos
se h a n efectuado ya. T endrem os ocasin de ver en qu fo rm a
los dos ltim os pasos se hacen m s especficos en u n a com proba
cin estadstica. Tal vez lo m s significativo de la lista an terio r
es el de que to d as las decisiones deben se r tom adas antes de reali
zar la pru eb a. Todos los resultados posibles se dividen en dos cla
ses, a sa b e r: los que co m p o rtan d escarte y los que no. Si eso no
se h ace con a n terio rid ad a la prueba, re su lta posible re te n e r u n a
hiptesis cam biando sim plem ente las reglas a m edida que se avan
za. E sto equivale a lo m ism o que lo que h a ra u n nio que ech ara
a c a ra o cruz p a ra decidir si va o n o al cine. ste decide, en efec
to, "cara, v o y ; cruz, n o voy. Si sale c a ra va al cine. P ero si sale
cruz, decide h acer depender el xito de dos cara o cruz sobre tres
y sigue echndolos. E n e sta fo rm a acaba siem pre yendo al cine,
a m enos que p ierd a la m oneda (resu lta d o que n o h ab a antici
p ad o ).

5 El trmino experimento lo emplea el estadgrafo en un sentido muy am


plio. Un experimento puede consistir, por ejemplo, en interrogar a un ama
de casa y anotar el "s o el "no a una pregunta concreta.

*
Ya se indic en el captulo n que la p ru e b a slo puede h a
cerse acerca d e u n a proposicin fo rm u lad a en conceptos que se
hay an definido operativam ente. El p aso 2 indica que h ay que po
n erse de acuerdo, con an terio rid ad a la pru eb a, acerca de las
definiciones o perativas. A m enos que sea as, re s u lta siem pre
posible re te n e r u n a hiptesis, independientem ente del re su lta
do, d escartan d o los m todos em pleados. S upngase que alguien
enuncia com o hiptesis suya que cu an to m s elevada sea la
posicin social de u n a persona, ta n to m enos p ro b ab le ser que
sea m uy e tn o c n trica. Si los resu ltad o s n o co nfirm an esta pro
posicin, p o d r alegar que la m edida "posicin social o "etno'cen trism o n o m ed a lo que se la supona m edir, y q u e algn o tro
ndice (q u e confirm e su teo ra ) es m s adecuado. As, pues, p a
rece p referib le re se rv a r el trm in o de h iptesis p a ra designar
enunciados q ue se hallen al nivel operativo y p u ed an d escartarse
fran cam en te. E n efecto, si n o se puede llegar de antem ano a
u n acu erd o acerca del procedim iento, es difcil que se produzca
acu erd o a p ro p sito d e los resultados. Como ya se indic en el
captulo II, este p u n to de v ista no niega, con todo, la im p o rtan cia
de la teo ra, n i im plica que las definiciones operativas sean las
nicas n ecesarias p a ra el desarrollo de la ciencia.
El te rc e r p aso es crtico, y a que la decisin que se adopte
c o m p o rtar p o r lo re g u la r ciertos peligros de erro r. E n algunos
casos el p ro b lem a es relativ am en te sencillo. N o todas las verifi
caciones de las hiptesis re q u ie ren induccin. E n efecto, puede
fo rm u larse u n a hiptesis a p ro p sito del re su ltad o de u n acon
tecim iento concreto, tal, p o r ejem plo, u n p a rtid o de ftbol. Po
dem os p red ecir, p o r ejem plo, que el equipo A g an ar al equipo B .
A condicin que existan criterio s p a ra d eterm in a r si los proce
dim ientos acordados se h an seguido adecuadam ente o no, las
pro b abilidades de e r ro r en cu an to a decidir si h ay que d esc artar
o no sem ejan te tip o de hiptesis son escasas. Sin em bargo, si la
inform acin se basa en u n a m u e stra de acontecim ientos sacado
de u n a poblacin m ayor, existe m ay o r riesgo de erro r. E n efecto,
d escartam o s o dejam os de d e sc a rta r la hiptesis dndonos cuen
ta de que, ya que n u e stro ju icio slo se b asa en u n a m u estra,
hem os de a d m itir siem pre la posibilidad de e r ro r debida a la
fa lta de c a r c te r suficientem ente rep resen tativ o del m ism o. Es
la teo ra de las probabilidades la que nos p e rm ite a p re c ia r los
riesgos de e r ro r y tom arlos en consideracin al decidir acerca
de los criterio s que hay que em p lear p a ra d e sc a rta r las hipte
sis. E n las prxim as secciones se exam inarn dos tipos d e e r ro
re s posibles. Podrem os luego volver a la cuestin del papel que
juega la estad stica en las verificaciones de las hiptesis in
ductivas.

V III.3. La falacia de afirm ar el consecuente


A m en u d o n o existe m an era alguna de v erificar n u e stra s p ropo
siciones o teo ras m s im p o rtan tes. E n lu g ar de ello, extraem os
de sas u n a serie de consecuencias que d eberan p ro d u cirse si la
proposicin o teo ra original fuese cierta, y es la validez de estas
consecuencias la que se d eja d eterm in a r p o r m todos em pricos.6
As, pues, la p ru eb a de la teo ra original es indirecta. La teo ra A
im plica determ inadas consecuencias B , o bien, en fo rm a sim b
lica, A = > B. H ay que recalcar que, al p a s a r de A a B , se em
plea m s bien el razonam iento lgico o deductivo que la p ru e b a
em prica. P o r consiguiente, si A es cierto, B lo h a de se r tam bin,
a condicin que n u e stro razonam iento al deducir A de B sea
vlido. Vemos luego si B se h a p roducido o n o ; si B n o se h a
p ro d u cid o (B falso), entonces sabem os tam bin que la teo ra A
h a de se r falsa asim ism o.
P ero, qu o cu rre si B re su lta se r cierto ? Podem os decidir
q ue A deba serlo asim ism o? No. Si lo hacem os, com etem os la
falacia de afirm a r el consecuente, com o los lgicos aco stu m b ran
llam arlo. Si B es cierto, podem os decir que A puede se r cierto,
p ero p o d ra h a b e r o tro n m ero cualquiera de teoras altern ativ as
q u e im plicaran tam bin B. N o podem os e sta r seguros de que A
sea necesariam ente cierto, a m enos que podam os d em o strar que
n o existe o tra teo ra altern ativ a vlida C p a ra la cual C = y B .
P o r desgracia, no estam os p rcticam en te n u n ca en condiciones
de hacerlo, y p o r ello m s bien hem os de p ro ced er p o r elim ina
cin de teoras que p o r su aceptacin definitiva. La b u en a teo ra
es la que no se d eja elim inar, a condicin, p o r supuesto, que se la
enuncie en fo rm a que se deje elim inar.7 En o tro s trm in o s:
h a de co nducir hiptesis que se dejen elim in ar ellas m ism as.
Si dejam os de d e sc a rta r A cuando B es cierto, correm os riesgo
d e equivocarnos, y a q u e A puede en re alid ad ser falso. E n esta
dstica, ese tip o de e rro r, o sea el error de no descartar una hi
p tesis efectiva m ente falsa, se designa com o error de tipo I I o (3.
Tal vez u n sencillo ejem plo h a r que el razonam iento an terio r
se p re sen te com o m enos abstracto. Supongam os que tenem os
u n a te o ra A que co n sta de las tre s proposiciones sig u ien tes: 1)
to d as las p ersonas se conform an a las n o rm as de su sociedad;

En rigor este enunciado no es totalmente exacto, ya que una teora pura


mente deductiva no conduce directamente a hiptesis comprobables. Va
se [21.
f El papel del experimento crtico est en poner al cientfico en condicio
nes de escoger entre varias teoras alternativas cada una de las cuales ha
resistido previamente a la eliminacin. As, por ejemplo, las teoras A y A'
pueden predecir ambas los acontecimientos Bv B2, ..., Bk, todos los cuales
se producen. Pero A puede predecir que Bk+1 es cierto, en tanto que A'
sostenga que ser falso. Si BJe+l es efectivamente falso, entonces A puede
eliminarse, y retenerse, de momento. A'.

2) u n a n o rm a de la sociedad X es la de n o ro b a r; y 3) Jones es
m iem b ro de la sociedad X . Si to d as las p a rte s de la teo ra son
co rrectas, podem os ded u cir B, que Jones n o ro b a r. Supngase
que p o r alguna o tra razn n o estam os en condiciones de verifi
ca r d irectam en te lo c ierto o falso de A, p e ro que estam os en con
diciones, e n cam bio, de averiguar la co n d u cta de Jones. Es obvio
q ue si Jo nes roba, la teo ra h a de se r in co rrecta, p o r lo m enos
en p arte . E n consecuencia, si B es falso, descartam os
Pero,
si sabem os q ue Jones n o roba, n o p o r ello decidirem os que la
teo ra sea cierta. Tal vez Jones sea sim plem ente m s honrado
que los otro s. O tal vez ni siquiera sea m iem bro de la sociedad
X . E n sem ejan te caso, si furam os a a c e p ta r la teo ra com o co
rre c ta , co rreram os u n riesgo considerable de erro r. Llegaram os
p ro b ab lem en te a la conclusin de que, au n q u e el individuo p a r
ticu lar en cuestin sea honrado, haram os m e jo r en suspender
n u e stro juicio.
E l ab su rd o del ejem plo a n te rio r n o h a de o scu recer el pu n to
cap ital de que, siem pre que tengam os u n a te o ra que im plica
d eterm in ad as consecuencias y que stas, p e ro n o as aqulla, sean
susceptibles de verificacin, nos en co n tram o s e n la posicin l
gica de p o d er d esc artar la teora, en ta n to que n o podem os acep
tarla, en cam bio, sin c o rre r el riesgo de equivocam os.
V III.4. La fo rm a de las hiptesis estadsticas
E n ciencias sociales no encontram os proposiciones p o r el estilo
d e la del ejem p lo an terio r, p o r la sencilla razn de que las te o
ras acerca del m u n d o real no im plican certid u m b re. E n lugar
de co n sid erar q u e si A es cierto B ha de serlo asim ism o, sostene
m os solam ente que si A es cierto B lo ser probablem ente tam
bin. Tenem os as q u e a c e p ta r la posibilidad de que B sea falso
incluso cu an d o A es verdadero. P ero si seguim os la reg la de des
c a rta r A siem p re que B sea falso, correm os el riesgo de com eter
o tro erro r, esto es, el de descartar una hiptesis cierta. Desig
nam os esta clase de e rro r com o error de tipo I o a. Sirvindonos
del ejem plo a n terio r, n u estra s proposiciones h a b r n de m odifi
c a rse en el sen tido de d ecir: "la m ayora de los individuos se
conform an a las n o rm as de su sociedad y probablem ente Jones
n o ro b a r". Si Jones roba, descartam os la teo ra revisada con
cierto riesgo de e rro r, ya que p u ed e con todo se r cierta, porque
es posible que Jo nes sea u n o de los pocos m iem bros n o honrados.
As, pues, existen dos tipos de e rro r que h ay que te n e r en
cuenta. El p rim e ro que exam inam os (el tip o I I ) procede de la
falacia p u ra m e n te lgica consistente en a firm a r el consecuente.
Y cuando in tro d ucim os elem entos de p ro b a b ilid ad en n u estra
teora, entonces adm itim os u n tip o adicional de e r ro r (el tipo I).
Aunque h a s ta el p re se n te n o hayam os dicho n ad a todava a p ro

p sito del razonam iento inductivo en c o n tra ste con el deductivo,


se debe a la necesidad de generalizar m s all de los lm ites de
los dato s que se poseen el que debam os servim os de sem ejantes
enunciados de pro babilidad.
Q u fo rm a especfica ad o p tan las hiptesis estadsticas? A
q u se p arecen el A y el B? En realidad, la teo ra A co n sta de
cierto n m ero de supuestos acerca del c a r c te r de la poblacin
y de los procedim ientos relativos a la seleccin de m uestras,
ju n to con el razonam iento m atem tico necesario p a ra fo rm u lar
enunciados de p ro b ab ilid ad a p ro p sito de la de los resu ltad o s
p a rtic u la re s de la m u estra, si los supuestos adoptados son efec
tiv am en te ciertos. P o r m edio de estos enunciados de probabili
d ad decidim os con an terio rid ad al tiem po cules resultados son
ta n probables, que descartaram os los supuestos A si estos resul
tad o s B no se p ro d u jeran . R azonam os, en efecto, en el sentido
de que, si los supuestos son correctos, los resultados de n u estras
m u estras qu ed arn la m ay o r p a rte del tiem p o d en tro de u n de
term in ad o re co rrid o de resultados. P o r supuesto, slo extraem os
u n a m u estra, p ero si n u e stro resu ltad o p a rtic u la r cae fu e ra del
reco rrid o , en lo que se denom ina regin crtica, rechazarem os
los supuestos, co rrien d o el riesgo de co m eter u n e rro r tip o I.
As, pues, el B est re p resen ta d o p o r cierto re co rrid o de resu l
tad o s de m u estras. Si los resultados quedan fu e ra de dicho re
corrido, entonces B es falso y la hiptesis se descarta. Al decidir
la extensin del re co rrid o a in clu ir b a jo B, hem os de to m a r en
co nsideracin (id ealm en te) los riesgos de erro re s de los tipos
I y II.
P ara ilu s tra r el proceso, supongam os que deseam os co m p arar
m u estras de em pleados d e oficina y de o b rero s de ta lle r en rela
cin con el p o rc en taje de ellos que desean p a ra sus hijos ense
anza un iv ersitaria. Si querem os realm en te d em o strar que existe
u n a diferencia e n tre dichos dos grupos, procedem os tra ta n d o
de elim in ar la h iptesis altern ativ a de que n o existe diferencia
alguna. E sto p arece c o n stitu ir u n a m a n e ra de p ro ced er extre
m ad am e n te in d irecta, p e ro hem os de re c o rd a r que no estarem os
en condiciones de d e m o stra r directam ente que s hay diferencia.
Con o b jeto de ev itar la falacia de afirm a r el consecuente, hem os
de p ro c ed er a la elim inacin de las falsas hiptesis. E n el p re
sen te caso slo existen lgicam ente dos posibilidades : o hay
d iferen cia o no la hay. Si la segunda posib ilid ad se d eja elim i
n ar, entonces podem os concluir que existe efectivam ente alguna
diferencia.
E stablecem os, p o r consiguiente, la hiptesis de que el porcen
ta je q u e desea la enseanza u n iv ersitaria es el m ism o en am bos
grupos o poblaciones. Podem os a co ntinuacin d e m o stra r m ate
m ticam en te que, en el 99 p o r ciento d e todos los p ares posibles
de m u estras, las diferencias e n tre las dos series de po rcen tajes

seran in feriores al 10 p o r ciento si ios supuestos fueran efecti


va m en te ciertos. E n o tro s trm in o s: B consta de diferencias de
m u estras q ue son inferiores al 10 p o r ciento. Y si realm ente no
existen diferencias e n tre am bas poblaciones, es su m am ente p ro
b ab le que los p o rcen tajes correspondien tes a las dos m u estras
caern d en tro del 10 p o r ciento u n o de otro . Puede, en conse
cuencia, d ecidirse que, si la diferencia e n tre los po rcen tajes de
las m u estras re su lta se r del 10 p o r ciento o m s, los supuestos
A h a n de d escartarse. E sto se hace a sabiendas de que en el 1 p o r
ciento de las veces u n a d iferencia de e sta m agnitud o cu rrir aun
siendo A cierto. E n o tro s trm inos, el riesgo de in c u rrir en u n
e rro r de tip o I (el de d e sc a rta r u n a hiptesis co rrec ta ) ser de
u n a p ro b ab ilid ad sobre ciento.
Volvamos ah o ra a la lista original de pasos necesarios en la
verificacin de las hiptesis. Ya se seal que la induccin esta
dstica se ocu pa bsicam ente de los pasos 3 y 4. El investigador
an ticip a todos los re su ltad o s posibles de las m u estras y los di
vide en dos c la se s: aquellos resp ecto de los cuales puede descar
ta r sus hip tesis y aquellos resp ecto de los cuales no puede
descartarlas. E n realidad, lo que hace la estad stica es p ro p o r
cio n ar los crite rio s a u tilizar en la divisin de los resultados en
dos clases. E stos resu ltad o s se ponen en u n a u o tra de las dos
clases, de conform idad con los riesgos que se est dispuesto a
asu m ir en cu an to a in c u rrir en los e rro res de tipos I y II. La
m ayor v e n ta ja de los procedim ientos estadsticos con respecto
a los m todos intuitivos est en el conocim iento que proporcio
n an acerca d e esos riesgos de erro r.
E xpuesta en esta form a, la estad stica n o parece valer m ucho
la p en a de p reo cu p arse p o r ella. Sin em bargo, el p aso 3 n o r e
su lta n ad a fcil d e efectu ar con o tro m to d o cualquiera. Im a
gnese, p o r ejem plo, u n experim iento consistente e n e c h ar 25
cara o cru z con u n a m oneda cuya b u en a m an u fa ctu ra se pone
en en tredicho. Supngase que tra ta m o s de d ecid ir acerca d e los
resu ltad o s que, en caso d e producirse, d aran lu g ar a que llam
ram o s la atencin a la p erso n a que echa los ca ra o cruz D escar
taram o s la hiptesis de q u e el ca ra o cruz es co rrecto si salieran
m s de 15 caras?, m s de 18?, o slo si la m ita d de los cara
o cruz d ieran c a ras? ; si se d ieran 10 caras consecutivas, in d e
p en d ien tem ente de los dem s resu ltad o s? La te o ra de las p ro b a
bilidades nos p erm ite a p reciar el n m ero de ellas que existen de
o b ten er cu alq u ier com binacin de resultados e n el supuesto
de que la m oneda fuese co rrecta. As, pues, escogerem os aque
llos resu ltad o s que, en dicho supuesto, seran p rcticam en te im
probables.
No se esp era en m odo alguno que el estu d ian te q u e se en fren ta
p o r p rim e ra vez con la induccin estad stica com prenda en p ri
m era lectu ra to d o lo que se acaba de decir acerca de los razona

m ientos relativos a la verificacin de las hiptesis. R econoce


m os, en efecto, q ue el proceso es com plicado y uno de los que
p arece n p ro p o rcio n ar a los estu d ian tes m s dificultades que cual
q u ier o tra p a rte de la estadstica. De ah que el estu d ian te deba
h acer u n esfuerzo especial p a ra co m p ren d er dichos razonam ien
tos buscan d o las analogas bsicas con los m ism os e n tre to d as las
p ru e b as estadsticas. U na vez que la lgica subyacente se haya
p en e trad o a fondo, el aprendizaje d e la estad stica se sim plifica
considerablem ente.

Glosario
Hiptesis

Parmetro

Poblacin
Estadstica
Errores de tipo I y II
B ibliografa

1. Ackoff, R. L.: The Design of Social Research, University of Chicago


P rp c c

P.hi'fifv

1051

c a n . 5.

2. Northrop, F. s! C.: The Logic of the Sciences and the Humanities,


The Macmillan Company, Nueva York, 1947, caps. 7 y 8.
3. Weiss, R. S.: Statistics in Social Research, John Wiley & Sons,
Inc., Nueva York, 1968, cap. 13.

T odos tenem os sin ninguna clase de duda u n a nocin intu itiv a de


lo que se en tien d e p o r probabilidad, au nque n o estem os e n con
diciones de fo rm u la r del trm in o u n a definicin precisa. E n el
len guaje co rrien te hay cierto n m ero de p alab ras y frases que
se em plean en fo rm a casi intercam biable con el concepto de
probabilidad, tales com o posibilidades, perspectivas, ventaja,
etctera. E stos conceptos se em plean en ocasiones en cierto n
m ero de sentidos diversos. P reguntam os, p o r ejem plo, "cul es
la p ro b ab ilid ad de que hoy llueva?, refirindonos a un aconte
cim iento singular (el llover hoy) que puede o c u rrir o no en el
futu ro . El enunciado "no es pro b ab le que Jones asesin ara a su
su eg ra se p arece al an terio r, p e ro se re fiere a un acontecim iento
q u e h a ten id o ya lugar y a cuyo p ro p sito nos falta, con todo,
inform acin suficiente p a ra fo rm u la r u n a afirm acin categrica.
Puede u n o re fe rirse a lo que suceder a la larg a : "si juegas, es
p ro b ab le qu e llegues a p e rd e r h a sta la cam isa. Aqu la alusin
n o se refiere a que u n o h ay a de p e rd e r la cam isa con u n solo
golpe de dados, sino a lo que o c u rrir si el experim ento se rep ite
u n gran n m ero de veces. "Un ni o varn, nacido en los E sta
dos Unidos, de p ad res blancos nativos, vivir p robablem ente 65
aos. S em ejante enunciado p arece re ferirse m s al tipo gene
ralizado de nio de los cu ad ro s actu ariales q u e a u n Jim m y B row n
co n creto cualquiera.
Es obvio, sin em bargo, que si hem os de h a b la r de la probabi
lidad de m odo inteligente y, en p artic u la r, si hem os de hacer
in terv en ir al m atem tico, el concepto h a de definirse con la p re
cisin suficiente p a ra que todos podam os em plearlo con el m is
m o sentido. P o r desgracia, sin em bargo, no es ta n sencillo' obte
n e r u n a definicin que satisfaga al p ro p io tiem po al m atem tico
y a n u e s tra nocin in tu itiv a de aquello que p o r lo re g u lar enten
dem os con el trm ino. Segn verem os, en efecto, el m atem tico
considera n ecesario p e n sa r en trm inos de probabilidades a vriori,
que en re alid ad n o pueden obtenerse em pricam ente y que no
dependen de cualquier m u estreo p a rtic u la r de datos. E n las
secciones que siguen, el concepto de pro b ab ilid ad se d efinir en
lenguaje m atem tico y se exam inarn algunas de sus propieda
des m atem ticas m s im p o rtan tes. Al p ro p io tiem po tratarem o s
de conseguir que dicha definicin y dichas propiedades m atem
ticas parezcan razonables a la luz del em pleo y la experiencia
cotidianos.

E n estad stica nos ocupam os en establecer generalizaciones a


p ro p sito de u n a poblacin com puesta p o r lo regular de u n
g ran n m ero de individuos. S em ejante poblacin puede ser u n a
poblacin fin ita realm en te existente como, p o r ejem plo, la p o
blacin de los E stados Unidos, o los varones blancos nativos de
m s de 65 aos y, p o r lo tanto, claram en te delim itable. En tal
caso, tom arem os p o r lo re g u la r algn tip o de m u estra de la po
blacin, y el in ters se dirigir en p rim e r trm ino a la poblacin
p o r s m ism a (o a algn subgrupo de ella), m s que a los indi
viduos que acontecen fig u ra r en una cualquiera de las m u estras
p articu lares. P ero la poblacin puede tam bin ser una poblacin
hip o ttica que im plique, digam os, u n nm ero ilim itado de expe
rim en to s efectuados en condiciones sim ilares. P or consiguien
te, al estadgrafo n o le in teresan el acontecim iento o el individuo
p articu lares, a no ser en la m edida en que el acontecim iento
o individuo en cuestin puedan ayudarle a o b ten er inform acin a
p ro p sito de la poblacin. Como q uiera que este texto es u n
texto de estad stica, nos servirem os en l del trm ino probabili
dad p a ra re ferim o s no a acontecim ientos p articu lares (llover hoy,
Jones asesino), sino a u n gran n m ero de acontecim ientos o a
lo que o cu rre a la larga.1
Cm o podem os o b ten er probabilidad desde el pu n to de vista
de acontecim ientos repetidos? E n p rim e r lugar, es m enester p en
sa r en trm inos de u n experim ento ideal que se deje re p e tir un
g ran n m ero de veces "en condiciones sim ilares. Sin duda, las
condiciones cam bian en la realidad, p ero h a de ser posible im a
g in ar p o r lo m enos q u e n o lo hacen. En cada uno- de dichos expe
rim en to s p erfectos h an de an ticip arse todos los resultados. As,
pues, hem os de ac o stu m b ra m o s a p en sa r en trm inos de una
m oneda ideal que se lanza al aire un gran nm ero de veces, en
circu n stan cias idnticas, y con slo dos resu ltad o s posibles (c ara
o cru z) en cada cara o cruz. P rescindim os del hecho de que en
el p roceso del lanzam iento de la m oneda real po d ra ac ab ar por
g astarse de m odo irreg u lar, o que en ocasiones se pu d iera m an
te n e r de canto. A prendem os a concebir u n juego de naipes p er
fectam en te b arajad o , en el que ninguno de ellos tienda a pegarse
a o tro, pese a que sem ejan te juego no se en c o n trar nunca en lav ida real.
L lam em os todo- re su ltad o o grupo de resultados un "aconteci
m ien to . E n este caso el acontecim iento pu ed e ser sim ple ( que no

i Resulta posible tratar las probabilidades desde el punto de vista del


acontecimiento singular y servirse, con todo, de las propiedades matem
ticas que se examinan en la seccin siguiente (vase C8]). Sin embargo,
semejante tratamiento presenta por lo menos tantas diferencias conceptua
les como el que empleamos en este texto.

se d eja desco m poner) o com puesto (u n a com binacin de acon


tecim ientos sim ples). As, pues, el acontecim iento' A puede ser
u n 6 en u n solo golpe d e d ad o s; el acontecim iento B (com pues
to ) p u ed e co n sistir en los re su ltad o s 2 y 4, o 6 en u n solo lanza
m iento, en ta n to que el acontecim iento C (tam b in com puesto)
puede im p licar la obtencin de u n 7 en dos jugadas. P or conven1.00

--

0.75 -

O.

0.25 -

0 __l__i__i__i__i__i... i ...i__ i__I_____________ ,_______


0 10 20 30 40 50

100

Nm ero de pruebas

Fig. IX .l. Oscilacin de la proporcin de xitos aproxim ndose


al lim ite de .50
cin se u tiliza el trm in o d e xito cuando el acontecim iento con
sid erad o se produce, y el de fracaso cuando n o ocurre.2 Puede
e fectu arse el experim ento u n gran n m ero de veces y obtenerse
la p ro p o rci n d e las veces e n q u e o c u rre cada acontecim iento
p artic u la r.
N o estam os todava p o r com pleto en condiciones de d a r u n a
definicin fo rm al de la prob ab ilid ad . P rim ero, en efecto, hay que
ap e la r al conocim iento del le c to r acerca de qu o cu rre em p
ricam en te cu an d o u n experim ento com o el de lan za r u n a m oneda
al aire se re p ite u n gran n m ero de veces. Supongam os que em
pezam os los lanzam ientos y que a cada dcim o ca ra o cruz anota
m os la razn de los xitos (digam os " c a ra s ) al n m ero to tal d e
los m ism os. A hora bien, los re su ltad o s obtenidos tienden a ser
sem ejan tes a los que se in d ican en la fig u ra IX.1.

2 Este uso tcnico de los trminos xito y fracaso no necesita ser con
forme al uso general. As, por ejemplo, el xito puede indicar la contrac
cin de la polio o la eleccin de un demagogo.

En los 10 p rim eros lanzam ientos no esperam os p o r lo regular


o b ten er exactam ente 5 caras, ni aun con u n a m oneda correcta.
Es posible, en efecto, que el nm ero de caras sea 7. La prxim a
serie de lanzam ientos puede contener u n a larga secuencia de
cruces, de m odo que al final de 20 lanzam ientos la proporcin
de caras sea de .45. La serie siguiente puede d a r asim ism o m s
cruces que caras, la prxim a, ligeram ente m s caras que cruces,
y as sucesivam ente. Despus de 100 lanzam ientos con u n a m o
n ed a n o sesgada esperam os que la p roporcin de los xitos se
site alred ed o r de .5, en ta n to que despus de 1 000 lanzam ientos
deberam os en co n trarn o s a n m s cerca de dicha cifra. As, pues,
esperam os que la razn de los xitos al n m ero total de las p ru e
bas se establezca de m odo que cese de flu c tu a r m ucho de u n a
serie de 10 lanzam ientos a o tra. D espus de 10 m il pruebas, in
clusive si obtuviram os 20 cruces sucesivas (acontecim iento ex
trem ad am en te im probable), el efecto de ello sera negligente en
la razn en cuestin.3 E n cam bio, si esto se h u b iera producido
en la terc era y cu a rta secuencias, el efecto h a b ra sido p ro n u n
ciado. P o r lo tan to, cuanto m ayor es el n m ero de las pruebas,
ta n to m s se va acercando1la razn a u n determ inado valor que
los m atem ticos designan com o "lm ite". Si podem os concebir
que el experim ento se prolongue indefinidam ente, podem os con
p ro b ab ilid ad concebir tam bin que la razn alcance exactam ente
el v alo r lm ite, o sea .5. P or tanto, nos vam os encontrando con
la nocin de "in fin ito y que los m atem ticos h an hallado que
ste es u n concepto m anifiestam ente am biguo, ser preferible
p e n s a r en trm inos de u n n m ero de p ru e b as extrem adam ente
grande.
*
La nocin de lm ite se d eja d efin ir con algo m s de p reci
sin. Decimos, en efecto, que la razn se aproxim a a u n lm ite
cuando, habiendo determ in ad o previam ente qu tip o de aproxi
m acin deseam os, lanzam os la m oneda u n n m ero finito d e ve
ces, h a s ta e sta r v irtu alm en te seguros que la razn o b ten id a se
ap rox im a al lm ite con el grado de exactitud deseado. E n otros
trm in o s: escogem os p rim ero u n nm ero m uy pequeo e, que
re p resen te el grado de aproxim acin deseado. Supngase que p o
nem os e = .0001. Si el lm ite existe, h ay u n nm ero finito de lan
zam ientos N tal, que podem os p rcticam en te e sta r seguros que
la p ro p o rci n de xitos o b ten id a qu ed ar en el in te rio r de .0001

s Obsrvese bien que no se ha pretendido que los nmeros absolutos de


caras y creces sean aproximadamente iguales, ni que, si se da inicialmente
un exceso de caras, las cruces acabarn por compensarlo. Puede seguir
habiendo un exceso de caras indefinidamente, pero la razn se aproximar
a .5 incluso en este caso. As, por ejemplo, si tuviramos 35 caras y 15
cruces en los 50 primeros lanzamientos, la proporcin de caras sera de .7.
Un exceso de 20 caras en 100 lanzamientos (o sean 60 caras) da una pro
porcin de .6, en tanto que el mismo exceso en 200 lanzamientos da un
valor de .55.

de la v erd ad era p robabilidad.4 Adems, p o r m u y pequeo que


escojam os e, siem pre en co n trarem o s u n n m ero fin ito de lanza
m ien to s p a ra el q u e ello es verdadero. P ero si n o existe u n lm i
te, entonces n o re su lta r p o r lo general posible.
No es e n m o d o alguno tin a n ecesidad lgica el q u e las razones
ob ten id as en dicha fo rm a se establezcan en u n v alo r lm ite. En
efecto, se d e ja p o r lo m enos concebir que las razones en cuestin
sigan flu ctu an d o indefinidam ente. Si esto fu e ra efectivam ente
as, n o p o d ram os h a b la r de u n a sola p ro b a b ilid ad de caras en
relacin con la m oneda. S in em bargo, cuando sem ejan te lm ite
existe, podem os d efin ir la probabilidad com o lim ite de la razn
de los xitos al n m ero total de las pruebas. O bien, e n fo rm a
m s ru d a , la p ro b a b ilid ad es la pro p o rci n d e los xitos " a la
larga".
E n el exam en u lte rio r ser conveniente h a b la r com o si pens
ram o s en trm in o s de pro b ab ilid ad es de acontecim ientos singula
res. As p o drem os, p o r ejem plo, p re g u n ta r, cul es la p ro b a
bilidad de o b te n e r u n 6 en u n solo golpe de dados o u n as ro jo al
sac ar u n a so la c a rta de la b a ra ja ? E n re alid ad , al servim os de
la fra se u n solo golpe de dados", tra ta m o s sim plem ente de evi
ta r el em pleo d e u n a fraseologa com plicada. Lo q u e efectiva
m en te querem os d ecir es : "qu p roporcin de veces esperam os
o b ten er u n 6, a la larga, lanzando u n solo dado re ite ra d a m e n te ?
A ttu lo de conveniencia, pues, hablarem os de u n solo golpe de
dados cuan d o en re alid ad queram os significar u n n m ero inde
fin id am en te gran d e de lanzam ientos p a rtic u la re s con el m ism o
dado.
Antes de p ro c ed er al exam en de las p ropiedades m atem ticas
de las p ro b abilidades hem os de detenernos en algunos puntos.
Los experim entos de la vida real, si se rep iten , parecen efectiva
m en te seguir el tip o general exam inado an te rio rm e n te y re p resen
ta d o en fo rm a de diagram a en la fig u ra IX .l, o sea que nos
acercam os efectivam ente co n ellos a u n lm ite que se d eja calcu
lar. E sto nos conduce a h a b la r de la ley de los pro m ed io s" y a
esp e ra r que la m ayora de las m onedas d a r n ca ras aproxim a
d am en te la m ita d de las veces o que las buenas m anos a ltern a
r n en el bridge co n las m alas. S in em bargo, h ay q u e precaverse
c o n tra esa ley de los prom edios. E n efecto, algunas personas
h a n in te rp re ta d o dicha ley en el sen tid o de q u e si u n a m o
n ed a da 10 veces caras consecutivas, entonces lo m s p ro b a
ble es que la vez siguiente d cruz, "a causa de la ley de los p ro
m edios". S em ejan te in terp re taci n im plica u n a prediccin a
p ro p sito de u n acontecim iento singular (esto es, el re su ltad o
del u n dcim o lanzam iento). S egn verem os m s adelante, sole

4 El examen de los intervalos de confianza (cap. xn) ayudar a indicar


que no podemos estar nunca absolutamente seguros de que la verdadera
probabilidad se halle en el interior del intervalo obtenido.

m os su p o n er que lo que h a sucedido en los lanzam ientos p rece


d en tes n o tien e ab so lu tam en te im p o rtan cia alguna en relacin
con lo q ue sigue. E n efecto, la m o n ed a n o posee ni m em o ria
ni conciencia. D esde el p u n to de vista de u n a estrateg ia inteli
gente, si u n ju g a d o r p resen cia 10 caras sucesivas en diez lanza
m ientos, h a ra b ien e n p re d e c ir que e n el undcim o volver a
salir cara, e n el su p u esto d e que la m o n ed a debe e s ta r sesgada.
D ebera re s u lta r p erfec ta m e n te claro q u e las p ro babilidades
a priori ta l com o se definen en esta seccin n o pueden obte
n erse exactam ente p o r m edios em pricos, au n q u e s pueden apre
ciarse. Y esto se debe n o slo al hecho de que hem os debido
im ag in ar experim entos llevados a cabo en condiciones ideales,
sino tam b in a la circu n stan cia de que ningn experim ento puede
re p e tirse in d efin idam ente. S in em bargo, con u n n m ero sufi
cien te d e p ru eb as, u n a p ro b ab ilid ad p u ed e ap reciarse con cual
q u ier g rad o deseado de exactitud. L as reglas m atem ticas que
se d an en la seccin siguiente y todos los razonam ientos m ate
m ticos q ue se h allan en la b ase de la induccin estad stica se
o cu p an m s b ie n de las probabilidades a priori que de las cla
ses de p ro b ab ilid ades que pu ed en efectivam ente o b ten erse p o r
el investigador.6
As, pues, al ap licar el razonam iento estad stico a cualquier
ciencia q u e se ocupe del m u n d o real, nos en co n trarem o s e n la
posicin lgica d esc rita en el captulo v m . H em os de su p o n er
alguna p ro b a b ilid ad a priori p a ra p o d e r ap licar el razonam iento
m atem tico . P odem os d ecir que si sta es la p ro b a b ilid ad a
priori co rrecta, entonces determ inados re su ltad o s em pricos son
p ro b ab les (o im p ro b ab les). E n e sta fo rm a, A es la te o ra m a te
m tica, y B los re su ltad o s em pricos anticipados, y n o existe m e
dio alguno de v erificar la teo ra d irectam en te. Si B re su lta ser
falso, podem os d e sc a rta r A, pero, si B es cierto, alguna o tra teo
ra C que com porte pro b ab ilid ad es a priori d istin tas p u ed a acaso
ex plicar tam b in los re su ltad o s. Si querem os, pues, ev itar la fa
lacia de a firm a r el consecuente, h ab rem o s de a d o p ta r p ro b ab ili
dad es de las que en re alid ad sospecham os q u e son falsas, proce
dien d o p o r elim inacin. E n el prxim o cap tu lo verem os ejem plos
p artic u la res en los que a s se procede.
IX.2. Propiedades m atem ticas de las probabilidades4
A unque el lecto r tal vez no haya de volver n u n ca m s a calcu lar
p ro b ab ilid ad es, im p o rta de todos m odos que se d cu en ta de que

s Esto no puede suponerse en el caso del ser humano, hecho que hay que
tener presente siempre que se tomen mediciones repetidas con personas u
otros animales. Vase sec. IX.4.
En rigor, el investigador slo puede obtener proporciones debido al he
cho de que el nmero de pruebas o casos ser siempre finito.

en la base de todos los cuadros de los que h a b r de servirse p a ra


v erificar hiptesis se en cu en tra cierto nm ero de propiedades
asaz sim ples de las probabilidades. En u n texto com o el p resen te
no es posible p ro fu n d izar m ucho en la teo ra de stas. El o b jeto
del exam en que sigue es, pues, sim plem ente el de d a r u n a idea
de cm o operan los m atem ticos con las probabilidades al p o n er
los fu n dam entos de la induccin estadstica. Podem os em pezar
identificando tre s propiedades m atem ticas de las probabilidades
a priori.
La p rim e ra de ellas apenas re q u ie re algn com entario. Como
q u iera que en N p ruebas n o podem os o b ten er m enos de cero
xitos n i m s de N , sguese que p a ra cu alquier acontecim iento
A la p ro b ab ilid ad de que A o c u rra [lo que se escribe P(A)~\ ha
de se r m ayor o igual a cero y m en o r o igual a 1. As, p u es:
0 < P (A )< 1
en donde el sm bolo ^ h a de leerse com o "m enor que o igual a .
Si P( A) = 1, el acontecim iento A o cu rrir con toda seguridad; si
P(A) = 0, en cam bio, entonces n o es posible que A tenga lugar.
La regla de la adicin. La segunda p ro p ied ad de las probabili
dades es m s interesante. H abida cuenta de su sencillez, to m a
rem os u n caso especial de la regla de adicin que puede enun
ciarse com o sigue: si los acontecim ientos A y B se excluyen
m u tu a m en te, la probabilidad de obtener A o B [ escrito P(A o B )]
es igual a la probabilidad de A m s la probabilidad de B, o s e a :
P ( A o B ) = P( A) + P( B) ( s i A y B se excluyen m u tu am en te) (IX .1)
P o r exclusin m u tu a entendem os que A y B n o pu ed en ten er lu
g ar sim u ltn eam ente en el m ism o experim ento. As, p o r ejem plo,
es im posible o b ten er a la vez u n as y u n rey si se tom a una sola
c a rta de u n a b a ra ja corriente. P o r consiguiente, aplicando la re
gla de la adicin a u n a b a ra ja hipotticam ente p erfec ta te n e m o s :
P ( A o K ) r= P( A) + P ( K ) = 1/13 + 1/13 = 2/13
P or supuesto, pudim os h a b e r obtenido el m ism o re su ltad o te
niendo en cu enta que hay cu a tro ases y cuatro reyes en la b a ra ja
y, con iguales probabilidades de seleccin, la p ro babilidad de ob
ten er el u n o o el o tro de dichos naipes sera de 8/52, o 2/13. Y
en form a anloga, la p ro b ab ilid ad de sacar ya sea u n 5 o u n 6 en
un sim ple golpe de dados sera de 1/6 + 1 /6 = 1/3.
La regla de la adicin puede h acerse extensiva a m s de dos
casos. As, p o r ejem plo, si A, B, C . . . , son todos ellos m u
tu a m en te exclusivos, entonces tenem os:
P ( A o B o C ........ o K ) = P( A) + P ( B ) + P ( C ) . . . . . + P ( K ) (IX .2)

Si tenem os u n a poblacin com puesta de 100 p erso n as de la clase


su p erio r, 200 de la clase su p erio r a la m edia, 400 de la in ferio r
a la m edia y 300 de la inferior, p o r ejem plo, la p ro b ab ilid ad de
sac ar u n a p erso n a de la clase superior, o u n a de la clase supe
rio r a la m edia, o u n a de la clase in ferio r a la m edia en u n a sola
vez se r :
100
1 000 +

200

400

700

1 000 + 1 000 ~ 1 000

siem p re que cada p erso n a tenga las m ism as probabilidades de


ser seleccionada.
Como q u iera que las probabilidades son esencialm ente p ro p o r
ciones, sguese que si tenem os todos los acontecim ientos posibles,
cada u n o de ellos excluyendo a los dem s, la sum a de dichos
eventos ser la unidad. As, p o r ejem plo, si sum am os las p ro b a
bilid ad es de sacar u n trbol, u n a espada, u n corazn o u n dia
m ante, hem os de o b ten er u n a sum a de 1. La probabilidad^ de
que el evento A no o c u rra es igual a la sum a de las pro b ab ilid a
des de todos los eventos (m u tu am en te exclusivos) re sta n te s. P or
consiguiente, si su straem os P( A) de la unidad, tenem os la p ro b a
b ilid ad de no o b ten er A, y a que
si

1 = P(A ) + P ( B ) + P ( C ) + ........ + P ( K ) ,

e n to n c e s :

1 P( A) P ( B ) + P(C) + .........+ P( K) .

La p ro b ab ilid ad de n o sac ar u n a reina, p o r ejemplo', es de


1

12

1 ------o .
13
13
H a sta aq u slo nos hem os ocupado de eventos que se excluyen
m u tu am en te. Una fo rm a m s general de la regla d e la adicin
p u ed e enunciarse com o s ig u e : si A y B son dos acontecim ientos
cualesquiera (n o n ecesariam ente m u tu am en te exclusivos), en
tonces :
P(AoB)=P(A)+P(B)-P(A& B)
(IX .3)
en donde P ( A & B ) re p re se n ta la posibilidad de o b ten er a la vez
A y B .7 E n el caso general, pues, la p ro b ab ilid ad de o b ten er A o
i La partcula o tal como la emplean los matemticos incluye la posibili
dad de que A y B se verifiquen a la vez. Por consiguiente la expresin
"A o B" significa "A y B, y A o B . En orden a la anotacin por teora de
grupos A o B" significa lo mismo que A [J B en tanto que A y B significa
lo mismo que A f] B.

B se obtiene adicionando p rim ero la p ro b ab ilid ad de A a la p ro


babilidad de B y sustrayendo luego la p ro b ab ilid ad de obtener
sim ultneam ente A y B. La razn de su stra e r P ( A & B ) est en
que la p ro b ab ilidad de esta ocurrencia c o n ju n ta se h a contado
dos veces: u n a en P( A) y o tra en P( B) . La fig u ra IX.2 puede
ay u d ar a co m p ren d er p o r qu es as.
En efecto, en la figura IX.2, las probabilidades de A y B se
han rep resen tad o p o r reas proporcionales a sus respectivos va-

Fig. IX.2. R epresentacin geom trica de probabilidades, con


reas proporcionales a P(A ), P (B ) y P (A & B )
lores num ricos, tom ndose la superficie del rectngulo com o
unidad. E n el caso general h a b r p o r lo re g u la r cierto cruza
m iento, es d ec ir: A y B n o sern m u tu am en te exclusivos. La
pro b ab ilid ad de o b ten er ya sea A o B (o am bos) e st represen
tad a p o r el to tal del rea ac h u rad a en cruzado. Y com o quiera
que el rea a c h u rad a m s pequea se h a b r contado dos veces,
u n a en A y o tra en B, de ah la necesidad de s u s tra e r P ( A & B )
p a ra o b ten er el rea to tal ac h u rad a en cruz.8
Tom em os u n ejem plo num rico. Supongam os q u e A es el even
to en que se obtenga u n a rein a en u n a sola extraccin, y supon
gam os que E es el evento de que la c a rta sea u n a espada. E n
tonces A y B n o son m u tu am en te exclusivos ya que es posible
o b ten er am bas cosas sim ultneam ente (o sea la re in a de espadas).
P o r consiguiente:

8 El lector ha de convencerse l mismo de que, para obtener la probabi


lidad de .4 o T, pero no ambas, habremos de sustraer de 2 P(A & B) de
P{A) + P(B). Debera tambin tratar de extender la forma general de la
regla de adicin trazando una grfica semejante para los eventos A, B y C.
(Vase ejercicio 4b).

P ( A o B ) = P( A) + P ( B ) - P ( A & B )
= 4/52 + 13/52 1/52 = 16/52 4/13.
E ste resu ltad o puede verificarse intuitivam ente teniendo en cuen
ta q ue A o B p o d ran o b ten erse extrayendo cualquier esp ad a o
u n a de las tre s reinas re sta n te s, o sea u n a de las 16 cartas con
sideradas. Si h ubiram os adicionado sim plem ente P( A) y P( B) ,
la re in a de espadas se h a b ra contado dos veces. E n la seccin
siguiente verem os Una regla general p a ra el clculo de P ( A & B ) ,
ya q ue n o siem pre re su lta ta n sencillo o b ten er dicha cantidad.
O bsrvese que si los dos eventos son m u tu am en te exclusivos no
h a b r cruzam iento, y P { A & B ) ser igual a cero. P or lo tanto,
la regla general reconduce, en esta ocasin, al caso especial d e la
regla de la adicin exam inada an terio rm en te.
La regla de la m ultiplicacin. La te rc e ra pro p ied ad de las p ro
babilidades nos p e rm ite o b ten er la p ro b ab ilid ad de que dos (o
m s) eventos o c u rran co n ju n tam en te. P odram os en u n ciar esta
p ro p ied ad com o sigue: si A _y B son dos eventos cualesquiera, la
probabilidad d e que se produzcan am bos es el producto de
la probabilidad d e que se produzca uno de ellos por la probabi
lidad condicional d e que se produzca el otro, dado que el p rim er
even to haya ocurrido. O en sm b o lo s:
P ( A & B ) = P ( A ) P ( B |A ) = P (B )P (A |B )

(IX .4)

Los sm bolos P(A | B ) y P (B | A) re p re se n ta n lo q u e se designa


com o p ro b abilidades condicionales. P(A | B ) debera leerse com o
"la p ro b ab ilid ad de A, dad o que B haya o cu rrid o . La expresin
d e probabilidad condicional significa que adm itim os que la p ro
b ab ilid ad de A p u ed e depender de que B o c u rra o no. E n otros
t rm in o s : la p ro b a b ilid ad de A dado B puede d iferir de la p ro b a
bilid ad de A dado que B no haya ocurrido. As, p o r ejem plo,
si B es el evento de que u n individuo conduce el autom vil te
m era riam en te y A el evento de que se en c u en tre en u n accidente
d e tr n sito , suponem os que P ( A |B ) es m ay o r que P (A ), ya
que el co n d u cir tem erariam en te es causa de accidentes.
Antes de p ro ced er a ilu s tra r la regla de la m ultiplicacin, p e r
m tasenos in tro d u cir u n nuevo concepto im p o rtan te. Se dice de
dos eventos A y B que son estadsticam ente independientes si,
y slo si, P(A \ B ) = P ( A ) ; y P ( B |A ) = P (B ). As, pues, si
la p ro b ab ilid ad de que A o cu rra es la m ism a, independientem ente
d e si B h a o cu rrid o o no, y si lo m ism o es cierto resp ecto de B,
entonces los dos eventos son independientes u n o de otro. E sto
significa, en lenguaje llano, que el conocim iento de que u n o de
los acontecim ientos se h a p roducido n o ayuda a p re d ecir el otro.
P o r ejem p lo : la p ro b ab ilid ad de sac ar u n as, dado que la c a rta

sea ro ja, es de 2/26, ya que hay dos ases ro jo s y u n to tal de 26


ca rtas ro jas. sta es num ricam ente la m ism a que la pro b ab i
lidad no condicional de sac ar u n as (4/52). P o r lo tanto, el color
y el valor de la c a rta son estad sticam en te independientes. Y en
fo rm a anloga, el hecho d e sab e r que u n a c a rta es u n as no
ayuda a ad iv inar su color. Obsrvese, de paso, q u e los eventos
m u tu am en te exclusivos no son independientes. E n efecto, si A
y B son m u tu am en te exclusivos, hem os de te n e r siem pre
P(A | B) = P(B | 4.) = 0. P o r qu?
E n el caso en que A y B sean estad sticam en te independientes,
tenem os P(B | A) = P(B), y la regla de la m ultiplicacin asum e
la fo rm a sim ple d e:

P(A& B) = P(A)P(B)

(si A y B son independientes)

P o r lo re g u la r encontrarem os que este caso especial de m ultipli


cacin es de em pleo m ucho m s fcil que la regla general.
Vamos a ilu s tra r p rim ero la regla de m ultiplicacin en los
casos especiales en que A y B son estad sticam en te independien
tes. P o r lo re g u la r pensam os que las repeticiones de u n experi
m en to son in d ependientes u n a de o tra. As, p o r ejem plo, si lan
zam os la m oneda al aire u n a vez, suponem os q u e el resultado
no afecta lo q u e p u ed a su ced er en el prxim o lanzam iento; la
p ro b ab ilid ad de "cara " perm an ece co n stan te de u n lanzam iento
al otro. E n efecto, el sab e r que sali ca ra no nos ayuda a p red ecir
el resu ltad o del segundo lanzam iento.9 P or consiguiente, sirvin
donos de la regla de m ultiplicacin, podem os calcular la p ro b a
b ilidad de sac ar caras en dos lanzam ientos sucesivos m ultipli
cando e n tre si las pro b ab ilid ad es de o b ten er c a ra en cualquier
p ru e b a dada. E n el caso de u n a m oneda n o sesgada, la p ro b a
b ilidad de dos caras sucesivas ser de (1 /2 )(1 /2 ) = 1/4. Y en
fo rm a anloga, si A es el evento de sac ar u n a c a rta ro ja, y B el
evento co n sisten te en o b ten er u n as, entonces la p ro b ab ilid ad de
sac ar u n as ro jo P( A&B) se r :

P(A &B) = P(A)P(B) = 1/2 x 1/13 = 1/26.

Suponemos que la verdadera probabilidad es conocida y Que nuestra


tarea consiste en predecir el resultado de cualquier prueba particular. Es
cierto, por supuesto, que sin dicho conocimiento la probabilidad podra
acaso estimarse utilizando los resultados de pruebas anteriores y sirvin
dose luego de dicha estimacin para predecir el futuro. Esto no es lo que
entendemos cuando decimos que en el caso de independencia el conocimien
to de un evento no nos ayuda a anticipar el otro. As, por ejemplo, sabiendo
que han salido 20 caras consecutivas, nos veramos llevados a predecir
una moneda sesgada, esto es, que la probabilidad verdadera de sacar cara
es algn valor superior a .5. Y esto nos llevara a su vez a predecir cara en
ocasion del vigsimo primer lanzamiento. Sin embargo, el supuesto es
de que, si existe, el sesgo es ya conocido. Por lo tanto, si se sabe que
p es .8, el conocimiento^ de 20 caras sucesivas no nos ayudar a predecir
el resultado del lanzamiento siguiente.

Tom em os dos ejem plos en los que n o se da independencia.


E l p rim ero de ellos co m p o rta u n a situacin en la que dos varia
bles estn relacionadas de ta l m odo que el conocim iento d u n a
ayuda a p re d ecir la o tra. Supngase que tenem os los siguientes
d ato s to talm en te hip o ttico s:
Carcter

Morenas

Rubias

Pelirrojas

Total

Emprendedor
Tmido

300
600

600
100

300
100

1200
800

Total

900

700

400

2 000

Si d e dicha poblacin, arreg lad a p o r u n a perso n a ajena, se saca


al a z a r 10 u n a m uchacha, cul es la p ro babilidad de que sea
u n a p elirro ja em prendedora? Como q u iera q u e en el to tal de
2 m il m uchachas hay 300 p elirro jas em prendedoras, la p ro b a
b ilidad de sac ar u n a de dicho g rupo p a rtic u la r es, obviam ente,
300/1 200, o sea .15. E sta m ism a pro b ab ilid ad se o b ten d r ahora
sirvindose de la regla de m ultiplicacin.
Supongam os que A es el evento consistente en o b ten er una
p elirro ja, y B el evento de que el c a r c te r es em prendedor. Como
q u iera que hay 400 p elirro ja s en conjunto, P( A) = 4 0 0 /2 000, o
sea .2. Sin em bargo, e n tre estas 1 200 m uchachas em prendedoras
hay 300 p elirro jas. P or lo tanto, si tenem os conocim iento de que
el c a r c te r es em prendedor, la pro b ab ilid ad de que la m uchacha
sea p elirro ja es de 300/1 200, o sea .25. E n fo rm a anloga, la
p ro b ab ilid ad de o b te n e r u n a m uchacha em prendedora es de
1 200/2 000, o sea .6, pero, si se sabe que el d ato es el de p elirro ja,
la pro b ab ilid ad de que la m uchacha sea em prendedora es de
300/400, o sea .75. Tenem os, pu es:
P( A) = .2

P ( A \ B ) ~ . 25

P (B ) = .6

P( B\ A) = .75

Sirvindonos de la regla d e m ultiplicacin llegam os a la siguien


te p ro b ab ilid ad de o b ten er u n a p e lirro ja em p ren d ed o ra:
P ( A & B ) = P ( A ) P ( B ) A ) = (.2) (.75) = .15
= P (B )P (A |B ) = (.6) (.25) = .15
P a ra el segundo ejem plo, supongam os que hem os de calcular
la p ro b ab ilid ad de sac ar de u n a b a ra ja co rrien te dos ases en dos

io La muestra al azar se definir ms adelante en el presente captulo. En


una muestra al azar, todos los individuos y todas las combinaciones de
individuos tienen las mismas probabilidades de ser seleccionados.

extracciones. Pongam os que A es el hecho de o b ten er u n as en la


p rim era extraccin y B el de que saquem os u n as en la segunda
extraccin. Son A y B independientes? E sto depende de si vol
vem os o n o a p o n e r el as en la b a ra ja despus de la p rim era
extraccin y b a ra ja m o s de nuevo an tes de la segunda. Si proce
dem os con su stitucin, las dos extracciones sern independien
tes, ya que la p ro b ab ilid ad de o b ten er u n as es c o n stan te d e u n a
extraccin a la p r x im a y que el re su ltad o de la p rim e ra no
p u ed e afe c ta r en m odo alguno el d e la segunda. E n este caso,
P (A & B ) = P( A ) P ( B ) = (1 /1 3 )(1 /1 3 ) = 1/169.
Supongam os ah o ra que procedem os sin reposicin, esto es, que
n o volvem os a co locar la p rim e ra c a rta en la b a ra ja . Si aconte
ciera que sacram os u n as en la p rim e ra extraccin, entonces la
p ro b ab ilid ad de o b ten er o tro sera de 3/51, ya que slo h ab ra
tres ases en las 51 ca rtas re sta n te s. P o r o tra p a rte , si n o sac
ram os u n as en la p rim e ra seleccin, la p ro b a b ilid ad d e o bte
n erlo en la segunda sera de 4/51. P o r consiguiente, en este caso
no tenem os in d ependencia y h ab ram o s de servirnos de las p ro
babilidades condicionales p a ra calcu lar P( A &l B) . As:
P( A & B ) = P ( A ) P ( B \ A ) = 4/52

3/51 = 1/221.

Conviene a d v e rtir que la reg la d e m ultiplicacin q u e hem os


exam inado p o d ra extenderse igualm ente a m s d e dos eventos.
As, si A, B y C son todos ellos independientes uno de otro:
P ( A & B & C ) = P( A) P( B) P( C)
P o r lo q ue se re fiere a las probabilidades condicionales, sus
principios p u ed en ap licarse fcilm ente a ciertos casos sencillos.
As, p o r ejem plo, si hu b iram o s de sac ar c u a tro ases co n reposi
cin, po d ram o s calcular la pro b ab ilid ad d e o b ten erlo s com o
sigue:
P (4 ases) = ----- ------ - ----- L = ___ l___
52 51 50 49
270 725
Si hay tre s acontecim ientos A, B y C que n o son m u tu am en te
independientes, p o d r o b serv arse la p ro b ab ilid ad d e su ocu rren
cia c o n ju n ta con la siguiente f rm u la :
P ( A & B & C ) = P(A)P(B\A)P(C\A&B)
en la
ta n to
o tras
de A,

que P { C \ A & B ) se re fiere a la p ro b ab ilid ad de C, ya que


A com o B h a n ocurrido. Podem os u tilizar p o r supuesto
f rm u las sim ilares, colocando e n o tro o rd e n las posiciones
B y C. S upongam os q u e tenem os la poblacin siguiente:

Actitud

Blancos

No blancos

Republi Dem
canos
cratas

Republi Dem
canos
cratas

Total

A favor del aumento de


la asistencia social
En contra del aumento

50
350

100
200

25
25

225
25

400
600

Total:

400

300

50

250

1000

Si A es el caso en que sacam os u n blanco, B aquel en que obte


nem os u n republicano, y C la ocasin en q u e la perso n a est a
fav o r del au m en to en la asistencia pblica, y dado que slo 50 re
publicanos blancos estn a favor de la asistencia, tendrem os
P( A & B & C) = 50/1 000 = .05.
E n el p ro p io cu ad ro vem os asim ism o que P( A) = 700/1 000;
P( B\ A) 400/700; y que P (C |A & B ) = 50/400. La ltim a d e stas
cifras re s u lta del hecho de que de e n tre las 400 personas que son
a la vez A y B (rep u blicanos y blancos) slo 50 apoyan la asis
tencia.
A plicando la regla de m u ltip licar obtendrem os el re su ltad o :
P( A & B & C) = P( A) P( B\ A) P( C\ A & B )
700 400 50
50
= ----------------------- = ----------= .05
1000 700 400
1 000
P a ra v erificarlo p o d ram o s ap licar la siguiente f rm u la:
P(A&B&C)-P{C)P(B\C)P(A\B & C)
400
75 50
50
= -------------------- = ----------= .05
1000 400 75
1 000
El concepto de acontecim ientos estad sticam en te independien
tes est en estrecha relacin con el de la independencia e n tre dos
(o m s) variables, y ser exam inado con m ayor detencin en
p osteriores captulos.
Ya hem os utilizado el ejem plo de la b a ra ja , pues sta
tiene la
p ro p ied ad de que los valores faciales y la secuencia son indepen
dientes, lo que supone que el conocer u no de los dos no ayuda
p a ra p red ecir el otro. T anto en el ejem plo relativo al color del
cabello de la m uchacha con la que se va a salir, y a su conducta,
y aquel en que se relacionan e n tre s la raza, la preferencia pol
tica y la a c titu d an te la asistencia pblica, consideram os necesa

rio h acer u so de las probabilidades condicionadas p a ra lograr


resu ltad o s correctos. E n estos casos afirm am os que las varia
bles afectadas no son independientes, o que estn correlaciona
das. P ara h acerlo m s sencillo considerem os el ejem plo de las
m uchachas. Supongam os que exactam ente el m ism o p o rcen taje
(60 p o r 100) de rubias, m orenas y p elirro jas fuesen em prendedo
ras, en cuyo caso el conocim iento del color del cabello carecera
de valor, en la prediccin de la conducta. Si conservam os los
m ism os totales m arginales, los resultados p asa ran a s e r:
Rasgo

Morenas

Rubias

Pelirrojas

Total

Emprende doras
Tmidas
Total

540
360
900

420
280
700

240
160
400

1200
800
2 000

Debe co m p robarse en p rim e r lu g ar que en el caso de estos


datos h ipotticos n o hay necesidad de em plear probabilidades
condicionadas. O bsrvese adem s que la p ro b ab ilid ad (o p ro
p o rci n ) correspondiente a cada casilla del cu ad ro es igual al
pro d u cto de las dos probabilidades en lo s m rgenes correspon
dientes. Si p o r ejem plo exam inam os el cu ad ro su p erio r izquierdo
verem os que la p ro b ab ilid ad 540/2 000 = .27, es ju stam en te el
p ro d u c to de las probabilidades que corresponden a la p rim era
colum na m arginal (es d ec ir: 900/2 000 = .45) y la p rim era fila
m arginal (o se a : 1 200/2 000 = .6). Lo m ism o es cierto p a ra
cad a u no de los re sta n te s cuadros. No im p o rta cu n ta s ocasiones
p u ed an d isponerse las categoras de dos variables en u n a clasi
ficacin cruzad a que cuente con e s ta propiedad, direm os que las
variables son estad sticam en te independientes e n tre s. En pos
terio res captulos llevarem os a cabo p ru e b as estadsticas re la ti
vas ta n to a la independencia com o a las m edidas de dependencia
b asadas en esta sencillsim a idea.
*
N o ta acerca del teorem a de Bayes. Dado que P (A & B )
P ( A) P( B\ A) podem os resolver la p ro b ab ilid ad condicional, obte
niendo
P(A&B)
1

P( A)

_P(B)P(A\B)
P( A)

P ero P( A) e n el denom inador p u ed e se r descom puesto en los


dos trm in o s P( B ) P ( A \ B ) + P( B) P( A\ B) , ya que B y B (n o B )
son posibilidades m u tu am en te exclusivas y exhaustivas. E sto nos
lleva a la ecuacin.

P( B) P( A\ B)
P( B\ A)
P(B)P(A\B) + P(B)P(A\B)
ecuacin conocida com o teo rem a de Bayes. E ste teo rem a puede
se r generalizado p a ra diversas alternativas B lt B 2, . . . , B k, en
ta n to estas altern ativ as sean m u tu am en te exclusivas y exhaustik
vas, de m odo que 2 ? ( ) = 1. La p ro b ab ilid ad de que u n B u
i 1
dado, sup u esto que A h a ocurrido, puede escrib irse a s :
P( Bt \A)

PjB^PjAlB^

S PBJPiAlBO

i=l

E s posible desde luego ap licar el teo rem a de Bayes siem pre que
se nos den todas las probabilidades condicionales e incondicio
nales, p e ro estas aplicaciones n o son especialm ente tiles. Puede
sin em bargo ser ap licado tam b in en casos en que las "p ro b ab i
lidades psicolgicas hayan reem plazado los conceptos de fre
cuencia relativa. H ays [5 ] previene c o n tra este em pleo. Las
aplicaciones d irectas del concepto bayesiano e n relacin con la
e stad stica e st n a n relativam ente poco p ro b ad as. P arece sin
em bargo aconsejable su g erir m todos p a ra su em pleo. Conside
rem o s en p rim e r lu g ar u n p ro b lem a m uy sencillo. Supongam os
q ue u n individuo escoge a capricho u n a de dos u rn a s, y a con
tin u aci n selecciona a capricho u n a bola de la u rn a que haba
elegido. La p rim e ra de las u rn a s contiene u n a m ita d de bolas
b lan cas y o tra m ita d negras, en ta n to que la segunda contiene dos
tercios de bolas blancas y u n tercio de bolas negras. Sabem os que
el in dividuo selecciona u n a bola blanca, y desea asig n ar u n a
p ro b a b ilid ad al hecho de que h a seleccionado, digam os, la p rim e
r a u rn a . O bsrvese q u e en este caso se tr a ta de u n a especie de
"p ro b ab ilid ad in v ersa, p a rtic u la rm e n te a p ro p ia d a al concepto
d e p ro b ab ilid ad es e n el que se refleja el estad o de n u estro s co
n ocim ientos. P uede decirse que el individuo seleccion o n o se
leccion la p rim e ra u rn a , siendo las respectivas probabilidades
1 a 0. P ero si hu b iram os de h ac er u n a apuesta, con base en el
conocim iento que tenem os de que sac u n a bola blanca, qu
v e n ta ja estaram o s dispuestos a d a r a favor d e que escogiera
la p rim e ra u rn a ? sta es ciertam en te u n a fo rm a razonable de
p la n te a r el problem a.
Si denom inam os A al acontecim iento de la seleccin de u n a
bola blanca, B al de q u e fu e seleccionada la p rim e ra u rn a, y
B al acontecim iento de que fue seleccionada la segunda urn a,
obten d rem o s, al ap lica r el teo rem a de Bayes

P ( B | ) = ________
P ( B ) P ( A \ B ) + P( B ) P ( A \ B )
(1 /2 )(1 /2 )

1/4

( l/2 ) ( 1/2) + (1 /2 ) (2 /3 )

1 / 4 + 1/3

re su ltad o q u e n o h a b ra sido posible p re d ecir con slo u sa r argu


m entos de sen tid o com n. O bsrvese que p u esto que las dos u r
nas fu ero n seleccionadas con las m ism as probabilidades, ten d re
m os P ( B ) P ( B ) = .5, lo que h a b ra p erm itid o sim plificar la
f rm u la de Bayes.
C onsiderem os a continuacin u n a clase de p roblem a, p er se m uy
alejad o de la estadstica, p e ro que es razonablem ente realista
desde el p u n to de vista de las probabilidades psicolgicas im pl
citas en la fa lta de conocim ientos, p o r p a r te de u n observador,
en relacin con las frecuencias relativas u o tra s consideraciones
que p u d iera n se r usadas p a ra o b ten er probabilidades a priori.
Supongam os que sabem os que u n g rupo de accin cuenta con
c u a tro m edios alternativos, con costos y probabilidades de xito
diferentes. A dm itam os que u n observador, basndose en su apre
ciacin de los costos relativos de los procedim ientos alternativos,
definidos com o B lt B 2, Bz, B it les asigna las probabilidades sub
jetivas .4, .3, .2 y .1, respectivam ente. Supongam os que calcula
las posibilidades de xito p a ra los m edios alternativos com o .3,
.5, .6 y .9, respectivam ente. Averigua que el g ru p o h a tenido xito
en su accin, p e ro no puede d eterm in a r cul de los m edios fue
el utilizado. Cm o p o d r v alo ra r de nuevo su estim acin origi
n al de las probabilidades de cada uno de los procedim ientos,
sabiendo q ue el xito (A) se h a producido? A plicando la form a
m s generalizada del teo rem a de Bayes p a ra las p rim eras m e
das ( B j), obtenem os:
P (B i|A ) =

P B J P jA lB J

P iB J P iA lB j

(4)(.3)

.12

(.4 )(.3) + (.3)(.5) + (.2) (.6) + ( .l) ( .9 )

.48

_
= .25

De esta fo rm a, apoyndose en este conocim iento adicional,


p o d r el ob servador asignar al p rim e r m todo la probabilidad
su b jetiv a de .25. U tilizando clculos sim ilares asignara a los
re sta n te s m todos las siguientes probabilidades subjetivas : .3125,
.25 y .1875, respectivam ente.

Es m en este r in tro d u cir u n a com plicacin m s. H a sta aqu he


m os escogido problem as m uy sencillos, que casi h ab ra n podido
resolverse intuitivam ente. N o hace fa lta decir que la m ayora
de los problem as de probabilidades son m ucho m s com plejos
que los que se acaban de exam inar. Con o b jeto de o p e ra r con
p roblem as u n poco m s com plicados, es necesario to m ar en
cu en ta el orden en que los acontecim ientos pueden producirse.
Supngase, p o r ejem plo, que querem os h a lla r la probabilidad
d e o b ten er u n as, u n rey y u n a reina en tre s extracciones con
reposicin. Podem os h a lla r la probabilidad de sac ar un as en la
p rim e ra extraccin, u n rey en la segunda y u n a rein a en la te r
cera. E sta pro b abilidad sera de (1/13). P ero esto re p resen ta
la p ro b ab ilid ad d e o b te n e r un as seguido d e u n rey seguido d e una
reina. P ero hay o tras posibilidades de o b ten er u n as, u n rey y
u n a rein a e n tre s extracciones si no nos im p o rta el orden de su
cesin. E n realidad, estos naipes po d ran o b ten erse d e las seis
siguientes m a n e ra s : ARR', A R R , RAR', R R A, R AR, R'RA. Puede
verse q u e cad a u n a de dichas posibilidades p re se n ta las m ism as
probabilidades. P or lo tan to , si nos in tere sa la probabilidad de
sac ar dichas cartas en un orden determ inado cualquiera, pode
m os ad icio n ar sus probabilidades separadas (ya que son m u tu a
m en te exclusivas), con lo que obtenem os 6(1/13).
E n esta form a, sirvindonos de la regla de m ultiplicacin, he
m os re ferid o el acontecim iento A al p rim e r resultado, B al segun
do, y as sucesivam ente. E n otros trm in o s: hem os tom ado en
cu en ta el orden, en ta n to que p o r lo re g u la r estam os m s in te
resados en o b ten er u n a d eterm in ad a serie de resultados. Pode
m os q u e re r sab er la p ro b ab ilid ad de cu a tro ases en u n a m ano
de bridge o de o b ten er u n determ inado p o rc en taje de negros en
u n a m u estra, in d ependientem ente del ord en de la extraccin. Al
calcu lar pro b ab ilid ades de esta clase, ser por lo regular m s sen
cillo d eterm in a r p rim ero la probabilidad de cualquier orden dado
de resultados, y luego, si todos los dem s rdenes son igualm ente
probables, podem os m u ltip licar sim plem ente el n m ero d e los
rdenes posibles p o r la probabilidad de que o cu rra u n o cualquie
r a d eterm in ad o de ellos. O bsrvese q u e al p ro c ed er as nos ser
vimos ta n to de la regla de m ultiplicacin com o de la de adicin.
E x isten f rm u las concretas que p erm iten calcular exactam ente
cuntos sean los rdenes posibles en u n problem a determ inado.
E n las ocasiones en q u e tenem os N diferentes acontecim ientos
q u e o c u rren en u n ord en determ inado, nos referim os a ello
com o u n a p erm u ta de dichos acontecim ientos. E n las ocasiones
en que el ord en carece d e inters, denom inarem os com binacin
a la agrupacin de acontecim ientos. P o r ejem p lo : en el caso de
la com binacin sim ple (A , R , R' ), h a b r seis ordenam ientos dife

ren tes. O bservem os cm o pu ed en obtenerse frm ulas p a ra d eter


m in a r el n m ero de p erm utaciones en casos sencillos.
Com encem os con u n a situacin en q u e todos los acontecim ien
tos N son distintos. De cu n tas m an eras pu ed en se r ord en a
dos? E st claro que si consideram os N posiciones ordinales (p o r
ejem p lo : N sillas dispuestas en fila), la p rim e ra de aqullas po
d r ser ocu p ada p o r cu alq u iera de los objetos o acontecim ientos.
H abiendo llenado esta posicin, podrem os h ac er lo m ism o con
la segunda, utilizando cualq u iera de los N 1 acontecim ientos
re sta n te s, la te rc e ra con u n o de los N 2, etctera. C uando llegue
m os a la ltim a posicin slo nos re sta u n a posibilidad. H ab r
pues:
N ( N - l ) ( N - 2 ) ...

(3 )(2 )(1 ) = N \

rdenes p o sib les; N I es la expresin del largo pro d u cto de la


p a rte izq u ierda de la igualdad, y se le denom in a "facto rial N".
Supongam os p o r ejem plo que tenem os 13 ca rtas, u n a de cada
valor. Las volvem os de c a ra u n a p o r una. C untas son las di
fe ren tes p erm u tacio n es p osibles? La p rim e ra c a rta p u ed e ten er
u n o cu alq u iera de los tre c e valores. Como q u ie ra que esta c a rta
y a h a sido descubierta, la segunda p o d r te n e r u n o cualquiera
de los doce valores re sta n te s, siendo p o r ta n to 13 x 12 las solucio
n es posibles p a ra las dos p rim e ra s cartas. C ontinuando ad elan te
con el m o n t n de ca rtas determ inarem os q u e h a b r :
(1 3 )(1 2)(11)(10) . . . (3 )(2 )(1 ) = 13! = 6 227 020 800
pro ced im ien tos diferentes p a ra o rd e n a r las tre c e cartas.
Supongam os a continuacin que los acontecim ientos n o son
todos d iferentes. C ontam os de nuevo con trec e cartas, p ero dos
d e ellas p u ed en se r ases, y n o distinguirem os e n tre los diferentes
rd enes, re su ltan d o as in d ifere n te el orden en que re su lten se
leccionados los dos ases. Supongam os que h an sid o escogidos
e n las posiciones q u in ta y undcim a. Si h u b iera n sido distintos en
tre s, y en tal caso denom inam os asj y as2, p a ra cada d istin ta p e r
m u taci n en q u e el asx ap a rec ie ra an tes que el as2, h a b ra o tra
p erm u taci n id n tica en la q u e el as2 p re ced e ra al asx. Vemos
as que cuando n o podem os d istin g u ir e n tre estos dos ases, hay
slo la m ita d de p erm u ta s en relacin con el caso de que todos
los acontecim ientos sean distintos. P or ello el n m ero to tal de
p erm u ta s en este caso ser N ' l / 2 ! = Nl / 2 .
Supongam os q u e los ases h u b iera n sido tre s en vez de dos. Si
se les d en o m inase a s1( as2 y as3, observaram os q u e h a b ra habido
3! = 6 p e rm u ta s e n tre dichos ases, im posibles d e distinguir. El
n m ero to tal de p erm u ta s de las trec e c a rta s ser 13 ! / 3 ! E n ge
neral, si h ay N objetos, tres de los cuales no pueden se r distin

guidos de los dem s, h a b r N I / 3! P uede generalizarse fcilm ente


ste razonam iento, am plindolo a m s de u n grupo de objetos
no distintos. Supongam os que n u estras trece ca rtas contienen
tres ases y cu atro reyes, siendo distin tas las seis cartas restantes.
Como q u iera que los ases, caso de se r diferenciados, pueden ser
ordenados de 3! form as, y los cuatro reyes en 4! form as, divi
direm os 13! en tre 3! 4! p a ra llegar al n m ero de p erm u tas verda
d eram en te inconfundibles.
La regla general re su lta ya obvia. Si tenem os N acontecim ien
tos subdivididos de ta l m an era que el p rim e r grupo contenga rx
elem entos no distinguibles, el segundo contenga r2 de dichos ele
m en to s y, en general, el grupo i-smo contiene
de los m ism os,
tendrem os u n to tal k de tales grupos, todos distinguibles en tre
ello s; el n m ero to tal de p erm u tas ser N l / r 1 \r2 l . . . rk \ P ro
poniendo o tro ejem plo: si hay 25 nios, 6 de los cuales tienen
3 aos, 8 de ellos 4 aos, o tro s 9, 5 aos, contando con u n o de
6 y o tro de 7 aos, h a b r 25 !/6!8 !9 !1 !1 ! p erm u ta s e n tre dichos
nios, si solam ente se les diferencia p o r sus edades.
La regla general p a ra d eterm in a r el n m ero de p erm u tas de
acontecim ientos, n o todos los cuales son distintos, p re sen ta un
caso especial m uy im p o rtan te, en aquellas ocasiones en que slo
hay dos clases de acontecim ientos (p o r ejem p lo : xitos y fraca
so s). Si hay N acontecim ientos, r de los cuales son xitos, y N r
fracasos, siendo los xitos n o distinguibles e n tre ellos m ism os y
lo m ism o ocu rre con los fracasos, la regla general p a ra lo g rar el
n m ero de p erm u ta s se red u ce a N \ / r \ { N r ) ! Si p o r ejem plo
lanzam os 10 veces u n a m oneda y obtenem os 6 caras, el nm ero
de disposiciones posibles de caras y cruces ser 10!/6!4! = 210.
E n el captulo siguiente podrem os u tiliza r am pliam ente este caso
especial cuando estudiem os la distribucin binom ial.
*
P uede llegar a re s u lta r tedioso el tra b a ja r con factoriales sin
re c u rrir a sim plificaciones del clculo. P or fortu n a, al tra b a ja r
con razones e n tre factoriales, re su lta posible llevar a cabo una
ca n tid a d considerable de cancelaciones, com o en el caso del
ejem p lo an terio r, en el que e st im plicada la razn 10!/6!4! Los
siguientes son los valores num ricos de los factoriales d e 1 a 2 0 :
1! = 1
2!

3! = 6
4! = 24
51 = 120
6! = 720
7! = 5 040
8! = 40 320
9! = 362 880
10! = 3 628 800

11!
12!
13!
14!
15!
16!
17!
18!
19!
20!

= 3.992 X 10*
=4.790 x 10
= 6.227 X 10
= 8.718 x 10
= 1.308 x l 0
= 2.092 x 1013
= 3.557 x lO 1*
= 6.402 x 10
= 1.216 X 101*
=2.433 X O1

P a ra valo res m s elevados de N re su lta posible p re c isa r los l


m ites e n tre los cuales se h a lla r N I, utilizando p a r a ello la aproxi
m acin de S tirlin g :

^ ( - r ) ' < * ' < v 5 (-4 -) ' ( i + - s ^ r r )


en la q u e jt 3.14159 y e 2.71828. Los estu d ian tes fam iliariza
dos con el u so d e logaritm os e n c o n tra r n m uy conveniente tra
b a ja r con los logaritm os de los factoriales, convirtiendo as pro
du cto s en sum as y razones en diferencias. P or ejem p lo :
,

/ 8! \

8 7 6 5 4 3 2 1

, o g ( T r ) = 1 B

r
= jlo g 8 + log 7 + lo g + log 5 + log 4 + log 3 + log 2 + log l l
r
-i
- jlo g 3 + log 2 + log 1j = log 8 + log 7 + log 6 + log 5 + log 4
A lgunos ejem plos. E studiem os a h o ra algunas aplicaciones de
estos prin cip io s a o tro s p ro b lem as de pro b ab ilid ad , d e n atu raleza
algo m s com plicada que la d e los que hem os v isto h a s ta ahora.
Como e s t im p lcito en la in tro d u cci n a esta seccin, u n a im
p o rta n te e stra te g ia general en el caso de m uchos pro b lem as en
los que el o rd en d e seleccin carece de im p o rtan cia consiste
e n calcu lar la p ro b a b ilid ad d e u n a d eterm in a d a p erm u ta , m u lti
plican d o a continuacin aq u lla p o r el n m ero de p e rm u ta s im pli
cadas. Supongam os q u e deseam os, p o r ejem plo, o b te n e r la p ro
b ab ilid ad de conseguir ex actam ente u n as y p o r lo m enos dos
reyes en c u a tro tira d a s, con reposicin d e ca rtas. O bservarem os
que esto p u ed e re alizarse al o b ten er bien u n as y tre s reyes o u n
as, dos reyes y alguna o tra c a rta q u e n o sea as ni rey. Si re p re
sen tam o s sim blicam ente estas posibilidades com o A R R R y ARRO
(en donde "O " re p re se n ta " o tra c a rta " ), verem os que hay 4 ! / 3 ! =
4 fo rm as de o rd e n a r el as y los tre s reyes, m ie n tra s existen
4 !/2 ! = 12 m an eras de d isponer la com binacin ARRO . P o r ser
d iferen tes los n m ero s d e las p e rm u ta s en am bas situaciones es
p o r lo que debem os m an ten e rlas diferenciadas. Si n u e stra p ru e
b a es con reposicin, la p ro b a b ilid ad de o b ten er u n as en una
sola tira d a es de 1/13, com o lo es la de o b te n e r u n rey, en tan to
que la p ro b a b ilid ad d e sac ar u n a O es de 11/13. As re su lta que
la p ro b ab ilid ad de o b te n e r ex actam en te u n as y dos o m s reyes
ser:
4(1 /1 3 )4 + 12(1/13)*(11/13) = 136/28 561 = .0048

Supongam os que deseam os o b ten er la p ro b a b ilid ad de conse


guir exactam en te u n as y p o r lo m enos dos corazones en c u a tro
tirad a s, con reposicin. A parece a h o ra u n a com plicacin m s,
y a q u e u n o de los corazones puede s e r u n as. S er conveniente
d istin g u ir e n tre c u a tro tip o s de c a rta s : el as d e corazones (AC),
cuya p ro b a b ilid ad de se r seleccionado es d e 1/52; los ases n o de
corazones (A C ), con p ro b a b ilid ad de 3/52; los n o ases d e cora
zones (A C ), con p ro b a b ilid ad de seleccin de 12/52, y los n o ases
d e corazn ( A C ) con u n a p ro b ab ilid ad de 36/52 de se r sacados.
La su m a de to d as e sta s pro b ab ilid ad es es n a tu ra lm e n te igual a la
u n id ad ya q ue los tipos en cuestin son m u tu am en te exclusivos
y exhaustivos.
Despleguem os a continuacin las com binaciones que pueden
p ro d u c ir ex actam ente u n as y dos o m s corazones, calculando
el n m e ro de p e rm u ta s en cada caso. D ichas com binaciones son
las sig u ien tes:
a) E x actam ente dos corazones:
AC, C,

AC, AC (41/21) [1/52 12/52 36/52 36/52] =

.02552

AC, AC,

AC, AC ( 4 ! /2 ! ) [3/52 12/52 12/52 36/52] =

.02552

b ) E x actam ente tre s corazones:


AC, AC, AC, AC ( 4 ! /2 ! ) [1/52 12/52 12/52 36/52] =

.00851

AC, AC, AC, AC ( 4 ! /3 ! ) [3/52 12/52 12/52 12/52] =

.00284

c ) E xactam ente c u a tro co razo n e s:



00094
AC, AC, AC, AC (41/31) [1/52 12/52 12/52 12/52] =
~
S u m an d o estas pro b ab ilid ad es de acontecim ientos m u tu am en te
exclusivos obtenem os u n to ta l de pro b ab ilid ad es de .063.
C onsiderem os p o r fin u n a situacin en la que es m s conve
n ien te d ib u ja r lo que se denom ina u n diagram a de rbol que re
p resen te las d istin tas posibilidades. O curre a veces que una
secuencia de acontecim ientos te rm in a en p u n to s d iferentes, se
gn sea el desenlace de o tro s acontecim ientos previos.
La ilu straci n m s fam iliar de este hecho se observa en los
eventos atlticos en los que u n equipo se r declarado vencedor
si gana dos de tre s juegos, o tal vez c u a tro d e siete, y en los que
no hay necesidad de seguir jugando u n a vez que el n m ero n e
cesario de juegos h a sido ya ganado. Supongam os que hay dos

equipos A y B jugando u n a serie de dos de tre s . Supongam os


tam bin que A es el m e jo r equipo y que, con b ase en sus an te
rio res resu ltad o s, se le asigna u n a p ro babilidad de .6 p a ra ganar
cu alq u ier juego dado. E n u n ejem plo m s realista, la pro b ab i
lidad de g an a r cada juego puede cam biar segn los resultados
de los juegos precedentes, lo que podrem os d eterm in a r utilizando
el m todo que vam os a proponer. P ara m ayor sencillez tom e
m os com o p = .6 la p ro babilidad de que el equipo A gane cada
juego, en cuyo caso q = .4 re p resen ta r la pro b ab ilid ad del
equipo B p a ra vencer en cada juego. Se supone, p o r tanto, que
las p ru eb as sucesivas son independientes. Cul es la probabili
d ad de que el equipo A gane la serie? Cules son las p robabilida
des individuales de cada posible secuencia de ganancias y p r
didas?
Podem os ex p resar las posibles secuencias en el diagram a si
guiente :
Ganador del
prim er juego

Ganad or del
segundo juego

Ganador del
tercer juego

La ram a su p erio r del rbol re p resen ta las posibilidades, suponien


do que A h a ganado el p rim er juego, en ta n to que la ram a b aja
re p resen ta las correspondientes al triu n fo inicial de B. Si A
gana el segundo1 juego despus de h ab e r ganado el prim ero, la
serie se detiene, y A gana con u n a probabilidad de p 2. Sin em
bargo, si A gana el p rim e r juego y B el segundo, es preciso jugar
u n te rc e r juego. Si ste es ganado p o r A la serie se detiene, y A
gana con pro b abilidad de p 2q, p ero si B gana el te rc e r juego gana
la serie con probabilidad p q \ E sta clase de series da origen a
u n rbol p erfectam ente sim trico, aun cuando es evidentem ente
posible in v en tar com petencias con handicaps que produzcan rbo
les asim tricos. P or ejem plo, el equipo A puede n ecesitar ganar
cuatro juegos en tan to B con slo tres vencer.
Las probabilidades de las varias posibilidades pueden s e r ya
com putadas com o sigue:

Secuencias segn las cuales


vence el equipo A(p = .6)
p2 =

.3 6 0

pqp = , 144
q p p = .1 4 4
P ro b a b ilid a d d e
g a n a r la s e rie

Secuencias segn las cuales


vence el equipo B (q = .4)
42 =

160

pqq ~ .0 9 6
qpq = . 0 9 6

------.6 4 8

.3 5 2

E l h ech o de que las probabilidades sum an u n a u n id a d puede


re p re se n ta rse alg ebraicam ente com o sigue:
p 2 + 2p 2q + 2 p q 2 + q 2 = p 2 + 2p q ( p + q) + q s
= p z + 2p q + q2 = ( p + q )2 = 1
IX.4. Valores esperados
U na idea, su rg id a p ro b a b le m en te en u n casino de juego, tiene
im p o rtan tes aplicaciones estadsticas. C onsiste e n que si u n o r e
p ite u n ex perim ento u n g ra n n m ero de veces, h aciendo apues
tas so b re los resultados, ser posible calcu lar las ganancias (o
p rd id a s ) esp eradas, con b ase e n diferentes suposiciones acer
ca de la n atu raleza del juego que e st siendo p racticad o . P ara
p o n e r u n ejem plo m uy sencillo, supongam os que se e stn echan
do m o n ed as a cara o cruz, apostando siem p re a caras, y que
cad a vez q ue ap arece u n a c a ra se gana u n peso, p ero se p ierd en
2 pesos p o r cada vez que sale cruz. B ajo el su p u esto de que la
m o n ed a no h a sido p re p a ra d a , es evidente que u n o n o d eseara
m a n te n e r ta l juego d u ra n te m ucho tiem po. P ero cm o pu ed en
calcu larse las ganancias o prd id as esp erad as en o tro s casos m s
com plejos?
E n el sencillo ejem plo a n te rio r el sentido com n su g erira m ul
tip lic a r la p ro b ab ilid ad d e cada aparicin p o r la ganancia o la
p rd id a co rresp o ndiente a dicho resultado, sum ando a continua
cin los resu ltad os. O btendram os as com o "ganancia" esperada
la can tid ad (1) ( Vi) + ( 2) ( Vz) = .5. E sto significa que, com o
prom edio, u n o h a b ra de e sp e ra r p e rd e r 50 centavos p o r tirad a.
Las ganancias o p rd id a s reales pu ed en p o r su puesto d ife rir de
e s te v alo r esp erado, p e ro si hubisem os de confiar en la teora
d e las p ro b ab ilidades y jugsem os u n bu en n m ero de veces,
n u e s tra p rd id a to ta l sera aproxim adam ente de ,5V, en donde
N re p re se n ta el nmero- de tiradas.
Como segundo ejem plo, supongam os que lanzam os un solo
dado, recibiendo u n p eso si sale p a r ; perdiendo dos pesos si sa
len uno- o tres p untos, y ganando tres pesos si salen cinco pun
tos. S uponiendo q u e to d as las caras tienen las m ism as posibili
d ades de salir, n u estra s ganancias esperadas seran:

( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( - 2 ) ( l / 6 ) + ( 1 X 1 / 6 ) + ( 3 ) ( 1/6) +
+ ( 1 X 1 / 6 ) = 1/3 = 1.333

p o r juego. E n general, si hay k posibles resultados X t , X 2, . . . ,


X k, y si la p ro b ab ilid ad de X es d ad a p o r p ( X i ) , podrem os defi
n ir el valor esp erad o de las variables X, indicando con el sm bolo
7c
E ( X ) , com o: E ( X ) = 2 X t p i X ^ . E n los ejem plos considerai=l
dos h a sta ahora, la X t h a rep resen ta d o pagos (e n pesos) p ara
cada g rupo de resultados, p ero es posible concebir en trm inos
m s generales esta idea del v alor esperado.
Supongam os p o r ejem plo que tenem os u n a poblacin que con
tien e N individuos con puntuaciones en la X variable. Si elegi
m os al azar e n tre esta poblacin, cada individuo te n d r una
pro b ab ilid ad de / N de se r seleccionado. Cul es el valor espe
ra d o de X ? E n este caso te n d ra m o s :
E ( X ) = X1p(.X1) + X zp ( X ) + . . . + X x p { X N)
= ( X 1 + X 2 + . . . + X lr) ( l / N ) - X
y obtendrem os el in tere sa n te re su ltad o de q ue el v alor espera
do de X es su m edia, suponiendo que el m uestreo sea aleatorio.
A p a rtir del ca p tu lo siguiente n o s ocuparem os am pliam ente
de las distribuciones de probabilidades, llam adas distribuciones
p o r m uestreo. E n sentido estricto, tales distribuciones son infi
nitas, ya que se refieren a probabilidades que aqu definim os
solam ente en trm inos lim itadores. Podem os sin em bargo m en
cionar estas distribuciones de p ro b ab ilid ad com o si tuviesen va
lores esperados in terp re tab les com o sigue: im aginem os m us
treo s aleatorios hechos rep etid am en te con u n a d eterm in ad a
poblacin. Si tal poblacin tiene u n a m edia a la que denom ina
rem os con la le tra griega i, entonces E ( X ) = p,. D esearem os en
co n tra r tam bin los valores esperados de o tras cantidades, tales
corno la m u estra m edia X , la que a su vez re su lta te n e r su valor
esperado de E ( X ) igual a x, en el caso de m u estreo aleatorio.
O tra expresin de considerable in ters terico e n la estadstica
es E [ X E ( X ) 2 S, la que en el caso del m u estreo aleatorio, para
el cual E ( X ) = p, es 2 (X, - n)2 p (X 4) = l / N 2 ( X t - u P , o la
=1
==1
variancia de X. Aun cuando no harem os gran uso de la notacin
corresp o n d ien te a valores esperados, probab lem ente se encon
tra r n referencias a la m ism a en textos m s avanzados, ya que
en las p ru e b as de estad stica m atem tica es em pleada am plia
m ente.

Todas las p ru eb as estad sticas a exam inar en este texto p a rte n


del su p u esto de que hay independencia e n tre los acontecim ientos
y que, p o r consiguiente, las probabilidades condicionales n o han
de em p learse al m u ltip licar las probabilidades.11 E n o tro s t r
m in o s: se supone que existe independencia d e seleccin en el
in te rio r d e u n a m u estra, n o teniendo la seleccin de u n indivi
duo in flu en cia alguna so b re la seleccin de o tro a in clu ir e n la
m ism a m u estra. Sin em bargo, se d an m uchos casos e n que se
pro p en d e a violar dicho im p o rta n te supuesto. De ah que el lec
to r d eba acostum brarse a p re g u n ta r siem p re si el su p u esto de
independencia est o n o efectivam ente ju stific ad o en cualquier
p ro b lem a dado. S er til, e n e ste p u n to , in d icar unos pocos
ejem plos de situaciones en las que se co rre riesgo de p rescin d ir
del su p u esto en cuestin.
Los estad g rafo s o b tienen a m enudo lo que se designa com o
m u estra al azar (o m u estra irrestricta aleatoria) con o b jeto ta n
to de satisfacer el su p u esto necesario d e independencia com o
p a ra d a r a to d o individuo de la poblacin considerada u n n m ero
igual d e oportu n id ades de fig u ra r en la m u estra. Sirvindonos
de u n a ta b la de nm eros al azar o algn o tro arreglo p o r el
estilo, p u ed e ob ten erse u n a m u e stra en fo rm a esencialm ente idn
tica a la de e x tra e r naipes de una b a ra ja bien b a ra ja d a o nm e
ro s en u n ju ego de lo tera. La m u e stra a lea to ria posee la p ro p ie
d ad no slo d e dar a cada individuo la m ism a oportunidad de
ser seleccionado, sino tam bin la de proporcionar a cada co m b i
nacin de individuos una oportunidad igual de seleccin -12
E n rigor, com o q uiera que casi siem pre extraem os las m u estras
sin reposicin, el su p u esto de independencia n o se cum ple p o r
com pleto. Sin em bargo, cu an d o la poblacin es grande en rela
cin con la m ag n itud de la m uestra, podem os olvidar perfecta
m en te la peq u e a d istorsin re su ltan te de que a ningn individuo
se le d la o p o rtu n id ad d e se r seleccionado o tra vez. P or ejem
p lo : si de u n a poblacin de 100 m il p erso n as se extraen 500, las
p ro b ab ilid ad es son m uy pequeas de que alguna de ellas volviera
a seleccionarse en el caso de que su nom bre se p u siera de nuevo
e n el grupo. Y en form a anloga, la diferencia es p rcticam en te
m uy p eq u e a si reponem os o n o al ex tra er slo tres cartas de u n a
b a r a ja ; p ero, si ex trajram o s 35, la diferencia sera considerable.
Si la m u e stra es relativam ente grande en com paracin con la
11
E s lo q u e s e v e r e n el c a s o d e a b in o m ia l q u e s e e x a m i n a r e n e l
s ig u ie n te c a p tu lo . S in e m b a r g o , e n el c a s o d e o t r a s p r u e b a s , e l le c to r h a b r
d e a c e p t a r s im p le m e n te la v e r d a d d e e s t e a s e r to .
a s E n e l c a p . x x i s e d i s t i n g u i r l a e x tr a c c i n d e m u e s t r a s a l a z a r d e o t r a s
f o r m a s d e e x tr a c c i n d e u s o c o r r ie n t e , ta le s c o m o la s i s t e m ti c a , la e s t r a t i
f i c a d a y l a d e c o n g lo m e r a d o s .

poblacin, entonces puede ap licarse a veces u n fa c to r de correc


cin p a ra com pensar la fa lta de rem plazo.13
P ese a que los problem as re su ltan te s de la fa lta d e rem plazo
no> sean graves, la fa lta de p ro p o rcio n ar a cada com binacin de
individuos la posibilidad de ap arecer en la m u e stra puede tra d u
cirse en u n a grave violacin del supuesto de independencia. Su
pngase, p o r ejem plo, que nos dispusiram os a clasificar los n ai
pes corrientes en c u a tro m o n to n es: uno p a ra los trboles, o tro
p a ra las espadas, etctera. Supngase luego que furam os a se
leccionar u n o de dichos m ontones al azar. E s obvio q u e cada
c a rta de la b a ra ja te n d ra la m ism a o p o rtu n id ad (I sobre 4) de
se r seleccionada, p ero in d u d ab lem en te todas las com binaciones
no seran posibles, y n o digam os ya igualm ente probables. E n
efecto, sab iendo que el n aipe de encim a es u n a espada, sabem os
q u e todos los dem s naipes del m o n t n son igualm ente espadas.
Las m u estras de rea o p o r conglom erados em pleadas com n
m en te en las investigaciones sociales n o cum plen el su p u esto de
independencia p o r esta m ism a razn. E n efecto, si se seleccionan
al azar 100 m anzanas de casas de u n a poblacin y luego se in
cluye en la m u e stra cada te rc e ra fam ilia de las m anzanas en cues
tin, es obvio que to d as las com binaciones de fam ilias no tienen
la m ism a o p o rtu n id ad d e fig u ra r e n aqulla. E n efecto, dos fa
m ilias de la m ism a m anzana tien en m ayor o p o rtu n id ad de fig u rar
en la m ism a m u estra de lo que es el caso de dos fam ilias en dos
m anzanas distin tas. Como quiera que las m anzanas de casas u rb a
n as suelen se r p o r lo re g u la r relativ am en te hom ogneas e n cuanto
a ca rac te rstic as tales com o el ingreso o la in stru cci n del jefe
de fam ilia, el re su ltad o de sem ejan te tip o de extraccin d e m ues
tr a ser m enos exacto q u e u n a seleccin de u n a m u e stra aleatoria
del m ism o tam ao. E sto puede verse in tu itiv am en te si im agina
m os u n a situacin en que to d as las m anzanas sean to talm en te
hom ogneas, com o e ra el caso de los c u a tro m ontones de naipes.
E n tal caso, en efecto, slo necesitaram os o b te n e r inform acin
acerca de u n a vivienda e n cada m anzana, y el n m ero de "casos"
sera de h echo el n m ero de las m anzanos seleccionadas, esto
es, u n N b a sta n te m enor. Segn verem os en el captulo xxi, es
posible o b ten er unos resu ltad o s ex trem adam ente engaosos, si h a
biendo ex trad o una m u e stra sem ejan te p o r conglom erados, el
investigador se sirve luego de pru eb as estadsticas que presupon
nen u n a extraccin al azar.
Un p ro b lem a anlogo p u ed e fcilm ente en c o n trarse cuando se
est in teresado en los actos individuales de conducta. Supngase,
p o r ejem plo, que u n socilogo efecta u n experim ento en el que
se sirve de 30 su jeto s, cada uno de los cuales fo rm u la 50 juicios
d istintos. Se ten d ra n en tal caso 1 500 juicios, y nos podram os
ver inducidos a servim os en u n a p ru e b a estad stica d e sem ejani s V a s e se c c . X X I .l.

te N artificialm en te ponderada, suponiendo que los 1 500 juicios


en cuestin co n stituyeran u n a m u estra al a z ar de los juicios de al
gn tip o de poblacin. P ero sera m anifiestam ente ab su rd o en
la m ayora de los casos su p o n er que los juicios de u n m ism o
individuo son estadsticam ente independientes unos de otros. En
efecto, suS p rim eros 30 juicios afectarn probablem ente a los de
m s, ya que a diferencia de la m oneda, la p erso n a s tiene m e
m oria.
Supngase que u n socilogo se in tere sa a n te todo en p ares de
perso n as, com o unidad, m s que en el individuo singular. Puede
te n e r u n grupo de 20 personas, cada u n a de las cuales est en
interacci n con to d as las dem s. T endra, en consecuencia, (20)
(1 9 )/2 o 190 p ares de personas, p e ro no e stara en condiciones
d e co n sid erar cada p a r com o in dependiente de los otros. Es
obvio que el conocim iento a p ro p sito del p a r Sm ith-B row n su
m in istra r p ro b ab lem en te alguna inform acin sobre los p ares
Sm ith-Jones o B row n-Jones, ya que las m ism as personas figuran
en varios pares.
Los eclogos, antroplogos y otros socilogos in teresad o s en
generalizar a p ro p sito de localidades, sociedades u o tra s u n id a
des definidas espacialm ente necesitan tam bin p reo cu p arse de la
fa lta de independencia en u n a gran p a rte de su labor. Aqu el
p ro b lem a p arece derivarse del hecho de que las unidades selec
cionadas n o son a m enudo claram ente distintas. E n efecto, las
fro n te ra s de u n a sociedad o u n a localidad pueden se r difciles
de definir, y u n a u n id ad sem ejante puede p a s a r gradualm ente a
la o tra, siendo las divisiones m s o m enos arb itra ria s.14 As, p o r
ejem plo, si se utilizan com o unidades los d istrito s del censo en
el in te rio r de u n a ciudad o los d istrito s te rrito ria le s en el in te rio r
de u n E stado, re su lta a m enudo posible p re d ecir a p ro p sito de
u n a u n id ad sobre la b ase d e la un id ad vecina. Si la cuota de delin
cuencia es elevada en u n distrito, es pro b ab le que lo sea tam bin
en el vecino, y a q ue es incluso posible q u e las m ism as ban d as
de delincuentes se extraigan de am bos distritos. Que "algo no
e st en o rd e n en relacin con el su p u esto de independencia p u e
de p ercib irse in tu itiv am en te dndose cuenta de que, cuando las
u n id ad es no son claram ente distintas, sera posible p o n d e ra r el
n m ero de "u n id a d es a cualquier tam a o deseado, co rtan d o
sim plem ente el p astel en m uchos pedazos pequeos. As, p o r
ejem plo, si no h ay b astan te s sociedades en el m undo p a ra o b ten er
significancia estadstica, p o d ra dividirse cada sociedad en 10
subregiones y o b ten er 10 veces m s "casos.
14 E s t a s i t u a c i n s e p a r e c e r a e n c i e r t o m o d o a l a d e u n a b a r a j a c a d a u n a
d e c u y a s c a r t a s p a s a r a in s e n s ib le m e n te a la s o t r a s , d e m o d o q u e r e s u l t a r a
d if c il d e c i r d n d e u n a d e e lla s t e r m in a b a y e m p e z a b a l a o t r a . O t a m b i n ,
q u e c a d a c a r t a f u e r a c a p a z d e i n f lu i r l o s v a lo r e s f ig u r a d o s d e s u s v e c in a s
in m e d ia ta s !

E n u n tex to com o ste n o es po sib le exam inar soluciones a los


pro b lem as q ue com portan violaciones del su p u esto de indepen
dencia. Que el a u to r sepa, m uchos de dichos problem as n o h an
sido resu elto s satisfactoriam ente. R esulta a m en u d o difcil apre
c ia r la g ravedad de los erro res introducidos cu an d o no se cum
p len su p u esto s requeridos, com o el de independencia. Pisam os
terren o firm e siem pre que tenem os la seg u rid ad d e que los su
puesto s re q u erid o s p a ra alguna p ru e b a s se c u m p le n ; p e ro si no
se cum plen, ra ra m e n te re s u lta posible decidir exactam ente en
q u m edida nos ap artam o s de dichos supuestos. Con o b jeto
de e s ta r seguro, el lecto r h a de ac o stu m b ra rse a exam inar cuida
d o sam ente to d o supuesto. Si se tien en m otivos p a r a d u d a r de
la validez d e alguno, entonces h a b ra q u e co n sid erar seriam ente
el serv irse de o tro p rocedim iento que n o lo contenga. As, p o r
ejem plo, p o d ra decidirse re c u rrir a o tra u n id a d de anlisis, o sea
a la p erso n a, m s bien q u e a los actos de la co nducta o a los
p ares de personas, o b ien a los delincuentes p a rtic u la re s m s que
a las ta sa s de delincuencia e n relacin con u n d istrito del censo.
Si bien los socilogos y o tro s que se sirven d e la estad stica
aplicad a h a n p ro p en d id o en ocasiones a p re sc in d ir d e los supues
tos, llegando as a conclusiones infundadas, es tam b in posible,
p o r o tra p a rte , p e c a r de p ru rito excesivo d e perfeccin. Como
q u iera que, en efecto, n o nos la s habernos n u n ca con situaciones
ta n sencillas com o las de lan zar u n a m oneda al a ire o sac ar nai
p es de u n a b a ra ja p erfecta, re su lta siem pre posible p o n e r en tela
de ju icio cu alq u ier pro ced im ien to a ttu lo d e im p erfecto en rela
cin con el ideal q u e se persigue. S e p u ed e a b rig a r u n tem o r
ta l de v io lar supuestos, que se p re fiere p re sc in d ir p o r com pleto
de to d a tcn ica estadstica. E s necesario, so b re to d o e n u n a dis
ciplina q u e se ca rac te rice p o r estudios exploratorios y tcnicas
cientficas relativ am en te im precisas, llegar a com prom isos con
la realidad. E l proced im ien to m s indicado co n sistir en h acer
el m en o r n m ero de com prom isos posible, d e n tro d e los lm ites
de lo p racticable.
Gwsario

Sucesos
Lmite
Sucesos m utuam ente exclusivos
Probabilidad
Muestra aleatoria
Independencia estadstica
E jercicios

1. En un simple lanzamiento de u n dado no cargado, cul es la pro


babilidad de:

a)
b)
c)
d)
e)

sacar u n
no sacar
sacar un
sacar un
sacar un

6?
un 6?
1 o un 6? Respuesta, 1/3
1 y un 6?
nm ero im par o un 6?

2. Cul es la posibilidad de obtener cada uno de los siguientes


resultados en tres extracciones de un juego de naipes bien barajado:
a) tres sotas, con reposicin? Respuesta, 1/ 2197.
b) tres sotas, sin reposicin? Respuesta, V6 520c) una espada, un corazn y un diam ante (en cualquier orden),
con reposicin?
d) exactamente dos ases, con reposicin?
e ) por lo menos un as, con reposicin? (Indicacin: cul es la al
ternativa por al menos un as?) Respuesta, 4/2197.
*f) por lo menos un as y por lo menos un rey, con reposicin?
[Indicacin: en f) y en algunos de los ejercicios que siguen, ser
til dividir el problema en tres pasos: 1 ) determ inar las distintas
combinaciones de cartas que dan por lo menos un as y por lo
menos un rey (v.gr., un as, un rey y otra carta cualquiera: dos
ases y un rey, etctera); 2 ) determ inar la probabilidad de obtener
dichos naipes en cualquier orden particular; y 3) determ inar
para cada una de dichas combinaciones el nmero de ordena
mientos posibles.]
3. Supngase que se interroga a 1000 novatos acerca de sus gustos
musicales. Se encuentra que 400 de los estudiantes son aficionados a
la m sica clsica, en tanto que los restantes no lo son. De estos 400
aficionados, slo a 100 les gusta el rock and rail. Hay 400 personas
a las que no les gusta ni un gnero ni otro de msica, en tanto que a
las restantes les gust slo el rock and roll.
a) Si se escoge un estudiante al azar, de entre la poblacin en
cuestin, y si A es el acontecimiento consistente en que le gusta
la msica clsica y B el acontecimiento consistente en que le
guste el rock and roll, cules son P(A), P(B), P(A\B) y P(B|A)?
b) Verifiqese num ricam ente que
P ( A & B ) = P(A)P(B|A) = P(B)P(A\ B)
c) Cul es la probabilidad de seleccionar una persona a la que
guste uno de los dos gneros de msica, pero no ambos?
*d) Observando que una persona puede tener uno de cuatro tipos de
gusto (que le gusten los dos gneros, que no le guste ninguno,
etctera), cul es la probabilidad de que tres estudiantes selec
cionados al azar como compaeros de cuarto tengan los mismos
gustos? (Supngase reposicin). Respuesta, .10.
*e) Cul es la probabilidad de que haya por lo menos dos aficiona
dos al rock and roll en un corredor de ocho personas? (Supn
gase seleccin al azar, con reposicin.)

" 4. En los datos que se consignan a continuacin, supngase que A


es el acontecimiento consistente en seleccionar un varn, B el acon
tecimiento consistente en seleccionar una persona de cultura univer
sitaria, y C el consistente en seleccionar una persona de grado elevado
de prejuicio:

Grado de
prejuicio
Alto
Bajo

Cultura inferior a
universitaria

Cultura universitaria
Varones

Mujeres

Varones

Mujeres

100
150

50
100

200
150

250
200

a) Hllese P(A & B & C) en una sola extraccin, sin servirse de


frmula. Verifiqese que la frmula es cierta en el caso de los
datos numricos de este ejercicio.
b) Hgase lo mismo para P ( A o B o C ) . Ser preciso desarrollar la
frmula para P(A 0 B 0 C).
c) Cul es la probabilidad de seleccionar exactamente un varn de
cultura universitaria, exactamente una m ujer de cultura univer
sitaria y exactamente una persona de alto grado de prejuicio en
una extraccin al azar de tres personas? (Supngase reposicin.)
*
5. Los estudiantes inscritos en un curso de introduccin a la socio
loga de la Universidad de Michigan fueron clasificados segn sus
aspiraciones profesionales para s mismos o para sus cnyuges, con
forme al sexo de los interrogados. Se obtuvieron los siguientes d ato s:
Sexo

Aspiraciones
elevadas

Aspiraciones
modestas

Total

Varones
Mujeres

43
71

10
93

53
164

Total

---

__

114

103

217

Supngase que de esta poblacin de 217 estudiantes se seleccionan


aleatoriam ente individuos,
a) Cul es la probabilidad de seleccionar un estudiante de aspira
ciones elevadas? Cul es la probabilidad de seleccionar un estu
diante de aspiraciones elevadas, en el supuesto de que sea varn?
En el supuesto de que sea mujer?
b) Supngase que de dicha poblacin se seleccionan individuos al
azar (sin reposicin), indicando por suposicin en cada caso si se
trata de un individuo de aspiraciones elevadas o modestas. Con
qu frecuencia se supondr que tiene aspiraciones elevadas? Mo
destas? Por qu? En 217 extracciones, cuntos errores se es
pera cometer? Respuesta, 103.

c) Supngase que se sabe el sexo del estudiante. Dado que es varn,


cuntos errores se espera cometer al asignar los 53 varones
a las categoras respectivas de aspiraciones elevadas o modestas?
Cuntos en relacin con las mujeres? Respuesta, 10; 71.
d ) Cmo podra construirse un ndice que mostrara la reduccin
proporcional de errores, si el interrogado es varn, en compara
cin con los errores en el caso de desconocerse el sexo? Como
se ver en el captulo xv, semejante ndice puede emplearse para
medir la fuerza o grado de relacin entre el sexo del interrogado
y sus aspiraciones profesionales.
* 6. Hgase un diagrama de rbol para calcular las probabilidades
de todos los resultados posibles de una Serie Mundial (el que gane
4 juegos de un mximo de 7), suponiendo que la probabilidad de que
el equipo de la Liga Nacional gane cada juego es de .6.
B ibliografa

1. Alder, H. L., y E. B. Roessler: Introduction to Probdbility and Sta


tistics, 4- ed., W. H. Freeman and Company, San Francisco, 1968,
cap. 5.
2. Feller, William: An Introduction to Prohability Theory and Its
Applications, 3? ed., John Wiley & Sons, Inc. Nueva York, 1967.
3. Freund, J. E .: M odem Elementary Statistics, 3 ed., Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1967, caps. 5 y 6.
4. Gelbaum, B. L., y J. G. M arch: Mathematics for the Social and
Bekavioral Sciences, W. B. Saunders Company, Filadelfia, 1969,
caps. 24.
5. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva
York, 1963, caps. 2 y 4.
6. Kemeny, J. G., J. L. Shell y G. L. Thompson: Introduction to Finite Mathematics, 2- ed., Prentice-Hall, Inc., Englewood, Cliffs, N. J.,
1966, caps. 3 y 4.
7. Mueller, J. H., K. Schuessler y H. L. Costner: Statistical Reasoning in Sociology, 2* ed., Houghton Mifflin Company, Boston, 1970,
cap. 8.
8. Savage, L. J . : The Foundations of Statistics, John Wiley & Sons,
Inc., Nueva York, 1954, caps. 1-3.

X . P R U E B A S D E H IP T E S IS : LA D IS T R IB U C I N
B IN O M IA L
E n ciencias sociales nos encontram os a m enudo fre n te a sim ples
dicotom as com o la d e si u n individuo posee o n o u n determ inado
a trib u to o d e si u n experim ento h a tenido xito o h a fracasado.
E n tales casos, siem p re que sea posible fo rm u la r u n a hiptesis
acerca de cierta p ro b ab ilid ad de xitos, siem pre que las p ruebas
sean indep endientes u n as d e o tra s y siem pre que el n m e ro de
stas sea relativ am en te pequeo, es posible servirse de p ru eb as
estad sticas q u e se co m p o rtan com o u n a distribucin binom ial.
Pese a que existen num erosas p ru e b as estad sticas m s prcticas
que las q u e se sirven de la distribucin binom ial, es conve
niente, con todo, dedicar u n tiem p o considerable a dicha d istri
bucin, a causa a n te to d o de su sencillez. Al em p lea r la d istrib u
cin binom ial, el estu d ian te puede seguir en fo rm a relativam ente
fcil to d o s los pasos que aqulla com porta, obteniendo con ello
u n a visin d e los procedim ientos generales em pleados en todas
las p ru e b as estadsticas.
Es p ro b ab le que al le c to r el p re sen te captulo se le an to je
com o excepcionalm ente difcil, debido al hecho de que se expo
n en e n el m ism o cierto n m e ro de ideas nuevas en fo rm a m s
bien com pacta. M uchas de esas ideas vuelven a tra ta rse e n el
captulo xi, y es tal vez p re ferib le que el le c to r considere estos
dos captulos com o u n a sola unidad, leyendo el captulo xi an tes
d e d o m in ar p o r com pleto la m a teria del p resen te. E n p articu lar,
se puede d e ja r p a ra despus la lectu ra de la seccin X.3, que
tra ta de diversas aplicaciones de la binom ial, y de la seccin X.4,
so b re extensiones.
X .l. La distribucin de m u estreo binom ial
Antes d e exam inar cada u n o de los pasos im plicados en las p ru e
bas estadsticas, ser conveniente co n sid erar cm o se obtienen
las d istribuciones binom iales. P o r el m om ento sim plificarem os
la cuestin lim itndonos al lanzam iento de m onedas. E n este
tip o de p roblem as, el n m ero de los lanzam ientos constituye la
m ag n itu d de la m u estra, y n u e stro in ters se ce n tra en el nm ero
de caras (xitos) obtenidas en N pruebas.
S uponiendo q u e las N p ru e b as (lanzam ientos de m onedas) son
estad sticam en te in d ependientes u n a de o tra , podem os evaluar
in m ed iatam ente la p ro b ab ilid ad d e o b ten er r caras y N r cru
ces en algn orden p artic u la r. Podem os, p o r ejem plo, o b ten er
la p ro b ab ilidad de conseguir r caras sucesivas seguidas de N r
cruces. Supongam os que p es la p ro b ab ilid ad de o b ten er una
160

c a ra ; en este caso, la p ro babilidad de o b ten er u n a cruz, que


designam os com o q, se r de 1 p. Como q u iera que las p ru eb as
son independientes, podem os m ultiplicar sim plem ente las p ro b a
bilidades incondicionales. La p robabilidad de obtener exacta
m en te r caras en el orden que se acaba de indicar s e r :
p p p .... p
q q q . . . q = p 'q * '-'
____ _ ______ J
*______ _______ f
r trm inos
N r trm inos
E s obvio que en los supuestos de independencia estadstica y
p ro b a b ilid ad co n stante de los xitos (v.gr., la m oneda n o se des
g asta de m odo irre g u la r), la p ro babilidad de o b ten er cualquier
o tro o rd en p a rtic u la r de r caras y N r cruces ser tam bin
prqN-T' p o r jo tan to , con o b jeto de o b ten er la probabilidad de
con seg u ir exactam ente r caras en cualquier orden slo se nece
sita c o n ta r el n m ero de m aneras distin tas que tenem os de obte
n e r r caras y N r cruces. Sin em bargo, p o r poco que N sea
grande, la ta re a se hace m uy fastidiosa. A fortunadam ente dispo
nem os d e u n a f rm ula m atem tica q u e hace innecesaria dicha
operaci n de co ntar. E n efecto, el n m ero de m an eras posibles
en q u e podem os o rd e n a r r xitos y N r fracasos, escrito sim b
licam en te com o

(X.l)

en donde N I (lase factorial N ) = N (N 1) (N 2)


(3)
(2 ) (1 ), y lo m ism o p o r lo que se refiere a r! y a (N r ) ) 1
Con fines de clculo, la frm ula (X .l) puede sim plificarse ob
serv an d o que algunos de los trm inos del n u m erad o r y el deno
m in a d o r se elim inan recprocam ente.1 Como q uiera que r < N ,
podem os escrib ir N ! com o p roducto de dos factores, com o sig u e:
N I = [ N ( N - l ) ( N ~ 2 ) .. . ( N - r + 1 )] U N - r ) . .. (3 )(2 )(1 )]
= [ N ( N 1)(A 2 )...(A T r + l ) ] [ ( A T r ) ! ]
y vem os in m ed iatam en te que (N r ) \ p u ed e elim inarse ta n to
del n u m era d o r com o del denom inador. E n esta fo rm a nos que
da, p u e s :

i El smbolo

no ha de confundirse con

N /r

dividido entre r.

( N

N (N 1 ) ( N 2 ) . . . ( N r + 1)

( ~ r j =

---------- t---------------

(X2)

As, pues, si querem os e n c o n tra r el n m ero de m an eras d e o b


te n e r cu a tro caras en diez lanzam ientos, tenem os:
A T - r + l = 1 0 -4 + l = 7
y p o r c o n sig u ien te:

(4)

(1 0 )(9 )(8 )(7 )

210

(4 )(3 )(2 )(1 )

O bsrvese que al em p lea r la ecuacin (X .2) se tiene el m ism o


n m ero de facto res en el n u m era d o r y el denom inador. E sto es
siem p re as. E sta segunda fo rm a es m s sencilla, con fines de
clculo, que la p rim era. Si r > N/ 2, em pezam os a te n e r algunos
trm in o s que aparecen ta n to en el n u m e ra d o r com o en el deno
m in ad o r y, p o r consiguiente, se elim inan recprocam ente. P or
ejem plo, si r = 6, tenem os:
10

(1 0 )(9 )(8 )(7 )

(6 )(5 )

6 /

()(2 )(3 )(4 )

(5 )(6 )

210
/ 10 \

lo que nos d a el m ism o re su lta d o obtenido que al c a l c u l a r ! - j - 1


E n general p u ed e d em o strarse que

de m odo que p u ed e u tilizarse lo m ism o r que N r, segn cul de


ellos sea m enor.
Si ah o ra querem os sa b e r la p ro b ab ilid ad de o b ten er exacta
m e n te r xitos e n N p ru e b as y no nos in teresam o s p o r el orden
en que o cu rran , podem os m u ltip licar la p ro b a b ilid ad de o b ten er
/ N \
u n a secuencia p a rtic u la r cu alq u iera p o r I ----- I . D esignando la
p ro b ab ilid ad deseada p o r P( r) , tenem os:
p(t-)

P ro b ab ilid ad
de r xitos
ex actam ente

N
( 7 " J
N? d e m an eras
de o b te n e r r
X
xitos

rrnX-r
prq'
P robabilidad (X .3)
de u n a sucesin
d ad a cualquiera

Si la m oneda fu e ra perfectam en te correcta, esto es, si p = q = 1/2,


la p ro b ab ilid ad de o b ten er exactam ente cu a tro caras en diez
p ru eb as sera d e :
210
210

/ 1 0 \ / l \ ' , / l \ 6

)(t ) (?)

= 210114> V024 = '205-

Y en fo rm a anloga podem os calcular las probabilidades de


o b ten er exactam ente 0, 1, 2, . . . , 10 caras en 10 pruebas.
Ni de caras

0
1
2

3
4
5

7
8

9
10

Probabilidades (con p

1/1024=
10/1024=
45/1024=
120/1024=
210/1024=
252/1 024 =
210/1024=
120/1 024 =
45/1024=
10/1024=
1/1024=

= Va)

.001
.010
.044
.117
.205
.246
.205
.117
.044
.010
.001
1.000

O bsrvese que siendo r cero, la m agnitud


y la f rm u la falla. Vemos, sin em bargo, que, siendo r = 0, slo
hay u n o rd en posible (to d o cruces). E n este ejem plo, la d istri
bu cin de p ro babilidades es perfectam en te sim trica. Sirvindose del hecho de que
vencerse p o r s m isi

el lecto r debera conser siem pre sim trico,

p ero que el fa c to r prqN~ r slo ser exactam ente sim trico si


p q Vi.
E n el ejem plo an terio r, las probabilidades se h an asociado con
cad a un o de los 11 resultados posibles del experim ento. E n di
cho sencillo ejem plo, slo' se daba u n pequeo n m ero de resul
tad o s concebibles, dado el supuesto de que en cada lanzam iento
slo dos de ellos era n posibles. En o tro s experim entos, en cam
bio, el nm ero de re su ltad o s posibles puede ser m uy grande y
au n infinito, y puede se r necesario a g ru p a r ciertos resultados
y aso ciar u n a p ro b ab ilid ad con la serie en te ra de los m ism os.
As, p o r ejem plo, si la m oneda se h u b iera lanzado al aire 1 000
veces, pudim os h a b e r calculado las probabilidades de o b ten er de
400 a 449, de 450 a 499 o de 500 a 549 caras.

Cuando asociam os probabilidades co n cada resultado posible


de u n exp erim ento, o con grupos d e resultados, designam os la
d istrib u ci n resultante d e probabilidades com o d istrib u ci n de
m u estreo . R ecordando que utilizam os el concepto de probabili
dad p a ra d esig n ar el lm ite de la raz n de los xitos al n m ero
to ta l de las p ru e b as, vem os q u e la d istribucin de m u e stre o se
refiere al n m ero relativo de veces que esperam os o b ten er cier
tos resultados e n u n n m ero m u y grande d e experim entos.
E n el ejem p lo nu m rico considerado, cad a experim ento consis
te en lan za r la m oneda 10 veces al aire y a n o ta r el n m ero de
caras. N u estros clculos nos dicen que si efecturam os el expe
rim en to 1 024 000 veces, podram os e sp e ra r o b ten er aproxim ada
m en te (p e ro no ex actam ente) 1 000 casos en que n o saliera u n a
sola cara, 10 m il en que saliera exactam ente u n a cara, 45 m il
casos con dos caras, etctera. Adem s, esp eraram o s q u e cuanto
m ay o r n m e ro de veces se efectu ara el experim ento, ta n to m s
cerca q u ed a ran las pro p o rcio n es em pricas de estas p robabilida
des tericas.
E n realidad, el investigador nunca obtiene u n a distribucin de
m u estreo p o r m edios em pricos, y a que p o r lo> re g u la r slo efec
t a u n ex p erim ento o extrae u n a m u e stra u n a sola vez o, a lo
sum o, unas pocas veces. Im p o rta d arse cu en ta de que la d istri
bu ci n de m u estreo es u n a d istrib u ci n hip o ttica, terica, que
slo se o b te n d ra si u n experim ento se efectu ara u n n m ero m uy
gran d e de veces. La d istrib u ci n de m u estreo se obtiene aplican
do razo n am ientos m atem ticos o deductivos, com o se hizo en el
ejem p lo an terio r.
Como q u iera que las distribuciones de m u estreo n o son el tipo
de d istrib u cio nes q u e el investigador ve realm en te de su s datos,
las p erso n as que n o sien tan aficin p o r las m atem ticas ten d r n
p ro b ab lem en te alguna dificultad en co m p ren d er el papel que
ju eg an estas distribuciones h ip o tticas en la induccin estads
tica. Pero, a m enos que la nocin de d istrib u ci n d e m u estreo
se co m p ren d a claram ente, el estu d ian te se e n c o n tra r p rctica
m en te en la im posibilidad de conseguir de la estad stica u n a
co m prensin q u e vaya m s all de la de u n m ero "recetario".
De ah q ue convenga ex am in ar aqu en fo rm a m s sistem tica
los p aso s q ue se d an al v erific ar u n a hiptesis estad stica y ver
exactam en te cm o se em plean dichas distribuciones de m uestreo.
X.2. Pasos en las pruebas estadsticas
T odas las p ru e b as estad sticas co m p o rtan cierto n m ero de pasos
especficos. H ay que re c a lc a r u n a vez m s q u e cada uno de di
chos pasos h a d e efectu arse con a n te rio rid a d a la inspeccin de
los datos. P u eden en u m erarse com o s ig u e :
1. F o rm ulacin de supuestos.

2. O btencin de la d istrib u ci n de m uestreo.


3. Seleccin de u n nivel de significacin y de u n a regin crtica.
4. C lculo de la esta d stic a de la pru eb a.
5. T o m ar u n a decisin.
C ada u n o de esto s pasos se exam inar con cierto detalle en el
p re se n te captulo y luego, u n a vez m s, en el captulo xi, de m odo
que el le c to r p u ed a fam iliarizarse con los procesos generales que
co m p o rtan las p ru e b as estadsticas.
1. Form ulacin d e supuestos. Con o b jeto de ap licar la teo ra
de pro b ab ilid ad es a la obtencin d e u n a d istrib u ci n d e selec
cin, el investigador h a d e fo rm u la r ciertos su p u esto s acerca de
la poblacin re sp ecto de la cual v a a estab le cer conclusiones
g enerales y de los p ro cedim ientos de m u e stre o a em plear. E sto s
su p u esto s relativos a la poblacin y a los p ro cedim ientos suelen
c o rresp o n d er p o r lo re g u la r a u n a de las dos categoras siguien
te s : 1 ) la de aquellos de los que el investigador e st relativ am en te
seguro o est d ispuesto a acep tar, y 2 j la d e los q u e le p arece n
m s p ro b lem tico s y en los que, p o r lo ta n to , e s t m s in teresado.
Los su p u esto s de la p rim e ra categora podem os ponerlos todos
ju n to s en lo q ue llam arem os el m odelo. E n cu an to a los de la o tra
categora, son los q u e el investigador desea verificar y se desig
n an com o hiptesis.
P o r lo regular, p o r lo m enos en las verificaciones m s sencillas
de que nos ocuparem os en los prxim os captulos, slo h a b r
u n a h ip tesis. Im p o rta d arse cu en ta de q u e desde el p u n to de
vista d e la pru eb a estadstica m ism a , todos los supuestos poseen
el m ism o carcter lgico. Si los re su ltad o s de la p ru e b a aconse
ja n d e sc a rta r los supuestos, to d o lo que p u ed e decirse, sobre la
base de la prueba m ism a , es que p o r lo m enos u n o de los supues
tos, y a u n p o siblem ente todos ellos, son p ro b ab lem en te falsos.
Com o q u iera q u e la p ru e b a ell m ism a n o p u ed e su m in istra r
in fo rm aci n acerca de cul de los su p u esto s sea errneo, es in
dispensable, si los re su ltad o s h a n de te n e r algn sentido, que slo
u n o d e ellos sea re alm en te dudoso. E n estas condiciones ser
po sib le d e sc a rta r el su p u esto en cuestin (la h ip tesis) com o
errneo.
Los estu d ian tes fo rm u lan a m enudo el siguiente tip o de p re
g u n ta : "so b re qu b ase se escoge u n a d eterm in a d a p ru e b a esta
d stica con p referen cia a o tra ? U no de los criterios que p u ed e
d a rse a estas altu ra s es el de u n m odelo apropiado. E n o tro s
t rm in o s : el in v estigador h a de seleccionar u n a p ru e b a q u e slo
co m p o rte u n su p u esto dudoso (su h ip tesis). E n efecto, si u n a
d eterm in ad a p ru e b a re q u ie re dos o m s supu estos dudosos, ser
difcil, p o r no decir im posible, decidir cul de ellos d eb a d escar
tarse . E n tal caso, el estu d ian te d eb er tr a ta r de e n c o n tra r u n a
p ru e b a altern ativ a q u e n o traig a consigo tan to s supuestos d u
dosos.

P ara ilu s tra r lo que precede con n u estro ejem plo de la m one
da, la p ru e b a binom ial req u iere el supuesto de que 10 lanzam ien
tos constituyen tina m u estra al az ar de todos los lanzam ientos
posibles con la m ism a m oneda, y que todos ellos son indepen
dientes u n o de otro. Suponem os, pues, que la m oneda es correcta.
E sto ltim o sera p o r lo re g u la r n u e s tra hiptesis, en tan to que
lo p rim ero co n stitu ira n u estro m odelo, ya que el in ters se con
cen trara p ro bablem ente en sa b e r si la m oneda es o no correcta.
Se concibe, sin em bargo, que podam os sospechar de la persona
que efecta los lanzam ientos. Si estuviram os relativam ente se
guros a p ro p sito de la m oneda, p o r h a b e r com probado previa
m en te que d ab a aproxim adam ente caras la m ita d de las veces,
entonces p odram os cam biar el problem a y verificar u n a hip
tesis relativ a al^ m todo del lanzam iento ( o sea el m todo de
m u estreo ). Supngase que no estuviram os dispuestos a ac ep tar
com o m odelo la correccin de la m oneda o la correccin de la
p ersona que efecta el lanzam iento. En tal caso, si salen 50 ca
ras consecutivas, decidiram os que p o r lo m enos u n o de nu estro s
supuestos e ra indudablem ente errneo, p ero no estaram os en con
diciones de d ecidir cul de ellos. E n general, p o r supuesto, pone
m os to d a la atencin necesaria en n u estro s m todos de m uestreo
p a ra te n e r u n a seguridad razonable de que los supuestos relativos
a los m ism os son ciertos.
P ara ilu s tra r el m ism o aspecto con u n ejem p lo de carcter
sociolgico, supongam os que se nos invita a fo rm u la r slo dos
supuestos en u n a p ru e b a estad stica determ inada, esto e s : 1 )
que en la poblacin seleccionada las proporciones de personas
de las clases m edia e in ferio r con grandes deseos de cam bio de
situacin son las m ism as, y 2 ) que se h a obten id o u n a m u estra
aleato ria de todas las personas. Supngase asim ism o que dichos
supuestos conducen a d eterm inadas conclusiones qe n o concuerdan con los hechos. Tal vez, p o r ejem plo, los datos de la
m u estra sealan u n p o rc en taje m ucho m s alto de personas de
la clase m edia con grandes deseos de cam bio. Concluimos, pues,
que u n o u o tro de los dos supuestos es p robablem ente errneo.
P ero cul de ellos habrem os de d escartar? Nos g u stara sacar
la conclusin ^de que el falso e ra el p rim ero, p ero tal vez nos
hayam os servido de m todos de m u estreo sujetos a alguna in
fluencia ajena. E n resum en, necesitam os datos adicionales, ap ar
te de lo que indica la p ru e b a m ism a.
.
este ejem plo p articu lar, si hem os tom ado to d as las precau
ciones p a ra aseg u rar la seleccin de u n a m u estra al azar, pode
m os to m ar com o m odelo el su p u esto 2 ) y fo rm u lar la conclusin
de que el supuesto falso e ra p robablem ente el 1). Aqu n u estra
propensin a a c ep tar el su p u esto 2 ) se b asa en n u e stro conoci
m iento acerca de los m todos de seleccin em pleados, o sea de
n u estra m etodologa. E n o tro s casos, en cam bio, podem os acep

ta r ciertos sup u estos so b re la b ase de hallazgos de investigacio


nes an terio res. El p u n to im p o rtan te, sin em bargo, es q u e la
prueba m ism a n o sirve para identificar el su p u esto o los supues
tos errneos. E n este sentido, todos los supuestos poseen el
m ism o ca rc te r o grado lgico. P a ra p o n e r este hecho de m a
n ifiesto y p a ra llam ar la atencin del lecto r sobre los supues
to s del m odelo, tra ta m o s la hiptesis exam inada com o u n a sola,
sim plem ente, e n tre cierto n m ero de supuestos exigidos p o r la
pru eb a.
Com o y a se d ijo an terio rm en te, el investigador tien e p o r lo re
g u lar in ters en fo rm u la r u n a hiptesis q u e en realid ad le gus
ta ra p o d er d escartar. La hiptesis efectivam ente exam inada se
designa a m enudo com o hiptesis nula (sim bolizada p o r H 0), p o r
c o n tra ste con la hiptesis de investigacin ( H x), que se fo rm u la
com o altern ativ a de H 0. P o r lo regular, au n q u e no siem pre, la
h iptesis n u la enuncia que no existe d iferencia e n tre varios gru
pos o que no se d a relacin alguna e n tre variables, en ta n to que
la hiptesis de investigacin puede a n tic ip a r u n a relacin, ya
sea positiva o negativa. E l investigador p u ed e e sp e ra r e n reali
dad que la h iptesis negativa sea e rr n ea y se deje d e sc a rta r en
fav o r de la altern ativ a H t . N o ob stan te, con o b jeto de calcular
u n a d istribucin de m u estreo , h a de p ro c e d e r com o si H 0 fu e ra
efectivam ente correcta. S upondra, p o r ejem plo, que la m oneda
no est sesgada.
O bsrvese q ue el su p u esto de tina m o neda co rre c ta p ro p o r
ciona u n a m an era de calcular probabilidades exactas sirvindose
de la f rm u la binom ial. E n efecto, si se fo rm u lara la h ip te
sis de q ue la m oneda es "sesgada, nos en co n traram o s con que
no podam os o b ten er u n a d istribucin de seleccin h a sta despus
de h a b e r especificado la hiptesis de m odo m s preciso. H a b ra
m os de re m itim o s a u n valor especfico de p, digam os d e .75, p o r
ejem plo. R ara vez estarem o s en condiciones de hacerlo. Y en
fo rm a anloga, la hiptesis de investigacin de que hay e n tre la
clase m edia una p ro p o rci n m ay o r de p erso n as con grandes de
seos d e cam bio n o es ta n especfica com o la hiptesis n u la en
el sen tid o de que n o h ay en absoluto diferencia alguna e n tre las
dos clases.
2.
O btencin de la distribucin de m uestreo. H abiendo fo rm u
lado los supuestos necesarios, estam os ah o ra en condiciones de
serv im o s del razonam iento m atem tico p a ra o b ten er u n a d is tri
bucin de m u estreo a la que asociam os pro b ab ilid ad es con re su l
tado s. S em ejante d istrib u ci n de pro b ab ilid ad es nos d ir sim
plem en te cun p ro b a b le sea cada u n o de los resu ltad o s posibles,
si los su p u esto s adoptados son efectiva m en te correctos. S i los
su p u esto s an terio res a p ro p sito de la m o n ed a y de los lanza
m ientos fu eran realm en te correctos, ya vim os que a la larga slo
p o d ram o s e s p e ra r o b te n e r todas las c a ra s u n a sola vez sobre

1 024, slo 10 veces sobre 1 024 o b ten er nueve caras, etctera.


El conocim iento de la p ro b ab ilid ad de u n re su ltad o p a rtic u la r
cualquiera, al pro d u cirse p o r azar si n u estro s supuestos fu eran
efectivam ente ciertos, nos p e rm ite ah o ra to m a r u n a decisin
racional a p ro p sito de las condiciones en las que podram os
arriesg am o s a d esc artar los supuestos en cuestin. Supngase,
p o r ejem plo, que obtenam os 10 caras en 10 lanzam ientos. Exis
ten dos posibilidades: a) o bien los supuestos son correctos, y
ste es uno de los casos en que se produce u n acontecim iento
m uy raro , o bien b ) u n o p o r lo m enos de los supuestos (p ro b a
blem ente la hiptesis n u la) es falso. P or desgracia, no podem os
sab er n u n ca cul de las dos alternativas sea la correcta. Si lo
supiram os, en efecto, h ab ram o s sabido de an tem an o acerca de
los supuestos, y ya no ten d ra o b jeto alguno e fectu ar el experi
m ento. P ero podem os decir que la p rim era altern ativ a es m uy
im probable.
Establezcam os, pues, la regla de que cada vez que obtenem os
10 caras en 10 pru eb as sucesivas podem os llegar a la conclusin
d e que u n o p o r lo m enos de los supuestos es falso y debera
descartarse. A la larga podrem os eventualm ente com eter erro
res ad h irien d o a dicha regla estricta, ya que sabem os que inclu
so con u n a m oneda sesgada podem os e sp e ra r o b ten er 10 caras
u n a vez so b re 1 024, sim plem ente p o r casualidad. S em ejante re
gla no nos ay u d ar a d eterm in a r la correccin de n u e stra deci
sin en relacin con u n experim ento p a rtic u la r cualquiera, p ero
las leyes de las probabilidades nos dicen exactam ente qu pro
porcin de veces podem os e sp e ra r to m a r decisiones correctas
a la larga. E n cierto sentido, n u e stra fe se fu n d a m s en el p ro
cedim iento q ue seguim os que en la decisin q u e form ulam os en
cada ocasin p artic u la r. Y dicho pvoc&d&fiti&ttto nos proporcion a r decisiones correctas la m ayora de las veces, aunque no
podam os e sta r absolutam ente seguros de decidir co rrectam ente
en u n a ocasin concreta cualquiera.
3.
Seleccin d e u n nivel d e significacin y de una regin crtica.
Dsete u n p u n to d e vista ideal, las decisiones del investigador
deberan to m arse con an terio rid ad al experim ento o al anlisis
efectivos de los datos. A p a r tir de su conocim iento de la d istri
bucin de m uestreo, selecciona u n grupo de altern ativ as las cua
les, caso de p roducirse, le obligaran a d esc artar su s supuestos.
E stos resu ltad os im probables se designan com o la regin crtica.
Asi, pues, divide los resultados posibles en dos c a te g o ra s: a )
aquellos en cuyo caso d esc artar (la regin crtica ), y b ) aq u e
llos que, de p roducirse, no le p e rm itirn d escartar. Con objeto
de p o d er estab lecer u n a regin crtica, h a de decidir dos aspectos
adem s de la eleccin de u n m odelo y u n a hiptesis. P rim ero ha
de d ecidir los riesgos que est dispuesto a asu m ir d e in c u rrir en
los erro res de tipos I y II. Y en segundo lu g ar h a de decidir si

desea o no que su regin crtica incluya am bas colas de la dis


trib u ci n de m uestreo.
Segn se indic en el captulo v m , se h a n de to m a r en consi
deracin dos tipos de erro res posibles. El p rim ero consiste en
d e sc a rta r u n g rupo de supuestos en re alid ad correctos. El tipo
de e rro r II, en cam bio, im plica el no d e sc a rta r supuestos en re a
lid ad falsos. S obre la b ase de la distribucin de m u estreo pueden
d eterm in a rse ex actam ente las probabilidades de que se p ro
duzcan determ inados resultados si los supuestos son efectiva
m en te correctos. Si el investigador decide que d esc artar cada
vez que se produzca u n d eterm inado n m ero de resultados im
p ro b ab les (digam os cero caras o diez c a ra s), entonces, si los
supuestos son correctos, com eter u n e rro r de tipo I cada vez
que obtenga u n o de los resultados en cuestin.
La p ro b ab ilid ad de com eter u n e rro r de ese tip o es igual a la
sum a de pro b ab ilid ades de cada u n o de los resultados _en el in te
rio r d e la regin. As, p o r ejem plo, si la regin crtica consta
de cero a diez caras, la p ro b ab ilid ad de e r ro r de tip o I ser de
2/1 024, o sea .002. Si se escogiera u n a regin crtica m s am plia,
el riesgo de dicho tip o de e rro r sera m ayor. S upngase que se
d ecid iera d e sc a rta r los supuestos si se o b ten an cero, u n a, nueve,
o diez caras. E n este caso la pro b ab ilid ad del e rro r del tip o I
sera de (1 + 1 + 10 + 10)/1 024, o sea .022. La p ro b ab ilid ad de
co m eter u n e rro r de tip o I se designa com o nivel de significan
cia y p u ed e p o n erse a cu alq u ier valor deseado.
Antes de exam inar los criterio s posibles p a ra decidir acerca
del nivel de significancia, hay que decir algo a p ro p sito de los
erro re s d e tip o II. E n vista de n u e stro exam en a n te rio r de la
falacia consistente en a firm a r el consecuente, es m anifiestam ente
in co rrecto sacar la conclusin de que si determ inados supuestos
no se d ejan d e sc a rta r h a n de ser, e n consecuencia, ciertos. E n
efecto, o tro g rupo de supuestos p u d o h a b e r llevado igualm ente
a u n a distrib u ci n de m u estreo con la que se p o d ra h a b e r llega
do a conclusiones sim ilares. P or ejem p lo : si la v erd ad era p ro
bab ilid ad de caras fu e ra de .51 en lu g ar de .50, entonces la dis
trib u ci n de m u estreo sera casi id n tica a la^ que calculam os.
P o r consiguiente, p ro b ab lem en te se h a b ra elegido la m ism a re
gin, y la decisin en cu an to a d e sc a rta r o no h a b ra sido la
m ism a. Y sin em bargo, en rigor, la hiptesis de p = .5 sera falsa
y d ebera en realid ad descartarse. Y si n o estuviram os en con
diciones de hacerlo, n o estaram os sin em bargo dispuestos a
co n sid erarla com o la n ica h ip tesis co rrecta, y a que hay u n
n m ero adicional d e hiptesis que tam poco p o d ra descartarse.
D ecidim os sim plem ente que "no debiram os d e sc a rta r n u e stra
hiptesis.
In clu so si en u n p lan conservador rechazam os a c e p ta r u n a
hiptesis, nos g u stara, con todo, e sta r en condiciones de elim i

n a r cu an tas falsas hiptesis h ubiera. E n este sentido com etem os


u n e rro r siem p re q u e dejam os de d e sc a rta r u n a hiptesis falsa.
Y qu pued e decirse a p ro p sito de la p ro b ab ilid ad de in c u rrir
en u n e rro r de tip o II? D esgraciadam ente n o es ta n fcil calcu
la r los erro res de tip o I I com o es el caso con los de tipo I. Nece
sitam os, pues, ap lazar n u e stro exam en de los m ism os h a sta el
cap tu lo xiv. Conviene, sin em bargo, o bservar u n hecho im por
ta n te . Y es que, p a ra cualquier p ru e b a dada, las probabilidades
de e rro res de los tipos I y I I son inversam ente proporcionales.
E n o tro s t rm in o s: cuanto m e n o r es el riesgo d e u n error de
tipo I, ta n to m ayor es la probabilidad de uno de tipo I I . E sto
p u ed e verse en n u e stro ejem plo de los lanzam ientos. El lector
h a de convencerse p o r s m ism o que, si se elige u n a regin crtica
pequea (digam os cero caras y diez c a ra s), te n d r m enos p ro
babilidades de d e sc a rta r cualquier su p u esto q u e si se sirviera
de u n a regin m s com prensiva ( digam os cero, u n a, nueve y diez
ca ras). E n el p rim e r caso, si b ien est m enos expuesto a descar
ta r su p u esto s ciertos, tiene tam b in m enos probabilidades de
d e sc a rta r los falsos. De ah que c o rra m ayor riesgo de com eter
u n e rro r d e tipo II.
Es, pues, im posible reducir sim ultneam ente los riesgos d e los
dos tipos de errores, a m enos que se vuelva a d isponer el estu d io
en o tra fo rm a y se seleccionen casos adicionales o u n a pru eb a
estad stica d istin ta. E n la p r c tic a ponem os la p ro b ab ilid ad de
e rro r de tip o I a u n nivel determ in ad o (digam os .05) y escoge
m os la p ru e b a estad stica q u e m s reduce el riesgo de e rro r de
tip o II. Al elegir e n tre p ru e b as altern ativ as, escogem os aquella
q ue tien e u n m odelo apro p iad o y red u ce m e jo r el riesgo de e rro r
de tip o II.2
La decisin e n cu an to al nivel de significacin a escoger depen
de de los costos relativos re su ltan te s de co m eter u n o u otro
tip o de e rro r y d eb era ap reciarse de acuerdo con ello. E n oca
siones h ay q ue a d o p ta r u n a decisin p r ctica conform e al resu l
ta d o del experim ento. Un fa b rican te puede decidir in sta la r u n
equipo costoso, u n investigador p u ed e decidir e x tra e r o tra m ues
tr a y re p e tir su estudio, o las au to rid ad es san itarias pueden
decidir si deben o n o in te n ta r u n a vacunacin en m asa con
u n nuevo suero. E n o tro s casos n o se re q u ie re decisin p r c
tica alguna. U n socilogo, p o r ejem plo, p u ed e p u b licar sim ple
m en te los resu ltad o s de su estu d io e n u n peridico, sin ten er
que s o p o rta r las consecuencias d e e r ro r d e u n tip o o del otro.
E n situaciones e n las que h ay que to m a r decisiones de carc
te r p rctico la eleccin de u n nivel de significacin re su lta p a r
ticu larm en te difcil. E n el ejem plo del lanzam iento, supngase
que la decisin co m p o rta ra el d e ja r de seguir jugando con una
m oneda de cuya perfeccin se sospecha. Si n u e stro ju g ad o r hipo2 Para el examen ms a fondo de esta cuestin, vase la sec. XIV.l.

ttico tu v iera la perspectiva de u n a esposa regaona caso de vol


v er a la casa con ios bolsillos vacos, h a r bien en d e ja r el juego
si existe siq u iera la m s leve duda a p ro p sito de la m oneda. E n
tal caso elegira u n a regin crtica am plia, y a que las consecuen
cias de un e rro r de tip o I I (e sto es, de seguir ju g an d o si la m o
n ed a estab a realm ente sesgada) seran m uy lam entables. Por
o tra p a rte , si co rriera el riesgo de in s u lta r a su je fe sosteniendo
q u e la m o n ed a estab a sesgada, d eseara e s ta r perfectam en te se
guro de ello an tes de a d o p ta r su decisin. E n este ltim o caso
escogera u n a regin crtica m uy pequea, reduciendo as al m
nim o el riesgo de e rro r de tip o I. Y en fo rm a anloga, si el costo
de la vacunacin en m asa fu e ra considerable o el suero eventual
m en te peligroso, se d eseara e s ta r absolutam ente seguro antes de
aplicarlo. D esearase h a c e r m uy difcil d e sc a rta r la hiptesis
n u la de que el suero no p ro d u ce efecto benfico alguno.
Si n o h ay m s decisin p r ctica a to m a r que la de publicar
o n o los resu ltados de u n estudio, d eb era seguirse o tra regla
general. E n este caso, en efecto, el investigador debera aplicar
se a d em o stra r a s m ism o que est en error o a obtener resulta
dos que en realidad no desea obtener. P o r lo regular, p e ro n o
siem pre, se establece u n a hiptesis n u la que en realid ad se desea
d escartar. Y com o q u iera que al investigador le g u stara e s ta r
en condiciones de d escartarla, debera h a c e r la obtencin del
re su ltad o deseado m uy difcil, sirvindose p a ra ello de u n a re
gin crtica m uy pequea.
H ay ocasiones, en cam bio y llam am os la atencin del lecto r
al resp ecto , en que n o se desea realm en te d e sc a rta r la hiptesis
nula. As, p o r ejem plo, la hiptesis n u la p u ed e a d o p ta r la fo rm a
d e u n a p rediccin en el sen tid o de que n o hay diferencias reli
giosas o de clase en cuanto a la ta sa de fecundidad. Si se desea
realm en te estab lecer tales diferencias, debera escogerse u n a re
gin crtica m uy pequea, haciendo el d escarte de la hiptesis
n u la m uy difcil. P ero supngase que el investigador desea real
m en te d em o strar que tales diferencias n o existen. Tal vez tra te
de d em o strar que algunas teoras en boga a p ro p sito de dife
ren cias en m ateria de fecundidad son in co rrectas o inadecuadas.
O pued e e sp e rar que dichas diferencias n o existen, de m odo que
n o ten g a q ue investigar desde los p u n to s d e vista d e clase o de
religin al re fe rir las ta sa s de fecundidad a o tras variables.
E n los casos que se acaban de m encionar, el investigador se
h alla en cierto sentido del lado falso de la hiptesis y debera
e s ta r e n consecuencia in teresad o a n te to d o en re d u cir el riesgo
d e e rro r de tip o II. E n o tro s trm inos : debera p reo cu p arse
a n te to d o de n o re te n e r la hiptesis n u la de la ausencia de di
ferencias si e n re alid ad es falsa. De ah que al escoger u n a regin
crtic a p eq u e a n o siem pre se peque de conservador, haciendo
a s difcil d esc artar u n a hiptesis n u la q u e en realidad se desea

reten er. Los niveles de significacin com nm ente em pleados en


la in v e stig a d o s estad stica son los de .05, .01, y .001. E n vista
de lo que se acab a de exponer, el lecto r se h a b r p ercatad o de
que dichos niveles n ad a tienen de sagrado o absoluto. A unque
u n a p erso n a fu e ra n o rm alm en te conservadora en el em pleo de
los niveles en cuestin, e s ta ra de to d o s m odos en te rre n o m s
frm e, si realm en te n o deseaba d e sc a rta r la h ip tesis nula, adop
tan d o ta l vez los niveles .10, .20 o incluso .30, red u cien d o as el
riesgo de e rro r de tipo II.
Procede h ac er u n a ad v erten cia en relacin con la in te rp re ta
cin de los re su ltad o s de las p ru e b as de significado, y a que es
posible o b tenerlos m s bien falsos, a u n sirvindose del nivel .001
y cuando se desea el descarte. Las p ru e b as de significado nos
dicen cu n p ro b ab le u n g ru p o dado d e re su ltad o se ra si ciertos
su p u esto s fu e ran verdaderos. H ay varios facto res que determ i
n an la p ro b ab ilid ad de que estem os en co n d id o n es d e d e sc a rta r
dichos supuestos. E l p rim e ro de ellos es el g rad o re al d e falta
de p ro p ied ad de los supuestos. Si, p o r ejem plo, la v erdadera
p ro b ab ilid ad de caras es .9, es m uy p ro b ab le q u e estem os en
condiciones de d e sc a rta r la h ip tesis de que p sea .5, p o rq u e po
dem os o b ten er efectivam ente u n a p ro p o rci n suficientem ente
g rande de caras p a ra te rm in a r e n la regin crtica. P o r o tra
p arte , si la v erd ad era p ro b a b ilid ad es .53, es m enos p ro b ab le
q u e obtengam os los re su ltad o s extrem os necesarios p a ra el
d escarte.
E l n m ero de casos es o tro fa c to r im p o rta n te en la d eterm in a
cin de cun extrem os d eban ser los re su ltad o s a n tes de que el
d escarte sea posible. Con slo 10 lanzam ientos o casos ya vimos
que se req u ieren resu ltad o s m uy extrem os p a ra p o d e r d escartar.
P ero si N es grande, la proporcin de xitos slo necesita h acer
la h ip tesis p a r a d ife rir de p en m uy poco p a ra que estem os au
torizados a h acerlo. Si la m o n ed a se lan zara al a ire 10 m il veces
en lu g ar de 10, estaram o s e n c o n d id o n es de d e sc a rta r la hip
tesis si obtuviram os, p o r ejem plo, 5 200 ca ras o m s. E n o tro s
trm in o s : en el su p u esto de q u e p es exactam ente u n a m itad , o
sea .5, 5 200 caras o m s en 10 m il lanzam ientos seran m s im
p robables que 10 ca ras e n 10 lanzam ientos, pese a que los resul
tados no sean ni con mucho- ta n extrem os. E sto concuerda, p o r
supuesto, con n u e stra m ay o r fe in tu itiv a en grandes m u estras y
con la inteligencia de que, en caso de m u estras m uy pequeas,
p o d ran o c u rrir con frecuencia resultados extrem os debidos al
m ero azar. Y en fo rm a anloga, con u n a seleccin de 10 m il p e r
sonas podram os o b te n e r diferencias m u y pequeas en las tasas
d e fecundidad e n tre las m u jere s d e las clases m ed ia e inferior,
y estar, con todo, en condiciones de d e sc a rta r la h ip tesis nula
en el sentido de que no hay diferencia alguna en la poblacin.
Con u n n m ero m u y grande d e casos resulta casi siem pre

posible descartar cualquier falsa hiptesis q u e pudiram os fo rm u


lar, in d ep en d ien tem ente de cu n to p u ed a d ife rir el valor de nues
tr a h ip tesis del verdadero. E sto significa que si tenem os 10 m il
casos, no d eb er so rp ren d ern o s m ucho que estem os en condicio
nes de d esc artar al nivel .001, y deberem os gu ard arn o s d e com u
n ic a r n u e stro hallazgo com o si fu e ra m uy im p o rtan te. E n efecto,
no d ebe confundirse la significacin estad stica con la prctica.
La significacin estad stica slo puede decirnos que ciertas dife
ren cias d e m u estras n o o cu rriran con m u ch a frecuencia p o r azar
si n o h u b ie ra diferencias cualesquiera en la poblacin. N ada nos
dice, e n cam bio, en cu a n to a la m agnitud o la im p o rtan cia de di
chas diferencias. P o r lo tan to , u n fa c to r suficientem ente grande
p a ra p ro d u c ir diferencias estad sticam en te significativas en una
m u e stra p eq u e a es m s digno de atencin que u n fa c to r que
slo p ro d u ce pequeas diferencias de las que n icam en te puede
d em o strarse q ue son significativas estad sticam en te con una
m u e s tra m uy grande. Si el estudio co m p o rta u n gran n m ero
de casos, n o s interesam os p o r lo re g u la r p o r o tras clases de
pro b lem as que las p ru e b as de significacin. E sta cuestin se
ex am in ar m s a fondo en el captulo xv, cuando trate m o s de m e
didas de g rad o de relacin. P o r el m om ento, b a ste sealar que
la significacin estad stica n o im plica necesariam ente diferencias
im p resio n an tes o de las q u e son im p o rtan tes p a ra el socilogo.
Antes de p o d er d e te rm in a r la regin crtica hay que a d o p tar
o tra clase de decisin. H ay cierto n m ero de resu ltad o s o de
gru p o s de resu ltad o s cuya p ro b ab ilid ad pu ed e se r m en o r que el
nivel seleccionado d e significacin. As, p o r ejem plo, la pro b ab i
lid ad de o b ten er exactam ente ocho caras es d e 45/1 024, o sea .044.
P o r lo tan to , sera posible, au n q u e n o m uy sagaz, decidir recha
z a r la h ip tesis n u la e n caso de darse exactam ente ocho caras,
y n o rech azarla en o tro caso. L a p ro b a b ilid ad de e rro r de tip o I
sera as de .044. La eleccin de sem ejan te regin crtica, sin
em bargo, apenas te n d ra sentido tericam ente, ya que p o r lo
re g u la r se vacilara a n m s en cu an to a a c e p ta r la hiptesis
n u la si fu e ran a sa lir nueve o diez caras, pese a q u e estas a lte r
n ativ as no co rrespondieran a la regin crtica. Casi siem pre te
nem os in ter s en servirnos p o r lo m enos de u n a cola e n te ra de
la d istrib u ci n . E n efecto, n o nos in tere sa la pro b ab ilid ad de ob
te n e r exactam ente ocho caras, sino la p ro b ab ilid ad de o b ten er
ocho o m s caras, esto es, la p ro b ab ilid ad de o b ten er ocho ca
ra s o algo incluso m s inslito todava.
P ero, p o r q u n o in clu ir en la regin crtic a cero, u n a y dos
caras, ya que dichas altern ativ as son ta n im probables com o las
de ocho, nueve y diez c a ra s? A m enudo no estam os en condicio
n es de p re v e r en qu direccin puedan p ro d u c irse los resu ltad o s
inslitos. E n n u e stro ejem p lo slo podem os sospechar que la
m oneda est sesgada, p e ro podem os n o te n e r indicio alguno* en

cu an to a si est influida en favor de las caras o de las cruces.


Adems, esto puede acaso n o im p o rtam o s. E n ta l caso desea
ram os e s ta r seguros y servim os de am bos extrem os de la d istri
bucin de seleccin. P orque, si nos sirviram os de u n a regin
crtica de slo ocho, nueve y diez caras, entonces, en caso de

005
F ig . X .l. Com paracin de las regiones crticas de pruebas de una

sola cola y d e dos colas, em pleando el nivel de significacin de .05


o b ten er exactam ente u n a cara, nos en contraram os en la situa
cin desdichada de n o p o d er d e sc a rta r la hiptesis n u la aun
siendo falsa.
S in em bargo, h ay c ierto n m ero de ocasiones en las que o es
tam os en condiciones de p re d ecir la direccin de la desviacin,
o nos interesam os a n te todo p o r las desviaciones en u n a sola
direccin. As, p o r ejem plo, u n a inform acin p revia p u ed e h a
b ernos llevado a p re d ecir q u e la m oneda est a lterad a en favor
de las caras. O podem os e s ta r ju g an d o cada vez a cruz, de m odo
que, s la m o n eda est afectad a en favor d e sta, n o necesitam os
ten er m iedo alguno de seguir el juego. E n estudios m s reales,
p o r o tra p arte , re su lta a m enudo posible p re v er la direccin so
b re la b ase de la te o ra o de estudios previos. P udo h ab erse p re
dicho, p o r ejem plo, que los catlicos te n d ra n fam ilias m s
n u m erosas q ue los p ro testan te s. Si se est in teresad o en dem os
t r a r que la teo ra de u n o es correcta, slo se h a r n p ru eb as de
significacin cu an d o los resu ltad o s se pro d u cen en la direccin
prevista. Si se p ro d u cen en sentido contrario, en cam bio, n o se
necesita h a c e r p ru eb a, ya que los dato s n o confirm an de todos
m odos la teora.
S iem pre que se haya p redicho la direccin, las p ru e b as de u n a
sola cola sern preferibles, al m ism o nivel de significacin, a las
de dos, ya que ser posible o b ten er u n a cola m ayor concentrando
la regin crtica e n te ra en el extrem o apro p iad o d e la d istrib u
cin de m uestreo. E sta v e n ta ja de la p ru e b a de u n a sola cola
se ilu stra en la fig u ra X .l en relacin con el caso de u n a d istri
bucin de m u estreo, lisa, que o ste n ta la form a de u n a curva n o r
m al. E n dicha figura, las probabilidades de com eter u n e rro r de

tipo I son las m ism as en am bos casos, ya que las dos regiones
crticas son del m ism o tam a o (m edidas en trm inos de reas).
Sin em bargo, si los resu ltad o s o cu rren efectivam ente en la di
reccin p revista, el investigador te n d r m s probabilidades de
d e s c a rta r la hiptesis sirvindose de u n a p ru e b a de u n a sola cola,
ya que existe m ayor p ro b ab ilid ad de caer e n la regin crtica
en la direccin en cuestin. E n efecto, si la v erd ad era p robabili
dad est en la direccin prevista, el riesgo de com eter u n e rro r
de tip o I I es m en o r que sirvindose de u n a p ru e b a de dos colas.
A estas altu ra s el lecto r n o h a de esp e ra r p o d e r com prender
in tu itiv am en te las relaciones e n tre los e rro res de tipo II y las
p ru e b as de u n a y dos colas. E n efecto-, m uchas de estas nocio
nes m s b ien difciles slo se ir n aclarando u n a vez que se hayan
exam inado algunos ejem plos prcticos. El trata m ien to m s de
tallad o de los e rro re s de tip o I I h a de aplazarse h a sta el cap
tu lo XIV.
P a ra co n c retar en el p re se n te ejem plo, escojam os el nivel de
.05 y sirvm onos de u n a p ru e b a de dos colas. La regin crtica
c o n sta r e n este caso de las altern ativ as cero, una, nueve y diez
caras, ya q ue la inclusin de altern ativ as adicionles au m en tara
la p ro b ab ilid ad de u n e r ro r de tipo I m s all del nivel de .05.
E n n u e stro ejem plo, el nivel de significacin realm en te em pleado
ser el de (1 + 1 4-10 + 10)/1 024, o sea .022. E n o tro s casos en
que la distrib u ci n de m u estras es m s b ie n continua que dis
creta, se r posible servirse del nivel exacto deseado (v.gr., .05,
.0 1 ,0 .0 0 1 ).
4. Clculo de la estadstica de la prueba. Es siem pre necesario
calcu lar lo que se designa com o estad stica de la pru eb a, cuya
d istrib u ci n de seleccin h a de em plearse en la pru eb a. H asta
aq u slo hem os tra ta d o con estadsticas tales com o las p ro p o r
ciones de las m u estras, las m edias y las desviaciones estn d a r,
que son d irectam ente com parables con las m ism as cantidades en
la poblacin y pu eden u tiliza rse com o m edidas p a ra re su m ir los
datos. La estad stica d e la p ru e b a es u n a estad stica que p o r
lo re g u la r n o posee in ters en s m ism a p o r lo que se refiere
a la descripcin, p ero que se em plea p a ra verificar hiptesis. Es la
estad stica que co ntiene la distribucin d e m u estreo la que se
u tiliza d irectam en te en la pru eb a. E n o tro s trm in o s: calcula
m os de los datos de la m u e stra u n a ca n tid ad que vara de m odo
conocido conform e a la te o ra de las probabilidades. C om para
m os luego su v alo r con la distrib u ci n de m uestreo, y adoptam os
u n a decisin evaluando la p ro babilidad de su ocurrencia. P or
su puesto, son m uchas las cantidades que pueden calcularse so
b re la b ase de los dato s de las m uestras, p e ro slo u n pequeo
n m e ro de ellas tien e distribuciones de m u estreo conocidas
q ue p u ed an u tilizarse con fines de verificacin de hiptesis.
E n este ejem plo de la p ru e b a binom ial, la estad stica de p ru e

b a es ta n sencilla, que casi n o vale la p en a de llam ar la atencin


del lecto r al respecto. E n efecto, es sencillam ente el n m ero de
xitos en N ensayos y no re q u ie re clculo u lte rio r alguno. E n
conexin con o tro s problem as, en cam bio, la estad stica de la
p ru e b a h a b r de calcularse. E n el caso de la p ru e b a binoxnial,
hem os d ejad o que r to m ara todos los valores posibles, d e cero
a N , y hem os luego asociado probabilidades con cada valor. Su
pongam os que en este p roblem a concreto, que com porta 10 lan
zam ientos, el n m ero de xitos (c a ra s) re su lta se r ocho. Posee
m o s ah o ra to d a la inform acin necesaria p a ra ad o p tar una
decisin.
5.
A dopcin de una decisin. D espus de h a b e r elegido su re
gin crtica y de h a b e r calculado su estad stica de prueba, el
investigador d esc artar o n o d esc artar los supuestos segn
el re su ltad o del experim ento. Si el re su ltad o queda d en tro de la
regin crtica, descartar, con u n a p ro b ab ilid ad conocida de e rro r
de tip o I. Y si aqul no cae en la regin crtica, no d escartar
los supuestos, asum iendo el riesgo de com eter u n e rro r de tipo II.
E n el p re sen te ejem plo, com o q u iera que el re su ltad o de ocho
caras no cae e n la regin crtica, no d esc artar la hiptesis nula
segn la cual la m oneda es insesgada.
Desde u n p u n to de vista ideal, to d as las decisiones anteriores
a los pasos 4 y 5 deberan to m arse an tes de p ro c ed er a la tabula
cin de los resultados. A m enudo, en la lab o r exploratoria el
investigador exam inar p rim ero sus datos y pro ced er luego a
h acer p ru eb as de significacin. A unque esto sea a veces necesa
rio, hay que observar, con todo, que siem pre que o c u rra as n o
se estn re sp etan d o p o r com pleto las reglas del juego. E n tales
casos sera p referib le n o p re te n d e r que se est procediendo real
m en te a la verificacin de hiptesis. De todos m odos, los resul
tad o s p o d ran exponerse en fo rm a sugestiva, y cualquiera que
p ro sig a el estu d io e sta r as en condiciones de efectu ar pru eb as
estad sticas legtim as.
^Los com entarios que preceden po d rn p a re c e r excesivam ente
rgidos y am biciosos, dado el c a r c te r de exploracin de gran
p a rte de la investigacin sociolgica. Sin em bargo, el a u to r cree
que es p referible fija r u n a "conciencia estad stica" estricta, no
d ejan d o la im presin de que las cosas puedan h acerse de cual
q u ier m odo. E n efecto, a m enos que se ad opten las decisiones
con an terio rid ad al analisis de los datos, no puede hacerse leg
tim am en te u so de la teo ra de las probabilidades, ya que el an
lisis es esencialm ente ex post fa d o . Y lo m alo de los anlisis ex
p o st fa d o est en que el experim ento puede disponerse de tal
m odo que el investigador no tenga m an era de p erd er. Supngase,
p o r ejem plo, que haya decidido, a tientas, servirse del nivel de
significado .05. Si encu en tra que sus resultados son significativos
al nivel de .07, puede decidir d e sc a rta r sus hiptesis de todos

m odos. P ero, supngase que h a n sido significativos a los niveles


.09 o .13 o .18, dnde h a b r que h acer alto? O tra m anera de h a
cer tra m p a consiste en e sp e ra r h asta despus del experim ento
p a ra d ecidir si hay que servirse o no de u n a p ru e b a de u n a cola.
E n tal caso, en efecto, si los resultados dan m s caras que cru
ces, se decide sim plem ente que hubo de h ab e rse utilizado u n a
p ru e b a de u n a cola, ya que subconscientem ente se est antici
p an d o u n a inclinacin en favor de las caras. De este m odo, cual
q u iera que sea la direccin de la desviacin, se puede o b ten er
u n a regin crtica m ayor que con u n a p ru e b a de dos colas.
X.3. Aplicaciones de la binom ial
La prueba del signo. Supngase que u n socilogo se est sir
viendo de un sim ple esquem a "antes-y-despus o slo-despus
del experim ento, en el que se da u n pequeo n m ero de casos
y en el que slo est en condiciones de d eterm in a r p a ra cada u n o
d e ellos si su experim ento h a dado o n o resultados.3 Puede, p o r
ejem plo, desear sab e r si la experiencia o btenida en un cam po
in terra cial es o no eficaz en cuanto a re d u c ir los prejuicios fijos
c o n tra los negros. S om ete sus investigados a u n a p ru e b a de p re
juicios, an tes y despus de la experiencia, y est e n condiciones
de ap reciar si el tipo de p reju icio en cuestin h a dism inuido o no.
Indiquem os con un + ("x ito ") los casos en los que el p rejuicio
se h a reducido, y con u n ("fracaso ) aquellos en que el p re
ju icio h a aum entado. Si hay personas que no m u estran el m e
n o r cam bio, stas qu ed arn excluidas del anlisis. A m enos que
la m edicin haya sido m uy bu rd a, dichas p erso n as sern relati
vam ente pocas.4
La binom ial requiere el supuesto de independencia de los ex
p erim entos. P or lo tanto, el socilogo su p o n d r que su grupo
experim ental constituye u n a m u estra aleatoria de la poblacin
a cuyo p ro p sito se p ro p o n e generalizar, y que en tre los p a rtic i
p an tes no se h a p roducido influencia m u tu a alguna, o slo poca,
en cu an to a las m arcas de prejuicio. Supongam os que lo que
tra ta de estab lecer es que la experiencia en un. cam po es real
m en te eficaz en cu an to a re d u cir los prejuicios. Como q uiera
q ue esto no puede hacerse directam ente, puede fo rm u lar la hip
tesis nula en el sentido de que la experiencia n o su rte efecto. S
efectivam ente no pro d u ce efecto, entonces, si se som etiera a u n a
experiencia sem ejante la poblacin e n tera de la que se ex tra jo
la m u estra, habram os d e e sp e ra r en c o n trar el m ism o nm ero de

3 Para el examen de este y otros tipos da esquemas de experimento va


se [6,],
4 El problema de empate o no cambio resulta particulannente molesto
en el caso de las variables ordinales, y ser discutido en los caps, xiv y
xvm. Para una explicacin ms amplia vase Bradley [3], cap. ni.

p erso n as cuyo p re ju ic io se re d u jo y de aquellas cuyo preju icio


au m en t . E n o tro s t rm in o s: deberam os te n e r las m ism as p ro
porcio n es de signos m s y signos m enos.
Com o q u iera que cada m iem b ro de la poblacin tien e la m ism a
p o sibilidad de fig u ra r en u n a m u e stra aleatoria, la probabilidad
de o b ten er u n + e n u n a extraccin d eterm in ad a cualquiera
ser de .5 b a jo la hiptesis nula. As, pues, u n su p u esto acerca
de la proporcin de signos + en la poblacin p erm ite, si se lo
co m b in a con el supuesto' del azar, en u n c ia r algo acerca de la pro
babilidad de xitos e n u n ensayo determ in ad o cualquiera. El azar
aseg u ra al p ro p io tiem po la independencia de los experim entos.
P erm tasen os in sistir u n a vez m s e n que es necesario form ular
su p u esto s ta n to acerca d e la poblacin com o acerca del m to d o
d e m uestreo. E n el p re se n te ejem plo, el in ter s se c e n tra e n la
eficacia de la experiencia, esto es, en la p ro p o rci n d e xitos en
tre la poblacin. P o r lo tanto, el socilogo se ase g u rar de que
se sirve de p ro cedim ientos correctos p a ra o b te n e r u n a m u e stra
aleato ria.
Si e n ste hay ocho personas, la distribucin d e m u estreo de
xitos sera com o sig u e:
N? de xitos
0
1
2
3
4
5
6
7
8

Probabilidad
V 258 = .004
8/ 256 = -031
23/256 = -109
w/sM = .219
TO/ 258 -274
B8/ 256 = -219
/ aM = .109
8/ 256 = .031
V M8 = .0W
1.000

Supongam os q u e el socilogo q u iere em p lear u n nivel de signifi


cacin d e .05. Com o q u iera que la direccin se h a anticipado,
p u ed e u tilizarse u n a p ru e b a de u n a sola cola. La regin crti
ca p u ed e d eterm in a rse acu m ulando pro b ab ilid ad es a p a r tir de
ocho xitos, luego siete, etctera, h a s ta que la su m a re su lte m ayor
q u e el nivel de significacin. P o r lo re g u la r n o ser necesario
o b te n e r la distrib u ci n de m u estreo en tera, ya que en realid ad
slo se em plean las colas p a ra d e te rm in a r la extensin de la re
gin crtica. E n el p re se n te caso, la p ro b ab ilid ad de ocho xitos
es de .004; la p ro b ab ilid ad de siete u ocho xitos es de .035, y la de
seis, siete u ocho xitos es d e .144. Como q u ie ra q u e la sum a
d e las p ro b abilidades de los re su ltad o s en el in te rio r de la re

gin crtica ha de se r m en o r que, o igual al nivel de significacin


seleccionado, vem os que la regin crtica slo puede co n star de
siete u ocho xitos.
Supngase que el socilogo efecta el experim ento y en cu en tra
que en seis casos el p rejuicio h a dism inuido, en ta n to que h a
au m en tad o en los o tro s dos. E n consecuencia, no d escartar la
h iptesis de que el experim ento no es eficaz, ya que la probabili
d ad de o b ten er dicho resultado, o inclusive u n o m s inslito, es
m ay o r que .05.
La prueba en el caso de ausencia de azar. E n el ejem plo ante
rio r se supuso azar y el inters se ce n trab a en la proporcin
de xitos e n tre la poblacin. E n otros tipos de problem as se po
d r te n e r inform acin acerca de la p roporcin de personas que
re n en determ inadas caractersticas en u n a poblacin, p ero pue
de ex istir u n a cuestin acerca de la selectividad. As, p o r ejem plo,
p ued e disponerse u n a p ru e b a p ara v er si los profesionales estn
o n o rep resen tad o s con exceso en los consejos, o si los negros
no estn bien rep resen tad o s en el ju rad o . Supngase que u n al
calde designa a nueve personas p a ra u n a com isin, pretendiendo
q u e son rep resen tativas, en el sentido de que todos los adultos
tienen las m ism as probabilidades de se r elegidos. Es sabido que
el 35 p o r ciento de la clase laboral son oficinistas y, con todo, de
los nueve m iem bros de la com isin seis son oficinistas; puede
utilizarse u n a p ru e b a binom ial p a ra d eterm in a r el grado de p ro
b ab ilid ad de sem ejan te distribucin profesional en el supuesto
d e seleccin al azar. E n este problem a p artic u la r, la p robabili
d ad de xito p o r d eb ajo de la hiptesis n u la sera de .35, y la
distrib u ci n de seleccin no sera sim trica. C onsideraram os
cad a u n a de las nueve posiciones de la com isin com o ensayo.
La p ro b ab ilid ad de o b ten er com o p rim e r com isionado a u n ofi
cin ista sera de .35, y anlogam ente p a ra cada u n a d e las ocho
posiciones restan tes.
O tros em pleos de la binom ial. Adem s de los citados an terio r
m ente, la binom ial p u ed e utilizarse en cierto n m ero de otros
tipos de problem as. E n ocasiones pueden utilizarse m edidas de
posicin, tales com o la m ediana o los cuartiles, p a ra p erm itim o s
v erificar si u n a p equea su b m u estra d e p erso n as es significativa
m en te d istin ta de lo que esperaram os en caso de azar. De una
m u e stra grande es posible o b ten er u n a apreciacin m uy buena
de la distrib u ci n de los ingresos en relacin con u n a ciudad de
term in ad a. Si los datos slo se h an obtenido de seis arm enios y
si seis de estas p ersonas ss encuentran en el cuartil inferior, p o
dem os efectu ar u n a p ru e b a p ara v er qu grado de probabilidad
rev iste esto, a condicin, p o r supuesto, de a d o p tar las decisiones
con an terio rid ad al experim ento.15 Como q u iera que p o r definicin

5 Necesitamos tener un nmero muy grande de casos, con objeto de obte


ner una apreciacin exacta de la medida de posicin (v.gr., Q ^. En otro

u n c u a rto de la poblacin se e n c o n tra r en el c u a rtil inferior, la


d istrib u ci n b inom ial p ro p o rcio n a la p ro b a b ilid ad de ob ten er
u n a d eterm in ad a p ro p o rci n de la su b m u estra p o r deb ajo del
c u a rtil de poblacin, en el su p u esto de que dicha su b m u estra
co n stitu y a esencialm ente u n a m u e stra al az ar d e la poblacin
m ayor.
As, p o r ejem plo, com o q uiera que la p ro b ab ilid ad de que cual
q u ier p erso n a d eterm in a d a se en c u en tre en el c u a rtil in ferio r es
de .25, la p ro b a b ilid ad de o b te n e r exactam ente seis arm em os en
el c u a rtil in ferio r se rla :

-(!)
O tam b in

w = ( !)

21
m

(t)W=

16 384
1
16 384

Com o q u iera que necesitam os o b ten er la p ro b a b ilid ad de conse


g u ir seis o m s xitos, sum am os estas probabilidades y te n e m o s :
21 + 1
P( 6) + P (7 ) = ---------= .0013
16 384
O tro em pleo d e la binom ial p o d ra c o n sistir en c o m p ro b a r el ca
r c te r adecuado d e u n a teo ra que p re d ije ra co rrec ta m e n te la
direccin de ciertas diferencias en, p o r ejem plo, 11 d e 15 p ru e
b as independientes. P ara que dichas p ru e b as fu e ra n indepen
dientes, deberan c o m p o rta r m u estras distin tas. As, p o r ejem
plo, u n a de las m u estras p o d ra c o n sta r d e jvenes varones
p ro testan te s, o tro de jvenes m uchachas p ro testan te s, o tro de
v arones catlicos d e m s edad, etctera. C ada u n a d e las sub
m u estras p o d ra s e r dem asiado p eq u e a p a ra p ro p o rc io n a r sig
nificacin estad stica separadam ente, pero, si las su b m u estras
se h u b iera n seleccionado independientem ente, p o d ra em plearse
leg tim am ente u n a binom ial p a ra av eriguar si u n n m ero sufi
cien te d e s b m u estras d ab a o n o re su ltad o s en la direccin esti
m ad a. C ada su b m u e stra c o n stitu ira e n ta l caso u n ensayo, y la
p ro b ab ilid ad de q u e en u n ensayo p a rtic u la r cu alq u iera el r e
su ltad o fu e ra en la direccin e stim ad a sera de .5 con base en la
hip tesis nula, en el sen tid o de q u e la te o ra n o ten a ab so lu ta
m en te n ingn v alor d e estim acin, esto es, e n el sentido de que
estim a la direccin err n eam en te con la m ism a frecuencia q u e lo

caso, en efecto, habr un grado de error suficiente en dicha apreciacin


para requerir el empleo de una prueba de dos muestras. La razn de ello
se ver claramente una vez que se hayan expuesto las pruebas de dos
muestras en el captulo xm.

hace co rrectam ente. O bsrvese q u e sem eja n te p ru e b a n o p o d ra


em p learse si se to m a ra n 15 observaciones sobre la b ase de la
m ism a m u e stra de personas.
* X.4. Extensiones del binomio
Son varios los posibles m todos p a ra am p liar el plan team ien to
b sico ejem plificado con el em pleo d e la d istrib u ci n binom ial.
Aun cu an d o dichos m to d o s no son usados con frecuencia e n las
p ru e b as estad sticas de las ciencias sociales, debe al m enos cono
cerse su existencia. La p rim e ra de ellas es la d istrib u ci n multinominal, utilizable en situaciones e n que se d an m s d e dos cla
ses de eventos. H em os v isto y a que si hay k clases d istin tas de
eventos, y si r, es el n m ero de eventos e n la z-sima clase, resu l
ta r que el n m ero de p e rm u ta s p a ra dichos eventos v en d r dado
p o r la expresin N \ / r x \r2\ . .rk\. Si los eventos son estad stica
m en te indep en d ientes y las pro b ab ilid ad es de o b ten er las distin
ta s clases de eventos vienen dados p o r pit con i = 1,2, . . . k, y con
k
2 p i = 1, en tal caso la p ro b ab ilid ad d e o b ten er exactamente r L
=i
eventos del tip o 1, r 2 eventos del tip o 2, . . . y rk eventos k e n al
gn orden particular se r :
(P iP iP i ) (P2P2P 2 ) (PkPkPk ) = P ir'P'f* Pk*

V_______________
) \ _______ ._______ I
Y
Y

V_______________
J
V

rt trm ino s r2 trm in o s

rh trm inos

Si m ultiplicam os esta expresin p o r el n m ero de p erm u ta cio


nes, obtendrem os la f rm ula
P ( r lt r2,

N\
rk) = ------------ p / i p 2r* ... pf*
ri'.r2l . . . r lc\

Es im p o rtan te o b serv ar que esta f rm u la nos d a la p ro b ab ili


d ad de o b ten er exactamente el n m ero especificado de eventos
d e cada tipo. Supongam os p o r ejem plo q u e tenem os conocim ien
to de q ue u n a escuela contiene 50 p o r ciento de caucsicos, 30 p o r
ciento de negros y 20 p o r ciento de o rientales. Cul es la p ro b a
b ilid ad de que el " p rim e r equipo" de f tb o l contenga exactam en
te 3 caucsicos, 7 negros y 1 oriental, b a jo el su p u esto de q u e la
com posicin racial del eq u ip o e st su je ta a u n proceso de selec
cin p u ra m e n te gobernado p o r el azar? U tilizando la distrib u ci n
m ultinom ial, te n d re m o s :
P( 3 ,7 ,1 ) = - H L (.5 )3( .3)(.2)1 = .007
3
!7 !1 !

E ncontram os inm ediatam ente u n a dificultad que crea com pli


caciones en el u so de la distribucin m ultinom ial e n las pruebas
estadsticas. No re su lta obvio en m uchos casos cm o puede es
pecificarse sin am bigedad u n grupo de soluciones que sean m s
"in frecu en tes que la ya obtenida. E n este ejem plo se dan varias
clases de com binaciones inslitas". Veam os las sig u ie n te s: el
equipo pued e n o c o n tar con negro alguno, o n o in clu ir orientales,
p ero qu re su ltad o cae en la regin crtica? Si es posible espe
cificarlo, p o d r idearse u n a p ru e b a correcta. Si reunim os por
ejem plo a los caucsicos con los orientales, podram os intere
sarnos p o r la p ro b ab ilid ad de o b ten er siete o m s negros en el
equipo. P ero en este caso, com o en otros m uchos, estaram os
utilizando la distribucin binom ial y no la m ultinom ial. R esulta
posible u n segundo tip o de m odificacin de la binom ial cuando
se h a estad o m u estrean d o sin reposicin u n a poblacin relativa
m ente pequea. Si u n a poblacin de tam ao M contiene Aj ele
m entos del tip o 1, M2 elem entos del tip o 2, y, en general, M
elem entos del tipo i, y si los tam aos correspondientes de la
m u estra son N y N it la probabilidad de o b ten er exactam ente N lt
N 2, . . . N k casos de cada tipo viene dada p o r lo que se denom ina
distribucin hipergeom trica, a sa b e r:
P ( N v N 2 ........ N
Si deseam os p o r ejem plo d eterm in a r la p ro babilidad de obte
n e r exactam ente seis espadas, seis trboles y u n diam ante en una
m ano de b rid g e de tre s ca rtas (to m ad as al azar, p ero sin repo
sicin), ten d ram o s:
P( 6 ,6 ,1 ) =
lo que re su lta u n nm ero sum am ente pequeo. T ropezaram os de
nuevo con la m ism a dificultad al especificar las alternativas que
pueden ser consideradas m s ra ra s que la a n te rio r p a rtic u la r
com binacin. E n el captulo xv harem os u n a p ru e b a exacta de
F ish er p a ra 2 x 2 tablas, b asad a en la distribucin hipergeom trica, en la que se incluyen slo dos tipos de eventos.
Se observ ar p o r ltim o que la distribucin binom ial puede
ser aproxim ada p o r o tras distribuciones cuando la m u e stra total
sea tan grande que haga que los clculos resu lten aburridos.
C uando N es grande y p tiene un valor interm edio, con el p ro
d u cto N p > 5, cabe acercarse al binom io m ediante u n a d istribu
cin norm al, en cuyo caso podrem os utilizar pru eb as basadas en

proporciones de xitos. E stas pru eb as sern p re sen tad as e n los


cap tu lo s x i y x m .
Se d a a veces el caso de que el tam a o de la m u e stra sea m o
d erad am en te grande, en ta n to que p es m uy pequeo (o sum am en
te g ra n d e). P or ejem p lo : p (o q ) puede re fe rirse a u n aconte
cim ien to poco usual, ta l com o el c o n tra e r u n a en ferm ed ad o
suicidarse. Si planteam os el p ro b lem a de m odo que p se re fie ra
a la p ro b ab ilid ad de aquel ra ro evento, de m odo que p < q, y si
N p < 5, p o d r calcularse aproxim adam ente el binom io, haciendo
u so d e la d istribucin de Poisson, p o r m edio de la siguiente
f rm u la :
P( r ) =

l re ~ X
rl

en la que r se refiere al n m ero de xitos en N in te n to s : ?. = Np,


y e es la co n stan te n a tu ra l, aproxim adam ente igual a 2.718.
H ay tab las p a ra h a lla r los valores de r! y de e ~ x (vase Spiegel
[8 ]), m ed ian te cuyo em pleo se reduce el tra b a jo del clculo.
P a ra ilu s tra r el em pleo de la aproxim acin de Poisson, supon
gam os que la p ro b a b ilid ad de se r a rre sta d o en u n a localidad de
te rm in a d a es de .06, p ero que en u n m u estreo de 50 japonesesn o rteam erican o s ad u lto s slo u n o de stos h a sido arrestad o . E n
ta l caso N p = 3.0 y
lg -3

P W = ---^---= 3e-8

De m an era anloga
P (0 )

3e-*
0!

en la que convencionalm ente definim os 0! com o la un id ad . Al


o b jeto de o b ten er la pro b ab ilid ad de que u n o o m enos de los
jap o n eses-n o rteam ericanos sea detenido, sum arem os P ( l ) y P ( 0),
o b ten ien d o
P ( l ) + P (0 ) = 4e~s = 4(.0498) = .199
X.5. Sum ario
E ste captulo contiene u n a can tid ad considerable de ideas, n u e
vas y fu n dam entales, adem s de exam inar el m ecanism o de la
p ro p ia distrib u cin binom ial. E n el captulo siguiente h ab rem o s
de d iscu tir de nuevo, con cierta am plitud, m uchas de estas ideas
co m plem entarias, ta n to b a jo la fo rm a de hiptesis acerca de las
m edias, com o en funcin de o tras dos distribuciones de m u estras.

P o d rn o b servarse las im p o rtan tes sem ejanzas que se dan en los


pasos o rientados a p ro b a r las hiptesis, y en los conceptos gene
rales que h an sido p resentados en este captulo. R evisem os s
tos de nuevo, brevem ente.
R esulta en p rim e r lugar necesario fo rm u lar algunos supuestos,
tanto acerca d e la poblacin que va a ser estu d iad a com o en re la
cin con el m todo de m u estreo de dicha poblacin. U tilizando
tales supuestos y la teo ra de las probabilidades, podrem os hacer
afirm aciones especficas acerca de los resultados, con referencia
a la hiptesis nula. E n el caso del binom io, p o r ejem plo, aquellos
supuestos h acen posible asignar u n valor num rico especfico
(p o r ejem plo, p = .5) a las probabilidades de xito de u n a prueba
determ inada. P ara to m a r decisiones en cu an to a la regin crtica
(es d ecir: el g rupo de soluciones p a ra las cuales rechazarem os
H q), necesitam os o b ten er lo que se denom ina u n a distribucin
del m uestreo, es d ec ir: u n a pro b ab ilid ad de distribucin que
asigna u n a p ro b abilidad num xica especfica a cada solucin o a
cad a g rupo de soluciones.
D ecidirem os a continuacin lo relativo al nivel de significacin,
q ue es la p ro b ab ilid ad de rech azar la hiptesis n ula cuando sta
es en realid ad v erdadera (u n e rro r tip o I). Idealm ente debe h a '
cerse esta decisin evaluando los costos de u n e rro r tip o I p o r
com paracin con los de u n e rro r tip o II , n o rechazando H 0 cuan
do en realid ad es falsa. Al decidir adem s h ac er uso de una
p ru e b a de u n a o de dos colas, queda d eterm in ad a n u e stra regin
crtica. E ste g rupo de resultados a excluir se en cu en tra acum u
lan d o las probabilidades, com enzando con los resultados m s
extrem os y m ovindose hacia el centro, h a sta que la sum a re su l
ta n te de p ro b abilidades sea ligeram ente m en o r que el nivel de
significacin (p o r ejem plo, .05). Vemos entonces los datos,
com putam os la estad stica de p ru e b a (p o r ejem plo, el nm ero de
xitos), y tom am os n u e stra decisin. Si el re su ltad o cae dentro
de la regin crtic a nos verem os obligados a rech azar H n, sa
biendo que com eteram os u n e rro r tip o I con u n a probabilidad
igual a la del nivel de significacin seleccionado. Si el resu ltad o
n o cae d en tro de la regin crtica, n o rechazam os la hiptesis,
corrien d o en este caso el riesgo de com eter u n e rro r tipo II.
Aun cuando es difcil (com o verem os en el cap tu lo xiv) deter
m in ar con exactitud la p ro babilidad de com eter u n e rro r tipo II,
pues ello depende de h a sta qu p u n to sea falsa n u e stra hiptesis
nula, sabem os que, p ara u n a m u estra de tam ao fijo, cuanto
m en o r hagam os el riesgo de com eter u n e r ro r tipo I, ta n to m a
y o r ser el de com eter uno del tipo II.
G losario

Distribucin binomial
Regin crtica

Distribucin hipergeomtrica
Modelo versus hiptesis
Distribucin multinomial
Pruebas de una y de dos colas
Distribucin de Poisson
Distribucin de muestras
Nivel de significacin
E jercicios

1. En 11 lanzamientos de una moneda insesgada, cul es la probabi


lidad de obtener exactamente cuatro caras? Exactamente siete caras?
Menos de tres caras? Respuesta, P(4) = 330/2.048.
2. Supngase que la moneda del ejercicio anterior est sesgada y
que la probabilidad de obtener cara es en realidad. 6. Sin efectuar los
clculos, indquese de qu modo esto afectara cada una de las pro
babilidades anteriores (esto es, si las aumentara, las reducira o las
dejara inalteradas). Respuesta, menor de P(4)
3. Supngase que se quiere verificar la hiptesis nula, en el sentido
de que la moneda es insesgada, echando 11 lanzamientos. Indquese
la regin crtica que se utilizara:
a) pa^i una prueba de dos colas al nivel de .05. Respuesta: 0, 1, 10
u 11 caras
b) para una prueba de dos colas al nivel de .10
c) para una prueba de dos colas al nivel de .01
d) para una prueba de una sola cola al nivel de .05, anticipando
que P (cara) > .5. Respuesta: 9, 10 u 11 caras.
e) para una prueba de una sola cola al nivel de .10, anticipando que
P(cara) < .5.
4. En una localidad determinada, el 10 por ciento de la poblacin
es juda. Un estudio de los consejos de directores de diversas agen
cias de servicios indica que de un total de siete presidentes de los
consejos cuatro son judos. Qu probabilidad existe de que esto
pueda deberse al azar? En ste y los dems ejercicios que comportan
verificacin de hiptesis, indquense los razonamientos y enumrense
los supuestos adoptados. Respuesta, P = .0027.
5. Un psicosocilogo tom a 12 grupos que dispone por pares segn
la estatura. Tiene as seis pares de grupos, en los que cada par de un
grupo constituye un grupo experimental y el otro el grupo de control.
El experimento comporta un intento de aum entar la cohesin de los
grupos, y el experimentador est en condiciones de apreciar si el gru
po experimental es o no m s coherente que el grupo de control con
el que ha sido apareado. Cmo puede servirse de la binomial para
verificar la hiptesis nula en el sentido de que el experimento es ine
ficaz? En este problema han de indicarse todos los supuestos reque
ridos, calcularse la distribucin de muestreo y proceder a la eleccin
de una regin crtica.
*
6. Supngase que se est estudiando un pequeo grupo de 12 per
sonas y se desea verificar la hiptesis de que cuanto mayor es el
grado de conformacin a las normas del grupo tanto ms elevada

es la posicin de la persona en el grupo. En relacin con ambas va


riables (conformacin y posicin) slo se est en condiciones de apre
ciar si el individuo est por encima o por debajo de la mediana.
Cmo se utilizara la binomial para verificar la hiptesis nula de que
no existe relacin alguna entre dichas variables? No se deje de indi
car el razonamiento.
* 7. Supngase que sabemos que la probabilidad de que se cometa
suicidio entre un grupo de cierta edad es .003. Se ha descubierto que
en una m uestra seleccionada al azar, de 1200 indios navajos del mis
mo grupo de edad, no ha habido suicidios. Cun probable es que esto
haya sucedido por pura casualidad?
B ibliografa

1. Alder, H. L., y E. B. Roessler: Introduction to Probability and


Statistics, 4 ed., W. H. Freeman and Company, San Francisco, 1968,
cap. 6.
2. Anderson, T. R., y M.Zelditch: A Basic Course in Statistics, 2ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 11.
3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, caps. 3 y 7.
4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 5.
5. Pierce, Albert: Fundamentis of Nonparametric Statistics, Dickenson Publishing Company, Inc., Belmont, Cal., 1970, caps. 9 y 12.
6. Selltiz, C., M. Jahoda, M. Deutsch, y S. W. Cook: Research Methods
in Social Relations, Henry Holt and Company, Inc., Nueva York,
1959, cap. 4.
7. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien
ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 36-42.
8. Spiegel, M. R.: Theory and Problems of Statistics, Schaums Outline Series, McGraw-Hill Book Company, Nueva York, 1961, cap. 7.
9. Tables of the Binomial Probability Distribution, National Bureau
of Standards, Applied Mathematics Series, Nm. 6, 1950.

X I. PR U EB A S D E M U E ST R A S S IM P L E S Q U E IM PLIC A N
M E D IA S Y P R O PO R C IO N E S

E n este captulo nos ocuparem os de verificacin de hiptesis


acerca de las m edias y las proporciones de poblaciones. La m e
dia o la pro p o rci n de u n a m u estra obtenida de u n a sola de stas
se co m p arar con el p a r m e tro de la hiptesis y se decidir
si sta debe o n o d escartarse. El lecto r no ta rd a r en d escu b rir
que las p ru eb as de la fo rm a exam inada en este captulo tienen
m ucho m enos u tilid ad p r ctica que las que co m portan v arias
m u estras. A estas altu ra s, sin em bargo, im p o rta m s o b te n e r
u n a b u en a com prensin de las ideas fundam entales que preocu
p a rse excesivam ente p o r las aplicaciones prcticas. P or desgra
cia, las p ru eb as m s sencillas no siem pre son las m s tiles.
Se re c o rd a r que las pru eb as estadsticas que incluyen la binom ial se servan de la regla de la m ultiplicacin p a ra o b ten er u n a
d istrib u ci n de m u estreo. Pudim os v er en esta fo rm a exactam en
te de qu m odo se utilizaba la teo ra de las probabilidades p a ra
conseguir dicha d istribucin. De aqu en adelante, las considera
ciones m atem ticas se van haciendo cada vez m s com plicadas,
a ta l p u n to que, pese al hecho de que sera deseable com prender
lo que hay d etrs de cada argum ento, el lecto r h a b r de em pezar
a a c e p ta r cada vez m s enunciados con la g aran ta de la palabra.
Sin duda, hay p ru eb as m atem ticas disponibles, p ero la m ayora
de ellas n ecesita del clculo o incluso de u n a prep araci n m a te
m tica considerablem ente m ayor.
X I.1. D istribucin en m u estreo de las m edias
Un teo rem a relativam ente notable, se b a sa en los m ism os princi
pios y reglas de p robabilidades que la binom ial, p ero no se deja
co m p ro b ar en u n texto com o ste. Dicho teo rem a puede en u n
ciarse as: S i d e una poblacin norm al d e m a g n itu d N con una
m edia de \x.y una variancia de cr2 se extraen reiteradas m uestras al
azar, la d istribucin de seleccin d e las m edias d e las \muestras
ser norm al, con la m edia ^ y la variancia o 2/N . E xam inarem os
cu idadosam ente lo que dice el teorem a del lm ite central.
P artim o s p rim ero de u n a poblacin n orm al, a sabiendas, p o r
su puesto, de que en la vida re al sem ejan te poblacin p erfec ta
m en te n o rm al n o existe. Nos im aginam os luego a nosotros m is
m os extrayendo de la poblacin en cuestin u n n m ero m uy
gran d e de m edias de m ag n itu d N al azar.1 P a ra cada u n a de di
chas m u estras obtenem os u n a m edia X . P o r supuesto, estas m fr

i No se confunda el nmero de muestras


de cada una de ellas ( N ).

(que es infinito) con el

tamao

dias de las m u estras v aria rn algo de u n a a o tra de ellas, pero


esperam os, con todo, que se am o n to n arn a lre d ed o r d e la ver
d ad era m ed ia p, de la poblacin. E sto es lo que n o s dice el teore
m a del lm ite central. Dice que si dibujam os u n a grfica de la
distrib u ci n d e dichas m u estras, el re su ltad o se r u n a curva n o r
m al. P o r o tra p a rte , la desviacin e st n d a r d e esa d istribucin

F ig .

X I.1. C om paracin de las distribuciones norm ales de


m u estreo para m uestras d e tam ao d iferen te

n o rm al de las m edias d e las m u estras ser de cr/V N . P o r consi


guiente, cu an to m ay o r sea el tam a o escogido de m u estra, tan to
m en o r ser la desviacin e st n d a r en la d istrib u ci n de las m ues
tra s , esto es, ta n to m ayor ser el agolpam iento de las m edias de
stas (vase fig u ra X I.l). Si consideram os las m edias d e las m ues
tra s com o apreciaciones de la m edia de la poblacin, podem os
d ecir que hay c ie rta ca n tid ad de e r ro r en n u e stro proceso de es
tim acin, debido a fluctuaciones del m uestreo. P or consiguiente,
designam os la desviacin e s t n d a r de u n a d istrib u ci n d e m ues
treo com o error estndar. E n e ste caso, el e r ro r e st n d a r de
la m edia, in d icado sim blicam ente com o o-, es o /\/~ 7
E l le c to r h a de te n e r claram en te p re se n te que se h allan im pli
cadas tre s d istribuciones d istin tas, dos de las cuales acontecen
se r ex actam en te norm ales. E n efecto, prim ero tenem os la pobla
cin, de la q u e se p re su m e que es norm al, con u n a m edia d e n
y u n a v arian cia de o2 [e sc rita en adelante, p a ra abreviar, com o
N or(\i, d*)]. E n segundo lugar, tenem os u n a d istrib u ci n de dato s
en el interior de cada m uestra. Si N es grande, e s ta distribucin
ser p ro b ab lem en te con to d a razn rep resen ta tiv a de la pobla
cin y pu ed e ser, p o r consiguiente, aproxim adam ente norm al.
O bsrvese q ue sta es la nica d istribucin que se obtiene en fo r
m a efectivam ente em prica.2 Y en tercer lugar, tenem os la distri-

2 Como quiera que sta es la distribucin que el investigador ve efectiva-

bucin de seleccin de u n a estad stica (en este caso, la m edia).


Acabam os de v er que la distrib u ci n de m u e stra de la m edia ser
asim ism o norm al, p ero te n d r u n a desviacin estn d a r m enor
q u e la poblacin (a m enos q u e el tam a o de la m u e stra N sea
u n o ).
La relaci n e n tre la poblacin y la d istrib u ci n de m u estreo
pued e verse en d iagram a en la figura XI.2. C uanto m ayor sea la

Fig. XI.2. C om paracin en tre las distribuciones de la poblacin


y d e la m u e stra
m ag n itu d N de la m u estra, m s pun tiag u d a se r la distribucin
de seleccin, com o p u ed e verse en la fig u ra X I. 1. H ay q u e ten er
c laram en te p re sen te que, pese a que sus desviaciones e st n d a r se
relacionan directam ente, constituyen, con todo, distribuciones
com p letam en te d istin tas. T odos los "caso s' de la distribucin
de m u estreo son m edias d e m u estras distin tas. Como e ra cierto
en el caso de la binom ial y com o lo ser en to d as las dem s p ru e
b as estadsticas, es m s b ien la distribucin de m u estreo y n o la
p ob laci n original la que se u tiliza d irectam en te en las p ru e b as
de significacin. Los supuestos a p ro p sito de la poblacin pue
d en ap a rec er en el m odelo. M ediante la te o ra de las p ro b ab i
lidades los enunciados acerca de la poblacin y de los m todos
d e m u estreo se trad u c en en enunciados acerca de la d istrib u
cin de m u estreo.
E n resum en, las m edias y las desviaciones e st n d a r de las tres
clases de d istrib u cin son com o sigue:
Desviacin
Media

estndar

Poblacin

{i

M uestra

Distribucin de m uestreo

fx

a /y / N

mente, puede haber propensin a confundir esta dase de distribucin con


la de muestreo.

El teo rem a del lm ite cen tral concuerda con la intuicin del
sentido' com n e n que, suponiendo que se hayan evitado d isto r
siones, pued e tenerse m s confianza en la apreciacin de la m edia
de u n a m u e stra grande que de u n a peq u e a.3 Dice, en efecto,
que las m edias de las m u estras v aria rn m enos de u n a m u estra
a o tra si N es grande. P ero constituye, con todo, u n refinam iento
considerable con resp ecto al sentido com n, en cu an to p ro p o r
ciona una indicacin de cu n ta m s confianza deberam os ten er
si N es au m en tad o e n u n a ca n tid ad determ inada. As, p o r ejem
plo, podem os v er que p a ra p a r tir el e rro r estn d a r p o r la m itad
necesitam os h ac er N c u a tro veces m ayor. Nos dice asim ism o
que cu an to m s hom ognea es la poblacin, p a ra em pezar, esto
es, cu an to m s pequeo es el v alor de a, ta n to m en o r es el e rro r
estn d a r a / y / N y ta n to m ayor el agrupam iento de las m edias
de las m u estras alre d ed o r de la m edia de la poblacin.
* Puede o frecerse u n a justificacin terica de este im p o rtan te
teorem a in tro d u cien d o la idea de las com binaciones lineales, de
la que h arem os uso m s adelante en varias ocasiones. Una m edia
es en realid ad u n a funcin lineal sim ple de las puntuaciones X u
1
ya que X = (X x + X 2 + . . . + X N). P uede m o strarse , en form a
m s generalizada, que si tenem os u n a variable Y que es u n a com
b inacin lineal cualquiera de las X {, y si esta X f h a sido selec
cionada independientem ente, com o o cu rre cuando sacam os al
azar u n a sim ple m u estra, podrem os o b ten er expresiones sim ples
de la m edia (v alo r esp erad o ) de Y, y p a ra la variancia de Y.
E specficam ente, si
y = cjX j + c2x + C3X 1 + . . . + cfX]f
y si las X t son seleccionadas independientem ente, entonces
E ( Y ) = CECT) + c2E ( X 2) + . . . + cnE ( X n )

y
V ar Y a ,/ = c^a * * + c 22ax22 + . . . + a ^ a ^ 2
* E n el caso de las m u estras al azar, el v alor esperado de cada
X { es [x. Si situam os cada cy = l / N , entonces Y p asa a conver
tirse en la m ed ia de la m u estra, y te n d re m o s :
3 Obsrvese que tenemos ms confianza en apreciaciones basadas en
grandes muestras; sin embargo, al descartar una hiptesis al nivel de .05,
asumimos el mismo' riesgo de un error de tipo I, independientemente de la
magnitud de JV. Como veremos dentro de poco, la extensin de la regin
crtica utilizada en la prueba toma en consideracin la magnitud de la
muestra, lo que explica la incongruencia aparente.

( X ) = ( F ) = ^ - i - J [ 1i + | i + . . . + n ] = ^ ( W *) = u

= - [ o2 + o2 + . . . + o]
1

La ltim a f rm u la es consecuencia del hecho de que la varancia de cada X t es ju sto a2, ya que estam os tra ta n d o en casos in
dividuales seleccionados con igual p ro b a b ilid ad de e n tre u n a
poblacin con variancia a2. V ista intuitivam ente, la idea es que
si rep etim o s u n experim ento consistente e n sac ar el " p rim e r
caso u n g ra n n m ero de veces, la distribucin de estos p rim ero s
casos ser ap ro x im adam ente o r (ji, a2). Lo m ism o o c u rrira con
u n a sacad a re p etid a d e segundos casos, etctera.
E l teorem a del lm ite central. E stam os a h o ra en la posibili
dad de fo rm u la r u n teo re m a m s general, conocido con el nom
b re de teo rem a del lm ite central, com o sigue: S i se extraen
diversas m u estra s de m agnitud N al azar de una poblacin cual
quiera ( de la fo rm a que sea ) con una m edia de y una variancia
de o2, entonces, a m edida que N crece, la distribucin de m ues
treo d e las m ed ia s de las m u estra s se aproxim a a la norm alidad,
con la m edia \jl y la variancia <j/N.
E ste teo re m a es m s n o tab le todava que el anterior. Dice, en
efecto, q u e p o r m uy n o tab le que sea la d istrib u ci n de la que
p artim o s, a condicin que N sea lo b a sta n te grande, podem os
c o n ta r con u n a d istrib u ci n de m u estreo aproxim adam ente n o r
m al. Como q u iera que es la d istribucin de m u estreo , y n o la po
blacin, aquella de que nos servim os en las p ru e b as de significa
cin, e s to significa que, siem pre que N es grande, podem os
ab a n d o n a r p o r com pleto el su puesto acerca de la no rm alid ad
de la p o blacin y seguir sirvindonos en n u e stra s pruebas, con
todo, de la cu rva norm al.
E l lecto r h a de tr a ta r de convencerse de que la ley de los
grandes n m ero s tien e sentido* em prico. La m e jo r m an era de
o b ten er u n a b u en a com prensin de lo que el teo rem a del lm ite
cen tral significa, y de convencerse al p ro p io tiem po u n o m ism o
de q ue el e rro r e st n d a r es realm en te a / y / N , consiste en e x tra e r
u n n m ero de m u estras de u n a poblacin d e m edia y desviacin
e s t n d a r conocidas, calcu lar las m edias, h a lla r la desviacin es-

t n d a r de las m u e stra s y co m p arar el re su ltad o obtenido con


c/\Z ~.4 P o r q u d e b e ra la distribucin de m u estreo hacerse
norm al si la d istrib u ci n original no lo es? Echem os u n a ojeada
P

Fig. XI.3. D istribucin d e la poblacin de las probabilidades de


o b ten er caras de 1, 2, 3, 4, 5 o 6 con u n dado perfecto
a u n a pob lacin que diste de se r norm al y veam os qu ocurre a
m ed id a q ue v am os to m an d o m u estras m ayores.
Im agnese q u e estam os ech an d o algn dado m atem tico ideal,
con el cual las p ro b a b ilid ad e s d e o b ten er cada u n a de las seis

F ig .

XI.4. D istribucin d e m u estreo de las m edias de las caras,


con dados p erfec to s y m u estra s d e tam ao 2

caras son exactam ente 1/6. La d istribucin de p ro b ab ilid ad p ara


la ju g ad a de u n solo dado es e n este caso rectangular, es d ecir:
todos los nm eros (d e 1 a 6 ) tienen la m ism a posibilidad d e ocu
rrir. E ste tip o de d istribucin fo rm a u n c o n tra ste pronunciado

-i Vase el ejercicio 1 al final del captulo.

con la d istrib u ci n norm al, en la que los valores extrem os son


m enos probables que los que quedan m s prxim os a la m edia.
S em ejan te d istribucin rectan g u lar puede re p resen ta rse com o
e n la fig u ra XI.3. E n rigor, p o r supuesto, la distribucin sera
discreta, y n o continua com o parece indicarlo el diagram a.

Fig. XI.5. D istribucin d e m uestreo d e las m edas de las caras,


con dados p erfecto s y m uestras de tam ao 3
Si consideram os u n a distribucin sem ejan te com o poblacin
de to d as las ju g adas posibles del dado, calculem os la d istrib u
cin de m uestreo de las m edias de m u estras de tam a o 2. E sto
significa q ue hem os de ech ar dos dados, su m ar los valores de las
caras y dividir e n tre 2. Como bien lo saben los jugadores experi
m en tad o s del c ra p , esas sum as van d e 2 a 12, siendo 7 el valor
m s p robable. Al tr a ta r d e o b ten er las probabilidades d e ocu
rren cia de cada u n a de dichas sum as, observem os p rim ero que
h ay ( 6) ( 6) o sean 36 resu ltad o s posibles si los dados son d istin
tos. As, pues, el p rim e r dado puede ca er con cada u n a de las
ca ras h acia arrib a, y lo p ro p io puede h a c e r el segundo. P ara
o b ten er la pro b ab ilidad de conseguir u n a sum a de m arcas de 7
y, p o r lo tan to , u n a m ed ia d e 3.5, slo necesitam os c o n ta r el n
m ero de m aneras en que dicho re su ltad o pu ed e producirse. Ob
viam ente, h ay seis p ares que pueden d a r u n a m arca de 7, a sa
b e r : (1,6), (2,5), (3,4), (4,3), (5,2) y (6,1). Una sum a de 6 slo
pued e o b ten erse d e cinco m aneras d is tin ta s : (1,5), (2,4), (3,3),
(4,2) y (5,1). Y en fo rm a anloga, slo hay u n a m an era de o bte
n e r u n a su m a de 12 ( 6,6) o u n a sum a de 2 (1,1). P or consiguien
te, la distribucin de la pro b ab ilid ad de las m edias puede re p re
sen tarse com o s ig u e :

Media
1.0
1.5
2 .0

Probabilidad

a/36

25

2/ 36
s / 36
4/ 36

3 .0

5/ 30

3 .5

**/36

Media

Probabili

4 .0
4.5

B/ s e
V so

5 .0
5.5
6 .0

3/.86
2/ 86

v 36
36/36

Si se la re p re se n ta e n fo rm a de grfica, esta d istrib u ci n asum e


la fig u ra de u n tringulo (fig u ra X I.4).
Si se ju eg a con tres dados, se sum an las caras y se obtienen las
m edias, la d istrib u ci n de m u estreo ser com o sigue:
Media
1.00
1.33
1.67
2 .0 0
2.33
2.6 7
3 .0 0
3 .33

Probabilidad
V

216

216
V 2I 6
10/ 218
15/ 216
21/ 216
25/:216
27 21 g

Media
3.67
4 .0 0
4.33
4 .6 7
5.0 0
5.33
5 .6 7
6.00

Probabilidad
27/ 216
25/ 216
21/ 216
15/ 21g
10/ 216
6/ 21 G
3/ 216
216

a le / 216
E s ta d istribucin, com o p u ed e ap reciarse en la fig u ra XI.5 em
pieza ya a acercarse a la fo rm a de la curva n orm al, pese a que
el tam a o de la m u e stra n o sea m s que 3. Despus de u n exa
m en aten to d e las cifras an terio res, el lecto r e s ta r e n condicio
nes de co m p ren d er in tu itiv am en te lo que o cu rre y p o r qu se va
obteniendo u n a cu rv a en fo rm a cad a vez m s p ro n u n ciad a de
cam p an a a m ed id a que la m ag n itu d de N au m en ta. E n efecto,
si bien con u n a sola ju g ad a es tan p ro b ab le sac ar u n 6 com o u n
3 o* u n 4, y de hecho dos 6 son ta n p robables com o dos 3, slo
hay, con todo, u n a m an era de o b te n e r dos 6, e n tan to que hay
cierto n m ero de m an eras d istin tas de o b ten er u n pro m ed io de
3.0 en dos o m s jugadas. E n lenguaje com n decim os que los
g randes n m eros tienden a se r com pensados p o r pequeos, sobre
to d o si N es grande.
XI.2. Prueba para la m ed ia d e la poblacin, conociendo a
Veam os ah o ra cm o el teorem a del lm ite cen tral y la ley de los
grandes nm eros pueden ap licarse en las p ru e b as estadsticas.
P a ra em pezar, vam os a to m a r el m odelo m s sim ple posible con

fines de ilustracin. Como quiera que algunos de los supuestos


req u erid o s en este m odelo no son prcticos, se ab an d o n arn m s
adelante. Se tra ta r u n a vez m s con cierto detalle cada uno de
los cinco pasos exam inados en el captulo x, con o b jeto de que
el lecto r se vaya fam iliarizando con el proceso de d esarro llar
p ru eb as estadsticas.
Problem a. Supngase que un investigador est in teresado en
v erificar la pro piedad de los procedim ientos de m uestreo em
pleados en u n estudio local, realizado p o r entrevistadores sin
experiencia. El investigador en cuestin sospecha que los ingre
sos correspondientes de las fam ilias de las clases m edia y. supe
rio r p u ed an h ab e r sido subestim ados, esto es, que hayan tenido
m ayor pro b ab ilidad de ap a rec er en la m u e stra que los d e las
fam ilias de ingresos m s bajos. Se dispone de datos del censo
que m u estran que el ingreso fam iliar m edio de la localidad es de
$ 7 500 y la desviacin e stn d a r de $ 1 500. Una encuesta m s re
d u cid a com prende 100 fam ilias, que se suponen seleccionadas al
azar, y se en cu en tra que el ingreso fam iliar m edio de esta m u estra
es de $ 7 900. Tiene razn el investigador al sospechar que la
m u e stra estab a distorsionada?
1.
A dopcin de supuestos. Con o b jeto de p o d er servirse del
teo rem a del lm ite central, hay que a d o p ta r ciertos supuestos.
Como ya se indic an terio rm en te, h a de h a b e r siem pre u n su
puesto a p ro p sito del m todo de m uestreo. E n el p resen te caso,
suponem os que ste se h a hecho al azar. E n realidad, ste es
el sup u esto que nos in te re sa verificar, y a q u e sospecham os de la
h ab ilid ad de la perso n a que efectu la en cuesta en cuanto a d ar
a todas las fam ilias u n a o p o rtu n id ad d e seleccin igual. P resum i
blem ente, estam os dispuestos a a c e p ta r ciertos supuestos acerca
de la poblacin, a sa b e r: que los datos del censo son m s fide
dignos. Si no podem os a c e p ta r las cifras de ste, entonces ten d re
m os p o r lo m enos dos supuestos dudosos, y la in terp retaci n
de los resu ltad o s se h a r excesivam ente difcil. E n consecuencia,
n u e s tra hiptesis ser la de m uestreo al azar. En cu an to a los
dem s su p u esto s relativos a la poblacin, stos co n stitu irn el
m odelo.
Si N no es dem asiado grande, se req u iere u n a poblacin n o r
m al. Aqu se p lan tea la cuestin de sa b e r: cun grande h a de
se r N p a ra que podam os d e ja r el su p u esto de norm alidad y ser
virnos del teo rem a del lm ite ce n tral?' N o existe u n a resp u esta
sencilla a dicha cuestin, y la respuesta depende, e n tre o tr o s : 1 )
d e qu grado de precisin se desea acerca de la apreciacin de
la p ro b ab ilid ad de e rro r de tip o I, y 2 ) de cul grado de aproxi
m acin poseem os resp ecto de u n a poblacin norm al. Pese a que
haya que se r cau to a p ro p sito de las sim ples reglas prcticas,
p u ed e su g erirse que, si N 3 100, el supuesto de norm alidad puede
casi siem pre tu rn arse. Si N 3: 50 y se tiene adem s evidencia em

p ric a e n el sen tid o de que la desviacin con resp ecto a la n o rm a


lid ad no es im p o rtan te, entonces pu ed en tam b in u tilizarse p ru e
b as del tipo exam inado en la p re se n te seccin. P ero si N < 30, en
cam bio, h a b ra que g u ard arse decididam ente del em pleo de sem e
ja n te s p ru eb as, a m enos q u e se sepa que la aproxim acin a la
n o rm alid ad es buena. C uando se em plean m u estras pequeas,
suele p o r lo re g u la r carecerse de sem ejante inform acin, ya que
n o h ay casos suficientes en la m u e s tra p a ra in d icar la fo rm a de
d istrib u ci n de la poblacin. P o r lo tan to , en el caso d e m u estras
pequeas d eb eran p o r lo re g u la r em p learse o tro s tipos de p ru e
bas. Supongam os en el p re sen te p ro b lem a que podem os servir
nos legtim am ente del teorem a del lm ite cen tral. Como sabem os,
las d istrib u cio n es relativas al ingreso suelen se r e n general algo
disto rsio n ad as. P o r o tra p a rte , tenem os u n a m u e stra razonable
m en te grande.
A dicionalm ente a los supuestos anteriores, si vam os a servim os
del teo rem a del lm ite cen tral necesitam os a c e p ta r asim ism o las
cifras del censo relativas a [i y o y su p o n er u n a escala de in te r
valo. Tenem os, p o r tan to , los siguientes su p u e sto s :
N ivel de m e d ic i n : escala de intervalo
M odelo: poblacin n o rm al (p u ed e ab a n d o n arse )
H = $ 7 500
c = $1500

H ip tesis (n u la ): seleccin al azar.


2. O btencin d e la distrib u ci n de m uestreo. A fortunadam ente,
la lab o r de o b ten er la d istrib u ci n de m u estreo nos la dan ya
hecha. Como q uiera que sabem os que la distrib u ci n d e m u estreo
d e las m edias de las m u estras es n orm al o aproxim adam ente
norm al, podem os i r directam en te a la tab la norm al. E n adelan
te, las d istrib u ciones de m u estreo se d arn siem p re en fo rm a de
tab las del A pndice 2. Im p o rta te n e r p resen te, sin em bargo,
que dichas tab las se h an calculado sirvindose d e la teo ra de
las p ro b abilidades. Es ta n fcil, en efecto, p e rd e rse en detalles
d e clculo, q ue se llega a olvidar que cuando en n u e stra s pru eb as
estad sticas nos servim os de tab las nos estam os sirviendo en re a
lid ad de u n a d istrib u ci n de m uestreo.
3. Eleccin de u n nivel de significacin y d e una regin crtica.
La eleccin del nivel de significacin apropiado depende, p o r su
puesto, de los costos relativos que im plican los e rro re s de tipos
I y II. Si el in vestigador d eja de d e sc a rta r la hiptesis d e selec
cin al azar cu an d o la m u e stra no est efectivam ente equilibrada,
co rre el riesgo de in fo rm a r hallazgos falaces. P or o tra p a rte , si
se d escarta cuando la hiptesis es realm en te cierta, p u ed e te n e r
que re p e tir la encuesta, con los gastos considerables que ello

p u ed a acaso ac arrear. D esde el p u n to de v ista ideal, h a b ra de


a d o p ta r u n a decisin racional b asad a en los costos de dichos dos
tipos d e erro r. E n la p rctica, sin em bargo, e sto le re su lta r ta l
vez difcil. Supongam os, p o r ejem plo, q u e se decide p o r u n nivel
d e .05. A continuacin d eb era decidir serv irse de u n a p ru e b a de
u n a sola cola, y a q u e la direccin del sesgo s e h a estim ado. Si

F ig . X I.6. D istribucin norm al de m uestras, con rea achurada

representando una regin crtica de una sola cola al nivel d e


significacin de .05
re su lta ra que la m edia de la m u e stra e ra in fe rio r a $ 7 500, difcil
m en te sosp ech ar q u e los que realizaron la encuesta hayan sobreseleccionado los grupos de ingresos m edio y su p e rio r.6 D ada la
eleccin del nivel de .05 y de u n a p ru e b a de u n a sola cola, la re
gin c rtic a se d eterm in a p o r la ta b la n orm al. Como q u iera que
so lam en te el 5 p o r ciento del rea de la cu rv a n orm al se sit a
a la d erech a de u n a o rd e n ad a de 1.65 desviaciones e st n d a r m a
y o r q u e la m edia, sabem os que, si el re su lta d o su p era la m ed ia [i
e n m s de 1.65 desviaciones estn d a r, la hiptesis h a d e descar
ta rs e (vase fig u ra X I.6 ).
4. Clculo de la estadstica de la prueba. S abem os q u e si todos
los su p u esto s son correctos, la d istrib u ci n de m u estreo de las
X se r N or(\i, a^/ N). O sea, en los trm inos d e n u e stro ejem p lo :
= f 7 500

y/N

V I*

Con o b jeto de p o d er serv im o s de la ta b la n orm al, es necesario


co n v e rtir a dato s e st n d a r, o, e n o tro s trm inos, o b ten er u n a
estad stica Z que sea Afor(O.l). A nteriorm ente nos servim os de
la f rm u la :

s En este problema, los datos de la muestra se han dado en realidad, y


la direccin del resultado. Sin embargo, el lector debe pensar que
esta decisin pueda efectuarse antes de conocer el resultado.
sabemos

X -X
Z = -----------E sta frm ula es aplicable en el caso de u na m u estra que sea
N o r(X , s2), p ero no en el caso de la distribucin de seleccin.
Recordem os, pues, cada uno de los pasos de nu estro procedim ien
to. H em os form ulado un a serie de supuestos con o b jeto de obte
n e r un a distribucin de m uestreo. E sta distribucin nos indica
cun probable sera u n a X determ inada si n u estro s supuestos
fueran realm ente ciertos. El socilogo, en cambio, h a obtenido
de su m uestreo u n a sola X , y quiere servirse de la distribucin de
m uestreo terica p a ra p oder ap reciar la pro babilidad de obtener
u n resultado ta n inslito o m s inslito que su X p articu lar. En
efecto, al servirse de la tab la n orm al, opera en realidad con la
distribucin de m uestreo. E n esta distribucin cada _^caso" es
u n a X , la m edia es x, y la d esv iacin _estn dares a /yJN . P or lo
tanto, X sustituye a X , sustituye a X , y a / \ / N sustituye a s en
la frm u la an terio r de Z. Tenem os, pues:

c /y /
7 900 - 7 500
150

2.67

E n otros t rm in o s : la m edia de la m u estra es 2.67 erro res estn


d a r m ayor que la m edia de la poblacin.
5. Adopcin de una decisin. Como quiera que X se desva de
la p resu n ta i en m s de 1.65 desviaciones e stn d a r en la direccin
prevista, la hiptesis debera d escartarse al nivel .05. De hecho,
sin em bargo, habiendo calculado Z exactam ente, podem os decir
m s que esto. E n efecto, sirvindonos de u n a p ru e b a de u na sola
cola, la probabilidad de ob ten er u n a Z de esta m agn itud o m ayor
es de .0038. E n la p rctica se recom ienda calcular exactam ente
el nivel de significacin, siem pre que ello sea posible. Al hacerlo
as, en efecto, indicam os que el resu ltad o se sit a en u n a regin
crtica m s reducida todava que la que o riginariam ente se esta
bleciera. Como quiera que el lecto r p re ferir tal vez servirse de
un nivel de significacin d istinto de aquel del au tor, re su lta p o r
lo regular til p ro porcionar probabilidades exactas, o lo m s
exactas posibles, de m odo que aqul pueda sacar sus propias
conclusiones en cuanto a acep tar o no los hallazgos. E n el pre
sente ejem plo, el socilogo d escartara la hiptesis nu la de que

la m u e stra fue al azar. Y h a b ra de decidir a continuacin si


q u iere o n o e x tra e r o tra m u estra.
XI.3 La d istribucin t de S tu d e n t
E n la m ay o ra de los casos es to talm en te im p rctico tr a ta r a o
com o si fu e ra conocida. P or lo re g u la r in cu rrim o s en d ificulta
des considerables con o b jeto de a se g u rar el ca rc te r fo rtu ito de
la m u estra, ya que lo que nos in tere sa en p rim e r trm in o es la
com probacin de los su p u esto s acerca de la poblacin a estu d iar.
E n p ru e b as de la clase que se exam ina en este captulo, es prob ab le q ue el lecto r desee verificar u n a hiptesis relativ a a [x. P ero
si as fu e ra el caso, e sta r jam s en condiciones de conocer el
valo r de o? P rcticam en te no. P orque si tu v iera conocimiento* de
a, e sta ra tam b in sin du d a alguna en condiciones de conocer x,
a m enos, p o r supuesto, que alguien como, p o r ejem plo, su m aes
tr o de estad stica le estuviera d eliberadam ente o cultando in fo r
m acin. P o r lo reg ular, pues, n o conocer los valores ni de x ni
de 0. Q u puede, pues, h ac er en sem ejan te situacin? Como
q u iera que el teo rem a del lm ite ce n tral co m porta a, n o puede
ig n o rar su v alo r p o r com pleto. U na solucin p o d ra p arece r con
sistir en rem p lazar a p o r s, desviacin e s t n d a r de la m uestra.
De hecho, esto es lo que se haca co rrien tem en te an tes del des
a rro llo de la estad stica m oderna. E n efecto, en la f rm u la de
Z, a / \ / N se rem p lazaba sencillam ente p o r s / \ / N y, com o q uiera
q ue s p o d a calcu larse d irectam en te de los dato s de la m u estra,
no h ab a m s incgnitas e n la frm ula. Y de hecho, este pro ce
d im iento da re su ltad o s razonablem ente buenos cuando N es gran
de. Sin em bargo, com o habrem os de v er a continuacin, las
pro b ab ilid ad es o b tenidas e n esta fo rm a pueden ser to talm en te
falaces cu an d o N es relativ am en te pequeo. Veam os p o r qu
es as.
Podem os co n stru ir u n a estad stica altern ativ a d e p ru e b a c o m o :

s/V JV - 1
E sta estad stica fue in tro d u c id a p o r W. S. G osset, que escriba
b a jo el seudnim o de " S tu d e n t, y se conoce con el no m b re de
d istrib u ci n t de S tudent. C om parando t con Z, observam os
que, en ta n to que los n u m era d o res son idnticos, los denom ina
dores difieren, en cam bio, e n dos aspectos, a s a b e r : 1 ) tenem os
u n A? 1 b ajo el radical, y 2) a h a sido* rem p lazad a p o r s. Con
o b jeto de co m p ren d er e sta s m odificaciones, exam inm oslas u n a
despus de otra._ Al hacerlo habrem os de in tro d u c ir algunas ideas
nuevas.

La desviacin estn d a r de la m u estra s puede em plearse com o


una estim acin de a. Si b ien el p roblem a de la apreciacin se
tra ta r en el prxim o captulo, b a ste m encionar aqu q u e a m enu
d o necesitam os que u n a estim acin posea ciertas propiedades.
U na de las propiedades de u n a "b u en a estim acin es que sea
insesgada. A hora bien, co n tra riam en te a lo que p o d ra suponerse,
re su lta que s n o es u n a estim acin com pletam ente insesgada de a.
P uede d em o strarse m atem ticam ente que o tra cantidad, que po
dem os designar con c y se obtiene m ediante la f rm u la
2 (X t - X Y

-V-

a:

\ l

'

-1

N - 1

es u n a estim acin insesgada de afi La n ica diferencia e n tre o


y s es el fa c to r N 1 del denom inador. As, pues, p ese a que el
lecto r h a ap ren d id o a calcular 5, se en c u en tra ah o ra con que
debera servirse de o tra f rm u la al estim a r o. E n el p resen te p ro
blem a es m s b ien a / y / N que a la que h a de estim arse, ya que
es la p rim e ra expresin que aparece en el denom inador de Z. Aun
siendo cierto q ue a /y /N sea u n a estim acin m en o r de a/ y / N, es
posible, sin em bargo, ev itar p o r com pleto el clculo de 5 si s se
h a o btenido ya. O bsrvese que

\/N

y/N

Y reco rd an d o que y / a / y / b puede escribirse com o y / a /b , te


nem os :

N (N 1)
E n r ig o r , n o e s a, l a e s t im a c i n e q u il ib r a d a d e a, s i n o q u e a 2 e s u n a
e s t im a c i n e q u i l i b r a d a d e a2. N o te n e m o s p o r q u p r e o c u p a m o s , c o n to d o ,
p o r e s t a d i s t i n c i n s u ti l . E n e s t e te x to n o s s e r v ir e m o s n o r m a l m e n te d e u n
a c e n to c i r c u n f l e j o ( * ) s o b r e u n a l e t r a g r ie g a p a r a i n d i c a r u n a e s tim a c i n
d e l p a r m e t r o . A lg u n o s te x to s d e f in e n s c o n N 1 e n e l d e n o m i n a d o r , p e r o
p r e f e r im o s p o r n u e s t r a p a r t e m a n t e n e r l a d i s t in c i n e n t r e l a s d o s f r m u l a s .

[ I (X i-X m /N
i= l
y'N -l

5
y/N -

As, pues, podem os to m a r u n a estim acin algo sesgada de a, divi


d ir e n tre u n a can tid ad que es ligeram ente m s pequea que y / N ,
y lleg ar a s /-\/N 1 com o estim acin insesgada d e a /^ /N . sta
es la raz n de q ue aparezca N 1 en el denom inador de f.7
Al su s titu ir Z p o r t, la m odificacin in tro d u cid a sirvindonos
d e N 1 es relativam ente pequea, p e ro la su stitu ci n de a p o r s,
en cam bio, pued e re v estir u n significado considerable si N es p e
quea. Como q u iera que s v ara de u n a m u e stra a o tra, el deno
m in ad o r de t v ara lo m ism o que el n u m erad o r. P ara u n valor
dad o de X , si la s de u n a m u e stra p a rtic u la r acontece s e r dem a
siado pequea, entonces t ser m uy grande, y si s es grande, t ser
relativ am en te pequea. P o r consiguiente, h a b r u n a m ayor va
riab ilid ad e n tre los valores de t que e n tre los valores com para
bles de Z. E sto significa que la d istrib u ci n de m u estreo d e
ser m s ap lan ad a que la norm al. P o r lo tan to , la distribucin
t te n d r colas m ayores. Qu ta n aplan ad a sea t depender de la
m ag n itu d de la m u estra. Si N es m uy pequea, la d istrib u ci n
ser m uy p lan a en com paracin con la cu rv a norm al. E n o tro s
trm in o s: ser n ecesario a p a rta rse u n n m ero m ayor de desvia
ciones est n d a r de la m ed id a p a ra in clu ir el 95 p o r ciento d e los
casos. A m edida q u e N crece, la d istrib u ci n t se va acercando
cad a vez m s a la d istribucin norm al, p ero perm aneciendo siem
p re, sin em bargo, ligeram ente m s a c h atad a que sta. As, pues,
hay u n a d istribucin t p a ra cada m agnitud de la m u estra. El
h echo de que la d istrib u ci n t se vaya acercando a la n o rm alidad
co b ra sen tid o in tu itiv am en te si nos dam os cu en ta de que, a m e
d id a que N crece, s se convierte en u n a estim acin m uy p recisa
de a, de m odo que im p o rta poco que nos sirvam os en el denom i
n a d o r de sta o de aqulla.
Con o b jeto de servirnos de la distribucin t, hay que suponer
un a poblacin norm al, so b re to d o si N es relativam ente pequea.
El clculo de la distrib u ci n de m u estreo de t req u iere que el
n u m era d o r ( X x) est n o rm alm en te d istrib u id o y que vare
tam b in ind ep en dientem ente del denom inador s / y / N 1. P o r lo
general, no esp eraram os que haya independencia e n tre el nu m e
ra d o r y el denom inador, ya que s se calcula en realidad tom ando
7
A lg u n o s t e x to s r e c o m ie n d a n e l e m p le o d e N 1
y d e N p a r a l a s g r a n d e s . S in e m b a r g o , s e m e j a n t e
a a d i r u n a c o n f u s i n in n e c e s a r ia . P o r s u p u e s to , e n
g ra n d e s , es in d ife re n te s e rv ir s e d e u n a c if r a o d e la

p a r a m u e s tr a s p e q u e a s
p r o c e d im ie n to p a r e c e
e l c a so d e m u e s tra s
o tra .

desviaciones con resp ecto a X y, p o r consiguiente, sera sorpren


d en te en c o n trar X y s estadsticam ente independientes u n a res
p ecto de o tra. Conociendo la X de la m u estra, esperaram os
a u m en ta r n u e s tra posibilidad de an tic ip a r s p a ra la m ism a m ues
tra . Acontece, sin em bargo, que, p a ra las poblaciones norm ales
y m u estreo al azar, la m edia y la desviacin e st n d a r de la m ues
tra son estad sticam ente independientes u n a de o tra. Como q uiera
que, con todo, esta pro p ied ad n o se verifica p a ra to d as las d istri
buciones de la poblacin y que, p o r o tra p a rte , X jx n o estar
d istrib u id a n o rm alm en te a m enos que N sea grande, de ah que
al serv im o s de la p ru e b a t hayam os de su p o n er u n a poblacin
norm al.
Problema. S upngase que se estn apreciando los program as
de u n a m u estra al azar de 25 agencias de asistencia social indi
vidual seleccionadas e n tre la poblacin de to d as las del E stado
de Nueva Y ork. Cada u n a de ellas lleva u n reg istro del porcen
ta je de los casos favorables, de acu erd o con u n crite rio uniform e.
Se h a establecido u n a n o rm a segn la cual el p o rc en taje m edio
de xitos sera del 60 p a ra todas las agencias. Sin em bargo, en
su m u e stra el lecto r en c u en tra que el p o rc en taje m edio es del
52 y la. desviacin e st n d a r del 12 p o r ciento. Tiene el lector
algn fu n d am en to p a ra sospechar que p a ra la poblacin co n ju n ta
de las agencias el nivel de los xitos est p o r debajo de la norm a
esperada?
1. Form ulacin d e supuestos. Los supuestos necesarios pueden
en u m erarse com o sigue:
N ivel de m e d ic i n : escala de intervalo
M o d elo : m u estreo al azar
poblacin n orm al
H ip te sis : n = 60 p o r ciento.
O bsrvese que n o se re q u ie re su p u esto alguno a p ro p sito de
cr, ya que en re alid ad s se h a obten id o em pricam ente y puede
em p learse d irectam en te en la p ru e b a t. El nivel de m edicin, en
cam bio, re q u ie re ciertos com entarios. Como q u iera que cad a clien
te de u n a agencia es u n xito o u n fracaso, y com o q u iera que
las cifras obtenidas p a ra cada agencia, son p o rc en tajes de xitos,
ca b ra p en sa r q ue nos hallam os sim plem ente en p resencia de una
escala nom inal dicotm ica, y n o de u n a escala de intervalo. Y
efectivam ente, si las unidades del anlisis fu e ran clientes en lugar
de agencias, ste se ra el caso. R ecurdese, sin em bargo, que las
unidades que se estn estudiando son agencias. Se h a obtenido
u n a m arca p a ra cada agencia (e sto es, u n p o rc en taje de xitos),
y esta m arc a re p resen ta legtim am ente u n a escala de intervalo.
As, p o r ejem plo, u n a diferencia e n tre el 30 y el 40 p o r ciento es

lo m ism o que u n a diferencia e n tre el 70 y el 80 p o r ciento. Am


b as diferencias pu eden convertirse en el m ism o nm ero real de
clientes.
2. O btencin de la distribucin de m uestreo. Las distribucio
nes de m u estreo p a ra t se dan en el cu ad ro D del A pndice 2.
Como q u iera que esas distribuciones difieren p a ra cada m agnitud
de la m u estra, el cu ad ro en cuestin se h a condensado de m odo
que slo d las colas de cada distribucin. Al servim os del
cu ad ro necesitam os p rim e ro localizar la m agnitud ap ro p iad a de
la m u estra leyendo la colum na de la izquierda de a rrib a abajo.
E stos tam aos de la m u e stra se dan p o r lo re g u lar en trm inos
de grados de libertad df ( degrees o f freed o m ), que en este tipo de
p ro b lem a es siem pre N l .8 A continuacin, hllese el nivel
de significacin apropiado leyendo horizontalm ente arrib a. Las
cifras del cuerpo del c u a d ro indican la m ag n itu d de t necesaria
p a ra o b ten er significacin en el nivel designado.
3. Seleccin de u n n ivel de significacin y d e una regin crtica.
Sirvm onos del nivel de .05 y de u n a p ru e b a de u n a sola cola.
Del cu ad ro D vem os que p a ra 24 grados de lib ertad se necesita
u n a t de 2.064 o m s p a ra o b ten er significacin al nivel de .05
p a ra u n a p ru e b a de dos colas. P ara u n a p ru e b a de u n a sola cola
y el nivel de .05, slo necesitam os u n a t de 1.711 o m ayor. E n el
caso de p ru eb as de u n a cola sim plem ente p artim o s en dos los
niveles de significacin requeridos p a ra las pru eb as de dos colas.
E sto se debe a que nos ap artam o s de la m edia el m ism o nm ero
d e desviaciones estn d a r, con o b jeto de o b ten er u n a regin cr
tica de u n a sola cola d e .05, que nos ap a rtaram o s p a ra o b ten er
u n a regin de dos colas de .10.
4. Clculo de la estadstica de la prueba. Si bien es cierto que
la d istrib u ci n de m u estreo de X es N o ria , a2 / N ) y que, p o r con
siguiente, la d istrib u ci n de Z es Nor{ 0,1), e sta inform acin no
n os sirve, con todo, de gran cosa, ya que a n o nos es conocida.
E n lu g ar de ello calculam os el valor de t, y o b ten em o s:

s/y/N - 1

12/V 24

5. Decisin. H allam os que toda t cuyo v alo r num rico fuera


> 1.711 se en c o n trar en la regin crtica. P or consiguiente, des
cartam o s la hiptesis de que ji = 60 y, con cierto riesgo de erro r,
vem os que el nivel real de xitos de las agencias queda p o r
d eb ajo del nivel esperado. Leyendo horizontalm ente en el cua
d ro D la hilera correspondiente a 24 grados de lib ertad , vem os
que p a ra u n a p ru e b a d e u n a sola cola el nivel de significacin
8 P a r a e l e x a m e n d e lo s g r a d o s d e li b e r ta d v a s e s e c c . X I I . l .

co rresp o n d ien te a u n t de 3.27 cae en algn p u n to com prendido


e n tre .005 y .0005.9
E n este p u n to p u ed en re g istra rse varios hechos a p ro p sito de
la d istrib u ci n t. Si se exam ina la colum na co rresp o n d ien te a
P ~ -05 p a ra u n a p ru e b a de dos colas, se ob serv ar que a m edida
q u e la m ag n itu d de la m u e stra au m en ta, los valores de t dism i
nuyen y convergen con b a sta n te rapidez h acia 1.96, o sea el valor
necesario p a ra significacin si se em p lea ra el c u a d ro norm al.
E stos valores d eb ieran d a r urna id ea razonablem ente b u en a del
grad o de aproxim acin a la curva n orm al p a ra cu alq u ier m ag
n itu d dada de la m u estra. P ara valores d e N 1 m ayores que 30,
se necesitar p o r lo re g u la r interpolacin, y p a ra valores m uy
superiores a 120 h a b r que servirse del cu ad ro n orm al, ya que
los valores de t n o se dan. Algunos textos indican arb itra ria m e n te
que slo se n ecesita em p lear la ta b la t cuando N < 30. P ese a que
e s ta regla p r ctica d resu ltad o s razonables, la posicin que aqu
ad o p tam o s es que siem pre es p re ferib le servirse d e la tabla t
cuando a es desconocida y puede p re su m irse u n a poblacin n o r
m al. Como q u iera q u e el cu ad ro t n o es de u so m s difcil, parece
razonable serv irse de valores exactos con p re fere n cia a aproxi
m aciones norm ales. Conviene recalca r tam b in que n o hay una
teo ra n ica que se aplique a m u estras pequeas y o tra, to tal
m en te distin ta, q ue se aplique a las grandes, com o algunos textos
lo dan a en ten d er.
Como pu ed e verse del cu ad ro t, las distribuciones n o rm al y t
slo difieren considerablem ente cuando la m ag n itu d de la m ues
tra es relativ am en te pequea. P o r o tra p a rte , siem pre q u e se
em plea t hay que su p o n er u n a poblacin normad, a m enos que N
sea m uy grande, en cuyo caso Z puede su stitu ir aproxim adam ente
a t . P o r lo tan to , la p ru e b a t reviste v alor p rctico en situaciones
en las que se tienen m u estras pequeas y que se p u ed e suponer
una poblacin norm al. P o r desgracia, cu an d o las m u e stra s son
pequeas p o r lo re g u la r solem os sa b e r m enos acerca d e la n a
tu raleza ex acta de aqulla. As, p o r ejem plo, si u n investigador
realiza u n estu d io de exploracin con 17 casos, tien e m uchas
p ro babilidades de e s ta r en condiciones de a c e p ta r el su p u esto de
n o rm alidad? P ro b ablem ente no. Segn verem os en el cap tu lo xiv,
hay pruebas q ue pueden em plearse com o altern ativ as de la t y
quo no im plican el su puesto d e norm alidad.
XT.4. Pruebas que com portan proporciones
H asta aqu slo hem os considerado en este cap tu lo ejem plos que
0
P e s e a q u e n o p u e d a n o b te n e r s e d e l a t a b l a d e p r o b a b ilid a d e s e x a c ta s ,
l a in te r p o la c i n , c o n to d o , s ie m p r e e s p o s ib le . S i n e m b a r g o , p o r lo r e g a l a r
b a s t a i n d i c a r q u e p q u e d a e n t r e d o s v a l o r e s d e t e r m i n a d o s , v.gr. .0005< p

co m p o rtab an u n a escala de intervalo. P or o tra p arte , haba


q ue p re su m ir tam b in n o rm alid ad de poblacin en el caso de
m u estras pequeas. E n e sta seccin verem os cm o puede em
p learse la ley de los grandes nm eros p a ra a b a rc a r p ru e b as que
co m p o rtan proporciones, siem p re que N sea b a s ta n te grande. En
efecto, las p ro p o rciones se tra ta r n com o casos especiales de las
m edias, de m odo que n u e stra s consideraciones an terio res segui
r n ten ien d o aplicacin.
Supngase que tenem os u n a sim ple escala nom inal dicotm ica.
Podem os q u e re r verificar u n a hiptesis relativa, p o r ejem plo, a
la p ro p o rci n de los varones en u n a poblacin. Asignamos a rb i
tra ria m e n te el v alor u n o a los varones y cero a las hem bras, y
tra ta m o s las m arcas com o u n a escala de intervalo. Aunque no
se d u n a u n id ad claram en te concebida, a m enos que sta sea
el a trib u to de m ascu lin id ad , que se posee o n o se posee, pode
m os, con todo, tr a ta r dichas m arcas a rb itra ria s com o u n a escala
d e in terv alo , p o rq u e slo son dos. Si se a a d ie ra u n a te rc era
categora, ello y a n o sera posible, sin em bargo, y a que en tal
caso sera necesario d eterm in a r la posicin exacta de dicha ca
teg o ra e n relacin con las de las o tra s dos. Lo q u e aq u decim os,
en efecto, es que n o es necesario h ac er u n a distincin e n tre es
calas nom inales, o rdinales y d e intervalo en el caso de u n a dico
tom a, ya que el p ro b lem a de c o m p arar distancias e n tre m arcas
n o se p la n te a nunca.
Tenem os as u n a poblacin com puesta p o r e n te ro de unos y
ceros. E s sta u n a d istrib u ci n bim odal, d e casos concentrados
todos ellos en un o d e lo s dos puntos, que ciertam en te n o es n o r
m al. P ero sabem os que, si N es suficientem ente grande, la dis
trib u ci n de m u estreo de las m edias de las m u estras ser aproxi
m ad am e n te ATor(ji, a2 / M) , independientem ente de la fo rm a de
la poblacin. Todo lo que h ay que hacer, pues, es averiguar la
m ed ia y la desviacin e st n d a r de esa poblacin d e unos y ceros.
Pongam os q u e p u re p re s e n ta la p ro p o rci n de varones en la
p o blacin y qu la p ro p o rci n d e hem bras, en la s que la u sub
ndice in d ica que tra ta m o s de la poblacin universal. Con o b jeto
d e o b ten er la m edia de los unos y los ceros de sta, sum am os
sim p lem en te los valores y dividim os e n tre el n m ero total d e ca
sos. E l n m ero de unos ser as el n m ero to ta l de casos m u lti
p licad o p o r la p ro p o rci n de varones. In d ep en d ien tem en te del
n m ero d e ceros, la contribucin de stos a la sum a ser cero.
P o r lo tan to , la m edia de la poblacin s e r :
M pu

en donde M re p resen ta la m agnitud de la poblacin (en cuanto


d istin ta de la m agnitud N de la m u e stra ). E n consecuencia, la

m edia de cierto nm ero de unos y ceros es exactam ente la pro


porcin de unos. E n v irtu d de u n razonam iento sim ilar, X = p s,
en donde p 8 re p resen ta la p roporcin de varones en la m uestra.
S irvindonos de la f rm u la general de la desviacin estn d ar,
podem os d em o strar que a = \ f p uqu. Si em pleam os los sm bolos
de los p arm etro s de poblacin, la f rm u la de a se tran sfo rm a
en:
I 31
S ( X - f i )2
. =

\ -

M
^ ^ ( X { - Pu)2
*

O bservando el n u m era d o r de la cantidad debajo del radical, ve


m os que h a b r slo dos tipos de cantidades que rep resen ten las
desviaciones cu ad rad as de la m edia p u. P ara cada m arc a de uno,
la desviacin cu a d rad a resp ecto de la m edia ser de ( I p u)2, y
p a ra cada cero ser de (0 p u)2. Como q u iera que en la sum a
de cuadrados h a b r M pu unos y M qu ceros, ten em o s:
_ J M pu( 1 - p j 2 + M qu(0 - p u )2 _ J M puq u2 + M qup u2

Si de cada trm in o del n u m era d o r ponem os M puqu en factor, ob


tenem os :

M pvqv

M puqu(q u +p ) _ J
M

~ V

* PuQu
Obsrvese, de paso, q u e M se elim ina ta n to e n la f rm u la de ^
com o en la o, la m edia y la desviacin e st n d a r d e la poblacin
so n independientes de la m ag n itu d re al de la poblacin.
P o r lo tan to , podem os servim os del teorem a del lm ite central
p a ra o b te n e r:

v;

PuQu

x = Gp* '

en donde el sm bolo cPl indica que operam os con el e rro r estn


d a r de las p roporciones de la m u estra. E n n u e stra nueva term i
nologa, p s su stitu y e a X , pu sustituye a i, y aPt sustituye a c - en
la f rm u la de Z. As, p u e s :

M*

Oj

P&

Pu

y/PuQu/N

O bsrvese que au n q u e parezca que tengam os u n a f rm u la to ta l


m en te d istin ta de la an terio r, no hay e n s ta e n realid ad n ad a
nuevo, excepto u n cam bio de sm bolos. E sto es as p o rq u e
hem os estad o en condiciones de d em o strar que las proporciones
pu ed en tra ta rs e com o casos p artic u la res de las m edias. Conviene
recalcar, con todo, que la ley de los grandes nm eros re q u ie re
q u e N sea grande, con o b jeto de p o d er serv im o s de la aproxi
m acin norm al. C uando N sea pequea, la binom ial co n stitu ir
u n a p ru e b a m s apropiada.
*
E xiste u n a relacin estre ch a e n tre esta p ru eb a, relativa a las
p ro p o rcio n es, y la d istrib u ci n binom ial. Y a se h a indicado que
si N es grande, y si N p > 5, en donde p < q, podrem os, m ed ian te
u n a d istrib u ci n n orm al, aproxim am os a la d istribucin bino
m ial. Es cierto que en el caso de la d istribucin binom ial u tili
zam os cifras de xitos, m s que proporciones.
E l v alor esp erad o del n m ero de xitos re su lta se r N p, y la
desviacin e st n d a r del n m ero de xitos es y /N p q . P a ra con
v e rtir cad a u n o de ellos e n proporciones podem os dividirlos e n tre
N, obten ien d o p com o v alor esperado, y

p a ra la desviacin e st n d a r. As en el caso de m u estras grandes


p o d ram o s h a b e r fo rm u lad o u n p roblem a binom ial en fo rm a de
p ro p o rcio n es, cam biando n u estro s sm bolos a p y qu y tra ta n
do el p ro b lem a de acuerdo con los procedim ientos sealados en
e ste m ism o captulo. P o r ejem p lo : en el caso de u n a p ru e b a de
signo p o dram os h a b e r utilizado la hiptesis n u la de que p u =
.5, co m p aran d o este v alor con la p roporcin de xitos p 8 que se
hall en la m u estra.
Problem a. El lecto r e st in teresad o en a p re c ia r el p ro g ram a de
u n a agencia de asistencia social individual y h a ex trad o u n a
m u e stra al azar de 125 casos de su archivo. Se h a en contrado
q u e el p o rc en taje de los casos favorables es de 55, en co m p ara
cin con la n o rm a del 60 p o r ciento. Puede sacarse de ello la
conclusin que el xito de la agencia en cu esti n queda p o r de
b a jo de la no rm a?
1. Form ulacin de supuestos.
N ivel de m edicin: escala nom inal dicotm ica

M o d elo : m u estreo al azar


H ip te sis: pu = .60
E ste ejem plo es deliberadam ente sem ejan te al an terio r, con
o b jeto de p o n er de relieve la diferencia e n las unidades del anli
sis. Aqu, en efecto, se estu d ia u n a sola agencia, y la m u e stra es
de clientes, que constituyen xitos o fracasos. E n el ejem p lo de
an tes, las u n idades seleccionadas era n las agencias y no los clien
tes, y la m edida de cada agencia consista en el porcentaje de
casos favorables. O bsrvese que n o se re q u ie re m s supuesto
acerca de la poblacin que la hiptesis, ya que se supone im pl
citam en te que aqulla es bim odal.
2. O btencin d e la distribucin de m uestreo. La distribucin
de m u estreo ser aproxim adam ente norm al, ya que N es grande.
3. E leccin de nivel de significacin y regin crtica. E n gracia
a la variedad, elijam os u n nivel de .02 y u n a p ru e b a de u n a sola
cola.
4. Clculo de la estadstica de la prueba. Calculam os Z de la
siguiente fo rm a :
Pe Pu
-55 .60
.05
Z = - = --------------------------- = ------------= -1 .1 4
y / p uq J N
V [(-6 )(.4 0 )]/1 2 5
.0438
O bsrvese que en el denom inador se em plean p y qu con prefe
re n cia a p s y qs. E n el caso de que el lecto r se viera inclinado a
servirse de t en lu g ar de Z, observe que en la hip tesis de p u el
v alo r de a est determ in ad o p o r la f rm u la o = V W 5. Decisin. Del cu ad ro n o rm al p u ed e verse q u e u n a Z de
1.14 o m enos o c u rrira aproxim adam ente el 13 p o r ciento de las
veces p o r azar, si los supuestos fu e ra n ciertos. E n consecuencia,
n o descartam os la hiptesis al nivel de significacin de .02. So
b re la base de los dato s disponibles, n o se d eja estab lecer que la
agencia se halle p o r d eb ajo de la norm a.

Glosario
Teorema del lmite central
Distribucin rectangular
Error estndar
Distribucin t
E

jercicios

1. Sirvindonos del cuadro de nmeros al azar del cuadro B del Apn


dice 2 (vase sece. XXI.l para la explicacin del empleo de dicho cua
dro), eljanse 10 muestras, de magnitud 4 cada una, de la poblacin
de los 65 cosos dados en ol ejercicio 1 del captulo iv. Calclese la

media de cada una de esas 10 m uestras y obtngase la desviacin es


tndar de estas 10 medias. Se tiene ahora una apreciacin bruta y
ligeramente distorsionada del error estndar de la media. Cmo se
presenta la cifra obtenida en comparacin con el error estndar
conseguido sirvindonos del teorema del lmite central y empleando
para ello la desviacin estndar calculada en el ejercicio 2 del cap
tulo vx?
*
2. Verifiqese la distribucin de seleccin de la media de tres gol
pes de dados del diagrama de la figura XI.5.
3. Una m uestra de magnitud 50 tiene una media de 10.5 y una des
viacin estndar s de 2.2. Verifiqese la hiptesis de que la media de
la poblacin es de 10.0 sirvindose: a) de una prueba de una sola cola
al nivel de .05, y b) de una prueba de dos colas al nivel de .01. Hgase
lo mismo con muestras de tamaos 25 y 100 y comprense los resulta
dos. Respuesta, para N = 50, t = 1.59; sin rechazo para a) y b).
4. Supngase sabido que el ingreso medio anual de trabajadores que
en una fbrica trabajan en la lnea de ensamble es de $7 000 con
una desviacin estndar de $900. El lector sospecha que los trabaja
dores sindicalmente activos obtendrn ingresos superiores al promedio,
y tom a una m uestra aleatoria de 85 de dichos miembros activos, obte
niendo una media de $ 7 200 y una desviacin estndar de $ 1000. Pue
de decirse que los miembros activos del sindicato tengan ingresos
notablemente superiores? (Emplese el nivel de ;01.) Respuesta Z =
2.05; no rechazar.
5. Se ha establecido una lista de 200 residentes de una localidad,
en edad de voto, y se ha encontrado que de dos candidatos a un cargo
el candidato A obtuvo el 54 por ciento de los votos seleccionados.
Existe fundamento para suponer que A ganar? Emplese el nivel de
.05. Enumrense todos los supuestos que hay que formular. Respuesta,
Z = 1.13.
6. Supngase que se ha normalizado una prueba de medicin de los
"deseos de uniformidad de estudiantes universitarios en todo el
pas. El 50 por ciento de los estudiantes tena puntuaciones brutas
de 26 o ms (las puntuaciones altas indicando deseos mayores de uni
formidad). Sospechando que estos deseos sern por lo regular ms
grandes en el caso de adultos sin instruccin universitaria, un soci
logo extrae una m uestra aleatoria de adultos de 25 aos o mayores,
residentes de su localidad. Encuentra: 1) que el 67 por ciento de los
257 adultos sin instruccin universitaria m uestran m arcas de 26 o ms
altas, y 2) que el 59 por ciento de 80 adultos de instruccin universi
taria presentan marcas dentro de dicho margen.
a) Puede deducir que las m arcas de cada grupo de adultos en la
localidad son significativamente ms altas que las correspondientes a
los estudiantes universitarios, cuya prueba ha sido estandarizada?
(utilcese el nivel .001).
b) Supngase que el socilogo conoce la distribucin exacta entera
de las m arcas de los estudiantes universitarios de la prueba. Sobre
la base del m aterial del presente captulo, indquense algunos proce
dimientos alternativos para verificar el significado de las desviaciones
de los dos grupos de marcas de los adultos respecto de las marcas
normalizadas. Requieren dichos procedimientos alternativos algunos
supuestos adicionales? Expliqese.

B ibliografa

1. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall,


Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11.
2. Hagood, M. J., y D. O. P nce: Statistics for Sociotogists, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 15 y 16.
3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 10.
4. Wallis, W. A., y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, caps. 11 y 13.

H asta aqu el exam en de la induccin estad stica slo h a trata d o

de la verificacin de hiptesis. A parte de ello puede tam bin


h a b e r in ters en la estim acin de p arm etro s de poblacin, y
a este tem a se dedica el p resen te captulo. Despus de exami
n a r los principios que la estim acin com porta, procederem os
a e stu d iar las relaciones existentes e n tre las verificaciones de
las estim aciones y las hiptesis. Exam inarem os en dicho m o
m en to las m odificaciones que req u ieren p a ra ello la distribucin
t y las proporciones. Finalm ente, estudiarem os la cuestin gene
ra l de la determ in acin del tam ao de la m u estra, ilu stran d o el
pro b lem a m ed ian te procedim ientos de estim acin.
E n los dos captulos precedentes, el lecto r h a b r observado
que en cierto n m ero de problem as prcticos la verificacin de
las hiptesis es im practicable, p o rq u e n o estam os en condiciones
de co n c retar algn valor hipottico determ inado p a ra el p arm e
tro , p o r ejem plo, (i. V am os a ver ahora en qu form a los p ro c e
dim ientos de estim acin pueden p ro p o rcio n ar en tales casos una
altern ativ a m uy til de las pruebas reales. P or o tra p arte, el so
cilogo pued e ev entualm ente ten er m ayor in ters en las estim a
ciones q ue en las verificaciones de hiptesis. As, p o r ejem plo, en
u n a en cu esta el objetivo prctico del estudio puede consistir
en estim ar lji p ro p orcin de personas que consum en u n d eterm i
nad o p ro d u cto o que votan en u n as elecciones. O puede se r n e
cesario e stim ar el ingreso m ediano en u n a regin, o el nm ero
m edio de hijos p o r m atrim onio. Sin duda, las pruebas de hip
tesis concretas p u ed en rev estir cierta u tilid ad en tales casos,
p e ro la estim acin constituye, con todo, el procedim iento m s
obvio.
H ay b sicam ente dos clases de estim acin, a saber, la estim a
cin del p u n to y la estim acin del intervalo. E n la p rim e ra de
ellas nos in tere sa el m e jo r valor singular que pu ed a utilizarse
p a ra ap reciar u n p arm etro . As, p o r ejem plo, podem os ap reciar
que el ingreso m edio en la ciudad de Nueva Y ork es de $ 8 500.
Sin em bargo, p o r lo re g u la r querem os o b te n e r tam bin alguna
idea acerca de cun exacta sea n u e s tra estim acin. N os g u stara
p o d er an ticip ar q u e el p arm etro se sit a en algn lu g ar de un
in terv alo determ inado, o a u n lado u o tro de la estim acin del
p u n to . As, p o r ejem plo, podem os q u e re r fo rm u lar u n enunciado
p o r el estilo de "el ingreso m edio en la ciu d ad de Nueva Y ork se
sit a e n tre $ 8 000 y $ 9 000". E stos dos tipos de estim acin
se exam inan en las secciones que siguen a continuacin.

E l p ro b lem a relativ o a cul estad stica d eb a em plearse como


estim acin de u n p a r m e tro parece s e r ab so lu tam en te obvio y
c o n stitu ir m a te ria de sentido com n. E n efecto, si se q u iere es
tim a r la m ed ia (o la m ed ian a o la desviacin e s t n d a r) de una
poblacin, p o r qu n o servirse d e la m edia (o la m ediana o la
desviacin e s t n d a r) de la m uestra? Pese a que en tales casos el
sen tid o com n n o nos p ro p o rcio n ara resu ltad o s dem asiado abe
rra n te s, verem os, con todo, q u e el p ro b lem a n o es ta n sencillo
com o p arece. O bviam ente, podram os a p reciar la m ed ia de u n a
p oblacin en cierto n m ero de m an eras distin tas. E n efecto,
adem s de la m ed ia de la m u estra, podram os servirnos de la
m ed ian a o del m odo, o p odram os u tiliza r u n n m ero situado' en
m edio de dos valores extrem os, o podram os u tiliza r com o estim a
cin el v alo r de la observacin decim otercera. Algunos de esos
procedim ientos seran m ejo res que otros. N ecesitam os, p o r con
siguiente, criterio s que nos p erm itan a p reciar el grad o de bondad
de cada clase de estim acin. E l socilogo, q u e se sirve de las esta
dsticas com o de u n in stru m en to aplicado, ra ra vez n ecesita p re
o cu p arse p o r sem ejantes criterios. P o r lo regular, en efecto, slo
se le dice que se sirva de u n a estim acin d eterm in ad a. No obs
tan te, vale la p e n a sab e r p o r lo m enos d e cules criterio s se sirve
el m atem tico al decidir cul estim acin deba em plearse. Dos
de los criterio s m s im p o rtan tes del m atem tico son el sesgo
( b ia s) y la eficiencia. Vam os a exam inarlos uno p o r uno. E n re
lacin con o tro s criterio s, tales com o la suficiencia, la consisten
cia y el p rin cip io de la m xim a p robabilidad, el le c to r h a de
re c u rrir a textos m s avanzados.
Sesgo. Se dice de u n a estim acin q u e n o es sesgada si la m edia
de su d istribucin de m u e stre o es exactam ente igual al valor del
parm etro que se aprecia. E n o tro s t rm in o s : el v alor esperado
a la larg a de la estim acin es el p a r m e tro m ism o. O bsrvese
q u e n ad a se dice aqu acerca del v alor de cualquier re su ltad o de
alguna m u e stra p artic u la r. De acu erd o con esta definicin, X es
u n a estim acin sesgada de jj,, ya que la distribucin de m u estreo
de X tien e a x com o m edia o v alor esperado. E sto no significa,
sin em bargo, q u e podam os e sp e ra r que algn valor p a rtic u la r
cu alq u iera de X sea igual a
ni sab rem o s nunca, en cualquier
p ro b lem a red, si la m edia de n u e s tra m u e stra co rresp o n d e o no
d e hecho a la m ed ia de la poblacin. H ay que te n e r p resen te
que el trm in o sesgo, ta l com o aq u se em plea, se refiere a los
resu ltad o s a la larga. E n la investigacin p rctica, en cam bio,
el lecto r pued e e s ta r a c o stu m b ra d o a servirse del trm in o p ara
re ferirse a las p ropiedades de la m u e stra p a rtic u la r q u e haya
extrado.

Ya se dijo e n el cap tu lo a n te rio r q u e la desviacin estn d a r


5 de la m u e stra es u n a estim acin ligeram ente sesgada de o . La

estad stica s tien e u n a distrib u ci n de seleccin, lo m ism o que


la tien e X . E n o tro s trm in o s, las desviaciones e st n d a r de la
m u e stra esta r n d istrib u id as alred ed o r de las desviaciones e stn
d a r de la poblacin real, del m ism o m odo e n q u e las m edias de
las m u estras se d istrib u y en alre d ed o r de ja. S in em bargo, p u ed e
d e m o stra rse m atem ticam en te que la m edia de la distribucin
d e m u estreo de s 2 es [Af l/AHcr2, y n o o2. P o r consiguiente, s 2
es u n a estim aci n sesgada de a2. P ara h a lla r u n a estim acin no
sesgada de o2, tom am os la can tid a d :

S ( X t ~ X )2
4=1

N - l

N - l

-------- 52 = -----------------------------I ( X t - X )2
=i

Como q u iera q u e la d istrib u ci n de m u estreo de s2 es [ N l / N ] o 2


vem os q u e a 2 tiene u n a distribucin de m u e stre o de m edia exac
tam en te igual a :
N

[/

N -l

Si b ien la razn b sica d e p o r qu sea a 2 (y n o s2) la estim a


cin n o sesgada es que los m atem ticos o p e ra n en esta form a,
a v ec es; con todo, se da de ello u n a explicacin in tu itiv a e n t r
m in o del concepto de los grados d e libertad, trm in o q u e ser
u sad o en captulos p o sterio res. El n m ero de los grados de
lib e rta d es igual al n m ero de cantidades desconocidas m enos el
n m ero d e ecuaciones independientes que ligan esta s incgnitas.
E l lecto r re co rd a r que, con o b jeto de llegar a u n a solucin nica
de u n sistem a de ecuaciones algebraicas sim ultneas, se necesi
tab a el m ism o n m ero de ecuaciones que de incgnitas. As, pues,
p a ra p o d er resolver en relacin con X , Y y Z se necesitan tre s
ecuaciones que liguen e n tre s estas variables. Si slo se tuvie
ra n dos ecuaciones, entonces se p o d ra asig n ar a alguna de las
variables, p o r ejem p lo Z, cu alq u ier valor q u e se nos an to jara.
Los valores de las o tra s dos variables p o d ran entonces se r d e te r
m inados m ed ian te las dos ecuaciones sim ultneas. Si se tu v ieran
cinco incgnitas y slo tre s ecuaciones p o r reso lv er sim ultnea
m ente, entonces se p o d ran asig n ar valores a rb itra rio s a dos

cualesquiera de las incgnitas, y los valores de las dem s incg


nitas estaran determ inados. E n este caso tendram os dos grados
de libertad, ya q ue podem os a trib u ir lib rem en te valores a dos
variables cualesquiera.
Al calcular u n a desviacin e st n d a r de valores de la m uestra,
hem os de servirnos de u n a ecuacin que ligue las N variables X

F ig .

X II.l. Comparacin de las distribuciones de m aestreo de


una estim acin sesgada, con alta eficacia, y una estim acin no
sesgada, de eficacia m enor
N

a la m edia de la m uestra, o sea la ecuacin 2 X J N X . Dado

<=i

el valor de X , podem os a trib u ir valores a rb itra rio s a N 1 de


las X (, y la ltim a de stas e sta r determ inada p o r la ecuacin.
Como q u iera que hem os perdido u n grado de lib e rta d al deter
m in ar el valor de la m edia de la m u estra alrededor de la cual se
han tom ado desviaciones, p a ra o b ten er n u e stra estim acin no
sesgada de a2 hem os de dividir e n tre N 1 en lugar de N. Si el
lector p refiere p en sa r en esta form a, puede considerar que hem os
aju stad o ligeram ente el nm ero de casos, con o b jeto de com pen
sa r p o r el hecho de que hem os tom ado desviaciones resp ecto de
la m edia de la m u estra y no de la m edia de la poblacin verda
dera. E sencialm ente, al calcular la m edia de la m u estra, hem os
despreciado un caso. Se ver que las estim aciones no sesgadas
n o obtienen frecu entem ente d iv id ien d o 'en tre los grados de libertu, m ejor que dividiendo e n tre el n m ero to tal de casos.
I', f ciencia. La eficiencia de u n a estim acin se refiere al grado
en que la distribucin de m uestreo est agrupada alrededor del
verdadero valor del parm etro. Si la estim acin no est sesgada,
dicho u gnipam iento puede m edirse p o r medio- del e rro r estn d a r
de la estim aci n : cuanto m en o r sea el e rro r estn d ar, ta n to m a
yor es la eficiencia d e la estim acin. La eficiencia siem pre es
relativa. Ninguna estim acin puede se r to talm en te eficiente, ya
que esto im plicara que no exista e rro r de m u estreo alguno. Sin

em bargo, podem os c o m p arar dos estim aciones y decir que u n a


de ellas es m s eficiente que la otra. Supngase, p o r ejem plo,
q ue tenem os u n a poblacin norm al. E n e ste caso, el e rro r estn
d a r de la seleccin al azar es a / y / N . Si p a r a ap re c ia r la m edia
de la poblacin se u tilizara la m ediana d e la m u estra, entonces
el e rro r e s t n d a r de la m ediana sera de 1.253 o / y / ,1 p a ra m ues
tra s al azar. P o r lo tan to , ya que el e rro r e st n d a r de la m edia
es m s peq u e o que el de la m ediana, la m edia es la estim acin
m s eficiente. sta es, p o r supuesto, la razn d e que p o r lo r e
g u lar se u tilice la m edia con preferen cia a la m ediana, incluso
cuando, com o en el caso d e u n a poblacin norm al, su m edia y
su m ed ian a son idnticas. Decimos que la m ed ia est m enos
su je ta a las fluctuaciones de la m u estra o, en o tro s trm inos, que
es m s eficien te.2
De los dos criterios que acabam os de exam inar, el de la eficien
cia es el m s im p o rtan te. Si dos estim aciones tienen el m ism o
grado de eficiencia, escogerem os, p o r supuesto, la que est m enos
sesgada. sta es la razn de que se u tilice a con preferen cia a s.
E n cam bio, u n a estim acin eficiente lig eram en te sesgada ser
p referib le a o tra no sesgada p e ro m enos eficiente. Un sim ple
d iagram a ay u d ar a co m p ren d er el p o rq u d e ello. E n la figu
ra X II.l, la curva p u n tiag u d a ligeram ente sesgada sera p re fe ri
ble, ya que, pese a que a la larg a p ropenderam os a su b estim ar
el p a r m e tro en u n a peq u e a cantidad, tenem os con todo m ayor
p ro b ab ilid ad , en el caso de u n a p ru e b a dada, de o b ten er u n a es
tim acin de la m u e stra relativ am en te vecina del p arm etro . El
hecho de que sepam os que a la larg a las estim aciones se irn
p ro m ed ian d o hacia la cifra co rrecta no nos sirve de gran con
suelo si, en relacin con u n a m u estra d eterm in a d a cualquiera,
la aproxim acin tiene probabilidades de a p a rta rs e m ucho del
p arm etro .
XII.2. E stim a ci n del intervalo
El lecto r re co rd a r que, cu an d o estu d iab a fsica elem ental, se le
in v itab a a p esa r u n pedazo de m ad era varias veces y a bu scar
luego el v alor m edio e in d icar el m argen de e r ro r posible. As
pudo, p o r ejem plo, h a b e r indicado que el peso del pedazo de

1 Aqu la media y la mediana de la poblacin seran idnticas.


2 No siempre es cierto que la media constituya la estimacin ms efi
ciente, aunque para la mayora de las poblaciones, sobre todo si la desvia
cin respecto de la normalidad no es demasiado grande, sea efectivamente
as. Obsrvese que la cuestin acerca de la eficiencia relativa es totalmente
distinta de la cuestin acerca de cul medida sea la medida descriptiva ms
apropiada de la tendencia central. Esta ltima, en efecto, slo se refiere
al problema de hallar la medida singular mejor para representar los datos
de la muestra.

m ad era era de 102 2 gram os, significando que consideraba que


el peso verd ad ero se situ ab a en algn lugar e n tre 100 y 104 gra
m os. Al p ro ced er as, el lecto r ad m ita la posibilidad de e rro r
de la m edicin e indicaba qu grado de confianza ten a en la
ex actitu d obtenida. Pese a que en dicho m om ento n o se llam ara
expresam ente su atencin al respecto, el lecto r tam b in h ab ra
ad m itido que no estab a absolutam ente cierto que el verdadero
v alor estu v iera com prendido en el intervalo obtenido. Sin em
bargo, si ste se h u b iera am pliado, aqul h a b ra estad o m s se
g u ro de que s e sta b a com prendido en el nuevo intervalo. As,
p o r ejem plo, h a b ra estado p rcticam en te seguro de q u e el valor
v erdadero h ab a de situ arse e n tre 98 y 106 gram os, y se h ab ra
ju g ad o h a sta el ltim o centavo en favor de que se en co n trab a
e n tre 2 y 202 gram os. Al o b ten er apreciaciones de intervalo en
relacin con p arm etro s, hacem os esencialm ente lo m ism o que
hace el fsico, con la diferencia que estarem os en m ejores con
diciones de estim ar la probabilidad exacta de erro r.
E l p rocedim iento efectivo em pleado p a ra o b ten er u n a estim a
cin de intervalo, o lo que se designa com o intervalo de confian
za, es m uy sencillo y n o co m p o rta idea bsica realm en te nueva
alguna. E stablecerem os p rim ero sim plem ente cm o el intervalo
se obtiene, p rocediendo luego a exam inar p o r qu se construye de
este m odo. Se decide p rim ero acerca del riesgo de e rro r que
se est d ispuesto a asu m ir al a firm a r que el p arm etro se sita
en algn p u n to al in te rio r del intervalo si e n realidad no es as.
Digam os q ue se decide e s ta r dispuesto a a d m itir que se est
equivocado el .05 de las veces, lo q u e suele designarse com o in
tervalo de confianza del 95 p o r ciento.8 El intervalo se obtiene
ap artn d o se en am bas direcciones de la estim acin del pu n to
( v.gr. la m edia de la m u e stra ) cierto m ltip le de erro res e stn d a r
co rrespondiente al nivel de confianza elegido. As, p o r ejem plo,
p a ra ap reciar la m edia de la poblacin, obtenem os u n intervalo
com o sigue (sirvindonos del nivel de 95 p o r cien to ):
X 1.96 (- = X - 1.96
X
__
yJN
en donde 1.96 co rresponde a la regin crtica de la curva norm al,
sirvindonos del nivel de .05 y de u n a p ru eb a de dos colas. Si
X 15, a = 5, y N = 100, el in terv alo de confianza sera :
5
15 1.96------------ = 15 0.98

V io c T
3 Obsrvese que en el caso de intervalos de confianza nos referimos a la
unidad menos la probabilidad de error. Esto indica que tenemos confian
za de estar en lo cierto el 95 por ciento, por ejemplo, de las veces.

E n o tro s trm in o s: el intervalo ira de 14.02 a 15.98.4


Con o b jeto de in te rp re ta r los intervalos obtenidos con dicho
m todo, necesitam os volver a lo que sabem os acerca de la d istri
bucin de m uestreo, en este caso la de la m edia. Supongam os
que tenem os u n a distribucin de m u estreo n orm al con u n a m e
dia de i y u n a desviacin e st n d a r de a / \ / N . P ara n u estro s proM

F ig .

XII.2. Comparacin de intervalos de confianza con la d istri


bucin. d e muestreo de la m edia, m o strando p o r q u los inter
valos de confianza del 95 por ciento com prenden jx
el 95 p o r ciento d e tas veces

p sitos hay dos clases de m edias de u n a m u estra, a sa b e r: 1 )


las q ue no caen en la regin crtica, y 2 j las que s caen en ella.
S upongam os p rim ero que hem os obtenido u n a X ( X x de la figu
ra X II.2 ) q u e n o cae en la regin crtica. Sabem os que u n a X
sem ejan te h a d e q u ed ar en el in terio r de_1.96 o-j de [i. Si pone
m os u n in terv alo a am bos lados de esta X , ap artn d o n o s de ella
en 1.96 o j en am bas direcciones, debem os c ru zar fre n te a fx, la
m edia de la d istrib u ci n de m uestreo, ta n to si X est a la derecha
com o a la izquierda de jx. Y en fo rm a anloga, si la X o b tenida
queda al in te rio r de la regin crtica (vase X 2 en la figura X II.2),
entonces esta X qu ed ar a m ayor distancia de 1.96 erro res es
t n d a r de la (x, y el intervalo d e confianza n o llegar h a sta sta.
P ero sabem os tam bin q u e el 95 p o r ciento d e las veces o bten
d rem o s X que n o caen en la regin crtica, y slo u n 5 p o r ciento
de las veces X que caen en ella. En o tro s t rm in o s : sabem os que
slo un 5 p o r ciento de las veces obtendrem os con este procedi
m ien to intervalos que no com prendan el parm etro (v.gr. fx). El
95 p o r ciento re sta n te de las veces el procedim iento nos d ar

4 Estos puntos terminales del intervalo se designan a menudo como

tes de confianza.

lmi

m edias de u n a m u e stra lo suficientem ente vecinas del p arm etro


p a ra que los in terv alo s de confianza obtenidos com prendan efec
tivam ente a ste.
Al in te rp re ta r los intervalos de confianza conviene te n e r p re
sentes las siguientes advertencias. El estu d ian te p rin cip ian te tien
d e a servirse de frases vagas p o r el estilo de tengo u n 95 p o r

xz
f3
4
*5
*6
*1

-*3

*10

F ig. XII.3. Distribucin de intervalos variables de confianza con


respecto a un valor fijo del parm etro u,

ciento de confianza en que el intervalo contiene el p arm etro ",


o bien la p ro b ab ilid ad de que el p a r m e tro quede en el in terio r
del intervalo es de .95. Al hacerlo as puede n o darse cuenta
cabal de que el p a r m e tro es u n v alor fijo y que son los interva
los los que v aran de u n a m u estra a o tra. De acuerdo con nues
tr a definicin de la probabilidad, la p ro b ab ilid ad de que el p ar
m etro quede en el in te rio r de u n intervalo determ inado cual
q u iera es cero o uno, ya que el p a r m e tro est o n o est en el
in terio r del in terv alo obtenido. Un sim ple diagram a indicando
el v alo r fijo del p arm etro , en este caso x, y la variabilidad de
los intervalos ay u d ar a co m p ren d er m s claram en te la in te rp re
tacin co rrecta. La figura X II.3 pone de m anifiesto que n u estra
confianza est m s bien en el procedim iento utilizado que en
algn intervalo cualquiera. Podem os decir que el procedim iento
es tal que, a la larga, el 95 p o r ciento de los intervalos obtenidos

co m p ren d ern el v erd ad ero p arm etro (fijo ). E l lecto r h a de


g u ard arse de concluir o su poner que el in terv alo p a rtic u la r o bte
n ido posee alguna p ro p ied ad especial que n o poseen o tro s in te r
valos com parables obtenidos de o tra s m u estras. Algunas veces
se afirm a que, si se e x tra je ra n m u estras reiterad as, el 95 p o r
cien to de las veces las m edias de estas m u estras caeran e n el
in te rio r del in tervalo de confianza que se h a calculado (p o r
ejem plo, 15 0.98). E sto im plica, p o r supuesto, que la X obtenida
en la m u estra del investigador es igual exactam ente a [i o es,
p o r lo m enos, u n a aproxim acin m uy cercana a i. E n realidad,
sin em bargo, el intervalo p a rtic u la r obtenido puede ser tal que
slo u n as pocas X caigan en su in terio r. N u e stra confianza, com o
sucede siem pre en la induccin estadstica, no est en algn re
su ltad o p a rtic u la r cualquiera de la m u estra, sino en el procedi
m ien to em pleado.
E s posible p o n er el riesgo de e rro r a cu alq u ier nivel deseado,
sirvindonos p a ra ello del m ltip le ap ro p iad o del e rro r estn d ar.
Sin em bargo, el lecto r h a de o bservar que, al re d u cir el riesgo
d e e rro r, se au m en ta tam b in necesariam ente la am p litu d del
intervalo, a m enos que se aum ente sim ultneam ente el nm ero
de casos. C uanto m s am plio sea el intervalo, ta n to m enos nos
dice acerca del p arm etro . D ecir que el ingreso m ediano de las
fam ilias de N ueva Y ork se sit a e n tre $ 1 000 y $ 25 000 equivale
a p ro clam ar lo que to d o el m undo sabe. As, pues, el investigador
se en fren ta a u n dilem a. Puede a firm a r que el p a r m e tro se
sit a en el in te rio r de u n intervalo m uy angosto, p ero la p ro b a
b ilidad de e rro r ser grande, o puede h acer u n a afirm acin m uy
vaga, con la seguridad v irtu al de e sta r en lo cierto. Lo que se
decida a h acer exactam ente depender del c a r c te r de la situa
cin. A unque convencionalm ente suelan em plearse intervalos de
confianza del 95 y el 99 p o r ciento, cabe in s istir en que dichos
niveles n ad a tienen de sagrado.
Intervalos de confianza y pruebas de hiptesis. Si bien el o b je
to explcito de p o n er intervalos de confianza de u n a estim acin
est en in d icar el grado de exactitud de sta, los intervalos de
confianza constituyen tam b in pruebas im p lcitas de u n a vasta
serie de h ip tesis.6 Son pru eb as im plcitas en el sentido de que
las hiptesis concretas n o se form ulan, sino q u e se hallan sim
plem en te im plicadas en aqullos. E n efecto, en el intervalo de
confianza tenem os u n a p ru e b a im plcita de todo valor posible
de j que pued a suponerse. L a figura X II.4 indica de qu m odo
los intervalos de confianza se relacionan con las pru eb as de las
hiptesis.
C oncentrm onos en el intervalo de confianza trazado alrededor

6 Conviene insistir en que, si bien la estimacin de intervalo y la prueba


de hiptesis comportan ideas ntimamente relacionadas, constituyen, con
todo, procedimientos distintos.

de X . Supngase que, en lugar de h a b e r obtenido sem ejan te in


tervalo, hem os form ulado hiptesis a p ro p sito de varios valores
altern ativ o s de p, y hem os procedido a com probarlas. Supngase,
p a ra m ayor sencillez, que el valor de a h a sido dado y que se ha
em pleado el nivel de significacin de .05 y se utiliz u n a prueba

Fig. XII.4. Comparacin de un intervalo de confianza del 95 por


sie n to con p ruebas de hiptesis al nivel de .05 m ostrando el no
rechazo d e la m edia hipottica \ilt q u e queda d en tro del intervalo,
y el descarte d e la jx2 hipottica, que queda fu era del intervalo
d e dos colas. S upngase p rim ero que habam os an ticip ad o hipo
tticam en te u n v alo r com o el de ^ (fig u ra X II.4a), q u e se sita
efectivam ente al in te rio r del in terv alo de confianza en cuestin.
E n este caso, la m edia X de la m u e stra n o caera, m anifiesta
m ente, en la regin crtica, y la hiptesis n o se h a b ra descartado
a l nivel de .05. P o r o tra p a rte , si hubiram os su puesto un v a
lo r al ex terio r del intervalo, ta l com o ^ (fig u ra X II.46), la dis
tan cia e n tre la
d e la hiptesis y X sera m ayor que 1.96 o - ,
y esta segunda hiptesis se h a b ra descartado. E st claro, pues,
que si supusiram os valores hipotticos de jx que se sitan en
ajgn p u n to al in te rio r del in terv alo de confianza, n o d escarta
ram os dichas h iptesis al nivel d e significacin apropiado. Y si
supusiram os valores de ji que quedan al ex terio r del intervalo,
sabem os que estas hiptesis se d escartaran .

As, pues, h ab iendo o b tenido u n in terv alo d e confianza, pode


m os d ecir a sim ple vista cules h a b ra n sido los resultados si
h u b iram o s verificado las hiptesis. Si el c a r c te r de n u estro
p ro b lem a fu e ra tal que n o se sugiriera hiptesis p a rtic u la r alguna
com o p referib le a las o tra s, entonces, obviam ente, la altern ativ a
p rctica, en relacin con u n a serie de pruebas, consistira e n obte
n e r u n solo in tervalo de confianza.6 El le c to r debera convencerse
p o r s m ism o de que los ejem plos exam inados en el captulo p re
cedente p u d iero n h ab e rse tra ta d o con igual facilidad p o r el m
to d o del in terv alo de confianza.
S u p u esto s en relacin con los intervalos de confianza. E l em
p leo de intervalos de confianza no nos lib era de la necesidad de
fo rm u la r supuestos ac erc a de la n atu ra leza de la poblacin y del
m to d o de m u estreo utilizado. B sicam ente, los supuestos en el
caso de u n p ro b lem a de intervalo de confianza son los m ism os
q ue los que se req u ieren p a ra cualesquier pru eb as im plcitas,
con la diferencia d e que n o es necesario, p o r supuesto, suponer
u n v alo r hip o ttico d eterm in ad o p a ra el p a r m e tro que se estim a.
E n este tex to supondrem os siem pre el m u estreo aleatorio. P or
o tra p arte , si se em plea u n a distribucin de m uestreo, hem os de
su p o n er u n a poblacin n o rm al o de te n e r u n a m u e stra suficien
tem en te grande. Si se em plea, en cam bio, u n a distribucin t o
cu alq u ier o tra d istrib u ci n d e m u estreo , entonces h a b ra que
fo rm u la r los supuestos usuales req u erid o s en p ru e b as com pa
rables.
X II.3. In terva lo s de confianza para otros tipos de problem as
H a sta aq u el exam en de los intervalos de confianza slo h a com
p re n d id o casos en los q u e el p a r m e tro que se estim ab a e ra la
m edia de u n a poblacin siendo 0 conocida. Si el p ro b lem a se
cam bia, las m odificaciones del p rocedim iento son obvias, y la
in te rp re ta c i n b sica de los intervalos de confianza y su relacin
con las p ru eb as de las hiptesis siguen siendo las m ism as. El
in terv alo de confianza d e u n p a r m e tro se o b tien e siem pre p r o
cediendo a u n a e stim acin del p a r m e tro en cuestin e incluyn
dolo en u n in tervalo cuya am plitud es funcin del e rro r est n d a r
d e la estim aci n .7
Si debido a n o conocerse a hay que servirse d e la distribucin
t, re cu rrim o s sim plem ente a la estim acin del e rro r e st n d a r

6 Debe observarse, sin embargo, que cuando probamos una determinada


hiptesis nula obtenemos un valor especfico de probabilidad, tal corno
P = .032, lo que normalmente no obtendramos en relacin con un inter
valo de confianza.
t En algunos casos, sin embargo, como en el de los intervalos de con
fianza para coeficientes de correlacin, la estimacin del punto puede no
caer exactamente en el centro del intervalo.

y su stituim os el m ltip lo obten id o sirvindonos del cu ad ro n o r


m al p o r la cifra correspondiente del cu ad ro . E n esta form a,
p a ra u n in terv alo d e confianza de 99 p o r ciento p a ra la m edia y
24 grados de lib ertad , ten d ra m o s:
X 2.797

= X 2.797

s
v w -i

Si en el ejem p lo de la seccin XI.3 del captulo a n te rio r se hubie


r a operado con u n intervalo de confianza del 99 p o r ciento, el
re su ltad o h a b ra sido:

P or consiguiente, el intervalo de confianza del 99 p o r ciento va


de 45.15 a 58.85. Vemos que este re su ltad o concuerda con el que
se obtuvo p rev iam ente (esto es, .001 < p < .0 1), p o r cu a n to la i
su p u esta d e 60 cae efectivam ente fu e ra del in terv alo calculado,
y sabem os, p o r lo tanto, que la hiptesis h a b ra debido descar
ta rse al nivel de .01 (en u n a p ru e b a d e dos colas).
Y
en fo rm a anloga, podem os o b ten er intervalos de confianza
p a ra las p ro p o rciones. E n efecto, su stituyendo X p o r p s y a /y J
p o r V Puq J el intervalo de confianza del 95 p o r ciento se ra :

Nos encontram os aqu con u n a dificultad que no se p re sen tab a


cuando p o da an ticip arse p a ra p u u n valor determ inado. En efec
to, com o q u iera que obviam ente p u n o ser conocido, se hace
n ecesario ap reciar el e r ro r e stn d a r. Pueden recom endarse a tal
o b jeto dos p ro cedim ientos sencillos, u n o de los cuales es m s
conservador que el o tro .8 E n p rim e r lugar, to d a vez que la m ag
n itu d de la m u e stra h a de se r gran d e p a ra ju stific a r el uso de
las tablas norm ales, p s co n stitu ir p o r lo re g u lar u n a apreciacin
razonablem ente b u en a d e p. P o r consiguiente, si sustituim os
sim plem ente p a p o r p u (y qs p o r qu), podem os o b ten er u n in te r
valo que p o r lo reg u lar ser b a sta n te p arecido al correcto. As,
p o r ejem plo, en el caso d e la seccin XI.4 del cap tu lo precedente
8 Para un tercer mtodo algo ms preciso vase p. 244.

h ab ram o s o btenido el intervalo de confianza del 98 p o r ciento


de la m an era siguiente :
p , 2.33 \ l J ! - = .55 2.33 t i - - - - " N
*
125

= .55 0.1037

Si alguien siente preocupacin en u tiliza r u n a estim acin del


e rro r e stn d a r sin co rreg ir en alguna fo rm a el e rro r adicional de
m uestreo in tro d u cid o de este m odo, p u ed e servirse de u n m todo
m s conservador p a ra o b ten er el intervalo. E n efecto, com o quie
ra q ue el p ro d u c to pq alcanza u n valor m xim o p a ra p = q = .5,
sguese que el in tervalo de confianza m s extenso posible se ob
te n d r sirvindose del v alor .5 com o estim acin de p .9 T oda vez
que p o r lo reg u lar se desea u n intervalo angosto, nos co m porta
m os cau tam en te al o b ten er u n intervalo que es todo lo grande
q u e p u ed a ser, in dependientem ente del v alo r de p u. Sirvindonos
de este m todo m s conservador, obtenem os u n intervalo algo
d istin to , a sab e r:

O bsrvese que este segundo intervalo es slo ligeram ente m s


ancho que el p rim ero. S iem pre que .3 < p < .7, los dos m todos
d a r n ap ro x im ad am ente los m ism os resultados.
*
Si p s re su lta se r m uy grande o m uy pequeo, el m todo con
serv ad o r pu ed e d a r u n intervalo que sea m uy am plio. Si alguien
sien te p reocupacin en u s a r el p rim e r m todo en el que p u es
e stim ad a p o r p s, es posible com binar los dos m todos p a ra con
seguir u n in tervalo m s razonable que siga, con todo, siendo
conservador. E n ta l caso, nos servim os p rim ero del m todo m s
co n serv ad o r p a ra o b te n e r u n intervalo de confianza aproxim ado.
S upngase que este in terv alo vaya de .10 a .25, siendo p a d e .175.
E starem o s entonces razonablem ente seguros de que el valor real
de p u h a de situ a rse e n algn p u n to al in te rio r de dicho intervalo
aproxim ado (y co n serv ad o r). Al calcular el in terv alo m s exacto,
tom am os ah o ra com o estim acin de p u el v alo r aproxim ado d en
tro del in terv alo q u e q u ed e m s cerca de .5. E n el ejem plo n u
m rico a n te rio r escogeram os el v alo r .25, ya que el em pleo del
m ism o en la f rm u la del e rro r e st n d a r nos d a r u n intervalo
m s am plio de lo que h a ra cualquier o tro v alo r del in terv alo .10
a .25. E n o tro s trm in o s : en lu g ar de servirnos de n u e stro p,
real (e sto es, de .175), escogem os el m ay o r v alo r q u e suponem os
que p u pu ed a ad o p tar. P o r consiguiente, calculam os el intervalo
de confianza del 95 p o r ciento com o sig u e :

El lector debera convencerse por s mismo de que es as.

(.25) (.75)
N
E ste intervalo ser m ayor, y p o r consiguiente m s conservador,
que el q ue se o btiene to m ando b a jo el radical a p a, y n o com por
ta, con todo, el em pleo del valor .5, del que sospecham os que es
con m ucho d em asiado grande.
X II.4. D eterm inacin del tam ao d e la m uestra
De a c u erd a con la p r ctica seguida de i r intro d u cien d o pocas
ideas nuevas a la vez, hem os aplazado la cuestin de cm o pue
d a d eterm in arse el tam ao de la m u e stra con an terio rid ad a la
recopilacin de los datos. Una de las preg u n tas que con m ayor
frecuencia le p o nen al estad g rafo es la de cuntos casos nece
sito ?" La re sp u esta depende, p o r supuesto, de lo que se tenga el
p ro p sito de h ac er con los re su ltad o s de la m uestra. Ms con
c retam en te: hay que d eterm in a r diversos hechos an tes de poder
d a r u n a re sp u esta adecuada. P o r lo regular, lo que hem os de
h ac er es rem o n tarn o s hacia a tr s, a p a r tir de los datos que es
peram o s o b ten er, p a ra p o d er d eterm in a r el tam a o desconocido
de la m u estra. H a sta aqu hem os considerado el tam ao de la
m u estra com o ca n tid a d conocida. Las estadsticas tales com o
la m edia y la desviacin e st n d a r de la m u estra pueden ob ten er
se de los re su ltad o s de sta. Una vez que hem os decidido el nivel
d e significacin de u n a p ru e b a o el intervalo de confianza de
seado, podem os p o n e r todos estos valores en u n a f rm u la y
d ecid ir la am p litu d del in terv alo de confianza, o b ien si deba
o n o d esc artarse u n a hiptesis nula. Sin em bargo, en la clase
de problem as que estam os considerando en esta seccin el ta
m a o de la m u e stra ser desconocido. E sto significa que, p a ra
resolver n u e stra ecuacin con resp ecto a N , hem os de conocer
to d as las dem s cantidades d e la frm ula. Y u n a vez integrados
todos esos valores en la ecuacin, entonces la solucin de N se
convierte en u n sencillo p ro b lem a algebraico. Con o b jeto de
ilu s tra r el p roceso nos servirem os de u n p roblem a de intervalo
de confianza.
Supngase que querem os sab e r cuntos casos se requieren
p a ra estim ar el n m ero prom edio de aos de escuela com pleta
dos p o r las personas de pad res nacidos en el ex tran jero . Antes
de p o d er d a r u n a resp u esta a esta cuestin, necesitam os obte
n e r los siguientes elem entos d e in fo rm ac i n : 1 } el nivel d e con
fianza a u tilizar, 2 ) el grado de exactitud con q u e deseam os
ap reciar el p arm etro , y 3) alguna estim acin razonable d e los
valores de cualesquier p arm etro s que pu ed an ap arecer en la
frm ula. As, p o r ejem plo, podem os q u erer a p reciar la m edia

con u n a aproxim acin de .1 ao de escolaridad y servirnos de


un in tervalo de confianza del 95 p o r ciento. O bsrvese q u e hay
q ue c o n c retar ta n to la u n a com o la o tra de dichas cantidades,
ya que podem os o b ten er siem pre u n a aproxim acin de .1 a o si
estam os dispuestos a a d m itir u n gran riesgo de e rro r. Nos ser
vim os ah o ra de estos valores en la f rm u la del intervalo de
co n fian za:
X 1.96 -
'------ V------ '
.1
E l conocim iento del nivel de confianza deseado nos h a perm itido
in tro d u c ir el v alor 1.96. Como quiera que deseam os u n a aproxi
m acin de .1 , o u n a am p litu d to tal de intervalo de .2, sabem os
que la ca n tid a d de 1.96 o / \ / N h a de se r igual a .1. Aunque el va
lo r de X sea desconocido, vem os inm ediatam ente que ello no
rev iste im p o rtan cia alguna en este problem a, ya que deseam os
o b ten er u n in tervalo de cierta am plitud, independientem ente del
v alo r de X .
S upngase que tra ta m o s ah o ra de resolver la ecuacin
cr
.1 = 1.96----- y /N
resp ecto de N . Tenem os todava u n a incgnita, o sea <r. Pero,
cm o podem os o b ten er o an tes de h a b e r reu n id o los datos? La
cosa es c la r a : hem os de estim a r su valor p o r algn m todo que,
en cierto sentido, vaya m s all de los datos que habrem os de
reu n ir. E n esencia, hem os de fo rm u lar u n supuesto ilu strad o
en cu an to a su valor, y a sea sirvindonos de u n conocim iento
experto, de los resu ltad o s de estudios previos, o eventualm ente
de u n estudio-gua de cualquier clase que sea. P or lo regular, u n
estudio-gua re su lta r m uy costoso y, p o r consiguiente, hay que
re m itirse a u n o u o tro de los dos m todos restan tes. Incuestio
nablem ente, el procedim iento m s satisfactorio consistira en de
te rm in a r a exactam ente, pero, si esto p u d iera hacerse, ya no
te n d ra pro b ab lem ente in ters alguno el e x tra e r u n a m u estra.
O bsrvese que el tip o de estim acin necesario en esta clase de
p ro b lem a es to talm en te distinto del que se em ple en a p reciar
a a p a r tir de los datos de la m uestra. P o r lo tanto, de n a d a sirve
estim ar a con a o sirvindonos de la distribucin t. Si de todos
m odos hem os de estim ar, lo m ism o podram os estim ar el valor
de a que el de o o s. E n el p re sen te ejem plo, supngase que so

b re la b ase de la m e jo r inform acin obtenible estim am os que o


ser de ap ro x im ad am en te 2.5 aos. Sirvindonos de este valor
y resolviendo re sp ecto del tam a o re q u erid o de la m uestra,
te n e m o s :

o sea
V aT = J ^

= 49

y
N = 2 401
O bsrvese que hem os_resuelto re sp ecto de N p asando to d as las
can tid ad es excepto \ / N a u n lado de la ecuacin y sim plificando.
F inalm ente elevam os al cu ad rad o am bos m iem bros de la ecua
cin p a ra elim in ar el radical.
S in duda, slo podem os o b te n e r u n valor aproxim ado p a ra el
tam ao deseado de la m u estra, ya que los p a r m e tro s h a b r n
de estim arse. No te n d ra ciertam en te sen tid o alguno, p o r ejem
plo, to m ar ex actam ente los 2 401 casos. Sin em bargo, sem ejante
aproxim acin nos d ar p o r lo re g u la r re su ltad o s m ucho m ejores
q u e cu alq u ier corazonada in tu itiv a acerca del n m ero de casos
necesario. E n las aplicaciones p rcticas solem os p o r lo re g u la r
estu d ia r m s de u n a variab le a la vez, lo q u e com plica todava
la cosa considerablem ente. E stam os tam b in lim itados, general
m ente, p o r los recu rso s disponibles, y a m enudo hem os de aco
m o d am o s con cualquier grado de ex actitu d que podam os obtener.
P ero au n as, se r til a m enudo calcular el tam ao necesario
de la m u e stra a ttu lo de gua de n u estro p ro p sito de inves
tigacin.
Si bien la cuestin de d e te rm in a r el tam a o de la m u e stra no
se ex am in ar en los captulos siguientes en conexin con otros
p ro cedim ientos estadsticos, el le c to r e n c o n tra r algunos e je r
cicios que le im ponen la estim acin de N a p ro p sito de o tras
clases de problem as. E n todos estos casos la aplicacin es obvia,
au n q u e en ocasiones haya que re c u rrir ab u n d a n te m en te al l
gebra.

Glosakxo
Intervalo de confianza
Grados de libertad
Eficiencia de la estimacin
Estimacin del intervalo
Estimacin del punto
Estimacin no sesgada

E je r c ic io s

1. Obtnganse los intervalos de confianza para los ejercicios 3, 4 y 5 del


cap. xr. Concuerdan los resultados obtenidos con los de ejercicios
anteriores? Cmo se sabe? Respuesta al ejercicio 5, .47.61.
2. Se toma una m uestra aleatoria de 200 familias de una localidad
y se encuentra que en el 36 por ciento de los casos es el marido quien
toma ms de la m itad de las decisiones de carcter financiero. Cul
es el intervalo de confianza del 99 por ciento para el porcentaje de
familias en las que el marido toma ms de la m itad de dichas decisio
nes? En qu sentido concreto proporciona el intervalo pruebas impl
citas de hiptesis?
3. Cuntos casos se necesitarn para establecer un intervalo de con
fianza del 99.9 por ciento para la media si la amplitud total del inter
valo de confianza no ha de rebasar $500 y la desviacin estndar se
supone ser de $ 1 300? Respuesta, N = 295.
4. Si se sospecha que la proporcin de propietarios de casa es de
aproximadamente .75 en una determinada zona de residencia, cuntos
casos se necesitarn para obtener un intervalo de confianza del 95 por
ciento y de amplitud no mayor a .03, expresada en trminos de propor
ciones? Supngase que la proporcin de los propietarios de casa se
aprecia en .5, cuntos casos se necesitarn en este supuesto?
5. Sirvindonos del hecho de que para poblaciones normales la dis
tribucin de muestreo de la mediana presenta un error estndar de
1.253 a/ VN, podemos situar un intervalo de confianza alrededor de la
mediana. Supngase que en el ejercicio 3 precedente se deseaba poner
un intervalo de la misma amplitud alrededor de la mediana de la mues
tra. Sirvindonos de la misma apreciacin de la desviacin estndar,
cuntos casos necesitaramos? Qu revela el resultado a propsito de
las eficiencias relativas de la media y la mediana? Respuesta, N = 463.
* 6. Se ha sostenido que el intervalo de confianza del 95 por ciento
representa una serie de pruebas implcitas de dos cotas al nivel de
.05. Expliqese por qu el intervalo de confianza del 95 por ciento no
representa pruebas implcitas de una cola al nivel de .05.
B iblio g rafa

1. Freund, J. E.: M odem Elementary Statistics, 3* ed., Prentice-Hall,


Inc., Englewood Cliffs, N. J., 1967, caps. 9 y 11.
2. Hagood, M. J. y D. O. Price: Statistics for Sociologists, Henry Holt
and Company, Inc., Nueva York, 1952, caps. 15 y 16.
3. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc.; Nueva
York, 1963, caps. 7 y 9.
4. Wallis, W. A. y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 14.

C uarta P a r te

E S T A D IS T IC A S BIV A R IA D A S Y M ULTIVARIADA S

X II I. PR U E B A S D E DOS M U E S T R A S : D IF E R E N C IA D E
LAS M E D IA S Y LAS P R O P O R C IO N E S
E n el cap tu lo x i se exam inaron p ru e b as que consideraban u n a
sola m u estra. H allam os que dichas p ru e b as n o e ra n m uy p r c ti
cas p a ra el socilogo, ya que p o r lo re g u la r n o es posible encon
tr a r u n a hiptesis suficientem ente concreta p a ra p re d ecir u n valor
p a ra i o p u. S in em bargo, cuando el in ter s se cen tra en co m
paraciones en tre v arias categoras de m u estras, re su lta innecesa
rio co n c retar los niveles absolutos de u n o u o tro de los grupos.
E n lu g ar de ello, p u ed e p ro b a rse sencillam ente la hiptesis nula
de que no existe e n tre ellos diferencia alguna. As, p o r ejem plo,
sera extrem ad am ente difcil a n ticip ar el nivel d e ingreso de los
n eg ro s en D etroit o el nivel de p re ju ic io de los blancos en esa
d u d a d . Sin em bargo, supngase que nos in tere sa b a p ro b a r la hi
p tesis d e que el ingreso prom edio de los negros es el m ism o que
el de los blancos nacidos en el ex tran jero , o q u e los judos tienen
p a ra los negros el m ism o grado de p re ju ic io que los n o judos.
E ste ltim o tip o de hiptesis lo reconsiderarem os aqu.
E n u n a ciencia social com o la sociologa, el in ters p ro p e n d e a
c e n tra rse en estab lecer relaciones e n tre variables. E sto c o n tra sta
con el tip o de la en cu esta que re n e dato s y en la cual, segn
vim os, la estim acin del p u n to y el in terv alo de u n solo p a r m e
tro pu ed e re v estir im p o rtan cia prim ordial. C uando se establecen
com paraciones e n tre dos m u estras, tenem os la clase m s sim ple
de p ro b lem a en el que dos variables pu ed en re fe rirse u n a a o tra.
H a sta aq u slo nos hem os ocupado de u n a sola v ariab le a la vez.
sta es tal vez la razn principal de que las p ru e b as exam inadas
h a s ta el p re sen te n o hayan sido dem asiado tile s p a ra los soci
logos. E n este captulo vam os a ocuparnos de p ru e b as en las
q u e u n a sim ple variable dicotm ica p u ed e se r re ferid a a o tra
variable. As, p o r ejem plo, al c o m p arar a los ju d o s y los n o ju
dos p o r lo que se re fiere al prejuicio, relacionam os de hecho a
ste con la religin. Y en fo rm a anloga, p o d ra q u ererse com pa
r a r los dos sexos co n re sp ecto a "otros asp e cto s o desde el p u n to
de v ista de o tras ca ractersticas relativas a la personalidad. Las
com paraciones pu eden establecerse asim ism o e n tre u n g ru p o de
co n tro l y u n grupo de experim ento en el q u e se h a in tro d u cid o
alguna variable. E n los captulos siguientes se exam inarn p ru e
b as q ue co m p o rtan m s d e dos m uestras.
X III.1. Prueba de la diferencia de las m edias
Con o b jeto de ex tender la p ru e b a de las m edias de una m u estra
n ica a u n a p ru e b a e n la que p u ed a estab lecerse u n a com para231

cin e n tre las m edias de dos m u estras, hem os de servirnos n u e


v am ente del teo rem a del lm ite central. Un teorem a im portante,
derivado, pu ed e enunciarse com o sigue: si se extraen m uestras
independientes al azar, de los tam aos N x y N z respectivam ente,
d e poblaciones que son respectivam ente N o r ^ j , al) y N or(ji2, al),
la distribucin de m u estreo de la. diferencia entre las dos m edias
de las m u estra s ( X 1 X 2) ser igual a N or(n*[2, Oi/JVi+ a l/N 2 ).
Lo m ism o que en el caso de m u estras individuales, este teorem a
puede generalizarse en el caso de m u estras grandes p a ra a b a rca r
cualesquier poblaciones de m edidas ^ y j.2 y de variancias of y
respectivam ente. E n efecto, a m edida que
y N 2 aum entan, la
distribucin de seleccin de X 1 X 2 se aproxim a a la norm ali
dad, lo m ism o que antes. Exam inem os ah o ra este teo rem a m s
de cerca.
Se hace referencia a m u estras aleatorias independientes. E sto
significa que las m u estras h an d e seleccionarse independiente
m en te una de otra. El hecho de que la m u estra sea al azar ase
g u ra independencia en el interior de ella, en el sen tid o de q u e el
conocim iento de la m arc a del p rim e r individuo seleccionado no
nos ayuda a p re d ecir la m arc a del segundo. E sto no es, con todo,
lo que aqu se entiende p o r m u estras al azar in d ependientes. E n
efecto, n o slo h a de h a b e r independencia en el in te rio r de cada
m u estra (aseg u rad a p o r el hecho de la seleccin al azar), sino
q ue h a de h ab e rla adem s entre las m u estras. As, p o r ejem plo,
las m u estras n o pueden aparearse, com o sera eventualm ente el
caso e n tre grupos de control y grupos de experim ento. Si se fue
ra n a co m parar, p o r ejem plo, los dos sexos, n o p o d ra utilizarse
la p ru eb a de la diferencia de las m edidas en m u estras com pues
ta s de p a re ja s de m arid o y m ujer.
E l req u isito de que las m u estras sean independientes u n a de
o tra es sum am ente im p o rtan te, au n q u e a m enudo se lo p ase p o r
alto en la investigacin, p artic u la rm en te cuando se m an eja con
u n a m u estra en grupo. Si la m u e stra en con ju n to es estrictam en
te al azar, y si se com paran dos su b m u estras tom adas de u n a
m ism a m u e stra aleato ria m ayor, el supuesto de independencia
e n tre las dos su b m u estras en cuestin te n d r lugar, ya que todos
los casos de la m u e stra m ayor se h a b r n seleccionado indepen
dientem ente u n o de otro. P or ejem p lo : si se com paran varones
con hem bras, deberem os h ac er u n m u estreo general de los varo
nes y otro m u estreo, seleccionado' independientem ente, de todas
las hem bras. Es d ec ir: la seleccin de B ob Jones n o tiene in
fluencia ninguna en la p robabilidad de que sea seleccionada Susie
Sm ith.
P or lo regular, en la investigacin social tom am os una sola
m u estra m ayor, aunque con fines d e anlisis podam os conside
r a r los datos como procedentes d e diversas m u estras indepen

dientes. E n la m ayora de los casos, el p roblem a de la fa lta de


independencia en tre las m u estras no se p lan tear, a m enos que
deliberadam ente las hayam os apareado. Como pueden d arse cir
cunstancias en las que el diseo del m u estreo n o sea ta n sencillo,
d eb er p re sta rse atencin a la posibilidad de que n o se satisfaga
el sup u esto de independencia e n tre las m u estras.
E n el teo rem a en cuestin se nos dice que si continuram os a
seleccionar indefinidam ente, seleccionando cad a vez dos m ues
tra s y estableciendo u n a grfica de sus m edias, la distribucin de
seleccin de e s ta diferencia e n tre m edias sera n o rm al o aproxi
m ad am en te norm al. E l lecto r h a de tr a ta r de re p resen ta rse exac
tam en te lo q ue aqu ocurre. Tenga p re sen te que, com o socilogo,
l slo o b ten d r en re alid ad dos m u estras y u n a sola diferencia,
en tan to q ue aqu tra ta m o s de la distrib u ci n h ip o ttica de to d as
las diferencias posibles. Como q u iera q u e la distrib u ci n de
m u estreo es p a ra u n a diferencia e n tre m edias de m uestras, la m e
dia de la d istribucin de m u estreo est d ad a p o r la diferencia
e n tre dos m edias de poblacin, m s bien q u e p o r cu alq u iera de
ellas separadam ente. E n el caso especial en que J4 y {x2 sean igua
les, la m edia de la d istribucin de m u estreo ser cero. Si
> j,2,
esperam os que la m ayora de las X 1 ser m ay o r que las X 2, co
rresp o n d ien tes, y que la m edia de la d istrib u ci n de seleccin
ser p o r consiguiente positiva. P or ejem plo, si (ix = 60 y
= 40,
la d istrib u ci n de X x X 2 te n d r 20 com o m edia o valor es
perado.
No es en cam bio ta n fcil v er p o r qu la variancia h a b ra de ser
a l/N i + o l/N s, o sea la su m a de las variancias de la d istribucin
de m u estreo de las m edias separadas. Es obvio que no p o d ra
em p learse u n a diferencia de variancias a f / N x o l/N , ya q u e po
d ra obtenerse, p a ra la distribucin de m u estreo , cero o u n a va
rian cia negativa. E n cam bio, la variancia ax/N 1 + c|/A ?2 es rnayor
que cu alq u iera de las dos variancias a 1/ N 1 o a 2/ N s. P or qu es
esto as? A unque n o p u ed a darse u n a justificacin com pleta de
la f rm u la sin re c u rrir al razonam iento m atem tico, puede, con
todo d arse cierto tipo d e explicacin intuitiva. F undam entalm en
te, esperam os q ue el e r ro r e st n d a r co rresp o n d ien te a la diferen
cia de las m edias sea m ay o r que cualquiera de los e rro res e stn
d a r separados, p o rq u e tenem os ah o ra dos fuentes de erro r, o sea
u n a en cada m u estra. As, pues, la m ita d d e las veces las dos X
e sta r n en e rro r en sentidos opuestos. Con fines de sim plifica
cin, supongam os que |xx = u2- E n este caso, si X t es m ayor que
i! y X 2 es m ayor que
el re su ltad o de la sustraccin ser u n a
can tid ad gran d e positiva, p o rq u e los e rro res son e n sentidos
opuestos. P o r ejem plo, si X x es m s gran d e en 20 que (i y X< es

m en o r en 15 que |x2, la diferencia re su ltan te, X, X 2 diferir de


[ii |i2 en 35, com binando, pues, los erro res im plicados. Y en
fo rm a anloga, si X t es pequea y X 2 es grande, p u ed e re su lta r
u n a diferencia negativa sustancial. E n o tro s t rm in o s : con m u
cha frecuencia obtendrem os diferencias relativ am en te grandes
en tre las m edias de las m u estras, ya que cada m edia v aria r in
dep en d ien tem ente de la otra. E n consecuencia, la distribucin de
m u estreo de u n a diferencia te n d r u n a desviacin e st n d a r m a
yor que cu alq u iera de las d istin tas distribuciones de m u estreo
separadas.
*
La f rm u la p a ra el v alor esp erad o y la variancia de X x X
puede ser d educida utilizando una vez m s las expresiones co rres
pondientes a las com binaciones lineales. Se re c o rd a r que si
Y = cX 1 + c^X2, tendrem os E ( Y ) = C jE C ^ ) + czE ( X 2), y aT2 ~
ci2
+ c 22 Gx22, a condicin de que X x y X s sean independien
tes. Si hacem os ah o ra que Y re p resen te u n a diferencia de medias,
sustitu y en d o X x p o r X t y X 2 p o r X 2, haciendo cx = 1 y c2 = 1,
tendrem os, com o caso especial, los resultados
E ( Y ) = E ( X x - X 2) = ( D E m + ( - 1 ) ( X 2) = m - |x*

0,* = ( l ) 2 0 / + ( - 1 ) 2 0j 2 =

O2

j +

Ni

022

rf

N2

Obsrvese que si hubisem os fo rm ad o la sum a de X- y X 2, la


expresin de la variancia p a ra dicha can tid ad h u b ie ra sido la m is
m a que la co rresp o n d ien te a su diferencia. E n el captulo xvi
estu d iarem o s o tro s tipos m s com plejos de com paraciones en las
q u e se incluye u n a generalizacin de esta sim ple com paracin
de dos m ed ias de m u estras.
Vamos a v e r ah o ra u n ejemplo- ilu strativ o del em pleo de la
p ru e b a de la diferencia de las m edias. El caso de las 0 conocidas
n o lo exam inarem os, y a dicho p ro b lem a es obvio y m s bien
poco prctico-. S upondrem os, pues, que las 0 no se conocen. Con
siderarem os dos casos p a rtic u la re s : en el p rim ero supondrem os
que 0X= 02, en ta n to que e n el segundo se su p o n d rn dos 0 des
iguales. Es obvio que estos dos m odelos com prenden todas las
altern ativ as posibles,
Problem a. Se establece u n a com paracin e n tre dos tipos d e dis
trito s, o sea e n tre los pred o m in an tem en te u rb an o s y lo-s que son
fu n d am en talm ente ru rales. Los d istrito s en cuestin se com paran
en relacin con el p o rc e n ta je de p e rso n a s que votan p o r los de
m cratas en u n a eleccin presidencial, con los siguientes resul
tados :

Distritos rurales

Distritos urbanos

iV2 = 19

N = 33
= 57 %
5! = 11 %

X2 = 52 %
s2 = 14 %

P resen tan estos datos m otivos razonables p a ra suponer que


existen diferencias significativas en las preferen cias electorales
de dichos dos tipos de d istrito s? Supngase que stos se h an se
leccionado al azar d e u n a lista de todos los d istrito s del F a r W est,
y que estudios previos h a n m o strad o que las respectivas d istri
buciones de poblacin son aproxim adam ente norm ales.
M odelo 1: ai = o2
1. S u p u esto s
N ivel de m e d ic i n : el p o rc en taje de votos dem ocrticos es u n a
escala de intervalo
M odelo: m u estras aleatorias independientes
poblaciones norm ales, ai a2 = a.
H ip te sis:
= ^2.
E l su p u esto de n o rm alid ad puede aban d o n arse siem pre que l a s .
N sean grandes (p o r ejem plo, am bas so b re 50). El supuesto a
<r2 pued e co m probarse efectivam ente p o r m edio d e la p ru e b a F
quse se exam inar en el captulo xvi. E sta p ru e b a co m porta una
com paracin de las dos desviaciones e st n d a r de las m u estras.
Si Si y ss n o difieren m u ch o n o p o d r rechazarse la hiptesis de
que ai = a2- Si de acu erd o con los re su ltad o s de la p ru e b a F el
su p u esto de desviaciones est n d a r iguales es razonable, ser m s
eficaz aprovecharse de ello p a ra ap re c ia r el v alo r com n de o.
D ado el supuesto d e q u e las dos poblaciones sean norm ales, los
su p u esto s adicionales de m edias y desviaciones e st n d a r iguales
equivalen a so stener que las dos poblaciones son idnticas.
Como q u iera que estam os interesados e n sab e r si existe o no
alguna diferencia e n tre los dos tipos de distrito s, n u e stra h ip te
sis n u la ser la de q u e n o existe diferencia. P or lo visto, sospe
cham os que s existe diferencia, y p o r ello form ulam os u n a hip
tesis que deseam os descartar. E n este caso podem os designar
legtim am ente la hiptesis com o hiptesis "n u la, que n o indica
relacin e n tre las variables tip o de d is trito " y "preferencia elec
to ra l. Se concibe que hubiram os podido e sta r e n condiciones
de co n cretar que las m edias de la poblacin se esp era que sea
alguna co n stan te d istin ta de cero. As, p o r ejem plo, las hiptesis
pu d iero n h ab e r ad o p tad o la fo rm a de ^ p,a = 10, si se hubiera
an ticip ad o que la votacin en favor de los dem cratas sera un

10 % su p erio r e n los d istrito s u rb a n o s. S in em bargo, e n ciencias


sociales estam o s ra ra m e n te en condiciones de p o d e r co n cretar
tanto.
2. D istribucin de m uestreo. Nos servirem os de la distribucin
t, ya q u e las a no se conocen y q u e el n m ero to ta l de casos es
m uy in ferio r a 120.
3. N ivel de significacin. E scojam os el nivel de .01 y u n a p ru e
b a d e dos colas.
4. Clculo del estadstico de la prueba. Se re c o rd a r que la dis
trib u ci n t se calcula to m ando la diferencia e n tre el valor o b te
n id o de la m u e stra y la m edia de la d istrib u ci n de m u estreo , y
dividiendo e n tre u n a estim acin del e rro r e st n d a r d e e sta d istri
bucin. N os in te re sa aqu la diferencia e n tre las m edias de la
m u estra,
X 2. Como q uiera que la m ed ia d e la distribucin
de m u estreo es ^ |x2, obtenem os p a ra t la siguiente expresin:

en donde a j _ - g es u n a estim acin del e r ro r e st n d a r de la dife


re n cia e n tre las m edias de la s m u estras. Como q u iera que en la
hiptesis n u la se h a su p u esto que xj = _i2, la expresin p a ra t se
convierte, en este caso especial, e n

La sem ejanza e n tre el n u m era d o r a n te rio r y el que utilizam os en


la p ru e b a de u n a sola m u e stra es m s o m enos casual, o sea re
su ltad o del hecho de que, en la hiptesis nula, las j, se elim inaron.
Sin em bargo, no debe sacarse la conclusin de q u e la j. del p ri
m e r tip o de p ro b lem a se h a rem plazado sim plem ente p o r la
de la m u estra de la segunda de stas. E n realidad, la expresin
(X jX &) h a rem plazado a X , (ii~ i2) h a rem plazado a x, y
h a rem plazado a a - .
12
Nos fa lta a h o ra evaluar o-^

. Sabem os, p o r supuesto, que

Como q u iera que en este caso O = a2, podem os in d icar el valor


com n com o o, sacarlo del radical, y sim plificar la expresin
de
7 com o sigue:
la 2

o3

|N i + #2

=V^vT+ ~ 7 ~ ^ ~ K "T_aV

La varian cia com n o2 puede evaluarse ah o ra obteniendo u n a


apreciacin com binada de am bas m u estras. Como q u iera q u e las
dos variancias de las m u estras se b a sa r n p o r lo re g u lar en n
m eros distin to s d e casos, podem os o b ten er u n a apreciacin d e o2
to m an d o u n pro m edio p o n d erad o de las variancias de las m ues
tra s, poniendo cuidado e n dividir e n tre los grados propios de liber
tad , con o b jeto de conseguir u n a estim acin insesgada. E xtrayen
d o la raz cu ad rada, obtenem os la estim acin de o com o sigue:

a-

. I ^1S18 +

N 2 S 22

+ N2 - 2

_
P u esto q u e : Ar1s12 = 2 ( X a - X x )2, podrem os su s titu ir N 1s 12 p o r :
=i

2 Cu2, en donde

x it = X {1 X i.

Si hacem os lo m ism o p a r a iV2s22, obtenem os


Xnz + 2 xiSz
Nt + N2- 2
De este m odo, si tom am os la sum a de los cu ad rad o s alred ed o r
de la m edia de la p rim e ra m u e stra y sum am os a ella la su m a de
los cu ad rad o s de las desviaciones alre d ed o r de la m edia de la
segunda m u estra, dividiendo finalm ente e n tre N + N 2 2, o bte
nem os u n a estim acin com binada de la variancia com n.
O bsrvese q ue el sm bolo a se em plea a h o ra p a ra re p re se n ta r
u n a estim acin d istin ta de la que vim os en los captulos an te
riores. P ara in d icar u n a estim acin insesgada se em plea a m enu
d o en la lite ra tu ra estad stica el sm bolo A. Como q u iera q u e
hem os p erd id o 2 grados de lib ertad , u n o en cada clculo de sx y
s 2 a p a r tir de Xj y X, los grados to tales de lib ertad quedan en
jVjl AT2 2. P a ra o b ten er n u e stra estim acin, nos hem os servido

de am b as m u estras, d an d o u n m ayor peso a la variancia de la


m ayor de ellas. S em ejan te estim acin com binada ser m s eficaz
que las estim aciones b asa d as en u n a u o tra sola de las m u estras
en cuestin. A ttu lo de control del clculo, el valor num rico
de a se situ a r p o r lo re g u la r e n tre los de sx y s2.
F inalm ente, obtenem os u n a estim acin de a 2
tom ando nuestr a estim acin de a y m ultiplicando p o r

Nt + N2
com o en la
tfiiV2

ecuacin (X III.2 ). As:


A
! N lSl* +
N1+ N2
c . _ T. = i - -,
7
2
i AT-i + iVo 2 " N i N i

'

(X III.4 )

O bsrvese que la ecuacin ( X III.4 ) se diferencia de la ecuacin


(X III.2 ) en q ue el a de la ecuacin (X III.2 ) h a sido sustituido
p o r su estim ad o a, com o se define en la ecuacin (X III.3 ). En
este p u n to la f rm u la parece terrib le. S in em bargo, el lecto r de
b era re p a sa r los p aso s algebraicos exam inados anteriorm ente,
p a ra convencerse de que la f rm u la n o es ta n com plicada com o
a p rim e ra v ista parece.
E n n u estro ejem plo num rico obtenem os los siguientes resu l
tados :
_

_ = J (121) + 19 (-9 J L = ( 12.42) (.288) = 3.58


\
33 + 1 9 - 2
T 33(19)

P o r lo tan to ,
(X t X 2) 0 _ 5 7 - 5 2

358
O bsrvese q ue n u e stro estim ado a = 12.42 cae e n tre ^ = 11 y
s t ~ 14.
5.
Decisin. Com o q uiera que se utiliz u n a estim acin com bi
nad!! de la desviacin est n d a r com n, los grados de lib ertad
asociados t sern N, + N 2, o sea 50. E ncontram os que t =
1.40, cuya pro b ab ilidad sera considerablem ente su p erio r a .01 si
todos los supuestos lu cra n correctos. Decidim os, pues, no des
c a rta r la hiptesis nula al nivel de .01, y llegam os e n consecuen
cia a la conclusin de que no se dan diferencias electorales signi
ficativas en tre los d istrito s urbanos y ru rales del F a r W est.
Modelo 2:
a$. Vemos aliora cules m odificaciones resu ltan

necesarias cuando es im posible suponer que las dos poblaciones


p re sen tan las m ism as desviaciones estn d ar. P robablem ente h a
brem os verificado y d escartad o la hiptesis de <n = a2. E n conse
cuencia, ya no es posible a h o ra sim plificar la f rm u la cr-,
in tro d u cien d o u n v alor com n p a ra a, ni lo es tam poco fo rm a r
u n a estim acin com binada. E n sem ejan te caso, estim am os las
dos desviaciones e st n d a r (d is tin ta s) separadam ente. E stim am os
a p a r tir d e s12/(A r1 1), y a22/ N 2 so b re la base de s22/
(N 2 1), con lo que o b te n e m o s:
a

I s i2
s22
= 1 = i + J ri

E n el ejem plo em pleado an terio rm en te tenem os, p u es:


121/32 + 196/18 = V3.78 + 10.89 = ^ /1 4 7 = 3.83
Y p o r consiguiente,

57 52
= ------------= 1.31.
3.83

As, pues, los resultados obtenidos en los dos m odelos d istin to s


no difieren grandem ente.
Si b ien el p ro cedim iento em pleado e n el m odelo 2 es m s sen
cillo desd e los p u n to s de v ista lgico y de clculo a la vez, la
estim acin d e o - v n o es, con todo, ta n eficaz, en l, com o
1 2
la q u e se obtuvo an terio rm en te. P or o tra p arte , a u n si suponem os poblaciones norm ales, el m odelo 2 re su lta algo dudoso en
los casos en que las N n o son m uy grandes o en que los tam aos
de las m u e stra s d ifieren m u ch o u n a de o tra. La dificultad se hace
p re sen te al escoger el grado adecuado de lib ertad . As, p o r ejem
plo, si la p rim e ra m u e stra fu e ra excepcionalm ente pequea, sera
m uy falaz servirse de
+ N 2 2 com o grados de lib ertad , ya
q u e sx sera u n a estim acin m uy deficiente de o1( y a que el valor
de 5lV ( N i 1 ) sera p o r lo re g u lar m u ch o m ayor que el de
s 22 / ( N 2 1). E sto es c ie rto p o rq u e n o siendo m uy diferentes los
valores de Sj2 y 52, los tam aos relativos d e las dos fracciones
ven d rn fu n d am en talm en te determ inados p o r sus denom inadores.
S e h a sugerido que, a m enos que las N sean grandes, es p re fe ri
ble serv irse de la siguiente expresin p a ra o b ten er u n a aproxim a
cin de los grados co rrecto s de lib e rta d :
V a t.- i

( A

( i H

n,

&

iJ

(s~ n ) ,

E n esta fo rm a obtenem os en el ejem plo a n te rio r:


d f = "(3.78)*( 1/34) + (10.89)2(1720) ~ 2 = 33-89 ~ 2 = 3L89 ~ 32
Obsrvese que algunas de las m agnitudes de la f rm u la de los
grados d e lib e rta d ya se calcularan an terio rm en te. De la ta b la t,
sirvindonos de 32 grados de lib ertad , vem os que la hiptesis
n u la no d eb era d escartarse al nivel d e .0 1.
P o r lo q ue se re fiere a los supuestos, la n ica diferencia en tre
los m odelos 1 y 2 es el supuesto de que
or2. O bsrvese que
n ad a h ay en el segundo procedim iento que requiera que las des
viaciones e s t n d a r sean desiguales. Si o cu rre que son iguales
(o casi) el segundo m odelo ser sencillam ente el m s eficaz. Pa
re cer tal vez que el segundo p rocedim iento sea p referib le en
general, p o rq u e no req u iere el su puesto de cr, = a2. Sin em bargo,
segn acabam os de ver, este m odelo necesita aproxim aciones
p a r a los grados de lib ertad . E n el caso d e m u estras grandes, los
dos m todos p ro p o rcio n ar n p o r lo re g u lar re su ltad o s sim ilares,
si tas desviaciones estndar son efectivam ente iguales, ya que las
dos desviaciones e st n d a r de las m u estras sern, u n a y o tra, b u e
n as estim aciones d e la a com n.
Si se d a el caso d e q u e las a se conocen p a ra am bas poblacio
nes, entonces sus respectivos valores pueden po n erse directam en
te en la f rm u la de a - -- , y a que no se re q u ie re estim acin
i 2
alguna. P uede en este caso calcularse Z y u tilizarse el cuadro
norm al. Con las a conocidas, n o h a b r necesidad, p o r supuesto,
d e distin g u ir e n tre los m odelas 1 y 2. Es obvio, sin em bargo, que
los casos en que am bas <r sean conocidas sern extrem adam ente
ra ra s en la investigacin p rctica.
X III.2. Diferencia d e proporciones
Lo m ism o que en el caso de p ru e b as q u e co m p o rtan proporcio
nes de u n a sola m u estra, la diferencia e n tre dos proporciones
puede tra ta rs e com o caso p a rtic u la r d e la diferencia e n tre dos
m edias. Si com param os dos m u estras aleatorias, independientes,
en relacin con las proporciones de personas afectadas de p re
juicios, podem os fo rm u lar la hiptesis n u la de q u e las proporcio
nes
y p u, respectivam ente, de p erso n as con p rejuicios son igua
les en las dos poblaciones. Como q u iera que ya se dem ostr en
el caso de p roporciones que ai =
y a2 = \ / p %2q un, sguese
q u e las desviaciones e st n d a r de las dos poblaciones h an de ser
iguales. P or lo tan to , el siguiente ejem plo se sirve esencialm ente
de los m ism os procedim ientos em pleados en el p rim e r m odelo,
en el caso de la p ru e b a de diferencia de las m edias.

Problem a. Supngase que se establece u n a com paracin a p ro


p sito de los hbitos de recreacin e n tre trab a jad o res de lnea
de ensam ble y personas cuyo tra b a jo n o consiste en u n a m era
rep etici n ni se halla su jeto al ritm o de la m quina. Suponga
m os que el investigador sospecha que los trab a ja d o re s de lnea
d e ensam ble sern m s propensos a escoger form as de re cre a
cin del tipo de esp ectad o r "pasivo. E n u n a m u estra aleatoria
de 150 trab a jad o res de ensam ble en u n a determ in ad a fbrica se
en c u en tra que el 57 p o r ciento dan preferencia a las form as de re
creacin pasivas. E n u n a segunda m u estra, seleccionada asim is
m o al azar, el 46 p o r ciento de los trab a jad o res, sobre 120, indi
can tam b in p referencia p o r las form as de recreo pasivas. E xiste
al nivel de .05 diferencia significativa alguna en tre am bos grupos?
1. Supuestos.
N ivel de m edicin: el tipo de recreacin com o dicotom a
M odelo: m u estreo al azar independiente
H ip tesis: pUl = p n (im plica ax = as )
2. D istribucin d e m uestreo. Como q u iera que am bas N son
relativ am en te grandes, la distribucin de m u estreo de las dife
rencias e n tre las proporciones ser aproxim adam ente norm al, con
la m edia p n - p U2 = 0, y u n a desviacin e s t n d a r d e :

en donde qUl y q 2 son iguales, respectivam ente, a 1 p H y 1


3. N ivel de significacin y regin crtica. E l problem a especi
fica que hem os de servirnos del nivel .05. R esulta indicada u n a
p ru e b a de u n a sola cola, ya que la direccin de la diferencia se
anticipa. P o r consiguiente, cualquier v alo r positivo su p erio r a 1.65
in d icar que los resultados son ta n im probables, con dichos su
puestos, que la hiptesis n u la h a de descartarse.
4. Clculo d e la estadstica de la prueba. Como q uiera que p o r
hip tesis tenem os p n = p t,2, sguese que Gi = a2 = a, pudiendo em
p learse la f rm u la especial:
N i + N 2

A nteriorm ente, en la p ru e b a de proporciones de una sola m ues-

1 Si las muestras son pequeas, nos servimos de la prueba de Fisher, des


crita en el captulo xv.

tra , p u d o p re scin d irse de la estim acin de a, ya q u e el valor de


p u se supona. Ahora, en cam bio, la hiptesis en u n cia sim plem en
te que p Ul = p2, p e ro sin especificar, con todo, cul sea el valor
re al de estas p roporciones. sta es la razn de que necesitem os
u n a estim acin com binada del e r ro r e stn d a r. E n lu g ar de b u s
c a r u n p ro m ed io p onderado de las dos variancias d e las m u estras,
q u e es lo q u e hicim os antes, podem os o b ten er u n a estim acin
lig eram en te m en o r, calculando u n a estim acin com binada ( p u)
d e p u. E n co n tram o s luego qu p o r sustraccin. Ya q ue:
o ~\/PuQu
p odem os p o n e r

a = V PuQu

As, pues
A

A ,

*1 + N2

~ * J Ni

p* i - p*2

N tN 2

^|a

+ V

NiN.

(XIIL8)

Con o b jeto d e o b ten er p u, se to m a u n pro m ed io p o n d erad o de


las pro p o rcio n es de las m u estras de la m a n e ra sig u ie n te :
N i PH + N 2p S;

P* = --- nJT-TT
+ n t2----

(XIIL9)

O bsrvese q u e el n u m e ra d o r de esta expresin n o es m s que el


n m ero to ta l d e los individuos d e am bas m u estras q u e p refieren
fo rm as de recreaci n de tipo pasivo. As, en el caso de n u estro
ejem plo num rico, obtenem os:
a

Pu-

150( .57) + 120(.46)


= .521
150 + 120

P o r lo tan to , qu = 1 p u = .479
SPn-> .2 = V ( - 5 2 1 ) ( . 4 7 9 ) /

150 + 120
(150)(120)

= (.4996) (.1225) = .0612


Y de ah que
Z=

( P , - f t 2) - 0
.5 7 - .4 6
---------------= _ _ _ = 1.80

5. Decisin. Como quiera que con u n a p ru e b a de u n a sola cola


la p ro b ab ilid ad de o b ten er u n valor d e Z igual o m ayor que 1.80
es de .036, siem pre q u e la hiptesis n u la sea efectivam ente co
rrecta, podem os d e sc a rta r esta hiptesis al nivel de .05. Conclui
m os, pues, que existe u n a diferencia significativa en relacin con
la preferen cia de tipos de recreacin pasiva en tre las dos clases
de trab a jad o res d e la fb rica considerada.
H ay que m en cionar aqu que existen diversas clases a lte rn a ti
vas de p ru ebas, la m s im p o rtan te de las cuales es la de la 1 y_ al
cuadrado, que se exam inar en el captulo xv, que pueden u tili
za rse en lu g ar de la p ru e b a de la diferencia de las proporciones.
Com o q u iera que, e n efecto, el em pleo de la p ru e b a de la dife
ren cia de las proporciones est lim itado a dos m uestras y una
variab le dicotm ica, sta no re su lta ta n p r ctica com o la p ru eb a
% al cuadrado, que puede aplicarse lo m ism o a tres o m s m ues
tra s . Sin em bargo, u n a de las ventajas de la p ru e b a de la diferen
cia de las p roporciones es que, m ed ian te m odificaciones adecua
das, se la puede u tiliza r en el caso de m u estras de reas o p o r
conglom erados. D esafortunadam ente, las m odificaciones en cues
ti n n o tienen cabida en el m arco del p re sen te texto.
*
Diferencia de diferencias de proporciones. Podem os am p liar
fcilm ente el p rincipio de u n a p ru e b a p a ra u n a diferencia de p ro
porciones (o m ed ias) h a sta a b a rc a r u n a diferencia de d iferen
cias, o incluso u n a d iferencia de diferencias de diferencias. Su
pongam os, p o r ejem plo, q u e tenem os datos relativos ta n to a
trab a jad o res com o a trab a jad o ras, y que deseram os co m parar
los sexos en o rd en a la relacin e n tre los trab a jo s realizados
y las preferencias recreacionales. Tal vez encontraram os en el
caso de los h o m bres u n a diferencia ta l com o la que acaba
m o s de ilu strar, p e ro ninguna en el caso de las m ujeres. O tal
vez la direccin de la diferencia pu ed a re s u lta r co n tra ria e n tre
am bos sexos. A m pliando esta ilustracin podram os d esear agre
g ar el d ato relativo a las edades. E n tal caso puede concebirse
que ten d ram o s u n a diferencia de diferencias (e n tre h om bres y
m u je re s) en el caso de los trab a jad o res jvenes, y u n resu ltad o
d istin to p a ra los trab a jad o res adultos. P uede observarse q u e es
tam os an ticip an do problem as que ta l vez su rja n cuando m an eje
m os m s de dos variables, y cuando las diferentes variables pue
d an cau sar peculiares efectos com binados. En tales casos se
afirm a que hay "in teracci n e n tre las variables, o q u e sus efec
to s unidos son n o aditivos. E n los captulos xvi y xx tendrem os
o p o rtu n id ad de estu d ia r con m s d etalle estos tipos de posibili
dades.
E n el m uy sencillo ejem plo en el que deseam os co m p arar las
diferencias de proporciones e n tre h om bres y m ujeres, suponga
m os que p Ul y p 2 re p resen ta n las proporciones de poblacin p a ra
h om bres, com o en el a n te rio r ejem plo. T endrem os entonces dos

pro p o rcio n es sem ejantes, p U3 y p 4 q u e re p re se n ta r n las m u je


res, y p o d ram o s h ac er u n a p ru e b a sim ilar de la hiptesis nula,
ta l como, p a ra las m u je re s p3 A,4. P ero podem os p ro b a r asi
m ism o la h ip tesis m s com pleja de que las diferencias (d e p o
b laci n ) p a ra los sexos son tam b in idnticas. N u e stra hiptesis
n u la p asa as a se r
PH ~ P2 = Pus ~ PH

( pn - p u 2 ) - ( p a - p ui) = 0

E xp resad o de o tra m an era, estam o s sen tan d o la hiptesis de


que la relacin e n tre clase de tra b a jo y p referen cias recreativas
(m ed id a p o r u n a diferencia de p ro p o rcio n es), es igual p a ra am
bos sexos. U na hiptesis altern ativ a p o d ra co n sistir en que la
diferencia es m ay o r e n tre los h o m b res que e n tre las m u jeres.
Podem os u tiliz a r de nuevo el p rin cip io de las com binaciones
lineales, p lan tean d o
Y = c xp Sl + c2p S2 + csp ss + c 4p H
E n cu an to a la hiptesis n u la que estam os considerando, h a r e
m os c 1 = c 4 = 1 , y c2 = c8 = 1 , re su ltan d o (siem p re que se tra te
d e m u estras seleccionadas indep en d ien tem en te)
E ( Y ) = E ( p , 1 ) - E ( P '') - E ( p , 8 ) + E ( p H )=(pUl- p V2 ) - ( . p i,i- p ili)

y
P v xQux

g tt

P8<78

*4*74

~ Nn -----rr------ 1 t ------- 1-------- n


x 1--------N
z
Ns
N4

podem os ya fo rm a r Z, com o sig u e :


( P gl ~ P s2 ) ~ ( P s 3 ~ P H )

Pv,-flnx P2^,2 Pg?3 P4^f4


\ ---------- ------------ ----------- - H---------- Nx
N2
Ns
N4
y u s a r el cuadro- n o rm al e n fo rm a directa. Como el denom inador
contiene las incgnitas p u. y qu., podem os estim rselas m ediante
las corresp o n d ientes p 8. y qs., fija n d o conservadoram ente cada
g ru p o com o igual a .5.
Es im p o rtan te a d v e rtir que la expresin p a ra la variancia de Y
com prende c u a tro N t diferentes, las que aparecen com o denom i
n ad o res en fracciones separadas. Com o q u iera q u e los p ro d u cto s
paiqi se en c u e n tra n n o rm alm en te cerca del v alor .25, verem os

que el v alo r de cada fraccin ser p rim o rd ialm en te fu n d n del


tam a o de la su b m u estra. E n u n te rre n o prctico, si hay u n a subm u e stra m uy pequea, sta puede d o m in ar la expresin co rres
p o n d ien te a la variancia de Y , y p o r ta n to tam b in al denom ina
d o r d e Z. De esta m an era, y p a ra lo g rar u n m xim o de eficacia,
desearem os u s a r su b m u estras del m ism o tam a o aproxim ado. Si
u n a su b m u estra es m uy pequea, p o d r n o re s u lta r significativa
la p ru e b a an terio r, p o r raz n de se r g ra n d e el d enom inador de Z,
re su ltan d o ad em s in ju stifica d a la aproxim acin norm al.
P uede seguirse exactam ente el m ism o pro ced im ien to e n relar
cin con las diferencias e n tre las m edias, p o r ejem plo ( X x X 2)
( X 3 X 4). H abrem os sin em bargo de ap lazar este asu n to h asta
q ue e n el captulo xvi abordem os las com paraciones generales en
tre k m edias.
X III.3. In terva lo s de confianza
E n el caso de p ro b lem as de u n a sola m u estra, ya vim os que la
con stru cci n de u n in terv alo de confianza constituye a m enudo
u n p ro ced im ien to m s p r ctico que la verificacin de las h ip te
sis. E n la investigacin social, sin em bargo, los intervalos de con
fianza ra ra m e n te se em plean com o altern ativ as de p ru e b as de
dos m u estras. La raz n de ello re sid e en que nos in te re sa p o r lo
re g u la r estab lecer la existencia de u n a relaci n e n tre dos varia
bles, esto es, de u n a d iferencia significativa. E n ta n to que in tere sa
m enos, en cam bio, la m ag n itu d efectiva de la diferencia en cues
tin. E l socilogo, en efecto, ra ra m e n te t r a ta de sac ar la conclu
sin d e que la d iferencia e n tre dos m edias se sit a e n tre 17 y 28,
p o r ejem plo. P o r lo regular, se da p o r satisfecho si e n c u e n tra
alguna diferencia significativa cualquiera. E ste hecho revela in
d u d ab lem en te la fa lta de m adurez de las ciencias sociales y la
p rep o n d eran cia de los estudios exploratorios. Es posible que, a
m ed id a que las hiptesis se vayan haciendo m s precisas, aum en
te tam b in la n ecesidad de los intervalos de confianza e n los p ro
blem as de dos m u estras.
E l pro ced im ien to em pleado p a ra el establecim iento de in terv a
los de confianza es u n a extensin d irec ta del que se exam in an
terio rm en te. Se to m an sim plem ente los re su ltad o s de las m ues
tra s, en este caso u n a d iferencia e n tre su s m edias, y se sit a un
in terv alo alre d ed o r de X t X, que sea u n m ltip lo adecuado del
e rro r e st n d a r. As, p o r ejem plo, si se deseaba u n intervalo de
confianza del 95 p o r ciento, lo o b ten d ram o s com o sigue:

Si se re q u irie ra u n a estim acin del e rro r e st n d a r y de la distri


bucin t, la f rm u la se m odificara de la m an era usual.
X III.4. M uestras dependientes: pares asociados
E n ocasiones re su lta ventajoso concebir u n estu d io e n el que las
m u estras no sean independientes u n a de o tra. Uno de los tipos
m s com unes de los problem as de esta clase es aquel en que los
casos de las dos m u estras se h a n asociado p o r pares. Puede h a
b e r grupos de control y grupos experim entales, en los que los
m iem bros se h ayan apareado desde el p u n to de vista de algunas
caractersticas im portantes. O puede em plearse u n sim ple esque
m a "antes y despus, en el que las m ism as p ersonas se com paran
antes y despus de haberse intro d u cid o alguna variable experi
m ental. E n este ltim o caso, las "d o s m u estras constan de los
m ism os individuos. Es obvio que sem ejantes m u estras n o son in
dependientes u n a de otra. E n efecto, el conocim iento de las m arcas
de los p rim eros m iem bros de cada p a r (p rim e ra m u e stra ) ayuda
ra a p red ecir las de los segundos. De hecho, el objeto del aparea
m iento, o de servirse dos veces de los m ism os individuos, con
siste en c o n tro la r las m s variables posibles, a p a rte de la ex
perim en tal. Se persigue h acer las dos m u estras lo m s iguales
posibles, o sea m ucho m s que si se h u b ieran seleccionado inde
pendientem ente.
E n relacin con sem ejantes problem as, el investigador podra
verse ten tad o a u sa r u n a p ru e b a de diferencia de las m edias. Sin
em bargo, h a b ra de ser obvio que este procedim iento n o estara
justificado, ya que no tenem os 2N casos (N en cada m u e stra ) que
se hayan seleccionado independientem ente. Como q u iera que, en
efecto, las m u estras se h an apareado deliberadam ente, cualesq u ier peculiaridades de las m u estras se d arn probablem ente lo
m ism o en la o tra. E n realidad, slo se tienen N casos indepen
dientes, siendo cada "caso" u n par de individuos, u n o de cada uno
de las m u estras. P or consiguiente, si trata m o s cada p a re ja de
individuos, com o u n solo caso, podem os legtim am ente proceder
a efectu ar p ru eb as estadsticas, a condicin que se cum plan los
dem s supuestos requeridos. E n lu g ar de efectu ar u n a pru eb a de
diferencia de las m edias, podem os p ro ced er p o r com paracin
directa p o r pares, obteniendo u n a m arca de diferencia p a ra cada
par. Si nos servim os de la hiptesis nula de que n o existe difer e n d a alguna e n tre las dos poblaciones, suponiendo as que la
variable experim ental no- produce efecto alguno, podem os esta
blecer sim plem ente la hiptesis de que la m edia de las diferencias
p o r p ares (xfl) es cero. El problem a se reduce as a u n a verifica
cin de u n a sola m u estra de la hiptesis u0 = 0.
Problema. Supngase que u n grupo de accin se propone in
flu ir a los electores urbanos p a ra que voten en favor de unas

p ro p u e sta s de viviendas populares en las prxim as elecciones. Se


ap a rea n cuidadosam ente las ciudades del E stad o en relacin con
variables que se suponen se r significativas, y se em plean dos
m todos d istin to s de e je rc e r influencias so b re los electores. E l m
to d o del g rupo A co m p o rta u n procedim iento in d irecto co nsistente
en in flu ir sobre los elem entos directivos de las ciudades, p ero
sin ap e la r d irectam en te a la m asa. E n las ciudades del g ru p o B ,
en cam bio, la organizacin act a com o g ru p o de presin, ape
lando, com o organizacin ajena, d irec tam en te al elector. Las ci
fras siguientes in dican los p o rc en tajes de votos en favor de la
fluorizacin. E s uno de los m todos su p erio r al o tro ?
Nm. del par

Grupo A, %

Grupo.B, %

1
2
3
4
5
6
7
8
9
10
11
12
13

63
41
54
71
39
44
67
56
46
37
61
68
51

68
49
53
75
49
41
75
58
52
49
55
69
57

Diferencia, %
5

8
- 1
4
10
- 3
8
2
6
12
6
1
6
52

1. S u p u esto s
N ivel de m edicin: El p o rc en taje de los votos es u n a escala
de intervalo
M odelo: muestreo- aleatorio
diferencias de poblacin d istrib u id as n o rm alm en te
H ip te s is : [xD = 0.
H ay q ue su p o n er que los p ares que fig u ran en las m u e stra s
h an sid o seleccionados al azar de alguna poblacin de p ares.
Como se ver m s abajo, este supuesto p lan tea algunas veces u n
p ro b lem a difcil de in terp retaci n . Como q u iera que son las dife
ren cias de cada p a r las que nos in teresan directam ente, hay q u e
su p o n er que la poblacin de todas las diferencias posibles est
d istrib u id a n o rm alm ente. Si N fu e ra grande, p o d ra p re sc in d irse
de este supuesto.
2. D istribucin de m uestreo. Como q u iera que n o se d a la- des
viacin e s t n d a r de las diferencias de la poblacin, hay que r o

c u rrir a la distrib ucin t, con N 1, o sean 12 grados de libertad.


O bsrvese que stos re p resen ta n la m ita d de los grados de liber
ta d que se h ab ra n utilizado si la p ru e b a de la diferencia de las
m edias ( con ai = o2) h u b iera sido posible.
3. N ivel de significado y regin crtica. Sirvm onos del nivel
d e .05 y de u n a p ru e b a de dos colas. P or consiguiente, con 12
grados de lib ertad , si t ^ 2.179, descartarem os la hiptesis nula.
4. Clculo de la estadstica de la prueba. P rim ero hallam os la
m edia de las diferencias de la m u estra sum ando las de la colum
n a de diferencias y dividiendo en tre N( = 13). Se obtiene adem s
la desviacin e st n d a r de la m u estra de las diferencias.
X D = 52/13 = 4.0

P o r consiguiente:
Xj) |A/>
sd /

\/N - 1

4.0 0

= 2.76

5 .0 2 3 y l2

O bsrvese que u n a vez que se h a obtenido la colum na de dife


rencia, dejam os de p re s ta r atencin a las re sta n te s colum nas.
E ste m ism o p rin cipio es de aplicacin en situaciones m s com
plejas, en las que p o r ejem plo podem os te n e r u n a diferencia de
diferencias p o r cada par. (V er ejercicio 5.)
5.
Decisin. Con 12 grados de lib ertad , u n a p ro babilidad de .02
corresponde a u n a t de 2.681. Decidim os, e n consecuencia, des
c a rta r la hiptesis n u la y, observando la direccin de la diferen
cia, concluim os que el m todo1 B es su p erio r al A.
X III.5. C om entarios a propsito de los esquem as experim entales
y pruebas de significacin
Pese a que no sea posible p ro fu n d izar m ucho en u n texto com o
ste en cuestiones de la planificacin de experim entos, unos b r e
ves com entarios tienen con todo aqu su lu g ar adecuado .2 El lec
to r po d r acaso hab erse p reg u n tad o a s m ism o cm o sea que
preferam os siem pre servirnos de m u estras asociadas, en lugar de
m u estras independientes. Indudablem ente, se p ierd e n con aqu-

s Para ms detalles acerca de los esquemas experimentales, vase cual


quier texto corriente sobre mtodos de investigacin. Vase en particular
[8], captulo iv.

lias algunos grados de lib ertad y, com o q u iera que el em pleo de


las m u estras asociadas im plica p a r tir los casos p o r la m ita d (e n
relacin con la p ru e b a ), es que n o se p ierd e m s, con ello, de lo
que se gana? Todo esto depende de cun acertados estem os en
el apaream ien to de los casos. P or supuesto, el o b jeto d e la aso
ciacin e st en re d u cir las diferencias debidas a variables extre
m as. E sto significa que u n ap aream ien to cuidadoso debera re
d u cir considerablem ente cad a u n a de las diferencias p o r pares.
E n o tro s trm in o s: cu an to m e jo r sea el ap aream iento, tan to
m en o r ser la desviacin e st n d a r de las diferencias. As, pues,
si bien el n m ero de casos se reduce, la sD debera re d u cirse asi
m ism o. Si se obtiene u n a fu e rte reduccin de la desviacin estn
d a r de las diferencias en relacin con la p rd id a de casos, enton
ces salim os ganando al a p a rea r. Como q u iera que, p o r lo regular
se p e rd e r n casos en los procedim ientos de apaream iento (vase
infra), la conclusin lgica es la siguiente: n o se apareje, a m e
nos de e s ta r co m pletam ente seguro de h a b e r localizado las varia
bles significativas im p o rtan tes. Si el le c to r e st estu d ian d o la
delincuencia y ap area conform e al color del pelo, se v er p ro b a
b lem en te m s ap u rad o que si n o a p a re a ra en absoluto.
Los textos sobre m todos suelen p o r lo re g u la r m encionar el
hecho de q ue es p ro b ab le q u e con el procedim iento de ap a rea
m ien to se p erd er u n n m ero considerable d e casos. O sea que
h a b r que elim inar m uchos casos, p o rq u e n o hay casos sim ilares
con los que se d ejen a p a rea r. S em ejante reduccin p u ed e resu l
ta r d esastro sa en el caso del supuesto de la m u estra aleatoria.
E n efecto, u n socilogo puede eventualm ente p a r tir de u n a m ues
tr a aleato ria de 1 000 casos y te rm in a r con 200 que se dejen
ap arear. Al p ro ced er as, es pro b ab le que se sesgue fu ertem en te
su m u estra final, elim inando la m ayora de los casos m s ex tre
m os o poco com unes, difciles, efectivam ente, de ap arear. E n esta
fo rm a re su lta a m enudo difcil d eterm in a r el c a r c te r de la po
blacin a cuyo p ro p sito se est generalizando. P or ello hay que
p ro c ed er con la m ayor p ru d en cia al generalizar los resultados.
P o r lo tan to , este tipo de esquem a es p ro b ab lem en te m s til en
estu dio s en que el in ters p o r generalizar resp ecto de u n a pobla
cin fin ita concreta, tal com o la de los blancos nativos en Chica
go, es secundario.
E n conexin con sem ejan te reduccin de casos y las dificulta
des en cu an to a generalizar a u n a poblacin concreta, se sostiene
a m enudo q ue no hay verd ad ero in ters en la poblacin misma*
ya q ue el o b jeto fu n d am en tal del investigador consiste e n esta
b lecer "relaciones e n tre variab les. As, p o r ejem plo, u n psiclo
go p u ed e acaso em pezar sirvindose d e aquellos novatos varones
b lancos que siguen u n cu rso de in troduccin a la psicologa y se
p re s ta n v o lu n tariam en te com o sujetos de estudio. Puede p ro d u
cirse m ay o r m u estreo todava, a m edida q u e algunos sujetos se

van elim in an d o en el proceso de apaream iento. Supngase q u e


se en c u en tra entonces u n a relacin e n tre la v ariab le experim en
tal y alguna variable dependiente. Se prop en d er, en este caso,
a sacar la conclusin que la m ism a relacin su b sistira indepen
dientem ente de la poblacin estudiada, esto es, concluir que se
tra ta de u n a relacin universal. Si ello re su lta efectivam ente ser
as, el socilogo puede m uy bien a firm a r que no tien e in ter s
alguno p o r ex ten d er la generalizacin a cierta poblacin fin ita
cualquiera. Pero, sobre cul base puede su p o n er que la relacin
hallad a en u n a poblacin ta n re strin g id a es c ie rta asim ism o en
relacin con o tra s poblaciones? O bviam ente, antes de p o d er h acer
legtim am ente sem ejan te afirm acin, el experim ento h a de efec
tu arse sobre u n gran n m ero de poblaciones m uy distintas. Pese
a que en u n experim ento' cuidadosam ente d ispuesto se p u ed e
o b ten er el co ntrol de cierto n m ero de variables, p rodcese casi
siem pre u n a p rd id a co rresp o n d ien te del grado en que los resul
tados se pued en generalizar a poblaciones m s extensas.
E n el ag ru pam iento p o r p ares re su lta indicado seleccionar al
azar en el in te rio r de cada p a r echando u n a m oneda al aire p a ra
decidir cul m iem b ro del p a r deba asignarse al g ru p o experim en
tal y cul al g rupo de control. S em ejante p rocedim iento confiere
m ay o r contenido lgico a la in terp re taci n de los resultados, en
el sentido de que cabe excluir la autoseleccin. As, p o r ejem plo,
en el in ten to de in flu ir sobre los electores en m a te ria de vivienda
p op u lar, supngase que se p erm ita a las au to rid ad es locales ele
gir aquel de los dos tipos de influencia que p re fera n o q u e
crean ib a a re s u lta r m s eficaz en su localidad p artic u la r. Es
posible, en estas condiciones, que todas o- la m ayora de las lo
calidades con cierto tipo de au to rid ad es fu e ran objeto' del m to
do' indirecto, en ta n to que las de o tro tipo' de dirigentes se veran
tra ta d a s p o r el m todo directo. Tendram os as u n a variable in
co n tro lad a (el tipo de au to rid a d es), cuyos efectos se confundiran
irrem ed iab lem ente con los de la variable experim ental. Concre
tam ente, supngase que el g rupo B re su ltab a te n e r el p o rc e n ta je
m s elevado de votos favorables, pero que al p ro p io tiem po dicho
grupo ten a las autoridades m s dem ocrticas, debido al hecho
que stas ten dan a favorecer la aplicacin a sus respectivas lo
calidades del m todo indirecto. Cm o podram os sab e r si la di
ferencia en la votacin se deba efectivam ente a la superioridad
del m todo B y no, acaso, a las diferencias e n tre las au to rid ad es
de los dos grupos de localidades?
Podra alegarse que el tipo de au to rid ad es h u b o de h ab erse con
tro lad o en el proceso de apaream iento, de m odo que dos locali
dades de u no cualquiera de los pares tuviera el m ism o tipo. Sin
em bargo, es obviam ente im posible c o n tro la r en el proceso de
ap aream ien to todas las variables operantes, no slo debido a difi
cultades prcticas, sino a causa de n u estro s conocim ientos lim i

tad o s acerca de cules variables son efectivam ente las m s im


p o rtan te s. En algn pu n to habrem os de a d m itir que puede
h ab e r variables im p o rtan tes, m uchas de las cuales el investigador
n o conoce y q u e n o se h an controlado en el proceso de ap a rea
m iento. Y es p recisam ente en dicho m om ento cuando confiam os
en la seleccin al azar, o sea en las leyes de la probabilidad, espe
ra n d o que los efectos d e las variables incontroladas se h ab rn
neu tralizad o m u tu am ente. As, p o r ejem plo, con una N m ayscula,
esperam os que, en nm eros redondos, la m ita d de las localidades
de auto rid ad es m s dem ocrticas h a b r n quedado en el g ru p o A,
y la o tra m ita d en el grupo B. Y lo m ism o acontecer con o tras
variables incontroladas.
E n los esquem as experim entales ex p o st facto, en las que el
investigador slo e n tra en funcin despus de h ab erse efectuado
el experim ento y en las que, p o r lo tan to , n o h a tenido o p o rtu n i
dad de efectu ar tales asignaciones al azar, la posibilidad de autoseleccin n u n ca puede descartarse. Ni nos ayudan las leyes de las
pro babilidades a a p reciar los efectos de la variable experim ental
e n com paracin con los efectos posibles de variables resp ecto de
las cuales los grupos n o se h an apareado. Una de las m ayores
v en tajas de los experim entos de la b o ra to rio sobre los llam ados
" n a tu ra le s, o ex p o st faci, est p recisam en te en ese control al
azar de la autoseleccin posible.
Sugirense a m enudo o tro s m todos de asociacin de m uestras,
a ttu lo de altern ativ as del m todo p o r p ares. P o r lo regular, ta
les m todos altern ativos p re sen tan la v en taja de a te n u a r la re
duccin de los casos, p e ro conducen a dificultades cuando* se llega
al anlisis estadstico. Uno de dichos m todos co m porta la aso
ciacin p o r d istrib uciones de frecuencia. As, p o r ejem plo, puede
p o nerse atencin en que los dos grupos sean sim ilares en relacin
con el ingreso m edio, la edad m edia, la distribucin general del
ingreso, etctera. E n esta form a, los grupos re su ltan com pa
rab les en relacin con dichas m edidas de resum en, aunque algn
individuo no tenga en el o tro grupo c o n tra p a rtid a exacta alguna
con la que se lo p u ed a ap a rea r. E n ese tip o de esquem a violam os
claram en te u n a vez m s el supuesto de in d ep en d en cia; pero, que
el a u to r sepa, n o existe m odo sim ple alguno de servirse de u n a
p ru e b a estad stica que sea a la vez eficaz y no com porte algn
supuesto en entredicho. Se po d ran a p a re a r casos lo m ejo r posi
b le y p ro ced er com o acaba de indicarse, pero el apaream iento
co nducir in dudablem ente a u n esquem a inoperante. Sin duda, no
sera legtim o servirse de u n a pru eb a de diferencia d e m edias de
N x + N 2 2 grados de libertad.
Pruebas de significacin y generalizaciones a poblaciones. Se ha
su scitad o un amplio' d ebate en la bibliografa sociolgica en re la
cin con la adecuacin de las pru eb as de significacin en aquellas

ocasiones e n q ue u n o tr a ta con la poblacin n teg ra. (V er espe


cialm ente [3 ], [7 ], [9 ] y [10].) Puede, p o r ejem plo, co n tarse con
dato s corresp o ndientes a todos los condados o estados de los
E stados Unidos o de u n a regin en p artic u la r. Si as ocurre, no
h a b r u n a poblacin m s extensa en relacin con la cual se desee
generalizar, p u d ien d o ser difcil concebir el p roceso de generali
zacin in volucrando u n a extrapolacin a u n universo m s am plio
de p ro b abilidades, o a estos m ism os casos b a jo circunstancias
anlogas. E n este caso re su lta ra n inadecuadas las p ru e b as de
significacin, y a que n o h a b ra m plicito ningn e rro r en el
m uestreo.
La a c titu d que u n o adopte en esta cuestin depende en p rim er
lu g ar de si est satisfecho con generalizaciones a poblaciones fijas,
o si desea sac ar conclusiones acerca del proceso causal que pue
den h ab e r generado los datos de poblacin. E n este texto hem os
conceptualizado el p ro b lem a com o si n u e stro nico objetivo fuese
el de deducir p artie n d o de poblaciones fijas, p e ro es evidente que
cuando deseam os relacionar n u estro s hallazgos con anlisis te
ricos n u estro s objetivos no son n u n ca ta n sencillos. El problem a
d e sac ar deducciones causales p a rtie n d o de dato s n o experim en
tales, basados b ien sea en m u estreo s o en la to talid a d de las p o
blaciones, es dem asiado com plicado p a ra su exam en en u n texto
elem ental com o ste. Sin em bargo, h ay u n procedim iento p a ra
o b ten er las p ru e b as de significacin m ucho m s com patible con
las explicaciones tericas en lo que se refiere a p o r qu se h a
h allado u n a relacin p artic u la r.
Supongam os, p o r ejem plo, que, hab ien d o u sad o la to talid a d de
los 50 estados, hem os hallad o u n a diferencia e n tre los del n o rte
y los del sur, o b ien en tre los que tienen gobernadores republi
canos o d em cratas. N orm alm ente n o nos conform aram os con
h acer u n a sim ple descripcin de tales diferencias, sino que que
rram o s o frece r u n a explicacin, relacionada ta l vez con las dife
ren cias regionales o polticas. A dm itam os que hem os advertido
q u e los estad o s del su r gastan u n a p ro p o rci n relativam ente m a
y o r de su s p resu p u esto s en su p ercarretera s, p e ro m en o r en edu
cacin su p erior. A ntes de q u e podam os h ac er declaraciones acer
ca de que n u e s tra explicacin deber o rien ta rse a b u sc a r factores
causales d eterm in an tes de esta diferencia regional, habrem os de
p en sa r en u n escptico hipottico que establezca el planteam ien
to de u n a sencilla explicacin altern ativ a de n u e stro hallazgo,
a sab e r: la causalidad".
Podra, en efecto, d ecirnos: "A firm a u sted que h a encontrado
u n a diferencia achacable a ca ractersticas regionales. Yo podra
h ab e r utilizado u n a tabla de n m eros al azar p a ra dividir los 50 es
tados. O bien, p o d ra haberlos o rd en ad o alfabticam ente con base
e n la te rc era le tra de sus nom bres. Si yo pudiese p ro b a r que tal
proceso, b asad o o casi basad o en el azar, h u b iera p ro d u cid o u n a

diferencia ta n g ran d e o m ay o r que la suya, re su lta ra que su ex


plicacin n o e ra m s plausible que la m a.
O bsrvese que aqu n o se h ab la de u n a generalizacin a una
poblacin m ay o r que la to ta l de los 50 estados. El argum ento gira
a lre d ed o r de los procesos que pueden h a b e r generado diferencias
e n tre subpoblaciones o rdenadas de d istin tas m aneras. Es eviden
te q ue si h ubiese sido posible o b ten er diferencias ta n grandes
com o las diferencias regionales al h acer uso de u n a ta b la de n
m ero s elegidos al azar, y siendo la teora del escptico m ucho
m s sim ple que la n u estra , n o te n d ra o b je to ad e n trarse m s en
ios datos. Si adoptam os este p u n to de v ista en relacin con el
p ro ceso de la generalizacin, tiene sentido el h ac er p ru e b as de
significacin, incluso cuando se cuente con datos correspondien
tes a la to talid a d de la poblacin. P arecera com o si la m ayora
de los socilogos tu v iera p re sen te este m s am plio objetivo,
o rien tn d o se a d ecir algo acerca de los procesos causales, y p o r
ello p la n te a ra n p ru e b as dirigidas a elim in ar la altern ativ a del
sim ple proceso casu al. Sin em bargo, debe in sistirse que la
p ru e b a de significacin n o excluye m uchas o tra s clases de expli
caciones altern ativas, ta l com o la que, p o r ejem plo, in tro d u ce
v ariab les adicionales com o causas com unes de las dos variables
b a jo estudio. E n el cap tu lo xix volverem os a este, m s dificulto
so, problem a.
E je r c ic io s

/. Se seleccionan al azar 50 distritos electorales en una ciudad. Se en


cuentra que 20 de ellos estn atendidos por centros de la localidad,
en tanto que los restantes no lo estn. Se comparan los porcentajes de
delincuencia en esos dos tipos de distritos y se obtienen los siguientes
datos (que se indican en el nm ero de delincuentes por 1000 adoles
centes ):
Medida
Magnitud de la m uestra
Media
Desviacin estndar(es)

Con centro

Sin centro

20
27
6

30
31
8

Efectese una prueba de significacin de la diferencia entre los dos


tipos de distritos (nivel de .0 1), sirvindose a) del modelo 1 , y b) del
modelo 2. Cmo se presentan unos respecto de otros los resultados?
Respuesta, a) t = 1.87; no rechazo.
2. Una m uestra al azar de mujeres casadas que siguen viviendo con
sus m aridos ha sido objeto de seleccin, clasificndose a las mujeres
en ''satisfechas o "insatisfechas con sus respectivas vidas maritales.
Se comparan luego los dos grupos de mujeres en relacin con el tiem
po de sus matrimonios, con los siguientes resultados:

Tiempo del matrimonio


(redondeado al ao)

Satisfechas
fi

Insatisfechas
^2

0-2
3-4
5-9
10-14
15-19
20-39

34
41
50
39
18
15

10
16
23
25
14
16

197

104

Total

Existe alguna diferencia significativa entre estos dos grupos al ni


vel de .01?
5. Supngase que se espera encontrar que la diferencia entre los in
gresos medios anuales de m uestras de mdicos y dentistas sea de unos
$500 (esto es, X t X 2 = 500). Se aprecia que las desviaciones estn
dar son respectivamente de $ 1 900 y $ 1 600. Se planea seleccionar en
la m uestra total el mismo nmero de mdicos que de dentistas. Cun
tos casos se necesitarn para establecer significacin entre los ingre
sos medios de doctores y dentistas al nivel de .05? Supngase que se
quiere tom ar un nm ero doble de mdicos que de dentistas. Cuntos
casos se necesitarn en este ltim o supuesto? Respuesta, .95 de cada
uno.
4. Se ha clasificado una m uestra aleatoria de estudiantes universi
tarios como "dirigidos por otros y "dirigidos por s mismos. Se en
cuentra que el 58 por ciento de los alumnos avanzados son dirigidos
por otros, en tanto que pertenece a esta categora el 73 por ciento de
los alumnos novatos. En la m uestra total figuran 117 alumnos avan
zados y 171 alumnos novatos. Es esta diferencia significativa al nivel
de .001?
* 5. Supngase que se ha dispuesto un experimento de antes y
despus con grupo de control. En otros trm inos: se han relacio
nado dos grupos por pares y se han tom ado medidas de ambos grupos

Par
A
B
C
D
E
F
G
H
I
J

Grupo de control
---------------------------Antes
Despus
72
61
48
55
81
50
42
64
77
69

75
60
37
64
76
59
49
55
75
78

Grupo experimental
--------------------------Antes
Despus
66
61
43
55
76
52
40
65
67
64

77
65
49
53
91
68
51
74
79
63

antes y despus del experimento. Emplese la prueba t en relacin


con la efectividad de la variable experim ental: a) sirvindose solamen
te de las m arcas de despus" e ignorando las de antes ; b) emplean
do las m arcas "antes y despus en el grupo experimental nica
mente, y e ) utilizando los cuatro juegos de marcas. (Indicacin: Cmo
pueden emplearse las cuatro m arcas para descartar los efectos sobre
la variable experimental de factores ajenos susceptibles de haber afec
tado ambos grupos? Comprense las ventajas y los inconvenientes de
los mtodos a) y b). Cules son las ventajas de c) respecto de a) y
b)7 Respuesta, a) t = 1.25, sin rechazo.
*
6. En el cuadro XV.4 del captulo xv se encontrarn algunos datos
relacionando las puntuaciones que los nios reciben por su habilidad,
esfuerzo y clase social.
a) Teniendo en cuenta tan slo la clase media, hgase una prueba
para ver si la relacin entre esfuerzo y grado vara segn el nivel de
habilidad del estudiante.
b) Amplese esta prueba para ver si la "interaccin probada median
te a ) difiere segn sea la clase social del estudiante.
Nota: En realidad, en b) se estar buscando una interaccin de una
interaccin, o lo que se denomina una interaccin de segundo orden.
B iblio g rafa

1. Alder, H. L., y E. B. Roessler: Introduction to Probability and


Statistics, 4? ed., W. H. Freeman and Company, San Francisco,
1968, caps. 8 y 10.
2. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incoiporated, Nueva York, 1965,
caps. 11 y 12.
3. Gold, David: Statistical Tests and Substantive Significance",
American Socialogist, Vol. 4 pp. 42-46, 1969.
4. Goodman, L. A.: Modifications of the Dom-Stouffer-Tibbetts Me
thods for Testing the Significance of Comparisons in Sociological D a ta ', American Journal of Sociology, Vol. 66, pp. 355-359,
1961.
5. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 19.
6. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 10.
7. Kish, Leslie: Sootne Statistical Problema in Research Design",
American Sociological Review, Vol. 24, pp. 328-338, 1959.
8. Selltiz, C., M. Jahoda, M. Deutseh y S. W. Cook: Research Me
thods in Social Retations, Henry Holt and Company, Inc., Nueva
York, 1959, cap. 4.
9. Selvin, H. C "A Critique of Tests of Significance in Survey Re
search", American Sociological Review, Vol. 22, pp. 519-527, 1957.
10. Winch, R. F., y D. T. Campbell: Proof? No. Evidenee? Yes. The
Significance of Tests of Significance", American Sociologist, Vol.
4, pp. 140-143, 1969.

X IV . ESCALAS O R D IN A L E S : PR U E B A S NO
PA R A M TR IC A S D E DOS M U E ST R A S
H a s t a aq u n o hem os tenido ocasin de exam inar pru eb as de sig
nificacin que co m p o rtaran escalas ordinales, p ese a h a b e r sea
lado en el captulo n que stas son m uy frecuentes en ciencias
sociales. E n el p resen te captulo vam os a ocuparnos de pruebas
de dos m u estras que pueden em plearse con escalas ordinales,
p ru eb as com parables d irectam ente con las que co m p o rtan dife
rencias de m edias y proporciones, tales com o las vim os en el ca
p tu lo an terio r. P o r lo tan to , las pru eb as exam inadas en este
captulo pued en em plearse p a ra relacio n ar variables de escala o r
dinal con las que co m portan u n a escala nom inal dicotm ica. E n
los captulos sucesivos verem os luego pru eb as que p erm iten re
lacionar u n a escala o rdinal con u n a escala nom inal de cualquier
n m ero de categoras o con o tra escala ordinal.
Las p ru e b as que se exam inan en el p re sen te cap tu lo se desig
n an a m en u d o com o no param tricas, o com o p ru e b as libres de
distribucin, p o r cu an to no re q u ie ren el su puesto de u n a pobla
cin norm al. E n realidad, ta n to u n trm ino com o el o tro son algo
equvocos. o querem os significar, en efecto, que com portan dis
tribuciones las p ru e b as que n o tienen p arm etro s. Ni puede es
ta r u n a p oblacin libre d istribucin''. De hecho, am bos trm i
nos se em plean p a ra designar u n a v asta categora d e pruebas
que n o re q u ie ren el su puesto de n o rm alid ad n i algn o tro supues
to que especifique la fo rm a exacta de la poblacin. Sin duda, en
todas las p ru e b as n o p aram trica s se req u ieren algunos supues
tos acerca de la n aturaleza de la poblacin, p ero p o r lo general,
con todo, dichos supuestos son m s dbiles y m enos restrictiv o s
q u e los que n ecesitan las p ru e b as param tricas. P o r lo dem s, ya
nos hem os en c o n trad o con algunas p ru eb as n o param tricas. As,
p o r ejem plo, la p ru e b a binom ial, la del signo y la de diferencia
de p roporciones n o req u ieren el su p u esto de norm alidad, ya que
todas ellas se refiere n a escalas nom inales dicotm icas. A dife
ren cia de estas p ru e b as no p aram trica s p artic u la res, aquellas de
las que nos ocupam os en este captulo com portan todas ellas
escalas ordinales, lo que p e rm ite servirse de u n nivel de m edicin
algo m s alto. E n el siguiente captulo se exam inarn dos p ru e
bas no p aram trica s adicionales, que slo com portan, u n a y otra,
escalas nom inales.
Cul es la v e n ta ja de las p ru e b as n o p aram tricas e n com pa
raci n con u n a p ru e b a tal, p o r ejem plo, com o la de la diferencia
de las m ed ias? Al servim os de la p ru e b a t en relacin con una
p ru eb a de diferencia de m edias, vim os que era indispensable ser
vim o s n o slo de u n a escala de intervalo, sino tam bin de una

256

poblacin norm al. Sin duda, podra prescindirse del supuesto de


norm alid ad en el caso de m u estras grandes, pero alegbase, con
todo, que precisam ente cuando las m u estras son pequeas el
sup u esto de norm alidad re su lta m s dudoso. P or consiguiente,
esperarem os e n c o n trar que las alternativas no p aram tricas de
la p ru eb a de la diferencia de las m edias sean m s tiles siem pre
que se d u n a de las dos condiciones siguientes: 1) que no po
dam os servirnos legtim am ente de una escala de intervalo, pero
estan d o justificado, con todo, el ordenam iento de las m arcas, o 2)
que la m u estra sea pequea y la n o rm alidad no pueda p re su m ir
se. Como q u iera que estas pruebas no p aram tricas com portan
supuestos m s dbiles que la p ru e b a de la diferencia de las me
dias, pueden acaso n o sac ar provecho de toda la inform acin
disponible. As, pues, si p u ed e em plearse legtim am ente u n a es
cala de intervalo y si el supuesto de n orm alidad puede h acerse
en el caso de m u estras pequeas o ab andonarse en el caso de las
grandes, la p ru e b a de la diferencia de las m edias ser p o r lo
general p referib le a las pru eb as no p aram tricas.
E n qu sentido podem os decir que u n a p ru e b a sea preferible
a o tra? Cules criterios se em plean p a ra a d o p ta r sem ejante deci
sin? E n p rim e r lugar, com o ya se indic anteriorm ente, si u n a
p ru e b a nos im pone ciertos supuestos dudosos que n o se dejen
verificar en s m ism os, n o ser tan satisfac to ria com o la que no
nos los im ponga. Si todas las dem s condiciones fu eran iguales,
lo que p rcticam ente n u n ca ocurre, escogeram os siem pre la
p ru e b a que re q u irie ra los supuestos m s dbiles. Y si los resu l
tad o s de la p ru e b a aconsejaran descartar, podram os tan to m s
fcilm ente co n siderar la hiptesis nula com o nico supuesto fal
so. P o r desgracia, sin em bargo, el problem a no es tan sencillo.
Si lo fuera, en efecto, siem pre nos serviram os de procedim ientos
n o p aram tricos. R esulta p o r lo regular que la prueba que re
q u iere supuestos m s firm es es tam bin m s fuerte, en el sentido
que su em pleo co m porta un riesgo in ferio r de e rro r de tipo II.
Tenem os, pues, dos criterio s que actan en sentidos opuestos y
h an de evaluarse en consecuencia. O sea que las pruebas no p a
ra m tricas req uieren supuestos m s dbiles, p ero son m enos
fu ertes. O btendrem os u n a idea m s clara de lo que se entiende
p o r supuestos fu e rte s y "dbiles cuando lleguem os a las p ru e
b as concretas no p aram tricas que pueden utilizarse com o alte r
nativas de la p ru eb a de la diferencia de las m edias. Antes, sin
em bargo, hem os de exam inar la cuestin de cm o se ap recia la
fu erza relativ a de u n a prueba.
*XIV .l. Fuerza y eficiencia de la fuerza
La fuerza de u n a p ru e b a se define com o 1 (probabilidad de
e rro r de tip o II), o sea com o 1 (3. As, pues, la fuerza de u n a

p ru e b a es in v ersam en te pro p o rcio n al al riesgo de d e ja r de des


c a rta r u n a h iptesis falsa. C uanto m s capaz es u n a p ru e b a de
elim in ar falsas hiptesis, ta n to m ayor es su fuerza relativa. Como
ya se indic, es m u ch o m s difcil a p re c ia r el riesgo d e e rro r de
tip o I I que de tip o I. P a ra ello, en efecto, n o slo hem os de co-

F ig . X IV .l. Funciones de ptemela para pruebas de dos colas, con


a = .05, para m u e stra s de tam ao variable. ( Con la autorizacin
de W. J. Dixon y F. J. Massey, "In tro d u ctio n to S tatistical A nalysis", M cGraw-Hill Book Com pany. N ueva York, 1957,
fig. 14.6, p. 252.)

n o cer la fo rm a exacta de la poblacin, sino que hem os de sab er


tam b in el g ra d o en que el p a r m e tro tom ado com o hiptesis
difiere del v erd ad ero valor. E n o tro s trm in o s: la p ro b ab ilid ad
de u n e rro r d e tip o II, y con ella la fu erza de la pru eb a, d e
p en d e de cul hiptesis altern ativ a sea efectivam ente correcta.
P o r estas razones, de hecho, ra ra m e n te calculam os en la inves
tigacin aplicada las probabilidades de e rro re s del tip o II. Sin
em bargo, com o ya se d ej e n tre v e r an terio rm en te, la fuerza de
u n a p ru e b a h a de em p learse al ap re c ia r su eficiencia relativa.
P ueden h acerse v arias p ru e b as altern ativ as que com porten el
m ism o riesgo d e e rro r de tipo I. Nos servim os, pues, de los ries
gos relativos d e com eter erro re s d e tip o II p a ra seleccionar u n a
p ru e b a que sea la m s ap ro p iad a en u n d eterm inado co n ju n to de
condiciones. Si b ien el p ro b lem a d e d e te rm in a r la fuerza de u n a
p ru e b a es b a sta n te com plejo y v a m s all del p ro p sito del
p re sen te texto, podem os in d icar con todo, de m odo general, lo
q u e sem ejan tes com paraciones com portan. P a ra ello necesitam os
in tro d u c ir la nocin de la funcin de la fuerza.
La fo rm a general de u n a funcin de la fuerza p a ra u n a p ru eb a
d e dos colas p u ed e verse en la fig u ra X IV .l. S em ejan te funcin
nos da la fu erza de u n a p ru e b a en relacin con la s d istin tas a lte r
nativas co rrectas posibles de la H 0. O e n fo rm a m s c o rre c ta :

supngase que hem os tom ado com o hiptesis u n determ inado


v alor [Xq p a ra la m edia de la poblacin. Supngase, sin em bargo,
que la v erd ad era m edia de la poblacin se sit a en realidad a dos
erro res estn d a r de la m edia de la hiptesis. Es obvio, en este
caso, que H 0 es fa lsa y debera descartarse. Como q u iera que la
fu erza de u n a p ru e b a es 1 3, dicha fuerza nos da en realidad
la pro b ab ilid ad de descartar H 0 cuando sta es falsa. Y esta lti
m a p robabilidad, y n o la probabilidad de e rro r, nos es d ad a p o r
el alto de la curva. Si la v erd ad era m edia se sit a a dos e rro
re s e st n d a r de [Xo, la probabilidad de d e sc a rta r H 0 puede d eter
m in arse hallando la a ltu ra de la curva, en dicho punto, en el eje
de las X . As, pues, los valores a lo largo del eje de las X indican
los valores correctos posibles de [x, en ta n to que los del e je de las
Y in d ican las p robabilidades de d e sc a rta r H 0.
O bsrvese q ue si el v alor correcto de la m edia es efectivam ente
(jo (y q ue p o r lo ta n to com eteram os e r ro r descartando H 0), la
a ltu ra de la funcin de la fuerza viene dada p o r el nivel d e signi
ficacin de la p ru eb a. P or qu? O bsrvese asim ism o q u e si el
v alo r co rrecto de [x n o queda dem asiado d istan te de (Xo, la fuerza
de la pru eb a, segn la indica la a ltu ra d e la curva, es m en o r que
e n el caso en que el verd ad ero valor es to talm en te d istin to de (XoE sto nos dice que n u estro riesgo de e r ro r de tip o II es relativa
m en te grande cuando el valor tom ado com o hiptesis no queda
d em asiado lejos del valor correcto, p ero que, si nos hem os ap a r
tad o del blanco en u n grado considerable, tendrem os u n a p ro b a
b ilid ad m ucho m ayor de d esc artar n u estra s hiptesis falsas. E sto
co n cu erd a con el arg u m en to intuitivo que form ulam os a n te rio r
m en te en conexin con la binom ial. Y corresponde asim ism o a
n u estro s intereses prcticos. En efecto, si n u e stra hiptesis nula
es casi co rrecta, n o nos preocupa m ucho que dejem os de descar
tarla , pese a que, desde el p u n to de v ista tcnico, estem os en
e rro r al p ro ced er en esta form a. Cuando H 0 es sustancialm ente
in co rrecta nos in te re sa v erdaderam ente d escartarla.
*
P a ra g en erar la a ltu ra de la funcin de fuerza en cualquier
p u n to dado situ ad o en el eje horizontal, necesitarem os e s ta r lis
tos p a ra su p o n er la fo rm a que tenga la distribucin del m uestreo.
E n este caso p a rtic u la r suponem os que la distribucin del m ues
tre o de X es o r (x, a2/N ) . Si la m edia verd ad era de [x se en
c u e n tra a la d erecha de la m edia su p u esta [x0. com o aparece e n la
fig u ra XIV.2, la distribucin real del m u estreo (a lred ed o r de x)
se h allar a la d erecha de la d istribucin supuesta del m ism o
(a lred ed o r de j x o ) . U sam os desde luego la distribucin supuesta
del m u estreo p a ra d eterm in a r la regin crtica, ya que descono1cem os la jx verd adera. Supongam os que la regin crtica re su lta
se r el grupo de X m enores que a p e ro m ayores que b. P ara de
te rm in a r la fu erza de la p ru e b a debem os evaluar la probabilidad

real de caer d e n tro de la regin crtica, p u esto q u e la m edia ver


d ad era es (x y n o xo- E sto se logra calculando la superficie som
b re a d a colocada bajo la distribucin real de la m uestra, situada
en el d iag ram a a la izquierda de a y a la derecha de b. Vemos que
cuando i y {x0 e stn alejadas, dicha superficie es casi la unidad,
p e ro cuando [x y fx0 e stn m uy prxim as se aproxim a a a (p o r
ejem plo .05), en su lm ite m s bajo.

F ig . XIV.2.

Derivacin de la fuerza com o funcin de

(x (x0).

Con o b jeto de d a r u n a indicacin m e jo r de cm o se em plean en


realid ad las funciones de la fuerza, podem os c o m p arar la funcin
de la fu erza de u n a p ru e b a de dos colas (fig u ra X IV .l) con las de
algunas de u n a sola cola. Supongam os, u n a vez m s, que H 0
p red ice que la v erd ad era m edia es [x0. O bsrvese la p ru e b a de una
sola cola en la que nos hem os servido com o regin crtica de la
cola su p erio r o positiva. Si el v erd ad ero v alo r de x es efectiva
m en te m ayor que x0, la m ayora de las m edias de la m u estra
sacadas de la p oblacin sern tam b in m ayores que fxo, y ten d re
m os m ayores p ro b ab ilid ad es de te rm in a r en dicha regin crtica
de u n a sola cola que si nos hu b iram o s servido de u n a p ru e b a de
dos colas al m ism o nivel de significacin. E n otros t rm in o s : si
x queda efectivam ente a la d erecha de xo, tenem os m ayores p ro
babilidades de d e sc a rta r H con u n a p ru e b a de u n a sola cola en
dicha direccin. E sto significa, p o r supuesto, que la fuerza de
esta p ru e b a p a rtic u la r de u n a sola cola ser m ay o r p a ra valores
de [x en direccin positiva. P ero supngase que el verdadero va
lo r de [x qu ed a en realidad a la izquierda de x0. E n tal caso, la
m ayora de las X qu ed ar a la izq u ierd a de }Xo, y m uy pocas de
ellas caern en la regin crtica del extrem o opuesto' (o positivo)
del continuo. E n este caso, p o r consiguiente, n o estarem o s p r c
ticam en te n u n ca en condiciones de d e sc a rta r H 0, y la fuerza de
la p ru eb a de u n a sola cola ser efectivam ente m uy dbil. Y es
obvio que el tip o opuesto de m odelo se p ro d u c ir en el caso

de p ru e b as de u n a so la cola con regiones crticas e n las colas in


feriores 01 negativas.
Las funciones de la fuerza de p ru e b as de u n a y de dos colas
p u ed en co m p ararse com o en la figura XIV.3. E n resum en, vem os
que la p ru e b a de u n a sola cola ser m s fu e rte que la co rrespon
diente de dos colas (sirvindonos del m ism o nivel de significa
cin) p a ra altern ativ as q u e se h allan en direccin d e la regin
crtica, p ero ser m ucho m enos fu e rte si el p a r m e tro qu ed a en
realid ad en direccin o p u esta a la q u e se anticip. P o r consi
guiente, el riesgo de e r ro r de tipo I I es considerable si se efecta
u na, p ru e b a de u n a cola y se y e rra al an tic ip a r la direccin. En
ta l caso, los datos tam poco pu ed en em plearse de cualquier m odo
p a ra apoyar la teora. P or lo tan to , p ro b ab lem en te no se ten
d r in ter s alguno en seg u ir ad elan te con la p ru e b a, a m enos que,
con fines de exploracin, se q u iera av eriguar si u n a teo ra to ta l
m en te o p u esta te n d ra o no m rito alguno.

Fig. XIV.3. C om paracin de funciones de potencia para pruebas


d e una y dos colas, con a .05. a ) Rechace si Z > 1.645. b ) R e
chace si Z < 1.645. c) Rechace si Z > 1.96 o si Z < 1.96. (Con
la au torizacin de W. J. Dixon y F. J. M assey, " In tro d u ctio n to
S ta tistical Analysis'', McGraw-Hill B ook Com pany. N ueva Y ork,
1957, fig. 14.5, p. 249.)
Al co m p arar las p ru e b as de u n a y de dos colas, hem os visto
q ue u n a p ru e b a d eterm in a d a p u ed e se r m s fu e rte e n relacin
con ciertas altern ativ as y m enos fu e rte e n relacin con o tras.
E n trm in o s generales, esto puede o c u rrir tam b in al co m p arar
dos clases m uy d istin ta s de pruebas. As, p o r ejem plo, no ta rd a
re m o s en v er que u n a p ru e b a no p a ra m tric a p a rtic u la r puede
se r m s fu e rte que o tra e n u n determ inado con ju n to de circuns-

ta n d a s , p ero m enos en otras. Es este hecho lo que hace que sea


difcil d esa rro llar generalizaciones relativam ente sim ples a p ro
p sito de la su p erio rid ad de u n a p ru e b a resp ecto de o tra. Y la
situacin se com plica adem s p o r el hecho de que u n a p ru eb a
po d r ser fu e rte en relacin con m u estras grandes, p e ro relativa
m en te m enos e n el caso de m u estras pequeas. P or supuesto, la
fu erza de cu alquier p ru e b a determ in ad a au m en ta r con el tam ao
de la m u estra, ya que p a ra cualquier nivel de significacin d eter
m inado el au m en to del tam ao de la m u estra hace posible des
c a rta r la hiptesis n u la con m enores desviaciones resp ecto de los
valores anticipados. H em os visto, p o r ejem plo, que el e rro r es
t n d a r de la m edia decrece a m edida que crece N y que, p o r con
siguiente, a m edida que N aum enta, 1a. m edia de la m u estra ha
de q u ed ar m s cerca del valor tom ado com o hiptesis p a ra que
podam os re te n e r H 0. Lo que decim os, pues, es que podem os des
c a rta r m s fcilm ente u n a hiptesis falsa cuando N es grande.
S in em bargo, au n q u e la fuerza de u n a p ru e b a p u ed a au m en ta r al
au m en tar N, la tasa del aum ento de fuerza puede n o se r la m is
m a p a ra to d as las pruebas. P or lo tan to , u n a p ru e b a de fuerza
relativam ente dbil con u n a N peq u e a puede acaso "alcanzar
a otra, de m odo que la p rim era sea en realid ad m s fu e rte en el
caso de m u estras grandes.
Con o b jeto de co m p arar la fuerza relativ a de dos pruebas, po
dem os p re g u n ta rn o s cuntos casos se n ecesitaran con la prim era
p a ra o b ten er la m ism a fuerza que con un n m ero determ inado
de casos de la segunda. P or lo re g u la r com param os la fuerza de
u n a p ru e b a d eterm in ad a con la de la altern ativ a m s fuerte. En
el caso de las tre s p rim eras pru eb as n o p aram tricas exam inadas
en este captulo, la altern ativ a m s fu e rte ser la p ru e b a t p ara
la diferencia de las m edias. Se em plea com nm ente el trm ino
de eficiencia d e la fuerza p a ra designar la fuerza d tina p ru eb a
determ in ad a en relacin con su altern ativ a m s fu e rte. Si desig
nam os la eficiencia de la fuerza de u n a de dichas pru eb as no pa
ra m tricas com o del 95 p o r ciento, querem os decir que la fuerza
de la p ru eb a n o p aram trica sirvindose de 100 casos es aproxi
m adam ente la m ism a que la de la p ru e b a t sirvindose de 95
casos, si el m odelo em pleado en la prueba t as correcto.
Como q u iera que es necesario su poner u n a d eterm in ad a form a
de la poblacin p a ra p o d er evaluar la fuerza de u n a prueba, nos
im aginam os, en la ilustracin an terio r, que tenem os en realidad
u n nivel de m edicin de escala d e intervalo y que las dos pobla
ciones son n orm ales en cuanto a la form a. Al d eterm in a r la efi
ciencia de la fuerza de la p ru eb a no' param trica, nos estam os
fund am en talm ente p reguntando a nosotros m ism os cu n to nos
co star el d e ja r de acep tar el supuesto de no rm alid ad si sem e
ja n te supuesto- fu e ra de hecho legtim o. Aqu vem os que el hecho
de d e ja r de a c e p ta r dicho supuesto y n u estro em pleo consecuen

te de la p ru e b a n o p a ra m tric a nos co stara cinco casos ad icio


nales p o r encim a de los 95 utilizados en la p ru e b a de la d iferen
cia de las m edias. Con u n a p rd id a de eficiencia ta n pequea, es
p ro b a b le que seguiram os adelante con la p ru e b a n o p aram trica
si tuviram os la m en o r duda respecto de los supuestos req u erid o s
p o r aqulla. P o r o tra p a rte , si la eficiencia de la fuerza slo fuera
del 60 p o r ciento y si los alejam ientos re sp ecto de la no rm alid ad
no fu eran demasiado* gran d es (o si N fu e ra gran d e) nos serv ira
m os p ro b ab lem en te de la p ru e b a de la d iferencia de las m edias.
Como ya se indic en el cap tu lo precedente, cuando las
m u estras son pequeas necesitam os p reo cuparnos m s p o r el
su p u esto de n o rm alidad. E n el caso de N peq u e a n o ser p o r
lo re g u la r posible tra d u c ir enunciados de eficiencia de la fuerza
en com paraciones de tam a o s exactos d e m u estras, y a que estas
ltim as cantidades h a n de se r siem pre en teras. As, p o r ejem plo,
con 95 p o r ciento de eficacia, u n a m u e s tra de tam a o 10 q u e se
sirv iera de la p ru e b a n o p ara m tric a sera equivalente de form a
ap ro x im ad a a u n a de 9.5 que se sirviera de la p ru e b a t. Pese a que
sem ejan te en unciado n o tenga sen tid o desde el p u n to de vista
operacional, ayuda, p o r lo m enos, a estab lecer com paraciones.
Antes de te rm in a r e sta seccin, conviene re c o rd a r u n a vez m s
q ue la eficiencia de la fuerza de u n a p ru e b a d eterm in ad a puede
d ep en d er del tam a o de la m u e stra seleccionada. P uede se r m uy
eficaz en relacin con m u estras pequeas, p e ro m ucho m enos efi
caz e n el caso de m u estras grandes.
XIV.2. La prueba de las secuencias (ru n s ) d e W ald-W olfow itz
E n la p ru e b a de las secuencias, as com o en las o tras dos p ru e
b as q u e se ex am inarn en este captulo a continuacin, supone
m os que tenem os dos m u estras alea to rias independientes y que
el nivel de m edicin es p o r lo m enos u n a escala ordinal. E n las
tre s p ru eb as en cuestin, n u e s tra h ip tesis n u la ser que las dos
m u estras se h an e x tra d o de la m ism a poblacin co n tin u a (o de
poblaciones id n ticas). La dim ensin subyacente se su p o n d r se r
continua, y n o d iscreta, aunque adm itam os que puedan re s u lta r
datos ligados e n tre s, debido a la im perfeccin del in stru m e n to
d e m edicin. La hiptesis de que las dos m u estras se h ayan to
m ad o de la m ism a poblacin es en re alid ad m uy sim ilar a n u es
tro su p u esto en la p ru e b a de la d iferencia de las m edias. E n
efecto, com o ya se indic an terio rm en te, cu an d o ju n tam o s los su
p u esto s de norm alidad, de, variancias iguales y de m edias ta m
b in iguales, suponem os en realidad que las dos poblaciones son
idnticas. E n el caso de la p ru e b a d e las secuencias, ponem os la
h ip tesis de q ue las dos poblaciones p re se n ta n exactam ente
la m ism a fo rm a y p u ed e n p o r consiguiente to m arse como* iguales.
Sin em bargo, no necesitam os especificar la n atu raleza d e dicha

form a. sta p o d r s e r norm al o no serlo. P or lo tan to , hacem os


u n con ju n to de supuestos m s dbil que el que se requiere en la
p ru eb a de la diferencia de las m edias, o sea, m s dbil en el sen
tido de que la p ru e b a de la diferencia de las m edias ( con o igua
les) req u iere todos los supuestos de la pru eb a de las secuencias,
con el supuesto, adem s, de n orm alidad y el em pleo de u n a esca
la de intervalo.
En la p ru eb a de la diferencia de las m edias n u estro inters se
ce n tra en diferencias de la tendencia central m s que en las
diferencias de dispersin o- de form a. La p ru e b a de las secuen
cias, en cam bio, verifica esencialm ente todas esas posibles dife
rencias sim ultneam ente. Como verem os en seguida, su em pleo
p rincipal est en la verificacin de diferencias de dispersin o de
form a, ya que, p a ra la verificacin de diferencias de la tendencia
central, h ay p ru eb as no p aram tricas m s eficaces. Obsrvese,
de paso, que la hiptesis n ula
se h a establecido e n trm inos de
m edias o de desviaciones estn d ar, sino- m s bien en trm inos
de diferencias cualesquiera. Eso se aplica tam b in a las pruebas
no p aram tricas a exam inar en el p resen te captulo. Con las es
calas ordinales no tiene sentido, p o r supuesto, p en sa r en trm inos
de m edias y de desviaciones estn d ar.
El principio bsico im plicado en la p ru e b a de las secuencias es
m uy sencillo, lo m ism o que los clculos. Tom am os p rim ero los
datos de am bas m u estras y ordenam os los datos de los m s al
tos a los m s bajos, prescindiendo1 de que provienen de m u estras
d istintas. Si la hiptesis nula es correcta, confiam os en que las
dos m u estras e starn bien m ezcladas. En otros trm in o s: no con
tam os con u n a gran serie de datos de la p rim era m u e stra seguida
p o r o tra larga serie de datos de la segunda. As, p o r ejem plo, si
designam os las m u estras como A y B, esperam os que la ordena
cin re su lta r m s o m enos com o sigue:
ABBABAAABABBABBAAABAAB
y no com o
AAAAAAAAABABBBBBBBBBBB
Con o b jeto de com probar h a sta qu p u n to las dos m u estras
estn m ezcladas u n a vez ordenadas, contam os sim plem ente el n
m ero de series continuas que se producen. La secuencia se define
com o serie co n tinua de datos de la m ism a m uestra. E n el p rim ero
de los dos ejem plos anteriores tenem os u n a secuencia de u n a
sola A, seguida de u n a serie de dos B, luego una sola A, u n a sola
B, u n a serie de tres A, etctera. El nm ero to tal de secuencias
es, p o r lo- tan to, de 14. E n el segundo* ejem plo, en cam bio, las A
estn agrupadas en la m ita d in ferio r dl continuo, y slo tenem os
cuatro1 secuencias o runs. P or lo regular, el cm puto de las se
cuencias se facilitar evitndose adem s erro res, trazan d o una

lnea d ebajo de los datos de la prim era m u estra y u n a raya a r r i


b a de las de la segunda. E n esta form a slo necesitam os c o n tar
el n m ero de ray itas separadas. Si el nm ero de las secuencias
es grande, com o en el p rim e r ejem plo, entonces las dos m u estras
e sta r n ta n bien m ezcladas que no estarem os en condiciones de
d e sc a rta r la h iptesis nula. P or o tra p arte, u n nm ero reducido
de secuencias significa probablem ente que la hiptesis es inco
rre c ta y d ebera descartarse. La distribucin de m uestreo de las
secuencias p u ed e utilizarse p ara establecer la regin crtica de la
que nos servim os p a ra d esc artar la hiptesis nula.
P roblem a. Supngase que unos jueces h an ordenado 19 organi
zaciones sociales de acuerdo con el prestigio de las m ism as, a tri
b uyendo u n a p u n tu aci n de 1 a la de m ayor prestigio y de 19 a
la in ferio r. Diez de dichos grupos restringen la adm isin a los no
judos, en ta n to que los otros 9 adm iten tam b in a stos. S u p o
niendo que dichas organizaciones sociales se h an seleccionado al
azar so b re la b a se de u n a lista de todas las dem s organizaciones
sociales de la localidad, podem os llegar a la conclusin de que
en la poblacin se da u n a diferencia significativa de p restigio en
tre las organizaciones sociales restrictivas y las no restrictivas?
A dm isin restrictiva: Rangos 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (N 1 = 10)
A dm isin no restrictiva: Rangos, 3, 8, 10, 12, 13, 15, 16, 18, 19
( t f a = 9)
1. Supuestos.
N ivel de m e d ic i n : el prestigio com o escala ordinal
M odelo: m u estras aleatorias independientes
H ip te s is : las m u estras se han extrado de poblaciones con
las m ism as distribuciones continuas.
2. D istribucin de m uestreo. Si tanto N t corno No son m enores
o iguales a 20, la d istrib u ci n de m uestreo exacta del n m ero de
secuencias r est dada en el cuadro E del A pndice 2. P ara N m a
yores, la distrib u cin de m uestreo de r es aproxim adam ente n o r
m al, con la
m edia =

2N1N 2
= ----- + 1
^
Nx+ N2

(X IV .l)

iv

y la
desviacin e s t n d a r = ar

- N, -

2)

(N 1 + N 2) H N 1 + N 2 - l )
( XI V. 2 )

Obsrvese que, au n q u e n o se suponga la no rm alid ad de la pobla


cin, la d istrib u ci n de m uestreo de r ser aproxim adam ente n o r

m al, incluso con N pequeas. Como habrem os d e v e r e n segui


da, cierto n m ero de estadsticas de p ru e b a n o p a ra m tric a s
poseen tam b in esta propiedad. O bsrvese asim ism o que las
f rm u las de la m edia y del e rro r e st n d a r slo c o m p o rta n los ta
m aos de las m u e stra s y n o req u ieren , p o r lo ta n to , q u e p roceda
m os a a p reciar los p a r m e tro s de la poblacin, com o e r a el caso
con la p ru e b a de la diferencia de las m edias. La sim plicidad
co m p arativ a d e las frm ulas d e las distribuciones d e m u estreo
de las estad sticas no p aram trica s se debe en p a r te al h ech o que,
com o q u iera que las m arcas se h a n ordenado y h a n d e to m ar
siem pre, p o r consiguiente, los valores num ricos 1, 2, 3, . . . , N,
las m agnitudes tales com o la sum a y la desviacin e s t n d a r de los
rdenes dependen nicam ente del n m ero de casos em pleado.
3.
N ivel d e significacin y regin crtica. Como q u ie ra q u e el
cu ad ro E, A pndice 2, slo d a el n m ero de secuencias necesarias
p a ra el d esc arte al nivel d e .05, nos vem os reducidos, e n relacin
con m u estras pequeas, a dicho nivel de significacin, p ese a que
pueden en c o n trarse cuadros m s com pletos e n [9 ]. O bsrvese
que la p ru e b a de las secuencias n o to m a en consideracin la di
reccin de la relacin e n tre el prestig io y la re stric ci n de adm i
sin. P o r o tra p a rte , cuando nos servim os de la d istrib u ci n de
m u estreo de r, slo estam os interesados en u n a cola, ya que
slo podem os d e sc a rta r la hiptesis n u la si hay u n p eq u e o n
m ero de secuencias (in d ep en d ien tem en te de la direccin de la
d iferen cia).1 E n sen tid o estricto, pues, em pleam os la p ru e b a de
las secuencias com o p ru e b a de u n a sola cola, p ese a que no> se
haya an ticip ad o la direccin de la relacin. La m ism a situacin
se nos p re s e n ta r con la p ru e b a d e M ann-W hitney, que se exa
m in a en la seccin siguiente, as com o en o tra s p ru e b as im por
tan tes de las q u e habrem os de o cu p am o s en captulos subsiguien
tes. Con o b jeto de ev itar am bigedades, distinguirem os, p o r lo
tan to , e n tre p ru e b as de u n a sola cola y las situaciones en las que
la direccin se haya anticipado. H a sta aqu sem ejan te distincin
n o e ra necesaria, ya que to d as las p ru e b as de u n a sola cola com
p o rtab a n predicciones en relacin con la direccin.
E n el caso de distribuciones de m u estras n o rm ales ya hem os
visto que, cuando Ja direccin fu e prevista, cortbam os a la m itad
u n nivel significativo al u tiliza r u n a sola cola de la distribucin de
m uestreo. E n el caso de las p ru e b as en secuencia y en el de o tras
diversas aplicaciones, habrem os de confiar en o tro tipo de ju sti
ficaciones al c o rta r p o r m ita d los niveles de significacin cuando
la direccin h a sido predicha. E n el cu rso del p resen te ejem plo

i Sin embargo, hay otras aplicaciones de la prueba de las secuencias en


las que pueden emplearse las dos colas. As, por ejemplo, puede haber
acaso demasiadas secuencias si las muestras se han mezclado ms bien
artificialmente que al azar, y este hecho puede utilizarse en una prueba del
grado de aleatoriedad.

supongam os que n o hay diferencia alguna en la poblacin de las


organizaciones sociales e n relacin con el prestigio de las organi
zaciones restrictivas y n o restrictivas. Llam em os A al aconteci
m ien to consistente en h a b e r logrado resu ltad o s significativos a un
nivel de, p o r ejem plo, .05 sin h ab e r p red ich o la direccin. C lara
m ente P( A) = .05. Llam em os ahora B al acontecim iento que con
siste en que la direccin de la diferencia de las m u estras es la
predicha, suponiendo que no se den diferencias algunas en la po
blacin. E n tal caso, P( B ) = .5 si prescindim os de la p ro babilidad
de que la diferencia sea exactam ente igual a cero.
Como A y B sern no rm alm en te dos acontecim ientos sep a ra
dos, tendrem os que la p ro babilidad de lo g rar significacin al n i
vel .05, sin p re d ecir la direccin y la pro b ab ilid ad de p re d ecir co
rrectam en te la direccin, vendr dada p o r P( A&B) = P( A ) P( B) =
(.05) (.5) = .025. P odr utilizarse este m ism o principio en cuan
tas ocasiones la distribucin de m u estreo de u n a estad stica de
p ru e b a sea, o b ien sim trica, o bien insensible a la direccin
de u n a diferencia. Si hubiram os estado, p o r ejem plo, interesados
en co m p arar tre s m u estras ( com o vam os a h acer en los dos cap
tu los prxim os), y si hubiram os podido p re d ecir el o rd e n exac
to de estas diferencias (p o r ejem plo
> X 3), la p ro b ab ili
d ad de o b ten er diferencias en este o rd en exactam ente sera de
1 / 6, b a jo el su p u esto d e q u e
= i2 = yis, pudiendo en tal caso d ar
ju stificad am en te com o 1/6 el nivel de significacin sin h a b e r p re
dicho la direccin. P o r supuesto que e ste procedim iento se p re sta
al razonam iento ex p o st jacto, y slo pu ed e aplicarse a condicin
de que las predicciones h ayan precedido al exam en de los datos.
Los nm eros en el cu ad ro nos d an el n m ero de secuencias que
b rin d a r n significacin al nivel de .05, suponiendo que no se haya
pred ich o la direccin. C ualquier valor de r, p o r lo tan to , que sea
igual o m en o r que la cifra del cuadro nos in d icar q u e tenem os
ta n po cas secuencias q u e b ien podem os rech azar la hiptesis nula
a este nivel. Como el n m ero de casos en las dos m u estras es
de diez y nueve, respectivam ente, verem os que podrem os recha
zarla si obtenem os seis o m enos secuencias.
4.
Clculo d e la estadstica de la prueba. Si disponem os las o r
ganizaciones p o r o rd en de prestigio y trazam os lneas debajo
de los datos de la p rim e ra m u estra y a rrib a de las del segundo,
vem os que se dan 12 secuencias.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Pese a que el n m ero de casos es u n po co pequeo p a ra que
se verifique la aproxim acin norm al, podem os con to d o seguir
ad elan te con el clculo, sirvindonos de e s ta aproxim acin p ara

ilu s tra r su em pleo y co m p arar los resu ltad o s con los que se ob
tienen sirvindose del cu ad ro E del Apndice 2. Como de costum
bre, calculam os el valor de Z, que nos dir a cu n ta s desviaciones
e stn d a r se sit a el n m ero de secuencias obten id o respecto de
la m edia o n m ero de secuencias esp erad o con la hiptesis nula.
As, pues,
2(10)(9)
m = ------------ + l = 10.47
^
10 + 9

, 2 (1 0 )(9 )[2 (1 0 )(9 ) 10 9]


*

------------------------------------------= 2. 11

(19)2(18)

Tenem os p o r consiguiente:
r-Ur
12 - 10.47
Z = ----- = ---------------= .725
crr
2.11
Como q u iera que el n m ero de secuencias obten id o es efectiva
m ente m ay or que la m ed ia o el nm ero esperado, n o necesitam os
proseguir, ya que p a ra el rechace de la hiptesis se necesitan
nm eros p equeos de secuencias. Si el n m ero de secuencias
h u b iera sido m en o r que el esperado, habram os buscado el valor
de Z en el cu ad ro norm al, u san d o el cu ad ro com o si estuviram os
haciendo u n a p ru e b a de dos colas (es d ec ir: rechazando al nivel
.05 si Z < 1.96).
5.
Decisin. Ya que el n m ero de secuencias h a re su ltad o ser
m ayor que seis, c ifra indicada en el cuadro E, decidim os no des
c a rta r la h iptesis n ula al nivel de .05. Como acabam os de ver,
el em pleo d e la aproxim acin n orm al nos conduce tam bin a la
m ism a conclusin. Sobre la base de n u estro s datos, concluim os,
en consecuencia, que n o existe diferencia e n tre los dos tipos de
organizacin en lo relativo al prestigio.
E m p a tes. E n los datos an terio res n o h a hab id o dos organizacio
nes que tu v ieran m arcas em patadas. El supuesto de la continui
dad subyacente excluye tericam ente la posibilidad de em pates,
ya que dos m arcas no sern n u n ca ex actam ente iguales. Sin
em bargo, debido a im perfecciones de m edicin, y sem ejantes im
perfecciones se d a r n casi seguram ente en la m ayora de la in
vestigacin social, e n la p r ctica sem ejantes em pates se p resen tan .
O bsrvese q u e si dos organizaciones de la m ism a m u e stra hubie
ra n estado1 em patadas en relacin con las m arcas de prestigio, la
p ru e b a de las secuencias n o h a b ra sido afectada. Pero, supn
gase que los em pates se p ro d u c a n e n tre las m u estras. E n tal
caso, el n m ero de secuencias p u ed e re s u lta r considerablem ente

afectado, segn la fo rm a en que los em pates se rom pan. Supn


gase, p o r ejem plo, que dos organizaciones (de m u estras d istin tas)
h u b iera n estado ligadas p o r lo que se re fie re a la octava y novena
posiciones. Si estas posiciones se h u b iera n desplazado1 del orden
an terio rm en te em pleado, habram os obtenido 10 secuencias en
lu g ar de 12. E n o tro s trm inos, ob ten d ram o s 10 secuencias o 12,
segn el o rd en em pleado. Y com o q uiera que dicho ord en sera
to talm e n te arb itra rio , podram os en co n trarn o s con que a veces
d escartam o s y o tra s veces dejam os de d e sc a rta r la hiptesis nula.
E l p ro ced im ien to m s seguro que podem os u tilizar en el caso* de
em pates consiste e n c o n ta r el nm ero de secuencias sirvindonos
de todos los m edios posibles de ro m p erlas. Y si todos los o rd e
nam ien to s conducen a la m ism a decisin (la de d e sc a rta r o de
no d e sc a rta r), entonces nos podem os a d h e rir a la m ism a con
seguridad. P ero si conducen a decisiones distin tas, se r posible
resolver el p ro b lem a echando u n a m oneda al aire, p e ro ta l vez el
pro ced im ien to m s seguro consista, e n ta l caso, en suspender
el juicio. B radley recom ienda [1] u n inteligente procedim iento
con sisten te en fa cilitar al lecto r la gam a de probabilidades obte
n id as al ro m p er em pates p o r todos los m todos posibles. Es evi
d en te que si se da u n g ra n nm ero de rdenes con em pates, la
estad stica de la p ru e b a n o deber se r usada.
XIV.3. La prueba d e M ann-W hitney o de W ilcoxon
O tra p ru e b a n o p a ra m tric a q u e p u ed e em plearse en las situacio
nes en que la p ru e b a de las secuencias re su lta apropiada es u n a
p ru e b a que p arece h a b e r sido inventada independientem ente p o r
cierto n m ero de p erso n as y se conoce com nm ente con el nom
b re de p ru eb a de M ann-W hitney o de W ilcoxon. E sta p ru e b a
req u iere exactam ente los m ism os supuestos que la de las secuen
cias y, lo m ism o que sta, com porta u n p rocedim iento m uy sim
ple. C om binam os n uevam ente los datos de las dos m u estras y las
ordenam os de 1 a 19. C entram os a continuacin n u e stra atencin
en la segunda m u e stra (o en la que sea m en o r). Tom ando cada
dato de la segunda m u estra, contam os el n m ero de datos de la
p rim era m u estra que tengan u n orden m ayor. Una vez hecho esto
con cada uno de los datos de la segunda m u estra, sum am os los
resu ltad o s, que nos dan la estadstica V. La distribucin de m ues
tre o de U puede o b ten erse exactam ente si las N son pequeas, o
se puede o b ten er con aproxim acin p o r m edio de u n a curva n o r
m al en el caso de m u estras m ayores. Si V es excepcionalm ente
peq u e a o excepcionalm ente grande, podem os d esc artar el su
p u esto de que las dos m u estras se hayan ex trad o de la m ism a
poblacin.
Una fo rm a altern ativ a de exactam ente la m ism a p ru eb a puede
em plearse con la aproxim acin norm al. E n lu g ar de o b ten er U

directam en te, podem os c o n ta r la sum a de los rdenes de cada


u n a de las m u estras. Procedem os luego en fo rm a anloga a la de
la p ru e b a de la d iferencia de las m edias. Tom am os u n a diferen
cia de las sum as de los rdenes p a ra cad a m u e stra y sustraem os
de dicha d iferencia u n a ca n tid ad que re p resen ta la diferencia es
p erad a con la hiptesis nula. E sta diferencia d e diferencias, an
loga a (
X 2) ( [i! |x2), se divide luego p o r el e rro r e st n d a r
p a ra o b ten er Z. La analoga n o es perfecta, y a que trata m o s con
sum as de rdenes y n o con sus m edias, p e ro el paralelo con la
p ru eb a de la diferencia de las m edias es p erfectam en te claro.
Aqu tam bin, u n v alo r n um rico gran d e de Z conducir al re
chazo. Vamos a ilu s tra r ah o ra el procedim iento de M ann-W hitney
sirvindonos del m ism o ejem plo an terio r. C om pararem os a conti
nuacin la eficacia d e la fuerza de esta p ru e b a con la de la p ru e
b a de las secuencias.
Problem a. El m ism o de la p ru e b a de las secuencias.
A d m isi n re stric tiv a : rdenes 1, 2, 4, 5, 6, 7, 9, 11, 14, 17 (JV ^IO )
A dm isin no restrictiva : rd en es 3, 8, 10, 12, 13, 15, 16, 18, 19
(iV2 = 9)
1. S u p uestos. Los m ism os q u e e n la p ru e b a de las secuencias.
2. D istribucin de m uestreo. La distribucin de m u estreo de
U se e n c o n tra r en el cu ad ro F del A pndice 2, si n i N t n i N 2 son
m ayores q u e ocho, y en el cu ad ro G, si u n a de las N queda e n tre
9 y 20 y la o tra e n tre 1 y 20. N tese que los dos cuadros tienen
d iferen te fo rm a to : El F tiene en la p a rte a lta diferentes com bina
ciones de N x y N 2, con los valores d e U en el m argen in ferio r iz
q u ierd o y con los valores de las probabilidades en el cuerpo del
cuadro. As, si N a = 6 y N x = 4, siendo siem pre N 2 el m ayor de los
dos tam a o s de las m u estras, y si U = 5, verem os que la probabili
d ad de o b ten er U < 5 es de .086, con direccin predicha. Los otros
cuadros del G, p o r o tra p a rte , corresponden a diferentes niveles
d e significacin, apareciendo los valores crticos de U en el cu e r
p o del cuadro. As, p a ra a = .0 0 1 , con direccin predicha, p a ra
A/j = 13 y N z = 10 (n o siendo N 2 necesariam ente m ayor que A^),
ob servarem os que u n v alor de U igual o m en o r que 17 supondr
significacin. P a ra N m ayor, la d istrib u ci n de m u estreo de V
s e r ap ro x im adam ente n orm al, con la
m edia =
y la

jip

(XI V .3)

___________________
N j .N N t + N a + 1 )
------------------------- (XIV.4)

3. N ivel de significacin y regin critica. Con fines d e com pa


racin, seguim os sirvindonos del nivel de .05, sin p re d ecir la
d ireccin de la relacin.
4. Clculo de la estadstica de la prueba. La estad stica U pue
de calcularse p o r u n o de los dos m todos siguientes. Con N pe
que a ser relativ am en te sencillo calcu lar U siguiendo el proce
d im iento im plicado en la f rm u la de definicin. C entrndonos en
cad a u n o de los nueve grupos de la segunda m u estra, contem os
el n m ero de casos de la p rim e ra m u e s tra que tienen m en o r
prestig io y, p o r lo tan to , m ayores m arcas de orden. Como q u iera
que la p rim e ra organizacin de la segunda m u e stra se h a clasifi
cado com o te rc era en prestigio, hay en la p rim e ra m u e stra ocho
grupos con m arcas de prestig io inferiores. Y en fo rm a anloga,
el segundo g ru p o de la segunda m u e stra se clasifica com o octavo,
de m o d o que hay cu atro grupos en la o tra m u e stra con m arc as de
prestig io inferiores. P rosiguiendo el proceso p a ra cada u n a de las
organizaciones re sta n te s de la m u e stra 2 y sum ando, o b te n e m o s:
17 = 8 + 4 + 3 + 2 + 2 + 1 + 1 + 0 + 0 = 21
O bsrvese que si hu b iram o s seguido el m ism o procedim iento,
p ero c e n tran d o n u e stra atencin e n los grupos de la p rim e ra
m u estra, hab ram o s o b ten id o :
/' = 9 + 9 + 8 + 8 + 8 + 8 + 7 + 6 + 4 + 2 = 69
C ualquiera de estas dos cantidades p o d ra em plearse p a ra verifi
ca r la significacin de la relacin, pero, com o q u iera que las ta
b las se h a n estab lecido en t rm inos del v alor m enor de U, siem
p re nos servim os de la m en o r de las dos can tid ad es en cuestin.
No se r n ecesario calcu lar U y V , ya que u n a vez obtenido uno
de los valores el o tro p u ed e calcularse sirvindose de la f rm u la :
U = N 1N 2 - U '

U' = N N 2 - V

(X IV .5)

E n este caso nos serviram os com o estad stica de p ru e b a del va


lo r 2 1 .
Si el n m ero de los casos es relativ am en te gran d e o si existen
em p ates, ser p ro b ab lem en te m s conveniente o b ten er V sum an
do los rdenes de las m u estras separados, designando estas su
m as de rdenes com o 2?! {rango) y R 2 y sirvindose de las f rm u
la s:
N 2{ N 2 + 1)
{X I V.6)
U = N xiV2 + ------ - R 2
o b ien

u- = n , n 2 +

J ^ 1 L - R

segn cul de ellas resu lte m s conveniente. S um ando los rde


nes obtenem os a s :
1
3
2
8
4
10
5
12
6
13
7
15
9
16
11
18
14
19
17
R x = 76

Ro, = 114

A ttu lo de co n trol habram os de te n e r

R + R a = 3 1 L
o bien
19(20)
76 + 114 = ---- - i - = 190
en donde N re p re se n ta el n m ero to tal de casos en am bas m ues
tras. P o r lo tan to :
1 7 = 1 0 (9 ) +

9(10)

114 = 90 + 4 5 - 114 = 21.

*
Las sum as de rdenes
y R 2 pudieron h ab erse em pleado
directam ente al h ac er la pru eb a, no siendo necesario en tal caso
calcular U. Ya que las tablas exactas p a ra las N pequeas suelen
darse en trm in o s de V, p o r lo re g u la r re su lta r ventajoso pensar
en trm inos de estadstica U. P ero el em pleo de las sum as de r
denes puede utilizarse eurstieam en te p a ra sealar la sem ejanza
de la p ru eb a M ann-W hitney con la de la diferencia de las m edias.
Una pequea operacin algebraica convencer al lecto r de que
podem os to m ar las ecuaciones de (X IV .3) a (X IV .7) y ob ten er
el re su ltad o de que, p a ra la aproxim acin norm al, la estadstica

R .-R ,

X W

D /2

( X I V g )

i/.V.A/..V + 1 )/',
ser aproxim adam ente N o r (0 ,l). E xpresando Z en esta form a,
observam os que el n u m era d o r consta de la diferencia R x R 2,
ju n to con u n trm ino que re su lta ser el valor esperado o a largo
plazo* de dicha diferencia en la hiptesis nula. Dicho fa cto r de
correccin es necesario, p o r supuesto, ya que trata m o s con una
diferencia de sum as, y no de m edias, lo que nos obliga a to m ar
en cu en ta el hecho de que, p o r lo regular, las dos N no sern
iguales. Si
y N 2 son iguales, observam os que el segundo fac
to r en cuestin se convierte en cero, quedndonos sim plem ente
co m o n u m era d o r R t - R z. Vem os en esta fo rm a la sem ejanza con
la p ru eb a de la diferencia de las m edias, en la que el num erador
se red u ca a X x X 2 en el caso de la hiptesis n ula de que no
h ab a diferencias. P or lo tan to , cabra concebir la p ru eb a de
M ann-W hitney com o p ru e b a de la diferencia de los rdenes su
m ados.
5.
Decisin. Sirvindonos del cuadro G del Apndice 2, vem os
que al nivel de .05, si la direccin no se h a anticipado, necesita
m os u n a U de 20, o m s pequea, p a ra p o d er d e sc a rta r la hip
tesis nula. De ah que apenas dejem os de d esc artar la de que no
h ay diferencia en tre los dos tipos de organizaciones. Obsrvese,
sin em bargo, q u e si la direccin se h u b iera predicho de anem ar
no, habram o s necesitado u n a U de 24, o m enos, al nivel de .05.
Vemos, de paso, que a p e sa r de llegarse a la m ism a conclusin con
las p ru e b as de las secuencias y de M ann-W hitney, estuvim os,
con todo, m ucho m s cerca del d escarte con la segunda que con
la p rim e ra . P o r lo tan to , si i?0 fu e ra realm en te falsa, ten d ra
m os e n este caso* u n riesgo m en o r de e rro r de tip o I I que con la
p ru e b a de las secuencias.
Si n u e s tra N h u b iera sido m ayor, podram os habernos servido
de la aproxim acin norm al. Con objeto de ilu s tra r el procedi
m iento, podem os calcular Z en relacin con los datos anteriores.
O btenem os as:
V - N XN J 2
2 1 -4 5
Z = ----------------- ------------= ------------ ------------ = -1-96
y' ^ J.W ^+ N 2 + l ) / l 2
V 1 0 ( 9 ) (20)/12
Si h ubiram os rem plazado V p o r V ( = 6 9 ) , hubiram os ob
tenido*
Z = + 1.96
*
Si nos h ubiram os servido de la ecuacin (X IV .8), h a b ra
m os obten id o asim ism o:

76 114 (10 9) (20)/2


--------------------------------------V W (9 ) (2 0 )/3

1.96

As, pues, el em pleo de la aproxim acin n o rm al conduce a la


conclusin de que, sin la direccin predicha, a d u ra s penas po
dram o s d e s c a rta r al nivel d e .05. P o r su p u esto que las tablas
exactas son p referib les a la aproxim acin n o rm al siem pre que
estn a n u e s tro alcance.
E m p a tes. Si o c u rren em p ate s hem os d e su p o n er u n a vez m s
que se d eben a im perfecciones d e m edicin y que las d istrib u
ciones subyacentes son en re alid ad continuas. Si los em pates
tien en lu g ar en el in te rio r de las clases, stas n o ten d rn , p o r
supuesto, efecto alguno sobre la U, y podem os p ro c ed er com o
an terio rm en te. Y si los em p ates tien en lu g ar e n tre clases, dam os
a ca d a u n o de los casos el p ro m ed io d e las m arc as q u e h a b ra
tenido de no existir aqullos. As, pues, si dos organizaciones
estn em p atad as en los rdenes octavo y noveno, cada u n a de
ellas re cib e tina m arc a de (8 + 9)/2 , o sea 8.5. Si la dcim a orga
nizacin h u b ie ra estad o asim ism o em p ata d a con los dos grupos
an terio res, cad a u n o d e ellos h a b ra recibido el o rd e n (8 + 9 +
10)/3, o sea 9.0. Al calcu lar U, se p ro d u c ir p ro b a b le m en te a h o ra
m enos co nfusin si nos servim os del m to d o de la sum a de los
rdenes. E n efecto, el fa c to r d e correccin c o m p o rta el e rro r
e s t n d a r de U y, p o r consiguiente, ap arece en el d enom inador de
Z. La f rm u la revisada se co n v ierte as e n :
V
- NrN.,/2

V l N iN n / N ( N - l)][(A s - A /r) / 1 2 - 2 r i ]

(X IV .9)

en donde N = iVx + N 2 y r* = ( - t t ) 12, siendo t el nm ero de


observaciones em p atad as en relacin con u n o rd en determ inado1.
Al calcu lar 22^, observam os p rim e ro todos los casos en los que
se dan em pates. Tal vez dos grupos estn em patados en relacin
con las m arcas octava y novena, y tre s en relacin con las m arcas
inferiores. E n e s te caso tenem os im a t de dos y u n a de tres.
O sea:
2 T = T i + T = * 1 + M ~ fa
12

23-2

33 3

12

24

= ------------ 1------------- = ----- i----- = 2 5


12

12 12

12

E sta correccin de los em pates slo p u ed e em plearse con la apro


xim acin norm al, ya que las tablas exactas se h an calculado sin
te n e r e n cu en ta los em pates. P or lo regular, el efecto del facto r
de correccin ser despreciable salvo si el nm ero de em pates
es m uy gran d e.2 Si el n m ero de em pates es extrem adam ente
g ran d e d eb er u sarse probablem ente la p ru e b a de S m irnov (ver
m s a b a jo ) com o altern ativ a a la de M ann-W hitney.
C om paracin en tre las pruebas de M ann-W hitney y de las se
cuencias. P ara am bas p ru e b as la hiptesis n u la es que las dos
m u estras se h an extrado de poblaciones iguales. P or lo regular,
n u e stro in ters se c e n tra en las diferencias de tendencia central,
com o en el caso de la p ru eb a de la diferencia de las m edias. En
ocasiones, sin em bargo, podrem os e s ta r m s interesados e n las
diferencias de d ispersin o de form a. A ttu lo de enunciado ge
neral, podem os d ecir que la p ru e b a d e M ann-W hitney ser m s
fu e rte que la d e las secuencias, siem pre q u e las m ayores d iferen
cias e n tre las dos poblaciones sean con respecto a la tendencia
central, en ta n to q u e la segunda se r m s fu e rte en aquellas si
tuaciones en que las poblaciones slo difieren ligeram ente en
cu an to a la ten d encia central, p ero sustancialm ente, en cam bio,
en d ispersin o e n form a.
Un sim ple ejem plo serv ir p a ra ilu s tra r este punto. Supngase
que tenem os dos poblaciones de m edianas iguales, pero, en u n
caso, con u n a d istrib u ci n m uy hom ognea y, en el otro, m uy
heterognea. P odram os, en tal caso, e sp e ra r resultados com o los
siguientes :
Muestra 1

Muestra 2

5
6
7
8
9
10
11
12

1
2
3
4
13
14
15
16

Rj = 68

R2 =

68

2 P a r e c e r a c o m o s i l a c o r r e c c i n d e lo s e m p a te s r e d u j e r a s ie m p r e e l d e
n o m i n a d o r s i n c a m b i a r e l n u m e r a d o r , p e r o d e b e m o s t e n e r p r e s e n t e q u e d i
c h o s e m p a t e s h a r n n o r m a l m e n t e q u e U y U s e a p r o x im e n , io q u e s e t r a
d u c i r a s u v e z e n u n a d i s m i n u c i n d e l n u m e r a d o r .

E n este ejem p lo extrem o, la p ru e b a de M ann-W hitney n o condu


cira a d e sc a rta r la hiptesis n u la (la cual es m an ifiestam en te fal
sa), p o rq u e
es exactam ente igual a R a. S irvindonos d e la
p ru e b a d e las secuencias, e n cam bio, estara m o s m anifiesta
m en te en condiciones de d esc artar, p o rq u e slo ten d ram o s tre s
secuencias. Como q u iera que d e ja r de d e sc a rta r significa com eter
un e rro r de tip o II, vem os q u e en este caso la fu erza de la p ru e
b a de las secuencias es m ay o r que la de la M ann-W hitney. E n la
m ayora de los casos, tenem os m s pro b ab ilid ad es de h a lla r dife
rencias en la ten d en cia cen tral, con diferencias relativam ente
m enores en dispersin. El le c to r h a r bien en convencerse p o r s
m ism o q ue e n el caso de tales poblaciones tenem os pro b ab ilid a
des de o b te n e r u n n m ero relativ am en te g ran d e d e secuencias
h acia el ce n tro de la distribucin. Y en relacin con sem ejantes
datos, la p ru e b a de las secuencias se r m u ch o m enos fu e rte que
la de M ann-W hitney. E n relacin con la m ayora de las aplicacio
nes sociolgicas, la p ru e b a de M ann-W hitney p arece ser la m s
til de las dos.
*
Si se h a conseguido u n nivel de escala de intervalo y se su
ponen leg tim am ente poblaciones norm ales, p u d o h ab e rse efec
tu ad o la p ru e b a t p a ra la d iferen cia e n tre las m edias. E n tales
condiciones, cunto p erd eram o s sirvindonos de la p ru e b a de
M ann-W hitney, cayendo p a ra ello h ac ia a tr s en cu an to al nivel
de m edicin y sirvindonos de u n m odelo m s dbil? La eviden
cia est en que, en el caso de m u e s tra s m edianas y grandes, la
eficacia de la fu erza de la p ru e b a d e M ann-W hitney es aproxim a
d am en te del 95 p o r ciento en com paracin con la de la t. La efi
cacia de la fu erza es asim ism o m u y g ran d e en el caso de m ues
tra s pequeas, pese a que los valores n u m rico s exactos n o sean
fciles de o b tener. B radley [ 1 ] observa q u e e n general la eficacia
de m uchas p ru e b a s n o p aram trica s, e n tre ellas la d e MannW hitney, es relativ am en te m ay o r p a r a las m u estras pequeas que
p a ra las g randes. As, pues, la p ru e b a de M ann-W hitney consti
tuye u n a altern ativ a m uy fu e rte de la p ru e b a t. E n v ista del he*cho de que re q u ie re su p u esto s m u ch o m s dbiles, d eb e ra em
p learse en aquellas situaciones en q u e existe alguna d u d a razo
n ab le de la legitim idad ya sea d e la escala de in terv alo o de la
n o rm alidad. Se sabe m enos, e n cam bio, a p ro p sito d e la eficien
cia de la fu erza d e la p ru e b a d e las secuencias. S m ith [ 8] h a
en c o n trad o eficiencias de ap ro x im ad am en te el 75 p o r ciento en
varios ejem plos em pricos, en los q u e los tam a o s de las m ues
tra s eran d e alre d ed o r de 20 y las poblaciones norm ales presen
ta b a n desviaciones e st n d a r iguales. B radley [1 ] observa que la
eficacia de la p ru e b a de secuencias con m u estra grande, es, p o r
com paracin con la p ru e b a t, d e ap ro x im ad am en te u n tercio, en
igualdad de condiciones.

X IV .4. La prueba de K olm ogorov-Sm im ov


La p ru e b a de K olm ogorov-Sm irnov, que designarem os sim ple
m en te com o p ru e b a de Sm irnov, es o tra p ru e b a n o p ara m tric a
de dos m u estras, que re q u ie re los m ism os su p u esto s q u e las
p ru e b as de las secuencias y de M ann-W hitney. La fu erza de
la p ru e b a S m irnov es e n general difcil d e evaluar, p e ro en aque
llas situaciones en q u e la poblacin difiere solam ente en relacin
con la tendencia cen tral, dicha fuerza parece e sta r co m p ren
dida e n tre las de las p ru e b as de ls secuencias y la de MannW hitney. (B rad ley [1 ], p p . 291-292.) E n u n sen tid o estricto , la
p ru e b a S m irnov tam poco supone em pates, pero, com o verem os,
el p ro ced im ien to es m u y conveniente e n las situaciones en que
se d a u n bu en n m e ro de em pates, com o re su ltad o de h ab e r
ag ru p ad o los dato s e n categoras ordenadas.
E n la investigacin sociolgica nos servim os con m u ch a fre
cuencia d e variables q u e son en re alid ad escalas ordinales, p ero
en relaci n con las cuales los datos se h an agrupado, con todo, en
tre s o m s categoras grandes. Si se d an c u a tro o m s categoras
o rd en ad as de e s ta clase, la p ru e b a de S m irnov re su lta r p a rtic u
larm e n te til, en ta n to q u e el n m ero de em p ates p ro h ib ira p ro
b ab lem en te el em pleo de la de M ann-W hitney. Un socilogo pue
de acaso h a b e r dividido los residentes de u n a localidad en seis
clases sociales, tra ta n d o a todas las p erso n as de u n a clase com o
ligadas a los dem s m iem b ro s de la m ism a con respecto a la ca
ra c te rstic a general. O pu ed en h a b e rse o rd en ad o las ocupaciones
segn la condicin d e las p erso n as asignndose a todas las de
la m ism a clase d e ocupacin m arc as em p atad as. Tal vez se haya
en co n trad o u n a v ariab le d e co m p o rtam ien to que d u n a escala
de G u ttm an con siete tip o s d e resp u estas. E n todos estos ejem
plos podem os q u e re r concebir la v ariab le com o continua en re a
lidad, p e ro el in stru m e n to de m edicin h a sido excesivam ente
im p erfecto y h a p ro p o rcio n ad o datos q u e se hallan agrupados en
u n n m ero re lativ am en te pequeo d e categoras ordenadas. Lo
m ism o que en el caso de las escalas de intervalo, cu an to m s
su tiles sean las distinciones y cu an to m ay o r sea el n m ero de las
categoras em pleadas, ta n to m enos in fo rm aci n se pierde.
E l p rin cip io que se h alla e n la base de la p ru e b a de S m irnov
es m uy sencillo. Si la hiptesis n u la de que se h an extrado
m u e stra s aleato rias independientes, de poblaciones idnticas, es
co rrecta, entonces esperarem os que las distribuciones de frecuen
cia acu m u lad a d e las dos m u estras sean fund am en talm en te si
m ilares. La estad stica de la p ru e b a em pleada en la p ru e b a de
Sm irnov es la d iferen cia m xim a e n tre las dos distribuciones
acum uladas. Si d icha d iferencia es m ay o r de lo que se esp erara
p o r azar con la h ip tesis nula, esto significa que la diferencia
e n tre las d istrib u cio n es se h a hecho ta n gran d e que decidim os

d esc artar la hiptesis. Podem os to m a r la diferencia m xim a ya


sea en u n a sola direccin (si sta se h a anticipado) o en am bas
direcciones.
Problema. Supngase que hem os dividido una m u e stra al azar
de varones adultos de u n a localidad en seis clases sociales y los
hem os clasificado al propio tiem po segn sus aspiraciones b ajas
o altas de cam bio. E stas dos ltim as categoras pueden conside
ra rse com o m u estras aleatorias independientes de las poblacio
nes m s am plias de varones adultos con aspiraciones b ajas o
resp ectivam ente altas, ya que u n a m u estra to ta l com pletam ente
al azar asegura la independencia e n tre las su b m u estras que po
dam os escoger. Supngase que hem os anticipado que los de as
piraciones de cambio- elevadas ten d ern a ocu p ar u n a posicin
de clase su p erio r a los de aspiraciones b ajas. Podem os concluir
que los resu ltados son significativos al nivel de .0 1?

Clase

Aspiraciones
bajas

Aspiraciones
altas

B a ja in fe rio r
B a ja s u p e rio r
M e d ia in f e r io r
M e d ia s u p e r io r
A lta in f e rio r
A lta s u p e rio r

58
51
47
44
22
14

31
46
53
73
51
20

23 6

27 4

T o ta l

1. Supuestos. Los m ism os que se requieren en la p ru eb a de


M ann-W hitney y la de las secuencias.
2. D istribucin de m uestreo. La distribucin d e m u estreo de
D, o sea la diferencia m xim a en tre las distribuciones acum ula
tivas, pued e d arse exactam ente en el caso de N pequeas ( < 40),
si Nj = N 2 ([7 ], p. 129). E ste caso no lo trata rem o s, ya que con
relativam ente pequeas puede em plearse, en lu g ar de la pru eb a
de Smirnov, la de M ann-W hitney, y porque en la m ayora de los
ejem plos sociolgicos no solem os p o r lo regular o b ten er m u estras
exactam ente del m ism o tam ao. Si las dos m u estras son m a
yores que 40 y si no se h a anticipado la direccin, necesitarem os
u n valor de D que sea p o r lo m enos tan grande com o
1.36 Y
p a ra p o d er d e sc a rta r al nivel de .05. E n relacin con los niveles
de .01 y .001, el coeficiente de 1.36 puede rem plazarse p o r 1.63

y 1.95 respectivam ente. E n el caso del nivel de .10, el coeficiente


co rresp o n d ien te es de 1 .22.
Si la direccin se h a anticipado, podem os servirnos de la ap ro
xim acin de la x-cuadrada. La e stad stica de la p ru e b a x-cuadrad a (x2) se co n sid erar e n el captulo siguiente, y la ta b la d e la
m ism a re su lta r m s fa m iliar en dicho momento. E n treta n to ,
la f rm u la de la aproxim acin es com o sigue:
f = 4D2 N lN 2 1
Nx + Na

( X IV .10)

en donde los grados d e lib e rta d asociados a la ^-cuadrada son


siem pre dos en e s ta p a rtic u la r aplicacin. Si bien al em p lear
la aproxim acin de la ^-cuadrada se suponen distribuciones con
tin u as de la poblacin, si los datos son en re alid ad discretos y
d an lugar, en consecuencia, a grandes n m ero s de em pates, las
p ro b ab ilid ad es o b ten id as quedarn, e n caso de desearse el des
carte, en sen tid o conservador. E n o tro s t rm in o s: las v erdade
ra s p ro b ab ilid ad es sern m enores q u e las calculadas.
3. N ivel de significado y regin crtica. El p ro b lem a re q u ie re
el nivel de significado d e .01. Y a q u e se h a an ticip ad o la direc
cin, nos servirem os d e la aproxim acin d e la ^-cuadrada.
4. Clculo de la estadstica de la prueba. O btenem os p rim ero
las d istribuciones de frecuencia acu m u lad a de cada u n a de las
m u estras (vase c u a d ro X IV .l), ex presando los valores de F
com o p roporciones d e las m agnitudes to tales de las m u estras.
As, pues, el p rim e r v alo r in scrito e n la colum na de las F de la
m u e stra 1 ser 58/236, o sea .246; el segundo se r 109/236, o
.462, y as sucesivam ente. Las ltim as anotaciones de cada co
lu m n a sern, p o r supuesto, la unidad. F orm am os ah o ra una
colum na de las diferencias, F1 F2, y localizam os la diferencia
m ay o r con el signo positivo, ya que anticipam os m ayores p o r
cen tajes de las clases in ferio res con aspiraciones b ajas, o sean
m ayores valores de Ft . E ste valor de D re su lta se r de .187, com o
lo indica la flecha. A continuacin calculam os el v alor de la
X - c u a d r a d a sirvindonos de la ecuacin (X IV .10).
5. Decisin. O bsrvese q u e cu an to m ay o r sea el v alor de D,
ta n to m ay o r ser la ^-cuadrada. P o r lo tan to , slo necesitam os
sa b e r cun g ran d e d eb a s e r sta p a r a d e sc a rta r la hiptesis nula.
R ecurrim os, pues, al cu ad ro de la x-cuadrada (c u a d ro i del Apn
dice 2 ), b u scam os los grados de lib e rta d de a rrib a a b a jo en el
m arg en izquierdo, y el nivel de significacin, arrib a, de izquierda
a derecha, y vem os que, con 2 grados de lib ertad , co rresponde
al nivel .01 el v alo r 9.210. E sto significa que si la hiptesis n u la
fu e ra cierta, o b ten d ram o s u n a ^-cuadrada de e s ta m agnitud, o>
3 D e b id o a e llo t a l v e z s e p o d r a p l a z a r e l e s t u d io d e l a p r u e b a d e Smir*n o v h a s t a d e s p u s d e h a b e r le d o e l c a p . xv.

C uadro X IV .l. Clculos para la prueba de dos m uestras

de S m irn o v
Aspiraciones de cambio

Clase

Altas F1
Debajo de
superior
Debajo de
inferior
Debajo de
superior
Debajo de
inferior
Debajo de
superior
Total

Diferencias

Bajas F2

la baja
58

.246

31

.113

.133

109

.462

77

.281

.181

156

.661

130

.474

.187

200

.847

203

.741

.106

222
236

.941
1.000

254
274

.927
1.000

.014

la media
la media
la alta
la alta

/2 -4 m

n ,n 2
236(274)
4(.187)2.
- 17.74
Nx+ N 2
236 + 274

m ayor acaso, m enos del uno p o r ciento de las veces. Y ya que ob


tuvim os u n a /-cu a d rad a de 17.74, vem os que podem os d esc artar
la hiptesis nula. E sta m ism a p ru e b a de la /-cu a d rad a puede em
p learse en relacin con m u estras pequeas cuando se h a antici
p ad o la d ireccin; y si se tiene inters en d e sc a rta r la hiptesis
nula, la aproxim acin de la /-cu a d rad a ser en realid ad conser
vadora. E n o tro s t rm in o s : las probabilidades obtenidas con este
m todo sern m ayores que las reales.
Si no se h u b iera anticipado la direccin, entonces necesitara
m os, p a ra o b ten er significacin al nivel de .01, u n valor de D que
sea p o r lo m enos igual o su p erio r a
1.63

N, + N 2
NiN.,

' 236 + 274


236(274)

1.63(.0888) = .145

E n este caso obtenem os D to m ando la diferencia m ayor, indepen


d ien tem en te del signo. Y com o q u iera que este valor es el m ism o
q u e el de la D utilizada an terio rm en te (.187), vem os q u e podem os
tam bin d esc artar la hiptesis nula.
XIV.5. La prueba de W ilcoxon de pares asociados y rdenes pro
vistos de signo
Las tres p ru eb as no param tricas exam inadas h a sta aqu, en el
presen te captulo, requeran que las dos m u estras se selecciona-

ra n independientem ente u n a de otra. Se re c o rd a r que, al asociar


pares, no podam os servirnos de la p ru e b a de la diferencia de
las m edias. E n lu g ar de ello, trat b am o s cada p a r com o caso sin
g u lar y obtenam os u n a m arc a de diferencia p a ra cada uno de
ellos. Procedam os luego com o si tuviram os u n a sola m u estra, y
verificbam os la hiptesis n u la de que uB = 0. El lecto r re co rd a r
adem s que, al servirnos de la p ru e b a de los signos, pudim os tam
bin h a b e r em pleado p ares asociados, teniendo slo en cuenta el
signo de la diferencia y verificando la hiptesis n ula con ayuda
de la distrib u ci n binom ial. E n la p ru e b a de los signos, haba
m os de d e ja r de lado to d a la inform acin que poseyram os acer
ca de la m agnitud de las diferencias im plicadas. P or o tra p arte,
la p ru e b a m s fuerte, o sea la p ru e b a t, re q u era no slo u n a
escala de intervalos, sino, adem s, el su p u esto de u n a poblacin
n o rm al de las m arcas de las diferencias. La p ru e b a de W ilcoxon
de p ares asociados y rdenes provistos de signo, en cam bio, com
b in a algunas de las caractersticas de esas dos pru eb as y se si
t a, en cu an to a eficacia d e la fuerza, e n tre am bas.
Como verem os en seguida, la p ru e b a de W ilcoxon re q u ie re un
nivel de m edicin ligeram ente su p erio r al de la escala ordinal.
N ecesitarem os, en efecto, u n a escala m tricam en te ordenada, en
la que sea posible o rd e n a r no slo las m arcas m ism as, sino ade
m s las diferencias e n tre ellas. Como q u iera que las escalas
m tricam en te ordenadas se en cu en tran ra ra m e n te en la investiga
cin sociolgica, este requisito1 equivale p rcticam en te a que ne
cesitem os u n a escala de intervalo. Sin em bargo, ya que la p ru e b a
d e W ilcoxon no p resupone u n a poblacin norm al, la exam inare
m os ju n to con las dem s p ru eb as d e dos m u estras no param
trica s en el p re sen te captulo. La eficiencia de la fuerza de esta
p ru e b a es su stan cialm ente m ayor que la de la p ru e b a de los sig
nos, circu n stan cia que no debe so rp ren d er, ya que sta obtiene
v en taja de ta n poca inform acin disponible. Si los supuestos de
la p ru e b a t son efectivam ente ciertos, entonces la eficacia de la
fu erza de la p ru e b a de W ilcoxon es aproxim adam ente del 95 %,
ta n to p a ra m u estras pequeas com o grandes. De ah que re su lte
p artic u la rm en te til e n situaciones en las que tenem os u n nivel
de m edicin de escala de intervalo, p ero e n las que la m agni
tu d d e la m u estra es con to d o dem asiado peq u e a p a ra ju stific a r
el su p u esto de n orm alidad.
E n esencia, la p ru e b a d e W ilcoxon co m p o rta la m ism a hipte
sis n u la em pleada en la p ru e b a de los signos y tam bin en la
p ru e b a t p a ra p ares asociados. La hiptesis nula sostiene que no
existen diferencias e n tre las m arcas d e las dos poblaciones. Al
servirnos de e s ta p ru eb a, obtenem os p rim ero las m arcas d e la
diferencia p a ra cada p ar. E stas diferencias se ordenan, p rescin
diendo de sus signos respectivos. As, pues, u n a diferencia de 6
se o rd e n ar p o r encim a de la de + 3. U na vez ordenados e n esta

fo rm a los valores absolutos de las diferencias, asignando siem pre


el rango 1 a la m enor diferencia num rica, volvem os a tr s y anota
m os los signos. Finalm ente, obtenem os las sum as de los rde
nes de las diferencias, de las positivas y de las negativas. Si la
hiptesis n u la es correcta, esperam os que la su m a d e los rdenes
de las diferencias positivas ser aproxim adam ente igual a la de
los rdenes d e las diferencias negativas. Si stas difieren m ucho
e n tre s en m agnitud, entonces la hiptesis n u la p u ed e descar
tarse. F orm am os la estadstica T, que es la m enor d e las sum as
en cuestin. Nos servim os a continuacin d e tab las exactas de la
d istrib u ci n de seleccin de T si la A? es pequea, y de u n a apro
xim acin n o rm al si es grande.

C uadro

X IV .2. Clculos de la prueba de W ilcoxon


de pares asociados

Ni del
par

Grupo A

Grupo B

1
2
3
4
5
6
7
8
9
10
11
12
13

63
41
54
71
39
44
67
56
46
37
61
68
51

68
49
53
75
49
41
75
58
52
49
55
69
57

Total

Diferencia
5
8

-1
4
10
-3
8
2
6
12
-6
1
6

Orden de
la diferen
cia

(+ ) 6
( + ) 10.5
( - ) 1.5
(+ ) 5
( + ) 12
(-) 4
( + ) 10.5
(+ ) 3
(+ ) 8
( + ) 13
(-) 8
( + ) 1.5
(+ ) 8

rdenes
negativos

1.5
4

13.5

Con fines de com paracin, sirvm onos de los m ism os datos u ti


lizados en el caso de la p ru e b a t correspondiente. El cu ad ro X IV .2
re p ite dichos datos y p roporciona al p ro p io tiem po los clculos
necesarios p a ra la p ru e b a de W ilcoxon. O bsrvese que, al ignorar
los signos, algunas de las m arcas de las diferencias re su ltan em
p atad as en cu an to a la m agnitud. E n ta l caso, dam os u n a vez m*
a las m arcas em patadas el valor prom edio que h ab ra n tenido de
n o estarlo .4 As, p o r ejem plo, tenem os dos diferencias d e tam a.

* Otro procedimiento algo ms conservador consistira en romper los em


pates de tal manera que se obtuviera el mayor valor posible de T. Los pares
cuyas puntuaciones tuviesen una diferencia de 0 exactamente (es decir: nin
gn cambio) deberan ser eliminados del anlisis.

o 1. Como q u iera que atribuim os a las diferencias m s pequeas


los rangos inferiores, cada u n a de aqullas obtiene u n a m arc a de
o rd en o rango de 1.5. E n la quinta colum na hem os indicado el
signo asociado a cada orden, e n tre p arn tesis, a la izquierda del
m ism o. Vemos a sim ple vista que la sum a de los rdenes negati
vos ser in ferio r a la de los positivos. P o r lo tanto, obtenem os T
sum ando estos rdenes negativos. No es m en ester re te n e r los
signos negativos al b u sc a r el valor de T en el cuadro, ya que
los valores se h allan siem pre dados com o positivos. As, pues,
T = 1.5 + 4 + 8 = 13.5
Form alicem os ah o ra lo que hem os hecho, siguiendo los pasos
en la fo n n a habitual.
1. S u p uestos.
N ivel de m e d ici n : escala m tricam en te ord en ad a (las m a r
cas de las diferencias pueden o rd en arse).
M odelo: m u e stra s aleatorias.
H ip tesis: la su m a de los rdenes positivos = a la de los
rdenes negativos en la poblacin.
2. D istribucin de m uestreo. La distribucin de m u estreo de T
p a ra N < 2 5 se d a en el cu ad ro H del A pndice 2. E n relacin con
m u e stra s m ayores, la distribucin d e T es aproxim adam ente
n o rm al, co n :
m ed ia = xr = - ^ + 1 )

y desviacin e s t n d a r = or = ^

(X I V .ll)

(X IV .12)

3. N ivel de significacin y regin critica. Lo m ism o que en el


caso de la p ru eb a t, nos servirem os del nivel de .05, sin a n ticip ar
la direccin del resultado.
4. Clculo de la estadstica de la prueba. ste se halla ya efec
tu ad o en el cu ad ro XIV.2, que nos d a u n a T de 13.5.
5. Decisin. El c u a d ro H del A pndice 2 d a valores crticos de
T p a ra N < 25. Ya que T re p re se n ta la m en o r de las dos sum as
de rdenes, necesitam os valores num ricos pequeos de T p ara
d e sc a rta r la hiptesis nula. As, pues, podrem os d e sc a rta r H 0
siem pre que T sea igual o in ferio r a los valores dados en el cuer
p o del cuadro. Vemos que con u n a N de 13 necesitam os una T
d e 17, o m enor, p a ra p o d er d e sc a rta r al nivel de .05. Vemos tam
b in que se n ecesitara u n a T de 13 o m enos p a ra el d escarte al

nivel de .02. AI servim os de la p ru e b a en el captulo an terio r,


se h a b r observado que, al nivel de .02, slo logram os d esc artar
all con m uy poco m arg en ; aqu, en cam bio, estam os ligeram ente
p o r encim a de dicho nivel, p e ro los re su ltad o s de am bas p ru e b as
son, con todo, m uy sim ilares.
Si b ien n u e stra N es m uy pequea, podem os d e todos m odos
servirnos de la aproxim acin n o rm al con fines de ilustracin. Ob
tenem os :
T - N ( N + l)/4

Zu *

\ / N ( N + 1) (2JV + l)/2 4
13.5 13( 14 )/4
1 3 .5 -4 5 .5
--------------- . - ----- = -------------------= - 2.24
\/13( 14) (27)/24
V24?75
Como q u iera que u n a Z de 2.24 corresponde a p = .025, re su lta
que volvemos a llegar a la m ism a conclusin. El valor de T es
m ucho m en o r que el que esp eraram o s debido- al azar, y podem os
en consecuencia d e sc a rta r la hiptesis nula. D ebe observarse que
la a n te rio r aproxim acin n o rm al n o contiene u n a correccin ex
p lcita de los em pates, no debiendo p o r tan to se r u sad a en los
casos en que el n m ero relativo de em pates es ex trem adam ente
grande.
X IV .6. R esu m en
E n el p re sen te captulo hem os exam inado c u a tro p ru e b as n o p a
ra m tricas d istin tas. E n los captulos sucesivos verem os otras.
Tal lecto r h a b r observado, sin duda, que todas esas p ru e b a s,n o
p a ra m tric a s co m p o rtan h a s ta aq u ideas m uy sim ples y consi
d erab lem en te m enos clculos q u e la p ru e b a d e la d iferencia de
las m edias, p o r ejem plo. sta es u n a razn m s e n fav o r de nues
tr a tesis en el sen tid o de que, en el fu tu ro , los socilogos se
servirn m ucho m s de estas p ru e b as n o p aram tricas. P o r des
gracia, en u n tex to general n o se p u ed e h ac er m u ch o m s que
exam inar un as pocas de esas p ru e b as brevem ente. Algunas de las
p ru e b as exam inadas en el p re se n te captulo tienen adem s algu
n as o tras aplicaciones que no se h an exam inado. As, p o r ejem plo,
la p ru e b a de las secuencias p u ed e em plearse com o p ru e b a del
c a r c te r fo rtu ito . L a p ru e b a de Sm irnov, p o r su p a rte , puede
u tilizarse com o p ru e b a de u n a sola m u e stra p a ra c o m p arar las
frecuencias observadas con las q u e se h an an ticip ad o terica
m ente. E n algunos casos, pueden o b ten erse intervalos d e confian
za em pleando procedim ientos no param tricos. P o r lo tanto, una
vez que se h aya fam iliarizado con las p ru e b as tra ta d a s en este
texto, el lecto r p ro p e n d er ta l vez a co n su ltar o b ras m s especia

lizadas. A fortunadam ente, m uchos de estos procedim ientos no


p aram trico s pu ed en com prenderse fcilm ente, au n p o r p a rte del
lecto r sin g ran p rep araci n m atem tica. Es u n a suerte, tam bin,
que cierto n m ero de esos procedim ientos hayan sido resum idos
en textos recientes de Siegel [7 ], B radley [1 ] y Pierce [5]. El
lecto r p o d r co n su ltar asim ism o con provecho la extensa biblio
g rafa sobre m todos n o p aram trico s com pilada p o r Savage [ 6].
T anto en este ca p tu lo com o en el a n te rio r hem os observado
q u e es necesario' d istin g u ir e n tre m u estras que fu ero n seleccio
n ad as in d ependientem ente, y aquellas que h a n sido paread as o
en las que se incluyen com paraciones de puntuaciones correspon
dientes a los m ism os individuos. De e sta m anera, la indepen
dencia, o la fa lta de ella, e n tre m u estras, es u n a de las consideraraciones que deben h acerse cuando se escoge e n tre distintos
pro cedim ientos estadsticos. E n el caso de m u estras paread as
fo rm am o s u n a sim ple p u n tu aci n p a ra cad a p a r, y a continuacin
utilizam os el d ato com o si se tra ta ra d e u n a sola m uestra. Cuan
do las m u estras h a n sido tra ta d a s independientem ente, no siendo
ta l vez iguales p o r o tra p a rte los tam a o s de las m u estras,
fo rm ulam os la h ip tesis nula, suponiendo que h a hab id o m u s
treo s in dependientes de las m ism as poblaciones, y que la d is tri
bu ci n de n u e stra estad stica de la p ru e b a (Z, t, r, U o D ) se
b as e n dicho su puesto. E stos principios se am plan fcilm ente
a m s de dos p ru eb as. E n los captulos xv y xvi observarem os
com paraciones e n tre tre s o m s m u estras seleccionadas indepen
dien tem ente, cuan do la segunda variable p u ed e se r u n a escala
nom inal, o rd in al o de intervalo. Aun cuando no nos cen trarem o s
en el exam en de ejem plos m s com plejos, e n los que haya im
plcitas m s de dos m u e stra s p areadas, p o d r verse e n el e je r
cicio 5 del cap tu lo a n te rio r y en el ejercicio 5 d e este m ism o
captulo, que la am pliacin es directa. La id ea b sica es la de
que u n o o b tiene u n a sola p u n tu aci n p a ra cad a p a r (la que pud e re s u lta r de u n a d iferencia de diferencias o alguna o tra funcin!
m s com p leja), p ro ced ien d o a continuacin com o si se hubiese
tra ta d o de u n a sim ple m u e stra de tam a o N, en la que N re
p re se n ta el n m ero d e p ares (o d e tro s, etc te ra ).
E n el p re sen te ca p tu lo abordam os p o r p rim e ra vez u n pro b le
m a d e tip o general, a s a b e r : el del c rite rio q u e h a d e aplicarse al
escoger e n tre p ro cedim ientos estadsticos altern ativ o s. Nos hem os
c e n tra d o especialm ente en el concepto de la eficacia de las fu e r
zas relativ as d e las p ru e b as p o r el hecho de que algunas d e stas
req u ieren supuestos m s fu ertes que o tras. No debe sin em bargo
el le c to r q u ed arse b a jo la im p resi n de que el problem a es tan
sencillo com o aq u ella d istincin da a en ten d er. Ya se h a hecho
n o ta r q ue en la m ayora de los casos p rctico s n o se conoce lo
su ficien te acerca del v alo r real de los p a r m e tro s com o p a ra
b a s a r en ta l conocim iento unas conclusiones definitivas. H ay ad e

m s o tra cuestin, m s tcnica, que no hem os discutido. E n ella


estn im plicadas las sensibilidades relativas d e las p ru e b as en
ord en a la violacin de los supuestos requeridos. P or ejem plo :
qu p erju icio se causa si se u tiliza u n a p ru e b a de diferencia de
m edias cu an d o la poblacin tiene u n a fo rm a especificada com o
no n o rm al? Q u o cu rre si se viola el su p u esto de las escalas
de intervalo? Los estadsticos em plean la expresin robustez de
una prueba cu an d o aluden a su sensibilidad a n te diversas clases
de distorsiones. L a ro b u stez re su lta p a rtic u la rm e n te difcil de
ev aluar cuando son varias las distorsiones, o los supuestos no
cum plidos, cuya aplicacin es sim ultnea. Aun cuando los proce
dim ientos p aram trico s, tales com o la p ru e b a de la diferencia
de m edias, p u ed en parecer razo n ab lem en te ro b u sto s b a jo m uchas
situaciones, hay diferencias d e opinin en cu a n to a lo aconseja
ble que re su lte u tiliz a r tales p ru e b as cuando se dispone de a lte r
nativas no p aram tricas.
N u estra p o sicin es la d e que cu an d o n o se pueden aplicar
criterio s claros lo p ru d e n te es u tiliza r v arias p ru e b as diferentes,
tan to p aram trica s com o n o p aram trica s, publicando los dos'
grupos de re su ltad o s p a ra que el lecto r p u ed a sac ar sus propias
conclusiones. H ab itu alm en te se hace esto dando, en no tas al pie
de la pgina, los resultados de u n a segunda pru eb a, com entando
las razones p o r las cuales las conclusiones no re su lta ro n idnti
cas. C uando h ay u n a p ru e b a (o estim acin) n o p aram trica dis
ponible, cuya fuerza sea casi ta n a lta com o la de u n procedim ien
to param trico com parable, tal com o la p ru e b a de M ann-W hitney
com o altern ativ a a la p ru eb a t, p arece ra p referib le confiar m s
bien en el p rocedim iento no p aram trico . E nco n trarem o s em pe
ro m uchos pro cedim ientos p aram trico s m ultivariados p a ra los
que no existe u n a altern ativ a no p aram trica satisfactoria. An
tes que u s a r u n a altern ativ a dbil o tericam ente n o satisfacto
ria, re su lta preferible, si tal es el caso, re c u rrir decididam ente
a los p ro cedim ientos p aram trico s, conscientes de que n o se
po d rn o b ten er con ellos resu ltad o s definitivos. No es posible,
en pocas p alab ras, d a r u n a sim ple re sp u esta dogm tica a la p re
g u n ta: Qu clase de p ru e b a o m edida es la m s apropiada?
G losario

Prueba no param trica


* Eficiencia de fuerza
* Funcin de fuerza
* Fuerza de una prueba
E jercicios

1. Se ha clasificado cierto nmero de iglesias protestantes de una


localidad como: 1) predominantemente de clase alta o clase media

alta o 2) predominantemente de clase media baja o clase baja. Se


ordenan segn el grado de formalismo de sus servicios, con los si
guientes resultados:
Clase alta o clase media alta: rdenes 1, 2, 3, 6, 7, 8, 11, 13, 14, 15, 17,
21, 25
Clase media baja o clase b a ja : rdenes 4, 5, 9,10, 12,16, 18, 19, 20, 22,
23, 24, 26, 27.
Sirvindose del nivel de .05, puede establecerse una diferencia sig
nificativa: a) con la prueba de las secuencias, y b) con la de MannWhitney? Qu prueba preferira el lector? Por qu? Respuesta,
a) r = 14, no rechazar; b) U = 52, no rechazar.
2. En el cuadro 18.3 se dan datos de los grados de popularidad de
los miembros de un grupo de un campo de trabajo de verano. Con
sidrese a las personas con los grados de participacin del 1 al 8 como
activas" en las discusiones del grupo, poniendo a las dems en la
categora de inactivas. Existe al nivel de .05 diferencia significa
tiva alguna entre las personas "activas y las inactivas" por lo que
se refiere a la popularidad? Emplense sucesivamente las pruebas de
las secuencias y de Mann-Whitney.
3. Supngase que se ha logrado ordenar las ocupaciones urbanas
por grados descendentes, sirvindose de las categoras generales de
profesional y directivo, empleado, obrero calificado, semicalificado y
no calificado. El investigador ha preguntado a todos los padres de
familia si son o no partidarios del aumento de los beneficios de la
seguridad social a expensas del contribuyente. Los resultados son
como sigue:
Nivel de ocupacin

Partidarios

Contrarios

Profesional y directivo
Empleado
Obrero calificado
Obrero semicalificado
Obrero no calificado

46
81
93
241
131

97
143
88
136
38

592

502

Total

Existe alguna relacin significativa entre la ocupacin y la actitud


al nivel de .001? Respuesta, D .282, P < .001.
4. Resolver el ejercicio 2 del captulo x m utilizando la prueba de
Smimov. Comparar estos resultados con los de la prueba .
5. Efectense todas las indagaciones del ejercicio 5 del captulo xm ,
sirvindose de la prueba de Wilcoxon de los pares asociados y los r
denes provistos de signo. Cmo se comparan entre s los resultados
de las dos pruebas? Respuesta, a) T = 14.5, no rechazar; c) T = 11,
no rechazar.
* 6. Verifiqese que la ecuacin (XIV.8) es equivalente dsete el pun
to de vista algebraico a la otra frmula de Z dada en la pgina 273.

B iblio g ra fa

1. Bradley, J, V.: Distribution-free Statistical Tests, Prentice-Hall,


Inc., Englewood Cliffs, N. J., 1968, caps. 1-3, 5, 11 y 13.
2. Dixon, W. J., y F. J. Massey: Introduction to Statistical Analysis
3? ed., McGraw-Hill Book Company, Nueva York, 1969, cap. 17.
3. Freund, J. E.: Modern Elementary Statistics, 3? ed., Prentice-Hall
Inc., Englewood Cliffs, N. J., 1967, cap. 13.
4. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 18.
5. Pierce, Albert: Fundamentis of Nonparametric Statistics, Dickenson Publishing Company, Inc. Belmont, Cal., 1970, cap. 14.
6. Savage, I. R.: "Bibliography of Nonparametric Statistics and Related Topics, Journal of the American Statistical Association,
vol. 48, pp. 844-906, 1953.
7. Siegel, S,: Nonparametric Statistics for the Behavioral Sciences,
McGraw-Hill Book Company, Inc., Nueva York, 1956, caps. 5 y 6.
8. Smith, K.: "Distribution-free Statistical Methods and the Concept
of Power Efficiency, en L. Festinger y D. Katz (eds.) Research
Methods in the Behavioral Sciences, The Dryden Press, Inc., Nue
va York, 1953, pp. 536-577.
9. Swed, F. S., y C. Eisenhart: "Tables for Testing Randomness of
Grouping in a Sequence of Altematives, Annals of Mathematical
Statistics, vol. 14, pp. 66-87, 1943.
10. Walker, H. M. y J. Lev: Statistical Inference, Henry Holt and
Company, Inc. Nueva York, 1953, cap. 18.

E n e l p resen te captulo- vam os a estu d iar las relaciones en tre dos


o m s escalas nom inales. Ya vim os que el caso de dos escalas
nom inales dicotm icas poda tra ta rs e como u n problem a que com
p o rta ra u n a diferencia de proporciones. R esulta a m enudo de
seable servirse de u n procedim iento de p ru e b a m s general, que
nos ponga en condiciones de averiguar las diferencias que haya
e n tre tres o m s m uestras, o de co m parar dos (o m s) m ues
tra s con resp ecto a u n a variable de m s de dos categoras. La
p ru eb a de la ^-cuadrada que vam os a exam inar en la prxim a
seccin nos perm ite establecer relaciones e n tre escalas nom ina
les con cu alquier n m ero de categoras. Se in tro d u cirn al p ro
pio- tiem po algunos conceptos nuevos. H asta aqu slo nos hem os
ocupado de p ru eb as acerca de la existencia de u n a relacin en
tre dos variables. E n este captulo se p re se n ta r n algunas m e
didas indicativas de la fuerza o grado de relacin. Se exam inarn
al p ro p io tiem po procedim ientos em pleados p a ra el control de
u n a o m s variables.

XV.1. La prueba de la

cuadrada

La p ru e b a de la -/-cuadrada es u n a p ru e b a m uy general que pue


de em plearse cuando- deseam os ap reciar si unas frecuencias obte
nidas em pricam ente difieren significativam ente o no de las que
se esp eraran b ajo cierto co n ju n to de supuestos tericos. La
p ru e b a general p re sen ta m uchas posibilidades de aplicacin, la
m s com n de las cuales, en ciencias sociales, es la relativa a los
p roblem as de contingencia en los que dos variables de escala
nom inal se h an clasificado p o r com paracin de una con o tra .1
Supngase, p o r ejem plo, que se h an relacionado u n a con o tra la
confesin religiosa y la filiacin poltica y que los datos se h an
resum ido en el siguiente cuadro de contingencia de 3 x 3 :
Partido

Republicanos
Demcratas
Independientes
Total

Protestantes

Catlicos

ludios

126
71
19
216

61
93
14
168

38
69
27
134

Total
2.25

233
60
5.18

1 En relacin con otro empleo de la ^-cuadrada, vase el ejercicio 3 a!


final del captulo.
289

Obsrvese que si las frecuencias se convirtieran en porcentajes,


p odram os d ecir que, en ta n to que el 58.3 p o r cien to de los p ro
testan tes son republicanos, slo p re fiere n este p artid o el 36.3 por
ciento de los catlicos y el 28.4 p o r ciento de los judos. Se nos
p o d ra entonces o c u rrir p re g u n ta r si esas diferencias eran o no
significativas desde el p u n to de vista estadstico. Como q uiera que
se tienen tre s confesiones religiosas y tre s categoras de prefe
ren cia poltica, no podernos servirnos d e u n a sim ple p ru e b a de
las diferencias de las proporciones. Sin em bargo, sirvindonos
de la p ru e b a de la /^-cuadrada, podem os estab lecer esencialm ente
la m ism a clase de hiptesis n u la que an terio rm en te. Podem os
sup o n er, en efecto, que no existe d iferencia alguna e n tre las tres
confesiones religiosas. E sto equivale a decir que las proporciones
de republicanos, de dem cratas y d e independientes deberan ser
las m ism as en cada tino de dichos grupos. P artiendo, pues, del
supuesto de que la hiptesis n u la es co rre c ta y d e que las m ues
tra s son aleato rias e independientes, podem os calcu lar un con
ju n to de frecuencias que p o d ra n esperarse, dados los totales
m arginales en cuestin. E n o tro s trm inos, podem os calcular el
n m ero de p ro te sta n te s de los que esp eraram o s fu e ran republi
canos y c o m p arar esta cifra con la que se h a obtenido en re a
lidad. Si la diferencia y las diferencias co rrespondientes a las
o tra s casillas son considerables, p ro b ab lem en te sospechem os de
la hiptesis nula.
H ay que o b tener, pues, alguna m ed id a de la d iferencia en tre
las frecuencias observadas y las esperadas. Existe, p o r supues
to, u n a g ran ca n tid a d d e m edidas, p ero necesitam os u n a con
resp ecto a la cual la distribucin de m u estras sea conocida y
est tab ulada. P o r ello nos servim os de u n a m edia designada
com o de la ^-cuadrada (y'), que se define com o sigue:
X2 = S L Z ^ 1

Je

(XV.1)

en lo que f0 y f e se refieren respectivam ente a las frecuencias ob


servadas y esp eradas p a ra cada casilla.2 O en o tras p a la b r a s : la
^-cuadrada se o btiene tom ando p rim ero el cu ad rad o d e la diferen
cia e n tre las frecuencias observadas y esperadas p a ra cada casilla.
Dividimos d icha cifra e n tre el n m ero de casos esperados en cada
casilla, con o b jeto de norm alizarla, de m odo que las m ayores
contribuciones n o provengan siem p re de las casillas m ayores. Y
la sum a de to d as esas cantidades no negativas p a ra todas las ca
sillas es el v alo r de la ^-cuadrada.

2 Con objeto de reducir la confusin hemos abandonado el ndice i, su


ponindose, con todo, que estamos sumando los resultados de todas las
casillas.

O bsrvese que cu an to m ayores son las diferencias e n tre las


frecuencias observadas y las esperadas, tan to m ayor es el valor
de la /-cu ad rad a. sta slo ser cero si todas las frecuencias
o bservadas y esperadas son idnticas. Podem os proceder a una
verificacin de la hiptesis n u la b uscando la distribucin de m ues
treo de la /-cu adrada. D ifcilm ente anticiparem os que las fre
cuencias observadas y las esperadas sean exactam ente las m is
m as. Sin em bargo, si el valor de la ^-cuadrada resu lta m ayor
de lo que al azar se anticipara, estarem os en condiciones de des
c a rta r la hiptesis n u la siguiendo el procedim iento habitual.
Problem a. Podem os servirnos del ejem plo pu esto anteriorm en
te, p e ro sim plificndolo, de m an era que obtengam os u n a ta b la de
2 X 2. La extensin del m ism o al caso general re su lta r despus
m uy sencilla. Supongam os, pues, que se h an com binado los ca
tlicos y los judos y que se h a prescindido de los independien
tes. Tenem os as el siguiente cuadr&

Partido

Protestantes

Catlicos
y
judos

Total

Republicanos
Demcratas

126
71

99
162

225
233

Total

197

261

458

Im p o rta o b servar que las cifras de cada casilla son en realidad


frecuencias y no po rcen tajes. Si as cifras dadas son porcentajes,
hay q ue convertirlas en frecuencias, ya que, desde el punto de
vista estadstico, la p ru e b a de la /-cu a d rad a com porta u n a com
p araci n de frecuencias y no de porcentajes.
1. S upuestos.
N ivel de m e d ic i n : dos escalas nom inales
M odelo: m u estras aleatorias independientes
H ip tesis: n o existen diferencias e n tre las poblaciones con
fesionales e n relacin con la preferen cia poltica.
P o r supuesto, el nivel de m edicin puede ser m s elevado. En
efecto1, las p ru ebas de la /-cu ad rad a se utilizan con frecuencia
con escalas ordinales e inclusive, en ocasiones, con escalas de
intervalo. Sin em bargo, segn vim os en los captulos preceden
tes, se dispone en tales casos de pruebas m s fu ertes que se
em p learn p o r lo re g u lar con preferen cia a la /-cuadrada. Una
vez m s, h ay que su poner independencia e n tre las m u estras p ara
serv irse de la p ru e b a de la /-cuadrada. La m agnitud de la m us-

t r a h a de se r re lativ am en te grande, p o rq u e la %-cuadrada, segn


la define la frm ula, tiene u n a d istrib u ci n de m u estreo que slo
se ap roxim a a la del cu ad ro si N es grande.3
L a h ip tesis n u la p u ed e fo rm u larse en cierto n m e ro de m o
dos equivalentes. D ecir que no hay diferencia e n tre grupos con
fesionales en m a te ria de p referen cia p o ltica equivale esencial
m en te a d ecir que no- hay d iferencia alguna e n tre la filiacin
religiosa y la p re fere n cia electoral. H ay que te n e r p resen te, sin
em bargo, que sem eja n te afirm acin slo- se ap licara a las varia
bles tales com o se las haya definido o p erativ am en te; en este caso,
p o r ejemplo-, la p referen cia poltica y la religin se definiran
com o variables dicotm icas. P o d ra tam bin enunciarse la hip
tesis n u la enum erando las diversas proporciones que se suponen
iguales. Si bien este ltim o m todo sea ta l vez el m s preciso,
p u ed e re su lta r con todo m uy em barazoso en el caso general.
2. N ivel de significacini^Siipongam os que querem os dem os
t r a r u n a diferencia y que deseam os se r ex trem adam ente cautos.
Nos servirem os, en consecuencia, del nivel de .001. Supngase
asim ism o que n o se h a anticipado- la direccin de la diferencia.
3. D istribucin de m uestreo. Las distribuciones de m u estreo
d e la %-cuadrada e stn dadas e n el cu ad ro I del A pndice 2. Ob
srvese que las distribuciones difieren de acu erd o con los grados
de lib e rta d im plicados. La determ inacin de los grados de liber
tad se exam inar m s abajo. Como q u iera que, independientem en
te de la direccin de la relacin e n tre la confesin y la p refe
ren cia poltica, n u estro in ters e st en sab e r si la ^-cuadrada
o b ten id a es o n o m ayor de lo que se e sp e rara al azar, slo nos
ocupam os de la cola m ayor de la distribucin. La cola m enor,
que consta de valores m uy pequeos de la i-cuadrada, n o se
suele em p lear p o r lo- reg u lar en los problem as de contingencia.
4. Clculo de la estadstica de la prueba. Lo p rim e ro que h a
cem os en el clculo de la ^-cuadrada es o b ten er las frecuencias
esperad as. La hiptesis nula dice que no- hay preferencias de la
gente en cuanto a la votacin. P o r lo tan to , independientem ente
d e cul sea el v e rd ad ero n m ero de republicanos en cada u n a de
las poblaciones confesionales, esperaram os que, a la larga, h ab ra
la m ism a p ro p o rci n de aqullos en am bas m uestras. Como q uiera
que la p ro p o rci n de republicanos en la m u estra com binada es
de 225/458, o sea .4913, esp eraram o s la m ism a cifra en cada
u n a de las dos m u e stra s confesionales. As, pues, anticiparam os
en cada uno de ellos los m ism os p o rcen tajes de republicanos y
de dem cratas. Podem os o b ten er luego el nm ero esp erad o de
republicanos en tre los p ro te sta n te s m ultip lican d o .4913 p o r el
n m ero to tal 4de p ro te sta n te s de la m u estra. E n esta form a,
el nm ero an ticipado de p ro te sta n te s republicanos sera (.4913)

* Para un examen ms detallado de este problema vanse las pp. 299-301.

(197) = 96.8. Las dem s frecuencias anticipadas pueden calcularse


en fo rm a anloga. P o r lo re g u lar se recom ienda re te n e r p o r lo
m enos u n a cifra decim al al calcular las frecuencias esperadas.
De m odo que en el caso a n te rio r no redondearam os a 97.
Antes de p a sa r adelante, conviene ob serv ar que las frecuencias
esp erad as tam bin pueden obtenerse razonando en fo rm a inver
sa, esto1 es, en trm inos de la pro p o rci n de republicanos que
esp eraram o s que fu e ran p ro testan te s. Toda vez que la p roporcin
de p ro testan te s en la m u e stra com binada es de 197/458, o sea
.4301, podem os o b ten er la frecuencia an ticip ad a de republicanos
p ro te sta n te s com o sigue: (.4301) (225) = 96.8. El lecto r h a de
ac o stu m b ra rse a o b ten er las frecuencias esp erad as en am bas fo r
m as, a ttu lo de co n tro l de los clculos.
U na vez que nos hayam os aco stu m b rad o al procedim iento, en
co n trarem o s p ro b ab lem en te m s sencillo' servim os de u n a sim ple
f rm u la com o la q u e se describe a continuacin. Si designam os
las casillas y los to tales m arginales com o
a
c

b
d

a+c b+d

a+ b
c+d
N

entonces la frecuencia esp e rad a puede o b ten erse m ultiplicando


los dos m arginales correspondientes a la casilla en cuestin y
dividiendo e n tre N . As, p o r ejem plo, la cifra esp erad a p a ra la
casilla a sera
(a + b ) ( a + c ) / N = (225) (197)/458 = 96.8
El em pleo de este ltim o procedim iento reduce todo e rro r de
red o n d eo que p o d ra in tro d u cirse dividiendo1 p rim ero (p a ra ob
ten er la p ro p o rci n ) y m ultiplicando luego.
Se o b serv ar que este procedim iento de m u ltip licar m arginales
p a ra dividirlos e n tre el nm ero to tal de casos, viene a ser b sica
m ente el m ism o que se exam in en el captulo ix en relacin con
la independencia de dos variables. E sto pone de relieve el hecho
de q ue las frecuencias esperadas son com putadas sobre la b ase
del supuesto de que las variables no e st n relacionadas, en ta n
to que las frecuencias observadas nos m u e stra n el grado en que
se viola este supuesto. R ecurdese que si los eventos (o va
riab le s) A y B son estad sticam en te independientes, el conocer
el v alo r de u n o n o nos ay u d ar a p re d ecir el otro. Si las fre
cuencias observadas y las esperadas son exactam ente iguales, ello
significara, en n u estro ejem plo, que el conocer las diferencias
religiosas d e u n a p erso n a no1 nos p e rm itira p re d ecir sus incli
naciones polticas.

P or convencin, ponem os p o r lo reg u lar las frecuencias espe


rad as e n tre p arn tesis, debajo de las frecuencias realm ente ob
tenidas p a ra cada casilla, ta l com o se indica a co n tin u ac i n :
Partido

Protestantes

Republicanos

126
( 96.8)
71
(100.2)

Demcratas
Total

197

Catlicos
y judos

99
(128.2)
162
(132.8)
261

Total

225
233
458

Los clculos p a ra la /-cu ad rad a pueden resum irse en u n cuadro


com o el X V .l. O bsrvese que la can tid ad f 0 f e tiene el mis-

Cuadro

XV .l. Clculos de la /-cuadrada

Casilla

f0

1e

fo~fe

(fo-fe*

( f o - f e Wf e

a
b
c
d

126
99
71
162

96.8
128.2
100.2
132.8

29.2
-29.2
-29.2
29.2

852.64
852.64
852.64
852.64

8.808
6.651
8.509
6.420

Total

458

458.0

30.388

m o valor p a ra cada casilla. E l lecto r debera convencerse p o r s


m ism o de que esto ser siem pre as en el caso de tablas de 2 X 2,
p ero que no se d eja con todo generalizar a otros casos. El hecho
de elevar este valor al cu ad rad o tien e p o r efecto la elim ina
cin de las can tidades negativas. Im p o rta que se em pleen en el
d enom inador las frecuencias esperadas, y no las observadas. En
efecto, estas ltim as v aria rn de u n a m u estra a o tra, y pueden
incluso ser iguales a cero.
R esulta a m enudo m s conveniente servirse de u n a frm ula de
clculo que no re q u ie ra la sustraccin efectiva de cada frecuencia
esperada de su correspondiente observada. D esarrollando el nu
m erad o r en la expresin de la /-cu a d rad a y uniendo los trm inos
o b ten em o s:
( f e - f e )2

f <? -

V o te +

/ .2

PROBLEMAS DE CONTINGENCIA

295

Pero, to d a vez que tan to 2 / com o 2/ son iguales a N, te n e m o s:


2
X

/o2

(XV.2)

Sirvindonos de esta frm ula, que co m p o rta una sola su stra c


cin, obtenem os el m ism o re su ltad o que an terio rm en te (vase
cuadro XV.2).

Cuadro

XV.2. Clculo de la %-cuadrada sirvindose de la frm ula


Casilla

f 2
10

fo2/fe

a
b
c
d

15 876
9 801
5 041
26244

164.008
76451
50.309
197.620
488.388

T o ta l

y2 - 488.388 - 458
" = 30.388
E n el caso de u n a ta b la de solam ente 2 x 2 , re su lta posible ex
p re s a r la /-cu a d rad a com o sim ple funcin de las frecuencias de
las casillas y de los to tales m arginales. Si se designan las casillas
com o an terio rm en te, ten em o s:
f = --------------N("'ad ~ bC)-------------*
(a + b) (c + d) (a + c ) (b + d)

(XV.3)

Si b ien este clculo re q u ie re la m ultiplicacin de nm eros gran


des, el em pleo de los logaritm os lo- sim plificar con todo con
siderablem ente. Vemos el paso, de la ecuacin (XV.3), q u e la
/-cuadrada ser cero cuando' el producto- diagonal ad sea exacta
m en te igual al p ro d u c to be. E ste hecho puede em plearse com o
m to d o rp id o p a ra sab e r si es o no necesario seguir adelante
con la p ru e b a de significacin. Si los p ro d u cto s diagonales son
casi iguales, la /-cu a d rad a ser dem asiado peq u e a p a ra p ro p o r
cio n ar significacin. E stos p roductos diagonales sirven asim ism o
p a ra d eterm in a r la direccin de la relacin sin que tengam os que
m o lestarn o s en calcular los p orcentajes. El m ayor de los dos
p ro d u cto s indica, en efecto, cul de las diagonales contiene la
m ay o ra de los casos.
*
T anto las an terio res frm ulas p a ra / ( c h i) al cuadrado, com o
el pro ced im ien to p a ra calcu lar frecuencias esperadas, son sufi-

cientes en la m ayora de los casos, pero- puede re su lta r til co


n ocer una versin algo distinta, aplicable al caso r X c en gene
ral, conveniente p a ra quienes deseen proseguir el tem a de la 7 al
cu adrado en otros textos m s avanzados. E sta form ulacin alter
nativa ser u tilizada m s adelante p a ra ob ten er el lm ite supe
rio r de x al cu adrado en el caso general r X c. P or o tra parte,
esta fo rm a altern ativ a p a ra la f rm u la n o requiere el clculo ex
plcito de las frecuencias esperadas.
Sea N j = n m ero observado en (i, ;')-sima casilla del cuadro, y
ei} = n m ero esperado (b a jo H 0) en la casilla (i, j),
p a ra
Sea

i = 1 , 2, . . . , r ; y / = 1 , 2, . . c.
O
N u E N ijt p a ra i = 1, 2, . . r (to tal de filas), y
ii
r

N. = 2 Nij, p a ra y = 1, 2, . . . , c (to tal de colum nas).


-=1
As podrem os expresar y al cu ad rad o com o sigue
Xa =

2
1,=1

(jv4 _ e
"

)s

p ero puesto que


Ni.

N.,

&ij~ N ' N

N;. N.t

la frm ula com putadora (XV.2) pasa a ser


r

f = N

A l-Z

2 ----- *--------1

[. *=! ^

N. N.j

y as vemos que no hay necesidad de co m putar explcitam ente


las frecuencias esperadas.
5.
Decisin. Antes de servirnos del cuadro de la ^-cuadrada,
hem os de d eterm in a r los grados de lib ertad asociados a esta es
tadstica de prueba. En los problem as anteriores, los grados de
lib ertad dependan siem pre del nm ero de los casos selecciona
dos. En los problem as de contingencia, en cambio, dichos grados
slo dependen del nm ero de casillas del cuadro. Al calcular las
frecuencias esperadas, pudo observarse que no es necesario cal
cu lar valores p a ra cada casilla, ya que la m ayora de ellas podan
obtenerse p o r sustraccin. Y de hecho, en la ta b la de 2 X 2 slo

necesitam os calcular u n a de las frecuencias esperadas, y las o tras


quedan au to m ticam ente determ inadas. E sto es as porque, p a ra
calcu lar las frecuencias esperadas, nos servim os de los totales
m arginales de n u e stra m u estra. E n o tro s trm in o s: si ponem os
el valor de u n a casilla cualquiera, los dem s valores estn p er
fectam ente determ inados, ya que las frecuencias esperadas han
de te n e r los m ism os totales m arginales que las observadas. Por
lo tan to , slo tenem os u n grado de lib ertad .
H abiendo, pues, averiguado que en la ta b la de 2 X 2 slo hay
un grado de libertad, buscam os en el cu ad ro de la /-cu ad rad a
a lo largo de la hilera correspondiente a u n grado de lib ertad
h asta e n c o n trar el nivel de significacin deseado. Vemos en esta
fo rm a que al nivel de .001 le corresponde u n a /-cu ad rad a de
10.827. E sto significa que, si todos los supuestos son efectiva
m ente correctos, obtendrem os u n valor de la /-cu ad rad a igual
o m ayor que se u n a vez e n tre mil. E n o tro s t rm in o s: slo m uy
ra ram en te d iferirn las frecuencias observadas y las esperadas
en u n a cantidad que d u n a /-cu ad rad a > 10.827, si no h u b iera
relacin alguna e n tre la confesin religiosa y la preferencia en
cu anto al voto (ta l como se h a definido operativam ente en este
p ro b lem a). Y com o q u iera que hem os obtenido p a ra la /-cua
d ra d a u n valor igual a 30.388, concluim os que la hiptesis nula
pued e descartarse al nivel de .001. Vemos, de paso, que, si N es
grande, no es n ad a difcil llegar a o b ten er significacin al nivel
de .001.
Pese a que slo nos ocupram os de valores grandes de la
/-cu ad rad a, la direccin de la relacin no se anticip en el ejem
plo an terio r. Independientem ente de si los p ro testan tes p re sen
tab an m s probabilidades de ser republicanos o dem cratas, el
re su ltad o h a b ra sido u n a /-cu ad rad a grande si los p o rcen tajes
eran tam b in grandes. E n otros trm inos, la estadstica de la
p ru e b a es aqu indiferente a la direccin de la relacin, ya que
co m p o rta los cuadrados de las desviaciones y, p o r consiguiente,
no pued e ser negativa. Podem os sacar p a rtid o de las predicciones
relativas a la direccin partien d o sim plem ente p o r la m ita d el
nivel de significacin obtenido. En efecto, si la /-cu ad rad a es lo
b astan te grande p a ra d a r significacin al nivel de .10 sin a n ti
cip ar direccin, el re su ltad o ser tam bin significativo al nivel
de .05, a condicin, p o r supuesto, que la direccin de la rela
cin se haya fijado de antem ano.
Si el nivel de significacin deseado no puede obtenerse exacta
m en te de la tab la d e la /-cuadrada, se conseguir u n a aproxim a
cin satisfacto ria extrayendo la raz c u a d rad a de la /-cu ad rad a
y recu rrien d o a la ta b la norm al. As, p o r ejem plo, sabem os que
u n a /-cuad rad a de 3.841 con u n grado de lib ertad corresponde
al nivel de .05 si no se h a adivinado la direccin. La raz cu adrada
de esta cifra es 1.96, que es el valor de Z necesario p a ra ob ten er

sig n ificaci n co n la ta b la n o rm a l. s ta , sin e m b arg o , slo p u ed e


e m p le a rse e n el c a so de p ro b le m a s d e co n tin g en c ia d e 2 X 2.

Caso general. E n el caso general d e la tab la de contingencia con


r hileras y c colum nas, los supuestos y clculos p a ra la ^-cua
d ra d a slo req u ieren u n a ligera m odificacin. La hiptesis nula
de "ausencia de diferencias o "ausencia de relacin" im plica
ah o ra que cada poblacin te n d r las m ism as proporciones p ara
cada u n a de las categoras de la segunda variable. Las frecuen
cias esperadas pueden obtenerse exactam ente en la m ism a fo r
m a que an terio rm en te, p ero ten d rem o s ah o ra re casillas, y los
grados de lib e rta d sern distintos.
Supngase que nos servim os del m ism o p roblem a an terio r,
p ero en su fo rm a original, o sea la de u n a tab la de 3 X 3. O bser
vemos de p aso que e sta tab la nos p roporciona m ay o r inform a
cin que la de 2 X 2, en la que los catlicos y los ju d o s se com
bin aro n en u n a sola categora. Podem os, p o r lo tan to , esp erar
resu ltad o s que difieran algo de aquellos obtenidos an terio rm en
te. Calculando las frecuencias esperadas p o r uno cualquiera de
los m todos an terio rm en te sugeridos, obtenem os:
Partido
R e p u b lic a n o s
D e m c ra ta s
In d e p e n d ie n te s

T o ta l

Protestantes

Catlicos

Judos

126
( 9 3 .8 )
71
( 9 7 .2 )
19
( 2 5 .0 )

61
( 7 3 .0 )
93
( 7 5 .6 )
14
( 1 9 .4 )

38
( 5 8 .2 )
69
( 6 0 .2 )
27
( 1 5 .6 )

21 6

168

134

Total
225
233
60

518

Puede co n stru irse u n a tab la de clculo lo m ism o que a n te rio r


m en te (vase cu ad ro XV.3).
P ara d eterm in a r los grados apropiados de lib ertad , observam os
que, u n a vez las dos p rim eras frecuencias esperadas in scritas en
la p rim era colum na, la te rc e ra se h alla d eterm in ad a p o r su strac
cin. Y lo m ism o es cierto de la segunda. Todas las frecuencias
esperadas de la te rc e ra colum na e sta r n determ inadas a p a rtir
de los totales de la hilera. E n trm inos generales: p a ra cada
u n a de las p rim era s c 1 colum nas ser posible llen ar todas las
casillas m enos una, o r 1. La colum na final estar, pues, siem
p re p erfectam en te determ inada. P or 1o- tanto, el nm ero de los
grados de lib ertad de la tab la de contingencia de r X c puede
expresarse p o r m edio de la f rm u la
d f (r ) (c l )

Cuadro

XV.3. Clculo de la /-cuadrada para una tabla de


contingencia de 3 x 3

Casilla

fo

fe

f 02

a
b
c
d
e
f
g
h
i

126
61
38
71
93

14
27

93.8
73.0
58.2
97.2
75.6
60.2
25.0
19.4
15.6

15 87 6
3 721
1444
5 041
8 649
4 761
361
196
729

T o ta l

518

5 18.0

69
19

w u
169.254
50.973
24.811
51.862
114.405
79.086
14.440
10.103
46.731
561.665

x 2 = 5 6 1 .6 6 5 - 518 = 43.665

O bsrvese que esta f rm u la da u n grado de lib ertad en el caso


especial en que r = c = 2.
T oda vez que son 4 los grados de lib e rta d asociados a n u estra
tab la de 3 X 3, vem os que p a ra el rechazo al nivel de .001 se re
q u iere u n a /-cu ad rad a de 18.465. R echazam os, p o r consiguiente,
la hiptesis nula. O bsrvese que si p a ra rechazar se req u iere un
valor m ayor de la /-cuadrada, es p orque hay m uchas m s casillas
que contribuyen a dicho valor. Como q u iera que la /-cu ad rad a
re p re se n ta u n a sum a y n o un prom edio, esp eraram os que, en
igualdad de condiciones, cu an to m ayor sea el nm ero de casillas,
ta n to m ay o r ser la /-cuadrada. El hecho de que el valor de la
/-cu a d rad a re q u erid o p a ra o b ten er significacin aum ente con los
grados de lib ertad n o d eb era so rp ren d em o s.4
Correccin de continuidad. Ya se indic que la p ru e b a de la
/-cu a d rad a req u iere u n a N relativam ente grande debido al hecho
de que la distribucin de m u estreo de la estad stica de la p ru e b a
slo se aproxim a a la distribucin de m u estreo dada en la tabla
de la /-cu ad rad a si N es grande. P lantase, pues, n atu ra lm e n te la
cuestin de cun gran d e debe ser N p a ra que podam os servirnos
de d icha prueba. La resp u esta depende del n m ero de casillas
y de los totales m arginales. G eneralm ente, cu an to m en o r sea el
n m ero de casillas y cu an to m s aproxim adam ente iguales sean
todos los totales m arginales, tan to m en o r p o d r ser N . Los
crite rio s n o rm alm ente utilizados p a ra decidir si el n m ero de
casos es o no suficiente, im plican las frecuencias esperadas
de cada casilla. Siem pre que cualquiera de estas frecuencias sea
*

Obsrvese que esto era al revs en el caso de la distribucin t. Por qu?

aproxim adam ente de cinco1 o m enor, se recom ienda p ro ced er a


alguna clase de m odificacin, com o se indica a continuacin.
Se supone que la distribucin de la ^-cuadrada es continua. En
realidad, sin em bargo, si el n m ero de casos es relativam ente
pequeo, re su lta im posible que el v alo r calculado de la '/-cuadrada
tom e m uchos valores distintos. E sto es as p o rq u e las frecu en
cias observadas h an de ser siem pre nm eros enteros. Al co rre
gir con fines d e continuidad, n o s im aginam os que las frecuen
cias observadas pueden to m a r efectivam ente todos los valores
posibles y nos servim os de los que quedan a u n a distancia de
m edia u n id ad a u n o y o tro lado del en tero
obtenido, lo que dar
los resu ltad o s m s conservadores. E n el caso de la tab la de
2 x 2, la correccin de continuidad p u ed e h acerse m uy fcilm en
te. E sta correccin consiste ya sea en a a d ir o su stra e r .5 de las
frecuencias observadas, con objeto de re d u c ir el tam a o de la
/-cu ad rad a. La versin corregida de la ecuacin ( X V 3 ) es la si
guiente :

N ^ \ a d -b c \

N\ 2
j

(a + b) (c + d) (a + c) (b + d )
P ara a p reciar el efecto de la correccin de continuidad, pode
mos ver los siguientes c u a d ro s :
(A)

7 13
(10) (10)
8
(5)

20

2
(5)

10

15 15
x2 = 5.40

30

(B)

7.5 12.5
(10) (10)
7.5
(5)

2.5
(5)

15 15
x2 = 3.75

20

10
30

E n el cuadro B hem os corregido p o r razones de continuidad re


duciendo las diferencias e n tre las frecuencias observadas y espe
rad as en m edia unidad. H em os su p u esto que h ab a e n tre 6.5 y
7.5 casos en la casilla su p erio r de la izquierda, y hem os tom ad \e l n m ero de 7.5, p o rq u e es el valor m s cercano, al in
terio r de dicho intervalo, de la frecuencia esp e rad a de 10.0. E n
este ejem plo, la correccin de con tin u id ad reduce el nivel de sig
nificacin de ap roxim adam ente .02 a algo m s de .05. Es obvio,
p o r lo dem s, que las correcciones de co ntinuidad pro d u cirn
m enos efecto cuando- las frecuencias esperadas sean m ayores.
Toda vez que sem ejante correccin co m p o rta en realid ad un
esfuerzo adicional m uy pequeo y que, p o r o tra p arte , al proce

d e r as actuam os en sen tid o conservador, se recom ienda efec


tu a rla siem pre que en cualquier casilla la frecuencia esperada
descienda p o r debajo d e 10. Con m u estras m uy pequeas, in
cluso esta correccin pro d u ce resultados engaosos. P ara las
tab las d e 2 X 2 se dispone de u n a p ru e b a altern ativ a que se exa
m in a en la seccin siguiente.
E n el caso- de la ta b la general de contingencia, las correcciones
de con tin u id ad n o son fciles de hacer. Si el n m ero de casillas
es relativ am en te g ran d e y si solam ente u n a o dos de las casi
llas tien en frecuencias esp erad as de 5 o m enos, entonces reco
m indase, p o r lo general, seguir adelante con las pruebas de la
/-cu ad rad a, sin p reo cu p arse mucho- p o r tales correcciones. En
cam bio, si el n m ero d e casillas es pequeo, la n ica alternativa
p r ctica con sistir tal vez en com binar las categoras de m odo
que dichas casillas re su lten elim inadas. P or supuesto, las cate
goras slo pueden com binarse si ello- posee tericam ente algn
sentido. As, p o r ejem plo, si h u b iera u n a categora "de o tras con
fesiones que c o n sta ra de u n n m ero ta n grande de grupos
confesionales que la categora n o tu v iera tericam ente sentido
alguno, ta l vez sera p referib le excluir a dichas personas p o r
com pleto del anlisis aunque, como- regla general, no- es buen
sistem a el de excluir d ato s de u n anlisis.
*XV.2. La prueba exacta de Fisher
E n el caso de tab las de 2 X 2 en las que N es m uy pequea, es
posible servirse de u n a p ru e b a d esarrollada p o r R. A. Fisher, que
nos da p ro babilidades exactas, y no- aproxim adas. Si designam os
las casillas y los m arginales de la tab la de 2 X 2 de la siguiente
m a n e ra :
a+ b
b
a
c+d
d
c
a+ c

b+ d

podem os conseguir la p ro b ab ilid ad de o b ten er exactam ente esas


frecuencias en la h iptesis n ula de que no hay diferencias en las
p ro p o rciones de las poblaciones. E sta p ro b ab ilid ad nos e st dada
p o r la f rm u la:
(a + & )!(c + d ) !(. + c ) \ ( b -f d ) !
P = ~~

~ \a\b~\c\d\

E sta f rm u la de p ro b ab ilid ad puede o b ten erse utilizando la dis


trib u ci n h ip ergeom trica p a ra el clculo de probabilidades so
b re la b ase de m u estreo sin reposicin. E n esta prueba, com o en

algunas o tra s p ru eb as no param tricas, podrem os en ten d er el


pro b lem a com o si ste contuviera rep etid as m u estras de una
poblacin de tam ao N. T ratam os as n u e stra m u e stra obte
nida como si se tra ta ra de u n a poblacin real, e im aginam os en
este ejem plo que las categoras de nu estro s casos les dan cabida
en una de las cu atro casillas. Como hay a + c individuos en la
p rim era colum na, a + b en la p rim e ra fila, y as sucesivam ente,
cul ser la p ro b ab ilid ad de que de los a + b individuos de la
p rim era fila co rresp o n d an exactam ente a a la p rim e ra colum na
y b a la segunda? Nos im aginam os h a b e r m u estread o a + b in
dividuos al azar p ero sin reposicin, colocndolos en la prim era
fila, con los re sta n te s cayendo p o r necesidad en la segunda fila.
En efecto, re su lta que im aginam os que llenam os las casillas por
un proceso esencialm ente al azar, y preguntam os cul hubiera
sido la ex actitu d de los resu ltad o s si hubiese sido seguido tal
proceso.
Aplicando la f rm u la p a ra la distrib u ci n hipergeom trica dada
en la seccin X.4, verem os que la p ro b ab ilid ad de o b ten er exac
tam en te a y b casos en las dos casillas de la fila su p erio r vendra
d ada p o r

P(a,b) =

E scribiendo cada u n o de los trm inos en funcin de factoriales,


y sim plificando, o b ten em o s:
(a + c)!
P( a , b ) =

(b + d)\

a\(a + c - a ) \ b\(b + d - b ) \

(a + c ) ! (b + d) \
alcl

bldl

NI

N\

(a + b ) \ ( N a b ) \

(a + 1b ) \ (c + d ) !

(a + c ) \ { b + d ) \ ( a + b ) \ ( c + d ) \
Nlalblcldl
P uede com p robarse fcilm ente que se h a b ra conseguido el
m ism o re su ltad o si hubiram os concebido el problem a com o
o rien tad o a seleccionar u n a m u e stra de a + c individuos, asig
nndolos a continuacin a la p rim e ra colum na.
Obsrvese q ue hay nueve factoriales en esta f rm u la de P. Por
lo tanto, la ta re a de calcularla sera form idable. P o r o tra p arte,
com o q u iera que n o rm alm en te se e s t in teresad o en o b ten er la

cola e n te ra de la d istribucin de m uestreo y no la probabilidad


de av erig u ar exactam ente los resultados obtenidos, h a b ra que
a ad ir, a esta p ro b ab ilid ad p rim era, las probabilidades de obte
n er incluso m s resu ltad o s poco corrientes en la m ism a direccin.
Un sencillo ejem plo num rico ilu s tra r lo que esto significa.
Supngase que hem os obtenido la siguiente ta b la de 2 X 2:
9
5

12
17

15 14

29

3
12

Si suponem os que los m arginales perm anecen fijos, vem os


in m ediatam en te q u e hay tre s resultados (e n la m ism a direccin)
que son incluso m s difciles de obtenerse. Son los sig u ien tes:
2 10
13 4

12
17

1 11
14 3

12
17

0 12
15 2

12
17

15 14

29

15 14

29

15 14

29

O bsrvese q u e podem os llegar a las tablas sucesivas reduciendo


cad a vez en uno las casillas a y d y au m entando en u n o las casi
llas b y c, h a sta llegar a la ta b la final, en la que la casilla a est
vaca.
Supongam os que la casilla a es siem pre la que contiene el m e
n o r n m ero de casos, ya que siem pre tendrem os la posibilidad
de d isp o n er las tab las en ta l forma. Sirvm onos del sm bolo P0
p a ra designar la p ro b a b ilid ad de o b ten er exactam ente cero casos
en la casilla a (d ados los m arginales en cu e sti n ), en la hiptesis
n u la ; pongam os que P re p re se n ta la p ro b ab ilid ad de o b ten er
ex actam en te u n caso en la casilla a, Pa la de o b te n e r exactam ente
dos casos, etctera. As, pues, en este p ro b lem a p a rtic u la r h e
m os de o b ten er la su m a d e las probabilidades
Po + Pi + ^2 + P&
p a ra calcu lar la p ro b ab ilid ad de o b ten er tre s o m enos casos en
la casilla a. Y ya que nos estam os sirviendo de una p ru e b a de

s En raros casos cambiar la direccin de la relacin si se sigue la regla


de que la casilla a sea siempre la ms pequea. Por ejemplo, si las dos
distribuciones marginales son muy desiguales, la regla tal vez no se apli
que. As, si a, b, c y d son 1, 2., 3 y 7, respectivamente, el producto ad ( = 7 )
es mayor que el producto be ( = 6). Si uno reduce entonces a hasta 0, las
casillas resultantes sern 0, 3, 4 y 6, y se producir una inversin de direc
cin, puesto que be > ad. Deben ser vigiladas tales inversiones y, en caso
de que se produzcan, deber denominarse como a la casilla ms pequea en
la menor de las dos diagonales.

u n a sola cola, habrem os de doblar el nivel de significacin obte


nido, si no estuviram os en condiciones de p o d er p red ecir Ja di
reccin.0
S er m ucho m s conveniente que calcular cada u n a de las
de la f rm u la an terio r, que co m p o rta p ro d u cto s de factoriales,
ob ten er P 0 d irectam en te y o b ten er luego las probabilidades res
tan tes como funciones de P0. Con objeto de distin g u ir en tre las
varias com binaciones posibles de los valores num ricos de a, b,
c y d en el caso de m arginales fijos, sirvm onos de u n subndice
k p a ra d esig n ar la m agnitud de la casilla m s pequea a. As,
p o r ejem plo, si hay k individuos en la casilla a, designarem os
las cantidades de las dh'ersas casillas como- a.k ( = k), bk, ck y dk.
Toda vez q ue se supone que los m arginales perm anecen fijos, si
dism inuim os % y d Jc en uno, hem os de au m en ta r b k y ck tam bin
en uno. Podem os ah o ra sim plificar la f rm u la de P 0, ya que
ao = 0 y, p o r consiguiente, a0! = 1 (p o r definicin), (cz0 + &) =
b0 \, y ( a0 + c.0)! = c0!. O sea que cierto nmero- de factoriales se
elim inan, dejndonos c o n :
n _

(cf + d 0) \ ( b 0 + d0)\

El n u m era d o r consta ahora solam ente de los factoriales de dos


de los m arginales, en lu g ar de los cuatro, y el denom inador slo
co m p o rta JV!' y d0 !. El valor de d 0 puede o b ten erse de la ltim a
de las tablas anteriores. P or lo tanto, en este ejem plo, (c0 + d 0) =
17, {b0 + d 0) \A, N = 2,9, y d0 ~ 2, P0 puede calcularse ah o ra
sirvindonos de u n a tab la de logaritm os de factoriales, o bien
escribiendo los factoriales y simplificando-.
Con o bjeto de calcular los valores de Pt P2 y P?, necesitam os
ah ora u n a f rm u la general de Pk+1 en funcin de Pk. Ya que los
m arginales se suponen fijos, tenem os:
n

( a + b) !(c + d) !(a + c) \(b + d ) !

Pk+1 ~ N l ( a k + l ) l ( b k -

l ) l ( d kT W

debido al hecho de que, al a a d ir uno a la casilla a, lo aadim os


tam bin a la casilla d y lo sustraem os tanto de b com o de c. Si
dividim os ah o ra Pk+1 en tre Ph, p rcticam en te todos los trm inos
desaparecen. E n efecto, los n u m era d o res de am b as p robabilida
des son idnticos, ya que todos ellos com portan los m ism os m ar
ginales. El fa cto rial de N se elim ina. Y nos queda:

6 En un sentido estricto, la prueba de Fisher deber ser usada probable


mente slo en el caso en que previamente se hubiera predicho la direccin,
ya que las dos colas casi nunca sern perfectamente simtricas.

PROBLEMAS DE CONTINGENCIA
Pc+i
Pb

305

^ - b k \ck \dk \
( afc+ l ) ! ( f o s - l ) ! ( c fc- l ) ! ( 4 + D !

P ero ak l / ( ak + ) ! es igual a l / ( a k + 1), y lo m ism o p o r lo que


se refiere a d k \ / { d k + 1)!. O sea, pues, bk \ f ( b k - 1)! = b, y c b\
(ck 1)! = Cj.. P o r co n sig u ien te:
bi-c,,
Pk

( f c+nC^f c+l )

o sea

bA
7+1

(fl,. + l ) ( 4 + l )

P
*

y los facto riales fastidiosos h a n desaparecido. P or lo tan to , po


dem os servirnos de esta f rm u la p a ra o b ten er P, a p a rtir de P0.
Una vez o b ten id a P, podem os calcular P2, y as sucesivam ente.
V olviendo a n u estro ejem plo num rico, obtenem os P 0 com o
sig u e :
14!17!
P0 = ------------= .17535 X 10-*
2912 E
Y p o r consiguiente:
bnC0
12(15)
P = ---------- --------- P0 = _ 1 (.17535 x 10-5) _ 10.521 x 10-
(ao+l)(4>+D
K3)
Al calcu lar P2 hem os de cuidar de servirnos de a1: b, cx y d 1: y
no de las cifras em pleadas p a ra o b ten er Pt . Tenemos, a s :
P , = ---------b -1 ----------= m i l i (10.521 x 1 0 -5) = 202.529 x 10-

(fll + l ) ( d 1 + l )
2(4)
Y anlogam ente :
boC2
10(13)
P = ---------^ -------- p = _J: 1 (202.529 x 1 0 -s ) = 1 755.252X 10-
(a + l ) ( i 2 + l )
3(5)
O bsrvese que cada u n o de los factores del n u m era d o r va dis
m inuyendo en 1, al calcular Ph+1 a p a rtir de P fc, en ta n to que los
del d enom inador van aumentando* cada vez en una unidad. Su
m an d o las p ro b abilidades te n e m o s /p u e s :
P 0 + Pj + P2 + Po = (.175 + 10.521 + 202.529 + 1 755.252) x 10-=
= 1 968.48 x 10-E = .0197

P o r lo tan to , la p robabilidad de o b ten er tres o m enos individuos


en la casilla a es, con la hiptesis nula, de .02, y tom arem os nues
tr a decisin de re ch az ar o no la hiptesis n u la en consecuencia.
_D ebido a que la p ru e b a de F ish er es exacta, m erece p re fere n
cia resp ecto de la p ru e b a de la /-c u a d ra d a corregida con fines de
co n tinuidad. Y com o q uiera que p o r lo regular la p ru e b a de la
/-c u a d ra d a d a r probabilidades algo m s b ajas que la p ru eb a
de F isher, si lo que se desea en re alid ad es rech azar la hiptesis
nula, o b rarem o s, al servirnos de sta, en sentido conservador. En
o tro s trm inos, si nos servim os de la p ru e b a de la '/-cuadrada,
pu ed e se r que lleguem os a probabilidades que en realid ad sean
dem asiado pequeas, lo que nos llevara acaso a la conclusin de
que la h iptesis n ula deba d esc artarse cuando en re alid ad n o sea
as. Si la frecu en cia m nim a esp e rad a es sensiblem ente superior
a 5 y si se em plea la correccin de continuidad, las dos pruebas
d arn ap ro x im adam ente los m ism os resultados. Aun logrando
e v ita r el em pleo de factoriales en el caso de la p ru e b a de Fisher,
se echa de v er que, si la frecuencia m en o r de la casilla es m ayor
que 5, los clculos necesarios p o d r n re su lta r m uy fastidiosos.
De ah que se en c u en tre que dicha p ru e b a re su lta m s p rctica
en el caso de N m uy pequeas, o siem p re que el tam ao de la
m u estra sea m oderado y uno- o m s de los m arginales sean m uy
pequeos. E n los casos en que am bos, ( a + b ) y (c + d ) son < 30,
existen tab las en (3) que sim plifican considerablem ente el em
pleo de esa p ru e b a exacta.
XV.3. M edidas de la fuerza de la relacin
H a sta aqu slo nos hem os ocupado de la cuestin d e sab er si
exista o no u n a relacin en tre variables. H em os establecido hi
p tesis nulas en el sentido de que n o se d ab a relacin alguna, y
hem os tra ta d o de descartarlas. Pero, cuando estam os en condi
ciones de d escartar, qu es lo que hem os logrado? D esignam os
u n a relacin com o estad sticam en te significativa cuando hem os
establecido, b ajo el riesgo de e r ro r de tipp I, que s existe una
relacin e n tre las dos variables. Sin em bargo, quiere esto decir
que la relacin es significativa en el sen tid o d e s e r u n a relacin
fu e rte o im p o rtan te? N o necesariam ente. E n efecto, la cuestin
de la fuerza de la relacin es to talm e n te d istin ta de la de su
existencia. E n esta seccin vam os a ocuparnos de diversas m e
didas de grados de asociacin que ayudan a co n testa r la segun
da de las p reg u n tas.
A p rim e ra v ista p o d ra p arece r razonable tr a ta r de establecer
la fuerza de la relacin observando sim plem ente el nivel de signi
ficacin conseguido con u n a pru eb a. As, p o r ejem plo, podra
d isc u rrirse en el sen tid o de que si u n a p ru e b a es significativa al
nivel de .001 y o tra al nivel de .05, la p rim era sera la m s fuerte

de las dos. Pero, es esto necesariam ente as? El exam en de los


dos niveles de significacin nos dir en cul caso podem os e star
m s seguros de que la relacin existe. As, en el prim ero de los
dos casos citados estaram os casi seguros de que existe efectiva
m ente u n a relacin, pero no lo estaram os tan to en el segundo.
H em os de recordar, no obstante, que el nivel de significacin
alcanzado depende del tam ao de las m u estras usadas. E n efec
to, com o se indic an teriorm ente, si las m uestras son m uy
grandes, re su lta p o r lo regular m uy fcil establecer significacin,
au n en el caso de u n a relacin m uy superficial. Esto significa,
de hecho, que, cuando las m uestras son grandes, decim os en re a
lidad m uy poca cosa al afirm a r que hem os establecido u n a re la
cin significativa. E n el caso de m u estras grandes, es m ucho
m s im p o rtan te p re g u n ta r, dado que existe u n a relacin, cul
es su fu erza?
Con o b jeto de ilu s tra r lo que se acaba de decir, veam os un
poco m s de cerca cierta propiedad de la /-cuadrada. Al hacerlo,
el lecto r deber te n e r p resen te que los m ism os principios se
aplican exactam ente a o tra s clases de p ru e b as de significacin.
Preguntm onos qu sucede con la /-cu a d rad a cuando el nm ero
de casos aum enta. Con fines de ilu straci n podem os to m a r la
siguiente tab la de 2 X 2.
30
20

20
30

50
50

50

50

100

La /-cu a d rad a de esta tab la re su lta ser exactam ente 4.0. Suponga
m os ah o ra que se duplican los tam aos de las m uestras, m an te
niendo las m ism as proporciones en .cada casilla. O btendram os
as :
40 100
60
60 100
40
100

100 200

y la /-cu ad rad a sera 8.0, o sea una cifra exactam ente doble de la
an terio r. Exam inando la frm ula de la /-cu ad rad a, re su lta m uy
fcil d em o strar que, si las proporciones d e las casillas p erm ane
cen in alterad as, la /-cu a d rad a vara directam ente con el nm ero
de casos. Si duplicam os el n m ero de stos, duplicam os aqulla,
y si triplicam os los p rim eros, triplicam os la segunda. Supngase
que el n m ero de casos inicial se m u ltip lica p o r el facto r k. E n
tonces, com o q uiera que las proporciones de las casillas p erm a
necen inalterad as, to d a nueva frecuencia observada ser exacta
m ente k veces la an terio r, y lo m ism o p o r lo que se refiere a las

frecuencias esp eradas. La nueva y-cuadrada puede, pues, expre


sarse com o:

,(X )

o - k f e )2
k ? ( f o - f e )2
------71--------" = ^S -------------- = A,: 2^- ( f o ~

^ W

k fe

k fe

f e )2

fe

As, pues, el v alo r de la nueva ^-cuadrada es exactam ente k ve


ces el de la p rim itiva.
Las im plicaciones de este hecho pueden d estacarse p o r m edio
de o tra ilu straci n. S upngase que obtenem os los siguientes re
su ltados al re la cio n ar las diferencias de sexo con la tolerancia
resp ecto de co n d u ctas a n m a la s:
Toterancia

Varones

Alta
B aja

26
24

Mujeres

24
26

E n este caso la ^-cuadrada es 0.16, y estarem o s en lo cierto in


form an d o que la relacin n o es significativa. Supngase, sin em
bargo, que el estu dio fu e m uy am bicioso y que se re u n ie ro n datos
corresp o n d ien tes a 10 000 casos, con los siguientes re su ltad o s:
Tolerancia

Varones

Alta
B aja

2 600
2 400

Mujeres

2 400
2 600

La ^-cuadrada es a h o ra 16.0, o sea u n v alor altam en te significativo


desde el p u n to de v ista estadstico. S in em bargo, si hubiram os
expresado los re su ltad o s en trm in o s de po rcen tajes, la cosa se
h a b ra p re sen tad o com o m ucho m enos in tere sa n te. Si dijram os
q u e el 52 p o r cien to d e los varones e ra altam en te tolerante; en
ta n to que slo co rresp o n d a a dicha categora el 48 p o r ciento
de las m ujeres, nos c ritica ran con razn p o r d estac ar las dife
ren cias ap a ren tem e n te insignificantes ta n to desde el p u n to de
v ista terico com o del significado prctico. E ste ejem plo ilu stra
u n p u n to m u y im p o rtan te. E n efecto, u n a d iferen cia_p u ed e ser
in tere sa n te estad sticam en te sin serlo en ningn o tro sentido.
E n el caso en que se seleccionaron 10 000 casos, podem os e sta r
b ien seguros q ue h ay cierta relacin superficial, que p ro d u cira
u n a relacin significativa desde el punto- de v ista estadstico.
Vemos, pues, que si u n a m u e stra es pequea, se req u iere una
relacin m ucho m s m an ifiesta p a ra o b ten er significacin. P or
lo tan to , con las m u estras pequeas las -pruebas de significacin
son m ucho m s im p o rtan tes. E n tales casos es posible que diga
m os m ucho cu an do podem os estab lecer significacin. E l nivel
de significacin d epende de dos factores, a sa b e r: de la fuerza

o grado de la relacin y de tam a o de las m u estras. P uede ob


ten erse significacin con u n a relacin m uy fu e rte y m u estras m uy
peq u e as o, in versam ente, con u n a relacin m uy dbil y m ues
tra s m uy grandes. E n la m ayor p a rte de la investigacin social,
n u e stro in ters p rim o rd ial est n o ta n to en h a lla r variables re la
cionadas u n as con o tras, sino en localizar relaciones im p o rtan
tes. A unque conviene recalca r que no to d as las relaciones fu e rtes
son im p o rtan tes (v.gr. la relacin e n tre las edades respectivas
del m arid o y la m u je r), p a ra que u n a relacin sea de alguna
im p o rtan cia p r ctica h a de ser p o r lo m enos m o deradam ente
fu erte. U na vez que h a sido establecida la existencia de u n a re
lacin, el investigador deb era p re g u n ta rse siem pre, cun fu er
te es?
Cm o se m ide, pues, la fuerza de u n a relacin? E stam os bus
cando u n a m ed id a descriptiva que nos ayude a re su m ir la rela
cin de tal modo- que podam os c o m p a ra r varias relaciones y lle
g ar a u n a conclusin respecto de cul sea la m s fu erte. Desde
el p u n to de v ista ideal, nos g u stara te n e r alguna clase de in te r
p retaci n o p erativa de la m edida que nos a tra e intuitivam ente.
P o r convencin, los estadgrafos h a n ad o p tad o la c o stu m b re de
con ceb ir m edidas que tengan la u n id ad p o r lm ite superior, y cero
o bien m enos un o ( 1.0) com o lm ite inferior. M uchas relaciones
slo p u ed en alcanzar s u lm ite de 1.0 (o 1.0) cuando la relacin
es perfecta, y a d o p tan el valor de cero cu an d o e n tre las variables
n o existe relacin alguna, o sea cuando son independientes. Va
m os a ex am in ar a continuacin algunas m edidas que pu ed en u ti
lizarse con las tab las de contingencia, procediendo a a p rciar
sus propiedades.
Antes de e n tra r en el exam en de varias m edidas d e asociacin
que pueden em plearse co n las tablas de contingencia, h a b ra que
m encionar, p o r lo m enos, el pro ced im ien to relativ am en te sencillo
y obvio- de in d icar diferencias e n trm in o s de p o rcen tajes. Es
posible, sin la m en o r duda, o b ten er u n a indicacin m uy bu en a
del grado d e relacin e n tre dos variables dicotm icas co m p aran
do p o rcen tajes. As, p o r ejem plo, si el 60 p o r ciento* de los va
ro n es seleccionados se clasifican com o altam en te to leran tes, en
ta n to que slo se po n e en tal categora el 30 p o r ciento de las
m u jeres, tenem os u n a diferencia del 30 p o r ciento e n tre los dos
grupos. P o r qu, pues, n o servirnos de u n a m edida sem ejan te
com o m edida de la fuerza de la relacin? Si com param os indivi
duos de las clases m edia e inferior, p o r ejemplo;, desde el p u n to
de v ista de la tolerancia, y slo obtenem os u n a d iferencia del
20 p o r ciento, podem os a firm a r u n a relacin m s fu e rte e n tre
el sexo y la to leran cia que e n tre sta y la clase.
E n el caso especial de la ta b la de 2 X 2, los p o rc en tajes p u e
den efectivam ente co m p ararse en ta l form a, y la extensa fam iliarizacin con los p o rcen tajes, en c o n tra ste con o tro s tip o s de

m edidas, h ab lara ciertam ente en favor de estas com paraciones.7


Pero, qu p a sa r con la tab la general de r X c? Aqu el uso de
los p o rcen tajes puede dificultarle al lecto r ap reciar a p rim era
vista cun fu e rte sea la relacin. Supngase, p o r ejem plo, que
se utilizaban tres clases con los siguientes re su ltad o s: clase su
perior, 70 p o r ciento altam ente to le ra n te ; clase m edia, 50 por
ciento altam en te tolerante, y clase inferior, 30 p o r ciento alta
m ente to leran te. Tenem os ah o ra u n a distancia del 40 p o r ciento
e n tre las clases superior e inferior, o sea u n a diferencia num ri
cam ente m ayor que la que existe e n tre los varones y las m ujeres.
P o r o tra p arte , p o r lo regular esperarem os una diferencia m ayor
cuando slo se consideran los extrem os. Supngase que se h u
bieran ten id o cinco clases, qu clase de diferencias de porcen
tajes esp eraram os ahora, y cmo com pararam os los resultados
con los de la ta b la de 2 X 2? Y p a ra in tro d u cir u n a idea m s,
supngase que nos sirviram os de c u a tra categoras de toleran
cia. Es obvio que se hace difcil establecer com paraciones de
u n a tab la a o tra. N ecesitam os, pues, u n a m edida nica de re su
m en, que ten g a los m ism os lm ites su p erio r e inferior, indepen
dientem ente del n m ero de c a silla s..
M edidas tradicionales basadas en la ^-cuadrada. Ya se observ
que la ^-cuadrada es d irectam ente proporcional a N . Podem os
servirnos d e esfe hecho p a ra co n stru ir varias m ed id as de asocia
cin. En el caso de las dos tablas de contingencia
30
20

20
30

50
50

50

50

100

60
40

40
60

100
100

100

100

200

deseam os u n a m edida que tenga el m ism o valor p a ra cada una


de las tablas, y a que, cuando expresam os los resultados en t r
m inos de p o rcen tajes, stos son los m ism os en am bos casos. E n
o tro s t rm in o s : diram os p robablem ente que los grados o fuer
zas de la relacin son idnticos en los dos grupos de datos, y que
la nica diferencia est en la m agnitud de las m u estras. Aunque
el valor de la ^ - c u a d r a d a Sea el doble en la segunda tab la de lo
que es en la p rim era, observam os, con todo, que, si se la divide
en cada caso e n tre el n m ero to tal de los casos, los resultados
son idnticos. E sto sugiere que la expresin y?/N o algn m lti
plo de la m ism a nos dara u n a de las propiedades que buscam os
en n u e stra m edida, o sea la de d a r el m ism o re su ltad o cuando
las proporciones de casillas com parables son idnticas.

t Veremos otra ventaja de los porcentajes cuando estudiemos declives


en el captulo xvn. Como ya se indic en el caso de las pruebas para di-,
ferencias de diferencias en proporciones, una diferencia de proporciones pue
de ser considerada como un caso especial de declive.

Obsrvese que el valor de y?/N, o <f>2 segn se la escribe com n


m ente, es 0 cuando e n tre las variables n o existe relacin en ab
soluto. R esulta que, en el caso d e tablas de 2 X 2 (o 2 X k ), <ia
tien e tam b in la u n id ad p o r lm ite su p erio r cuando la relacin
e n tre las dos variables es perfecta. Supngase, en efecto, que
h u b iram o s obten ido la siguiente ta b la :
0

50

50

50

50

100

P uede v erificarse fcilm ente que, en este caso, la ^-cuadrada es


100 y, p o r consiguiente, <f>2 es 100/100, o sea 1.0. O cu rrir siem pre
que, cuando dos casillas opuestas diagonalm ente sean am bas
cero, el valor de la ^-cuadrada en u n a ta b la de 2 x 2 se ra N , y
p o r lo tan to <b2 ser la unidad. Es obvio que, en el ejem plo con
siderado, la relacin es perfecta. Si el sexo se relacio n ara en l
con la tolerancia, p o d ram o s decir que todos los varones son a lta
m en te to leran tes y to d as las m u jeres a ltam en te in to leran tes. E n
u n a term inologa con la que n o hab rem o s de ta rd a r en fam iliari
zarnos, podem os decir que el todo de la variacin en m a te ria de
to leran cia se explica p o r el sexo o est asociado con l.8
E n la tab la general de r x c,
pu ed e alcanzar u n v alo r con
sid erab lem en te m ayor que la unidad. P o r lo tanto, se h a n des
arro llad o diversas o tras m edidas que son asim ism o sim ples fu n
ciones de %2/N , p ero que tienen tam b in com o lm ite su p erio r la
unid ad . La p rim e ra de stas, designada com o la T de Tschuprov,
se define com o :
T2 _ ________ t __________________
N ^/{r-l){c-\)

y ( r - l ) ( c - 1)

Aunque el lm ite su p erio r de T sea la unidad, este lm ite slo


pued e alcanzarse cuando los nm eros de hileras y dolum nas son
iguales. E n otro s t rm in o s : T h a de ser siem pre m en o r q u e la
u n id ad en u n a tab la de 2 x 3 o de 3 X 5. Si hay considerable
m en te m s h ileras que colum nas (o viceversa), el lm ite su p erio r
de T pu ed e q u ed ar m uy p o r debajo de la unidad. P ara co rreg ir
este hecho, podem os siem pre dividir el v alo r obtenido de T e n tre
la m xim a T posible p a ra nm eros dados de hileras y colum nas.
Sin em bargo, com o q u iera que disponem os de m edidas m s sa
tisfactorias, n o necesitam os exam inar este procedim iento de co
rreccin.

s Esto supone, por descontado, que la tolerancia se toma corno variable


dicotmica.

*
Podem os m o stra r que el lm ite su p erio r de
c 1 ), utilizando la f rm u la :

2 /S
2i
<=i

Obsrvese que:
N i?
Ni.N.j
Ni?
T T T r

es M in ( r 1,

N i.N .j

N i}
< ------ p a ra
~ Ni_

i=l,2,...,r

^ Na

. , ,
; = 1 2,

par a

...,C

P o r tan to
r

c Ni?

, 2 ---------

<

= i = .i N.N.j ~~
r

As:

N if

i=1 1=1 Ni.


2

r
=

1 =

2 --------- - < 2 2 = 2 1 = c
< _ i i N i.N .j - / - i -i Af.y
' 1
r

= i

--------N - ---- <


- Min (r,c)

y de all:
X2 < J V [ M i n ( r , c ) - 1 ] = AT[ Mi n ( r - 1, c - 1 ) ]

P o r ta n to :
<j>2 < Min ( r 1, c 1)
Hay o tra m edida, in troducida p o r C ram r y que designarem os
com o V, que se define com o sigue:
V2-

^
N M in (r 1, c 1)

^
M i n ( r l , c 1)

e n donde M in (r 1, c 1) designa r 1 o c 1, segn cul de


ellas sea m en o r (v alo r m nim o de r 1 y c 1). Si bien V no se
u tiliza co rrien tem en te en la bibliografa social, con todo parece
s e r p referib le a T, en cuanto puede alcanzar la un id ad aun cuando
los nm eros de hileras y colum nas n o sean iguales. Como puede

verificarse fcilm ente, V y T son equivalentes siem pre que r = c.


De o tra form a, siem pre ser V algo m ayor que T. P or supuesto,
am bas m edidas son equivalentes de <> en el caso de 2 X 2. Y ve
m os tam b in que V y <j> sern idnticas en el caso de 2 X k.
O tra m ed id a de asociacin b asad a en la /-cu ad rad a es el coefi
cien te de contingencia de Pearson, C, que e st dado p o r:

Al igual que las o tras m edidas, C se hace cero cuando las v aria
bles son independientes. Sin em bargo, el lm ite su p erio r de C
depende del n m ero de hileras y colum nas. E n el caso de 2 X 2,
el lm ite su p erio r de C2 se convierte e n . N / ( N + N) , ya que
puede alcanzar u n valor m xim o de N. P or lo tanto, el lm ite
s u p e rio r de C es .707. Si b ien el lm ite su p erio r aum en ta a m edi
da que au m en ta el n m ero de hileras y colum nas, dicho' lm ite
siem pre es m en o r que la unidad. De ah que C sea algo m s dif
cil de in te rp re ta r que las o tras m edidas, a m enos que se in tro
duzca u n a correccin dividiendo e n tre el valor m xim o de C p a ra
n m ero s p articu lares de hileras y colum nas. E n el caso de la
tab la 2 x 2 , p o r ejem plo, la C o btenida h a b ra de dividirse e n tre
.707.
Las m edidas an terio res de la fuerza de la relacin se b asan
to d as ellas en la '/-cuadrada. Como q u iera que p o r lo regular
el v alo r de la ^-cuadrada se h a b r calculado previam ente con ob
je to de verificar el significado, todas las m edidas en cuestin re
qu ieren en realid ad m uy poco clculo adicional. P ero p o r o tra
p arte , n o existe razn p a rtic u la r alguna en cuya v irtu d u n a m e
dida de asociacin haya de b asa rse en la estad stica de la p ru e b a
correspondiente. E n efecto, puede d em o strarse que todas las
m edidas basadas en la ^-cuadrada son algo- a rb itra ria s en su esen
cia y sus in terp retacio n es d ejan m ucho que desear. As, p o r ejem
plo, to d as ellas confieren m ayor peso a las colum nas o hileras
de m arg in ales m s pequeos que a las de m arginales m ayores [ 2 ].
Sin em bargo, com o q u iera que ta n to la p ru e b a T com o la C se
en cu en tran con frecuencia en la bibliografa, el lecto r deb era fa
m iliarizarse con sus propiedades.
La Q de Yute. O tra m ed id a de uso- co rrien te es la Q de Yule,
que es tam b in u n caso especial de la m edida y (gam m a) que se
d isc u tir en el captulo x v in en relacin con las escalas o rd in a
les. E sta m edida slo puede em plearse con la tab la de 2 X 2 y se
define com o sigue:
ad be
ad + be

en donde a, b, c y d se refieren a las frecuencias de las casillas.


Obsrvese que, u n a vez elevado al cu ad rad o y m ultiplicado p o r
N, el n u m era d o r es el m ism o que en la expresin de la /-cu a d ra
da. Lo m ism o que en el caso de las dem s m edidas, Q desaparece
cuando las variables son independientes, o sea, cuando los p ro
ductos diagonales ad y be son iguales. A diferencia de <2, sin
em bargo, Q alcanza sus lm ites de 1.0 cuando una cualquiera de
las casillas es igual a cero. Con o b jeto de com p ren d er el c a r c te r
de las circu n stancias en cuya v irtu d Q pueda se r igual a la u n i
d ad en tan to que <f>2 queda p o r d eb a jo de dicho valor, tom em os
los siguientes ejem p lo s:
3020
50

0
50
50

30
70

40
10

0
50

40
60

100

50

50

100

M ientras Q a d o p ta el valor de la u n id ad en estas dos tablas, los


valores corresp o ndientes de <>2, en cam bio, son de .429 y .667 res
pectivam ente. E n am bos casos sera im posible que desaparecie
ra n dos casillas diagonalm ente opuestas, debido al c a r c te r de
los m arginales. De ah que <f>2 slo p u ed a a d o p ta r el v alo r de uno
cuando se verifican determ inadas condiciones en relacin con los
m arginales. E n la tab la de 2 x 2, los m arginales de la p rim era
variable h an de ser idnticos a los d e la segunda.9 C uanto m ayor
sea, pues, la d iscrepancia e n tre los m arginales de las hileras y
las colum nas, tanto- m en o r es el lm ite su p erio r de c>2.
P lantase ah o ra la cuestin de sab e r si querem os o n o conside
r a r u na relacin com o "p erfe cta cuando slo desaparece u n a de
las casillas, Al p arecer, la resp u esta a esta cuestin d eb era depen
der, e n tre o tras cosas, de la m an era com o estn fo rm ad as las ca
tegoras de las dos variables. P or lo re g u la r es posible concebir u n
p roblem a en trm inos de u n a variable independiente y u n a varia
ble dependiente. Parecera, pues, razonable sostener que, p a ra que
u n a relacin sea perfecta, los m arginales d e la variable dependien
te h ab ra n de "convenir n a tu ra lm e n te a los de la variable inde
pendiente. Supngase, p o r ejem plo, que h u b iera 60 p ro te sta n te s
y slo 40 catlicos y judos. E n este caso, p a ra que la relacin
fuera p erfecta, esperaram os que todos los 60 p ro testan te s vota
ra n republicano y todos los 40 re sta n te s v o taran e n favor de los
dem cratas. Los m arginales seran as los m ism os p a ra am bas
variables, y tan to <f>2 com o Q seran iguales a la unidad. P or o tra
parte, si la m ita d de la m u e stra v o ta ra republicano f la o tra mi-

Esto no significa que los marginales hayan de comportar una particin


de 50-50. Significa, en efecto, que si uno de los marginales se parte en 70 y
30, el otro ha de estar tambin partido de 70 y 30. Las correccciones de
marginales desiguales son asimismo posibles, pero, como se desprende del
examen que sigue, habr que ser cauto en el empleo de tales correcciones.

ta d dem crata, entonces, aunque todos los votos republicanos


pro v in ieran de los p ro testan te s, no podram os decir que la re la
cin era perfecta, ya que 10 de los p ro testan te s h ab ra n votado
dem crata. E n tal caso, los m arginales de la variable dependien
te no coincidiran con los de la independiente, y <j>2 sera inferior
a la unidad. P or lo tanto, en tal caso <>2 p arecera ser la m edida
m s apropiada, ya que Q to m ara el valor de la un id ad a pesar
de la relacin im p erfecta e n tre las dos variables.
O curre en ocasiones que los m arginales de la variable depen
diente son fijos, en v irtu d del m todo em pleado al establecer las
categoras. As, p o r ejem plo, si la variable dependiente fu e ra en
realid ad co n tin u a p ero se h u b iera hecho dicotm ica en la m edia
na, entonces los dos grupos de m arginales n o p o d ran ser id n ti
cos, a no se r que los m arginales de las variables independientes
estu v ieran tam bin p artid o s en 50 y 50. P or ejem plo: si la p re
ferencia confesional se h u b iera referid o a las m arcas del conser
vad u rism o poltico dividiendo en dos a la m ediana, entonces <2
no p o d ra alcanzar la u n id ad (e n el su puesto de la m ism a p a rti
cin confesional an te rio r). E n tal caso, Q p o d ra re s u lta r u n a
m edida m s apropiada, ya que tiene en cu en ta el hecho de que
los m arginales de la variable dependiente se h an fijado p o r com
pleto en v irtu d del m to d o de investigacin.
La tau de G oodman y K ruskal. Cierto n m ero de o tra s m e
didas de asociacin susceptibles de em plearse con las tablas de
contingencia h an sido p re sen tad as p o r G oodm an y K ruskal [5 ],
[ 6] y [7 ]. La m ayora de ellas com portan lo que se h a designado
com o in terp retacio nes probabilistas. Como q uiera que tienen
u n sen tid o intuitivo que p erm ite in te rp re ta r valores interm edios
en tre cero y uno, estas m edidas p o d r n p a re c e r superiores a las
q ue se b asan en la "/-cuadrada.
Con o b jeto de ilu s tra r u n a de estas m edidas, la xt (ta u ), tom a
m os u n ejem plo num rico. D esignarem os las escalas nom inales
relacionadas u n a con o tra com o A y B , y tom arem os a B com o
variable dependiente.
Bi

Bs

Total

30 0
60 0

60 0

^2

100

30 0
100

1200
800

T o ta l

900

70 0

400

2000

^1

Supongam os ah ora que se nos da u n a m u estra (o poblacin) de


2 000 personas y se nos p ide clasificarlas en u n a de las tres ca
tegoras B lt B 2 o B 3, de tal m odo que term inem os exacta

m en te con 900 casos en B 1, 700 en Bz y 400 en B :i. Supngase


p rim ero que no sabem os n ad a acerca de los individuos que nos
van a ay u d ar en e sta tarea. Si los individuos nos son dados en
u n orden to talm en te al azar, podem os calcular m uy fcilm ente el
n m ero de e rro re s q u e podem os esp e ra r com eter al asignar los
individuos a u n a de las tres categoras en cuestin.
Como q u iera que hem os de asig n ar 900 individuos a B x, en ta n
to que 1 100 de cada 2 000 n o corresponden en re alid ad a dicha
clase, podem os e sp e rar com eter a la larga 900(1 100/2 000), o sean
495 erro res. E n fo rm a anloga, hem os de asignar 700 individuos
a B 2, en ta n to que de cada 2 000 los 1 300 n o corresp o n d en a ella.
De ah, pues, que al colocar a los individuos en B., podam os es
p e ra r com eter 700(1 300/2 000), o sea 455 erro res. E n o tro s t r
m inos, d e los 700 que ponem os en dicha categora slo podem os
esp e rar que se clasifiquen correctam en te 700 455, o sean 245
individuos. P o r supuesto, n o esperam os com eter exactam ente
455 errores, p ero sta es, con todo, la cifra que obtendram os si
pro m ediram os n u estro s erro res a la larga. F inalm ente, esp era
ram os com eter 400(1 600/2 000) o 320 erro res al asig n ar los in
dividuos a B s. O bsrvese que, pese a que hagam os a esta catego
ra u n a asignacin m enor, n u e stro riesgo de e rro r es su p erio r al
de las dos categoras precedentes, ya que slo- el 20 p o r ciento de
los individuos corresponde a ella. P o r lo tanto, en conjunto, al co
locar los 2 000 individuos, esperaram os c o m e te r:
495 + 455 + 320 = 1 270
erro res. N u estro pro m ed io no sera m uy bueno.
P ero supngase ah o ra que se nos p ro p o rcio n ab a alguna infor
m acin adicional acerca de cada individuo-, dicindonos si est
e n Ax o en A.,. Y nos p reguntam os si el hecho de conocer las cla
ses A nos ay u d ar a re d u cir el n m ero de e rro res com etidos al
asignar los individuos a las categoras B. Si las variables A y B
son estad sticam en te independientes, sabem os que el conocim ien
to de A no nos ay u d ar a p re d ecir B . E n este caso, pues, espe
rarem os co m eter exactam ente los m ism os e rro res en q u e incu
rrim o s cuando n o poseam os inform acin alguna acerca de A, Por
o tra p arte, si la relacin e n tre A y B fu e ra perfecta, estaram os
en condiciones de a n ticip ar B con p erfec ta precisin conociendo
A. La m edida q u e vam os a d e sa rro llar nos indica la reduccin
pro p o rcio n al d e e rro res siendo- A conocida.
Veamos cmo- calculam os el n m ero de- e rro re s anticipados co
nociendo- A. Si se nos d a el hecho de que el individuo co rresp o n
de a la Ai , podem os servirnos de las cifras de la p rim e ra colum na.
H em os de p o n er ah o ra exactam ente 300 de los 1 200 individuos
en B v los 600 re sta n te s proviniendo de A2. Ya que de los 1 200
individuos de A r 900 n o corresponden en realid ad a B 1, podem os

esp e ra r com eter 300(900/1 200) o- 225 erro res. Y e n form a an


loga, con los 600 individuos de A x que ponem os en B. podem os
e sp e ra r co m eter 300 erro res, siendo el nm ero de e rro res co rres
p o n d ien te a B a = 225. Tom am os ah o ra los 800 individuos de A2
y asignam os 600 de ellos a B x y 100 de los 200 re sta n te s a cada
u n a de las categoras B2 y B z. Al p ro ced er as, podem os esp erar
com eter 150, 87.5 y 87.5 e rro re s respectivam ente. A dicionando las
dos can tid ad es d e Ax y A2, vem os que podem os e sp e rar com eter
u n to tal de 1 075 erro res, si A es conocida.
Definim os la m edida t& com o reduccin p ro p o rcio n al de e rro
res. As, pues :
n m ero de e rro re s con A desconocida
n m ero de e rro re s con A conocida

------------------------------------------------------- ------- -

n m ero de e rro res con A desconocida


1 270 - 1 075
195
T = ------------------ = ----------= .154
6
1 270
1 270
E n o tro s trm in o s : nos hem os evitado 195 e rro res del nm ero
to tal esp erado de 1 270, y los hem os reducido en u n 15.4 p o r cien
to. Si t 6 h u b iera re su ltad o se r .50, podram os d a r as la in te rp re
tacin m u y sim ple de que el conocim iento de A red u cira el nm e
ro de e rro re s a la m itad, en ta n to que u n v alor d e .75 equivaldra
a re d u cir el n m ero de los e rro re s a u n cuarto, y as sucesivam en
te. E n el caso d e <f>2 en cam bio, sem ejante in terp re taci n sencilla
no es posible (vase [2 ]). Si hubiram os querido in te rp re ta r las
clases B a p a r tir de las A, h ab ram o s designado la m edida co rres
p o n d ien te com o xa. P or lo general, xa y xb n o ten d r n los m ism os
valores num ricos. P or qu?
E n el caso del cu adro 2 x 2 puede d em o strarse que xa = t s = <p2.
E sto nos in d ica que se dan dos tipos de dificultades en la anota
cin. O bsrvese que algunas de n u estras m edidas (C, Q, T y V)
vienen indicadas m ed ian te letra s latinas, e n ta n to que o tra s (< y
r) lo son m ed ian te letra s griegas. Si fu ram o s consecuentes de
beram o s re se rv a r las letra s griegas p a ra los p arm etro s de po
blacin calculados m ed ian te m u estras estadsticas. P o r desgracia,
u n a vez q ue los signos vienen siendo usados en fo rm a generali
zada, re su lta difcil n o rm alizar su em pleo, y lo m e jo r que el lecto r
p u ed e h ac er es to m a r n o ta de la inconsistencia. P o r o tra p arte ,
ciertas m edidas aparecen elevadas al cuadrado, e n ta n to o tras no
lo estn. Vem os especialm ente en el caso 2 x 2 q u e el sm bolo x,
n o elevado al cu adrado, es equivalente a <f>z, el que en este caso
es igual a P y V2. As, en el caso del cu ad ro m s general puede
p a re c e r razonable c o m p arar x con los o tro s coeficientes al cua
drado, au n q u e observando que no sern idnticos. E n general

puede esp erarse que los valores num ricos de t sean m enores
que los coeficientes no elevados al cuadrado <f>, T y V. Si hubie
ra que p en sa r en funcin de ciertas m agnitudes absolutas, consi
derndolas pequeas, m edianas o grandes (p o r ejem p lo : u n valor
in ferio r a .3 es "peq u e o ), fcilm ente p o d ra in cu rrirse en e rro r
a m enos que se reconocieran claram en te las diferencias e n tre las
m edidas.
Lam bda. E xiste o tra m edida, lam bda (1) que es m uy sem ejan
te a t y que igualm ente es asim trica con resp ecto a A y B. To
m ando a B com o la variable dependiente con la que se hacen
predicciones, obsrvese que el n m ero esperado de erro res se
red u cir si se nos perm ite colocar a todos los individuos en la m a
y or de las categoras jB{ (vase ejercicio 5, captulo ix ). E n el
ejem plo a n te rio r esto h a b ra su p u esto colocar los 2 000 casos en
B en lu g ar de lim itarn o s a 900. Si lo hiciram os as com etera
m os 1 100 erro res, ya que hay u n to tal de 1100 casos en B 2 y B .
Obsrvese que stos son m enos e rro res que los que hicim os en
el caso del den o m inador de xh. Supongam os que sabem os la ca
tegora de A a la que pertenece el individuo. Si se nos perm ite
asig n ar la to talid a d de los 1 200 individuos de A x a B 2, la fila que
contiene el m ayor nm ero de individuos Alt com eterem os sola
m ente 300 + 300 = 600 errores. De m an era anloga, si colocam os
a todos los 800 individuos A2 en la categora B lt com eterem os slo
200 errores. Conociendo, pues, la categora A, y si se nos perm ite
h acer estas distribuciones m enos restrictivas, podrem os esp erar
com eter 800 erro res. F orm arem os u n a m edida l hl de "reduccin
proporcional en el erro r", com o sig u e :
1 100 - 800

Vemos que lam b d a es m s fcil de calcular que ta u ; que su


pone u n a red u ccin n o re stric tiv a de erro res, y que en este ejem
plo tiene un v alor num rico considerablem ente m ayor que el de
tau. Tiene sin em bargo la indeseable pro p ied ad de p o d er d a r un
valor num rico igual a cero en casos en que todas las dem s
m edidas consideradas no sern cero, y cuando n o desearam os
referirnos a las variables com o no correlacionadas o estadstica
m ente independientes. Tal cosa puede o c u rrir sim plem ente p o r
que una de las B m arginales sea m ucho m ayor que el resto, de
tnl m an era que cualquiera que sea la categora A, la decisin ser
siem pre de colocar todos los individuos (p a ra todo Ai ), en la
m ism a categora B. Si p o r ejem p lo las categoras B 1 y B 2 h u
biesen sido com binadas en el a n te rio r ejem plo hipottico, la de
cisin h u b iera sido siem pre la de colocar a todos los individuos
en la categora B t y B 2 y n o en la de B s, de ta l m an era que la

re su lta n te As h u b iera sido- cero. P or la m ism a razn, aun cuando


un sim ple to ta l m arginal (p o r ejem plo, Bx) no- dom ina al resto,
es p ro b ab le que algunas de las categoras m enos num erosas no
en tre n en absoluto en el crculo de lam bda. E n el ejem plo an te
rio r la decisin nu nca re su lta en la asignacin de individuos a B ?t.
Si .se h u b iera co n tado con u n a fila m s, B it tam bin con u n n
m ero relativ am en te pequeo de casos, la lam bda m edida po d ra
h a b e r sido ind iferente a la distribucin de casos e n tre B s y B 4.
P o r estas razones se p refiere a ta u sobre lam b d a en aquellos ca
sos en que los totales m arginales no son de aproxim adam ente la
m ism a m agnitud.
XV.4. C ontrol de otras variables
H a sta aq u el exam en de las pruebas de significacin y de m edi
das de asociacin slo h a n com portado1 dos variables a la vez. En
la m ayora de los problem as prcticos, en cam bio, es necesario
co n tro la r u n a o m s variables adicionales, que pueden y a sea
e n tu rb ia r u n a relacin o c re a r u n a relacin espuria. Si bien es
a m enudo cierto que las generalizaciones en m a teria de ciencias
sociales suelen estab lecerse en trm inos de slo dos variables, se
supone con to d o casi siem pre, im plcitam ente, que las variables
relevantes se co n sideran com o controladas. Con o b jeto de su b ra
y ar este hecho se em plea a m enudo la fra se "en igualdad de con
diciones. D esde el p u n to de vista ideal, u n a hiptesis h a b ra de
en u n ciarse en fo rm a que se entienda claram en te cules variables
h an de con tro larse. A m edida que u n a disciplina va pro g resan
do h acia su m adurez, las generalizaciones se hacen m s califica
das, indicando las condiciones exactas en las que puede esp erarse
que se realicen. E n las etapas iniciales de su desarrollo, sin
em bargo, re su lta a m enudo im posible sab e r cules son las v aria
bles relevantes que se n ecesita controlar. sta es la razn de que
en ciencias sociales las proposiciones no se enuncien a m enudo en
fo rm a que sugieran cules variables deban co ntrolarse. No obs
tan te, el lecto r debera ac o stu m b ra rse a b u s c a r siem pre las v aria
bles even tu alm en te posibles de controlar, au n q u e no se le haya
invitado expresam ente a hacerlo.
Segn verem os m s adelante, hay varios m todos posibles de
control estadstico. E l que se exam ina en el p re sen te captulo es
tal vez el m s directo y el que m s se p arece al experim ento de
lab o rato rio , en el que las variables de control se m an tien en efec
tiv am en te co n stantes p o r m edios fsicos. E n los experim entos
de lab o ra to rio se m antiene u n a variable de control a u n valor
co n stan te, en tan to que las o tras variables se relacionan e n tre s.
As, p o r ejem plo, m ien tras se exam ina la relacin en tre la p re
sin y el volum en, la te m p e ra tu ra se m an tien e acaso a 70 F. Y si
se en c u en tra una relacin e n tre estas variables, puede re su lta r

posible en u n ciar su ca rc te r con m u ch a m ayor precisin que si


la te m p e ra tu ra no se h u b iera controlado. Sin em bargo, el cient
fico n o e sta r autorizado a en u n ciar u n a generalizacin com o de
realizacin constante, a m enos que la m ism a relacin se verifi
que exactam ente p a ra todas las tem p eratu ras. R ealizar, sin
duda, to d a u n a serie de experim entos, cada uno de ellos a una
te m p e ra tu ra diferente. Es m uy p ro b ab le que encuentre que la
relacin en cuestin slo tiene lugar d en tro de c ierto m argen
de tem p eratu ras. E n estas condiciones h a b r d e especificar
su generalizacin de m odo que diga: "La relacin e n tre la p re
sin y el volum en es tal y cual, a condicin que la tem p eratu ra
se m an ten g a e n tre 100 y 600UF . Con su erte p o d r h a lla r u n fac
to r de correccin que le p e rm ita en u n ciar de nuevo su proposi
cin en fo rm a que se aplique a u n m argen m ayor de tem p eratu
ras. Y ex actam ente el m ism o tip o de razonam iento se aplicar
al co n tro l de variables adicionales. P odran efectu arse controles
sim ultneos de diversas variables, m anteniendo cad a u n a de ellas
a un v alo r fijo-, y efectuando luego experim entos u lterio res con
distin tas com binaciones de valores de las variables de control.
Si varios controles a c tu a ra n sim ultneam ente, se re q u e rir un
n m ero m u cho m ayor de experim entos anlogos.
E xiste cierta sem ejanza e n tre el procedimiento* p a ra lo g rar el
control estad stico, que vam os a exam inar a continuacin, y un
experim ento de lab o ra to rio en el curso del cual las variables son
m anipuladas fsicam ente y m an ten id as co n stan tes e n diferentes
niveles. E xiste sin embargo- u n a diferencia fundam ental, que re
su lta vital, relacionada con la fo rm a en que el observador inter
preta los resu ltados. C uando controlam os estadsticam ente, lleva
m os a cabo m anipulaciones con lpiz y papel, en el curso de las
cuales aju stam o s puntuaciones, o hacem os p a sa r a los individuos
de u n o a o tro cuadro, pero en realid ad n o estam os m anejando
sus pu n tu acio nes reales. Cuando, p o r ejem plo, estam os "controllando" estad sticam en te u n IQ, esto n o significa que m anejem os
las co n stantes de inteligencia del individuo- afectado. Podem os
a ju s ta r las pu ntuaciones de los IQ, re sta n d o de unas y sum ando
a o tras, de m an era que podam os p re te n d er que son iguales en
tre s, p e ro n o podrem os m an ip u lar la inteligencia real de u n a
p erso n a en fo rm a que p u ed a co m p ararse con los controles que
gobiernan la te m p e ra tu ra o la p resi n en uri experim ento d e la
bo ratorio.
E ste tipo- de control y a ju ste hipottico- es m uy conveniente,
y no deberem os desconcertarnos si el m undo real coincide con
lo que estam os haciendo-. Si u n cam bio real en la inteligencia
p u d iera a fe c ta r n u e stra relacin en u n sentido determ inado, pero
al m an ten erla co n stan te en u n experim ento' o s fu e ra posible
ded u cir la relacin verd ad era e n tre o tras dos variables con la
inteligencia m an ten id a en nivel constante", re su lta ra n ju stifica

das n u estra s m anipulaciones con papel y lpiz. Debe reconocerse


claram en te q ue tales "controles" a base de lpiz y papel pueden
se r realizados sobre cualquier variable de la q u e tengam os m e
didas (y categoras), incluso aquellas que son causalm ente depen
dientes de las variables que estam os estu d ian d o y aquellas que
de m an era esp u ria estn relacionadas, p o r razones extraas, con
alguna variable.
Los controles estadsticos son bsicam ente m ucho m s fciles
de realizar que los verdaderos controles, p o r lo que el m arg en de
flexibilidad p a ra su aplicacin razonable es m ucho m ayor. Se
req u iere fu n d am entalm ente u n a teora que ju stifiq u e la aplica
cin de tales controles, teo ra en la que estn im plcitos supues
tos acerca de la e stru c tu ra causal del sistem a de variables.
A unque el tem a escapa al inters de u n texto general sobre
estad stica, re su lta necesario fo rm u lar aqu unas p alab ras de cau
tela, ya que m uchos m alos entendidos, en relacin con las o p era
ciones de control estadstico, se h an trad u c id o en u n a aplicacin
ciega de variables d e control sin apoyo en u n a teo ra que lo
ju stifiq u e.
Volviendo al ejem plo de la relacin e n tre las preferencias reli
giosas y los p artid o s polticos, se pueden co n tro lar estadstica
m en te variables tales com o el sexo y la clase social. P ara m an
te n e r co n stan te el sexo pueden, p o r ejem plo, se r considerados
solam ente los votantes varones. Si se observa que la relacin se
da en el caso de los varones y p o r separado e n el de las hem bras,
p o d r decirse que es aplicable al sexo, ya que habrem os exam i
n ad o am bas categoras de la variable "sexo. Es posible sin em
bargo- que se observe la relacin en el caso de los varones p ero
n o en el d e las h e m b ra s ; en tales circunstancias h a b r que cali
fica r la generalizacin, volviendo n u e s tra atencin a las causas
p o r las cuales la relacin existe p a ra u n sexo y no p a ra el otro.
P uede verse que el co n tro lar las variables relevantes no slo nos
p erm ite u n a p ru e b a m s rigurosa de u n a hiptesis, sino que
nos su m in istra u n a m ay o r penetracin e n el caso en que se en
cu en tre que la relacin difiere de u n a categora de la variable
de co n tro l a la otra.
Algunas veces ser conveniente co n tro la r diversas variables a
la vez. D ebido a la escasez de ios casos, se hace necesario con
frecu en cia co n tro la r las variables relevantes u n a p o r una, p er
dindose, sin embargo-, en e sta fo rm a cierta cantidad de in fo rm a
cin. Supngase, p o r ejem plo, que se h u b iera prescindido del
sexo y se h u b iera introducido u n control en relacin con la clase
social de los electores. E xam inaram os, pues, cada clase social,
p a ra v er si la relacin subsista siem pre. E n co n tra ste con este
p rocedim iento, pudim os h ab e r controlado sim ultneam ente des
de los p u n to s de v ista d e la clase y del sexo, tom ando todas las
com binaciones posibles de las variables de control (v.gr. va.

r n d e la clase inferior, m u je r d e la clase inferior, varn de la


clase m edia, e tc te ra ) y estu d ian d o la relacin en ca d a com
binacin de las categoras de control. Se concibe que la relacin
p u ed a v erificarse acaso p a ra to d as las com binaciones, con excep
cin de la co rresp o n d ien te a las m u jere s de la clase inferior. Si
esto fu e ra as, n os veram os conducidos a investigar las peculia
rid ad es de este su b g ru p o p a rtic u la r.
Con o b jeto d e ilu s tra r el proceso, tom em os o tro ejem p lo con
creto. Supngase que tenem os los siguientes datos co rresp o n
dientes a esc o la res: am b ien te de la clase, c u o ta d e inteligencia,
grad o escolar y la aplicacin de cad a nio. C onvendr re su m ir
los datos en trm inos de u n a ta b la m a e stra com o la del cua
d ro XV.4.

C uadro XV.4.

Cuadro m aestro para correlacionar cuatro variables

Inteligencia

Grados

Clase media

Clase baja

Totales

Aplica
cin
elevada

Aplica
cin
baja

Aplica
cin
elevada

Aplica
cin
baja

Alto

60

40

40

18

158

Bajo

20

24

16

38

98

Alto

40

24

72

Bajo

24

12

32

54

122

144

100

94

112

450

Alta

Baja
Totales

O bsrvese q ue u n cu ad ro com o ste contiene las casillas sufi


cientes p a ra q u e los c u a tro tipos d e inform acin (clase, IQ, g ra
dos y aplicacin) p u ed a n ser, si as conviene, re co n stru id o s p a ra
cad a individuo-, es decir, que sabem os cu n ta s son las. p erso n as
en las que se d a la m ism a com binacin de rasgos (p o r ejemplo-:
clase b aja, IQ elevado-, aplicacin b a ja y grados a lto s). Si desea
m o s u n a in fo rm aci n m enos d etallad a podrem os co m binar los
dato s fo rm an d o agrupaciones m s am plias. Podem os p o r ejem
p lo re u n ir a los estu d ian tes de la clase m edia con los de la clase
b aja, m anteniendo- ta n slo- la distincin relativ a al IQ, la apli
cacin y los grados. P ero si se nos facilitase ta n slo u n a inform a
ci n m enos d etallad a no- nos se ra posible re c o b ra r el to ta l de la
inform acin m s que volviendo a h a c e r el anlisis. P or ta l razn
u n cuadro- m a e stro tal com o el XV.4 debe se r utilizado com o cua
d ro d e tra b a jo , sacando de l los d ato s p a ra p re p a ra r u n a serie
e o tro s cu ad ro s separados.

S er e n general m s conveniente h ac er el cuadro m aestro de


tal m an era que la variable dependiente aparezca en la colum na
ex trem a de la izquierda, en tan to que la variable independiente
m s in tere sa n te aparezca en la fila b a ja del encabezam iento, lo
que se tra d u c ir en subcuadros con las frecuencias que estn
siendo com paradas directam ente. E n el cuadro XV.4, p o r ejem
plo, tenem os cu atro subcuadros en cada uno de los cuales se
relacio n an las aplicaciones y los grados. Todos los individuos del
su b cu ad ro de la p a rte su p erio r izquierda son de la clase m edia
y tienen elevado IQ, y as sucesivam ente. La exacta distribucin
de filas y colum nas n o tiene u n a im p o rtan cia decisiva, ya que es
bien claro que se las puede o rd en ar d e acuerdo con la relacin
d e intereses (ta l com o se hace en el cu ad ro XV.5).

C uadro

XV .5. Serie de tablas de contingencia que relacionan dos


variables con dos controles sim ultneos
Aplicacin elevada

Grados
IQ alto

IQ bajo

Aplicacin baja
IQ alto

IQ bajo

40
24

24
12

18
38

2
54

Clase media
Alto
Bajo

60
20

40
24
Clase baja

Alto
Bajo

40
16

6
32

Supngase que sospecham os u n a propensin de los m aestro s


en favor de la clase m edia, que se tra d u c ira en la tendencia a
d a r b uenas no tas a los nios de la clase m edia, independiente
m ente de su capacidad y aplicacin, y buenas notas a los nios
de la clase in ferio r solam ente cuando m u e stra n capacidad y apli
cacin a la vez. A nticiparam os, en tal caso, que las notas h a
b ra n de se r p o r lo re g u lar m ejores p a ra los nios de la clase
m edia, con tro lan d o la inteligencia y el esfuerzo a la vez, excepto,
posiblem ente, en el caso de nios de gran capacidad y aplicacin.
A nticiparam os asim ism o q u e las relaciones e n tre las notas p o r
u n a p a rte y la capacidad y la aplicacin p o r la o tra h ab ra n de
se r m s fu ertes en la clase in ferio r que en la m edia. E n otros
trm inos, si los nios de la clase m edia reciben siem pre buenas
notas, n o d ebera h a b e r relacin (o slo u n a relacin superficial),
en esta clase, e n tre las n o tas p o r u n a p a rte y la capacidad o la
aplicacin p o r la otra. Fijm onos en la relacin e n tre las n o tas
y la capacidad y averigem os si es o no m s fu e rte en la clase

inferior. E n este caso necesitarem os co n tro la r el esfuerzo. En


am bas clases h a b r estu d ian tes aplicados y n o ta n aplicados. P or
lo tan to , podem os c o n stru ir c u a tro tablas d e contingencia com o
las del cu ad ro XV.5.
C om param os ah o ra las dos clases con respecto' a la existencia
y la fu erza d la relacin, considerando' sep arad am en te a los alum
nos de aplicacin elevada y b a ja respectivam ente. La direccin
d e la relacin p u ed e tam b in o b serv arse en cad a caso, ya sea
calculando los p o rc en tajes o co m p aran d o los p ro d u cto s diagona
les. C alculando la ^ c u a d ra d a y la <f p a ra cada tab la, obtenem os
los resu ltad o s del cu ad ro XV.6. Vemos e n esta fo rm a que las
relaciones n o son significativas p o r lo' q u e se re fiere a los nios
de la clase m edia, p e ro q u e en c u a n to a los d e la clase inferior,
en cam bio, existe u n a relacin positiva m o d erad am en te fu e rte en
am b as categoras de aplicacin e n tre la capacidad y las notas.
O bservam os asim ism o que la relacin es algo' m s fu e rte en el
caso de los estu d ian tes m s aplicados.

Cuadro

X V .6

Clase

Aplicacin

3(,-cuadrada

Nivel de
significacin

Media

Alta
B aja

2.565
.188

no significativa
no significativa

.133
.043

Baja

Alta
Baja

28.064
15.582

p < .001
p < .001

.546
.373

El lecto r h a b r sin du d a observado el efecto' p ro n u n ciad o del


co n tro l sobre el n m ero de casos que figuran en cada casilla. E n
lu g ar de te n e r slo cu atro casillas, en efecto, tenem os cu a tro ve
ces dicho n m ero al servim os de dos variables de co n tro l dicotm icas. Si se h u b ie ra aadido u n te rc e r control sim ultneo, p o r
ejemplo', el sexo, habram os tenido 32 casillas en lu g ar de 16. Y si
cualquiera de las variables h u b ie ra com portado m s de dos cate
goras, el n m e ro d e las casillas h a b ra aum entado. As, pues, si
bien los co n tro les sim ultneos pu ed en en teo ra a ad irse indefi
nidam ente, el n m ero de casos h a de se r m uy gran d e p a ra con
tro la rse con e ste mtodo'. U na a lte rn a tiv a co n sistira en re d u cir
sim plem ente el c a r c te r de la poblacin y generalizar slo res
p ecto de los v arones de la clase m edia de educacin universitaria,
O' de algn o tro subgrupo correspondiente. P o d ra seleccionarse
luego u n a m u e stra m ucho m ay o r de este subgrupo. P o r lo gene
ral, si se h a de em p lear el co n tro l sim ultneo, re su lta necesario
seleccionar aquellos dos o tre s controles que se p re se n ta n com o
m s p ro m eted o res. Es posible, p o r supuesto, servirse de la prue-

b a exacta de F ish er cuando el n m ero de casos d e cada casilla


se hace m uy p eq u e o ; p e ro h ay que re c o rd a r que ser en ta l caso
necesario' te n e r u n alto' grado de relacin p a ra o b ten er significa
cin. D ebido a esta atenuacin de los casos, el m ero hecho de
que u n a relaci n se haga n o significativa al in tro d u c ir controles
no constituye u n a p ru e b a suficiente de q u e la variable de con
tro l pro d u ce efecto. H ab ra que calcu lar y co m p arar siem pre
m edidas del grado' de relacin.
E n los casos en que difieran las relaciones e n tre u n a categora
de u n a v ariable de co n tro l y la siguiente, tendrem os u n ejem
plo de lo que se d enom ina no aditividad o interaccin estadstica.
Ya se exam in e s ta posib ilid ad al t r a ta r de la p ru e b a p a ra u n a
d iferen cia de diferencias en las proporciones, y volverem os al
tem a d e m an era m s d etallad a e n los captulos xvi y xx. S iem pre
que se sospeche la posibilidad de u n a interaccin, deber h ac er
se u n a p ru e b a estad stica q u e la localice, an tes d e seguir adelante.
Com o in ev itab lem ente h a b r algunas diferencias leves en las re
laciones e n tre u n a m u e stra y la siguiente, la p re g u n ta b sica p o r
fo rm u la r en tales p ru e b as ser la de si las m u estras d e in tera c
cin son lo! suficientem ente grandes com o p a r a q u e aqulla haya
o cu rrid o p o r casualidad, incluso en ausencia d e interaccin en
tre la poblacin. E n este ejem plo, y dado el caso de que to d as
las variables h a n sido dicotom izadas, p o d r h acerse u n a p ru e b a
sencilla de u n a d iferencia de diferencias en proporciones, tal
com o sugiere el captulo x m . Como e st n siendo consideradas
sim u ltn eam en te dos variables de control, p u ed e incluso d arse el
caso de que se p ro d u zca lo que se denom ina u n a interaccin de
segundo' orden, o u n a d iferencia de diferencias de diferencias.
P o r e je m p lo : la diferencia e n tre las relaciones d e aplicacin ele
v ada y aplicacin b a ja puede ser m ay o r e n tre los nios de la
clase b a ja que e n tre los de clase m edia.
Si se o b serv a q u e la in teracci n tien e significacin estadstica,
y es adem s lo b a sta n te grande com o p a ra te n e r significacin
sustan tiv a, re s u lta r necesario cualificar las generalizaciones h a
ciendo' u n a referen cia especfica a la categora d e control. H ab ra
q u e decir, p o r ejem plo : "S e encontr u n a relacin e n tre grados
y h ab ilid ad en el caso de los nios de clase b aja, p ero n o en los
de clase m edia. A p a rtir de dicho p u n to deb ern estu d iarse se
p arad am en te las re sta n te s relaciones e n tre los dos niveles de cla
se. Si la in teracci n es p o r el co n trario estad sticam en te insigni
ficante, o ta n p eq u e a q u e p u ed a ser ignorada, au n siendo
estad sticam en te significativa, p o d r ded u cirse razonablem ente
que las relaciones son b sicam en te sim ilares e n tre las categoras
de control. E starem os en tal caso en la posibilidad d e sim plificar
co n siderablem ente el anlisis, reuniendo los resu ltad o s sep ara
dos. Veam os a co n tinuacin qu tipos especficos de sim plifica
cin re su lta n posibles en el caso de datos categorizados.

Podem os en p rim e r lugar re u n ir las p ru eb as de chi al cuadrado


en una sola p ru e b a global, a condicin de que aqullas estn
basadas en m u estras al azar seleccionadas independientem ente.
E l procedim iento es extrem adam ente sencillo, b astan d o sum ar
los distintos valores de chi al cu ad rad o y tam bin los grados de
lib ertad , evaluando el re su ltad o de la m an era habitual. Supon
gam os p o r ejem plo que en el caso de c u a tro cuadros 2 x 2, las
chi cu ad rad as resu ltan tes fueron 2.1, 3.3, 2.7 y 2.9. La sum a de
estos valores es 11.0, y la de los grados de lib ertad , 4. E n el cua
d ro vem os que u n a chi cu ad rad a d e 11.0, con 4 grados de lib ertad
re su lta significativa al nivel de .05. As, au n cuando ninguno de
los valores sep arados de chi al cu ad rad o fu e ra significativo, po
dem os h ac er u so del hecho de que el re u n ir los resu ltad o s tiene
significacin terica. E stam os en efecto diciendo que si u n a rela
cin se re p ite aproxim adam ente cada vez, p ero la p ro babilidad
de los resu ltad o s separados es en ca d a caso m ayor de .05, p o d re
m os p re g u n ta m o s cul sera el re su ltad o de tal com binacin de
resu ltad o s si no hubiese relacin en cualquiera de los cuatro
cuadros.
O bsrvese que los resultados de sem ejan te operacin de reu
n in p o d ran m uy bien d iferir de la relacin to ta l e n tre dos va
riables sin control alguno. Al ju n ta r los resultados, obtenem os
esencialm ente u n a relacin prom edia dentro de las categoras de
la variable o las variables de control. Si hubiram os prescindido
sim plem ente de la variable o las variables de control, los efectos
de sem ejantes controles h ab ra n perm anecido' oscuros p o r com
pleto. En ta n to que, al unificar, efectuam os u n a sola p ru e b a de
/-cu ad rad a de la relacin c o n ju n ta e n tre dos variables, contro
lando en relacin con las variables adicionales.
Y en form a anloga, podram os d esear o b ten er u n a sola m edi
da de asociacin calculando u n pro m ed io p o nderado de las m e
didas basado* en las c u a tro tab las separadas. Un m to d o que se
h a sugerido p a ra ta l o b jeto consiste en el em pleo de ponderacio
nes que sean p roporcionales al n m ero de los casos de cada tabla.
As, p o r ejem plo, podram os m u ltip licar cada t 6 p o r el nm ero
de casos de la tabla, su m ar los resultados y dividir, finalm ente,
e n tre el n m ero to tal de casos de las cu a tro tablas. T erm inara
m os as con u n a sola p ru e b a d e significacin y u n a sola m edida
de asociacin que re p resen ta ran un prom edio de los resu lta
dos de las c u a tro tablas.
O tro sim ple procedim iento p a ra o b ten er u n a m edia ponderada
es el que describirem os brevem ente. (P a ra m ayores detalles
vase R osenberg [12].) El procedim iento consiste, bsicam ente,
en estan d arizar todas las categoras de control, m ediante la ob
tencin de u n prom edio po n d erad o de proporciones (o porcen
ta je s). Supongam os h ab e r obtenido separadam ente los resultados
siguientes, p a ra hom bres y m u je re s :

Hembras

Varones

Protes- Cata
Protes Cat
tantes licos Judos Total tantes ticas Judas

Republicanos
Demcratas
Independientes
Total

180
90
30
300

80
80
40
200

20
50
30
100

280
220
100
600

100
60
40
200

50
30
20
100

10
70
20
100

Total

160
160
80
400

Com enzarem os p o r tra n sfo rm a r las cifras an terio res en p ro


porciones, to talizando a 1 .00, ya que la variable independiente
ap arece en la p a rte a lta de cada cuadro. Los re su ltad o s sern los
sig u ie n te s:
Varones

Republicanos
Demcratas
Independientes
Total

Hembras

Protes
tantes

Cat
licos

Judos

Protes
tantes

Cat
licas

Judas

.60
.30
.10
1.00

.40
.40
.20
1.00

.20
.50
.30
1.00

.50
.30
.20
1.00

.50
.30
.20
1.00

.10
.70
.20
1.00

A ceptando que deseam os oscurecer las diferencias e n tre estos


dos cuadros, u tilizando p a ra ello u n prom ediado, podrem os fo r
m a r u n prom edio ponderado, m ultip lican d o cada pro p o rci n de
las contenidas en el c u a d ro de varones p o r .6, ya que son 600 los
varones en u n to ta l de 1 000 individuos en la m u estra. De m an era
anloga podem os p o n d e ra r cada cifra e n el cu ad ro de las h e m
b ras, m u ltip licn dola p o r .4. Los resu ltad o s sern los sig u ie n te s:

Republicanos
Demcratas
Independientes
Total

Protestantes

Catlicos

Judos

.56
(.36+ .20)
.30
(.18+.12)
.14
(.06+.08)
1.00

.44
(.24+ .20)
.36
(.24+ .12)
.20
(.1 2 + .08)
1.00

.16
(.1 2 + .04)
.58
(.30+ .28)
26

(.18+.08)
1.00

en el que cada p ro p o rci n de las que aparecen en el cu ad ro


derivado es igual a la su m a de las dos prop orciones po n d erad as
(com o se indica en los p arn tesis), que a su vez figuraban e n los

cuadros anteriores. Como la sum a de las ponderaciones es de


1 .0, tam bin lo ser la de las proporciones en cada colum na del
cuadro derivado. Los resultados pueden se r p resentados tam
bin b a jo la fo rm a de porcentajes.
E ste pro cedim iento p a ra co n tro lar m ed ian te la obtencin de
prom edios ponderados es, com o se ver, m uy generalizado. H e
m os estandarizado el nm ero d e p ro testan tes, catlicos y judos,
de tal m an era que sus tam aos relativos en las m u estras de va
rones y de h em b ras p ierd an significacin. Si hubiese habido
controles sim ultneos p a ra variables adicionales, habram os po
dido am p liar este procedim iento de m an era directa. As, si h u
biram os deseado co n tro la r segn clases sociales, usando tres
niveles, h ab ram os obtenido seis cuadros, uno p a ra cada catego
ra sexo-clase. Despus de h a b e r vigilado si se produce in terac
cin, y habiendo resu elto que ninguna d iferencia im p o rtan te
p o d r re s u lta r oscurecida p o r la aplicacin del procedimiento-,
podram os asig n ar de nuevo gravm enes W a cada uno de los
cuadros de control, haciendo 2 W = 1 .0, obteniendo as u n solo
cu ad ro com binado, com o en el ejem plo anterior.
Al su stitu ir as varias m edidas y pruebas separadas p o r u n a
sola m edida y u n a sola pru eb a, nos enfrentam os a los proble
m as que se en cu en tran siem pre que se em plean estadsticas de
resum en. C oncentram os n u estro s datos, de m odo que resulten
m enos estadsticos, pero, p o r o tra p arte, correm os el riesgo de
d isto rsio n ar n u estro s resultados. P or ejem plo: si u n a de las cua
tro tablas en cuestin d iera u n a /-cu ad rad a gran d e y u n gra
do de relacin m uy alto, en com paracin con las dem s, en to n
ces el com binar los resultados, con lo que dicho hecho re su lta
oscurecido, pu ed e revelarse com o sum am ente engaoso. O sea
que, com o siem pre, las m anipulaciones estadsticas no pueden
co n stitu ir n u n ca u n su stitu to del sentido com n.
Algunas de las ideas exam inadas en esta seccin, en p artic u la r
las relativas a la reunin de los resultados de tablas separadas,
son in d u d ablem ente nuevas y p o d r n p arece r algo confusas de
m om ento. S er til, p o r lo tanto, volver a re p a sa r e s ta seccin,
u n a vez que el le c to r se haya en fren tad o al m aterial de los captu
los xvi al xx. E n dicho m om ento, en efecto, se h a b r n exam inado
ya y co m parado diversos tipos de procedim ientos de control.
E

jercicios

1. Calclese la x-cuadrada para los datos del ejercicio 5 del captulo ix.
Tornando las aspiraciones profesionales como variable dependiente
B, cul es el valor de t? Cmo se compara el valor de x,, con el de
la medida que se calcul en la parte d) del ejercicio 5?
2. En el ejercicio 3 del captulo xiv nos servimos de la prueba de
Smimov. Tomando los mismos datos, a qu conclusin llegamos al
servimos de la prueba de la x-cuadrada? En relacin con esos datos

particulares, cul prueba se preferir? Por qu? Calclense <t>, T, V,


h*3. La prueba de la /.-cuadrada puede emplearse en general para
comparar frecuencias observadas y tericas. En particular, puede uti
lizarse para verificar la hiptesis nula de que los datos de la m uestra
se han seleccionado al azar de una poblacin normal. Las frecuencias
observadas se comparan con las que se habran anticipado en caso
de ser la distribucin efectivamente normal, con la misma media y
desviacin estndar que se han calculado de los datos de la muestra.
Una vez obtenidos los valores de X y de s, podemos servil-nos de los
verdaderos lmites y de la tabla normal para dar las frecuencias es
peradas dentro de cada intervalo. Los grados de libertad sern k 3,
en donde k representa el nmero de intervalos. Se perder un grado
de libertad, ya que el total de las frecuencias esperadas ha de ser N;
los otros dos grados de libertad que se han perdido se deben a la
necesidad de utilizar X y s a ttulo de apreciaciones de los parme
tros reales jt y a. Teniendo estos hechos presentes, verifiqese si los
siguientes datos se apartan o no significativamente de la norm alidad:
Respuesta %s 2.53, sin rechazar.

c, t 6 y

Intervalo
0.0- 9.9
10.0-19.9
20.0-29.9
30.0-39.9
40.049.9
50.0-59.9
60.0-69.9

Frecuencia
7
24
43
56
38
27
13
208

4. En un estudio reciente, H. L. Wilensky [14] encontr, al controlar


la condicin socioeconmica, una relacin general entre la actividad
sindica] por una parte y la orientacin poltica y la preferencia elec
toral por la otra. Los datos de 15 miembros negros tendan a apoyar
este hallazgo general en relacin con la preferencia electoral. Siete
de los ocho negros que eran miembros inactivos del sindicato no si
guieron la "lnea de ste al votar en 1948, en tanto que, de los siete
miembros sindicalmente activos, cinco votaron de acuerdo con la su
gerencia del sindicato. Averigese si se da o no una relacin signifi
cativa, sirvindose: a) de la prueba exacta de Fisher, con direccin
anticipada, y b) de la x-cuadrada corregida con fines de continuidad
con direccin anticipada. Respuesta: a) p ~ .035'; b)
= 3.22, p < .05.
5. Utilice los datos que siguen (disponiendo los cuadros en o tra for
ma, si es necesario) para obtener informacin acerca de la precisin
de los enunciados a), b) y c). All donde sea adecuado, calclense
medidas del grado de relacin y control de las variables relevantes.
a) Las mujeres tienen menos prejuicios que los hombres, indepen
dientemente de la religin que profesen o de la clase social a
que pertenezcan.

b ) Los grados de relacin entre la confesin y el prejuicio contra los


negros dependern de la clase social de la persona afectada de
prejuicio.
c) La razn de que los judos aparezcan como menos afectados de
prejuicio, en la tabla, que los no judos se debe al alto porcentaje
de mujeres y de personas de la clase superior en la m uestra re
lativa a los judos.
Grado del prejuicio contra tos negros

Religin

Elevado

Bajo

S e x o ------------------------------------------------------- Totales
Clase
superior

Clase
Clase
Clase
inferior superior inferior

No judos

Varones
Mujeres

14
8

30
13

15
9

16
7

75
37

Judos

Varones
Mujeres

13
18

7
9

22
33

15
21 -

57
81

Total

250

6. Utilizando los datos del anterior ejercicio 5, construyanse cua


dros que relacionen la religin con los prejuicios, con controles simul
tneos para sexo y clase social. Suponiendo despreciable la posible
interaccin, normalcense estos resultados de forma que la relacin
entre religin y prejuicio, con controles, pueda ser presentada en un
solo cuadro 2 x 2.
*7. Supongamos que se espera llevar a cabo una prueba chi al cuadra
do con un cuadro 2 x 2, en que se relaciona la preferencia religiosa
(protestante-catlico), con la preferencia poltica (republicano-dem
crata). Se planea tom ar muestras al azar, del mismo tamao, de pro
testantes y catlicos, y se predice la direccin, esperando que la propor
cin de protestantes que son republicanos resultara de .60 aproximada
mente, en tanto que la proporcin de catlicos que son republicanos
ser a su vez de .40, m s o menos.
Cuntos casos resultarn necesarios si se requiere establecer sig
nificacin al nivel de .05?
B iblio g rafa

1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2" ed.,


Holt, Rinehart and Winston, Inc., Nueva York, 1968, cap. 9.
2. Blalock, H. M .: "Probabilistic Inteipretations for the Mean Square
Contingency, Journal of the American Statistical Association,
vol. 53, pp. 102-105, 1958.
3. Bradley, J. V.: Distribution-free Statistical Tests, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, cap. 8.
4. Downie, N. M., y R. W. Heath: Basic Statistical Methods, 2? ed.,
Harper and Row, Publishers, Incorporated, Nueva York, 1965,
cap. 14.

5. Goodman, L. A., y W. H. Kruskal: "Measures of Association for


Cross Classifications, Journal of the American Statistical Associa
tion, vol. 49, pp. 732-764, 1954.
6. Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Classifications, II: Further Discussion and References,
Journal of the American Statistical Association, vol. 54, pp. 123163, 1959.
7. Goodman, L. A., y W. H. Kruskal: Measures of Association for
Cross Classifications, III: Aproxmate Sampling Theory, Journal
of American Statistical Association, vol. 58, pp. 310-364, 1963.
8. Hagood, M. J., y D. O. Price: Statistics for Sociologist, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 21.
9. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 17.
10. McCarthy, P. J.: Introduction to Statistical Raasoning, McGrawHill Book Company, Nueva York, 1957, cap. 11.
11. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reasoning in Sociology, 2 ed. Houghton Mifflin Company, Boston, 1970,
cap. 9.
12. Rosenberg, Morris: Test Factor Standardization as a Method of
Interpretation, Social Forces, vol. 41, pp. 53-61, 1962.
13. Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien
ces, McGraw-Hill Book Company, Nueva York, 1956, pp. 96-111.
14. Wilensky, H. L.: "The Labor Vote: A Local Unions Impact on the
Political Conduct of its Members, Social Forces, vol. 35, pp. 111120, 1956.

E n el captulo x m com param os dos m u estras investigando la


significacin de la diferencia e n tre las m edias y las proporcio
nes. Dichas p ru e b as eran adecuadas al trata m ien to de situaciones
e n las que u n a de las dos variables m u tu am en te relacionadas
era u n a escala nom inal dicotm ica. E n el ltim o captulo vim os
de qu m odo p o d an co m p ararse m s d e dos m u estras p o r m e
dio de la p ru e b a de la ^-cuadrada. E n 1 p resen te, p o r su p arte ,
vam os a ex am in ar u n tip o m uy im p o rta n te de pru eb a, el anlisis
de la variancia, que p u ed e u tilizarse p a ra verificar diferencias
en tre las m edias de m s de dos m u estras. As, pues, el anlisis
de la varian cia re p re se n ta u n a extensin de la p ru e b a de la dife
ren cia de las m edias y pu ed e em plearse siem pre q u e estem os
verificando una relacin e n tre u n a escala nom inal (o de orden
su p erio r) y u n a escala de intervalo. V erem os asim ism o que, en
determ inadas circunstancias, las p ru e b as de anlisis de variancia
pueden ex tenderse a situaciones en las cuales h ay u n a sola escala
de in tervalo y dos o m s escalas nom inales. Se exam inarn, ade
m s, u n a p ru e b a anloga no p a ra m tric a y varias m edidas de
grado de asociacin.
XVL1. Anlisis sim ple d e la variancia
Si bien el anlisis de la variancia puede considerarse com o una
extensin o generalizacin de la p ru e b a de la diferencia de las
m edias, co m p o rta con todo algunos principios fund am en talm en te
nuevos que req u ieren u n a explicacin relativam ente larga. De
ah que u n a breve exposicin general re su lte ta l vez indicada, a
fin de que el le c to r n o se p ierd a en los detalles. Los supuestos
del anlisis de v ariancia son b sicam ente los m ism os que los de
la p ru eb a de la diferencia de las m edias, pero- la p ru e b a en s
m ism a es m uy d istin ta. H abrem os de suponer norm alidad, m ues
tra s aleatorias independientes, poblaciones y desviaciones estn
d a r iguales, y la hiptesis nula ser que las m edias de las pobla
ciones son iguales. La p ru e b a m ism a supone el tra b a ja r d irec ta
m ente con variancias y no con m edias y e rro res estn d a r.
Supngase que los datos del cuadro X V I.1 re p resen ta n las
tasas de crim in alidad de tres tipos de ciudades distintos, a sa
b e r: centros in d u striales, com erciales, o polticos. Podem os calcu
la r m edias sep arad as p a ra cada u n a de esas tres categoras o
m u estras, y podem os o b ten er tam b in u n a m edia grande, p re s
cindiendo de las clases y prom ed ian d o los datos. E n el p resen te
ejem plo, las tre s m u e stra s son del m ism o tam ao, p ero esto no
necesita ser siem pre as.

Com o q u iera que se p resu m e que to d as las poblaciones tienen


la m ism a desviacin estn d ar, podem os fo rm a r dos apreciacio
n es in d ep en d ien tem ente d e la variancia a2 com n. U na de estas
apreciaciones ser d irectam en te anloga a la estim acin unificada
q u e utilizam os en la p ru e b a de la diferencia de las m edias. E sta
estim aci n ser u n prom edio p o nderado d e las variancias dentro
de las m u estras separadas y ser siem pre insesgada, incluso si las
m edias de las m u estras difieren considerablem ente e n tre s. E sto
es as p o rq u e la v arian cia de cada m u e s tra se calcular sep ara
d am en te y slo co m p o rta r las desviaciones respecto1 de la m edia
d e la m u e s tra p artic u la r.

C uadro

X V I.1. Datos para el anlisis de variancia


Tasas de criminalidad
Total

Sumas
Medias
N? de casos

Centro
industrial

Centro
comercial

Centro
poltico

4.3
2.8
12.3
16.3
5,9
7.7
9.1
10.2

5.1
6.2
1.8
9.5
4.1
3.6
11.2
3.3

12.5
3.1
1.6
6.2
3.8
7.1
11.4
1.9

68,6
8.58
8

44.8
5.60
8

47.6
5.95
8

161.0
6.71
24

La segunda estim acin d e la variancia com n co m p o rta la va


rian cia de las m edias p artic u la res d e las m u e stra s tra ta d a s com o
dato s individuales. E n este caso, las desviaciones d e las m edias
d e las m u estras respecto de la m edia grande se u tilizarn p a ra la
estim acin de a2. P a ra los datos del cu ad ro X V I.l o btendram os
la variacin de las m edias de las tres m u estras, o sea 8.58, 5.60
y 5.95, resp ecto de la m edia to ta l de 6.71. E sta estim acin d e o2
slo- ser eq u ilib rada si las m edias de las poblaciones son de he
cho iguales. Si las m edias de las poblaciones son iguales, en
efecto, pued e esp e rarse que las de las m u estras v aria rn u n a res
p ecto de o tra de acu erd o con el teo rem a del lm ite central,
e sto es, acercndose a u n a d istrib u ci n n o rm al a m edida que au
m en ta el tam a o de la m u estra, y podem os servim os de esta ley
y de las diferencias re ales e n tre las m edias de las m u estras p ara
a p re c ia r la v erd ad era variancia. P or o tra p a rte , si las m edias de
las poblaciones son en re alid ad diferentes, esperam os que las

m edias de las m u estras d iferirn u n a resp ecto de o tra m s de


lo que sera el caso si las m edias de las poblaciones fu e ran las
m ism as. P o r consiguiente, si la hiptesis n ula es falsa, la segunda
estim acin de o2 se r p o r lo general dem asiado grande, y ser
u n a estim acin sesgada.
La p ru e b a em pleada en el anlisis de la variancia com porta
u n a com paracin de las dos estim aciones distin tas de la varian
cia de la poblacin. Sin em bargo, en lugar de to m a r la diferencia
e n tre las dos estim aciones, tom am os la razn de la segunda a la
p rim era. Si la hiptesis n u la es correcta, las dos estim aciones
sern insesgadas, y la razn h a b ra de ser aproxim adam ente la
unidad. E n cam bio, si las m edias de la poblacin difieren, la se
gunda estim acin ser p o r lo re g u la r m ayor que la p rim era, y
la razn ser m ay o r que la unidad. Como q uiera que las varia
ciones de las m u estras son siem pre u n factor, hem os de pregun
tarn o s cun g ran d e sea la razn que estam os dispuestos a to lerar
an tes de p o n er a la hiptesis n u la en duda. A fortunadam ente,
la razn F de las dos estim aciones tiene u n a d istribucin de
m u estreo conocida, a condicin que las dos estim aciones de la
variancia sean efectivam ente independientes u n a de o tra, y d e ah
q ue pu ed a h acerse u n a p ru e b a relativam ente sencilla. E sto es
lo que hacem os esencialm ente en la p ru e b a del anlisis de la va
riancia. Veam os ah o ra en detalle el procedim iento que ello com
p o rta.
F ragm entacin de la variacin total e n p artes com ponentes.
Si bien n u e stro objetivo* ltim o est en la form acin de dos esti
m aciones d istin tas de la variancia, ser m en este r in tro d u c ir u n
nuevo concepto p a ra explicar cm o dichas estim aciones se obtie
nen. Sirvm onos del trm ino variacin (d iferen te del de varian
cia) p a ra d esignar la sum a de las desviaciones cu ad rad as con
resp ecto a la m edia. E n este caso, la variacin to tal resp ecto de
N

la m edia grande ser p a ra todas las m u estras 2 (X i X )2. As,


i1

pues, el trm in o variacin designa u n a sum a de cuadrados, p re s


cindiendo del n m ero de casos im plicado. Procedem os ah o ra a
frag m en tar e s ta variacin to ta l en dos p arte s com ponentes, cada
u n a de las cuales se u tiliza r en el clculo de las dos estim aciones.
R epresentem os n u estro s datos e n fo rm a sim blica, com o en
el cu ad ro XVI.2. Los datos individuales estn re p resen ta d as p o r
Xn>
>Xi j ; las m edias d e las m u estras, p o r X .u X .2l . . . , X .k,
y la m ed ia gran de p o r X ... Los p u n to s se em plean en los sub
ndices p a ra d istin g u ir las m edias d e las colum nas de las m edias
d e las hileras, que se em plearn cuando aadam os u n a segunda
escala nom inal. El sm bolo general X iy re p resen ta la m arc a del
f-simo individuo en la colum na j- sim a. La sum a 2 X n indica

que se h a n sum ado las N 1 m arcas de la p rim e ra colum na, y lo


m ism o en relacin con las colum nas re sta n te s.1
A hora practicam os algo de lgebra. Podem os e sc rib ir:
X y - X . . = ( X i i - X . i) + ( X . i - X . . )
o sea

d a to
individual

m edia V _ /
g ra n d e /

d ato

m ed ia de \

\ individual

la clase /

( m edia de
la clase

m edia \
g ra n d e /

en lo que hem os re sta d o X. (la m edia de la colum na /-sim a) de


Xi, p a ra volverla a adicionar inm ediatam ente. P or lo tan to , h e
m os expresado la d iferencia e n tre u n d ato individual sin g u lar y
la m ed ia gran d e com o sum a de dos cantidades, a sa b e r: i ) la
diferencia e n tre su d a to y la m edia d e la categora a la que p e r
tenece, y 2 ) la diferencia e n tre la m edia d e la clase y la de la me-

C uadro

XVI.2. R epresentacin sim blica d e los datos para el


anlisis de la variancia
Categoras
Total
Ai

A2

*n
*21
*31

*12
*22
*32

A-h

*
* 2*
*3fc

. .

M arcas

*AT11
Sum as
M edias
N? de casos

2 X tl
i= l

2 * i2
i= l

X .x

X.O

= i
. . .

*,

**
Nk

2 2 * i
i
X ..
N

i Como quiera que tenemos dos subndices, i y /, importa distinguir entre


2 y 2 . En el ltimo caso, los valores / se sumaran para cualquier i (fijo),
i
i
y obtendramos as la suma de los datos de la hilera -sima.

d ia grande. E n el ejem plo n um rico a n te rio r podem os expresar


la diferencia e n tre el d ato del p rim e r individuo de la p r im ara
clase y la m ed ia grande como :
4.3 - 6.71 = (4.3 - 8.58) + (8.58 - 6.71)
o sea

2.41 = 4.28 + 1.87

Si elevam os al cu ad rad o am bos m iem bros de la ecuacin, ob


tenem os :

{Xi - Z..)2 =

( X tj -

X.j)2 + 2 { X is - X.) {X. - X..) +

(X .,

- X..)2

S um ando am b os lados obtenem os la sum a de las desviaciones


cu ad rad as de todos los individuos. Podem os su m ar p rim ero cada
colum na y a a d ir luego las cifras resu ltan tes de cad a clase. Al
h acerlo as, el trm ino' cen tral se anula. P ara v er p o r qu esto
es as, obsrvese que, al su m ar cu alq u ier colum na p artic u la r, el
v alo r de / er constante. P o r lo tanto, p a ra la colum na /-sim a
el fa c to r (X. X. . ) ser co n stan te y puede to m arse fu e ra de la
su m a to tal. As, p o r ejem plo, p a ra la sum a de los datos de la co
lum na /-sim a el trm ino cen tral se convierte en

2(X.,-X..) 2 (Xy-X.,)
i
Pero, com o
p ecto de la
d iatam ente
y cada u n a
2 2

* i

q u iera que p a ra cada colum na las desviaciones res


m ed ia de la colum na h an de ser cero, vem os inm e
q ue el trm ino cen tral h a de desaparecer p a ra todas
de las colum nas. O btenem os, p u e s :

( Xi ,- X ..)2 = 2

( X y - X . , ) 8+ 2 2

i i

i i

(X..-X..)* (X V I.l)

Sum a to tal de

sum a de cuadra-

su m a de cu d ra

los cuad rados

dos (d e n tro )

dos (e n tre )

Al p ro ced er as, obtenem os u n a doble sum a to tal que escribim os


com o 2 2 , in d icando que hem os sum ado tan to las hileras com o
i

las colum nas.


H em os dividido la variacin to ta l en dos p artes. La p rim era
es u n a sum a de las desviaciones cu ad rad as de los datos indivi
duales resp ecto de las m edias de sus clases respectivas. sta se
designa com o sum a dentro de los cuadrados y se em plear p ara
o b ten er n u e stra p rim e ra estim acin de la variancia com n o2.

O bsrvese que e sta sum a de cuadrados se obtiene esencialm ente


en la m ism a fo rm a en que se form la estim acin unificada en
la p ru e b a de la diferencia de las m edias. Si escribim os la sum a
in te rio r de cuadrados com o:
2 ( X i l - X . 1y +

2 ( X i 2- X . 2)* + . . . + 2 { X i h- X . ky

i= l

t= l

i= l

vemos que el p rim e r trm in o es exactam ente AT1s12, en donde las


desviaciones se h an tom ado respecto de la m edia de la categora,
y en fo rm a anloga en relacin con los o tro s trm inos. P or lo
ta n t o :
SC in te rio r =

+ N2s2z + . . . + N ksk2

Si dividim os e n tre los grados apropiados de libertad, que resu lta


r n se r N k, obtenem os u n a estim acin unificada, b asad a en
todas las k categoras. La segunda sum a d e cuadrados, o sum a
en tre colum nas, com porta las desviaciones de las m edias de las
categoras resp ecto de la m edia grande, siendo p o r consiguiente
u n a m edida de la variacin e n tre las m u estras. La segunda esti
m acin de la v ariancia se b a sa r en e s ta sum a de cuadrados en
tre colum nas.
Las sum as d en tro y e n tre cuadrados se designan a m enudo
com o variaciones explicadas e inexplicadas respectivam ente. Re
su lta tal vez m s fcil v er p o r qu la variacin in terio r se designe
com o inexplicada, y a que se refiere a la variacin que no se tiene
en cu enta en la variable de la categora. Si d en tro de la categora
A hay todava alguna o tra variabilidad resp ecto de la m edia de
la categora, esta v ariabilidad no p u ed e ciertam en te explicarse
p o r la categora. P or o tra parte, si las m edias de las categoras
d ifieren co n siderablem ente e n tre s, u n a fraccin relativam ente
g ran d e de la variacin to tal puede a trib u irse a diferencias en tre
varias categoras. As, pues, es la m ag n itu d de la variabilidad
d en tro de las categoras, com parada con las diferencias en tre
ellas, la que d eterm in a h a sta qu grado las dos variables estn
asociadas. C ategoras hom ogneas que difieran considerable
m en te e n tre s explican u n alto grado de variacin.2 E n el caso
extrem o, si tuviram os categoras p erfectam ente hom ogneas, la
su m a d en tro de los cuadros sera cero, y to d a la variabilidad po
d ra atrib u irse a la variable de la categora. As, p o r ejem plo, si
todas las ciudades in d u striales tuvieran exactam ente la m ism a

2 Lo que sin embargo no implica causalidad, por supuesto. La palabra


"explicado, tal como se la emplea en la bibliografa estadstica, se traduce
mejor como: "asociado con, no debiendo en forma alguna interpretarse
en el sentido de suponer necesariamente que se haya localizado una varia
ble explicativa en el sentido causal o terico.

ta sa de crim in alidad y d ifirieran de la de los centros com erciales,


de tasas tam b in to talm e n te hom ogneas, etctera, entonces po
d ra decirse que el tip o de ciudad explicaba to d a la variacin en
m a teria de tasas de crim inalidad. O sea que, sabiendo d e cul
tip o de ciudad se tra ta , estaram o s en condiciones de an ticip ar
dicha ta s a exactam ente.
Con o b jeto de o b ten er apreciaciones de estas dos sum as d istin
tas de cuad rad o s, b a sta dividir e n tre los grados apropiados de li
b ertad . A hora bien, los grados d e lib e rta d asociados a la sum a
to tal de los cu ad rad o s es N 1, ya que, segn vim os, o 2 es la es
tim acin insesg ada de o2, habindose perdido' u n grad o de liber
ta d debido al clculo de la m edia general X ... Veam os ah o ra la
su m a de los cu adrados e n tre colum nas. E sta ca n tid ad re p resen ta
la sum a de las desviaciones cu ad rad as de las m edias de la m ues
tr a k resp ecto de la m edia general. E n efecto, la m edia de cada
categora se tra ta com o caso p artic u la r. P or lo tan to , estn im
plicados k 1 grados de lib ertad , y a que u n grado se h a perdido,
debido al h echo que el prom edio p onderado d e X, h a de ser X ...
E n el caso de la apreciacin de la clase in terio r, se p erd er un
grad o de lib e rta d en cada colum na a causa del clculo de la X..
P o r lo tan to , en conjunto' h a b r N k grados de lib e rta d asocia
dos a la ap reciacin in terio r. O bsrvese que los grados de lib er
ta d se sum an, lo m ism o que las sum as d e cuadrados. As, p u es:
N -l = (N-k) + (k-)
dif. to ta l = dif. d e n tro + dif. e n tre colum nas
E n esta form a, n u e stra s dos estim aciones de la v arian cia com n
se convierten e n :
i j

estim acin d en tro = --------------------------- (X V I.2)


N k
S 2 ( I r

i i

L )s

estim acin e n tre colum nas = --------------------------- (X V I.3)


k - 1
Llegados a este punto, es posible que se le haya o cu rrid o al lec
to r que, si incluim os la estim acin usu al b asad a en la sum a to
tal de los cuad rados, tenem os en re alid ad tres estim aciones d istin
tas de la varian cia total. P or qu, pues, no co m p arar aqulla con
cu alquiera de las o tra s dos, ya q u e dicha estim acin to ta l bien
p o d ra c o n stitu ir u n a estim acin m e jo r que cu alq u iera d e stas?
Se reco rd ar, sin em bargo, que la p ru eb a F req u iere q u e las es-

tim aciones com paradas sean independientes unas de otras. Y la


estim acin b asad a en la sum a to tal de los cuadrados no es inde
pen d ien te de las o tras, siendo sta la razn de que no se la pueda
u tilizar en la p ru e b a de la F. P or lo regular, las sum as de cu ad ra
dos d en tro y e n tre colum nas no son independientes u n a de otra.
Pero ocu rre que la d istribucin norm al posee la propiedad de que
dichas cantidades sean independientes, a p esa r de que las m ism as
X. j figuren en am bas expresiones. sta es la razn en cuya v irtu d
hem os de su p o n er que todas las poblaciones son norm ales. Se
re co rd a r que tam b in en el caso de la distribucin t se req u era
norm alidad, debido a la necesidad de que el n u m erad o r fu era
independiente del denom inador. Como lo verem os en seguida, la
distrib u ci n t es u n caso p a rtic u la r de la distribucin F.
Problem a. Sirvm onos de los datos hipotticos anteriores, que
re p resen ta n tasas de crim inalidad p a ra tres tipos de ciudades.
Nos in tere sa sab er si existen diferencias significativas e n tre las
m edidas de los tres tipos de ciudades en cuestin.
1. Supuestos.
N ivel de m e d ic i n : Tasas d e crim inalidad, escala de interva
lo. Tipo de ciudad com o escala nom inal.
M odelo: M uestreo independiente aleatorio.
Poblaciones norm ales p a ra cada tipo de ciudad.
Las variancias de las poblaciones son iguales.
(a i2 = a32 = . . . = ofc2 = a2)
H ip tesis: Las m edias de las poblaciones son iguales.
(fi.l = (1.2 = . . . = [X.fc)
Lo m ism o que en el caso de la p ru e b a de la diferencia de las
m edias, h ay que su poner que las m u estras se h an seleccionado
ind ep en d ien tem en te u n a d e otra. E n o tro s t rm in o s: las ciuda
des no1 estn asociadas en form a alguna. Como q u iera que se
supone que las poblaciones de los tre s tipos de ciudades son n o r
m ales, con m edias y variancias iguales, estam os suponiendo en
realid ad que son idnticas. P or lo tan to , las tres m u estras pue
den considerarse com o si se hub ieran tom ado al azar de u n a
m ism a poblacin. P or lo regular, el investigador est in teresado
en el supuesto de m edias iguales. E n el p resen te ejem plo, an ti
cip ar p ro b ab lem en te diferencias en las tasas de crim inalidad de
los tre s tipos de ciudades, y establecer la hiptesis nula de que
no existe e n tre ellos d iferencia alguna. Conviene observar que no
se req u ieren m u estras grandes, debido al supuesto de norm alidad.
Sin em bargo, es obvio* que si en cada categora slo h u b iera un
caso, no h ab ra v ariabilidad en el in te rio r de las categoras, con
lo que la p ru e b a n o sera posible.
La p ru eb a de la F en s m ism a n o verifica el supuesto de va-

riancias iguales u hom oscedasticidad (com o se designa el supues


to en len guaje tcnico). E n situaciones e n las que las variancias
de las m u estras parecen d iferir m u ch o e n tre s, pu ed e p ra cticarse
u n a p ru e b a in d ependiente p a ra la igualdad de las variancias (va
se [1], pp. 141 a 144). Si los re su ltad o s de u n a p ru e b a de esta
clase in d ican q u e h ay desviaciones m s b ien extrem as de la h o
m ogeneidad de la variancia, entonces no debera em plearse el
anlisis de sta. Sin em bargo, pu ed en con to d o to le ra rse desvia
ciones m o d erad as de la hom ogeneidad. S em ejantes desviaciones
pueden re d u cirse a m enudo considerablem ente m ed ian te tra n s
form acin de las v ariables.3 Si u n a categora p a rtic u la r es o m u
cho m s o m u ch o m enos hom ognea que las o tras, pu ed e re su l
ta r indicado d esc a rta rla del anlisis de la variancia. E n trm inos
generales, las desviaciones m o d erad as resp ecto d e la norm alidad
y de la ig u ald ad de las variancias p u ed en to le ra rse sin necesidad
de re c u rrir al u so de las altern ativ as n o p aram trica s (vase [ 1 ],
pp. 220 a 223).
2. N ivel de significacin y regin crtica. Sirvm onos de u n ni
vel de .05. Si la hiptesis n u la es en realid ad in co rrecta, en to n
ces, si tom am os siem pre la razn d e la estim acin d en tro a la
e n tre colum nas, podem os e sp e ra r e n c o n tra r que el v alor de F sea
m ayor que la unidad. P or lo tanto-, nos servirem os d e la cola m a
yo r de la d istrib u ci n F com o regin crtica. Si re su lta q u e F es
m en o r q ue la u n id ad , n o te n d r o b jeto alguno b u sc a r en la tab la
el v alor de la p rob ab ilid ad , ya que, p a ra d e sc a rta r la hiptesis
nula, se n ec esitarn valores de F su periores a la unidad. U na F
m en o r que la u n id ad in d icara u n grado m ayor de heterogeneidad
d en tro de las categoras de lo q u e se esp erara al azar. El lector
h a de re c o rd a r u n a vez m s que, aunque slo nos sirvam os de una
sola cola de la d istrib u ci n F, e sto n o significa en m odo alguno
que anticipem os cul de las m edias de las categoras ser m ayor.
3. D istribucin de m uestreo. La distribucin de m u estreo de F
est d ad a en el c u a d ro J del A pndice 2. El em pleo de este cua
d ro se describ e m s abajo.
4. Clculo de la estadstica de la prueba. Con o b je to de obte
n e r u n v alor de F, razn de las estim aciones e n tre y d e n tro de
colum nas, se r necesario calcu lar p rim ero los totales e n tre y
d en tro de cu ad rados. Como q u iera que la variacin to tal es
igual a la su m a d e las o tra s dos, slo necesitarem os calcular dos
de los valores en cuestin, y a q u e el terc ero se o b te n d r p o r
sum a o d iferen cia de stos. S e re c o rd a r que la su m a d en tro de
los cu ad rad o s co m p o rta u n a operacin de unificacin. E sto re p re

3 Ocurre, por ejemplo, a veces que las categoras que tienen las medias
ms grandes son tambin las menos homogneas. En tales casos, si se toma
como escala de intervalo el logaritmo de la variable original, el efecto ser
el de igualar las variancias. Para un examen ms detallado del empleo de
la transformacin logartmica, vase la sec. XVIII2.

sen ta considerablem ente m s tra b a jo q u e el que se req u iere p a ra


las o tra s dos sum as de cuadrados y, p o r lo tan to , obtenem os la
su m a d en tro de stos restan d o la sum a e n tre colum nas de la sum a
to ta l de los m ism os.
La f rm u la de clculo p a ra la su m a to ta l de los cuadrados se
ob tiene en la m ism a fo rm a que la de la variancia [vase la ecua
cin (V I .6)]. As p u e s:
S um a to ta l de los cuadrados = 2 2 ( X tj X ..)2 =

i j

(2 2 1 ^
= 2 2 X j2 ------ -------i i

(X V I.4)

sta es la m ism a f rm u la que em pleam os al calcu lar las des


viaciones e stn d a r, slo que ah o ra es necesario servirse de u n
doble signo de su m a to tal.
La f rm u la de clculo de las variaciones en tre colum nas se
p re se n ta a p rim era vista com o form idable, pero, si se m ira m s
de cerca, en cu n trase que co m porta u n procedim iento relativ a
m en te sencillo. E s com o sig u e :
( 2 X y)2
( 2 S I )2
i
i }
S um a de cuad rad os e n tre colum nas = 2 ------ ----------------------------i
Nj
N
(X V I.5)

(2x)2
( in i2)2
i

(si x jn

(ssii,)2
-i j

----- ------ - -|----------------1- . . . ~\---- 1------l -----------------. N


N2
Nk
N

O bsrvese que el segundo trm in o de la expresin a n te rio r es el


m ism o fa c to r que se su stra jo de 2 2 I / p a ra o b ten er la sum a
i
to ta l de cuadrados. El p rim e r trm ino, en cam bio, es suscepti
ble de d eso rie n ta r al lector. A nalizando e sta expresin, vem os
que calculam os p rim e ro la sum a de cada colum na y luego la ele
vam os al cu ad rad o p a ra o b ten er ( 2 X 3)2. Dividimos luego dicha
i

expresin e n tre el nm ero de casos de la colum na, que no necesi


ta ser siem pre el mismo-. Tenem os as p a ra la colum na j-sim a:
( 2 Xi j Y/ Nj . F inalm ente, hacem os lo m ism o con cada colum na
i

y sum am os los resultados.


Los clculos del p ro b lem a n um rico q u e se dan a continuacin
ay u d arn a a c la ra r el procedim iento. Las sum as to tal y e n tre
colum na d e cu ad rados se calculan com o sigue:

2 2 X ij1 = (4.3 )2 + (2.8)2 + . . . + (1.9)2 = 1 453.58


%j

(2
4 #

(ll.O)2

24

= 1 080.042

SC totales = 1 453.58 - 1 080.042 = 373.538

(68.6)2
(44.8)2
(47.6)2
SC en tre colum nas = ------------ 1----------------------------------------------- 1----------- 1 0
8

= 1 122.345 - 1 080.042 = 42.303


P ara o b ten er la sum a de cuadrados d en tro sustraem os sim ple
m ente la segunda expresin de la p rim e ra obteniendo:
SC d en tro = SC totales SC e n tre colum nas
o
331.235=

373.538

42.303

Las apreciaciones de la variancia com n pueden calcularse aho


ra dividiendo e n tre los grados apropiados de libertad. Finalm ente,
la F se calcula dividiendo la estim acin e n tre colum nas e n tre la
estim acin in terio r. Estos clculos se resum en en el cuadro XVI.3.

Cuadro

XVI.3. Clculos para el anlisis de la variancia

Total
Entre columnas
Dentro de columnas

Sumas de
cuadrados

Grados de
libertad

Estimacin de
la variancia

373.538
42 303
331.235

N - 1 = 23
k ~ 1= 2
M k 21

21.152
15.773

p
. ,.

5.
Decisin. P ara decidir si descartam os o n o la hiptesis nula,
hem os de averiguar si el valor de F queda o n o en la regin cr
tica. Se observ ar que se dan tres cuadro s distintos de F, que
co rresponden a los niveles de significacin del .05, .01 y .001 res
pectivam ente. E sta inform acin no puede condensarse en u n solo
cuadro, p o rque hay que asociar con cada F dos grados de libertad,
uno p a ra el n u m era d o r y o tro p a ra el denom inador. Los grados
de lib ertad asociados al num erador, O1 sea la estim acin entre
colum nas, se en cu en tran buscando horizontalm ente a rrib a del
cuadro, en ta n to que los del denom inador, o estim acin dentro,
se obtienen leyendo el cuadro de a rrib a abajo. O bsrvese que
todos los valores de F dados en el cuadro son > 1.0, lo que indica

que el cu ad ro se h a establecido directam en te p a ra p ru e b as de


u n a cola. E n otro s t rm in o s : el n u m e ra d o r es siem pre la m ayor
de las dos estim aciones. E n n u estro p ro b lem a obtuvim os u n a F
con 2 y 21 grados d e lib e rta d (se escribe ^ 2,21) igual a 1.34. S ir
vindonos del cu ad ro del nivel de significacin del .05, y bu scan
do los grados ap ropiados de lib ertad , encontram os la cifra de
3.47. Sabem os, pues, que, si los supuestos fu e ran correctos, ob
ten d ram o s u n v alor d e F igual o m ay o r que ste m enos del 5 p o r
ciento de las veces. Com o q uiera que el v alo r efectivam ente ob
ten id o p a ra F es m enos que 3.47, no d escartam o s la hiptesis nula
al nivel del .05. D ecidim os que n o se dispone de p ru e b as sufi
cientes p a ra concluir que los tipos d e ciudades difieren realm ente
u n o resp ecto de o tro en cu an to a las ta sa s de crim inalidad.
X V I.2. C om paracin de m edias especficas
Se h a b r observado que el p ro b lem a a n te rio r p u d o h a b e rse tr a
ta d o sirvindonos de la p ru e b a de la d iferencia de las m edias que
co m p o rta la d istrib u ci n t. P udieron h a b e rse hecho tre s com pa
raciones distin tas, p o r pares, en tre las ciudades in d u striales y co
m erciales, in d u striales y polticas, y com erciales y polticas. E n
c o n tra ste con esto, el anlisis de la variancia b rin d a u n a prueba
sola acerca de si los tre s tipos de ciudades difieren o n o signifi
cativam ente en tre s o, en otros trm inos, si todos ellos pu d iero n
p ro ced er de la m ism a poblacin. La v en taja del anlisis de la
v arian cia est en que p u ed e em plearse u n a p ru e b a sola en lugar
de m uchas. Si h u b iera hab id o cu a tro categoras, se h a b ra n re
querido' 4 (3 )/2 , o sean 6 pru eb as de diferencia de las m edias.
Con 6 categoras se n ecesitaran 15 pru eb as, y con 10 categoras 45.
S upngase que se n ecesitaban 15 p ru e b as y que solam ente 4 de
ellas re su ltab a n significativas, qu concluiram os? S era difcil
decirlo.
H ay u n a salida fcil q u e a p rim e ra v ista p arece se r u n p ro
cedim iento razonable. P o r qu n o e fectu ar sim plem ente una
p ru e b a de diferencia de m edias con las dos categoras q u e p re
sen tan resp ectivam ente las m edias m ay o r y m enor? P orque si s
tas son significativam ente distintas, podem os concluir q u e las
categoras difieren efectivam ente e n tre s. H em os de re c o rd a r,
sin em bargo, que (suponiendo m u estras del m ism o ta m a o ) en
esta fo rm a seleccionaram os la p ru e b a n ica que p re s e n ta ra
m ayores pro b ab ilidades de d ar significado, prescindiendo de las
dem s. Como q u iera que podem os e s p e ra r que al nivel del .05
u n a p ru e b a so b re veinte d significado incluso si todas las m e
didas de las poblaciones son iguales, es evidente que ca rg ara
m os as los dados en favor del rechazo. E n otros t rm in o s : el
nivel de significacin realm en te em pleado no sera del .05, sino
tal vez el del .5 o .7, ya que estam os obteniendo la p ro babilidad

de conseguir p o r lo m enos un xito (significacin al nivel del .05)


en u n gran n m ero de pruebas.
Sin em bargo, no debe deducirse de ello que el anlisis de la variancia sea siem pre preferible a u n a serie de pruebas de diferencia
de m edias. E stas ltim as, en efecto, si se em plean cautam ente,
pueden su m in istra r considerable inform acin. As, p o r ejem plo, el
anlisis de la variancia puede conducir a resultados significativos
sobre todo debido al hecho de que u n a de las categoras se aleje
m ucho de las restantes. De m odo que si dicha categora se h u
b iera excluido, la conclusin pudo h ab e r sido to talm e n te distinta.
E n cambio, u n a serie de pru eb as de diferencia de m edias podra
in d icar el hecho en cuestin con m ayor claridad. Si antes de
em pezar la p ru e b a se sospecha, en p artic u la r, que u n a o varias
categoras p o d rn acaso diferir m ucho de las o tras, entonces
cierto n m ero de pruebas de diferencia de m edias de u n a sola
cola p o d r re su lta r m s adecuado. Es posible tam bin, en oca
siones, a n ticip ar el orden en que quedarn las m edias de las
categoras. Supngase, p o r ejem plo, que se h u b iera predicho
que las tasas de crim inalidad seran las m ayores en las ciudades
in d u striales y m nim as en las polticas. E n tal caso pud ieran h a
berse utilizado dos pru eb as de diferencia de las m edias de una
sola cola, o s e a : u n a de ellas anticipando u n a diferencia en tre las
ciudades in d u striales y las com erciales, y o tra anticipando u n a di
ferencia e n tre estas ltim as y los centros gubernam entales. En
trm inos generales, parece ser que cu an to m ayor conocim iento
tengam os p a ra p red ecir las m agnitudes relativas de las diferen
cias y sus direcciones, o stas, tan to m s pro b ab le re su lta que
las p ru eb as d istin tas de la diferencia de las m edias sean adecua
das. El anlisis de la variancia, en cam bio, parece ser m s til
al nivel de exploracin.
F inalm ente, p u ed e observarse la relacin e n tre las distribucio
nes t y F. Si slo h u b iera hab id o dos tipos de ciudades, podra
tam bin h ab erse hecho u n a p ru e b a de anlisis de variancia, com
p aran d o luego los resultados con los de u n a p ru e b a t de dife
rencia de las m edias. En este caso, los grados de lib ertad aso
ciados al n u m era d o r de F h ab ra n sido 2 1, o sea 1. E n tan to
q ue los grados de lib e rta d del denom inador h ab ra n sido N 2,
los m ism os que p a ra t en la p ru e b a de la diferencia de las m e
dias. Hay que reco rd ar, tam bin, que cuando suponem os Ox = o2,
los denom inadores tan to de t com o de F com portan estim acio
nes unificadas de la variancia. R esulta que la distribucin t
puede co n siderarse como caso p a rtic u la r de la distrib u ci n F.
S i calculram os los valores de iz con N 2 grados d e libertad,
en contraram os que son exactam ente los m ism os que los de una
F de 1 y N 2 grados de libertad, com o puede com probarse com
p aran d o los cuadros F y t. E n o tro s trm inos, t es la raz cua
d rad a de u n a F que tenga u n grad o de lib ertad asociado a su

n u m erad o r. E sto significa, p o r supuesto, que se llegar exacta


m en te a las m ism as conclusiones en el caso de dos m uestras,
in d ependientem ente de si nos servim os de la p ru e b a de anlisis
de variancia o de la de diferencia de las m edias. E n este sen
tido, el anlisis de la variancia es en realid ad u n a extensin de
la p ru eb a de la diferencia de las m edias.
* Com paraciones ortogonales. E n m u ch as ocasiones en q u e son
com paradas m s de dos categoras re su lta conveniente h ac er u n
cierto n m ero d e com paraciones especficas previam ente p la
n eadas, b asadas en u n in ters terico, y o rien tad as a com probar
los procedim ientos de pru eb a. Supongam os p o r ejem plo que en
u n experim ento aparecen cinco grupos, uno de los cuales es de
co n tro l, en tan to los re sta n te s e stn su jeto s a diferentes tipos
de m anipulacin experim ental. Puede o c u rrir que los grupos se
gundo y tercero cuenten con dirigentes au to ritario s que se h an
visto som etidos a grados de fru straci n , m ediano en el del se
gundo y elevado en el del tercero. T am bin los grupos cu arto
y quinto pueden h ab erse visto sujetos a grados m oderados y ex
trem o s de fru straci n , p e ro h an desarro llad o experiencias de
direccin dem ocrtica. Podem os desear co m p arar el grupo te sti
go con cada un o de los cu atro grupos experim entales, p ero a la
vez podem os p ro p o n e m o s co m parar los dos grupos au to ritario s
con los dos dem ocrticos, o los dos grupos som etidos a u n a fru s
traci n m oderada con los otros dos en los que la fru straci n
e ra extrem ada. Son legtim as todas estas com paraciones, en el
sen tid o de que no nos vayan a b rin d a r inform acin re d u n d an te?
Dicho de o tra m a n e ra : si conocem os el re su ltad o de u n a com
p aracin, no p o d r o c u rrir que tal re su ltad o haya de a r ro ja r luz
so b re alguna de las dem s? N ecesitam os u n sistem a que nos p e r
m ita d ecid ir si las com paraciones son ortogonales o si son re al
m en te in d ep en d ientes.4
Podem os h ac er uso de nuevo de la idea de las funciones linea
les, m ed ian te u n procedim iento que viene a se r u n a am pliacin
d irecta de la p ru e b a de la diferencia de m edias. Si deseam os
c o m p arar el g ru p o de co n tro l (grupo I) , con los grupos experi
m entales, se nos o c u rrira n atu ra lm e n te re s ta r la m edia de las
m edias de los cu a tro grupos experim entales, de la m edia del gru
p o de control. De m an era anloga, si deseam os co m p arar los
grupos au to ritario s con los dem ocrticos, restaram o s n a tu ra l
m en te la m edia de los grupos IV y V (dem ocrticos) d e la de
los grupos II y III. Si dam os la m ism a ponderacin a todos los

4 La idea de ortogonalidad se deriva de una interpretacin geomtrica


de las asociaciones estadsticas, y se refiere a aquellas situaciones en las
que la relacin puede ser representada mediante ejes perpendiculares u or
togonales. De inters para nosotros es que si tambin suponemos homos
cedasticidad y normalidad en la distribucin de la variable dependiente,
puede demostrarse que la ortogonalidad implica la independencia esta
dstica.

g rupos (con independencia del tam a o relativo de las m u estras),


ello su p o n d ra c o m p arar las m edias de las dos m edias, o ( A )
( X 2 + X s ) ( 1A ) ( X i + X 5), siendo la hiptesis n u la la de que

( Vi )(|x2 + (i3) ~ ( Vt )(^4 + M-e) = 0D efinam os de m odo m s general u n a funcin de tyj p a ra la isim a com paracin que deseam os hacer, com o sigue:

k
. i-

1k]lc

3=1

Cij\Xj

En donde c is son ponderaciones m uy sim ples, dependientes de


la com paracin q u e se lleva a cabo. Si im ponem os la restriccin
de que la su m a de las ponderaciones debe s e r igual a cero, es
decir, 2 ci3- = 0, se sim plificar gran d em en te el anlisis sin resi
trin g ir de nin g u na m an era las com paraciones a realizar. As, si
n u e stra p rim e ra com paracin se refiere al grupo de control con
tr a la m edia de los cu a tro grupos re stan tes, podem os to m ar
cu = 1, con los re sta n te s c1} iguales todos a - 54. Si u n a p a rtic u
la r com paracin d eja sim plem ente fu e ra u n a de las categoras
(p o r ejem plo el g ru p o de co n tro l), h arem o s que el cis p a ra aque
lla categora sea igual a cero. De esta m an era tendrem os, en el
caso de las tres com paraciones que estam os considerando:

: control contra los dems


(I vs. II, III, IV y V)
1>2: autoritarios contra democrticos
(II y III vs. IV y V)
: frustracin moderada contra
extrema
(II y IV vs. III y V)

II

III

IV

-V i

-V i

-V i

-V i

Va

V2

-y 2

-'/2

V2

-y 2

V2

lh

Si las v arian cias de poblacin o,2 son aproxim adam ente igua
les, las poblaciones aproxim adam ente norm ales, y todas las
m u estras del m ism o tam ao, las com paraciones separadas sern
m u tu am en te independientes (como- asim ism o ortogonales), siem
p re que se p roduzca la siguiente relacin n tre los co eficien tes:

k
2 c np i} = 0
i^ i

p a ra to d as las h ^ i

E n p a rtic u la r com enzarem os p o r exam inar el p rim e r p a r de


com paraciones (h ~ 1, i = 2). E n n u e stro caso ten d rem o s:

C11C21 + C12C22 + C13C23 + c14c24 + C15C25


= 1(0) + ( - 'A ) ( A ) + (~>/4) ( a ) + (-V 4 ) ( - V z ) + ( - J4 ) ( - V 2 ) = o
viendo q ue la condicin se aplica. Pasam os a continuacin a las
com paraciones p rim e ra y te rc e ra y finalm ente a las segunda y
tercera, observando de nuevo que la sum a req u erid a de los p ro
ductos es igual a cero. As:
1(0) + ( - # ) ( # ) + i - ' A X - ' A ) + ( - J 4 ) ( V ) + ( V4)(Vi) = 0
Y

0(0) + ( 1/ 2) ( >/2) + ( /2 ) ( - /2 ) + { - V i ) ( ) + (-'/2 ) ( - '/ 2) = 0

Podem os d em o strar en general que si h ay k categoras, resul


ta r n cuando m s k 1 com paraciones m u tu am en te ortogona
les. Asimismo, si los tam a o s de las m u estras son distintos, re
su lta r n ecesario p o n d erar con los tam a o s N de la categora
de m u estra, siendo el m e jo r criterio p ra lo g rar la o rto g o n alid ad :
S ^ -i N,

= 0

E n n u e stro ejem plo hem os utilizado solam ente tre s com para
ciones m u tu am en te ortogonales, en ta n to que k 1 , o cuatro,
son posibles. E n la m ayora de los casos no te n d r p o r su puesto
sentido te rico el u tiliza r todas las com paraciones ortogonales
p o sibles; sin em bargo, es instru ctiv o d eterm in a r cul sera la
cu a rta. O bsrvese que ya hem os com parado el grupo de con
tro l con todos los grupos experim entales, y p o r ello n o es de
e sp e ra r que u n a com paracin de dicho grupo de control con
cu alq u iera de los subgrup-os (p o r ejem plo el de los grupos auto
rita rio s ), re su lte ortogonal con la p rim e ra com paracin. Puede
co m p ro b arse esto fcilm ente aplicando el criterio de prueba.
O bsrvese que hem os com parado el grupo II (ju n to al I I I o el
IV ) con el grupo- V (en com binacin a su vez con los grupos I I I
y IV). Podram os as e sp e rar que si los grupos I I y V son p a
reados c o n tra los I I I y IV, la com paracin re su ltan te fuese
o rtogonal con las re sta n te s com paraciones, com o en efecto as
o cu rre. A m enos que de m an era especfica se buscase u n a in te r
accin, tal com paracin p a rtic u la r carecera probablem ente de
sen tid o terico-, ya que re q u erira p ro m ed ia r las puntuaciones
del g ru p o au to rita rio con fru stracio n es m edias con las del grupo
dem ocrtico con elevada frustracin.
O bsrvese que al co m p ro b ar la ortogonalidad o independencia
m u tu a e n tre com paraciones no hem os dicho n ad a en relacin
con el tam a o real de la m uestra, excepto en el caso d e las
m u estras tam a o N. E l crite rio de p ru e b a im plica solam ente

las ponderaciones c i} y n o las m edias d e las m u estras o varian


cias. Las decisiones relacionadas con las com paraciones deben
se r hechas, en efecto, antes de realizar la recogida de datos. Se
puede entonces b u sca r la significacin estad stica de cada com
paracin, com o se indica m s abajo. E sta p ru e b a incluye la dis
trib u ci n t de m a n e ra exactam ente anloga a lo que o c u rre con
la p ru e b a de la diferencia de m edias, la que es p o r su puesto la
com paracin m s sim ple posible, en la que cl = l, y c12 = 1 .
El n u m era d o r de t ser u n a estim acin de la funcin lineal %
o b ten id a su stitu y en d o las c o n tra p artes de la poblacin con las
m edias de las m u estras. As, si hacem os:
% = Ci l Xl + Ci 2 ^ 2 + .. + cilcX k
tendrem os el n u m era d o r p a ra la -sima com paracin. E n el caso,
p o r ejem plp, d e n u e stra p rim e ra com paracin e n tre el grupo de
co n tro l y todos los dem s, hab ram o s tenido

% = x t - ( y*)(x2+ x z + x + x 5)
ta l y com o el sen tid o com n lo h a b ra sugerido.
P ara n u e stro denom inador de t deseam os u s a r u n estim ador
resu m id o b asad o e n todas las m u estras, incluso en los casos en
q u e la com paracin no ab a rq u e la to talid a d de dichas m u estras.
R ecordando n u e stro resu ltad o p a ra la variancia de u n a com bi
nacin lineal, sabem os que
v ar $< = c n 2 v a r X x + c i22 v ar X 2 + . . . + cikz v ar X k
Si suponem os n o rm alid ad y variancias iguales a*2 = a2 la expre
sin se convierte en
a
o2
o2
ri2
s c -,2
varap* = cn 2 + ci22 + . . . + cifc2
= o2 2 - g Ni
N2
N jc
i - i Nj
la que, al colocar u n estim ado p o r o2 y obteniendo la raz cua
d ra d a positiva, se convierte en el denom inador deseado de t, el
que te n d r N k grados d e lib ertad . E sta m ism a expresin
h ab a sido u sa d a en el denom inador de t en los casos de nues
tra s com paraciones segunda y terc era , en las que n o fig u ra el
g ru p o d e co n trol. E n el caso de la segunda com paracin, p o r
ejem plo, h ab ram os tenido
o2=

^ s i2

+
N

+ . . +
- 5

N 6 S b2

(d e n tro del grupo estim ad o de variancia)

*L

i-1 Nf

, (>/2 ) 2

Nt

( )2

H------ TZ------r

{ -V i )a , (- y * )*
N.
i

+ ~ r+ ~ r+ ~ r)
( V2) ( X2 + X s) - ( Vz ) ( X4 + X s)
y p o r lo ta n to = --------------------------- ----------------- ;-----o ( J * W l / N 2 + 1/iSTg + 1 / J V 4 + \ / N s

( X 2 + X 8) - ( X 4 + X 5)
oy / l / Nz + l / N + / N 4 + 1/B

lo que es u n a extensin evidente de la p ru e b a de la diferencia


d e m edias. O bsrvese que el facto r (Vi ) se cancela en el num e
ra d o r y en el denom inador, lo que re fle ja el hecho de que las
m agnitudes ab so lutas de c(j n o im portan, en ta n to que 2 c i} = 0.
a

D ebe re calcarse que el estim ad o r resu m id o o ser precisam ente


el b asa d o en la sum a in te rio r de los cuadrados (ta l com o se
calcula en la p ru e b a F ) y en l estarn incluidas todas las ca te
goras, en ta n to que el n u m era d o r de t y la expresin b a jo el ra
dical en el den o m inador no ab a rca rn todas las categoras.
XVI.3. Anlisis bim odal d e la variancia
E n d eterm in ad as circunstancias re su lta posible ex tender el an
lisis de la varian cia aadiendo o tras variables de escala nom inal.
S em ejan te p ro ced im iento es posible an te to d o en experim entos
controlados, en los que el investigador p u ed e asignar individuos
a varios grupos al azar, controlando as el n m ero de casos de
cad a categora. E n las situaciones n atu rales, sin em bargo, en
las que n o pu ed e efectu arse sem ejante tip o de control, la exten
sin que se describe en la p resen te seccin ser m enos til.
Algunas de las ideas bsicas contenidas en lo que se h a denom i
nad o anlisis de v arian cia en dos form as ay u d arn a com prender
algo del m aterial q u e se p re se n ta en los captulos xix y xx.
Si es posible in tro d u c ir o tra variable de escala nom inal de tal
m o d o q u e to d as las com binaciones de subcategoras de las dos
escalas n o m inales tengan el m ism o n m ero de casos, la exten
sin del anlisis de la v arian cia es m uy sencilla.5 Supngase que

s Si colocamos el mismo nmero de casos en cada categora, y si cons


truimos un cuadra de contingencia que relacione a las dos escalas nomina
les, entonces podremos ver que no hay relacin entre ellos en la muestra.
Esta falta de relacin entre las variables de escala nominal es lo que nos
permite separar las sumas de cuadrados de hileras y columnas sin ambi
gedad.

las categoras de la segunda escala nom inal estn rep resen tad as
p o r hileras. O btenem os ah o ra cierto n m ero de subcasillas, con
el m ism o n m ero de casos cada una. Con objeto de cum plir di
cha condicin, hem os de lim itam o s, p o r supuesto, a p o n er en
colum na categoras de la m ism a m agnitud. A los datos num
ricos del cuadro X V I.1 aadim os la escala nom inal "regin, em
p leando slo las dos regiones N ordeste y Sudeste. Supongam os
que hay el m ism o n m ero de ciudades en cada casilla de las seis
en to tal. Si ello n o fu e ra as, h a b ra que re c u rrir a u n m todo
aproxim ado (vase infra). Los datos num ricos se dan ahora
en el cu ad ro X V I.4, con las sum as y las m edias de las subcategoras in d icad as en cada casilla.

C uadro

XVI.4. Datos para el anlisis de variancia en dos form as


Tipo de ciudad

Regiones

Total

N o rd e s te

Industrial

Comercial

Gubernamental

4 .3
5 .9
2.8
7.7
2 X = 20.7

5.1
3 .6
1.8
3.3
2 X = 13.8

3.1
3.8
1.6
1.9
2 X = 10.4

S u d e s te

= 5.18

= 3.45

12.3
9.1
16.3
10.2
2 X = 4 7 .9

6 .2

4.1

9 .5
11.2
2 X = 3 1 .0

X=

X = 11.98

T o ta l

X =
6.2

Xy

= 4 4 .9

X x. =

2 .6 0

3.74

11.4

7.1
12.5
2 X = 3 7 .2

7.75

= 116.1

= 9.30

X 2. = 9.68

2 * = 6 8 .6

2 X i2 = 44.8

2 X i3 = 47.6

2 2 X y = 161.0

i i

X .x =

8.58

X 2 = 5 .6 0

X ,g =

5.95

X.. =

6.71

Si hay el m ism o n m ero de casos en cada subcasilla, resu lta


posible frag m en tar las sum as d e cuadrados del in te rio r de las
colum nas, o inexplicadas, en diversos com ponentes. Podem os,
p o r supuesto, efectu ar u n anlisis de variancia a travs de las
hileras, prescindiendo de las colum nas p o r com pleto. Las sum as
de cuad rad o s al in te rio r de las hileras y e n tre las m ism as se
o b ten d ran en ta l caso exactam ente en la m ism a fo rm a en que
se calcularon an terio rm en te las cifras al in te rio r de las colum nas
y en tre ellas. D esde el punto- de vista m atem tico, re su lta que
si hay el m ism o nm ero de casos en cada subcasilla la sum a
de cuadrados e n tre las hileras p u ed e considerarse com o proce
d en te p o r com pleto de la sum a de cuadrados d en tro o inexpli-

cada (p o r las colum nas) de las colum nas. As, pues, la variacin
to tal puede dividirse ah o ra en tre s porciones, com o sigue:
SC totales = SC den tro de las colum nas + SC entre-hileras +
+ SC inexplicadas

( XVI .6)

H em os tom ado la variacin total, explicando todo lo que po


dam os p o r m edio de la p rim e ra escala nom inal (tip o de ciudad).
De lo q ue perm an ece inexplicado (la sum a de cuadrados d en tro
de la colum na), cierta porci n puede explicarse m ediante la se
gunda escala nom inal (reg i n ). E n cu an to al rem anente, llam ado
a m enudo trm in o de erro r, constituye la p roporcin de la v aria
cin to tal d ejad a sin explicar p o r am bas variables. Tenem os
ah o ra tres apreciaciones de la variancia com n, en adicin a la
estim acin b asa d a en la sum a to tal de los cuadrados, y stas p u e
den em p learse p a ra efectu ar dos pru eb as F distintas. E l trm in o
de e rro r p u ed e em plearse en los denom inadores de am bas p ru e
bas F, ya que la estim acin b asad a en la sum a de cuadrados
inexplicada ser siem p re insesgada e independiente de las o tra s
dos. Los n u m erad ores de las F sern las estim aciones basad as en
las sum as d e cu adrados e n tre colum nas y e n tre hileras. Cada
p ru eb a ser u n a p ru e b a de la existencia de u n a relacin e n tre la
variable de escala de in terv alo y u n a de las variables d e escala
nom inal, con tro lando la o tra escala nom inal.
Si bien este tip o d e operacin de control se exam inar con
m ay o r d etalle en el cap tu lo xix, es m en este r decir aqu unas p a
lab ras al p ropsito, ya que el control sirvindose de u n anlisis
de v arian cia d e dos form as com porta u n principio algo diferente
del q ue se exam in en conexin con los problem as de contin
gencia. E l lecto r observar, en efecto, q u e h a sta aqu n u estro
pro ced im ien to de control h a consistido literalm en te en m an te
n er co n stan te la v ariable de control y exam inar lo que acontece
en el in te rio r de cada categora de la variable de control. As,
p o r ejemplo-, hicim os u n a serie de p ru e b as de la /-cu ad rad a, u n a
p a ra cad a u n a de dichas categoras. Aqu, en cam bio, hacem os
una sola p ru e b a F en vez de varias, com o se hizo en el caso de
la p ru e b a de la chi al cu ad rad o resum ida. E n efecto, tom am os
su p resen cia en consideracin ajustando valores de la escala de
intervalo, de acu erd o con la categora de la variable de control.
El le c to r o b servar en el cu ad ro XVI.4, p o r ejem plo, que la
tasa m edia de crim inalidad es de 3.74 p a ra todas las ciudades
del N ordeste, en ta n to que la de las ciudades del S udeste es de
9.68. Supngase q ue furam os a p re te n d e r q u e todas las ciudades
estuvieran en la m ism a regin, y realizando u n a ju ste estad s
tico de los niveles de crim inalidad agregando a todas las ciuda
des del N o rd este u n a ca n tid ad fija (e sto es, 2.97) y sustrayendo
la m ism a can tid ad de las ciudades del S udeste, de m odo que

am bas categoras tuvieran la m ism a m edia (o sea la m edia ge


n eral de 6.71). S em ejante operacin de control equivale a plan
te a r la cuestin hipottica de cules seran las tasas de crim ina
lid ad si to d as ellas estuvieran expuestas a las m ism as influencias
regionales. E n lu g ar de tr a ta r realm en te las regiones separada
m ente, nos servim os del expediente auxiliar consistente en aju s
ta r las m arcas d e la ta sa de crim inalidad, to m ando con ello en
consideracin la variable de control en cuestin. Lo que p erd e
m os en rig o r cientfico lo ganam os en eficiencia del esquem a, ya
que podem os servim os as d e u n a sola p ru e b a que com porta
el n m ero to ta l d e los casos.
Al a ju s ta r las tasas de crim inalidad en esta form a, reducim os
en realid ad la variacin to tal de las m arcas. E n efecto, su strae
m os la p o rci n de la variacin deb id a a la regin. Tom ando las
m arcas ajustadas, podram os c o m p arar a continuacin las esti
m aciones e n tre las colum nas y d en tro de las m ism as, en la form a
habitual. A fortunadam ente, 110 es necesario, en realidad, obtener
las m arcas a ju sta d a s. Si lo hiciram os, en efecto, en co n trara
m os que los re su ltad o s seran idnticos a aquellos hallados sir
vindonos del anlisis de variancia de dos form as. E n otros t r
m inos : el tip o de anlisis que vam os a d escrib ir equivale a la
operacin de a ju s te que acabam os de exam inar. E n efecto, lo
que hacem os es, p rim ero, d e ja r que la variable de control acte
sobre la v ariab le dependiente, sacando la porcin de la variacin
to tal explicada p o r la variable de control en cuestin. Tom am os
luego el re m a n en te com o o tra variacin "to tal nueva" y d eter
m inam os cu n to de este re m a n en te p u ed e explicarse p o r la o tra
variable independiente. E ste nuevo to ta l" es equivalente a la
variacin to tal de las m arcas ajustadas. E n trm in o s generales,
podem os co n tro la r variables adicionales en la m ism a form a. Al
p ra c tic a r aju stes p a ra cada u n a d e las variables d e control, ex
traem o s to d o aquello de la variacin que puede explicarse por
dichas variables. Y exam inam os luego el rem anente, p a ra ver
cu n to pued e explicarse p o r la o tra variable independiente. E n
los captulos siguientes harem os u n u so considerable de este
m ism o tip o de operacin de control.
Interaccin. N o estam os todava prep arad o s p a ra u n ejem plo
num rico, ya q ue m ed ian te la adicin de u n a segunda escala n o
m inal se in tro d u ce u n a com plicacin m s. S iem pre que haya
p o r lo m enos dos casos en cada subcasilla, debera h acerse una
p ru eb a adicional. E sto constituye u n a p ru e b a de "in teracci n ,
o del efecto posible debido a las com binaciones peculiares de las
dos variables d e escala nom inal. Con o b jeto de efectu ar la p ru e
b a del an lisis de variancia en dos form as an terio rm en te des
critas, es n ecesario suponer la pro p ied ad de aditividad. E nunciada
form alm ente, esta pro p ied ad re q u ie re que las diferencias m edias
de poblacin e n tre colum nas sean las m ism as p a ra cada hilera,

as como, inversam ente, que las diferencias e n tre hileras sean las
m ism as p a ra cada colum na. La aditividad puede ilu strarse m e
d ian te las siguientes cifras que re p resen ta n m edias hipotticas
de p o b laci n :
i a2 a3
5
10
Bs 25

*1

10
15
30

20
25
40

O bsrvese que las diferencias e n tre la p rim era y la segunda


colum nas son de 5 p a ra cada h ile ra ; e n tre la segunda y la te r
cera, las diferencias son de 10 p a ra cada hilera. Y asim ism o, las
diferencias e n tre la p rim e ra y la segunda hileras son de 5 todas
ellas, en ta n to que e n tre la segunda y la te rc e ra hileras son to
d as de 15. Supngase, sin em bargo, que la m edia de la casilla
cen tral fu e ra 35 en lu g ar de 15. E ntonces la aditividad n o se
verificara. Pese a que norm alm ente As da m ayores m arcas que
A, y B 3 m ayores que B 2, o cu rre algo p ecu liar cuando A2 y B 2 se
ponen ju n tas, en cu an to re su lta u n a m edia m uy alta. El proceso
es algo p arecid o al q u e tiene lugar cu an d o se com binan h id r
geno y oxgeno y se produce agua. El re su ltad o n o es lo q u e po
d ra esp erarse si cada elem ento se exam inara separadam ente.
Hem os en co n trado ya e sta posibilidad de interaccin en el caso
de los cu adros de contingencia, cuando vim os que la relacin
e n tre dos variables puede diferir de acu erd o con el nivel de una
terc era variable. Ilu strem o s la idea con algunos ejem plos. Su
pngase que p o r lo re g u la r las ciudades in d u striales tengan tasas
de crim in alid ad m s altas que los cen tro s polticos, y que las
ciudades del S u deste las tengan m s altas que las del N ordeste.
Se concibe, en tal caso, que podram os h a lla r ciudades in d u stria
les e n el S u deste que p re se n ta ra n u n a ta sa m edia de crim inali
d ad inesp erad am ente b aja. Podram os entonces b u sca r alguna
clase de in teraccin tal, en tre la in d u stria y los factores regiona
les, que p ro d u je ra u n a ta sa b aja. O tro tip o de ejem plo es tal
vez m s ilu strativ o todava. Supngase que se tenga que elegir
e n tre tres tipos de m todos pedaggicos. Se invita a cu atro m aes
tro s a q ue em pleen los tre s m todos. Es posible que en trm i
nos generales el m aestro A sea m s com petente que el B. Y en
fo rm a anloga, el p rim e r m todo p u ed e ser, acaso en conjunto,
su p erio r al segundo. P ero se concibe q u e el m aestro A n o se
ad a p te bien al p rim e r m todo y tenga resu ltad o s inferiores a los
esperados. As, hay interaccin e n tre el m a e stro y el m todo.
*
Antes de p a s a r al clculo de las d istin tas cantidades re su lta r
in stru ctiv o tra z a r u n m odelo lineal general, que re su lta r ser
anlogo a los m odelos form ulados en relacin con el anlisis de
la regresin. E n l expresam os u n a variable de escala de in te r

valos com o funcin de o tras diversas variables que pu ed en se r


tom adas, bien sea com o escalas de intervalos, o com o atrib u to s.
Supongam os que la p u n tu aci n del individuo k-sim o en la fila
i-sima y colum na j-sim a se re p re se n ta p o r X ijk, acep tan d o que
dicha p u n tu aci n est com puesta p o r los siguientes in te g ra n te s :
1) u n o deb id o a la m edia general de poblacin, i; 2) o tro debido
a los efectos q u e son consecuencia de ap arecer en u n a d eterm i
n ad a fila i, a los que denom inarem os efecto de fila, a*; 3) un
efecto sim ilar
debido a en c o n trarse en la colum na / ; 4) u n efec
to de in teracci n y debido a la com binacin p ecu liar de la fila
z-sima y la colum na j- sim a, y 5) u n efecto nico, o trm in o de
erro r, z iJk p ro d u c id o p o r facto res n o considerados d e m an era
explcita en la ecuacin. sta re su lta ra a s :
X ijk ^ + a + P + Y/ + i/fc

la que p o r su p u esto se re fiere a los p a r m e tro s de poblacin que


h an de se r estim ados con base en los datos de la m u estra. Re
su lta q u e si todos los supuestos requeridos en el caso de u n
anlisis de la v arian cia p o r dos m todos se dan re u n id o s (vase
m s ad e la n te), podem os o b te n e r estim ad o res n o sesgados de los
p arm etro s de la a n te rio r ecuacin, com o sigue:
^=

yj = X i j X i . X.J + X . .

<Xi=Xi . X
(3j= X .j X ..

= X tj (ai + 3/ + [i)
jfc = X ijk Xi

*
C ada u n a de estas estim aciones tiene u n sen tid o intuitivo,
salvo, ta l vez, la del efecto de in teraccin y y. U tilizam os la gran
m edia de la m u e stra X. . p a ra e stim a r ja y las desviaciones en
tre X.. y las m edias d e fila y colum na, p a ra calcular los efectos
de fila y d e colum na, a { y
respectivam ente. L a desviacin de
X ijk en relacin con la m ed ia X is de la m u e stra de la subcategora, re p re se n ta la variacin inexplicada en la m u estra, la que
estim a el t rm in o residual com parable zijk. La estim acin del
com ponente d e in teracci n yi p o d r entonces se r o b tenido p o r
su stracci n . H em os expresado en efecto cada individuo X ijlc en
funcin de los siguientes co m p o n en te s:
X ijk = X. . + ( X t. - X )

+(X.,-X..)

(g ran m ed ia -f (efecto de fila) + (efecto de colum na)


+ ( X l j - X i . ~ X . , + X. . ) + ( X m - X i , )
+ (efecto de in teracci n ) + (t rm in o de e r ro r)

P o r ejem plo, en el caso de la segunda ciudad poltica en el


N ordeste ten d ram o s:
1.60 = 6.71 + (3.74 - 6.71) + (5.95 - 6.71)
+ (2.60 - 3.74 - 5.95 + 6.71) + (1.60 - 2.60)
*
El procedim iento bsico ta n to en el caso de este m odelo,
com o en fo rm a m s generalizada, consiste en realizar pru eb as
separadas p a ra cada u n o de los efectos com ponentes a {,
y y i},
evaluando la con tribucin de cada u n o d e ellos en relacin con
el tam a o del trm ino de erro r. Como p o r o tra p a rte siem pre es
deseable u tilizar u n m odelo ta n sencillo com o re su lte posible,
com enzarem os observando si tiene sentido la elim inacin del
com ponente de interaccin y {j. Volvam os ah o ra al procedim ien
to q ue utilizarem os p a ra el clculo.
La p ru e b a de la interaccin puede efectuarse independiente
m ente de las dos p ru e b a s descritas an terio rm en te y co m p o rta el
m ism o p rocedim iento bsico que ellas. La sum a de cuadrados
inexplicada, o trm in o de erro r, se descom pone m s todava,
restn d o le la p o rcin q u e puede explicarse p o r la interaccin.
E n esta foim a, la su m a to tal de cuadrados se descom pone e n :
SC to tal = SC e n tre colum nas + SC e n tre hileras
+ SC de interaccin + SC d e e r ro r

(XVI.7 )

E sto pued e efectuarse tom ando cada com binacin de las catego
ras A y B y tra t n d o la com o categora de u n a variable sola com
binada. E n o tro s trm inos, tra ta m o s el problem a com o si tu
viram os u n a sola escala nom inal con las categoras, A xB ^ A2B lt
. . . , AkB. Es obvio que si slo h u b iera u n caso en cad a subeasi11a no p o d ra h a b e r variacin alguna de subclase. Si n o existe
interacci n en absoluto, deberam os o b ten er exactam ente el m is
m o e rro r o btenido adicionando separadam ente los efectos d e las
h ileras y las colum nas [com o en la ecuacin (X V I.6)]. P o r o tra
p arte , si se d a u n a interaccin significativa, el trm in o de e rro r
ser m en o r em pleando este segundo m todo. As, p o r ejem plo,
el lecto r d ebera convencerse p o r s m ism o d e que, si la casilla ij
p ro d u je ra efectos en discrepancia con las dem s, dioha casilla
ser relativ am en te hom ognea en com paracin y a sea con la
colum na / o con la h ile ra i, y la sum a d en tro de cu ad rad o s de
las subclases ser m en o r que el resid u o obtenido re sta n d o la
su m a de las sum as de cuadrados e n tre colum nas y e n tre hileras
de la sum a to ta l d e cuadrados.
La diferencia en tre la cantidad de variacin explicada sirvin
dose de esas subcasillas y la can tid ad explicada en el supuesto

de ad itiv id ad p u ed e entonces a trib u irs e a interaccin. As te


nem os :
SC to ta l = SC e n tre subclases + SC d en tro de las subclases
en donde la su m a de cu adrados e n tre subclases se h a descom
p u esto en tre s com ponentes, a s a b e r:
SC e n tre subclases = SC e n tre colum nas + SC e n tre hileras
+ SC de in teracci n
Ctenlos. V olviendo ah o ra u n a vez m s al p ro b lem a num rico
q ue co m p o rta tipos de ciudades, regin y tasas de crim inalidad,
podem os em pezar enum erando los supuestos requeridos.
1. S u p u esto s
N ivel d e m e d ic i n : Dos escalas nom inales, u n a escala d e in
terv alo ;
M o d elo : M uestras independientes a le a to ria s;
Todas las poblaciones de las subcasillas, las hileras
y las colum nas son n o rm ales;
Las variancias d e las poblaciones de las subcasillas
son iguales.
H ip tesis: 1. Las m edias de las colum nas de la poblacin
son iguales.
2. Las m edias d e las hileras de la poblacin son
iguales.
3. A dicionalidad d e la poblacin (sin in teracci n ).
Tenem os ah o ra tre s hiptesis d istin tas que pu ed en verificarse
in d ep endientem ente. La p ru e b a de in teracci n h a de efectuarse
prim ero , dependiendo las p ru e b as de las dem s de aqulla. Si la
hiptesis (3) n o se rechaza, el pro ced im ien to u su al consiste en
su p o n er ad itiv idad en el m odelo, poniendo las sum as d e cu ad ra
dos debidas a in teraccin (e n la m u e s tra ) en el trm in o d e e rro r
y sirvindose d e este trm in o de e r ro r m ayor p a ra la verifica
cin de las hip tesis (1) y (2). P ero si la hiptesis de fa lta de
interacci n se rechaza, entonces el pro ced im ien to a em p lear en
las o tra s dos p ru e b a s depender del c a r c te r de los d ato s (vase
in fra ). O bsrvese que, con o b je to de verificar la interaccin, he
m os de su p o n er ah o ra n o rm alid ad e igualdad d e variancias p a ra
cada u n a de las subcasillas. Los casos en las d istin ta s subcasi
llas h an de seleccionarse ind ep en d ien tem en te y n o pueden apa
rearse.
2. N ivel de significado. .05.
3. D istribucin de m uestreo. F.

4.
Clculo d e la estadstica de la prueba. H em os obtenido ya
las sum as de cuadrados to tal y e n tre colum nas. La sum a de cua
d rad o s e n tre h ileras se calcula exactam ente del m ism o m odo
q u e la d e e n tre colum nas. As, p u e s :
44.92
i 16.12
SC e n tre h ileras = ---------- 1-------------- 1 080.042
12

12

= 1 291.268 - 1 080.042 = 211.226


Con o b jeto de o b ten er la sum a de cuadrados d e interaccin,
nos servim os de las sum as de cada subclase. La sum a de cu ad ra
dos e n tre subclases e s:
20.72
47.9a
37.22
SC en tre subclases = -----------1------------ h .. H-------------- 1 080.042
4
4
4
= 1 341.585 - 1 080.042 = 261.543
O btenem os el trm in o de e rro r em pleado en la verificacin d e la
interacci n restan d o la sum a de cu ad rad o s e n tre subclases del
to tal. O sea:
SC del e rro r = 373.538 - 261.543 = 111.995
La can tid ad deb id a efectivam ente a interaccin es la su m a de
cuad rad o s e n tre colum nas m enos la su m a de las cantidades debi
das a las h ileras y las colum nas separadam ente. P o r lo ta n to :
SC de la interaccin = 261.543 (42.303 + 211.226) = 8.014
Los re su ltad o s p u ed e n re su m irse com o en el cu ad ro X V I .5.

Grados de
libertad

Estimacin
de la
variancia

373.538
261.543
42.303
211.226
8.014

N - 1 = 23
kl--l= 5
fc - 1 = 2
1-1- 1
( f c - l ) ( 2- l ) = 2

21.152
211.226
4.007

111.995

09

Total
E ntre subclases
E ntre columnas
E ntre hileras
Interaccin
E rror ( dentro de las
subclases

Sumas de
cuadrados

l
?!
II

Cuadro XVI.5. Clculos para el anlisis de variancia, d e dos fo r


m as con prueba de interaccin

6.222

0.644

Los grados de lib ertad se d eterm in a n p o r los m edios usuales.


Con Z h ileras y k colum nas h a b r Z 1 grados de lib ertad aso
ciados con la sum a de cuadrados e n tre hileras. P ara o b ten er los
grados de lib e rta d del trm in o de interaccin, tom am os el n
m ero de subcasillas m enos u n o ( k l 1 ) y restam os de esta can
tid ad los grados de lib ertad asociados a las sum as d e cuadrados
e n tre h ileras (Z 1) y e n tre colum nas ( k 1). Una regla p rctica
m s sencilla consiste en to m a r el producto de los grados de
lib ertad asociados a las sum as d e cuadrados e n tre colum nas y en
tre hileras. As, pues, si m ultiplicam os los grados de lib ertad
e n tre colum nas y e n tre hileras obtenem os (fc 1)(Z 1) = 2 gra
dos de lib ertad . ste es el m ism o resu ltad o que obtendram os
tom ando los grados d e lib ertad en tre subclases ( = 5) y restan d o
de ellos los grados de lib ertad d e las sum as de cu adrados en tre
hileras y e n tre colum nas ( = 1 + 2). E sto puede expresarse alge
braicam en te con la siguiente id en tid ad :
(fc Z 1 ) ( & 1 + Z l ) = ( f c 1 ) ( Z 1 )

Los re sta n te s grados de lib ertad , que deberan se r iguales al n


m ero to tal de casos m enos 1 grado de lib ertad p a ra cada sub
clase, pueden luego asociarse al trm in o de erro r.
5. Decisin. La p ru e b a de interaccin da u n a F que es m enor
que la unidad. N o tenem os, pues, m otivo p a ra rech azar la hip
tesis n u la de que n o se da interaccin. E sto significa q u e la pe
quea can tid ad adicional explicada p o r interaccin al in te rio r de
estas m u estra s puede explicarse fcilm ente p o r las fluctuaciones
de la seleccin. E n este caso propenderam os probablem ente a
acep tar el sup uesto de aditividad, pese a que nos encontram os
en el extrem o indebido de la p ru e b a y que, en consecuencia, de
beram os preo cuparnos en p rim e r trm in o p o r el riesgo de e rro r
de tipo II. Aadim os de paso que si hubiram os dispuesto de
cuadros, p odram os h ab e r utilizado u n nivel de significacin de .3,
p o r ejem plo, si realm ente hub iram o s tenido in ter s en conser
v ar el su p u esto de aditividad. H abiendo decidido que no existe
interaccin, podem os ah o ra p o n er la sum a de cuadrados debida
a la in teraccin (d e la m u e stra ) ju n to con el trm in o de erro r,
y servirnos de este trm in o de e rro r m ayor com o base p a ra la
estim acin del e rro r de la variancia. Al hacerlo obtenem os el cua
d ro XVI.6, fin el que el trm in o de e rro r d e 120.009 re p resen ta la
sum a de los trm inos de interaccin y de e rro r del cuadro XVI.5.
Del cuadro correspondiente se desprende que p a ra u n a F con
2 y 20 grados de lib ertad necesitam os u n a F de 3.49 o m ayor p a ra
o b ten er significacin al nivel de .05. Vemos asim ism o que una
F de 35.204 con 1 y 20 grados de lib e rta d es altam en te significa
tiva, ya que p a ra o b ten er significacin al nivel de .001 se reque
rira u n a F de slo 14.82. As, pues, existe poca duda de que se

Cuadro

XVI.6. Clculos para el anlisis de variancia en dos fo r


mas, con la interaccin aadida dentro del trm ino d e error
Sumas de
cuadrados

Total
E ntre columnas
E ntre hileras
E rror

373.538
42.303
211.226
120.009

Grados Estimacin
de
de la
libertad variancia

23
2
1
20

21.152
211.226
6.000

Nivel de
significacin

3.525
35.204

p < .05
p < .001

d a u n a relacin e n tre la regin y la ta s a d e crim inalidad. O bsr


vese que cuando controlam os en relacin con la regin dejando
que e s ta v riable explique todo lo que p u ed e acerca de las tasas
d e crim inalidad, y d ejan d o luego que el tip o de ciudad explique
to d o lo que pued e a propsito' del resto , obtenem os u n a relacin
significativa e n tre el tip o de la ciudad y las tasas de crim inali
dad. Se re co rd a r que la relacin sin el co n tro l relativo a la re
gin no d aba significacin.
Cabe o b serv ar q u e si la interaccin n o es significativa, gana
m os casi siem pre m s de lo que perd em o s al a d ju n ta r la in tera c
cin con el trm in o de erro r, sirvindonos de este trm in o de
e rro r com binado en el denom inador d e F. E n efecto, pese a que
la su m a de los cuadrados de e r ro r re su lta r en esta fo rm a lige
ra m e n te au m en tada, h a b r tam bin m s grados de lib e rta d aso
ciados al trm in o m ayor del erro r. Y com o q u iera que el trm in o
de interacci n ser relativ am en te pequeo, el efecto n e to ser
p o r lo re g u lar el de o b ten er u n denom inador de F m s pequeo.
H a b r tam bin, p o r supuesto, u n m ay o r n m ero de grados de
lib e rta d asociados con F y, p o r lo tan to , se re q u erir p a ra obte
n e r significacin u n valor m s pequeo d e F.
H em os de p re g u n ta r ah o ra qu h ab ram o s hecho si la in te ra c
cin h u b iera sido significativa. La re sp u e sta a dicha cuestin
n o tiene n ad a d e sencillo, p ero podem os, con todo, fo rm u la r al
g unas cu an tas sugerencias. El lecto r que se in tere se p o r u n tr a ta
m ien to m s com pleto d eber co n su ltar u n texto com o el de
Hays [7], K irk [9], o el A nderson y B ancroft [1].
Si la interacci n es significativa, a veces ser posible h a lla r u n a
o dos filas o colum nas, o aun unas cuantas subcasillas, que son
las q ue p ro d u cen la interaccin. Si hubisem os utilizado, p o r
ejem plo, cinco regiones, podram os h a b e r observado que el S ud
este difiere, de m an era fundam ental, del re sto de las regiones.
De ser as po d ram os h a b e r excluido del anlisis dicha regin en
especial, averiguando si h ab a interaccin e n tre las categoras res
tan tes, au n q u e reconociendo la n atu ra leza ex post facto d e tal
procedim iento. E n o tra s m uchas aplicaciones no ser ta n sencillo
localizar las filas, colum nas o casillas aisladas responsables de

la interaccin, en cuyo caso nos enfrentam os a u n desafo terico


cuando deseam os fo rm u lar u n a explicacin general razonable del
esquem a logrado. E n realidad, el localizar u n efecto m ayor de
interaccin p u ed e re s u lta r se r el hallazgo aislado de m ayor im
p o rtan cia en el estudio. A unque la conceptualizacin de m odelos
m atem ticos en los que se h alla im plicada la interaccin escapa
al p ro p sito de este libro, d eb er observarse que cabe fo rm u lar
ciertas altern ativ as relativam ente sim ples a los m odelos aditivos
lineales, tales com o los m odelos m ultiplicativos. (V ase Blalock
[ 2 ]).
Adems de c e n tra r la atencin en la interaccin m ism a, puede
ten erse in ters en d eterm in ar si u n a u o tra de las variables de
la escala n o m inal se relaciona o n o con la escala de intervalo.
Cules p ru e b as pueden efectu arse de tales relaciones? La cues
ti n se red u ce a lo siguiente: "Q u estim acin de la variancia
debera em p learse en el denom inador de F, en la estim acin del
e rro r o en la estim acin b asad a en el trm in o de in teraccin?
La resp u esta a esta p re g u n ta parece depender de la naturaleza
de las dos variables de la escala nom inal y, en p artic u la r, de si
las categoras em pleadas re p re se n ta n todas las categoras de la
poblacin o n o son m s, p o r el co n trario , que u n a m era seleccin
de categoras. E n los problem as sociales, en los que p o r lo re
g u lar no asignam os los individuos a las categoras al azar, suele
d arse con frecu encia el caso de q u e estas categoras rep resen ten
todas las categoras posibles del esquem a de clasificacin. As,
p o r ejem plo, si dividim os todas las ciudades en tre s tipos y no
excluim os n inguna al proceder en esta form a, confiam os incluir
algunas ciudades, p o r lo m enos, de cada tipo. Y en fo rm a anlo
ga, si clasificam os a personas com o varones o m u jeres, o como
p ro testan tes, catlicos o judos, confiam os p o r lo re g u la r hab er
incluido algunos rep resen tan tes de todas (o casi to d as) las cate
goras. P o r o tra p arte, n u estra s categoras p o d ran co m p o rtar
ellas m ism as u n a seleccin de todos los tipos. As, p o r ejem plo,
p odram os h a b e r seleccionado a m etodistas, cuqueros y a tes
tigos de Jehov com o tres grupos religiosos que re p re se n ta n u n
n m ero m ucho m ayor de ellos. Tal vez cada u n a de dichas deno
m inaciones sea rep resen tativ a de cierto tipo d e religin. Exam i
nem os cad a u n a d e estas situaciones p o r turno.
E n la p rim e ra de ellas, n u estra s categoras de am bas variables
re p resen tan todos o casi todos los tipos posibles. No se da cier
tam en te e rro r alguno en la seleccin de las categoras, com o
p o d ra h ab erlo si slo nos hubiram os servido a ttu lo d e com
paracin de tre s denom inaciones religiosas. E n la m ayora de
estos problem as, n u estro in ters se c e n tra r probablem ente en
el grado d e hom ogeneidad de cada tipo, e n relacin con la m ag
n itu d de las diferencias e n tre los tipos. La segunda variable de
la escala nom inal puede considerarse en p rim e r lugar com o una

variable p e rtu rb a d o ra que necesita controlarse. La interaccin


p u ed e acaso co n stitu ir sim plem ente u n resu ltad o secundario
in tere sa n te del anlisis. E n este caso ser razonable co m p arar
u n a estim acin b asad a en la sum a de cu adrados e n tre con la
apreciacin b asad a en la sum a de cuadrados n o explicada. E sta
ltim a estim acin es u n a estim acin d en tro d e las subclases y
co m p o rta la variacin que perm anece todava inexplicada p o r la
accin co n ju n ta de la variable independiente m ayor ( digam os el
tip o de la ciu d ad ) y la variable de control. D ejam os que la va
riab le de control act e prim ero, y dejam os luego que la variable
in d ependiente m ayor explique lo que p u ed e del resto. C ierta
ca n tid ad adicional es explicada asim ism o p o r la interaccin de
las dos variables. Cada u n a de estas sum as d e cuadrados "expli
cad as" pued e co m pararse con la sum a de cuadrados no explica
d a , o trm in o de erro r. A continuacin tom aram os esta esti
m acin del e r ro r com o denom inador en cada u n a d e n u estras
p ru eb as separadas de F. Al verificar en relacin con la signifi
cacin de u n a diferencia e n tre colum nas, tom aram os, p o r lo ta n
to, la estim acin de e n tre colum nas dividida p o r el trm in o de
e rro r, y en fo rm a anloga p o r lo q u e se re fiere a las h ileras. E n
n u estro p roblem a num rico, si la in teraccin h u b iera sido sig
nificativa, estas razones de F h a b ra n sido respectivam ente de
21.152/6.222 y 211.226/6.222.
Surgen o tras consideraciones cuando las categoras de u n a u
o tra v ariab le (o de am b as) de la escala nom inal slo co m portan
u na peq u e a seleccin de las categoras posibles. Si la in tera c
cin re su lta significativa y es m ayor, p o r lo tan to , que la e sti
m acin del e rro r, adase siem pre la cuestin de sab e r si esto
n o se h a b ra pro d ucido de h ab e r sido d istin tas las categoras.
Si tanto la v ariable de fila com o la de colum n a ab arcan u n a
m u estra de categoras, nos referim os a ta l m odelo denom inndo
lo m odelo de efectos aleatorios, p o r c o n tra ste con el m odelo de
efectos fijos, p a ra el cual ninguna de las variables com prende un
m u estreo de categoras. P ersonalm ente n o h e visto n u n ca u n a
ilu straci n razonable de tal m odelo de efectos aleatorios, aunque
los m odelos m ixto s en los que figuran u n o (o m s) facto res no
m u estread o s y u n fa c to r m uestreado, son razonablem ente com u
nes. El m s h ab itu al de los m odelos com unes en las aplicaciones
a la ciencia social se p re se n ta en los casos en que son p ersonas
(educadores, experim entadores, entrev istad o res, o peradores de
equipo, e tc tera ) las que figuran com o u n o de los factores. E n
los experim entos en las aulas, p o r ejem plo, puede se r necesario
co n sid erar el "efecto del m a e stro e n tre u n cm puto de tal vez
cinco educadores. E n u n laboratorio p o d r o c u rrir que el inves
tig ad o r h aya co n tado con tres experim entadores. A unque in stru i
das p a ra conducirse de m an era anloga, tales p ersonas in troducen
inevitablem ente en la situacin algunos valores idiosincrsicos.

E n u n a investigacin puede el an alista n ecesitar se p a ra r los


"efectos del e n tre v ista d o r d e e n tre las dem s variables. E n to
dos estos ejem plos se reconocer que las perso n as que en ellos
figuran c o n stitu y e n 'u n a fraccin m uy reducida del n m ero po
tencial en relacin con el cual desea h acerse la generalizacin,
y q u e la in teraccin e n tre las p erso n as y el fa c to r de m ayor intrs p u ed e re s u lta r especialm ente p ertu rb ad o ra .
E stas ideas intuitivas pueden se r o b jeto de u n a fundam entacin m s rig u ro sa (vase Hays [7 ], captulo xnx). B a star in d icar
aqu el p rocedim iento preferido. Supongam os en p rim e r lugar
que tenem os in ters en co m p ro b a r los efectos del fa c to r no
m uestreado o fijo. Si la interaccin h a sido significativa, ello
im plica p o r su puesto que el clculo de la variancia, basado en
el trm in o de la interaccin, debe h a b e r sido m ay o r que la esti
m acin del " e rro r (p roduciendo as u n a F > 1.0). Como se da
la circu n stan cia de que el segundo fa cto r h a sido m uestreado,
y que u n segundo m u estreo p o d ra h a b e r pro d u cid o u n a estim a
cin m uy d iferen te de la interaccin, el procedim iento m s con
serv ad o r co n sistira en u tiliza r la interaccin estim ada ( la m ayor
de las dos can tid ad es) com o denom inador p a ra la razn de F en
la p ru eb a de la significancia del fa cto r fijo o n o m uestreado.
E n e fe c to : la interaccin es considerada com o u n e rro r. E n nues
tro ejem p lo num rico supongam os que considersem os la regin
com o u n fa c to r m uestreado, ya que hem os seleccionado ta n slo
dos regiones de e n tre tal vez cinco o seis. Si el efecto de in terac
cin hu b iese sido significativo y p o r ta n to no incluido en el
trm in o de erro r, habram os utilizado la razn 21.152/4.007 al
co m p ro b ar la significancia de los efectos de la ciudad en los
niveles de delincuencia.
Si estam os adem s in teresad o s en p ro b a r los efectos del facto r
m u estread o (p o r ejem p lo : p erso n as o regin), deberem os sin
em bargo c o n tin u ar u sando la estim acin del e rro r, de p re fere n
cia a la estim acin de la interaccin, en el denom inador de F.
La ju stificacin in tu itiv a consiste en que el o tro fa c to r no est
siendo m u estreado, y p o r ello n o puede o c u rrir q u e u n e rro r de
m u estreo en dicho fa cto r constituya u n a fu en te de e rro r en nues
tro clculo de los efectos del fa c to r m u estread o sobre la varia
ble dependiente. As, si la interaccin hubiese re su ltad o signifi
cativa en n u e stro ejem plo, h ab ram o s utilizado la razn 211.226/
6.222 al co m p ro b a r los efectos de la regin sobre los ndices de
crim inalidad. (E l hecho de q u e el denom inador, 6.222, es m ayor
q u e el de 4.007 usado en relacin con los efectos de tip o ciudad,
refleja el h echo de que la F, u sa d a e n este ejem plo p a ra com pro
b a r la in teraccin, re su lt se r m en o r que la unidad, en tan to
que u n a interaccin significativa h u b iera re q u erid o desde luego
u n a F m ay o r que la un id ad .) P a ra u n a justificacin m s am plia
de este pro cedim iento vase H ays [7].

R esulta necesario a d o p ta r u n a precaucin m s con respecto a


la in terp retaci n de interacciones significativas. E n la bibliogra
fa estad stica se en c u en tran frecuentes referencias a los "efec
tos principales" de las variables de fila o colum na, m s los "efectos
de in teracci n . R esulta posible in te rp re ta r estos efectos p rin
cipales com o los efectos prom edios d e u n a de las variables in
dependientes so b re el m argen d e la o tra u o tras variables. P ero
si el com ponente de interaccin es relativam ente grande, esta
sim ple distincin e n tre efectos principales y efectos de in tera c
cin re su lta r difcil de tra d u c ir a valores sustantivos o tericos,
ya que cuando la interaccin es gran d e n o tiene sen tid o terico
el o scurecer las diferencias reales hab lan d o de los efectos pro m e
dios de, p o r ejem plo, el tipo de ciudad. Debe, pues, entenderse
que esta distincin e n tre efectos principales y efectos de in tera c
cin se lim ita al u so estadstico, lo m ism o que o cu rre con la re
lativa a las sum as, "explicadas y "n o explicadas, de cuadrados.
E s fcil a veces caer en la tra m p a d e u tilizar la term inologa
d e u n a su stan tiv a y personal disciplina en lu g ar de la term ino
loga estadstica, y creer que hay d istin to s tipos d e "efectos
q ue cu entan con u n a sim ple c o n tra p a rtid a en la p ro p ia su stan
tiva teora. Tal vez la precaucin m s o p o rtu n a consista e n com
p re n d e r que en cuantas ocasiones se en cu en tran interacciones
estadsticas de m agnitud sustancial, ello significa que dos o m s
variables tienen efecto co n ju n to so b re alguna variable depen
d ien te; efectos dem asiado com plejos p a ra ser adecuadam ente
descrito s m ediante u n sim ple m odelo aditivo. La presencia de la
interaccin estad stica constituye as u n a indicacin de q u e las
relaciones son m s com plejas de lo q u e pudo pensarse, pero
la in teraccin p o r s m ism a n o debe se r tra ta d a com o si fuese
algo a p a rte de los efectos "p rin cip ales de las variables que estn
siendo consideradas.
E xten si n a tres o m s escalas nom inales. E n teo ra n a d a hay
q u e nos im pida ex ten d er el anlisis d e variancia a variables adi
cionales. E n la p rctica, sin em bargo, es p ro b ab le que nos veam os
restrin g id o s p o r el req u isito de nm eros iguales de casos e n cada
subcasilla, a m enos que estem os en condiciones de co n tro lar este
fa c to r p o r va experim ental. Si aadim os u n a te rc e ra escala
nom inal, podem os dividir la sum a to tal de cuadrados en in terac
cin e n tre A, en tre B, e n tre C y los trm in o s d e erro r, y podem os
efectu ar cierto n m ero de p ru eb as de h ip tesis separadas. Ahora,
sin em bargo, ten d rem o s m s de u n tip o de interaccin. E n efecto,
pued e d arse interaccin e n tre las variables A y B, A y C, B y C,
as com o e n tre las tre s variables o p eran d o ju n tas. Procedem os
p rim ero a u n a p ru e b a en relacin con la interaccin d e tre s fac
to res (A X B X C ). Si sta no re su lta significativa, podem os
to m arla en el trm in o de e rro r y v erificar las tre s interacciones
de dos factores. P ueden efectu arse p ru e b as de la significancia de

A, B y C. La extensin a c u a tro o m s escalas nom inales ten d ra


lugar en la m ism a form a. E n el caso d e que el investigador est
en condiciones de c o n tro la r el n m ero de casos de cada catego
ra m ed ian te asignacin al azar, se dispone de m uchos o tro s es
quem as experim entales, y el lecto r h a r bien e n co n su ltar u n
tex to de stos. M uchos de esto s diseos alternativos hacen posi
ble el logro d e u n a m ayor eficiencia (m ed ian te u n a reduccin
del tam a o de la m u e stra ), al costo de u n a sim plificacin de
supuestos acerca de algunos de los trm inos de la interaccin.
Si un o est d ispuesto, p o r ejem plo, a su poner que ciertas in terac
ciones son despreciables, p u ed e "co n fu n d ir" deliberadam ente
estos efecto s principales al tra z a r u n diseo "incom pleto m s
eficiente.
*
A nlisis de variancia d e dos fo rm a s con subclases desiguales.
C uando el n m ero de casos n o es igual en cada subclase, com o
o c u rrir p o r lo re g u la r en la investigacin sociolgica, el anlisis
de la v arian cia de dos form as y a n o re su lta ta n sencillo. Si el
n m ero de casos es suficientem ente grande, ser siem pre posi
ble, p o r su puesto, co n tro la r en relacin con u n a segunda escala
nom inal efectu ando anlisis separados en cad a categora de la
variable de co n trol, com o lo hicim os e n el caso de los problem as
de contingencia. P ero si p a ra em pezar, el n m ero d e casos es
relativam ente pequeo, pueden em plearse algunos m todos ap ro
xim ados. Uno d e stos co m p o rta el em pleo de los logaritm os,
p ero es sencillo p o r lo dem s (vanse [ 8], pp. 260 a 266).
O tro procedim iento, d escrito p o r W alker y Lev [11], es m u
cho m s sencillo desde el p u n to d e v ista conceptual. E ste l
tim o m to d o consiste en tr a ta r las m edias de las distin tas
subcasiJlas com o si co n stitu y eran casos sim ples. P ueden obte
n erse las sum as de cuadrados y las apreciaciones de variancia
de los trm in o s e n tre h ileras, e n tre colum nas y de interaccin,
suponiendo esencialm ente que n o hay m s que u n caso en cada
su b casilla: la m edia. La su m a de los cuadrados del e rro r se ob
tien e luego, al igual que en el anlisis co rrien te de v arian cia de
dos form as, re sta n d o la sum a de cuadrados de la subclase " e n tre
de la su m a de cu adrados total, sirvindonos p a ra ello del n
m ero to tal de casos, y n o d e las m edias de cad a subcasilla. La
apreciacin del e rro r se obtiene dividiendo e n tre el e r ro r en el
n m ero de grados de lib ertad , com o antes, y dividiendo entonces
esta ltim a cifra e n tre la m edia arm nica del n m ero de casos
en cada subcasilla. E sta ltim a operacin es n ecesaria p a ra que
la estim acin del erro r, b asad a en el n m ero to tal de los casos,
p u ed a co m p ararse con las estim aciones b asadas n icam en te en
las m edias de las subcasillas tra ta d a s com o casos singulares. Las
p ruebas F p u ed en luego efectu arse en la fo rm a h ab itu al.
Si las subclases contienen u n n m ero desproporcionado de ca
sos, com o o cu rre h ab itu alm en te en la investigacin n o experi

m ental, ta l cosa significa que las v ariables de fila y d e colum na


e sta r n interrelacionadas. E n efecto, alguna variacin que viene
"explicada p o r la v ariab le de la colum na p u ed e asim ism o se r "ex
p licad a p o r la variable de la fila, dndose casos de am bigedad
acerca de a cul de las variables h a b r d e d arse el crd ito p o r
u n a variancia, cu ando sta es explicable d e dos m aneras. H alla
rem os esta m ism a d ificu ltad e n relacin con el anlisis de re g re
sin m ltiple, y, d e m an era im plcita, en el anlisis de la co
variancia.
D espus de estu d ia r ta n to la regresin m ltiple com o el an
lisis d e la covariancia, exam inarem os brevem ente (e n el cap tu
lo xx), lo que se denom ina "variable sim ulada", utilizable p a ra
m a n e ja r u n g ran n m ero de situaciones, en tre ellas aquella en la
qu e-se tien en dos (o m s) escalas nom inales variables indepen
dientes e interrelacionadas. V erem os sin em bargo q u e este m uy
am plio pro ced im iento estad stico n o nos p erm ite su p e ra r las
dificultades tericas que surgen en aquellos casos en que las va
riables in dependientes estn interrelacionadas. Tales problem as
slo pueden ser resueltos p o r m edio d e procedim ientos de clcu
lo basad o s en ecuaciones sim ultneas, cuestin que excede los
lm ites de este libro. Debe observarse q u e u n a de las grandes
v en tajas de los diseos experim entales consiste en que stos
p erm iten la m anipulacin de variables independientes, de tal
m an era q ue sus efectos pueden se r separados sin am bigedad,
lo que hace posible evaluar los efectos principales de cada varia
ble, siem pre a condicin de que la in teracci n no sea dem asia
do n o tab le.
XVI.4. A lternativas n o param tricas del anlisis de variancia
E n el caso en que los supuestos req u erid o s p a ra el anlisis de
v arian cia n o se cum plan, se dispone de p ru e b as no p aram trica s
que pu ed en u tilizarse com o anlisis de v arian cia de u n a o de
dos fo rm as. E xam inarem os en p rim e r lu g ar el anlisis de u n p ro
cedim iento de la v arian cia con categoras de K ruskal-W allis, p a ra
v er a continuacin la p ru e b a de F riedm an p a ra m u estras p a re a
das, u tilizab le en aquellas ocasiones en que la variable d e fila
co n stituye u n g ru p o de variables p aread a s y en las que hay un
"caso en cad a fila.
Prueba de K ruskal-W allis. La p ru e b a tra ta d a en esta seccin fue
d esarro llad a p o r K ru sk al y W allis y re s u lta in d icad a siem pre que
tengam os cierto n m ero de m u estras al azar independientes y
u n nivel de m edicin de escala ordinal. La eficacia de su fuerza
es aproxim adam ente, en las m u estras grandes, del 95 p o r ciento.
La p ru e b a es b sicam en te m uy sencilla y co m porta la com para
cin de las sum as d e los rdenes d e cada u n a de las categoras

de la variab le de la escala nom inal. Se calcula u n a estad stica H


con o b jeto d e m ed ir el grado en que las distin tas sum as de rde
nes difieren de aquello que se esp e ra ra b a jo la hiptesis cero.
Si hay m s de cinco casos en cada clase, la distrib u ci n de selec
cin de H es ap roxim adam ente la ^-cuadrada.6
Con fines de com paracin, ilu strem o s el em pleo de la p ru eb a
d e K ruskal-W allis con los m ism os datos. E n el cu ad ro XVI.7, las
tasas de crim in alidad de los tre s tipos de ciudades se h an orde
nad o de altas a b a ja s (los rdenes b ajo s indican tasas b a ja s).

Cuadro

Sumas

XVI.7. Datos y clculos para el anlisis de variancia


con rangos de K ruskal-W allis

Ciudad industrial

Ciudad comercial

Cuota

Orden

Cuota

4.3
2.8
5.9
7.7
12.3
16.3
9.1
10.2

10
4
12
16
22
24
17
19

5.1
1.8
3.6
3.3
6.2
9.5
4.1
11.2

Ciudad poltica

Orden

Cuota

Orden

11
2
7
6
13.5
18
9
20

3.1
1.6
3.8
1.9
6.2
7.1
11.4
12.5

5
1
8
3
13.5
15
21
23

2 = 86.5

R t = 124

R s = 89.5

1. Supuestos.
N ivel d e m e d ic i n : escalas o rd in al y nom inal
M odelo: m u estreo al azar independiente
H ip te sis : m u estras sacadas d e la m ism a poblacin continua
2. N ivel de significacin y regin crtica. Tom em os el nivel
del .05.
3. D istribucin d e m uestreo. La distribucin de m u estreo de
H ser ap ro x im adam ente la ^-cuadrada con k 1 grados de lib er
tad, en donde k re p resen ta el n m ero de categoras em pleadas.
4. Clculo de la estadstica de la prueba. Calculam os H p o r m e
dio de la f rm u la
/

12

R* \

(-w t t & h - ) - 3 ( N + 1 )
H = --------------------------------------------------1 - 27y(JV 3 N )

(X V I.8)

en donde N t y N re p resen ta n respectivam ente el n m ero de ca En caso de tres clases y N muy pequeas, vase [10], pp. 195-198.

sos de la -sima categora y d e la m u e stra to tal. El denom inador


de la f rm u la re p resen ta u n a correccin p o r ligaduras, en la que
T *= t -%
s t
siendo
el n m ero d e observaciones ligadas en relacin con un
rango determ inado.
E n este ejem plo p a rtic u la r hay slo u n p a r de m arcas em p ata
das. P o r lo ta n t o : T i = 23 2 = 6. Tenem os, p u e s :
[ 12/24(25)](124^/8 + 86.5V8 + 89.52/ 8 ) - 3(25)
. H = --------------------------------------------------------------------- = 2.17
1-6/(243-24)
5.
Decisin. R efirindonos a la ta b la de la ^-cuadrada, vem os
q u e con 2 grados de lib e rta d necesitam os u n a ^-cuadrada de 5.991
o m ay o r p a ra o b ten er significacin al nivel del .05. H abiendo,
pues, obten id o u n a H de 2.17, decidim os no rech azar la hiptesis
n u la a dicho nivel de significacin. Vemos, de paso, que llega
m os a la m ism a conclusin q u e an terio rm en te.
Anlisis de F riedm an de dos m todos con categoras. Los da
tos o rdinales no p erm iten en ap ariencia m a n e ja r el concepto de
interaccin, a n o se r de m a n e ra m uy b u rd a y poco satisfactoria.
S in em bargo, si se e st d ispuesto a su p o n er que la interaccin
carece de im p o rtan cia, y se desea co n tro lar p a ra u n a o m s va
riables u tilizando lo que equivale a u n procedim iento de pareado,
puede p ro ced erse com o sigue. Se e m p arejan los individuos (en
este caso las ciu d ades) de acuerdo con el c rite rio que se desee
aplicar. Uno de tales crite rio s puede se r el regional, o tro el ta
m ao, u n te rc e ro la edad d e las ciudades, etctera. Se asigna a
continuacin u n m iem b ro de cada grupo a u n a situacin experi
m ental, to m an d o com o n m ero de casos el n m ero d e grupos
de individuos pareados. E st bien claro que este procedim iento
re p re se n ta u n a am pliacin de las p ru e b as m ed ian te p a re s n o r
m alizados, y a estu d iadas. E n algunos casos pueden darse obser
vaciones rep etid as so b re cada individuo; en o tro s puede n o h a
b e r re su ltad o posible a p lica r realm ente el azar a la asignacin
a los grupos de tra ta m ie n to o experim entales, en cuyo caso nues
tra s in terp retacio n es d eb ern se r m ucho m s cautelosas. E n el
caso que estu d iam o s re su lta r evidentem ente im posible d is tri
b u ir al azar las ciudades en las categoras in d u strial, com ercial
o poltica.
C onsiderem os a continuacin cada grupo d e individuos p area
dos com o u n a re sp u e sta independiente. D entro de cada u n o de
los grupos asignam os categoras 1, 2, 3, . . . , k, d e acuerdo con las
pu n tu acio n es de la v ariab le dependiente. H acem os lo m ism o en
cada caso y sum am os las filas, obteniendo u n a sum a de filas T

p a ra la colum na /-sim a. Si la variable experim ental (colum na)


n o tiene efecto alguno, podrem os esp e ra r que las varias T resul
ten ap ro x im adam ente iguales. E staram o s en efecto asignando
las filas d en tro de cada sec to r e n fo rm a to talm en te al azar, y no
esp eraram os que el to tal de puntuaciones de los sectores en
cualquiera de las colum nas resu ltase desusadam ente grande o
pequeo. H a b r, em pero, de ordinario, diferencias m enores de
m u estras e n tre las T, y p o r ello desearem os o b ten er u n a m edida
de las diferencias e n tre las T que cuenten con u n a distribucin
conocida de la m uestra.
Si com putam os la estad stica
S =

(T,-T)*

en la que k es el n m ero de categoras y T es la m ed ia d e las T,


la distrib u ci n de la m u e stra de S puede ser calculada exacta
m en te e n el caso de m u estras pequeas, y aproxim adam ente en
el de m u estras grandes. E n B radley [3 ] y Siegel [10] se dan
cuadros p a ra las distribuciones exactas. C uando k > 4 y N > 10,
en donde N re p re se n ta el n m ero d e grupos de individuos p area
dos, podem os u s a r u n a aproxim acin de ji al cuadrado, com o
sigue:
* -

n w

+ )

~ - m

T' - 3 H i t +

en la que el grado de lib ertad p a ra ji al cuadrado es k 1 , y en


donde el lad o de la extrem a derech a re su lta r m s conveniente
p a ra fines del clculo. Suponem os de nuevo u n a distribucin
bsica co n tin u a de puntuaciones v erdaderas, d e m odo q u e los
em pates re su lten ta n slo de la crudeza de las m ediciones. Pode
m os asig n ar a las puntuaciones em patadas las m edias de las fi
las que h u b ie ra n recibido en caso de no p ro d u cirse em pates o,
m s conservadoram ente, podem os ro m p er los em pates, m inim i
zando as el v alor obtenido de ji al cuadrado. P rocedam os ade
lan te con u n ejem plo.
C ontinuando con la m ism a ilustracin, p o r conveniencia de la
com parabilidad, conservam os el su p u esto de que hem os obtenido
p o r lo m enos u n nivel ordinal de m edicin p a ra los grados de
delincuencia, y la hiptesis n u la de que las m u estras h an sido
obtenidas de la m ism a poblacin continua. E sta hiptesis equi
vale, en efecto, al ase rto de que, en el contexto de u n experim en
to real, la v ariab le experim ental no ten d ra efecto alguno. Supo
nem os ahora, sin em bargo, que las m u estras e stn agrupadas, en
este caso e n tro s de ciudades, u n a in d u strial, o tra com ercial y
o tra poltica. H a b r ocho rplicas, de m an era que k = 3 y N = 8.

A nteriorm ente, al h ac er u n anlisis p o r dos m todos de la va


riancia, utilizam os slo dos series, u n a de ellas p a ra el S udeste
y o tra p a ra el N ordeste. Aqu contam os con ocho series, lo que
p erm ite em p arejam ientos individuales donde ello sea posible.
Podem os p o r supuesto asignar arb itra ria m e n te cada ciudad del
S u deste a cu alq u iera d e las cuatro series de m s abajo, p ero el
h acerlo su p o n d ra u n diseo m enos eficiente que el logrado usan
do controles m s refinados en el proceso de pareado. P ara ser
concretos, supongam os que hem os utilizado cu a tro clases de dife
re n te tam a o p a ra cada u n a de las dos regiones, de m odo que las
ciudades hayan re su ltad o em parejadas sim ultneam ente p o r ta
m a o y p o r regin. Supongam os que las ciudades han sido dis
p u estas com o en el cu ad ro XVI.8.

Cuadro X V I.8.

Datos y clculos para la prueba de F riedm an

Ciudad industrial Ciudad comercial

Ciudad poltica

Grupo
Tasa
A
B
C

D
E
F
G
H
Ti

4.3
2.8
5.9

7.7
12.3
16.3
9.1
10.2

Rango

2
3
3
3
3
3
2
1
20

Tasa

Rango

Tasa

5.1
1.8
3.6
3.3
6.2
9.5
4.1
11.2

3
2
1
2
1.5(1)
2
1
2

3.1
1.6
3.8
1.9
6.2
7.1
11.4
12.5

14.5(14)

Rango

1
1
2
1
1.5(2)
1
3
3
13.5(14) X = 16

Los rangos no coinciden p o r supuesto con los del cuadro XVI.7,


ya que hem os tra ta d o cad a grupo com o u n a rplica separada,
con los rangos llegando slo en cada caso h a s ta k = 3. O bsrvese
que hay slo u n em p ate den tro del g rupo E, habiendo asignado
u n ran g o pro m ed io de 1.5. El procedim iento m s conservador
h a b ra consistido en asignar rango 1 a la ciudad com ercial y ra n
go 2 a la ciu d ad poltica, ya que p a ra los dem s grupos T 2 > T 3.
Los resu ltad o s p a ra el procedim iento m s conservador aparecen
e n tre p arn tesis. Aun cuando estam os m an ejan d o u n n m ero
m uy red u cid o de casos y de colum nas, utilizarem os, con fines de
ilustracin, la aproxim acin de ji al cuadrado. T en em o s:
12

v* = ------------[20* + 14.52 + 13.52] - 3(8) (4) = 3.06


*
8(3)(4)
lo que p a ra d.f. = k 1 = 2 no re su lta significativo ni aun al nivel

d e .10. Si hubisem os em pleado1 el m todo m s conservador ob


teniendo T 2 T s = 14, hab ram o s logrado u n a ji al cuadrado
d e 3.00.
B radley [3 ] hace n o ta r que la eficacia de fuerza de la pru eb a
d e F ried m an no slo depende del tam ao de la m u estra, sino del
n m ero de categoras usado. E n el caso de m u estras grandes la
eficacia d e la p ru e b a en relacin con el de la p ru e b a F ( suponien
do que todos los supuestos de esta ltim a estuviesen ju stificad o s),
es ap ro x im ad am ente igual a

De m an era que p a ra k = 2 la eficiencia de u n a m u e stra grande


sera ap ro x im ad am ente de 2 /jt = .64, y p a ra k = 5 re su lta ra apro
x im adam ente de 5/2jr = .80. B radley observa que a m edida que
k dism inuye, dism inuye tam b in la v en taja de u s a r categoras a
trav s de las colum nas. E n el caso lm ite en que k = 2, podem os
asig n ar slo las dos categoras 1 y 2, re su ltan d o e s ta p ru eb a
equivalente a la p ru e b a de signo, ten ien d o p o r su p u esto la m ism a
escasa fu erza eficaz.
Si la v ariable dependiente (en este caso los niveles de la cri
m in alid ad ), es m ed id a de m an era ta n b u rd a que slo pueden
asignarse los dos valores de xito y fracaso, ser posible hacer
u so de u n a p ru e b a no p ara m tric a m uy sim ilar, conocida com o
p ru e b a Q de C ochran. El procedim iento que en sta se sigue con
siste en asig n ar unos ( 1 ) y ceros ( 0) a las equis (X ) (ta l vez se
gn se en cu en tren p o r a rrib a O' p o r ab ajo de la m edia global),
u tilizando u n a d istribucin exacta o u n a aproxim acin de ji al
cu adrado, com o se hizo en el caso de la p ru e b a de F riedm an. La
p ru e b a de C ochran es d iscutida p o r Hays [7] y B radley [3], y re
su lta tam bin ap ro p iad a p a ra el u so con m u estras pareadas.
XVI.5. M edidas de asociacin: correlacin intraclase
Las p ru b as de anlisis de la v arian cia slo nos p erm iten decidir
si existe o n o alguna relacin e n tre dos variables. Como ya vi
m os, es re lativ am en te fcil o b ten er significacin estad stica aun
con u n a relacin m uy superficial, a condicin que se tenga u n
n m ero su ficientem ente gran d e de casos H abiendo decidido que
s existe relacin, sujetos sin d u d a al riesgo de e rro r de tipo I,
procedem os a continuacin a m e d ir la fuerza o grad o de la m is
m a. Puede o b ten erse alguna indicacin acerca de la m agnitud de
la relacin, co m parando sim plem ente las m edias de las diversas
categoras. Si estas m edias difieren m ucho, es p ro b a b le que la
relacin sea fu e r te ; p ero si las diferencias son pequeas, en cam

bio, podem os e sta r en condiciones de n o atrib u irles m ucha sig


nificacin p rctica, au n en el caso en que hayam os obtenido signi
ficacin estadstica. Sin em bargo, la m era com paracin de las
m edias de las categoras puede re su lta r equvoca, a m enos de
o b serv ar tam bin el grado de hom ogeneidad en el in terio r de cada
grupo. P or lo regular, aunque tal vez n o siem pre, n u estro inters
se ce n tra en la m agnitud relativa de las diferencias e n tre las
m edias, en com paracin con las diferencias en el in terio r de
las categoras. E n o tro s t rm in o s : deseam os o b ten er u n a m edida
del grad o en que las categoras son hom ogneas en com paracin
con la v ariabilidad to tal en la variable de la escala de intervalo.
Si las categoras son p erfectam ente hom ogneas, la asociacin
en tre las dos variables ser com pleta, y sabiendo la categora a
la que u n individuo pertenece, podem os p re d ecir su m arc a exac
tam ente.
Se h an d esarro llado varias m edidas b sicam ente in tercam b ia
bles de asociacin, que se sirven de las sum as de cuadrados total,
" e n tre y "d en tro ", o b ien de las apreciaciones de la variancia
basadas en dichas sum as de cuadrados. La razn de correlacin
E z, la m s sim ple ta l vez de dichas m edidas, co m porta to m ar la
razn de la sum a de cuadrados explicada, con respecto a la total.
As, p u es:
SC explicada
SC e n tre
(X V I.9)
E* = --------- -----------= ------------------SC total
SC total
Segn verem os en el prxim o captulo, la in terpretacin de la ra
zn de correlacin es d irectam en te anloga a la de la correlacin
producto-m om ento corriente, salvo p o r su falta de signo, y nos
servirem os de dicha m edida p a ra verificar la no linealidad de la
relacin en tre dos escalas de intervalo.
La razn de correlacin, sin em bargo, es ligeram ente sesgada.
El lecto r reco rd ar que la desviacin e st n d a r de la m uestra, o
variancia, tiende a su b estim ar la desviacin estn d a r o variancia
de la poblacin, siendo el grado de sesgo relativam ente im p o rtan
te en el caso de m u estras pequeas. De ah que. en el denom ina
d or nos sirviram os de N 1, en lugar de N , con o bjeto de ob
ten er u n a estim acin insesgada. Y en form a anloga, cuando el
nm ero de casos de cada categora se hace relativam ente peque
o, el valor esperado de la variabilidad en el in terio r de cada
m u estra tender, en com paracin con la desviacin estn d ar s, a
ser m en or que la de la poblacin. Con o b jeto de corregir en
relacin con un sesgo correspondiente en la razn de correla
cin, podem os ob ten er lo que se designa com o la razn de corre
lacin insesgada, sirvindonos de los grados de lib ertad adecua
dos y operando directam ente con las estim aciones de la variancia
y no con las sum as de cuadrados.

La f rm u la de la razn de correlacin insesgada e2 re su lta ser


la siguiente:
=

(XVI.10)

en donde V w y V t figuran en lu g ar de las estim aciones in te rio r y


to tal respectivam ente. Si bien n o hem os ten id o necesidad h asta
el p re sen te d e calcular la estim acin total, su valor p u ed e con
todo o b ten erse fcilm ente dividiendo la sum a d e cu ad rad o s to tal
p o r N 1. E n el ejem plo n um rico del que nos hem os servido,
los valores de E y e son respectivam ente (vase el cu ad ro XVI.3,
p, 342).
42.303

= .34
E 2 = ------------= .113
373.538
15.773
e2 = 1 ------------------ = .029
373.538/23

e = .17

O bsrvese q ue el valor de e es m s pequeo q u e el d e E .


Una m ed id a de asociacin algo m s c o rrien te es la del coefi
ciente de correlacin intraclase. E sta m edida d eriva su nom bre
del hecho d e q u e b sicam ente co m p o rta u n a correlacin de m o
m en to-producto e n tre todos los p ares posibles d e casos dentro de
las categoras d e la variable de la escala no m in al.7 Al igual
q u e las dem s m edidas exam inadas en esta seccin, el coeficiente
de co rrelacin d en tro de las clases, r, puede co n sid erarse tam
bin com o m ed ida del grado de hom ogeneidad de las clases en
relacin con la variabilidad to ta l en la escala de intervalo. Su
f rm u la es com o sig u e :
r = ____V * ~ V -----Vt + ( - ) V

(X V I.ll)

en donde V t y V w son las estim aciones e n tre clases ( b betw een)


y d en tro de las clases (w = w ith in ) respectivam ente, y n re p re
sen ta u n n m ero de casos prom edios en cad a clase. U na frm ula
altern ativ a p a ra averiguar ri en funcin de F es la sig u ien te:
i*

F 1
= F + ( k 1)

Si el n m ero de casos en cad a clase es el m ism o, n o existe p ro


blem a, p o r supuesto, en c u a n to al v alo r de n. E n el caso d e cla
7
D e s p u s d e l e d o e l c a p tu lo x v n e l l e c t o r p o d r e v e n tu a l m e n te c o n s u l
t a r [5] para d a r s e c u e n t a d e l c a r c t e r p r e c i s o d e l a r e l a c i n e n t r e e s t a s d o s
m e d id a s .

ses desiguales, en cam bio, p u ed e em plearse u n a sim ple m edia


aritm tica p a ra o b ten er el valor en cuestin. H aggard [5 ] reco
m ienda u n a clase algo d istin ta de v alo r pro m ed io que h a b r que
utilizar siem pre que el n m ero de casos vare considerablem ente
de u n a categora a o tra. Su f rm u la p a ra el clculo de e s :

en donde
re p re se n ta el nm ero de casos de la categora z-sima
y k el n m ero de categoras. E n n u e stro ejem plo num rico todas
las categoras son de la m ism a m ag n itu d y, p o r consiguiente,
= 8.

As, pues,

2 1 .1 5 2 - 15.773

5.379

21.152 + 7(15.773)

131.563

= .041

P ueden o b servarse algunas propiedades del coeficiente de co rre


lacin in traclase. Si las categoras son to d as ellas p erfectam en te
hom ogneas, no h a b r variacin d e n tro de las clases (es decir,
Vw = 0)> y el valor de r { ser de + 1.0. E n el caso extrem o opues
to, supngase, p o r el co n trario , que to d a la variacin tien e lugar
d en tro de las clases y q u e las m edias d e las categoras son exac
tam en te iguales. E n este caso,
desaparecer, y el lm ite infe
rio r se r :
1
-V *
(-l)V w

As, pues, el lm ite in ferio r no es 1.0, excepto en el caso espe


cial en q ue se tenga u n prom edio de 2 casos en cada clase. N or
m alm ente, p o r lo tan to , el lm ite in ferio r s e r m enor que la un i
dad en v alo r absoluto. De hecho, esto ra ra m e n te nos preocupa, ya
que pocas veces encontram os categoras que sean sustancialm en
te m enos hom ogneas d e lo que se esp e ra ra p o r azar. C uando las
apreciaciones "en tre " y " d e n tro son exactam ente iguales, o sea
cuando el v alo r de F es igual a la unidad, entonces r< ser cero.
As, pues, Ti = 0, cuando las categoras son exactam ente ta n ho
m ogneas com o se e sp e rara p o r azar, si no h u b iera relacin al
guna e n tre las dos variables. P or lo regular, los valores de
se
situ a r n e n tre 0 y 1.0. P o r desgracia, no parece ex istir in te rp re
tacin sencilla alguna d e los valores de r, e n tre dichos lm ites.
*
La nocin d e correlacin in traclase p u ed e generalizarse fcil
m en te p a ra a b a rc a r el anlisis de variancia d e dos form as. En
aquellas situaciones en las que nos serviram os del trm in o de

e rro r en el d enom inador de F, podem os o b ten er u n a m edida del


grado de correlacin e n tre la variable de las colum nas y la escala
de intervalo, con control en relacin con la variable d e las hile
ras, tom ando com o
la estim acin e n tre colum nas y sustituyen
do V w p o r el trm in o del erro r. Y en form a anloga, podram os
to m ar la estim acin e n tre hileras com o V it con lo q u e o b ten d ra
m os u n a m edida del grado de asociacin en tre la escala de in
tervalo y la variable de las hileras, despus de re sta d a la variacin
debida a la variable de las colum nas. Como verem os en el cap
tu lo xix, este procedim iento es directam ente anlogo a lo que
hacem os al o b ten er correlaciones parciales e n tre dos escalas
de intervalo, con control en relacin con u n a te rc e ra escala de
intervalo.
G

losario

Razn de correlacin
Variacin explicada e inexplicada
Homoscedasticidad
Interaccin
Correlacin intraclase
Comparaciones ortogonales.
E j e r c ic io s

1. Como quiera que la prueba F puede utilizarse para probar la hip


tesis nula de que tenemos dos estimaciones independientes de la mis
ma variancia, podemos servimos de la misma para verificar el supues
to de que
= <r2 en problemas de diferencia de las medias. Ya que
por lo regular no ser posible anticipar cul valor de s2 ser el mayor,
tomamos la razn del mayor al m enor y duplicamos el valor de la
probabilidad dado en el cuadro F. Teniendo presentes estos hechos,
tmense los datos del ejercicio 1, captulo x i i i , y verifiqese la hipte
sis de que = o2. Respuesta, F = 1.75, no rechazo al nivel .10.
2.
Supngase que los datos expuestos ms abajo representan los in
gresos de los presidentes de los consejos de administracin de diver
sos tipos de organizaciones locales. Se han seleccionado al objeto al
azar cinco organizaciones de cada tipo, tanto de localidades grandes
como pequeas, obteniendo en consecuencia nmeros iguales de ca
sos en cada subclase.
a) Emplese el anlisis de variancia en dos formas con objeto de
verificar la existencia de una relacin entre el tipo de organiza
cin y los ingresos de los presidentes de consejos de administra
cin, dejando de lado la extensin de la ciudad. Cules son los
valores de E y e? Respuesta, F = 4.97; E = .52; e = .47.
*b) Utilizando el anlisis de variancia, de dos tipos qu puede de
cirse acerca de la relacin entre el tipo de organizacin y el in
greso, controlando en relacin con la extensin de la localidad?
Cmo se comparan estos resultados con los de aj? Respuesta,
para la interaccin, F = 3.52, rechazo al nivel de .05.

c) C a l c l e s e l a r e l a c i n i n t r a c l a s e d e l o s a p a r t a d o s a) y *b).
Tamao
de la
localidad

Tipo de organizacin
Religioso
$ 13 00 0

G ra n d e

P equeo

Social

Civil

11500
17 300
19 100
16700

$ 1 5 00 0
10600
12 30 0
11400
10 800

$ 2 0 800
18 100
14 600
22300
16 500

15 0 0 0
12 300
13 900
14 300
11700

9 30 0
10400
12 90 0
11000
9100

14 4 0 0
10 80 0
9 700
12300
13 100

3. T r a n s f r m e n s e l o s d a t o s d e l e j e r c i c i o 2 r e l a t i v o s a l i n g r e s o e n
r a n g o y , u tiliz a n d o la p r u e b a d e K ru s k a l-W a llis , in v e s tig e s e s i e x is te
o n o r e la c i n e n tr e e l tip o d e o rg a n iz a c i n y e l in g re s o :
a ) P r e s c i n d i e n d o d e l t a m a o d e l a l o c a l i d a d . R e s p u e s t a , H = 9 .2 ;
r e c h a z o a l n i v e l .05.

b) C o n t r o l a n d o e n r e l a c i n c o n e l t a m a o .
4. U t i l i c e l o s d a t o s d e l e j e r c i c i o 2, y s u p o n g a q u e l a s c o m u n i d a d e s
h a n s i d o o r g a n i z a d a s e n tros d e a c u e r d o c o n s u t a m a o , h a b i e n d o
d ie z d e a q u llo s . L a s o r g a n iz a c io n e s e n l a h i l e r a s u p e r io r ( c o n in g r e
s o s d e $ 13 0 0 0 , $ 1 5 0 0 0 y $ 2 0 8 0 0 ) , r e p r e s e n t a n l a s l o c a l i d a d e s m a y o r e s ;
la s d e la s e g u n d a h ile r a , la s s ig u ie n te s e n ta m a o , y a s s u c e s iv a m e n te .
U tilc e s e la p r u e b a d e F r ie d m a n p a r a h a l l a r la r e la c i n e n tr e tip o d e
o r g a n i z a c i n e i n g r e s o s d e l p r e s i d e n t e ( a n i v e l .0 5 ).
*5. E l a n l i s i s d e v a r i a n c i a p u e d e p r a c t i c a r s e l o m i s m o c o n d a t o s
a g r u p a d o s q u e s in a g r u p a r . C o n o b je to d e r e d u c ir la c o n fu s i n , lo m s
s e n c illo s e r s e r v i r s e d e l a s e c u a c io n e s ( X V I.4 ) y ( X V I.5 ) , s in m o d i
fic a r, p e ro re c o rd a n d o , s in e m b a rg o , q u e e n el c a s o d e d a to s a g ru p a
d o s tr a ta m o s la s m a r c a s c o m o s i e s tu v ie ra n c o n c e n tr a d a s e n lo s p u n
to s m e d io s d e lo s in te r v a lo s . T e n ie n d o e n c u e n t a e s ta s in d ic a c io n e s ,
e f e c t e s e u n a n l i s i s n i c o d e v a r i a n c i a c o n l o s d a t o s d e l e j e r c i c i o 2,
c a p tu lo x m . A ttu lo d e c o n tr o l d e lo s c lc u lo s , c m o s e c o m p a r a n
e n t r e s lo s v a lo r e s d e F y f?
6. U t i l i z a n d o l o s d a t o s d e l e j e r c i c i o 2 a n t e r i o r :
a ) Ig n o ra n d o el ta m a o d e la lo c a lid a d , b s q u e s e la s ig n ific a c i n d e

b)
c)

la d if e r e n c ia e n tr e e l in g r e s o m e d io d e lo s p r e s id e n te s d e la s o r
g a n iz a c io n e s re lig io s a s y la s d e lo s c o rre s p o n d ie n te s a la s o rg a
n iz a c io n e s s o c ia le s y c iv ile s c o m b in a d a s .
Q u c o m p a ra c i n r e s u lta r a o rto g o n a l c o n la h e c h a e n a ) ?
S u p n g a s e q u e te n e m o s s e is tip o s d e o r g a n iz a c io n e s ( r e lig io s a s
e n lo c a lid a d g r a n d e , r e lig io s a s e n lo c a lid a d p e q u e a , s o c ia l e n

localidad grande, etctera). Cuntas comparaciones mutuamen


te ortogonales seran posibles? Hllese un grupo especfico del
anterior nm ero de comparaciones que sean m utuam ente ortogo
nales, comprobando que as es el caso.
B ibliografa

1. Anderson, R. L., y T. A. Bancroft: Statistical Theory in Research,


McGraw-Hill Book Company, Nueva York, 1952, caps. 17 y 18.
2. Blalock, H. M.: "Theory Building and the Statistical Concept of
Interaction, American Sociological Review, vol. 30, pp. 374-380,
1965.
3. Bradley, J. V.: Distribution-free Statistical Test, Prentice-Hall,
Inc., Englewood Cliffs, N. J., 1968, cap. 5.
4. Dixon, W. J., y F. J. Massey: Jntroduction to Statistical Analysis,
2 ed., McGraw-Hill Book Company, Nueva York, 1957, cap. 10.
5. Haggard, E. A.: Intraclass Correlation and the Analysis of Varance, The Dryden Press, Inc., Nueva York, 1958, caps. 1-5.
6. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, cap. 22.
7. Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc. Nueva
York, 1963, caps. 11-14.
8. Johnson, P. O.: Statistical Methods in Research, Prentice-Hall,
Inc. Englewood Cliffs, N. J., 1949, caps. 10 y 11.
9. Kirk, R. E.: Experimental Design: Procedures for the Behavioral
Sciences, Brooks/Cole Publishing Company, Belmont, Cal., 1968,
cap. 3.
10. Siegel, S.: Nonparametric Statistics for the Behavioral Sciences,
McGraw-Hill Book Company, Nueva York, 1956, pp. 166-172, 184-193.
11. Walker, H. M., y J. Lev: Statistical Inference, Henry Holt and
Company, Inc., Nueva York, 1953, cap. 14.

E n e l p resen te captulo y en el siguiente exam inarem os la re la


cin e n tre dos escalas de intervalo. La extensin a tres o m s
variables de escala de intervalo se ver en el captulo xix, al tra
ta r de la correlacin m ltip le y parcial. De m om ento, considera
m os situaciones en las que tenem os dos m edidas de escala de
in tervalo p o r cada individuo. As, p o r ejem plo, podem os conocer
el n m ero de aos de enseanza com pletados y el ingreso anual
de los varones adultos de u n a localidad determ inada. O puede
in tere sa m o s relacionar el p o rc en taje de m ano de o b ra em pleado
en la in d u stria con el crecim iento dem ogrfico de u n a poblacin.
E n algunos problem as de esta ndole nos interesam os a m enu
do no slo en las pru eb as de significacin y las m edidas de gra
dos de relacin, sino q u e podem os tam b in q u erer d esc rib ir la
naturaleza de la relacin en tre las dos variables, de m odo que,
conociendo u n a de ellas, podam os an ticip ar la otra. As, p o r
ejem plo, podem os q u erer p red ecir el ingreso fu tu ro de u n a p e r
sona sobre la b ase d e su instruccin, o la tasa de crecim iento
de u n a ciudad a p a r tir del p o rc en taje de su m an o de o b ra em
pleada en la in d u stria. C uando el in ter s se ce n tra an te to d o en
la ta re a exploradora de e n c o n tra r cules variables se relacionan
con u n a variable determ inada, nos interesam os p o r lo regular
p rincip alm en te p o r las m edidas de grados o fuerza de las re la
ciones, tales com o los coeficientes de correlacin. P or o tra p a r
te, u n a vez halladas las variables significativas, propendem os a
d irig ir n u e s tra atencin al anlisis d e regresin, en el que in ten
tam os p re d ecir el v alor exacto de u n a variable a p a r tir d e la o tra .
Si b ien el lecto r ya est fam iliarizado con las p ruebas de sig
nificacin y las m edidas de asociacin, recom indase, con todo,
em pezar n u estro exam en estudiando el p ro b lem a de la prediccin.
E sto se debe a que la nocin de regresin es a la vez a n te rio r
lgicam ente y m s im p o rtan te tericam ente q u e la de correlacin^
L a razn d e ello se ir viendo m s clara a m edida que vayam os
avanzando. D espus de h a b e r exam inado el p roblem a de la p re
diccin, dirigirem os n u e stra atencin a la m edicin de la fuerza
d e la relacin. E n el captulo x v m , que d e hecho re p re se n ta la
continuacin del p resen te, exam inarem os diversas p ru e b as de
significacin, as com o la correlacin del orden de lugares, que
pueden em plearse p a ra relacionar dos escalas ordinales.
X V II.1. R egresin lineal y m nim os cuadrados
E n cierto sentido, el objetivo ltim o de to d as las ciencias es el
d e la prediccin. E sto n o im plica, p o r supuesto, que slo secun377

d ariam en te estem os interesados en com prender o su m in istra r


explicaciones causales de p o r qu dos o m s variables se relacio
n an com o lo hacen. Tal vez sea m s acertad o decir que la com
pren si n co nstituye el objetivo final y que, en la m edida en que
la com prensin se va perfeccionando, la prediccin se hace cada
vez m s p recisa. Es posible que si la com prensin fu e ra com
p leta la pred iccin p erfec ta sera tam b in posible siem pre que
se conociera asim ism o cierta inform acin factu al necesaria. P or
ejem p lo : si u n o conoce las leyes del m ovim iento d e los planetas,
el cam po g rav itato rio d en tro del sistem a solar, y la posicin y la
velocidad d e V enus en determ in ad o m om ento, p o d ra p re d ecir
su m ovim iento fu tu ro . Sin em bargo, independientem ente de las
im plicaciones filosficas de sem eja n te p u n to de v ista determ i
n ista, lo cierto es que la prediccin constituye el objetivo de toda
ciencia.
E n sociologa y en o tra s ciencias sociales, los enunciados predictivos se fo rm u lan a m enudo, p o r necesidad, en fo rm a relati
vam ente b u rd a. P o r lo reg u lar esto se debe a que no hem os al
canzado el nivel d e m edicin de la escala de intervalo. As, p o r
ejem plo, po d ram os p re d ecir que cuanto m s elevada sea la posi
cin de u n a p erso n a en el grupo, ta n to m ayor ser su confor
m acin a las n o rm as de ste. S em ejante enunciado n o necesita
im plicar causalidad en u n a sola form a, sino que a firm a sim ple
m en te que la posicin y la conform idad se relacionan d e m odo
positivo. E stableciendo u n a analoga con u n a term inologa m ate
m tica q ue n o es estricta m e n te correcta, decim os que la posi
cin es u n a fu n ci n de la conform idad, o que la conform idad es
u n a funcin d e la posicin, eludiendo la cuestin d e la causali
dad. Obsrvese, sin embargo-, que hem os dicho m uy poco acerca
de la fo rm a de e sta relacin, a p a rte de in d icar que es positiva.
Y a m enos que tengam os u n nivel de m edicin de escala de in ter
valo p a ra am b as variables, re su lta efectivam ente m uy difcil de
cir m ucho m s.
Supngase, sin em bargo, que tenem os dos escalas de intervalo.
Se hace entonces posible d esc rib ir m s exactam ente de qu
m odo u n a de las variables vara con la o tra. As, p o r ejem plo
podram os e s ta r en condiciones de decir que, p o r cada a o de
in struccin recibida, el ingreso a u m en ta r en f 1 000. Si esto
fu e ra efectivam ente as, ten d ram o s en re alid ad u n a relaci n m uy
sim ple, o sea u n a relacin lineal o en lnea recta. Sin em bargo,
la m ayora d e las relaciones no son ni con m ucho ta n sencillas,
pese a que, segn verem os, re su lta a m enudo posible ob ten er
una aproxim acin m uy b u en a de la verd ad era relacin suponien
do linealidad. La fo rm a m s elegante y sencilla de ex p resar una
relacin e n tre dos (o m s) variables es p o r m edio d e u n a ecua
cin m atem tica. As, p o r ejem plo, el lecto r e s ta r fam iliarizado
con ciertas leyes fsicas que enuncian u n a relacin e n tre la p re

sin, el volum en y la te m p e ra tu ra (P V /T = k ), o que indican


u n a relacin e n tre la razn de aceleracin de u n cuerpo al caer,
la d istan cia re co rrid a y la duracin del tiem po en que h a estado
cayendo. Podem os tam bin re p re se n ta r cada u n a de e sta s ecua
ciones m atem ticas com o alguna clase de curva geom trica. Afor
tu n ad am en te, en sociologa solem os p o r lo regular o p erar con
ecuaciones m uy sim ples y con las curvas m s sim ples posibles
(re c ta s).
Cuando aadim os m s variables, no podem os re p re se n ta r tan
fcilm ente las ecuaciones como figuras geom tricas, ya que nos
salim os de las dim ensiones, de lo cual, sin em bargo, no necesita
m os p reo cu p am o s p o r el m om ento.
Supngase que hay u n a variable dependiente Y que h a de p re
decirse a p a rtir de u n a variable independiente X . E n algunos
p roblem as, X p reced er obviam ente a Y en el tiem po. P or ejem
p lo : p o r lo reg u lar u n a persona com pleta su in stru cci n antes
de o b ten er u n ingreso. E n tales casos, sem ejante m an era de re
p re se n ta r las cosas re su lta m uy adecuada, pese a que hem os de
p o n er cuidado en n o im plicar u n a relacin necesaria o causal,
o que X es la n ica variable que influye sobre el valor de Y. Si
la direccin de la causa es am bigua, o si se piensa que cada va
riab le es causa d e la otra, necesitarem os, si es que deseam os
s u m in istra r u n a explicacin terica de la relacin, u s a r u n m
todo de ecuaciones sim ultneas que escapa a este texto. (V anse
[1], [2 ] y [ 6]. Si n u e stro objetivo es u n a sim ple estim acin o una
prediccin a plazo breve de Y a p a r tir de X , no se p re se n ta r n
tales am bigedades, aunque deba sealarse u n a vez m s que no
hay n ad a en las operaciones estadsticas que nos im pida realizar
operaciones m atem ticas tericam ente carentes de sentido. E n
ste y en los captulos sucesivos supondrem os que la variable Y,
seleccionada com o dependiente en sentido m atem tico, es asim is
m o causalm ente dependiente, de m an era que la in terp re taci n
te rica puede re su lta r relativam ente directa.
Y a vim os que si X y Y son estadsticam ente independientes,
no podem os p re d ecir Y a p a rtir de X o, m s exactam ente, el co
nocim iento de X no m ejo ra en n ad a n u e stra prediccin de Y . P re
sum iblem ente, pues, cuando las variables no son estad sticam en te
independientes, el conocim iento de X s nos ayuda a p re d ecir Y .
C uanto m s fu e rte sea la dependencia, ta n to m s p recisa ser
n u e stra prediccin. M s adelante m edirem os la fuerza de esta
relacin p o r m edio de coeficientes de correlacin. Nos concen
tram o s de m o m ento en la cuestin acerca d e cm o predecim os
Y a p a r tir de X . As, p o r ejem plo, podem os q u erer e stim a r el
ingreso fu tu ro de u n individuo, sabiendo que h a com pletado tre s
aos de escuela secundaria. Sin este conocim iento relativo a la
instruccin, n u e stra m ejo r estim acin (suponiendo q u e n o hay
inflacin) sera la del ingreso m edio d e todos los varones adul

tos. E n cam bio, el hecho de conocer su instruccin debera p e r


m itirn o s o b ten er u n a prediccin m ejor.
La ecuacin d e regresin. R epresentm onos el p roblem a de la si
guiente m an era. Nos im aginam os que p a ra cada valor fijo de la
variable in d ep en d ien te X (in stru cc i n ) tenem os u n a d istribucin
de Y (in g reso s). E n o tro s t rm in o s: p a ra cada nivel educacional

O
V
CP
C3>

*4

*5

Educacin

Fig. X V II.l. F orm a general de la regresin de Y sobre X , o curso


de las m edias de los valores de Y para valores fijo s de X.
h ab r cierta d istrib u ci n de ingresos en la poblacin. No todas
las perso n as q u e h a n term in ad o la escuela secu n d ara ten d r n
exactam ente los m ism os ingresos, p o r supuesto, p e ro dichos in
gresos estarn con todo d istrib u id o s alred ed o r de alguna m edia.
Y h a b r d istribuciones de ingresos sim ilares p a r a los egresados
d e la escuela p rim aria, los de la universidad, los posgraduados,
etctera. C ada u n a de estas d istin tas distribuciones d e ingresos
(p a ra X d eterm in ad as) te n d r u n a m edia, y podem os h a c e r u n a
g rfica de la posicin de dichas m edias sirvindonos del sistem a
fam iliar de las coordenadas rectangulares. D esignam os el curso
re su ltan te de estas m edias de las Y p a ra X fija s com o ecuacin
de regresin de Y a X . S em ejante ecuacin de regresin puede
verse ilu stra d a en la fig u ra X V II.l.
E stas ecuaciones de regresin son las "leyes d e la ciencia. En
algunos casos h ay m uy poca d ispersin alrededor de la ecuacin
d e regresin. E n tales casos, pueden h acerse predicciones m uy
precisas, y las desviaciones resp ecto de la ley se consideran a
m enudo com o e rro r de m edicin o com o resu ltad o de influen
cias m enores no controladas. La ley puede fo rm u larse as com o
si existiera u n a perfecta relacin e n tre F y l E n el caso ideal,

se consid erara que to d o s los p u n to s caen exactam ente en la


curva, y la relacin se a b stra e ra com o u n a funcin m atem tica
p erfec ta e n la que n o hay m s que u n a sola Y p a ra cada X . En
las ciencias sociales n o podem os se r ni con m ucho ta n exigentes.
E n efecto, esperam os u n a variabilidad considerable alre d ed o r de
la ecuacin de regresin, y preferim os p e n sa r en trm inos de m e
dias y de variancias d e u n a d istribucin de Y p a ra cada X . Sin
em bargo, el p ro cedim iento es en p rincipio el m ism o en todas
las ciencias, p ese a que las leyes de las ciencias sociales no sean
ta n precisas com o las d e la fsica.
E n la fig u ra X V II.l hem os indicado el ca rc te r general de las
ecuaciones de regresin, q u e co m portan los cursos de las m edias
de los valores d e Y p a ra determ inados valores de X . V am os a
te n e r que p ro c ed er ah o ra a algunos supuestos sim plificadores,
con o b jeto de p o d e r tr a ta r el p ro b lem a estadsticam ente. Si bien
la id ea de regresin es perfectam en te general, la m ayora de la
la b o r estad stica slo se h a realizado con los m s sim ples d e los
m odelos. E n p artic u la r, vam os a su p o n er d e m o m en to : 1) que
la fo rm a de la ecuacin d e regresin es lineal, 2) que las d istri
buciones de los valores de Y p a ra cad a X son norm ales, y 3) que
las v arian cias de las distribuciones d e Y son las m ism as p a ra cada
valo r de X . Podem os ah o ra h ac er u n exam en de estos diversos
su p u esto s un o p o r uno, p re sta n d o la m ay o r atencin al p rim ero
d e ellos.
Si la regresin d e Y a X es lineal, o sea u n a relacin en lnea
recta, podem os e sc rib ir u n a ecuacin com o sigue:
Y = a + $X

(X V II.l)

en la q ue a y (3 so n constantes. La ecuacin (X V II.l) in d ica que


la relacin e n tre X y Y es exacta, p ero en brev e hem os d e in
tro d u c ir en la ecuacin u n trm in o de e rro r. U na fo rm a a lte r
n ativ a d e escrib ir la ecuacin es la siguiente: E ( Y \ X ) = a + f i X ;
en la que E ( Y \ X ) pone de relieve que estam os preocupados con
el v alo r esp erado de Y, el que depende de X. H em os utilizado
le tra s griegas, ya que d e m om ento tra ta m o s de la poblacin total.
E n u n a ecuacin de e sta clase, ta n to a com o f? tienen in te rp re ta
ciones geom tricas definidas. Si ponem os X igual a cero, vem os
que Y = a. P o r consiguiente, a re p re se n ta el p u n to en donde la
lnea de la regresin c o rta el eje de las Y (o sea, all donde X = 0 ).
La inclinacin de la lnea de la regresin est d ad a p o r 3, ya
q u e esta co n stan te in d ica la m ag n itu d del cam bio de Y p a ra u n a
u n id a d de cam bio e n X. E l hecho de que la relacin sea lineal
significa que to d o cam bio de X, digam os en 5 unidades, produce
siem pre el m ism o cam bio en Y (e sto es, 5<3 unidades, indepen
d ien tem en te de la posicin sobre el e je d e X. (vase fig. X V II.2).
E l lecto r h a d e convencerse p o r s m ism o q u e si (3 = 1 y si las uni

dades de X y Y estn indicadas p o r distancias iguales a lo largo


de los respectivos ejes, la lnea de regresin fo rm a r u n ngulo de
45 grados con el eje de las X. U na (3 m ayor que la u n id ad indica
u na p en d ien te m s rpida. C uanto m s rp id a sea la pendiente,
tan to m ayor es el cam bio de Y p a ra u n cam bio dado de X. Y en
fo rm a anloga, si {3 es m enor que la un id ad pero m ayor que cero,
se re q u e rir u n cam bio m ayor de X p a ra p ro d u c ir u n cam bio

dado en Y. E n el caso lm ite, en que la lnea es horizontal, (3 se


hace cero, y los cam bios de X no producen cam bios de Y. E n
otros trm inos, si (3 = 0, no existe relacin lineal e n tre X y Y.
El conocim iento de X no nos ayuda a predecir Y, si se supone
un m odelo lineal.1 Si (3 es negativa, sabem os que se d a u n a rela
cin negativa e n tre las dos variables, y que m ientras X crece,
Y decrece.
Una lnea re c ta puede d eterm in arse siem pre p o r com pleto si
conocem os ya sea dos puntos de la lnea o un p u n to y la pen
diente. P o r lo tan to , no hay m s que u n a sola lnea de ecuacin
Y = a + (3A', a condicin, p o r supuesto, que se considere a a y |3
como can tid ades fijas (pero generales). Si a y p estn dadas,
podem os tra z a r la recta tom ando sim plem ente dos p untos d e la
misma. Sabem os que cuando X = 0, Y = a. P or consiguiente,
el punto (0, a ) se sita en la recta. Y as tam bin, cuando Y = 0,
tenem os 0 = a + fSX o X = -a /|3 . E ste punto (-a /{ 3 ,0) es, p o r su
puesto, el p u n to en donde la lnea co rta el eje de las X. Si no
i S e g n v e r e m o s m s a d e la n te , la in d e p e n d e n c ia e s ta d s tic a a s e g u r a q u e
p se a c e r o , p e r o n o s e s ig u e n e c e s a r i a m e n te d e a h que s i
es c e ro te n g a
m o s in d e p e n d e n c ia .

conviene servirse de dichos dos p untos, pueden d eterm in arse


otro s dos p u n to s cualesquiera p o r el m ism o p ro ced im ien to .2
S u p u esto s acerca de X y el trm ino de perturbacin. H asta
ah o ra n o hem os tra ta d o en form a explcita el hecho de que, pues
to que h a b r dispersin alred ed o r de la ecuacin de regresin,
h ab rem o s de re p re se n ta r el valor real d e Y p a ra cada individuo
m ediante u n a ecuacin que contenga u n trm in o de p ertu rb aci n
o d e e rro r que es nico p a ra cada individuo. Si suponem os que
Y i y X i se refieren a las puntuaciones correspondientes al i-simo
individuo, p o drem os re p re se n ta r la relacin (lin eal), com o sigue:
Y i = a + 3X + ei
en la que e{ re p resen ta el trm ino de p ertu rb aci n , cuyo com por
tam ien to necesitam os estu d iar. Podem os concebir este trm ino
com o si contuviera el e rro r de m edicin en Y (p e ro n o en X ),
y com o re su lta n te de todas las varias causas de Y que n o h an sido
llevadas a la ecuacin de u n a m an era explcita. Si la m ayor p a r
te de estas causas om itidas tienen individualm en te u n efecto
m enor, y si adem s estn operando casi independientem ente
e n tre ellas, ser razonable su p o n er que el valor esperado co rres
po n d ien te al fa c to r de p ertu rb aci n E (e {) ser igual a cero, y
que e e sta r d istrib u id o en fo rm a aproxim adam ente norm al.
Lo que re su lta m uy im p o rtan te es el hecho d e que el fa c to r de
p ertu rb aci n ser estad sticam en te in d ep en d ien te de X . R esulta
que al u s a r m nim os cuadrados p a ra e stu d ia r los coeficientes de
regresin a y |3, es necesario suponer q u e E( e ) = 0, y que X t y
no estn relacionados. La suposicin de norm alidad, m s la su
posicin de hom oscedasticidad, de que oe2 es co nstante a trav s
de todos los niveles de X ser n ecesaria en las pru eb as de signi
ficancia y p a ra la determ inacin de los lm ites de confianza.
El su p u esto fu n d am en tal que subraya l uso del anlisis de
regresin es el d e que X sea independiente del fa cto r d e erro r.
E n aplicaciones experim entales nos encontram os con frecuencia
en la posibilidad d e elegir niveles fijos de X ( como, p o r ejem plo,
cuando m antenem os constantes de te m p e ra tu ra a intervalos de
50 g rad o s). E n tales casos, pu esto q u e el nivel de X est b ajo
n u estro co n tro l y se p re su m e q u e no es m anipulado en fo rm a
que v are sistem ticam ente con el fa c to r de p ertu rb aci n , ser
ra ro p reo cu p arse con este supuesto concreto. Un m om ento de
reflexin nos convencera, sin em bargo, de que en m uchas situ a
ciones experim entales incluso este su p u esto es inocente, ya que
al m an ip u lar X u n o puede in ad v ertid am en te afectar o tro s facto
res q u e se q u ed aron fu e ra d e la ecuacin y contenidos p o r lo
tan to en el facto r de pertu rb aci n .
E n la investigacin n o experim ental se tom a tan to a las X com o

Vase

u n e je m p lo n u m r i c o e n la p g i n a 392.

a las Y com o observadas y n o com o m anipuladas, siendo p o r lo


ta n to X y Y variables aleatorias, o lo que se denom ina variables
estocsticas, las que tienen u n a distribucin de probabilidad.
E n algunos casos la distrib u ci n de X ser aproxim adam ente
norm al, au n q u e esto no es necesario en el caso del anlisis de
regresin. Lo que resulta esencial, sin em bargo, es el fo rm u lar
algunos su p u estos acerca de la distribuci n c o n ju n ta de X i y el
fa cto r d e p e rtu rb aci n e { . Si tuviram os a priori razones slidas
p a ra especificar alguna d istribucin p artic u la r, esto resu ltara
suficiente, p e ro en la p r ctica se carece siem pre d e ta l inform a
cin. Con m u ch a frecuencia suponem os que X y e son estads
ticam en te independientes, su puesto que re su lta r justificado si
las causas de Y om itidas son, 1) num erosas, aisladam ente sin
im portancia, y no m uy interrelacionadas, o 2) sin relacin con X
en situaciones en las q u e predom inan uno o dos de los factores
om itidos. Si u n o n o est disp u esto a h acer ta l suposicin en
algn caso p artic u la r, d eb er tr a ta r de id en tificar los m ayores
factores p e rtu rb a d o re s que h ayan sido om itidos, introducindo
los explcitam ente en la ecuacin corno variables adicionales. En
el captulo xix exam inarem os la regresin m ltiple, en la q u e han
sido incluidos tales factores causales adicionales.
Una de las ventajas de la te o ra estad stica del anlisis d e re
gresin co n siste en que est lo suficientem ente d esarro llad a com o
p a ra q ue tales supuestos acerca del com portam iento de los facto
res de p ertu rb aci n resu lten explcitos. R esu ltar bien claro que
lo que hem os dicho acerca del com portam iento de las variables
om itidas se aplica igualm ente bien a todos los procedim ientos que
h asta aqu hem os exam inado. Si se encuentra, p o r ejem plo, u n a
diferencia estad sticam en te significativa en m edias o proporcio
nes, y si se desea a trib u ir u n a explicacin causal a la variable in
dependiente (p o r ejem plo, sexo) e n esta relacin, h a b r que supo
n er tam bin que los factores om itidos no estn sistem ticam ente
relacionados con la escala nom inal dicotom izada (p o r ejem plo
sexo). No es posible soslayar supuestos acerca de variables om i
tid as cam biando sim plem ente el tip o del anlisis y confiando
en que as d esaparecer el problem a.
Ya se in dic m s a rrib a que p a ra las p ruebas de significacin
hem os de su p o n er que las Y estn distrib u id as norm alm ente
alred ed o r de cada valor de X . P ara las X estocsticas conven
d r tam b in su p o n er q u e p a ra cad a valor fijo de Y las X estn
asim ism o d istrib u id as norm alm ente. Decimos que la distribucin
co n ju n ta de X y Y es u n a d istrib u ci n norm al bivariable, lo que
significa que hay dos variables, cad a u n a de las cuales est dis
trib u id a alred ed o r de la o tra en fo rm a norm al. S em ejante d istri
bucin n o rm al bivariable tiene u n a ecuacin m atem tica definida
y puede re p resen ta rse com o u n a superficie tridim ensional, com o
en la fig u ra XVII.3. La a ltu ra de la superficie en u n punto

dado (X , Y) es pro porcional al nm ero de casos en el m ism o. As,


pues, se req u iere u n diagram a tridim ensional p a ra re p resen ta r
la d istrib u ci n co n ju n ta e n tre X y Y , del m ism o m odo que nece
sitbam os dos dim ensiones p a ra re p re se n ta r la distribucin de
frecuencia de la X sola. La form a exacta de esta figura, que se

Fig. XVII.3. La d istribucin norm al bivariable. (Con autoriza


cin de A. M. Mood, In tro d u ctio n to th e T heory o f Sta tistics,
McGraw-Hill Book Company, Inc., N ueva York, 1950,
fig. 41, p. 165.)
parece m ucho a u n casco de bom bero, depend er de cun cerca
n am ente estn relacionadas las variables e n tre s.
Si am bas variables se h a n expresado e n trm inos de unidades
de desviacin estn d a r, entonces, cu an to m s relacionadas estn
las variables tan to m s angosto ser el casco. E n el caso extrem o,
en el que Y puede p redecirse exactam ente a p a rtir de X y, p o r
consiguiente, todos los p u n to s estn exactam ente en la ecuacin
de regresin, las desviaciones estn d a r de las Y p ara cada X se
ran cero, y el casco n o ten d ra grueso alguno. P or o tra p a rte , si
no ex istiera relacin alguna en tre X y Y, la b ase del casco sera
m s ap roxim adam ente circular. C ualquier plano perp en d icu lar al
p lan o X Y co rta ra la superficie en u n a curva norm al. E n ta n to
que u n p lano paralelo al plan o X Y c o rta r el casco en u n a elipse.
La d istrib u ci n n orm al bivariable posee la propiedad de que la
reg resi n de Y a X sea lineal. P or lo tan to , si tenem os u n a dis
trib u ci n n o rm al bivariable, sabem os que, si trazam os las m edias
de las Y p a ra cada X, el re su ltad o ser u n a recta, No se sigue de
ah, sin em bargo, que si la regresin es lineal, la distribucin
co n ju n ta sea n ecesariam ente norm al bivariable.
E n el caso de las p ru e b as de significancia necesitarem os tam

bin su p o n er que las desviaciones est n d a r de las Y p a ra cada X


son las m ism as, independientem ente del v alo r d e X . E ste su
p u esto se ex am inar en conexin con el te m a d e la correlacin,
ya que sta es esencialm ente u n a m edida de dispersin alrededor
de la ln ea d e regresin. De m om ento b asta, con todo, sealar
que si la d istrib u ci n co n ju n ta es n o rm al bivariable, las desvia-

Fig. XVII.4. Diagrama de dispersin y recta d e m nim os


cuadrados.
ciones e s t n d a r de las Y p a r a ca d a X sern de hecho to d as idn
ticas. E sta p ro p ied a d de v arian cias iguales se designa com o
hom oscedasticidad y es anloga al su p u esto hecho en el anlisis
de v arian cia d e que ai = c2 = <*&
M nim os cuadrados lineales. El m odelo de regresin que h e
m os estad o exam inando es m s bien sencillo en sus conceptos,
p ero no es p o r desgracia d irec tam en te til en su fo rm a terica.
Es ra ro , en efecto, q u e tengam os suficientes casos p a ra exam inar
la d istrib u ci n d e las Y p a ra valores fijos sucesivos d e X . Con
m ayor frecu en cia encontram os que hay relativam ente pocos ca
sos en los que las X sean idnticas o aproxim adam ente tales. Si
hacem os u n a grfica de la d istrib u ci n de los casos alrededor
de los ejes d e las X y las Y e n la fo rm a convencional, en co n tra
m os p o r lo re g u la r tina d ispersin d e p u n to s com o la que se
indica en la fig u ra XVII.4. Y si hacem os u n a grfica de la d is
trib u ci n de los p u n to s en e sta form a, obtenem os lo que se de
signa com o esquedogram a o diag ram a de dispersin. El estu d ian
te h a d e aco stu m b rarse a d ib u ja r u n diagram a d e dispersin
an tes de p ro c ed er al anlisis u lterio r. La m era inspeccin del

diagram a en cuestin, en efecto, puede acaso in d icar que no tiene


o b jeto seguir adelante. As, p o r ejem plo, si los puntos aparecen
en el diagram a com o si estuvieran d istribuidos al azar, re su lta
claro que no existe relacin, o slo u n a relacin m uy dbil, en tre
las dos variables.
Una vez fijad as las m arcas en u n diagram a de dispersin, po
dem os q u erer acercarnos a dichos p u n to s p o r m edio de alguna
clase de cu rva q ue sea la m s adecuada. U na de las m an eras de
hacerlo es tra z a r u n a curva (en el p re sen te caso una re c ta ) p o r
inspeccin. Sin em bargo, existen p a ra ello m todos m s preci
sos. Uno de stos es el m todo de los m nim os cuadrados, que
se exam inar en la p re sen te seccin. N uestro objetivo es ah o ra
algo d istin to del objetivo del anlisis de regresin, en el que
trazbam os el cu rso d e la m edia d e las Y . Aqu, en efecto, que
rem os apro x im am o s a cierto nm ero d e p untos p o r m edio de
u n a cu rva de m e jo r adaptacin.
Con o b jeto de serv im o s de la teo ra de los m nim os cu ad ra
dos, hem os d e p o stu la r la fo rm a de la curva a utilizar en la adap
tacin d e los datos. E n el caso del anlisis de regresin, la
fo rm a de la cu rva se h allara p ro p iam en te d eterm in ad a p o r el
curso de las m edias, suponiendo que se dispone de datos re la ti
vos a la poblacin en tera. Vamos a to m a r u n a vez m s la curva
m s sim ple posible, la recta, com o curva d e nu estro s m nim os
cuadrados. E sto significa que hem os d e a d a p ta r los datos a una
re c ta d e m e jo r aju ste, conform e al crite rio de los m nim os
cuadrados, obteniendo u n a ecuacin de la fo rm a :
Y = a + bX

(X V II.2)

R esu ltar as que la a y la b obtenidas con este m todo son las


apreciaciones insesgadas m s eficaces d e los p arm etro s d e la
poblacin, a y p, si la ecuacin d e regresin es efectivam ente u n a
re cta y si suponem os : 1) M uestreo al azar, 2 j Que E ( e{) = 0, y
3) Que X{ y
son estadsticam ente independientes.
N u estro criterio d e los m nim os cuadrados com porta h a lla r la
nica re c ta que posee la pro p ied ad de que la sum a de los cua
d rados de las desviaciones de los valores reales de Y respecto de
dicha re c ta sea m nim a. As, p o r ejem plo, si trazam os lneas
verticales d e los p u n to s a la lnea de los m nim os cuadrados"^
y si elevam os al cuadrado dichas distancias y las sum am os, la
sum a re su ltan te ser m en o r que la su m a correspondiente de cua
d rad o s a cu alq u ier o tra re c ta posible (vase la figura X V II.5).
O bsrvese que son las distancias verticales, y no las perpendicu
lares o las horizontales las que aqu se consideran. S era posi
ble m inim izar la sum a de los cuadrados de las distancias p er
p endiculares (d esignada com o sum a ortogonal de los m nim os
cu ad rad o s), p e ro las ecuaciones de ello resu ltan tes no son ni

con m u ch o ta n p rcticas. Y si se em plearan las distancias ho


rizontales, la re c ta de m nim os cu adrados re su lta n te p o d ra u ti
lizarse p a ra ap re c ia r la regresin d e X a Y. E l lecto r h a de
convencerse p o r s m ism o q u e m inim izar la su m a de cuadra
dos de las d istan cias verticales n o m inim iza necesariam ente
la su m a de cu adrados de las d istancias horizontales. As, pues,

i g . X V I I . 5 . E cuacin de m n im o s cuadrados, que m in im iza las


sum as de los cuadrados de las distancias verticales y estim a la
regresin de Y sobre X .

p odem os o b te n e r v arias lneas de m nim os cu ad rad o s distin tas.


P ero stas slo coincidirn si todos los p u n to s q u ed an exacta
m en te en u n a sola lnea. R esulta asim ism o que, al m inim izar
la su m a d e los cu adrados de las distancias verticales, en c o n tra
m os de hecho la re c ta q u e posee la p ro p ied a d d e q u e la sum a
de las d istan cias verticales positivas y negativas sea cero y la
desviacin e st n d a r de los p u n to s re sp ecto de aqulla sea m ni
m a. E ste concepto d e la desviacin e st n d a r de las Y se exam i
n a r con m ay o r d etalle m s adelante.
Con o b jeto d e o b te n e r la lnea d e m nim os cuadrados, pues,
necesitam os calcu lar la a y la & q u e d eterm in an la lnea provista
de la p ro p ied a d deseada. E sta clase d e problem as p u ed e resol
verse fcilm ente p o r m edio del clculo y conduce a las siguientes
f rm u las de clculo d e a y 6.3
3
P a r a lo s e s t u d i a n te s f a m ilia r i z a d o s c o n e l c lc u lo e l e m e n t a l v a m o s a
d e l i n e a r l a n a t u r a l e z a d e l a d e r iv a c i n . C o m e n z a r e m o s c o n l a e c u a c i n
y 4 = a + bXi + e{, e n l a q u e ei e s u n t r m i n o r e s i d u a l q u e p u e d e s e r u t i
l iz a d o p a r a e s t i m a r e l r e s i d u a l t i d e l a e c u a c i n d e r e g r e s i n . D e s e a m o s
m i n i m iz a r l a s u m a d e lo s c u a d r a d o s d e e s to s r e s id u a le s , e s d e c i r : l a c a n
t i d a d 2 e i a = 2 ( 3 ^ 'O
c o n r e s p e c to a l a s d o s c a n t i d a d e s a y b,

2 Y i - b 2 Xi
a = ----------- I-------------------------------------= Y b X (X V II.3)
N

2 (X - X K Y - Y )
i=X
6 = ------ ----------- -------- 2 (Xt -X y *
i= l

t= l
= --------

(X V II.4)

2 x 42
i= l

en do n d e x i = X i X y y t = Yt Y. O bsrvese que en estas ecua


ciones a y b son las incgnitas, hallndose las o tra s cantidades
d eterm in ad as a p a r tir d e los datos. U na vez que se haya obtenido
b, a p u ed e calcularse fcilm ente a p a r tir d e la p rim e ra de las dos
frm ulas. Podem os, pues, c e n tra r n u e s tra atencin en el clculo
de b.
N
_
_
E l n u m era d o r d e b co m p o rta la expresin 2 ( X { X ) ( Y i Y )
ii
q u e se designa com o covariacin de X y Y. E sta can tid ad es direc
tam en te anloga a las sum as de cu adrados ta n to de X com o d e Y,
excepto que, en lu g ar d e elevar al cu ad rad o ( X X ) o ( Y Y) ,
tom am os el p ro d u cto de estos dos trm in o s. O btenem os en esta
fo rm a u n a m ed ida de cm o X y Y v ara n ju n ta s, y d e ah el nom
b re de covariacin. Si dividim os e sta expresin e n tre N , o b ten e
m os, p o r analoga, lo que se designa com o covariancia. V erem os
in m ed iatam en te que b p u ed e p o n erse igual a la razn de la co
v ariancia a la variancia en X.
Si exam inam os m s d e cerca la covariacin de X y Y, vem os
que, a d iferen cia d e u n a sum a de cuadrados, la covariacin puede
to m a r valores ta n to positivos com o negativos. Si X y Y se re la
cionan positivam ente, entonces valores grandes de X se asocia
r n p o r lo re g u la r con valores grandes de Y. As, pues, si X > X,
ser p o r lo re g u lar cierto que Y > Y. Y asim ism o, en el caso de
u n a relacin positiva, si X < X, ten d rem o s generalm ente Y < Y.
P o r consiguiente, el p ro d u c to de ( X X ) y ( Y Y ) ser n o rm al
m en te positivo, y la sum a de estos p ro d u cto s ser asim ism o posi
tiva. Y en fo rm a anloga, si X y Y se relacionan negativam ente,
esp eraram o s que, si X > X, entonces Y ser m en o r q u e Y, y la
su m a d e p ro d u cto s re su lta n te ser negativa. Si no existe relacin,
entonces ap ro x im adam ente la m ita d d e los p ro d u cto s sern posi
tivos y la o tra m ita d negativos, ya que X y Y v ariarn indepena l a s q u e a q u s e t r a t a c o m o d e s c o n o c id a s . T o m a m o s d e r iv a tiv o s p a r c i a le s
c o n r e s p e c to a a y 6 ; l a s h a c e m o s ig u a l a c e r o , y r e s o lv e m o s l a s d o s e c u a
c io n e s r e s u l t a n t e s ( a l a s q u e s e d e n o m in a ecuaciones normales ) p a r a a y b.
E s t e m i s m o p r o c e d i m i e n t o e s d e a p lic a c i n a l c a s o m u l t i v a r i a d o .

dientem ente. E n este caso, b se r cero, o vecino de cero. P or lo


tan to , cu an to m ayor sea el valor num rico de la relacin, inde
p en d ien tem en te de la direccin, ta n to m ayor ser el valor num
rico de la covariacin. Como h ab rem o s de v er en breve, la co
variacin fig u ra tam bin en el n u m era d o r del coeficiente de
correlacin, que es n u e stra m edida del grado de asociacin. En
el caso de b, tom am os la covariacin y la dividim os e n tre la sum a
de los cuad rados en X , con o b jeto d e o b ten er n u e s tra estim a
cin de la p en d ien te de la ecuacin de regresin.
E s m s conveniente servirse p a ra la covariacin de u n a frm u
la que es d irectam en te anloga a la frm ula de clculo de la sum a
de los cu ad rad os y puede derivarse en fo rm a sim ilar. Podem os
escrib ir la f rm u la de clculo de b com o sig u e :
n z x y

o x

x sr)

N 2 X 2 - ( 2 X )2
E n la ecuacin (X V II.5), ta n to el n u m era d o r com o el denom ina
d o r se h a n m ultiplicado p o r N, con o b jeto d e re d o n d ear los erro
res debidos a la divisin y con o b jeto de facilitar el clculo con
u n a calcu lad o ra.4
Problem a. S upngase que tenem os los datos del cu ad ro X V II.l,
en donde X re p resen ta el p o rc en taje de negros en las grandes
ciudades del M edio Oeste, y Y indica la diferencia e n tre las m edia
n as de los ingresos de los blancos y los negros, com o m edida de
d iscrim inacin econm ica.6

Cuadro
Porcentaje
de negros
X

2.13
2.52
11.86
2.55
2.87
4.23

X V II.l. Datos para u n problem a de correlacin


Diferencia
de ingresos
Y

$809
763
612
492
679
635

Porcentaje
de negros
X

Diferencia
de ingresos
Y

4.62
5.19
6.43
6.70
1.53
1.87
10.38

$859
228
897
867
513
335
868

4 En esta y las frmulas posteriores hemos prescindido de los subndi


ces, ya que se opera siempre la suma total de los casos, del cuadro N.
5 Aunque la palabra "negro" puede resultar ofensiva para algunos lecto
res, resulta necesario mantener esta terminologa al referirse a los datos del
censo, como contraste con otros datos hipotticos o los obtenidos de otras
fuentes.

A p a r tir de los dato s podem os calcu lar cinco sum as que, ju n to


con N , son to d o lo que necesitam os p a ra tr a ta r los p ro b lem as de
regresin y correlacin. Todas estas su m as m enos u n a se em
p learn en los clculos d e a y b. Los clculos pueden resu m irse
com o sigue:
N = 13
2 X = 62.88
2 Z 2 = 432.2768

2 Y = 8 557
2 Y 2 = 6 192 505
H X Y = 43 943.32

Aqu la n ica ca n tid a d nueva es 2X Y . Si ponem os estos valores


en las f rm u las d e a y b, tenem os a h o ra :
W 2 X Y -(2 X )(2 Y )
W2 X 2 - ( 2 X )2
13(43 943.32) -( 6 2 .8 8 )( 8 557) _ 33 199.0
13(432.2768) - (62.88)

1 665.7 ~ 19-931

2 Y -& 2 X
a = -----------------N
8 557 (19.931)(62.88)
= ------------:---------1:------- 1 = 561.83
13
P o r lo tanto, la ecuacin lineal re su lta n te es :
Y P = a + b X = 561.83 + 19.931X
en donde hem os utilizado Y P p a ra in d ic a r que los valores de Y
se h a n estim ado a p a r tir de u n a ecuacin d e m nim os cuadrados.
Como ya se indic an terio rm en te, las a y b obtenidas p o r este
m to d o son las estim aciones insesgadas m s eficaces d e a y p,
o sea los coeficientes de regresin reales a condicin d e que el
fa c to r de p ertu rb aci n e en la ecuacin Y i = a + pXj + gj tenga
u n v alo r esp erad o d e cero n o relacionado con X , y siem pre, p o r
o tra p a rte , de que tengam os u n a m u e stra al azar de la poblacin
q ue estudiam os. P o r consiguiente, la ln ea de m nim os cu a d ra
dos ser la m e jo r apreciacin d e la v erd ad era regresin, si la
ecuacin d e reg resin es efectivam ente lineal.
La ecuacin de los m nim os cuadrados posee asim ism o la p ro
p ied ad d e p a s a r p o r el p u n to (X ,Y ), que re p re se n ta las m edias
d e X y d e Y. E sto p u ed e verse en la ecuacin (X V II.3). Ya que
a = Y bX
te n e m o s :

Y = a + bX

lo que indica que estos valores de X y Y satisfacen la ecuacin.


P o r consiguiente, el p u n to (X , Y ) queda exactam ente sobre la
lnea.
E n el p ro b lem a an terio r, si sabem os el valor de X (p o rcen taje
de negros) p a ra cualquier ciudad d ad a del M edio Oeste, n u estra
m ejo r estim acin del valor de Y sera aquel valor de Y que co-

Porciento de nearos

Fig. X V II.6. Diagrama de dispersin y recta de m n im o s cuadra


dos para los datos del cuadro X V I I A.
rresp o n d e en la ecuacin de los m nim os cuadrados a la X dada.
Como q u iera que las m arcas d e discrim inacin indican diferen
cias (en d lares) entre los ingresos (en m edianas) de los blancos
y los negros, vem os que u n au m ento del 1 p o r ciento de los ne
gros co rresp o nde a u n a diferencia de $ 19.93 en dichos ingresos.
En la fig u ra X V II.6 se h an trazad o u n diagram a de dispersin
y la ecuacin de los m nim os cuadrados. Con objeto de ilu stra r
el em pleo de sem ejante ecuacin d e prediccin, si supiram os
que h ab a u n 8 p o r ciento de negros en u n a ciudad determ inada,
la diferencia estim ativa del ingreso m ediano sera:
Y p = a + b( 8) = 561.83 + (19.931 ) ( 8) = f 721.28
Vemos en la fig u ra que se h a b ra obtenido aproxim adam ente el
m ism o re su ltad o con la grfica. Observem os de p aso que, hacien
do X = 8 y resolviendo en relacin con Y, hem os localizado un

segundo p u n to d e la lnea, que puede utilizarse a continuacin


con o bjeto de tra z a r la lnea en el diagram a de dispersin.
XVII.2. Correlacin
Supongam os a p a r tir de ah o ra que X es estocstica, y n o so
m etid a p o r tan to al control del investigador. No slo deseam os
conocer la fo rm a o la n atu raleza de la relacin e n tre X y Y, de
m odo que u n a de las varia
bles p u ed a p re d ecirse a p ar
tir de la o tra, sino que es
necesario al p ro p io tiem po
conocer el grado o fuerza de
la relacin. E s obvio que si la
relacin es m uy dbil, no tie
n e o b jeto tra ta r de p red ecir
Y a p a r tir de X . Los soci
logos tien en a m en u do in te
rs an te todo en d escu b rir
cules de u n g ran n m ero de
variables se relacionan m s
de cerca con u n a variable
dependiente determ inada. En
los estudios de exploracin
de esta clase, el anlisis de
S in relacin
regresin rev iste im p o rtan cia
secundaria. A m ed ida que
u n a ciencia va m ad u ran d o y
que se d escubren variables
im p o rtan tes, la atencin pue (*>
de c e n trarse en m todos de
p rediccin exacta. Algunos
estadgrafos son del p arece r
Relacin negativa dbil
x
que en conjunto se h a p re s
tado dem asiada atencin a
F ig. XVII.7. Diagrama de dispersin
la correlacin y casi ningu que muestra las diferentes fuerzas y
n a al anlisis de regresin. direcciones de las relaciones entre
Que esto sea as o que no lo
X y Y.
sea depende, p o r supuesto,
del estad o del conocim iento en la ciencia considerada.
El coeficiente de correlacin r, que vam os a exam inar en esta
seccin, fuie in tro d u cid o p o r K arl P earson y se designa a m enudo
com o correlacin m om ento-producto, con o b jeto de distinguirla
de o tra s m edidas de asociacin. E ste coeficiente m ide la canti
d ad de dispersin a lre d ed o r de la ecuacin lineal de los m nim os
cuad rad o s. H ay u n coeficiente correspondiente de poblacin rh o
(p ), que m ide la b o n d ad del a ju ste a la verd ad era ecuacin de

regresin. O btenem os u n a estim acin r d e dicho p arm etro mi*


diendo las desviaciones r e s p e t o de la ln ea calculada p o r m edio
de los m nim os cuadrados.
Como q u iera q u e la ecuacin d e regresin re p re se n ta el curso
d e las m edias de las Y p a ra u n as X dadas, sera tam b in posible
m ed ir la d isp ersin resp ecto d e esa lnea tom ando u n a desviacin
e st n d a r d e la m ism a.6 S in em bargo, los investigadores de la
m ayora d e los cam pos de aplicacin se h an aco stu m b rad o al coe
ficiente de co rrelaci n ; es probable, con todo, que el coeficiente
de correlacin se m antenga. Posee la v en taja de se r de fcil in
terp retaci n , v su re co rrid o va de 1.0 a 1 .0. hecho que re su lta
atractiv o p a r a la m ayora de los p rcticos. Segn verem os, en
efecto, la relacin e n tre el coeficiente de correlacin y la des
viacin e st n d a r respecto de la ln ea d e los m nim os cuadrados
es m uy sencilla, hecho que p u ed e u tilizarse p a ra p ro p o rcio n ar
u n a in terp re taci n de r.
Se acaba de in d icar que r tiene u n lm ite su p erio r de 1.0. Si
todos los p u n to s se hallan, exactam ente sobre la x e c ta . r ser OT
o LO. segn q ue l a relacin sea positiva negativa. Y si los
p u n to s estn disper^ados_^L azaj^.x^fir cero. C uanto m e j o r s ^
el a ju s te /ta n to m ay o r ser la m ag n itu d de r. Es lo que se indica
en la fig u ra XVII.7.
O bsrvese que r es u n a m edida d e relacin lineal, ya que es una
m ed id a de la b o n d ad de a ju ste d e la lnea, d e los m nim os cua
drados. El lecto r n o debe caer en el e rro r de su p o n er que si
r = 0 (o srQ = 0 - ) ;n o c is t e relacin alguna,. E n efecto, si n o hay
relacin, sguese que r ser aproxim adam ente cero y h a b r una
dispersin de p u n to s al azar. Sin em bargo, puede h a b e r u n a rela
cin p erfec ta m e n te curvilnea y, con todo, se r r cero, indicando
que n o se d a recta alguna que satisfaga los datos. ste es el caso
en la fig u ra X V II.8, p o r ejem plo. P or lo tan to , si el investigador
en cu en tra u n a correlacin d e cero, h a b r d e p recav erse c o n tra la
deduccin de q u e n o existe relacin e n tre las variables. P o r lo re
gular, la inspeccin del diagram a d e dispersin in d icar si hay
o no relacin d e hecho, o si la relacin es suficientem ente no li
neal p a ra p ro d u c ir u n a correlacin de cero. E n la m ayora de
los pro b lem as sociolgicos, las relaciones pueden aproxim arse
razonablem ente p o r m edio de re ctas. Sin em bargo, esto no signi
fica que n o se d eb a e sta r b a sta n te a le rta co n tra excepciones even
tuales.
H asta el p re sen te no hem os definido todava el coeficiente de
correlacin, p e ro podem os h ac erlo fcilm ente en los trm inos
d e la f rm u la:

8 La naturaleza exacta de semejante medida se examinar ms adelante.


De momento podemos sealar simplemente que representa una extensin del
concepto de la desviacin estndar, en la que la media de las Y ya no se
toma como fija, sino que se considera funcin de X.

V[2(X-X)2][2(y-D2]

VtS^XSy2)

U o ralm en te: el coeficiente de correlacin es la razn de la co


variacin a la raz cu a d rad a del p ro d u c to de la variacin de X
y la variacin de Y. D ividiendo el n u m era d o r y el denom inador
e n tre N y poniendo esta cantidad com o JV2 b a jo el radical, vem os
r

Fig. X V II.8. Diagrama de dispersin de una relacin no lineal


perfecta, en que r = 0.
que r p u ed e tam bin definirse com o la razn d e la covariancia al
p ro d u cto de las desviaciones e st n d a r d e X y Y. lia covariancia
es la medida, d la"ygffcig conju n ta de X y Y, p ero su m agnitud
depende d e l a can tid ad to ta l de v a ria b ilid a d d las dos variables.
Como q u iera que el v alo r num rico de la covariancia pu ed e ser
considerablem ente m ayor que la unidad, n o re su lta conveniente
em plearlo d irectam en te com o m edida d e asociacin. E n lugar de
ello, estan d rizam os dividiendo e n tre el p ro d u c to d e las dos des
viaciones estn d ar, con lo que obtenem os u n a m edida que vara
e n tre 1.0 y 1 .0.
Y a vim os que la covariancia ser cero siem pre que X y Y no
estn relacionadas. P uede d em o strarse tam b in fcilm ente que
el lm ite su p erio r de r es la unidad. Tom em os, p o r ejem plo, el
caso en q u e b es positiva y todos los p u n to s se en cu en tran exac
tam en te so b re la recta. E n ta l caso, p a ra cad a Y podem os escrib ir
Y = a + b X . Y com o q u iera q u e el p u n to ( X , Y ) se en cu en tra tam

bin so b re la recta, tenem os Y = a + bX. P or consiguiente, p a ra


todos los p u n to s sobre la re c ta te n e m o s :
Y - Y = ( a + b X ) - ( a + bX) = b (X - X )
De d o n d e:
y

2(X - X ) ( Y - Y ) =

- X)*

2 ( y - r ) 2 = b s2 ( X - X )2

La inspeccin del n u m era d o r y el denom inador d e r in d ica ah o ra


que, en estas condiciones, r = 1.0. Y en fo rm a anloga, puede
d em o strarse q u e si todos los p u n to s se en c u en tran exactam ente
so b re u n a ln ea d e pen d ien te negativa, la r re su lta n te se r 1 .0.
Conviene o b serv ar asim ism o la relacin e n tre el coeficiente de
correlacin y las pendientes de las dos ecuaciones de los m nim os
cuadrados. Si hacem os que byx sea la pendiente de la ecuacin
de m nim os cu adrados estim ando la regresin de Y sobre X, y
dejam os que bmy indique la p en d ien te de la estim acin de la re
gresin de X so b re Y, tenem os, p o r sim etra, q ue:
t _ 2 (X -X )(Y -Y )
ccy
2 ( Y Y )2
en donde

X = axy + bxyY

As, pues, r tien e el m ism o n u m era d o r que las dos b. Si stas son
cero, sguese que r h a de se r tam b in cero y viceversa.
P ara sum as de cuadrados en X y Y dadas, el valor de byx (o de
b ^ ) ser p ro p orcional a r. E sto p arece ra conducir a la conclu
sin de que la fuerza de la relacin sea proporcional a la pendien
te de la lnea de los m nim os cuadrados. Sin em bargo, esto slo
ser as si el denom inador p erm an ece fijo. As, pues, b es u n a
funcin n o slo de la fuerza de la relacin, sino tam b in de las
desviaciones e s t n d a r.7 Si h ay b a sta n te variabilidad en X , en re
lacin con Y, el v alor de b ser relativ am en te pequeo, indicando
que se re q u ie re u n gran cam bio de X p a ra p ro d u c ir u n cam bio
m o derado de Y. Como lo verem os despus, los valores nu m
ricos de las b dependen, p o r consiguiente, de la m ag n itu d de las
unidades de m edida.
El valor de r se h a estan d a rizad o d e m odo que sea h a sta cier
to pu n to in d ependiente de las m agnitudes relativas d e las desvia
ciones e s t n d a r en X y Y. S era en efecto desdichado que no
fu e ra as, ya que difcilm ente deseam os u n a m ed id a que v aria ra

7 Excepto en los casos en que ello pudiera dar lugar a confusin, seguire
mos sirvindonos de b sin subndice para representar & .

segn que escogiram os com o u n id ad m o n etaria dlares o centa


vos. Se o b serv ar en las frm ulas de r y las b que r2 pu ed e ex
p re sa rse en trm in o s d e estas ltim as. As, pu es:
[S x y ]2
=

(X V IL ?)

E l le c to r h a r bien en verificar que cuando r es 1.0 (o 1.0),


b ym= l/b zy, lo que significa que las dos ecuaciones d e m nim os
cu ad rad o s coinciden. P o r lo regular, a m edida que r se acerca a
cero, el ngulo e n tre las dos lneas se va haciendo cada vez m a
yor, h a s ta que, r = 0, las lneas se h acen perp endiculares.
F inalm ente, podem os in tro d u c ir u n a f rm u la de clculo p a ra
r que co m p o rta las cinco sum as prev iam en te obtenidas en co
nexin con los clculos de a y b. La f rm u la e s :
________
V tW S X 2 - CX)2][jV2Y2 - (2 Y )2]

(X V II.8)

E l n u m erad o r, p o r supuesto, h a sido ya calculado, lo m ism o que


u n a p a rte del denom inador. As, pues, la correlacin e n tre el
p o rc e n ta je de negros y el ndice de discrim inacin es:
13(43 943.32) - (62.88)(8 557)
r = ---------------------------- ---------------------------------------------- y[13(432.2768) _ (62.88 )2][ 13(6192 505) - (8 557)2]
33 199
110120

= .301

Conviene o b servar que se pueden ad icio n ar valores ta n to a X


com o a Y, o su straerlo s, sin afectar el v alo r del coeficiente de
correlacin. De fo rm a anloga, r no se v er afectado p o r u n cam
b io de escala en cu alq u iera d e las variables. E sto equivale a
decir, d e hecho, que la correlacin e n tre el ingreso y la educacin
es la m ism a, ya sea que se m ida el ingreso e n dlares o en cen
tavos. Sin em bargo, au n q u e el coeficiente de correlacin sea
in v arian te en tran sform aciones d e e s ta clase, la ecuacin de los
m nim os cuadrados, e n cam bio, n o lo es. E n efecto, la adicin
o su stracci n de valores afecta el v alo r n um rico de a. Y un
cam bio de escala afecta la pen d ien te de la lnea. As, p o r ejem plo,
si cad a X se divide e n tre 10 m an ten ien d o a la Y fija, la b re su lta n
te se v e r m u ltip licad a p o r 10. El lecto r h a r bien en verificar
q u e estas p ro p ied ad es se m antienen, exam inando las frm ulas
d e r, a y b. E stos hechos pu ed en u tilizarse con o b jeto de simpli-

ficar los clculos. As, p o r ejem plo, si X co m p o rta u n nm ero


m uy g ran d e o u n decim al m uy pequeo, u n cam bio d e escala pue
de re d u cir el riesgo de e rro res d e clculo. O bien, si la variable
X consta d e valores tales com o 1 207, 1 409, 1 949 y 1 568, se reco
m en d ar p ro b ab lem en te su s tra e r 1 000 de cada m arca. Algunas
ru tin as d e clculo requieren q u e todos los valores sean positivos.

(b)

Fig. XVII.9. Diagramas de dispersin que m uestran los efectos


posibles de valores extrem os de X .
P or lo tan to , al calcu lar r p u ed e re s u lta r necesario a a d ir a cada
valor u n n m ero ligeram ente su p erio r a la m arc a negativa m ayor.
H ay que te n e r presente, e n este pu n to , o tro hecho relativo a la
correlacin. Y es que, com o q u iera que esta m ed id a com porta
variancias y covariancias a la vez, se ve sum am ente afectada por
unos pocos valores extrem os de cualq u iera de las dos variables.
P o r o tra p a rte , la m agnitud d e r depende del grado de variabili
d ad general d e la variable independiente. Es lo que ilu stra la
figura XVII.9. E n la figura XVII.9a, el efecto de u n o o dos valo
res extrem os p ro d u ce u n a correlacin m oderadam ente alta cuan
do no se d a nin g una en los casos re sta n te s. E n la fig u ra XVII.9&,
tenem os u n a relacin lineal m o d erad am en te elevada, excepto en
cu anto al hecho d e que los casos extrem os n o quedan en lnea
re cta con los dem s. E n este ltim o caso tenem os probablem en

te u n ejem plo de relacin n o lineal. El diagram a de dispersin


re s u lta r siem pre til p a ra in d icar la n atu ra leza de la situacin
en u n p ro b lem a determ inado. Veam os ah o ra lo que pu ed e h a
cerse cu an d o se p re sen ta u n a u o tra de estas situaciones.
La fig u ra X V II.9a ilu stra el p u n to an terio rm en te sealado de
que la m ag n itu d del coeficiente d e correlacin depende del m arY

Fig. X V II.10. Diagrama d e dispersin que no m u estra relacin


alguna den tro de u n recorrido lim itado de variacin de X, pero
con relacin positiva sobre el recorrido total.
gen de v ariab ilid ad de am b as variables. Si h u b iera h ab id o u n
n m ero m ayor d e casos extrem os, la d istrib u ci n re su lta n te h a
b ra p odido se r com o en la fig u ra XVII.10. E n este caso, la co
rrelaci n c o n ju n ta p o d ra se r alta, p e ro en el in te rio r d e cual
q u ier re co rrid o lim itad o de las X la correlacin puede se r vecina
d e cero. E sto in d ica d e hecho que hay insuficiente v ariabilidad de
X en el in te rio r d e dicho re co rrid o lim itad o p a ra c o n tra rre sta r
los efectos de las nu m ero sas variables incontroladas. E n reali
dad, X e s t siendo m a n ten id a casi constante. P or consiguiente, si
el diag ram a d e d ispersin re su lta se r sem ejan te al de la figura
XVII.9z, h a b ra q ue tr a ta r de ex ten d er el re co rrid o de variabili
d ad de X h allan d o m s casos extrem os.
Si la extensin del re c o rrid o d e variab ilid ad no re su lta p r c ti
cam en te posible, o si el in te r s del investigador se ce n tra an te
to d o en casos m enos extrem os, ser ta l vez m s razonable p re s
c in d ir to talm e n te e n el anlisis de los casos extrem os. As, p o r
ejem plo, supongam os que X es el tam a o d e las ciudades y que
la ciu d ad de N ueva Y ork fig u ra en la m u estra. A m enos que haya
u n g ra n n m ero de ciudades de tam ao correspondiente, y n o las
hay, p u ed e re s u lta r necesario lim ita r la atencin a ciudades de

m enos de 500 000 hab itan tes. E n algunos casos p o d r parecer


indicado calcu lar r ta n to con los casos extrem os com o sin ellos.
Es obvio que la decisin depender de la naturaleza del problem a
y del in ters del socilogo. El lecto r h a de p ercatarse bien del
hecho de que u n a o dos m arcas extrem as pueden eventualm ente
ejercer u n efecto m uy pro n u n ciad o sobre el tam a o de r, hecho
que e n alguna fo rm a debe tenerse siem pre en cuenta. De ah que
el reco rrid o d e v ariabilidad debiera consignarse ju n tam en te con
los coeficientes d e correlacin. E sto constituye o tra ilustracin
del p u n to im p o rtan te relativo a q u e u n a sim ple m edida de resu
m en, p o r m uy su p erio r que sea resp ecto de o tras, pu ed e ser a
m enudo d eso rien tadora.
Si los dato s se p re se n ta n com o en la figura XVII.9&, sospecha
rem os, p o r supuesto, que n o existe linealidad. Aqu tam bin,
pues, h a b ra que obtener, de ser posible, m s casos extrem os. Si
stos son slo u n o o dos, re su lta r tal vez p referib le excluirlos
del anlisis. Las situaciones de esta ndole ilu stra n el hecho de
que, al in te rio r d e cierto reco rrid o u n a relacin de variacin pue
de se r ap roxim adam ente lineal, resu ltan d o en cambio- inapropiada
si se extiende el m odelo lineal. De ah, pues, que se im ponga
p ru d en cia en cu an to a generalizar m s all de los lm ites d e los
datos. Un en u n ciado p o r el estilo de den tro los lm ites de
---------y--------- la relacin re su lta se r aproxim adam ente lineal
ser m s apropiado.
Comparacin en tre correlaciones y declives. Las observaciones
an terio res acerca d e la sensibilidad d e los coeficientes de corre
lacin an te las diferencias en la can tid ad de variacin de X , re
lativ a a la disp ersin p ro d u c id a p o r facto res extraos, ap u n ta
u no d e los pro b lem as fundam entales con cualquier m edida del
grado de asociacin. N u e stra atencin debe e sta r c e n trad a en la
n atu raleza d e la ley que relaciona X y Y , de si la relacin es o no
es lineal, y, si lo es, en la m agnitud del declive. Al co m p arar los
resu ltad o s d e dos estudios o de varias subm uestras, debem os re
conocer que es p erfectam ente posible o b ten er diferencias sustan
ciales e n tre los coeficientes de correlacin, aun cuando se apli
quen las m ism as leyes (m edidas p o r los declives). E s decir, que
las r pueden d ife rir aunque no- los declives, lo que p u ed e se r debi
do n icam en te a diferencias en la can tid ad d e variacin en la
variable in d ependiente X , o a diferencias en la am p litu d con que
h an sido som etidos a control otros factores extraos que p ro d u
cen variaciones aleatorias en Y . Como verem os al tr a ta r del anli
sis de la covariancia, al b u sca r la interaccin estam os en efecto
buscando u n a d iferencia en tre declives, y no correlaciones. E n el
captulo siguiente estudiarem os brevem ente las pru eb as p a ra en
co n tra r diferencias e n tre correlaciones, pero el lecto r debe e sta r
prevenido acerca del peligro de que tales diferencias, u n a vez
encontradas, p u ed an se r fcilm ente m al in terp re tad as.

Puede ser til concebir u n coeficiente de correlacin r ^ com o


funcin de dos tipos variables, con el declive bw y u n facto r sx/ s v
abarcando la razn de las dos desviaciones e stn d a r que se apli
can a la m u estra o su b m u estra p a rtic u la r que nos ocupa. A s:

El valor num rico de byx es, p o r supuesto, determ inado no slo


p o r la ley que une a X con Y , sino tam b in p o r la eleccin que
el investigador hace e n tre las unidades de m edida. El facto r
s j s v es tam bin u n a funcin de tales unidades, las que son por
sup u esto conocidas an tes que los datos de la poblacin o la m ues
tra. Pero la razn sx/ s y ser tam bin nica p a ra cada m u estra
(y o J o y p a ra cada poblacin), y se utiliza p a ra ob ten er la m e
dida estandarizada r ^ . Un coeficiente de correlacin tiene la ven
ta ja de ser estandarizado, independizndolo as de la eleccin
que se haga de unidades de m edida, p ero lam entablem ente tie
ne que se r estandarizado en funcin de algo que re su lta ser una
can tid ad no invariable e n relacin con m u estras o poblaciones.
E sta circu n stan cia debe s e r claram ente entendida, debiendo ser
sealados siem pre los declives n o estandarizados, de m odo que
las rplicas no resu lten desorientadoras a este respecto.
Planteando el asu n to en fo rm a algo diferente, podem os recono
cer que en la inferencia y estim acin estadsticas se da una
je ra rq u a de m etas cientficas. Probam os buscando p rim ero la
significancia, p a ra d ecid ir si se h a en co n trad o u n a relacin que
no p u ed a ser fcilm ente explicable p o r m ecanism os casuales.
O bservam os a este resp ecto que el nivel de probabilidad o signi
ficacin es funcin del grado de relacin y del tam a o de la
m u estra. Si sta es m uy grande podrem os o b ten er u n pequeo
nivel de p robabilidad, incluso con una relacin m uy dbil y tal
vez sin im p o rtancia p rctica. Pero habiendo encontrado al m e
nos u n a relacin m oderadam ente fuerte, se nos plantea de nuevo
u n a ta re a m s im p o rtan te, a sab e r: la de estim ar la n aturaleza
de tal relacin, m edida p o r u n coeficiente d e regresin en el caso
lineal. Cuando las correlaciones son m oderadam ente fuertes, en
lugar de co m p arar estas r directam ente, estim am os los declives,
y los com param os en n u estras pru eb as de interaccin. El p ro
ceso p u ed e p re sen tarse d iagram ticam ente as:

donde la d ireccin d e las flechas re p re se n ta el c u rso causal


(p o r ejem p lo : pro b ab ilid ad es influidas p o r m agnitudes de rela
ciones y tam a o s de m u e stra s), lo q u e va frecu e n te m e n te en di
reccin o p u esta a la que siguen los p aso s del proced im ien to em
p lead o en u n anlisis estadstico. E l diagram a in d ica que p es
u n a funcin d e dos variables, u n a d e las cuales (e l tam a o de la
m u e stra ) no es d e in ter s in h eren te, y que la correlacin
es
asim ism o u n a fu n ci n de dos facto res, u n o de los cuales { s j s v),
n o es d e in ter s. N u e stro objetivo consiste en llevar el anlisis
h acia a rrib a en el diagram a h a s ta la estim acin d e los coeficien
tes de regresin, en lu g ar de deten ern o s en los niveles d e p ro b a
bilidad, o fo rm u lan d o declaraciones en relacin con los coeficien
tes de correlacin.
R esulta q u e en cu an tas ocasiones se m an eja n m edidas ordina
les de asociacin, tales com o las q u e se v ern en el cap tu lo si
guiente, d esap arece la distincin e n tre declives y m edidas de
asociacin. E n el caso d e dicotom as, sin em bargo, p u ed e dem os
tra rs e que si se sigue la regla d e colocar la variable independien
te al trav s d e la p a rte a lta del cuadro, y se co m p u tan las p ro
porciones (o p o rc en tajes) de m odo que sum en 1.00 (o 100) hacia
abajo, co m p aran d o a continuacin de izquierda a derecha, la
d iferen cia de p ro porciones re su ltan te puede se r considerada
com o u n caso especial del declive byx, en ta n to q u e -<j> p asa a ser
u n caso especial de rmy. Si se co m p u tan las pro p o rcio n es en la
o tra direccin, la diferencia de proporciones p asa a s e r u n caso
especial de b ^ , d e m odo que ten d re m o s u n a ju stificaci n m s
p a ra seguir la regla em prica p rev iam en te sugerida. Pueden ob
ten erse estos re su ltad o s p o r el sim ple procedim iento de asignar
pu n tu acio n es d e 0 y 1 ta n to a X com o a Y , utilizan d o a continua
cin las f rm u las bsicas p a ra el clculo de rxy y byw.
* Clculos a p a rtir de datos agrupados. Si el n m ero de casos es
gran d e o si no' se dispone de u n a calculado ra m oderna, el clculo
de los coeficientes de correlacin p u ed e re s u lta r ex trem adam ente
laborioso. E n tal caso ser ta l vez m s indicado servirse de d a
tos agrupados, au n a riesgo de in tro d u c ir eventualm ente algunas
im precisiones. E n principio, estos clculos de dato s agrupados
no son m s que aplicaciones abreviadas de los procedim ientos
em pleados p a ra o b te n e r la m edia y la desviacin estn d a r. Tene
m os ah ora dos variables que h a n d e clasificarse cruzadam ente
com o en el c u a d ro XVII.2. H em os de an tic ip a r u n a m edia p a ra
cad a variable, to m an d o desviaciones graduales de cada u n a de
las m edias y sirvindonos de facto res de correccin en cada caso.
Adems, n ecesitarem os u n trm in o d e p ro d u c to cruzado equiva
len te a 2x>\ Como que las desviaciones ta n to de X com o de Y
se to m ar n de las m edias adivinadas respectivas, necesitam os
serv im o s de u n fa cto r de correccin a s u s tra e r del trm in o del
p ro d u c to cru zad o apreciado. Podem os m odificar as las frm ulas

de clculo de r y b de m odo que se tenga en cu en ta que nos he


m os servido d e m edias adivinadas en lugar de las correctas.
Se re co rd a r que u n a de las frm ulas de s sirvindose de datos
agrupados era (d e ja n d o de lado los su b n d ices):
5 = ^ - V ^ 2 / d '2 - ( 2 / d ' ) 2
Como q u iera que tenem os ah o ra dos variables, X y Y , nos servi
rem os de subndices con objeto de distin g u ir las frecuencias y
las desviaciones graduales d e X (e sto es, fx y d'x) de las de Y (o
sea, f v y d'v). Al calcular el trm ino del pro d u cto cruzado, nece
sitam os o b ten er tam bin las frecuencias
d e cada subcasilla.
E stas ltim as sern p o r lo regular m s pequeas que fa o
As,
pues, si bien hay 24 casos en la categora de 40.0 a 49.9 p a ra la
variable X y 30 casos en la categora de 15.0 a 19.9 de Y, slo hay
6 casos en la subcasilla correspondiente a am bas categoras. El
lecto r h a de convencerse p o r s m ism o d e que la f rm u la de
clculo de r (ecuacin X V II.8) puede m odificarse com o sigue:
N

f x y d w d ' v

x d * ) ( ? f v d v )

I I

ViVS/A2- (2 A )][ ATSMV - ( ^ f y d y r - ]


Y en fo rm a anloga, la f rm u la de b se convierte e n :
_ N '2fxvd'xd'y - C2fxd'x )('2f1/d'v) iv
N V fwd ' / - ( 2 fxd'x )*

(X V II.10)

en donde i e ia re p resen ta n las am plitudes de intervalos de y y


X respectivam ente. El valor d e a p u ed e calcularse ah o ra a p a rtir
de la ecuacin:
2 Y -6 2 X
=
y bX
a -------------------
N
en donde X y Y pueden obtenerse sirvindonos de la frm ula
usual de los datos agrupados.
Calculemos ah o ra los valores en esos coeficientes en relacin
con los datos de 150 d istrito s del S u r consignados en el cuadro
XVII.2. Tom arem os como variable dependiente Y, o sea el p o r
cen taje de m ujeres de la clase trab a jad o ra, siendo la variable
independiente el p o rcentaje de la poblacin clasificada como
granjas rurales. C onvendr servirse de u n a frm ula de clculo
com o la que se d a en el cuadro XVII.3. E n sta, los lm ites de

las clases y los p u n to s m edios se indican ho rizo n talm en te en la


p a rte su p e rio r (p a ra Y ) y de a rrib a abajo, a m an o izquierda,
p a ra X . O bsrvese el re a c e rra d a e n el in te rio r del cuadro. Se
ver q ue h ay tre s n m eros en cad a subcasilla. E n ca d a casilla, el
n m ero de a rrib a re p re se n ta el n m ero d e casos d e la subcasilla,
tal com o se d a en el cuadro XVII.2. Los n m eros re sta n te s de la

C uadro

XV II.2. Datos clasificados cruzados para obtener


correlaciones de datos agrupados
Porcentaje de mujeres de la clase trabajadora, Y

Porcentaje de
granjas rurales,
X

10.014.9

15.019.9

20.024.9

25.029.9

30.034.9

35.039.9

0.0- 9.9
10.0-19.9
20.0-29.9
30.0-39.9
40.0-49.9
50.0-59.9
60.0-69.9
70.0-79.9
80.0-89.9

0
1
2
2
4
3
2
2
1

0
2
5
0
6
10
4
3
0

0
0
1
5
6
9
3
4
1

1
2
2
5
7
6
7
1
0

8
4
3
7
1
2
4
0
0

4
1
3
3
0
0
0
0
0

0
3
0
0
0
0
0
0
0

13
13
16
22
24
30
20
10
2

17

30

29

31

29

11

150

Totales
Fuente:

40.0- Totales
44.9

Censo de los Estados Unidos de 1950.

subcasilla se em plean p a ra calcu lar el trm in o del p ro d u c to cru


zado. La cifra cen tral de cada subcasilla re p re se n ta el p ro d u cto
de las desviaciones graduales d \ d v. As, p o r ejem plo, en la sub
casilla m s b a ja de la izquierda (c o rresp o n d ie n te a las categoras
d e 80.0 a 89.9 y d e 10.0 a 14.9), la cifra 12 es el p ro d u c to de
4 p o r 3. E n o tro s t rm in o s : la categora de 80.0 a 89.9 se halla 4
desviaciones graduales p o r encim a d e la m edia an ticip ad a de X ,
y la categora d e 10.0 a 14.9 se e n c u en tra 3 desviaciones graduales
por debajo de la m edia an ticip ad a de Y . F inalm ente, el nm ero
in ferio r en cada subcasilla re p re se n ta el p ro d u c to d e los dos
n m ero s que tien e a rrib a y pu ed e p o r consiguiente re p resen
ta rse sim b licam ente com o f^d'^d'y. P o r lo tan to , la sum a de
estas cifras in ferio res de to d as las subcsillas nos d a el trm in o
del p ro d u c to cruzado, sin correccin d e los e rro re s in tro d u ci
dos sirvindose de m edias estim adas. E sta su m a se em plear
en el p rim e r trm in o del n u m e ra d o r de r; es n u m ricam ente
igual a 200, y se h a d isp u esto e n el ngulo in fe rio r derecho
del cuadro.
Las can tid ad es re sta n te s n ecesitadas en el clculo d e r y fe pue
den o b ten erse en la fo rm a usual. Las c u a tro ltim as colum nas

C uadro
Limites
de clase
X

0.09.9
10.019.9
20.029.9
30.039.9
40.049.9
50.059.9
60.069.9
70.079.9
80.089.9
U
d'v
h,d'v
u * v y*

XVII.3. Clculos de la correlacin de datos agrupados *

10.0- 15.0- 20.0- 25.0- 30.0- 35.0- 40.014.9 19.9 24.9 29.9 34.9 39.9 44.9

Puntos 12.45 17.45 22.45 27.45


medios
1
0
4.95
0
2
2
1
0
14.95 +9 +6
0
9 12
2
5
2
1
0
24.95 +6 +4 +2
0
12 20
2
5
2
5
0
34.95 +3
+1
0
6
5
7
4
6
6
0
0
0
44.95
0
0
0
0
0
6
3 10
9
0
54.95 - 3 - 2 -1
0
- 9 -20 9
7
4
3
2
0
64.95 -6 - 4 - 2
0
-12 -16 - 6
4
2
3
1
0
74.95 9 - 6 - 3
0
-18 -18 -12
1
1
-4
84.95 -12
-12
4
17 30 29 31

d'X

4
8
-4 - 8
-32 -32
1
3
4
-3 - 6 - 9
-12 - 6 -27
3
3
-2 -4
- 6 -12
3
7
-1 - 2
-7 -6
1
0
0
2
+1
2
4
+2
8

29

11

13 4 -52

208

13 - 3

-39

117

16 - 2

-32

64

22 -1

-22

22

24

30

30

30

20

40

80

10

30

90

32

-37

643

-3 -2 -1
-51 -60 -29

0
0

1
29

2
22

153

29

44

27

29

W 2

32.45 37.45 42.45

3 N=
150
3
9 -80

120

h dw

a y

= --200

402

* Esta forma de clculo se ha tomado, con ligeras adaptaciones, de [1], cuadro


XIX.4 de la p. 476, con la amable autorizacin del editor.

del cu ad ro se em plean p a r a o b ten er f ? , d x< f x d ' x y f x ( d ' x ) 2 , las su


m as de las dos ltim as de estas cantidades utilizndose d irecta
m ente en la frm ula de r. O bsrvese que al calcu lar los valores
n um ricos de estas cu a tro colum nas prescindim os p o r com pleto
de los valores de Y. As, pues, si dejam os to talm e n te de lado el
rea encerrad a, tenem os exactam ente la m ism a clase d e tab la de
la que n o s servim os al calcular la m edia y la desviacin estn d a r
de datos agrupados. Y en fo rm a anloga, las cu a tro hileras infe
rio res pu ed en em plearse p a ra o b ten er sum as correspondientes
en relacin con la variable Y . T odas las cantidades necesitadas en
las f rm ulas de r y b pueden po n erse ah o ra en las casillas infe
riores d e la d erecha d e la ta b la m ayor.
O btenem os ah o ra los valores d e r y b com o sigue:
150( 200) ( 3 7 )( 80)
- 3 2 960
r = -------------------------------------------------------------- -------------= .460
v t 150(643) - ( - 37)][ 150(402) - ( - 80)*]

71 590

150( 200) ( 37)( 80) 5.0


-3 2 9 6 0 1
b = -----------------------;------------------------ = :------------- = .1733
1 5 0 ( 6 4 3 ) - ( ~ 37)2
10.0
95 081 2
Como q u iera q u e los valores de X y Y son 42.48 y 24.78, respectiva
m ente, obten em os:
a = Y b X = 24.78 - ( - ,1733)(42.48) = 32.14
y la ecuacin de los m nim os cu ad rad o s puede escribirse c o m o :
Y P = 32.14 - .1733X
Interpretacin del coeficiente de correlacin. Con objeto de ob
ten er u n a in terp retaci n de r que tenga sentido cuando r no es
ni cero ni 1 .0, volvam os al concepto d e variabilidad a propsito
de la ecuacin de regresin. H em os definido la variancia respec
to de la m edia de Y com o:
,

( 7 - ji,)*

en donde M re p resen ta la m agnitud d e la poblacin (fre n te al


tam ao de la m u e stra N ) y donde nos servim os de los subndices
p a ra recalcar el hecho de que tenem os ah o ra dos variables que
h an de distinguirse. As, pues, el concepto co rrien te de la varian
cia co m p o rta desviaciones resp ecto de u n a m edida fija d e ten
dencia central, o sea la m edia co n ju n ta. P ero podem os ob ten er

tam b in la m ed ia de las Y p a ra u n a X fija, y estam os suponien


do q ue estos valores v aran con X d e m a n e ra que p roduzcan u n a
reg resi n lineal. Podem os generalizar en esta fo rm a el concepto
d e la m edia, ob teniendo u n a especie de m edia condicional de Y
p a ra u n a X dada, que podem os sim bolizar com o iiy\x o com o
E(Y\X).
Si generalizam os el concepto de v arian cia en fo rm a sim ilar,
podem os o b ten er u n a m ed id a d e disp ersi n i-especto de la ecua
cin d e regresin ta l com o:
_ -------- ------- M

( X V II.ll)

en d o n d e el sm bolo ay \m se em plea p a ra se a la r el hecho d e que


la m ag n itu d d e la v ariab ilid ad re sp ecto d e la ecuacin d e regre
sin, lo m ism o q u e la m ed ia de Y, depende del valor de X . E n
o tro s trm in o s : p a ra cad a X se d an ta n to u n a m edia d e las Y
com o u n a v arian cia re sp ecto d e d icha m edia. L a ca n tid a d d e dis
p ersi n alre d ed o r d e la lnea n o n ecesita s e r siem pre la m ism a
p a ra cada X , pese a q u e vam os a su p o n er la p ro p ied ad d e hom osced asticid ad o d e variancias iguales.
Tenem os ah o ra dos m ed id as de v ariab ilid ad p a ra Y . La p rim e
r a m id e la disp ersin alred ed o r del v alor d e Y , la gran m ed ia |x,
que sera el m e jo r v alo r anticipado d e Y si n o se conociera X .
E n o tro s trm in o s: si se nos p id iera a n tic ip a r Y n o conociendo
X , la m e jo r anticipacin sera ix, (o Y, si slo se d isp u siera de los
d ato s de la m u e s tra ). E n cam bio, si conociram os X , an ticip a
ram o s el v alo r co rresp o n d ien te de Y que se sit a en la ecuacin
d e regresin. A m enos que no ex istiera relacin e n tre X y Y, el
conocim iento de X nos ay u d ar a p re d e c ir el v alo r de Y. Si la re
lacin fu e ra p erfecta, po d ram o s p re d ecir Y exactam ente, ya que
todos los p u n to s q u ed aran exactam ente so b re la lnea. P o r lo
reg u lar, no estarem os en condiciones d e h ac erlo as, pero, com o
q u iera que estam os suponiendo u n a d istrib u ci n n o rm al de las Y
y u n a desviacin e st n d a r av\x fija, podem os e m itir enunciados
de p ro b ab ilid ad acerca d e los riesgos y de la m agnitud del e rro r.
Y lo q ue es m s im p o rta n te todava desde el p u n to de vista de
n u estro s pro p sitos, podem os c o m p arar las dos desviaciones es
t n d a r (o v arian cias) y o b ten er u n a m ed id a acerca d e en qu
p ro p o rci n se h a m ejo ra d o la anticipacin p o r el conocim iento
de X . Al p ro ced er e n esta form a, podem os servirnos de pro ced i
m ientos con los que estam os ya fam iliarizados a p a r tir del anli
sis de la variancia.
E n dicho anlisis, en efecto, tom am os la variacin to ta l o
su m a d e cu ad rad os y descom pusim os d ich a can tid ad en porcio
nes explicadas e inexplicadas. V am os a serv im o s ah o ra exacta

m ente del m ism o procedim iento, obteniendo casi a m an era de


2
p ro ducto accesorio los valores de ay \x y r2. Con lo que estarem os
en condiciones de d a r u n a in terp re taci n lgica del coeficiente
d e correlacin. P rim ero, podem os expresar las desviaciones de
cada Y resp ecto de Y com o sum a de dos cantidades ( Y Y p) +
(y Y ) (vase la figura X V II.l 1). La p rim era de estas cantida-

x
Fig. X V II.11. R epresentacin geom trica que m uestra las desvia
ciones respecto de la m edia Y com o una sum a de desviaciones
respecto de la recta de m n im o s cuadrados y desviaciones de la
recta de m nim os cuadrados respecto de la Y.
des re p resen ta la desviacin del valor de Y respecto de la lnea
de los m nim os cuadrados e indica la cantidad de e r ro r que se
com ete cuando se em plea Y P p a ra p re d ecir Y . La segunda expre
sin, en cam bio, indica la desviacin de la lnea de m nim os cua
drados (p a ra u n a X d ad a) respecto de Y . E n la m ayora de los
casos, esta can tid ad re p re se n ta r el m o n to en que se reduce el
e rro r al conocer Y P. Si elevam os al cuadrado ahora am bos m iem
bros de la ecuacin y sum am os luego todos los casos, o b ten em o s:

2(7- y )2= 2 ( y - y,p + 22(Y -

,)(

y p

- ? ) + 2 ( y p - yp

A fortunadam ente, el trm ino c e n tral vuelve a desaparecer, y nos


quedam os c o n :

2 ( y - y ) 2=
SC to tal

2( y - y pp + 2(yJ, - y )2 (xvii.12)

= SC inexplicada + SC explicada

La p rim era cantidad de la derecha de la ecuacin re p resen ta


la sum a de los cuadrados de las desviaciones de los valores re a
les de Y respecto de la lnea de los m nim os cuadrados. E sta
can tid ad es inexplicada, ya que indica la m agnitud del e rro r en
la prediccin. Y la cantidad re sta n te indica lo que hem os gana
do al servim os de Y v con preferen cia a Y , pudiendo designarse
com o la sum a de cuadrados explicada. P or explicada n o enten
dem os, p o r supuesto, u n a explicacin causal, sino sim plem ente
u n a asociacin e n tre las dos variables. Considerem os ah o ra m s
de cerca cad a u n a de estas cantidades.
Si tom am os u n a sum a de cuadrados inexplicada y dividim os en
tre el nm ero to tal de casos, obtenem os la variancia de la m ues
tra Sy\x respecto de la lnea de los m nim os cuadrados. O sea:
=

(X V II.13)

Si deseam os o b ten er u n a estim acin insesgada de la variancia


de la poblacin <^y \x respecto de la regresin real, hem os d e divi
d ir n o e n tre N sino e n tre los grados apropiados de lib ertad . E n
este caso hem os perdido 2 grados d e lib e rta d al calcular a y b
com o estim aciones de a y (3. P or consiguiente, si deseam os esti
m a r Cy| nos servirem os de:
A2

S F - F ,) 2

o*\m = ----- ~----Ai 2

/VW TT14-V

(X V II.14)

E n esta form a, la sum a d e cuadrados inexplicada p u ed e con


v ertirse fcilm ente en u n a estim acin d e la variancia resp ecto
de la ecuacin de regresin. El lecto r h a r bien en convencerse
p o r s m ism o de que lo que hem os hecho es d irectam en te p a ra
lelo a n u estro tra ta m ie n to a n te rio r del anlisis de la variancia.
La v ariab ilid ad resp ecto de la ecuacin d e m nim os cu adrados
h a su stitu id o la nocin d e variabilidad en el interior d e las ca
tegoras de X .
Volviendo ah o ra a la sum a de cuadrados explicada 2 ( F P F ) 2,
podem os m o s tra r fcilm ente que esta can tid ad es equivalente a
r [S(F F ) 2], o r 2Ey2. Como quiera que Y p = a + b X y F = a +
bX , te n e m o s:
(Yp- Y ) = b ( X - X )
P o r consiguiente:

2*2

(2 x2)2

( 2 xy)2
7 ( 2 y2) = r22y2

2x22y2

= r22 ( y - y )2
Hem os dem o strado as que:
2

2 (yp- Y )2
2(y Y ) s

SC explicada
SC to tal

P o r m edio de u n razonam iento sim ilar pudim os h a b e r dem os


tra d o q ue f 2 re p re se n ta la razn d e la variacin explicada en X
a la variacin to ta l en X. P or lo tan to , el cu ad rad o del coeficien
te de correlacin p u ed e in te rp re ta rse com o la p ro p o rci n de
variacin to tal en u n a de las variables explicada p o r la o tra. La
can tid ad de \ / \ r2, designada a m enudo com o coeficiente de
alienacin, re p re se n ta la raz c u a d ra d a de la pro p o rci n d e la
sum a to tal de cu ad rad o s que perm an ece sin explicar p o r la varia
ble independiente.
Cabe o b serv ar que no se d a in terp re taci n d ire c ta y sim ple
alguna de la r m ism a. De hecho, es posible d ejarse d eso rie n ta r
p o r los valores d e r, ya que estos valores sern n u m ricam ente
m ayores que los d e r2 (a m enos que r sea 0 o 1 .0 ). As, p o r
ejem plo, p o d ra p arece r que u n a r d e .5 sea la m ita d de buena
q ue u n a correlacin perfecta, en ta n to que vem os que, en este
caso, slo explicam os u n 25 p o r ciento de la variacin. Una co
rrelacin d e .7 indica que algo m enos de la m ita d d e la variacin
re su lta explicada. Vemos asim ism o que correlaciones d e .3 o m e
nores significan que slo u n a fraccin m uy pequea de la varia
cin es explicada. E l cu ad ro XVI 1.4 indica las relaciones e n tre
las diversas cantidades.
Como q u iera que 1 r 2 re p re se n ta la pro p o rci n d e variacin
inexplicada, ten em o s:

<i - r2)[2(y - y)2] = 2(y - ypp


P or consiguiente:

2 ( y - y )2
N

2 ( y - y p)
N

o bien :
(l-r* )V = 4 .
De d o n d e :
= V

1 -

r 2 S-

E ste re su ltad o nos p ro p o rcio n a u n a indicacin acerca de en qu


m edida podem os re d u c ir la desviacin e st n d a r conociendo X.

C uadro

XVII.4. Relaciones num ricas entre r, r2, 1 r2 y \ / l r~


r

.90
.80
.70
.60
.50
.40
.30
.20
.10

.81
.64
.49
.36
.25
.16
.09
.04
.01

1 - /-2

V 1 " 2

.19
.36
.51
.64
.75
.84
.91
.96
.99

.44
.60
.71
.80
.87
.92
.95
.98
.995

(Vase la ltim a colum na del cu ad ro X V II.4.) Si r es cero, las


dos desviaciones e st n d a r son iguales. E ste hecho es obvio, p o r
supuesto, si nos percatam o s de que la lnea de los m nim os cua
d rados ser en tal caso u n a re cta ho rizo n tal de ecuacin Y Y.
Si r2 es igual a la unidad, s,,], ser cero, p o r supuesto, y a que to
dos los p u ntos q u ed arn exactam ente so b re la recta. Del cua
d ro XVII.4 se desp ren d e que la m ag n itu d de r h a de se r gran
de p a ra que obtengam os u n a reduccin sustancial de las des
viaciones estn d a r. P a ra u n a r d e .80, la desviacin e st n d a r
resp ecto de la lnea de los m nim os cuadrados es d e .60 d e la
desviacin e stn d a r c o rrie n te ; pero, con u n a r de .40, vem os que
no h em os ganado m ucho e n cuanto a a p reciar Y a p a r tir de X ,
Glosario

Distribucin normal bivariada


Coeficiente de alienacin
Coeficiente de correlacin
Covariancia
Intercepcin
Ecuacin de los mnimos cuadrados
Regresin de Y sobre X
Declive.

E jercicios

1. Los siguientes datos relativos a 29 ciudades de 100 mil o m s habi


tantes de regiones fuera del Sur estn tomados del estudio de R. C.
.Angel sobre la integracin m oral de las ciudades norteamericanas.
El ndice de integracin m oral se ha derivado combinando los ndi
ces de tasas de criminalidad con los de la labor de mejoramiento.
La heterogeneidad se midi en trm inos de los nmeros relativos de
los no blancos y los blancos nacidos en el extranjero contenidos en la
poblacin. Y se calcul asimismo, a ttulo de segunda variable inde
pendiente, un ndice de movilidad, que mide los nmeros relativos
de las personas que se establecen o dejan la ciudad.

Ciudad

Indice de
integracin

Indice de
heterogeneidad

Indice de
movilidad

Rochester
Syracuse
Worcester
Erie
Milwaukee
Bridgeport
Buffalo
Dayton
Reading
Des Moines
Cleveland
Denver
Peora
Wichita
Trenton
Grand Rapids
Toledo
San Diego
Baltimore
South Bend
Akron
Detroit
Tacoma
Flint
Spokane
Seattle
Indianapolis
Columbus
Portland (Ore.)

19.0
17.0
16.4
16.2
15.8
15.3
15.2
14.3
14.2
14.1
14.0
13.9
13.8
13.6
13.0
12.8
12.7
12.5
12.0
11.8
11.3
11.1
10.9
9.8
9.6
9.0
8.8
8.0
7.2

20.6
15.6
22.1
14.0
17.4
27.9
22.3
23.7
10.6
12.7
39.7
13.0
10.7
11.9
32.5
15.7
19.2
15.9
45.8
17.9
20.4
38.3
17.8
19.3
12.3
23.9
29.2
27.4
16.4

15.0
202
13.6
14.8
17.6
17.5
14.7
23.8
19.4
31.9
18.6
34.5
35.1
42.7
15.8
24.2
21.6
49.8
12.1
27.4
22.1
19.5
31.2
32.2
38.9
34.2
23.1
25.0
35.8

Angel, "The Moral Integration of American Cities" ("La in


tegracin moral de las ciudades norteamericanas"), American Journal of
Sociology, vol. 57, 2? parte, p. 17, julio de 1951, con la amable autorizacin
del autor y el editor. (Copyright 1951 de 1a Universidad de Chicago).

Fuente: R. C.

a) Trcese un diagrama de dispersin que relacione la integracin


moral con la heterogeneidad.
b) Calclense r, a y b para las mismas variables, y trcese en el dia
gram a de dispersin la lnea de mnimos cuadrados, tomando
la integracin m oral como Y. Respuesta, r = .156; a =13.9;
b = .049.
c) De cunto es la desviacin estndar respecto de la lnea de los
mnimos cuadrados comparada con la desviacin estndar res
pecto de Y?
2. Con objeto de resolver los ejercicios del captulo xix, se necesi
tar obtener las correlaciones entre la integracin moral y la movili
dad, as como entre la heterogeneidad y la movilidad. Calclense las
dos r. Respuesta, r = .456; r = .513.
3. Agrpense los ndices de integracin moral y heterogeneidad en
intervalos y calclense r, a y b sirvindose de las frmulas de datos
agrupados. Comprense los resultados con los datos sin agrupar.
B ibliografa

1. Blalock, H. M.: Causal Inferenees in Nonexperimental Research.


University of North Carolina Press, Chapel Hill, 1964, caps. 2 y 3.
2. Christ, Cari: Econometric Modets and Methods, John Wiley &
Sons, Inc., Nueva York, 1966, Parte III.
3. Croxton, F. E y D. J. Cowden: Applied General Statistics, 3- ed.,
Prentice-Hall, Inc.: Englewood Cliffs, N. J. 1967, caps. 19 y 20.
4. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company Inc., Nueva York, 1952, cap. 23.
5. Hays, W. L.: Statistics, Holt, Rinehart and Winston. Inc., Nueva
York, 1963, cap. 15.
6. Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963, Parte II.
7. McCollough, C., y L. Van A tta: Introduction to Descriptive Statistics and Correlation, McGraw-Hill Book Company, Nueva York,
1965, caps. 5-8.
8. Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reasoning in Sociology, 2? ed., Houghton Mifflin Company, Boston, 1970,
cap. 1 1 .
9. Wallis, W. A., y H. V. Roberts: Statistics: a New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 17.
10. Weinberg, G. H., y J. A. Schum aker: Statistics: An intuitive Appro
ach, Wadsworth Publishing Company, Inc., Belmont, Cal., 1962,
caps. 16-18.

E n el p resen te captulo proseguim os el exam en de la correlacin


y la regresin. Se tra ta r n p rim e ro algunas pru eb as de signifi
cacin, a continuacin de lo cual pasarem os a las relaciones no
lineales, tem a que se exam inar asim ism o brevem ente en el ca
p tu lo xix. A continuacin estudiarem os los efectos d e los erro
res de m edicin en las pendientes y las correlaciones. F inalm en
te, se exam inar el tem a de la correlacin grado-orden.
X V III.l. P rueba de significacin e intervalos de confianza
Prueba de significacin de r y b. Como q uiera que r y los coefi
cientes d e m nim os cuadrados a y b slo describen los datos de
las m u estras, n u e stro inters se c e n tra p o r lo re g u la r en los p a
rm etro s co rresp ondientes d e las poblaciones, q, a y (3. E n p a r
ticu lar, desearam os p ro b a r la hiptesis n ula de que n o hay rela
ci n (lin eal) alguna en la poblacin, o podem os q u e re r o b ten er
intervalos de confianza p a ra q o p a ra los coeficientes de regre
sin. E xam inarem os p rim ero la p ru e b a de la hiptesis n u la en
el sen tid o de que n o se d a relacin en la poblacin. Segn vere
m os, si podem os su p o n er u n a d istribucin n orm al d e Y acerca
d e X y hom oscedasticidad, podem os tam bin servirnos del an
lisis de la v arian cia p a ra verificar la h ip tesis de que q = (5 = 0.
Sirvm onos del hecho de que, to d a ve/, que r v b (y, p o r con
siguiente, tam b in o v (3) tien en los m ism os, n u m eradores, u n a
verificacin de la hiptesis d e que q = (To es asim ism o de la
h iptesis p = 0 y viceversa. E n o tros t rm in o s : si n o se d a aso
ciacin lineal en la poblacin, la pen d ien te de la ecuacin de
regresin ser cero y, p o r tan to , la lnea ser horizontal". ' R ecor
d an d o q ue la ecuacin de regresin re p resen ta el cam in de las
m ed ias de las Y p a ra valores fijos de X , vem os in m ediatam ente
q u e siem pre q u e (3 = 0, las m edias d e las Y h an d e se r las m is
m as p a ra todos los valores de X (vase fig u ra X V III.l). E sto
im plica, p o r su puesto, que la ecuacin d e regresin sea realm ente
d e fo rm a lineal. E n p artic u la r, si dividiram os el e je de las X
en cierto n m ero de categoras, en co n traram o s que las m edias de
las categoras d e la poblacin son exactam ente iguales. As, pues,
p odem os tra d u c ir la hiptesis d e q u e p = q = 0 en el enunciado
de que las m edias de Y sern iguales p a ra cada u n a de las cate
goras de X . Si nos im aginam os u n a poblacin in finita, com o
h ab r que h acerlo p a ra satisfacer el supuesto de norm alidad,
podem os concebir el eje de las X com o dividido en u n nm ero
indefinido de categoras, cad a u n a d e las cuales tenga m edias
idnticas en Y . E n esta form a, n u e stra hiptesis cero se con414

v ierte en ui = u,,z = u3 = . . . . en donde nos servim os del subn


dice doble p a ra recalcar que son las m edias de las Y las q u e nos
in tere sa n y que tenem os u n n m ero indefinidam ente grande de
categ o ras X .
El cu rso del razonam iento a n te rio r sugiere obviam ente u n a
ex tensin d e la p ru e b a de anlisis de variancia p a ra a b a rc a r un

Fig. X V III.l. R epresentacin geom trica del hecho de que la hip


tesis de p = 0 es equivalente a la hiptesis fxx = j,2 = . . . =
n m ero indefin idam ente grande de categoras de la v ariab le de
escala nom inal (a h o ra X ) . R ecordem os los supuestos requeridos
e n el anlisis de variancia. Adems de la h iptesis n u la y del su
p u esto de que los casos se h an m u estread o alea to ria e indepen
d ien tem en te de cada u n a de las categoras, hem os d e suponer
tam b in poblaciones norm ales y variancias iguales den tro d e cada
categora. A condicin, pues, d e que podam os su p o n er tam bin
m u estreo aleatorio, vem os que to d o s esto s supuestos pueden
cu m p lirse si suponem os que la d istrib u ci n co n ju n ta de X y Y
sea n o rm al bivariable. E l lecto r re c o rd a r que este ltim o su
p u esto no s asegura sim ultneam ente u n a ecuacin d e regresin
lineal, n o rm alid ad de las Y p a ra cad a v alor fijo de X e iguales
v ariancias p a ra todos los valores d e e s ta variable. De hecho,
pues, los su p u esto s de m u estreo al az ar y de n o rm alid ad biva
ria b le nos capacitan p a ra servim os del anlisis de variancia con
o b je to de v erificar la hiptesis de que q = p = 0, au n cuando no
se re q u ie re la n o rm alid ad de las X en ta n to las e tengan una
d istrib u ci n ap roxim adam ente norm al.
A n terio rm en te encontram os que e ra necesario o b ten er las su
m as to tales de cuadrados y la de e n tre clases y re sta rlas, con
o b jeto de o b ten er la su m a de cuadrados d en tro . Sin em bargo,
al v erificar la hiptesis d e que q = 0, el proceso se sim plifica con

siderablem ente. Ya vimos, en efecto, que la proporcin de k.


sum a de cu ad rados to tal de la J LXPHcada..nQr. X nos es dada por
r^T^Y en fo rm a anloga, la p ro p o rcin que de ia m o s'm explicada
o r X ser 1 r 2. Como q u iera que la sum a to tal de cuadrados
puede sim bolizarse con 2 y2, las sum as de cuadrados explicada e
inexplicada se convierten en r22 y2 y (1 r 2)2 y2 respectivam ente.
Los grados de lib ertad asociados a la sum a to tal de cuadrados
son, p o r supuesto, N 1. Al calcular la sum a inexplicada de cua-

Cuadro

X V III. 1. Prueba de anlisis de variancia de la hiptesis


o= 0
Suma de
cuadrados

Grados de
libertad

2 y2

N -l

Total

r't'S.y2

Explicada
Inexplicada

(1

r2)2 y2

1
N -2

Apreciaciones
de la variancia

fV2y2

1
(1 r2)2 y2
N -2

r2(N - 2)
( 1 - r 2)

drados, to m am os la sum a de las desviaciones al cuadrado res


pecto de la ln ea de m nim os cuadrados, y no resp ecto de la gran
m edia de las Y . Pero, con o b jeto de o b ten er la lnea de los m
nim os cuadrados, hem os de serv im o s de los dos coeficientes a y
b. P o r consiguiente, hem os p erd id o 2 grados de lib ertad , o sea uno
m s de los que perdim os al to m a r las desviaciones resp ecto del
valor p a rtic u la r de Y. Podem os, pues, asociar N 2 grados con
la sum a inexplicada de cu adrados y, restando, vem os que hay que
aso ciar u n grado de lib ertad a la sum a de cuadrados explicada.
Los re su ltad o s pueden resu m irse ah o ra com o en el cuadro
X V III.1. La v en taja de in s e rta r sm bolos en lu g ar de nm eros
en tab la est en que vem os inm ediatam ente que la cantidad 2 y2
desaparece cu an d o form am os la razn de las apreciaciones ex
plicadas a las inexplicadas. E n o tro s trm in o s: la sum a total de
cuadrados se elim ina, y podem os escrib ir u n a frm ula de F en
trm in o s de las proporciones de las sum as de cuadrados expli
cada e inexplicada. De este m odo, la f rm u la de F slo com porta
las cantidades r2 y 1 r 2, ju n to con los prados de lib ertad de
Af 2 y 1. Podem os, p o r consiguiente, servim os de la frm ula:
F I,Jf_ 2 = - 1r
^ r2 (iV - 2)

(X V III.l)

sin ten er q ue o cupam os en co n stru ir u n a ta b la de anlisis de

variancia, com o fue el caso en el captulo an terio r. Como los cua


dros p a ra F slo ad m iten pru eb as a los niveles de .05, .01 y .001,
puede re su lta r preferib le to m a r la raz cu a d rad a positiva de
(X V III.l) y u tiliza r la distribucin t, con N 2 grados de li
b ertad.
Podem os ilu s tra r el em pleo de esta p ru e b a de anlisis de va
riancia p a ra la significancia d e r con los datos del cuadro X V II.l.
Obtuvim os all u n a correlacin d e r = .301 n tre el p o rc en taje
do negros y n u estro ndice de discrim inacin. Al verificar en
relacin con el significado de r hacem os en realid ad la im p o r
tan te p re g u n ta : "Con qu p ro b ab ilid ad ob ten d ram o s u n a r de
.301 o m ayor (e n valor ab so lu to ) si no h u b iera efectivam ente aso
ciacin lineal alguna en la poblacin? Con o bjeto de efectu ar
In pru eb a F, calculam os sim plem ente r 2 y 1 r2 y nos servim os
de la ecuacin X V III.l. As, pues, ya que r se b asab a en 13 casos,
leem os:
(.301)2
.0906
F, = ----------- ------ 11 = ----------1 1 = 1.10

[ 1 - (.301)2]
.9094
R efirindonos a la tab la F, vem os que p a ra 1 y 11 grados de li
b erta d neoesitam os u n a F de 4.84 o m ayor p a ra d e sc a rta r al nivel
de .05 suponiendo que la direccin no hubiese sido establecida con
anticipacin. D ecidim os, p o r consiguiente, no d e sc a rta r la hip
le-ais nula de que q = 0. A parentem ente podram os h a b e r obteni
do una r de .301 o m ayor, sim plem ente p o r casualidad, a u n si no
se d iera asociacin alguna en la poblacin.
Una vez m s, es n ecesario in sistir en la diferencia en tre una
prueba de significacin y u n a m edida del grado de relacin. Si
hubiram os obtenido u n a r de .301 con u n tam ao de m u estra
de 50, hab ram os tenido :
.0906
^

1 m 48 = 4-78

0 sea un valor significativo al nivel de .05. En am bos casos hem os


explicado ap ro x im adam ente el 9 p o r ciento de la variacin total
de lit m uestra, p e ro en el ltim o de ellos tenem os m s confian/, iiiinque ligeram ente, de que se d a u n a relacin en la poblacin.
Hirvalos de confianza. S iem pre que p u ed a p resu p o n erse o
ap reciarse ap ro xim adam ente u n a poblacin n orm al bivariable,
m posible c o n s tru ir intervalos de confianza p a ra o y (j, as com o
In lnea de regresin. El e rro r est n d a r de r nos est dado p o r la
1 Virulilla.

P o r desgracia, la distribucin de m u estreo de r no ser p o r lo


reg u lar sim trica, excepto en el caso especial en que o = 0. En
efecto, la d istribucin de seleccin se distorsiona m s y m s a
m edida que el valor absoluto de q se aproxim a a la unidad. Ade
m s, observam os que, p a ra p o d er servim os de la f rm u la an terio r
del e rro r e st n d a r de r, necesitaram os conocer o p o d er ap reciar
el valor d e q. E stas dos com plicaciones h acen que sea difcil
o b ten er in tervalos de confianza p a ra 9 en fo rm a abreviada.
Al calcular u n intervalo de confianza resp ecto de r, converti
m os p rim ero r en u n a nueva estad stica z que tiene u n a d istribu
cin de m uestreo aproxim adam ente norm al. Ponem os luego un
in terv alo de confianza alred ed o r d e z en la fo rm a habitual. Final
m ente, u n a vez anotados los lm ites su p erio r e in ferio r de con
fianza de z, reconvertim os estos valores p articu lares d e z en r,
con lo que obtenem os los lm ites de confianza de esta ltim a.
T ransform am os r en z p o r m edio de la f rm u la:
1 -j-

z = 1.151 log
1 r
en donde z p u ed e to m ar valores d e cero al infinito. Conviene
llam ar la atencin del lecto r acerca del hecho de que el valor z
calculado m ed ian te la f rm u la a n te rio r n o tiene en absoluto
conexin alguna con los valores d e Z que utilizam os con la curva
norm al estn d ar. Los valores de z pueden o b ten erse directam en
te del cu ad ro K , Apndice 2, en lu g ar de servirse de los logarit
mos. Los dos p rim ero s dgitos d e r se buscan de a rrib a abajo en
el m argen izquierdo, en ta n to que el terc ero se localiza horizon
talm en te en la p a rte superior. Los valores de z correspondientes
estn dados e n el cuerpo del cuadro. As, p o r ejem plo, u n a z de
0.3228 co rresp onde a u n a r de .312; u n a z de 1.3892 corresponde
a una r de .883. Al servirnos del cu ad ro K, prescindim os del sig
no de r, asignando a z el signo correspondiente u n a vez hallado
su valor num rico. O bsrvese que los valores de z slo son lige
ram en te m ayores que r cuando \r\ < .40, p ero a m edida que r
crece, z em pieza a to m ar valores m ayores que la unidad.
Podem os servim os ah o ra de la transform acin de z e n u n p ro
blem a de in terv alo d e confianza. La distribucin de seleccin
de z es ap roxim ada a la norm al, au n p a ra N pequeas y desvia
ciones m oderadas de la n orm alidad bivariada. Su e rro r estn d ar
nos est d ad o p o r :
1
(X V IlI.2)
= -----------V ^ -3
Y esto n o slo p erm ite servirse de la tab la norm al, sino que he-

iiion elim inado adem s la necesidad d e h a b e r estim ado q, y a que


i<| e rro r estn d a r d e z slo depende d e N . Tom ando com o ejem
plo num rico la correlacin d e .301 e n tre el p o rc en taje de negros
y In ilIncrim inacin, hallam o s que el v alo r co rresp o n d ien te d e z
t*s ilc* 0.3106. Como q u ie ra que no h a b a m s que 13 casos, te
nemos :
a0 = ----- i----- = = 0.3162
y i3 - 3 v io
Ht pngase que deseam os o b ten er p a r a @ u n intervalo de con
flu ia de l 95 p o r ciento. P rim ero calculam os dicho in terv alo en
trm inos de valores de z. As, pues, to m aram o s:
z 1.96a* = 0.3106 1.96(0.3162)
= 0.3106 0.6198
l'o r consiguiente, el in terv alo de confianza alre d ed o r de z va de
,3092 a + .9304. O bsrvese que p a ra o b ten er el lm ite in ferio r
tuvim os que re s ta r u n n m ero m ayor, num ricam ente, q u e 0.3106.
Kslo da u n re su ltad o negativo, lo cual significa a su vez
que el
vitlor de r co rresp o n d ien te a dicho lm ite in ferio r h a de to m arse
tam bin com o negativo. B uscando los valores d e r corresponillente.s a los dos lm ites de confianza d e z, obtenem os los valo
ren ile .300 y .731 p a r a los lm ites in fe rio r y su p erio r resp ec
tivam ente.
O bsrvese que el intervalo n o es to talm e n te sim trico en re la
cin con el v alo r de .301 obten id o p a ra r. E n este caso, el lm ite
su p erio r est algo m s cerca de r que el lm ite inferior. Si hubit'rnm os h allad o u n a r de .80, el in terv alo re su lta n te h a b ra esIttilo todava m s d isto rsio n ad o en la m ism a direccin. Puede
co m prenderse in tu itiv am en te que esto sea as si tenem os p re
sente t|uo, siem pre q u e em pezam os a acerc am o s al lm ite su
p erio r de la unidad, ponem os tam b in u n a restricci n al lm ite
su p erio r del in tervalo d e confianza. E n e sta form a, re su lta ra
Im posible, p o r ejem plo, o b ten er u n in terv alo de confianza de
,H(> i .16. Si o cu rre que r sea negativa, la direccin de la d isto r
sin ser opuesta, p o r supuesto, a la a n terio r. El in terv alo sola
m ente llegar a ser sim trico en relacin con r cuando sta sea
I|ri i11 a cero.
Piulemos in te rp re ta r este in terv alo de confianza en la fo rm a
luihlitial. N u estro p ro ced im ien to es tal q u e a la larg a podem os
esp ern r o b ten er intervalos que incluyan el valor (fijo ) de o el
OS p o r ciento de las veces. P odem os tam b in u tilizar tales in te r
valos de confianza com o verificaciones im plcitas de hiptesis.
I'n el problem a an terio r, en efecto, y a hem os observado que el

lm ite in ferio r del intervalo es negativo. Y com o q uiera que cero


e st incluido en el intervalo, sabem os inm ediatam ente que no
descartaram os la hiptesis n u la de que q = 0. Y si quisiram os
v erificar algn o tro valor supuesto de q, procederam os igual.
Si p o r ejem plo hubiram os anticipado que q = .80, habram os
d escartad o al nivel de .05, y a que este valor cae fu e ra del lm ite
su p erio r de .731.
S era conveniente tam bin calcular intervalos de confianza a
p ro p sito de o tras m edidas de grados de relacin. P or desgracia,
se conoce dem asiado poco acerca de las distribuciones de m ues
treo de la m ayora de las m edidas de asociacin en m ateria de
problem as de contingencia p a ra p o d er c o n stru ir intervalos de con
fianza en relacin con ellas. H aggard [11] sugiere u n m todo
p a ra co m p u tar intervalos de confianza acerca de r o correlacin
interclase, y G oodm an y K ruskal [10] discuten la distribucin
de m u estras de varias m edidas nom inales y ordinales.
O casionalm ente se q uiere p o d e r p o n er u n intervalo de con
fianza con referencia a b, o se puede ten er necesidad de encon
tr a r u n cin tu r n a cuyo in te rio r pu ed a esperarse que la verdade
ra ecuacin de regresin se encuentre. E n am bos casos podem os
servirnos d e la distribucin t en fo rm a relativam ente directa. La
apreciacin del e rro r e stn d a r de b est d ad a p o r :
A

(X V III.3)

<*!>=

en donde se re co rd a r q ue:

Con fines de clculo puede d em o strarse algebraicam ente q u e :

/ S (Y t-Y ^-b

<1

'

2 (X* - X ) { Y i - Y )

i=l

(X V III.4)

N -2

Podem os servirnos ahora de los clculos num ricos obtenidos


ya p ara los datos de discrim inacin del cu ad ro X V II.l, con lo
que o b te n e m o s:
560 0 2 4 - 1 9 .9 3 1 ( 2 553.77)
= V 46 284 = 215.1

, 6= _ j m

_ = _2m

V128.131

=1900

11.32

Si deseam os calcular el intervalo de confianza del 99 p o r ciento,


i tu tirrim os d irectam ente a la tab la t y nos servim os de N 2
ii 11 grudos de lib ertad. O btenem os en esta fo rm a:
b (3.106)(19.00) = 19.931 59.014
* Al ap reciar la ecuacin de regresin, vem os que n u e stra me|o r p red aci n singular (d e p u n to ) es la lnea de los m nim os
eimdrudos. Como q u iera que la cantidad que estam os aprecian
do nliora ya no es u n valor singular, sino u n a lnea entera, nuesInv apreciacin del intervalo ya tam poco ser u n intervalo, sino
miti hunda a am bos lados de la lnea de m nim os cuadrados. De
hurnns a prim eras po d ra esperarse que dicha ban d a consistiera
un dos lneas paralelas a la de los m nim os cuadrados. S in emlinrgo, sem ejante b an d a im plicara que conocem os la verdadera
pendiente y que la nica fuente de e rro r est en la apreciacin
de a. I-Ieinos de re co rd a r que se aprecian ah o ra dos cantidades
(u v |l), y, p o r lo tan to , tenem os dos fuentes de erro r. El lector
lu i le p ercatarse p o r s m ism o de que to d a vez que la pendiente
puede habese apreciado asim ism o incorrectam ente, cu an to m s
nos vamos alejando del p u n to (X , Y ), tan to m ayor re su lta la im
precisin. La ban d a de confianza ad o p ta la form a general de la
fljpiru XVIII.2.
* Para traz ar esta b an d a de confianza, ser necesario calcular
el e rro r estn d a r de Y v p a ra varios valores de X . La apreciacin
del e rro r estn d a r nos est d ad a p o r la f rm u la:

I 1 ----------------(X-X)*

,(X
Y,,VnIII.5)
v

2 (Xi-X)*
i= i
,en donde el valor p a rtic u la r de X a u tilizar en ( X X ) 2 puede
ponerse en cu alq u ier lugar del eje de las X. Obsrvese, de paso,
que eunnto m s lejos X queda de X, ta n to m ayor es el valor num iieo del e rro r estn d ar. Supngase que deseam os o b ten er el
rm > r e st n d a r estim ado cuando X = 10.0. Como q uiera que
V 4.837, obtenem os:
o - 215.1 J j L +
"
113

4-837.)2 = 215.1 V-28496 = 114.86


128.131
V

*
S irvindonos nuevam ente d e la tab la t y d e u n intervalo del
99 p o r ciento resp ecto de Y p calculado para este valor f i j o de X,
o b te n d ra m o s:
Y p (3.106)( 114.86) = Y P 356.8
U na vez que hayam os obten id o o tro s in terv alo s sem ejantes de
Y p p a ra o tro s valores p artic u la res de X, podem os tra z a r la gr-

Fig. X V III.2. B anda de confianza con respecto de la recta de


m n im o s cuadrados.
fca de la b a n d a en tera. In til es decir que el procedim iento en
cuestin se h a ra m uy fastid io so si se d eseara o b ten er la banda
e n tera y n o se c o n ta ra con calculadoras.
Probando la diferencia entre dos correlaciones. Como se indic
antes, tien e h ab itu alm en te m s sen tid o terico el c o m p arar dos
o m s declives q u e el c o m p arar co rrelacio n es; ta l com paracin
e n tre declives o cu p ar n u e stra atencin en el cap tu lo xx sobre
anlisis d e covariancia. S in em bargo, o cu rre con frecuencia que
se h an o b ten id o v arias correlaciones y se desea estab lecer que u n a
de ellas es significativam ente m s a lta que las dem s. M ientras
nos co n ten tam os en d esc rib ir relaciones d en tro d e n u e s tra m ues
tr a p artic u la r, podem os c o m p a ra r sim plem ente las m agnitudes
relativas d e las dos r y re g is tra r la m agnitud d e la diferencia.
Sin em bargo, si deseam os generalizar a u n a poblacin m ayor,
p lan tase la cuestin d e si la diferencia o b ten id a p u ed a o no de
b erse acaso al azar. Supngase, p o r ejem plo, q u e se h a n o bte

nido u n a r de .50 y o tra de .30. Puede desearse verificar la hip


tesis n u la de que las dos correlaciones de las poblaciones son
idnticas, esto es, pt = q2.
Cabe im aginar dos situaciones d istin tas en las que podran
hacerse verificaciones de esta clase. P rim ero, pueden acaso te
nerse dos m uestras independientes y desearse co m p arar los gra
dos de relacin e n tre X y Y y d en tro de cada u n a de las m u estras.
As, p o r ejem plo, la relacin e n tre el p o rc en taje de negros y la
discrim inacin puede acaso no ser la m ism a en los estados del
S ur que en los del N orte. P odra en este caso establecerse la hip
tesis de investigacin de que Qxy es m s a lta en el S u r que e n el
Norte, verificando la hiptesis nula de que las dos correlaciones
son iguales. Un segundo tipo de situacin, fcil de confundir con
el prim ero, puede p re sen tarse cuando se dispone de una sota
m uestra. P uede h ab e r en este caso u n a sola variable dependien
te (p o r ejem plo, la discrim inacin) y dos variables independientes
(p o r ejem plo, el p o rc en taje de negros y el p o rcen taje de m ano
de o b ra em pleada en la in d u stria). P uede acaso desearse esta
blecer que u n a de estas variables independientes est m s direc
tam ente relacionada con la variable dependiente que la otra. Si
designam os la segunda variable independiente com o Z, podem os
Icncr in ters e n verificar la hiptesis n u la de que qxv q,v. Vea
mos p rim eram en te cm o trata m o s el p rim e r tipo de situacin,
p a ra p a sa r luego a la p ru e b a de u n a sola m uestra.
Si las dos correlaciones se basan en m u estras independientes,
podernos co n v ertir cad a u n a de las r e n z y servirnos de la f rm u
la del e rro r est n d a r de la diferencia e n tre las z, que es anloga
a la del e rro r est n d a r d e u n a diferencia e n tre m edias y se p r
senla com o sigue:
(X V III.6)
Podem os a continuacin ya sea estab lecer u n intervalo de con
fianza relativo a (zx z2) o b u sca r el valor d e :
Z=

( Z i Zb ) - 0

en la tab la norm al. El cero figura en la f rm u la a n terio r debido


ni hecho de que n u e stra hiptesis n u la ad o p ta la form a oj = p2.
S upngase que p a ra 17 ciudades del S u r la correlacin e n tre el
p o rc en taje de negros y la discrim inacin re su lta ser de .567, fre n
te1 a la d e .301 de las ciudades del N orte. As, p u es:
= .301
Z t= 0.3106

ro = .567
za = 0.6431

= V l/ i o + V i 4 =

+ -0714 = .414

P o r lo ta n to :
.3106 - .6431

-.3 3 2 5

Z = ------------------ = -------------= -.8 0 3


.414

.414

y vem os que e sta d iferencia de las r no es significativa al nivel


de .05. As, pues, pese a que la correlacin sea m ayor p o r lo que
se refiere a las ciudades del S ur, esta diferencia p u ed e deberse
sim plem ente al azar.
E n el segundo tipo de situacin m encionado, no disponem os
de dos m u estras independientes y n o podem os, p o r consiguiente,
serv im o s de la m ism a f rm u la del e rro r e st n d a r de zx z2- Se
dispone de u n m to d o p a ra tr a ta r este tipo de problem a, a condi
cin que slo tengam os in ter s en generalizar a subpoblaciones
de to d as las m u estras posibles p a ra los que X y Z (las dos varia
bles in d ep en d ien tes) tienen las m ism as com binaciones d e valo
res que las de la m u estra p a rtic u la r que hem os obtenido. E n la
m ayora de los casos prcticos puede p rescin d irse im punem ente
de esta restricci n , a m enos que ex ista alguna razn p a ra supo
n e r que el m argen de variacin es m ucho m ayor en la poblacin
q u e en la m u e stra estudiada, en cuyo caso deberem os de todos
m odos g u ard arn o s de generalizar en u n sen tid o o e n otro.
Si verificam os la hiptesis n u la de que qxv =
form am os
t de la m an era siguiente:
t - (r

* \ * x y

_ r }

(W -3 )(l + r )

r zy f '

2(1

1xy

r X !?

2 r x y r x z V zy )

(X V III.7)
Podem os b u sc a r luego el valor de t en el cuadro, sirvindonos
de N 3 grados de lib ertad . E n n u e stro ejem plo num rico, su
pngase que la correlacin e n tre X y Z p a ra las ciudades del
N orte re s u lta se r de .172 y que la correlacin en tre Y y Z es de
.749. T endram os en esta fo rm a :
10(1 + .172)
(.301 = .749 ) J ______
y 2[1
711 - .3012 .1722 ,7492 + 2( .301)(.172)(.749) 3
= -1.72.
Como tenem os 10 grados d e lib ertad , vem os que no podem os
d esc artar la hiptesis n ula d e que n o hay d iferencia e n tre las

correlaciones de las poblaciones de cada u n a de las variables in


dependientes con discrim inacin.
XVIII.2. Correlacin no lineal y regresin
H asta aqu hem os venido suponiendo que la ecuacin d e regre
sin e ra de fo rm a lineal. E n m uchos problem as sociolgicos
prcticos, el m odelo lineal, aunque ta l vez n o exacto, d a con todo
u n a aproxim acin b a sta n te cercana a la form a v erdadera de la
ecuacin, de m odo que n o necesitam os ocuparnos de m odelos
altern ativ o s m s com plicados. E sto es as, en p artic u la r, en re la
cin con los estudios d e exploracin en los que el grado de adap
tacin no es excesivam ente exacto. H ay casos, sin em bargo, en
los que la inspeccin del diagram a de dispersin p o d r indicar
claram en te u n a relacin no lineal, o en los que n u e stra teora
h a an ticip ad o u n a relacin de esta clase. S iem pre que se d u n a
relacin no lineal sem ejante, el coeficiente m om ento-producto
d a r obviam ente u n a subestim acin del grado verdadero de re la
cin, ya que este coeficiente slo m ide l grado de adaptacin
de la m ejo r re c ta singular. Y a vim os que con u n a cu rv a en
fo rm a de U es posible te n e r u n a fu e rte relacin con u n a r de ap ro
xim adam ente cero, y se advirti al lecto r que era, p o r lo tanto,
in co rrecto sacar la conclusin de que dos variables son indepen
dientes sim plem ente p o rq u e r sea cero. Si el diagram a de dis
persin indica u n a d istrib u ci n de p u n to s m s o m enos al azar,
podem os co n clu ir que n o existe relacin, p ero hem os de e s ta r al
acecho al pro p io tiem po de las relaciones no lineales. sta es,
p o r supuesto, u n a razn m s en favor de que el lecto r debe acos
tu m b ra rse a tra z a r siem pre diagram as de dispersin an tes de
seguir ad elan te con el anlisis.
E l tem a general de la correlacin y la regresin no lineales es
dem asiado com plejo p a ra p o d e r tra ta rlo adecuadam ente en este
texto. La razn de la com plejidad del anlisis n o lineal est en
que, u n a vez que progresem os m s all de la ecuacin de la recta,
hay n u m ero so s tipos de ecuaciones que re p re se n ta n las d istin tas
fo rm as posibles susceptibles de se r ad o p tad as p o r las relaciones
no lineales. Slo las m s sim ples d e estas ecuaciones pueden
tra ta rs e aqu. A fortunadam ente, estas ecuaciones relativam ente
sencillas suelen se r p o r lo re g u lar adecuadas p a ra la solucin de
las clases de relaciones que se p lan tean en la investigacin socio
lgica. Un tipo general de funcin n o lineal puede re p resen ta rse
en trm in o s de polinom ios d e grado ensim o, que tienen ecua
ciones de la fo rm a :
Y = a + b X + cX* + dX + . . . + k X n
El exam en de las relaciones n o lineales d e este tipo general lo

d ejarem os h a s ta el prxim o captulo, o sea h a sta el m om ento de


em p ren d er el estudio de los problem as de regresin m ltiple.
E n efecto, u n a vez com prendidos estos problem as de regresin,
dispondrem os de un m todo relativam ente sim ple p a ra el tra ta
m iento de aquellos tipos de relaciones no lineales que se dejan
d escrib ir ad ecuadam ente p o r m edio d e polinom ios.
Algn o tro tipo d e relaciones no lineales relativam ente sencillo
pued e tra ta rs e a m enudo' m ed ian te u n a transform acin de varia
bles que p e rm ite el em pleo del m odelo lineal fam iliar. E ste p ro
ceso pu ed e ilu stra rse con el caso de las funciones logartm icas
rep resen tad as p o r ecuaciones del tip o :
Y = a + b log X
que p re se n ta n la fo rm a general de la figura X V III.3. E n una
ecuacin de este tipo, en efecto, Y es en realid ad u n a funcin
lineal no de la X m ism a, sino de su logaritm o. E sto sugiere que
si podem os tra n sfo rm a r cada u n a de las m arcas d e X en una
nueva variab le Z = log X , podem os esc rib ir Y com o funcin lineal
d e Z. As, p o r ejem plo:
Y a + b log X = a + bZ
Podem os ca lc u lar ah o ra la correlacin e n tre Y y Z (o sea de y
y de log X ) en la fo rm a habitual. Si dam os a conocer la d istrib u
cin de las m arcas a los ejes d e las Y y las Z, el re su lta d o h ab r
d e ser ap roxim adam ente de fo rm a lineal. Si querem os, podem os
co m p arar el grado de relacin e n tre Y y Z con el q u e existe en
tre Y y X . Si rvz es significativam ente m ayor que rX!1, entonces
el m odelo logartm ico da u n a m e jo r aproxim acin que el m odelo
lineal e n tre X y Y .
Los m odelos logartm icos del tip o a n te rio r se p re se n ta n a m e
n u d o en casos en que la variable independiente X asum e u n gran
m argen de valores, p ero en los que, u n a vez alcanzado cierto
valor, los au m entos u lterio res p ro d u cen cada vez m enos efecto
sobre la v ariab le dependiente. La m agnitud de u n a ciudad es una
variable que p re se n ta con frecuencia esta clase de efecto. Es
posible, p o r tan to , que las ciudades d e m s d e 500 m il h ab itan tes
p resen ten to d as ellas m arcas d e Y m uy parecidas. Pero, si se
incluye en la m u e stra a la ciudad de Nueva York, p o r ejem plo,
el v alo r de X p a ra esta ciudad ser tan su p erio r al de las dem s
ciudades, que el efecto n eto co n sistir en in clin ar la relacin en
fo rm a m uy p arecid a a la d e la fig u ra XVIII.3. E n tal caso podr
re su lta r p referib le relacionar Y con log X , ya que el hecho de
to m ar el lo g aritm o de la m ag n itu d u rb an a p ro d u c ir el efecto
de a g ru p ar las m arcas extrem adam ente grandes y de dism inuir
el "efecto de c u rv a tu ra de estas ciudades m ayores.

E n c ierto n m ero de casos el investigador n o te n d r ta l vez


in ter s e n h allar la fo rm a exacta d e la ecuacin de prediccin
q u e m e jo r se ad a p te a su s datos. Acaso slo tra te , p o r ejem plo,
de d em o strar que la relacin es de fo rm a n o lineal, o de o b ten er
u n a m ed id a p a ra el grad o de relacin, independientem ente de su
form a. Cuando p u e d a efectu arse u n a tran sfo rm aci n sencilla

Fig. X V III.3. E cuacin logartm ica de m n im o s cuadrados de la


fo rm a Y = a + b log X.
com o la logartm ica, ser indudablem ente ventajoso servirse de
dicho procedim iento. P ero a u n as, el investigador q u e rr acaso
v erificar si la m ed id a q u e h a o b tenido co nstituye o n o u n a buena
aproxim acin del re su ltad o que h a b ra hallado si se h u b iera
en co n trad o la m e jo r adaptacin posible. Con o b jeto d e tr a ta r
los p ro b lem as de e s ta ndole, podem os servirnos de los principios
bsicos del anlisis d e variancia y de algunas de las m edidas de
los grados de asociacin desarrolladas en el captulo sobre an
lisis de variancia.
El lecto r re c o rd a r que p a ra o b ten er la sum a de cu adrados
" d e n tro en el anlisis d e variancia de u n a fo rm a tom am os la
su m a de las desviaciones al cu ad rad o de cad a u n a de las m edias
de las categoras. Supongam os ah o ra q u e las X se h an subdivid ido en c ierto n m ero de categoras y que la sum a de los cua
d rad o s en Y se analizaban e n la fo rm a habitual. Sabem os que
p a ra to d a categora d ad a de X la su m a d e los cuadrados alrede
d o r de la m edia d e la categora p ro d u c ir u n re su ltad o num rico
in ferio r al de la su m a de los cu ad rad o s alred ed o r de cualquier
o tro n m ero. Sguese, en p a rtic u la r, que la sum a in te rio r de
cu ad rad o s ser m en o r q u e la su m a d e las desviaciones cu a d ra
d as resp ecto d e aquellos p u n to s d e la lnea de m nim os cim

d rados que caen en los p u n to s m edios de los intervalos (vase


la figura X V III.4).
Si o cu rre que la ecuacin sea de fo rm a lineal, podem os esp erar
que Y ,} caer aproxim adam ente en la lnea de los m nim os cua
drados, de m odo que cam biar poco que las desviaciones se to
m en respecto de las m edias de las categoras o resp ecto de la l-

Fig. XVIII.4. C om paracin de las desviaciones respecto de la rec


ta de m n im o s cuadrados con las desviaciones respecto de las
m edias d e las categoras.
n ea en cuestin. P or o tra p arte , si la ecuacin es realm en te no
lineal, entonces, p a ra algunas, al m enos, de las categoras, la sum a
de los cu ad rad o s referidos a la m edia de la categora ser consi
derab lem en te m s pequea que la d e los cuadrados referidos a
la lnea de los m nim os cuadrados. E n otros t rm in o s : la sum a
in terio r o inexplicada d e cuadrados ser m nim a em pleando las
m edias de las categoras y, p o r consiguiente, la sum a de cu ad ra
dos en tre categoras, o explicada, s e r m xim a. As, pues, la
proporcin de variacin explicada p o r las categoras, m edida p o r
la razn de correlacin JE2, ser m ayor que la p roporcin expli
cada p o r la ln ea de m nim os cuadrados, a m enos que la verda
d era relacin sea efectivam ente lineal.
Podem os sac ar u tilid ad de este hecho p ractican d o u n a p ru eb a
de no linealidad. Si form am os la can tid ad E 2 r2, obtenem os la
proporcin d e v ariacin explicada en el su p u esto de u n a form a
cualquiera de relacin n o explicada p o r u n a relacin lineal. Es
obvio que p a ra o b ten er E 2 perm itim os que la relacin adopte

cualquier fo rm a posible, ya que slo hem os tom ado desviaciones


respecto de las m edias de las categoras, p rescindiendo de dnde
estas m edias acontezcan encontrarse. N os estam os p reg u n tan d o
fun d am en talm en te en cu n to podem os m e jo ra r n u e stra posi
bilidad de p red ecir valores de Y no restringindonos al m odelo
lineal. Si la m ejo ra es m ayor de lo q u e esperaram os del azar

Cuadro

XV III.2. Prueba de anlisis de variancia para el caso de


no linealidad
Grados Estimacio
Sumas
nes de la
de
de
cuadrados libertad variancia

Total
Explicada por el mo
delo lineal
Adicional, explicada
por el modelo no
lineal
Inexplicada

2y2

N -l

1
( 2 _ r2)2y2
(1 - 2)2y2

( 2r2)Sy2
k -2
N -k

k -2

(1 JB2)2y2

(E 2- r 2)(W -fc)
(1 E 2) ( k 2)

N -k

en el supuesto de que la ecuacin de regresin sea efectivam ente


lineal, entonces podem os concluir que la relacin es no lineal.
La p ru eb a de anlisis de variancia que em plearem os p a ra veri
ficar la no linealidad asum e u n a fo rm a con la que no tard a rem o s
en fam iliarizarnos. H allam os p rim ero la ca n tid a d d e variacin
que puede explicarse sirvindonos del m odelo lineal. A lgebraica
m ente, e s ta can tid ad p u ed e re p re se n ta rse com o r 22 y 2. De la va
riacin d ejad a sin explicar p o r el m odelo lineal, ( 1 r 2)S y2,
vemos a continuacin qu tan to p u ed a explicarse p o r m edio del
m odelo general. Como q u iera que 22 y 2 nos da la sum a de cua
d rados que puede explicarse p o r Y cuando no pesa sobre la fo r
m a de la relacin restricci n alguna, la can tid ad ( 2 r2)2 y2
re p resen ta el in crem ento explicado debido a la no linealidad. Su
poniendo que n o haya erro res de redondeo, e s ta ca n tid ad h a b r
de ser siem pre p ositiva.1 Y como q u iera que la ca n tid ad (1
?2)2 y2 nos da la sum a de cu adrados que n o re su lta explicada ni
siquiera p o r el m odelo m e jo r adaptado, podem os e fectu ar una
p ru eb a F tal com o se indica en el cuadro X V III.2. Como de cos
tu m b re, el den om inador de F es el trm in o d e e rro r y, com o

i Siempre que N sea pequea y slo pueda, por tanto, usarse un corto
nmero de categoras, resulta poco realista el supuesto de que las puntua
ciones de X estn agrupadas en los puntos medios de cada intervalo. Esto
puede llevar a agrupar los errores, dando un valor a & menor que r2.

q u iera que estam os verificando en relacin con desviaciones res


p ecto de la linealidad, tom am os com o n u m era d o r u n a aprecia
cin de la v arian cia basada e n ( 2 r2)2 y2, o sea la can tid ad
explicada p o r el m odelo general m ejo r, que no h a sido explicada
todava p o r el m odelo lineal. Los grados de lib e rta d asociados
al n u m era d o r p u ed en o b ten erse p o r sustraccin.
Una vez m s observam os que la su m a to tal de cu ad rad o s se
elim ina, dejn d o nos con la siguiente f rm u la p a ra F :
( 2 r2) ( N k)

(XVIIL8)
en donde k re p re se n ta el n m ero d e categoras en las que se ha
descom puesto X.
Ilu strem o s la p ru e b a de n o linealidad con los d ato s que se
ag ru p aro n en el cu ad ro XVII.2. Segn p u ed e com probarse f
cilm ente, las sum as to tal y e n tre categoras d e cu ad rad o s en Y
son com o s ig u e :
SC to ta l = 101 115.38 - 92 132.04 = 8 983.34
SC en tre categoras = 94 792.59 92 132.04 = 2 660.55
en donde hem os tra ta d o todas las m areas de Y com o si se encon
tra ra n en los p u n to s m edios d e sus respectivos intervalos y en
donde nos hem os servido de los procedim ientos p a ra los datos
agrupados (vase sec. VI.4). P o r lo ta n to :
SC e n tre cu ad rad o s
2 660.55
................ = ________ 2962
2 .............
SC to tal
8 983.34
Toda vez que an terio rm en te encontram os u n a r de .460 supo
niendo u n a relacin lineal, o b te n e m o s:
_ .2 9 6 2 - ( - .4 6 0 ) 2 150 - 9
7,141

1 .2962

9-2

.0846 141 _ 11.929

~ .7038

4.927

y vem os que al nivel de .05 podem os d e sc a rta r la hiptesis nula


de u n a relacin lineal e n tre el p o rc e n ta je de p erso n as clasifica
d as com o tra b a ja d o ra s de g ran jas ru rales y el p o rc e n ta je d e m u
jere s que tra b a ja n en la in d u stria.
Si u n a relacin re su lta se r n o lineal e n cuanto a la form a, es
m uy posible que r no sea significativa estadsticam ente, en tan to
q ue E s lo ser. P or supuesto, la significacin de E puede com
p ro b a rse p o r m edio de u n anlisis directo* de variancia, tom ando
la razn de las estim aciones explicada e inexplicada de la va
riancia. Son, pues, as tres las p ru e b as que pueden efectuarse,

a sab e r: 1) la de la significacin de r; 2) la de la significacin


de las desviaciones resp ecto de la linealidad (E 2 r2), y 3) la de
la significacin de E .
Si se en cu en tra u n a relacin no lineal y se desea u n a estim a
cin del grado de relacin en la poblacin, es preferible servirse
de la razn de correlacin insesgada , exam inada en el captu
lo xvi y d ad a p o r la f rm u la:
t2

y
! ------ .

ya que el valor num rico de E es funcin del n m ero d e catego


ras em pleadas y pro b ab lem en te so b restim ar ligeram ente p o r
lo regular la relacin e n la poblacin. Si y a se h a calculado E , el
valor de e pu ede tam b in calcularse a p a r tir de la f rm u la:
E H N -l)-(k-)
E2 = 1
1
-------------------------------------i (X V III.9)
N k
XVI

11.3. E fectos de los errores de. m edicin

.SI hay m ediciones d e e rro r en X o Y , bien sean al azar o sisteinri ticas, puede esp erarse u n a alteracin en n u estro s resultados.
l'.Mu se aplica p o r supuesto a todas las p ru e b as y m ediciones que
lin n o s exam inado h a s ta ahora, incluso los procedim ientos no
pm am tricos. E n realidad, u n o de los tipos de erro res d e medit I i'iii m s com unes en sociologa, ciencia p o ltica y la m ayora de
Ihn restantes ciencias sociales, p arece ra se r consecuencia del uso
i|e dicotom as m s bien b u rd as, tales com o alto y bajo o presante
y ausente. No se com prenden bien las consecuencias que se deri
van d e los errores d e m edicin, pero- la m ayor p a rte del tra b a jo
iIntem tico so bre el tem a se h a llevado a cabo en las escalas de
intervalo y en los problem as que im plican anlisis de correlacin
y regresin. El tem a es p o r desgracia dem asiado tcnico p a ra ser
U n t a d o cu el p re sen te texto, p ero re su lta r conveniente p ro n u n
ciar |m r lo m enos algunas p alab ras precau to rias.
SI hay una m edicin de e rro r sistem tica, o n o aleatoria, cual
quier tipo de distorsin re su lta posible, siendo as necesario expilcar cules son las fuentes del e rro r no aleatorio y la fo rm a en
|i te actan. Si se co m p aran p o r ejem plo las m edias de tres m uesItici, v el e rro r de m edicin es tal que coloque las m edias de las
tmienlras segunda y te rc e ra cercanas a la co rresp o n d ien te a la
pilm ei u, no so lograr significacin estad stica cuando, con base
en m ediciones m s exactas, p u ed a rechazarse fcilm ente la hipIfttiM nula. Pero si los e rro res de m edicin son estrictam en te al
ii/ h i , resu ltar posible te n e r u n a m ayor clarid ad acerca de los

efectos d e tales erro res. E n general, las m edidas d e asociacin


re su ltarn aten u ad as p o r los e rro res aleatorios de m edicin en
cu alq u ier variable. P or ejem plo, en el anlisis de las situaciones
d e variancia, las m ediciones aleato rias de e rro r en la escala de
intervalos a u m en ta rn las variaciones dentro de las categoras,
p ero no afectarn sistem ticam ente las variaciones e n tre las cate
goras, lo que h a r b a ja r tan to el v alo r de F com o la correlacin
in terciases.
E n el caso de dos escalas de intervalo los erro res aleatorios de
m edicin en cu alq u ier variable re d u cirn la m agnitud del coefi
ciente d e correlacin. E n algunos textos elem entales d e estads
tica se exam inan los procedim ientos correctivos de atenuacin,
p ero se hace basndose en supuestos especiales, inapropiados
p ara u so en la investigacin sociolgica. (V ase [3 ].) E n general,
cuando se cu e n ta con dos o m s m edidas de cada variable, resu lta
posible o b ten er estim aciones corregidas b a jo grupos variables de
supuestos. (V anse [ 2 ], [ 6] y [14].)
Si
hay e rro re s aleatorios de m edicin en Y p e ro n o en X , po
dem os co n ceb ir la situacin com o u n a contribucin q u e alcanza
slo al fa c to r de e rro r en la ecuacin Y t = a + (3Z { + g, pudiendo
d em o strarse que n o h a b r efecto sistem tico en la estim acin bvm
del declive, salvo que el e rro r e st n d a r en tal estim acin se ver
in crem en tad o debido al aum ento del e rro r en la variancia. Pero
si hay tam b in e rro r aleatorio de m edicin en X lo que es m uy
posible en to d a investigacin re alista, la estim acin bym del de
clive se ver asim ism o atenuada. E n el caso de m u estras grandes
puede aplicarse u n a f rm u la aproxim ada p a ra d eterm in a r el va
lo r esperado del declive bvo:
2

<V

+ oa

en la que X ' re p re se n ta el valor m edido de X , tal com o se le re


p resen ta en la ecuacin X ' = X + u, en donde se supone a u com o
un com ponente estricta m e n te aleatorio, con valor esperado igual
a cero, y sin que haya correlacin e n tre u y X . La razn de la
atenuacin e strib a en que la variancia del valor m edido X ' ser
m ayor que la v ariancia verd ad era de X , segn la f rm u la:
<V2 = oa +
Vemos as que la atenuacin en la estim acin de u n desnivel
es funcin d e la variancia del e r ro r de m edicin, relativa a la
variancia en X .
E ste hecho tien e consecuencias im p o rtan tes en la p rctica. Sig
nifica que en cuantos casos haya e rro r aleatorio de m edicin en

una variable independiente, n o podem os c o n ta r con iguales decli


ves estim ados, incluso en el caso de que los declives verdaderos
10 sean. Si varias poblaciones (o m u e stra s) difieren con resp ecto
11 la can tid ad de variacin en X , incluso co n las m ism as varianriiis de e rro r de m edicin, las atenuaciones d e los declives d iferi
rn. Vale la p en a te n e r e sto p re sen te cuando se llevan a cabo
com paraciones de los re su ltad o s de diferen tes estudios. La difi
cultad sealada se aplica tam b in a to d as las m edidas de asocia
cin, y no pu ed e ser considerado com o u n defecto privativo del
anlisis de regresin.
XVIII.4. Escalas ordinales: correlacin de rangos
us hem os ocupado a h o ra de m edidas d e asociacin que pueden
iillllznrse p a ra relacio n ar dos escalas nom inales (<>2, xh, e tc te ra ),
mui escala nom inal y u n a d e intervalo (co rrelaci n in trac la se), y
iltm escalas d e intervalo ( r ) . Las tre s m ed id as que vam os a exa
m inar en esta seccin, o sean la rs de S p earm an y la tau y la gamiiih d r K endall, pu ed en em p learse p a rp S I a c i o n a r e n tre s d o s
cut iiliib o rd in ales. A condicin que las dos variables pueden aliHciu se, cu alquiera d e estas ltim as m edidas puede em plearse
jirtnt llar correlaciones q u e son algo parecid as a las del m om en
to producto.
I,n* m edidas ordinales exam inadas en e s ta seccin re su lta n
m|ii i vellidas cuando la relacin e n tre X y Y es la q u e se denom ina
tm w nlnica en a um ento o bien m onotnica en dism inucin. La
Itni ile linealidad es desde luego in ap ro p ia d a en el caso de las
McnlitM ordinales, com o lo es tam bin la id ea de u n a distan cia
milit* vnlores de X (o d e Y ). Podem os, sin em bargo, h a b la r de
i#tw limes que se en c u en tran en aum ento (o dism inucin) cons
tituir' lnn funcin de au m en to m onotnico es aquella que o bien
leinprc o p erm anece constante, a m ed id a que X aum enta.
|ii ol un palabras : cuando X aum enta, Y n o dism inuye. U na funtlrtli lliienl constituye u n caso especial d e u n a funcin m onotMlt i i~Ip Huiliento (o dism inucin), p e ro tam b in lo es u n a funcin
!m#hi lint leu tal com o Y = a + b lo g X . R econocem os dos clases
iIh i Ilicin no lineal, a sa b e r: las q u e son m onotnicas y las
t|M in lo No n . El ltim o tip o de relacin n o lineal te n d r p o r
*H|Mit'nlu mui o m s c u rv atu ras o inversiones de direccin, com o
|i*ni|tliri( n una parb o la o ecuacin d e te rc e r grado.
I un fn v u e n e ia encontram os proposiciones tericas de la forHtn Vmtnln m nyor la X , m ayor la Y (o m en o r la Y )". E stas afirMim Ihih 'i quieren d ecir q u e la relacin e n tre l y F e s m onotniM, (< i <i mi especifican en qu form a. Las m edidas ordinales
propnelas cuando' se tra ta de proposiciones de esta na
Hera por supuesto p re ferib le re fin a r n u estra s teoras,
i4t> iiinilu que .se especificase si existe linealidad o alguna clase

p a rtic u la r d e no lin earid ad (p o r ejem plo, lo g artm ica), pero si la


m edicin no h a su p erad o el nivel ordinal, re s u lta r im posible
d istin g u ir em p ricam en te e n tre altern ativ as lineales o n o lineales.
(V ase [22].)
/LarrB de Spearm an:< El p rin cip io q u e se halla en la base de la
m ed id a d e Spearrffanf es m uy sim ple. C om param os la o rdenacin
d e dos gru p o s de m arcas to m an d o las diferencias d e los rangos,
c u ad rn d o las y luego adicionndolas, y tra ta n d o finalm en te dicha
m gdida. d e m odo' que su v alor sea.-fcLQ, siem pre que.Joa..6rdenes
estn p erfec ta m e n te de acuerdo, 1.0 si los rdenes discxgpan
to talm e n te, y cero si no se d a relacin alguna. Si sim bolizam os
la d iferen cia e n tre dos lugares cualesquiera com o Dit hallam os el
N

v alo r de 2 D 42 y calculam os r, p o r m edio d e la f rm u la :


<=i
y

6 2 D*

rs = i --------- L .-----N ( N * ~ 1)

( X V III.10)

E sta f rm u la p a ra r se obtiene to m an d o la f rm u la p a ra una


co rrelaci n m om ento-producto y aplicndola a rangos y no a
pu n tu acio n es b ru ta s, pudiendo as in te rp re ta r la m edida de
S p earm an com o la correlacin m om ento-producto e n tre los ra n
gos d e X y los de Y.
Ilu strm o sla con algunos dato s reunidos p o r el au to r. Los
m iem b ro s d e u n cam p am en to d e tra b a jo fu e ro n ordenados de
su p e rio r a in ferio r desde los p u n to s de vista de la popularidad,
m ed id a p o r las am istades y d e la particip aci n en las discusiones
d e grupo. P a ra am bas variables el orden de clasificacin de uno
significa u n a m arc a elevada. Los rdenes em patados se calculan
atrib u y en d o a cad a m arc a em p a ta d a la m edia aritm tic a de la
p u n tu aci n q ue h a b ra recibido si no h u b iera em pates. Los v alo
re s d e Di se calculan a continuacin, tal com o se indica en el
cu a d ro X V III.3. Si el n m ero de em pates es pequeo, com o en
el p re se n te caso, no necesitam os in tro d u c ir m odificacin en la
f rm u la de rs. P ero si el n m e ro de em pates es considerable, en
to n ces p u ed e calcu larse u n fa c to r de correccin (vase [19],
pp. 215-220). O btenem os, p u e s :
6(207.50)
r - i ------i--------- i- = 1 - .305 = .695
16(255)
O bsrvese que si las clasificaciones concuerdan perfectam ente,
x
2 D2 ser cero, y el v alor d e rs se r la unidad. Si bien la ins-

l i n t n directa de la f rm u la no n o s d a inm ediatam ente los va


loren de r, p a ra la independencia y la asociacin perfectam ente
ueguliva, re su lta que p a ra la asociacin negativa p erfec ta el valor
ili'l segundo trm in o ser de 2.0 y, p o r lo tanto, r, ser 1 .0.
C uaduo

XVIII.3. Clculo del coeficiente de Spearm an de la


correlacin de rango

l't'tsonas

Ana
mu
Jim
iiiuis
Mttrclu
liiiui
Ruth
Dorls
limitara
( ynlhiu
lUllo
lio
Nniity
Mnrl

Ni mi

Nmuli
Tolnl

O r d e n de

O r d e n de

popularidad

participacin

1
2.5
2.5
4
5
6
7
8
9
10
11.5
11.5
13.5
13.5
15
16

5.5
5.5
1
2
3
9.5
55
13.5
9.5
16
5.5
11.5
8
15
11.5
13.5

4.5
3.0
1.5
2.0
2.0
3.5
1.5
5,5
0.5
6.0
6.0
0.0
5.5
1.5
3.5
2.5

30.25
2.25
12J25
6.25

0.0

207.50

20.25
9.00
2.25
4.00
4.00
12.25
2.25
30.25
0.25
36.00
36.00

0.00

I'hi ii In no asociacin, el segundo fa c to r ser exactam ente la


IHilttntl
N ' 10, la distribucin d e seleccin de rs es aproxim adam en
te un-tiinl, ro n una desviacin e stn d a r de l / y / N 1. P or lo tanto,
! i'Jrniplo que estam o s exam inando, el e rro r e st n d a r ser de
I A / 1 1 Como p ru e b a d e la hiptesis n u la de que n o se d a relaiwt* n i Im poblacin, podem os calcular Z com o sigue:
Z = r* = .695 y / 5 = 2.69
/y w -i
tilvMniiono* de la tab la n o rm al vem os que la relacin es signiflrwllvt* I nivel tle .0 1.
t a (>iu tfs K nutall. Al calcular la rs de S pearm an nos servim os
rft lim i iimlindos de las diferencias en los rangos. La ta u de
fcwlrtl!, t'tt t timbio, que tam bin vara e n tre 1.0 y 1 .0, se b asa
H utm (pt'tiu ln algo d istin ta. E n efecto, calculam os p rim ero

u n a estad stica S buscando todos los pares posibles de casos y


observando si las puntuaciones estn o n o en el m ism o orden.
As, p o r ejem plo, supongam os que tenam os las siguientes com
binaciones de lugares:

A
B

b c

1
2

2 3 4
3 1 4

Como q u iera que las m arcas d e A se h an d ad o en orden ascen


dente, podem os calcular S exam inando las clasificaciones d e B
u n a p o r u na. F ijndonos en el p rim e r valor de la h ilera B (indi
viduo a), vem os que la m arc a d e B est en el orden apropiado
p a ra los p ares ( a ,b ) y (a,d). E n o tro s trm in o s: el individuo a
ocupa u n lu g ar in ferio r a b y d en am bas variables A y B. Por
o tra p arte , la m arca de B discrepa (con respecto a la m arca de
A ) p a ra el p a r (a,c), ya q u e a ocupa u n lugar in ferio r a c en cuan
to a A, p ero inversam ente en c u a n to a B.
Sirvm onos de +1 cada vez que u n p a r determ in ad o se halla
ord en ad o igualm ente p a ra A y B (lo que se denom ina p a r con
co rd an te ) y d e 1 cada vez que se h alla ordenado al revs (lo
que se denom ina p a r "d isc o rd an te ). El valor de S se obtiene
sum ando dichos +1 y 1 p a ra todos los pares posibles. P or lo
tanto, 5 es igual al n m ero d e pares concordantes C, m enos el
n m ero de p ares discordantes D. P or lo tan to , la contribucin
de los p a re s ( a,b), (a,c) y ( a,d ) e s: + 1 - 1 +1 = ( 2 - 1) = 1 . Con
objeto de te n e r en cuenta los dem s pares, recorrem os la tabla
de izquierda a derecha. Vemos as que la contribucin de los p a
res ( b ,c ) y ( b,d) es de 1 + 1, o sea cero. Finalm ente, la co n tri
bucin del p a r (c,d ) es de + 1 . O bsrvese que de hecho podem os
o b ten er el v alo r to tal de S disponiendo p rim ero A en el orden
ap ropiado y exam inando luego sucesivam ente los lugares de la
h ilera B, co ntando cada vez el nm ero de lugares de la derecha
que estn en el orden apro p iad o y sustrayendo los que estn en
el orden co n trario. De este m odo, en este sencillo ejem plo ob
tenem os :
S = C - D = ( 2 - l ) + ( l - l ) + ( l - 0) = 2
Si ah o ra dividim os S e n tre el v alo r m xim o posible que podra
tener, esto e s : (N - 1) + (N - 2) + . . . + 2 + 1 = N (N l)/2 , ob
tenem os u n coeficiente que p u ed e v aria r de 1 a +1. Definimos
as el coeficiente tau 0 (segn K endall [16]), adecuado cuando no
hay em pates, com o sigue :2
2 Este coeficiente, derivado de los datos de la muestra, se denomina a
veces t, en tanto que tau se reserva para la contrapartida de la pobla-

C D

V i N i N - 1)

lA N ( N - 1)

(X V III .ll)

IU ol vio que si hay discrepancia perfecta en tre los dos sistem as


tlt ni lim acin (esto es, si B estuviera ordenado com o 4, 3, 2, 1),
ni valor de S ser ViN^N 1), y x ser 1.0. Y asim ism o, si las
it'i'4 viriubles no tienen relacin alguna e n tre s, las contribucio
nes a .S positivas y negativas se invalidarn, y x ser cero.
( un o b jeto de ilu s tra r el caso de los rdenes em patados, sir
vmonos nuevam ente del ejem plo del cam pam ento de trab ajo .
iJUpongairios a los individuos en orden horizontal y reemplace*
iiiiih los nom bres p o r letras. N u estra disposicin se p re sen ta en
iili turm a:
a

I)

cdef

h i

m n

A I 2.5 2.5 4 5 6 7
8 9 10 11.5 11.5 13.5 13.5 15
II V5 5.5 1 2 3 9.5 5.5 13.5 9.5 16 5.5 11.5 8 15 11.5

16
13.5

llm u m do seguir la regla de que


siem p re que algn
p a r com porit un em pate, ya sea en la m arc a A o B , su contribucin a S ser
i i o, M irando p rim ero todos los pares que pueden fo rm arse con a,
VMiion <iuc los pares (a ,b ), ( a,g) y (a.,k) no co n trib u irn con
mull a S, ya que las m arcas de B p a ra todos dichos individuos
i*fbin ligadas en 5.5. P o r lo tanto, la contribucin de todos los
lienirtN pares ser:
<i,i ) (i/,*0 (,) (a,f)(a,h ) (a,i) (a,j) (a,l) (a,m) (a,n) (a,o) (a,p)
I

I -1

+1

+1

+1

+1

+1

+1

+1

+1

+1

= 9 3 = 6

/V ron lin u acin com param os las m arcas de b con cada u n a de


In* m u irs a su derecha. Obsrvese, sin em bargo, que b y c estn
IIUihIon con respecto a A. Como quiera, p o r lo tanto, que b y e
piirltr'ffin haberse dado lo m ism o en el o rd en inverso, hem os de
Hllnilmir r! p ar (b,c). Y en fo rm a anloga, los pares (b,g) y (b ,k )
iMfin tinados en B y, p o r consiguiente, no h arn contribucin
iil|Mmu i N. En e sta form a, p a ra los pares de b, obtenem os una
niinii de () 2, o sea 7. R ecorriendo la ta b la de izquierda a deret lu obtenem os finalm ente:
c

/> - ( 9 - 3 ) +

( 9 - 2 ) +

( 1 3 - 0 ) +

( 1 2 - 0 ) +

i ( 6 3 ) + ( 8 0 ) +

( 2 - 5 ) +

( 5 - 2 ) +

( 1 1 - 0 )
( 0 - 6 )

| (4-0) + (2 - 1 )+

(2-0)+

(0-2)+

(1-0)

60

ilini tcuiiiremos, sin embargo, el uso ms convencional. La tau de Ken11,111 un ili-lir con Cundirse con las tau0 y tauft de Goodman y Kruskal,
lii-i i|in '.mi nproptadas para datos nominales,

Con o b jeto de corregir en relacin con los em pates, hem os de


p ra cticar ah o ra u n a ju ste en el denom ina d o r d e tau. S em ejante
aju ste tiene el efecto de p ro d u c ir u n aum ento del v alo r num rico
de tau , si bien dicho aum ento ser ligero, a m enos que el nm e
r o de em pates sea m uy grande. L a f rm u la de ta u (la que Kendall design com o t s ) puede generalizarse com o sigue:
Xh = -------------------------- -------------------------- (X V III.12)
V '/ 2N(W - 1) - T y /V iN ( N 1) - 17
en donde T = ,A 2 f i ( f i 1), siendo t el n m ero d e em pates en
cada g rupo d e em pates en A, y U = J4S (m 1), siendo u el
n m ero de em pates en cada grupo d e em pates en B . E n el ejem
p lo a n te rio r tenem os tre s em pates, de dos cada uno, en la varia
ble A (p o p u larid a d ). P or lo ta n to :
T = M [2 (l) + 2(1) + 2 (1 )] = 3
Y en fo rm a anloga, hay tre s em pates, de dos cada uno, y una
m arca con c u a tro em pates en la variable B (p articip aci n ). Por
con sig u ien te:
U = 1/ 2[2(1) + 2(1) + 2(1) + 4 (3 )] = 9
De donde:
60
60
60
rh = ------------------------------------ ----------------------= ------- = .526
V [8 (1 5 )-3 ][8 (1 5 )-9 ]
y/(U7)(lll)
114.0
Prueba de significacin para tau. K endall [16] h a dem ostrado
que p a ra tam a o s de m u estras de 10 o m s, la d istribucin de
m uestreo de S b a jo la hiptesis n u la ser aproxim adam ente nor
mal, con m ed ia de cero y variancia d ad a p o r:
o*2 = V is N ( N 1 )(2 N + 5)

(X V III.1 3 )

H ablando estrictam ente, la f rm u la an terio r es aplicable slo


cuando no h ay em pates, p e ro p u ed e se r usad a cuando el nm ero
de stos es relativam ente pequeo. Si se d a u n gran n m ero de
em pates, u n fa c to r d e correccin b a sta n te volum inoso h ab r
de ser aplicado.
P ara p ro b a r la significancia d e ta u con los datos del cam po de
trab ajo , com enzam os p o r c o m p u tar as2 com o sigue:

O bteniendo la ra z cu a d ra d a te n e m o s:
<r = 22.21
valor que p u ed e se r u sad o en el d enom inador de Z al p ro b a r la
hiptesis n u la d e que A y B no e stn relacionados. As
S- 0

60.0

c3

22.21

: 2.70

y vemos q ue u n v alor d e ta u de .526 es significativo al nivel de .01.


M edidas ordinales para datos agrupados: tauc, gam m a, d yx y
d ,y. Una de las v en tajas de ta u resp ecto d e rs es que aqulla p u e
do u tilizarse fcilm ente cuando se d a u n n m ero gran d e d e em
pates. Pese a q ue el clculo de ru tin a q u e se acab a de d esc rib ir
resu ltara sum am ente fastidioso en tales casos, podem os sim pli
ficar m ucho el p rocedim iento cuando am bas categoras se h an
agrupado en categoras algo toscas. As, p o r ejem plo, p u ed e
haberse colocado a perso n as e n cinco clases sociales, co n sid ern
dolas com o em p atadas co n resp ecto a la posicin. Si la segunda
variable se h a categorizado en la m ism a form a, podem os serv ir
nos de u n a f rm u la de ta u m odificada, aprovechando con ello la
Inform acin d e q u e los d ato s h an sido efectivam ente o rdenados,
y rio sim plem ente p u esto s en categoras.
Podem os calcular S = C D m ed ian te u n pro ced im ien to que
np d escribe m s abajo. S irvindonos de las f rm u las que se aca
ban de d ar, en co ntrarem os que el lm ite su p erio r de tauj, slo
xcr la u n id ad cuando el n m ero de h ilera s y d e colum nas sea el
mismo. Con o b jeto de co rreg ir p a ra el caso en que r=c, form amoN la raz n :

l)/m ]
(X V III.14)

ilomle

m = M in (r,c )

Ai|u( seguim os a K endall en el em pleo del sm bolo xc, con o b jeto


ile distin g u ir la ecuacin (X V III.14) de las frm ulas p reced en tes.
Veamos ah o ra cm o se calcula rc.
l , o s dato s del cu adro X V III.4 re p re se n ta n los lugares asignados
(i *17 estu d ian tes de in troduccin a la sociologa en la U niversi
d a d de Michigan. La v ariab le B co m p o rta el in ters general del
oillidiante en cuanto a a d o p ta r las fo rm as "ap ro p iad a s o "com v l a s de com p ortam iento en los m edios convencionales. E n
l a n o que la v ariable A co m p o rta el deseo de fo rm a r p a rte de orHuii/:adones n icam ente con o b jeto de m e jo ra r la posicin social.

Toda vez que la m edicin de am bas variables fue m s b ien tosca,


se decidi d iv id ir cada u n a de ellas en c u a tro c a te g o ra s : inters
alto, m o d erad am en te alto, m o d erad am en te b a jo y bajo. De este
m odo, si b ien cada variable c o m p o rta u n a escala o rd in al con u n
C uadro X V III.4. Datos com parados para el clculo de la tau de

K endall a p a rtir de datos agrupados


Inters en la conducta adecuada (B)
Grado del deseo de formar
parte de organizaciones (A)

Alto

Modera
damente
alto

Modera
damente
bajo

Bajo

Alto
M oderadamente alto
Moderadamente bajo
Bajo

18
16
11
5

19
16
14
5

12
12
18
15

8
10
16
22

57
54
59
47

Total

50

54

57

56

217

Total

g ran n m ero de em pates, los re su ltad o s pueden con todo re u n ir


se en fo rm a de u n a ta b la d e contingencia.
Al ca lc u lar S ser conveniente o b te n e r sep arad am en te C y D,
ya que dichas cantidades sern utilizadas tam b in p a ra o tras
m ediciones d iscu tid as en esta seccin. O bservam os en p rim e r
trm in o q ue las m arcas de A se h a n ord en ad o nuevam ente de
altas a b ajas, con la diferencia de q u e ah o ra tenem os 57 indivi
duos em p ata d o s en cuanto a las m arcas altas, 54 en cu an to a
las m o d erad am en te altas, 59 en cu an to a las m o d erad am en te b a
ja s y 47 en cu an to a las b ajas. C onsiderando p rim e ro a los de
m arcas altas en cuanto a A, vem os que 18 las tien en tam b in altas
e n S ; 19 m o d erad am en te altas, etctera. P ara o b ten er las co n tri
buciones a C y D (y p o r lo ta n to a S ) observam os que, com o
qu iera que todos los individuos de la categora a lta d e A estn
em patados, ninguno de estos p a re s co n trib u ir a C o D. Y en fo r
m a anloga, n inguno de los p a re s de la m ism a co lum na co n tri
b u ir a C o D, debido al hecho de que todos ellos estn em patados
con resp ecto a B . Si nos fijam o s en u n a casilla d eterm in a d a cual
quiera, to d as las m arcas q u e se h allan p o r debajo y a la derecha
d e la m ism a c o n trib u ir n al n m e ro de p ares C concordantes, en
tan to que to d as las que se en c u e n tra n p o r d eb ajo y a la izquierda
co n trib u ir n a D. As, p o r ejem plo, cad a u n o de los 18 individuos
de la casilla p ro d u c ir p ares concordantes con cada u n a de las
m arcas
16 + 14 + 5 + 12 + 18 + 15 + 10 + 16 + 22
que quedan p o r deb ajo y a la d erecha de dicha casilla. E n total,
pues, la co n tribucin de la casilla en cuestin a C ser d e :

18(16 -|-14 -{" 5 + 12 + 18 + 1 5 + 10 + 16 -f- 22) 18(128)


A continuacin nos fijam os en los 16 casos inm ediatam ente de
b ajo del ngulo izquierdo superior. C ada uno de estos indivi
duos tien e tam bin m arcas altas de B. Con o bjeto de c o n ta r los
pares de contribuciones a C, volvem os a adicionar las cantidades
que fig u ran d ebajo y a la derecha. M ultiplicando luego p o r el
nm ero de casos te n e m o s :
16(14 + 5 + 18 + 15 + 16 + 22) = 16(90)
Al p asa r a las colum nas segunda y siguientes, em pezam os a
e n c o n trar contribuciones a C y D, ya que las colum nas de la iz
qu ierd a tienen m arcas superiores de B . As, p a ra la p rim e ra casi
lla de la segunda colum na obtenem os com o contribucin a C :
19(12 + 18 + 15 + 10 + 16 + 22) = 19(93)
y com o contribucin a D la can tid ad 19(16 + 11 + 5) = 19(32).
R ecorriendo la tab la h acia ab ajo y h acia la derecha en fo rm a se
m ejante, podem os o b ten er S h a sta cierto p u n to con facilidad,
com o sigue:
C = 18(128) + 16(90) + 11(42) + 19(93) + 16(71) + 14(37)
+ 1 2 (4 8 )+ 1 2 (3 8 )+ 18(22)
= 9055
D = 19(32) + 1 6 (1 6 )+ 14(5) + 12(67) + 12(35) + 18(10)
+ 8 (1 1 2 )+ 1 0 (6 8 )+ 16(25)
= 4314
l'ui1 ta n to :

S = 9055 - 4314 = 4741

Asi pues:
4741
x0 = ------------------------------ = .268
]/ i( 2 1 7 ) 2 [ ( 4 - l ) / 4 ]
O bsrvese que el d enom inador de xc depende slo del nm ero
de hileras y colum nas, y no de las distribuciones m arginales, las
<|tir* p or supuesto d eterm in an el n m ero d e em pates. E sto
liiu c que x0 sea difcil de in te rp re ta r, y, en este sentido, m enos
in lU fn clo ria que t s . 3 H ay tam b in o tras varias m edidas que d i

11 liii'dc! demostrarse que en el caso k x k, en el que todos los totales marHinulfi .son exactamente N /k, Xb y t sern iguales. De otra forma, en el
i mu k le, t ser generalmente menor que x, en valor numrico, aun cuanili ihii'iIn ser mayor que ts en el caso r x c.

fieren en relacin con el m an ejo de los em pates en el denom ina


dor. La m s conocida de dichas m edidas es gam m a (y), la que
excluye p o r com pleto los em pates en el denom inador, y puede
adem s se r ap licada a datos n o agrupados. La f rm u la p a ra
gam m a es la sig u ien te:
C -D
y~

C+D

E n el ejem plo q u e estam os co nsiderando o b ten em o s:


9055 - 4314
= ------------------ = .3 5 4
r
9055 + 4314
Se indic en el captulo xv que la Q de Yule, igual a (ad b e ) /
(ad + be) es u n caso especial d e gam m a. Podem os p o r ello espe
r a r que g am m a se conduzca esencialm ente igual e n los casos en
que las d istribuciones m arginales son m uy desiguales, debiendo
ob serv arse las m ism as precauciones que se aplicaron a Q. Como
ta n to gam m a corno t 0 y t 6 tienen to d as los m ism os n um eradores
y p u esto que el denom inador d e gam m a excluye to d o s los em pa
tes, puede verse fcilm ente q u e | y | > | | > | xa | . E n general,
h asta el g rad o en que los totales m arginales p a ra A y B son m uy
diferentes, gam m a puede exceder a
p o r u n a ca n tid ad apreciable. P o r ejem plo, en el caso del siguiente cu ad ro h ip o t tic o :
B
A

Alta

Media

Baja

Total

Alta
Media
Baja

100
0
0

80
20
0

0
80
20

180
100
20

Total

100

100

100

300

observam os q ue no hay p ares discordantes, de m odo que y = 1 .0.


Sin em bargo, xt = .77 y x0 = -68. El que u n o desee o n o referirse
a la a n te rio r asociacin considerndola "p erfecta", dep en d er de
los supuestos en relacin con la causa de que las distribuciones
m arginales n o sean idnticas.
Adems de las tau s y gam m a, tenem os dos m edidas asim tri
cas, dy y d^y, ideadas p o r S om m ers [20] y definidas com o sigue:

C -D
y

d u yu =

"

--------------------------

C + D + T

en donde Tw es el n m ero de pares que estn em patados en X


pero no en Y , y Tv es el n m ero de pares em patados en Y p ero
no en X . Si hacem os que
se refiera al n m ero de pares em
patados tan to en X com o en Y , y volviendo a la ecuacin (X V III.
12) p a ra xb, verem os que T = TW+ T ^ , y V = Tv + Tav, y p o r tanto,
ya que el nm ero to tal de pares l N iN ) = C + D + Tw + Ty +
tendrem os C + D + Tv = ViN (N - l ) - (T a + Txv) = ViN (N 1) T. De m anera anloga, el denom inador de dx/ es C + D + Tx
: lA N (N 1) U. As, el p ro d u cto dvxdxy = t,2. E n este sentido
puede pensarse en las m ed idas asim tricas com o anlogos dectiih ' s . Sin em bargo, como su asim etra es funcin del n m ero de
em pates, los que hab itu alm en te dependen de los procedim ientos
de clasificacin, la analoga con los declives bvx y bxu es, en el
m ejor d e los casos, m uy tenue.
C ostner [5 ] h a sealado que p uede d arse a gam m a u n a in ter
pretacin de reduccin proporcional en el e rro r sem ejante a la
dada a las t s o A> de Goodm an y K ruskal. Supongam os que de
seamos pred ecir el orden de u n p a r de casos con respecto a B.
SI prescindim os de em pates, n u e stra probabilidad de in c u rrir en
error, no conociendo n ad a m s, sera de .5. P ero si conocem os
rl orden con respecto a A , re su lta que el valor absoluto de gam m a
es igual al nm ero de erro res esperados conociendo A , m enos el
nm ero esperado no conociendo A, dividido en tre el n m ero espe
dido no conociendo A .
Tenem os as disponible u n nm ero de m edidas ordinales que
difieren slo en relacin con el trata m ien to de los em pates en el
denom inador. P or desgracia, no tenem os de o rdin ario reglas clai un de decisin p a ra elegir en tre dichas m edidas, ya que las rawiiics p ara los em pates perm anecen frecuentem ente en la oscuri
dad. W ilson [23] h a dem ostrado que la p ropiedad de gam m a, de
i educcin proporcional en el erro r, desaparece si se ad m ite que
lu errores pueden com eterse cuando se predice u n ord en con
it'npeelo a B si, en realidad, el p a r est em patado con respecto
ti II 1 Parece como si este p roblem a del m an ejo de los em pates
m tuviera solucin sencilla. Tal vez la m ejo r regla em prica connlMn en hacer uso de tan tas categoras de cada variable como
m posible, reduciendo as el n m ero d e em pates, a la vez que
l.ii diferencias e n tre las d istin tas m edidas.

WII-hmi [231 hace observar que tales empates no estn excluidos del
MiirtlIiiN iln los modelos de regresin. As, si dos casos se encuentran sumadimito inximos en relacin con sus puntuaciones de X, predeciramos que
mm iMiiiiunciones de Y tambin lo estaran. En este sentido, si hay un par
mii|'Utiln con respecto a X, podemos esperar que lo est tambin con resimi lu n V', y cometeramos un error si as no fuera. Cul es la importan-

K ru sk al [17] h a d em o strad o que la m edida d e la r 8 de Spearm an pued e ser in te rp re ta d a en funcin de tros de observaciones
en lugar de p ares, preguntndose cul es la pro b ab ilid ad de que,
p o r lo m enos, u n a de las tre s observaciones sea concordante con
las o tras dos a la vez. Tal in terp re taci n tien e u n a m ucho m e
n o r atracci n in tu itiv a que las in terp retacio n es m ed ian te pares,
a p a rte del h echo de que son m ayores n u estro s conocim ientos
acerca de los erro res d e m u estreo de ta u y gam m a. P or estas
razones p re fie re K ruskal la ta u a la r. Sin em bargo, si la d istri
bucin b sica de las dos variables es realm ente b iv ariad a norm al,
el v alor ab soluto d e rs ser m ayor que el de tau, y su com porta
m iento p u ed e re su lta r m ucho m s sem ejan te al de la correlacin
m om ento-producto. T rabajos previos no publicados m u estran
q u e el co m p o rtam iento de las rs parciales ( despus de corregidos
los em p ates) es m uy singular al d e las correlaciones parciales
cuando las relaciones verdaderas son norm ales m ultivariadas (va
se la definicin e n el prxim o captulo), p o r lo que sigue sin acla
ra rse cul de las m edidas es preferible. A nte tal situacin, el
investigador d eb er ap licar varias m edidas diferentes p a ra com
p ro b a r si se com portan de m an era sem ejante al aplicarse a los
datos q ue se exam in an.
Finalm ente, debem os to m a r n o ta de u n argum ento de W ilson
[ 22], quien afirm a que ninguna m edida o rdinal que im plique la
idea de p ares (o tro s) p u ed e te n e r propiedades plenam ente de
seables. E l p u n to bsico de W ilson est en que el razonam iento
terico se fu n d a norm alm ente en leyes que son apropiadas p ara
un caso nico, com o cuando especificam os p o r ejem plo que el
cam bio de u n a un id ad en X debe p ro d u c ir en Y el cam bio de byx
u nidades. Con b ase en tales teoras, no tiene sentido p en sa r en
funcin de p ares ordenados, los que p o r necesidad nos fuerzan
a realizar com paraciones a travs de los casos. Si, p o r ejem plo,
la p ro p ia teo ra especifica q u e u n cam bio en el p o rc en taje de
negros p ro d u c ir u n cam bio en los niveles de discrim inacin,
u n o se est refirien d o tal vez a u n a ley que o p era en el interior
de u n a sim ple localidad (u o tra s unidades de observacin). No
se aplica d irectam en te a com paraciones a travs de pares de ob
servaciones. P or supuesto que, en tan to u n o defina su ta re a com o
u n a sim ple generalizacin de poblaciones fijas, n o se p lan tear
este tip o de dificultad conceptual. El lector d eber co n su ltar a
W ilson si d esea u n anlisis m s com pleto. E st bien claro que l

ca de este "error al predecir incorrectamente los empates, comparada con


la del error de hacer predicciones equivocadas en los casos no empatados?
Como puede verse, toda esta cuestin de la exclusin de empates, procedi
miento que tiende a favorecer a gamma en relacin con las dems medi
das, no resulta cosa sencilla. Por ello, cuanto mayor sea el nmero de em
pates debidos a la crudeza de la medicin, tanto ms ambigua ser la
eleccin entre las medidas y mayor la sensibilidad de los resultados de
tal eleccin.

em pleo de m edidas ordinales tra e consigo cierto nm ero de difi


cultades que h a sta el m om ento no h a n sido resueltas adecuada
m ente.
E jercicios

I. En los ejercicios 1 y 2 del captulo


les de correlacin.

xvii

se calcularon tres coefcen

a) Para cada uno de dichos coeficientes, emplese el anlisis de va


riancia para verificar la hiptesis nula de que o = 0. Respuesta,
F = .67; F = 7.09; F = 9.6.
h) Coloqense intervalos de confianza del 99.9 por ciento con res
pecto a las tres r.
c) Verifiqese la relacin entre la integracin moral y la heteroge
neidad en el caso de no linealidad.
d) Convirtanse los mismos datos en rdenes y obtnganse la tau
de Kendall y la rs de Spearman para las tres correlaciones.
e) Verifiqese cada uno de estos coeficientes de rango ordenados
en cuanto a significacin.
2. En el ejercicio 3 del captulo xvii se agruparon los ndices de
integracin moral y de heterogeneidad. Calclense para estos datos
agrupados la tau y la gamma de Kendall y comprese el resultado
con el que se acaba de obtener antes en el ejercicio Id de esta seccin.
B ibliografa

1. Anderson, T. R., y M. Zelditch: A Basic Course in Statistics, 2


ed., Holt, Rinehart and Winston, Inc., Nueva York, 1968, caps. 7 y 8.
2, Blalock, H. M .: "Estim ating Measurement E rror Using Mltiple
ndicators and Several Points in Time, American Sociological
Review, vol. 35, pp. 101-111, 1970.
Bohmstedt, G. W .: Observations on the Measurement of Change,
en Edgar Borgatta (ed.), Sociological Methodology 1969, JosseyBass Inc., Publishers, San Francisco, 1969, cap. 4.
4. Christ, Cari: Econometric Models and Methods, John Wiley &
Sons, Inc., Nueva York, 1966, Parte III.
V Costner, H. L .: "Criteria for Measures of Association, American
Sociological Review, vol. 30, pp. 341-353, 1965.
(>. Costner, H. L.: "Theory, Deduction and Rules of Correspondence,
American Journal of Sociology, vol. 75, pp. 245-263, 1969.
/. Croxton, F. E., y D. J. Cowden: Applied General Statistics 3 ed.,
Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, cap. 20.
H, Goodman, L. A., y W. H. Kruskal: "Measures of Association for
Cross Clasifications, Journal of the American Statistical Associa
tion, vol. 49, pp. 732-764, 1954.
V. Goodman, L. A., y W. H. Kruskal: Measures of Association for
Cross Classifications, II: Further Discussion and References,
Journal of the American Statistical Association, vol. 54, pp. 123163, 1959.
10, Goodman, L. A., y W. H. Kruskal: "Measures of Association for

11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.

Cross Classifications, III: Aproxmate Sampling Theory", Journal


of the American Statistical Association, vol. 58, pp. 310-364, 1963.
Haggard, E. A.: Intraciass Correlation and the Analysis of Variance, The Dryden Press, Inc., Nueva York, 1958, pp. 22-26.
Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 23.
Hays, W. L.: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 16.
Heise, D. R .: "Separating Reliability and Stability in Test-Retest
Correlation, American Socialogicat Review, vol. 34, pp, 93-101,
1969.
Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963, Parte II.
Kendall, M. G.: Rank Correlation Methods, Hafner Publishing
Company, Inc., Nueva York, 1955, caps. 1, 3 y 4.
Kruskal, W. H.: "Ordinal Measures of Association, Journal of
the American Statistical Association, vol. 53, pp. 814-861, 1958.
Mueller, J. H., K. Schuessler, y H. L. Costner: Statistical Reasoning in Sodology, 2 ed., Houghton Mifflin Company, Boston, 1970,
cap. 10.
Siegel, Sidney: Nanparametric Statistics for the Behaviorl Scien
ces, McGraw-Hill Book Company, Nueva York, 1956, cap. 9.
Somers, R. H.: A New Asymmetric Measure of Association for
Ordinal Variables, American Socialogicat Review, vol. TI, pp. 799811, 1962.
Wallis, W. A-, y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 17.
Wilson, T. P .: "A Critique of Ordinal Variables, Social Forces,
vol. 49, pp. 432-444, 1971.
Wilson, T. P.: "A Proportional-Reduction-in-Error Inteipretation
for KendaH's tau-b, Social Forces, vol. 47, pp. 340-342, 1969.

E n los dos ltim o s captulos nos hem os ocupado de la relacin


e n tre dos escalas d e intervalo, en tre u n a variable dependiente
y u n a sola v ariable independiente. Los anlisis de correlacin y
reg resi n pu ed en extenderse fcilm ente p a ra com p ren d er cual
q u ie r n m ero d e escalas de intervalo, u n a d e las cuales puede
to m arse com o dependiente, y las dem s com o independientes. El
p ro b lem a se p u ed e concebir com o u n p ro b lem a de prediccin en
el q u e tra ta m o s d e p re d e c ir u n a v ariab le dependiente Y a p a r tir
de las variables X x, X 2, . . . , X k. H abrem os de servirnos d e nue
vo de u n m odelo m uy sencillo, que ser directam en te anlogo a
la reg resi n lineal, excepto en cuanto al hecho d e que h a b r m s
de dos dim ensiones.
El concepto d e correlacin se generalizar en dos form as. E m
plearem os el trm in o d e correlacin parcial p a ra designar la co
rrelaci n e n tre dos variables cualesquiera cuando los efectos de
o tra s variables se h a n controlado. El de correlacin m ltiple,
en cam bio, serv ir p a ra in d icar qu ta n to de la variacin to ta l de
la variab le dep en d iente p u ed e explicarse p o r to d as las variables
in d ep en d ien tes actu an d o co n ju n tam en te. V erem os que los m ate
riales exam inados en el p re sen te captulo co m p o rtan en su m ayor
p a rte extensiones d irectas d e razonam ientos p resentados a n te
rio rm en te . U na vez que hayam os am pliado las nociones de co rre
lacin y regresin, estarem o s en condiciones, en el cap tu lo si
guiente, d e e m p re n d er el anlisis d e covariancia, que com porta
u n a com binacin de las tcnicas d e regresin con el anlisis de
la variancia.
X IX .l. R egresin m ltip le y m nim os cuadrados
E n la reg resi n m ltip le tra ta m o s d e p re d e c ir u n a sola variable
dep en d ien te a p a r tir d e cu alq u ier n m ero d e variables indepen
dientes. Si se d a u n g ra n n m ero d e variables de escala de in te r
valo que d eb an relacio n arse e n tre s, se r posible, p o r supuesto,
p re d ecir cu alq u ier variable p a rtic u la r a p a r tir de cualquier
com binacin de las dem s. P o r lo re g u la r re su lta r claro del
contexto cules variables h a n d e co n sid erarse com o indepen
dientes y cules com o dep en d ien tes.1 As, p o r ejem plo, puede que
r e r p re d ecirse el xito en la universidad a p a r tir d e u n a serie de
m arcas de a p titu d y del xito en la escuela secundaria. O puede
re s u lta r posible p re d e c ir la ta sa de crecim iento de u n a ciudad

1 Cuando se crea que existe una causacin recproca, o retroalimentacin,


de la variable "dependiente" hacia alguna de las dems, debern emplearse
ecuaciones simultneas en lugar de mnimos cuadrados. Vanse [4] y [12],

conociendo factores com o la m ag n itu d actual, los p o rc en tajes de


m ano d e o b ra en las diversas ocupaciones, o la m agnitud y la
distancia del g ra n cen tro u rb a n o m s prxim o.
E n el anlisis d e regresin m ltip le definim os la ecuacin de
regresin com o el cu rso de la m ed ia de la variab le dependiente
Y p a ra to d as las com binaciones de X r, X 2, . . . , X k. E n o tro s t r
m inos : p a ra cad a com binacin d e X fijas h a b r u n a distribucin
d e las Y. C ada d istrib u ci n te n d r u n a m edia |j,y|x1, x 2, ..., x ;. y
u n a desviacin e st n d a r oy[x 1( x2, .. ..x*, y habrem os d e supo
n e r u n a vez m s que todas estas distribuciones son norm ales y
que las desviaciones e st n d a r son iguales (hom oscedasticidad).
El re co rrid o d e las m edias ya n o seguir siendo u n a cu rv a en el
espacio bidim ensional, sino que ser, a n tes bien, u n a especie de
h ip ersu p erficie e n u n espacio d e ( k + 1) dim ensiones. Es obvio
que ya n o estarem os en condiciones de re p re se n ta r u n cu rso se
m ejante, excepto en el caso* en que slo tengam os dos variables
in d ep en d ien tes
y X 2.
E n el ca p tu lo a n te rio r supusim os u n a ecuacin de regresin
lineal de la fo rm a F = a + (5X. Y habrem os de volver a suponer
u n a fo rm a sencilla de la ecuacin d e regresin. Supongam os, pues,
que el curso d e las m edias de Y ad o p ta la f o r m a :
Y = a + PXj + p2X 2 + . . . + pjX*

( X IX .l)

en donde a, J3j, |32, . . . , p* son constantes. sta es la ecuacin m s


sencilla posible d e regresin m ltiple, y es directam en te anloga
a la regresin lineal en el caso de dos variables. E n efecto, si
to d as las (3, excepto una, son cero, el problem a se red u ce al caso
bidim ensional.
Si podem os su p o n er u n a poblacin n orm al m u ltiv ariab le en
la que cada v ariable est d istrib u id a n o rm alm en te a lre d ed o r de
todas las dem s, entonces podem os satisfacer los tre s supues
tos requeridos. E n otros trm inos, u n a d istrib u ci n n o rm al multvariable nos asegura que las ecuaciones de regresin sern de
la fo rm a a n terio r, que las distribuciones de las Y p a ra X d eter
m inadas sern to d as norm ales, y que las v ariancias sern tam
bin iguales. E sto constituye u n a generalizacin obvia d e las
propiedades de la d istribucin n o rm al bivariable. S obra decir que
la distribucin n orm al m ultivariable n o puede re p re se n ta rse geo
m tricam en te ( pese a que tiene u n a ecuacin algebraica perfecta
m en te d efin id a), to d a vez que tuvim os ya necesidad de tres di
m ensiones p a ra re p re se n ta r el caso bivariable.
Con o b jeto d e p ro p o rcio n ar u n a m e jo r com prensin intuitiva
de la n atu raleza de las extensiones im plicadas, ser conveniente
exam inar el caso en que no hay m s que dos variables indepen
dientes (vase la fig u ra X IX .l). La ecuacin d e regresin Y = a +
t-Xj + p2X 2 pu ede re p resen ta rse en este caso p o r m edio d e u n

plano en u n espacio tridim ensional. Si dejam os que X a = Xi2 = 0,


obtenem os Y = a, lo que in d ica que el p lan o de regresin c o rta
el eje d e las Y a u n a a ltu ra a. Con objeto de o b ten er u n a in te r
p retaci n de las p, tom am os las intersecciones del plano de re
gresin con planos p erp en d icu lares a los ejes de X x y X 2. As,
p o r ejem plo, si tom am os u n plano p erp en d icu lar al eje d e X 2,

Fig. X IX .l. In terp retacin geom trica de la regresin m ltip le de


Y sobre X x y X^.
m antenem os de h echo a X 2 constante, ya q u e todos los p u n to s
situados en este p lan o te n d r n el m ism o v alo r d e X 2. E ste plano
c o rta el p lan o de regresin en u n a recta, y la pen d ien te de esta
re cta ser |3i- E n o tro s trm inos, si m antenem os X 2 en u n valor
fijo, Pi re p re se n ta la pen d ien te de la lnea de reg resi n de Y a X j.
Y en fo rm a anloga, el hecho de m an ten e r co n stan te a X t nos
da u n p lan o q ue in te rse c ta el plano de regresin en u n a lnea de
p en d ien te j}2.
Conviene o b serv ar que las {3 em pleadas en la regresin m ltip le
no sern p o r lo re g u la r las m ism as que las que se obtuvieron en
el caso de dos v ariables. D esignando el caso de dos variables
com o reg resi n total, vem os que la (3 em pleada en la regresin
to tal se o b tiene prescindiendo de las dem s variables indepen
dientes, y n o m antenindolas constantes. Las 3 obtenidas en las
ecuaciones de reg resin m ltip le se designan com o coeficientes
parciales, p o rq u e co m portan pendientes que se o b ten d ran eli
m in an d o o m an ten ien d o co n stan tes cada u n a de las dem s v aria
bles in dependientes consideradas en la ecuacin d e regresin.
El concepto de los m nim os cuadrados p u ed e am pliarse e n una
fo rm a sem ejante. Como q u iera que es casi siem pre necesario
a p reciar u n a ecuacin d e regresin ad a p ta n d o u n a a los datos
em pricos, h ab rem o s de re q u e rir u n a vez m s q u e la ecuacin de

11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.

Cross Classiftcations, III: Aproxmate Sampling Theory", Journal


of the American Statistical Association, vol. 58, pp. 310-364, 1963.
Haggard, E, A.: Intraclass Correlation and the Analysis of Variance, The Dryden Press, Inc., Nueva York, 1958, pp. 22-26.
Hagood, M. J., y D. O. Price: Statistics for Sociotogists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 23.
Hays, W. L .: Statistics, Holt, Rinehart and Winston, Inc., Nueva
York, 1963, cap. 16.
Heise, D. R.: "Separating Reliablity and Stability in Test-Retest
Correlation", American Sociological Review, vol. 34, pp. 93-101,
1969.
Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963, Parte II.
Kendall, M. G.: Rank Correlation Methods, Hafner Publishing
Company, Inc., Nueva York, 1955, caps. 1, 3 y 4.
Kruskal, W. H.: Ordinal Measures of Association, Journal o/
the American Statistical Association, vol. 53, pp. 814-861, 1958.
Mueller, J. H., K. Sehuessler, y H. L. Costner: Statistical Reasoning in Sociology, 2? ed., Houghton Mifflin Company, Boston, 1970,
cap. 10.
Siegel, Sidney: Nonparametric Statistics for the Behavioral Scien
ces, McGraw-Hill Book Company, Nueva York, 1956, cap. 9.
Somers, R. H,: "A New Asymxnetric Measure of Association for
Ordinal Variables", American Sociological Review, vol. 27, pp. 799811, 1962.
Wallis, W. A., y H. V. Roberts: Statistics: A New Approach, The
Free Press of Glencoe, 111., Chicago, 1956, cap. 17.
Wilson, T. P.: A Critique of Ordinal Variables, Social Forces,
vol. 49, pp. 432-444, 1971.
Wilson, T. P.: "A Proportional-Reduction-in-Error Interpretation
for K endairs tau-b", Social Forces, vol. 47, pp. 340-342, 1969.

E n los dos ltim os captulos nos hem os ocupado de la relacin


e n tre dos escalas de intervalo, e n tre u n a variable dependiente
y u n a sola v ariable independiente. Los anlisis de correlacin y
reg resi n pu ed en extenderse fcilm ente p a ra co m p ren d er cual
q u ier n m ero de escalas de intervalo, u n a de las cuales puede
to m arse com o dependiente, y las dem s com o independientes. El
p ro b lem a se pued e concebir com o u n p ro b lem a de prediccin en
el q u e trata m o s de p re d ecir u n a variab le dependiente Y a p a rtir
de las variables X lr X 2, . . . , X k. H abrem os de servirnos de n u e
vo de u n m odelo m uy sencillo, que ser directam en te anlogo a
la reg resi n lineal, excepto en cu an to al hecho de que h a b r m s
de dos dim ensiones.
El concepto d e correlacin se generalizar en dos form as. E m
plearem os el trm ino1 d e correlacin parcial p a ra designar la co
rrelaci n e n tre dos variables cualesquiera cuando los efectos de
o tra s variables se h an controlado. El d e correlacin m ltiple,
en cam bio, serv ir p a ra in d icar qu ta n to d e la variacin to ta l de
la variab le dep en diente p u ed e explicarse p o r todas las variables
in d ep en d ien tes actu an d o co n ju n tam en te. V erem os q u e los m ate
riales exam inados e n el p re se n te captulo co m portan en su m ayor
p a rte extensiones d irectas de razonam ientos presen tad o s an te
rio rm en te. Una vez que hayam os am pliado las nociones de co rre
lacin y regresin, estarem o s en condiciones, en el ca p tu lo si
guiente, de e m p re n d er el anlisis d e covariancia, que com porta
u n a com binacin d e las tcnicas de regresin con el anlisis de
la variancia.
X IX .l. R egresin m ltip le y m n im o s cuadrados
E n la reg resi n m ltip le tra ta m o s d e p re d e c ir u n a sola variable
d ep en d ien te a p a r tir d e cu alq u ier n m ero d e variables indepen
dientes. Si se d a u n gran n m ero de variables de escala d e in te r
valo que deban relacio n arse e n tre s, ser posible, p o r supuesto,
p re d ecir cu alq u ier variable p a rtic u la r a p a r tir de cualquier
com binacin de las dem s. P o r lo re g u la r re su lta r claro del
co n tex to cules variables h an d e co n sid erarse com o indepen
d ien tes y cules com o d ep endientes.1 As, p o r ejem plo, p u ed e que
r e r p re d ecirse el xito e n la universidad a p a r tir de u n a serie de
m arcas de a p titu d y del xito en la escuela secundaria. O puede
re s u lta r posible p re d e c ir la ta s a de crecim iento de u n a ciudad

1 Cuando se crea que existe una causacin recproca, o retroalimentacin,


de la variable "dependiente hacia alguna de las dems, debern emplear.se
ecuaciones simultneas en lugar de mnimos cuadrados. Vanse [4] y [121.

conociendo facto res com o la m ag n itu d actual, los p o rcen tajes de


m ano de o b ra en las diversas ocupaciones, o la m agnitud y la
d istan cia del gran cen tro u rb a n o m s prxim o.
E n el anlisis de regresin m ltip le definim os la ecuacin de
regresin com o el curso de la m edia de la variable dependiente
Y p a ra to d as las com binaciones de X lr X 2, . . . , X k. E n o tro s tr
m inos : p a ra cad a com binacin d e X fijas h a b r u n a distribucin
de las Y . C ada d istrib u ci n te n d r u n a m edia u,y|x1( x2, . . . , x fc y
u n a desviacin e st n d a r gy|Xj, x2, . . . , xfc, y habrem os de supo
n e r u n a vez m s que to d as estas distribuciones son norm ales y
q u e las desviaciones e st n d a r son iguales (hom oscedasticidad).
E l re c o rrid o d e las m edias y a n o seguir siendo u n a curva en el
espacio bidim ensional, sino q u e ser, antes bien, u n a especie de
h ip ersu p erficie en u n espacio de (fc + 1) dim ensiones. Es obvio
que y a n o estarem os en condiciones de re p re se n ta r u n curso se
m ejan te, excepto en el caso en que slo tengam os dos variables
in d ependientes X x y X 2.
E n el ca p tu lo a n te rio r supusim os u n a ecuacin de regresin
lineal d e la fo rm a Y = a + fiX. Y habrem os de volver a suponer
u na fo rm a sencilla d e la ecuacin de regresin. Supongam os, pues,
que el curso d e las m edias de Y ad o p ta la f o r m a :
Y = a + frX i + p2X2 + . . . + % X lc

( X IX .l)

en donde a, |31; p2, . . . ,


son constantes. sta es la ecuacin m s
sencilla posible d e regresin m ltiple, y es d irectam ente anloga
a la reg resi n lineal en el caso d e dos variables. E n efecto, si
todas las p, excepto una, son cero, el problem a se reduce al caso
bidim ensional.
Si podem os su p o n er u n a poblacin "norm al m u ltiv ariab le" en
la que cad a variable est d istrib u id a no rm alm e n te alrededor de
todas las dem s, entonces podem os satisfacer los tres supues
tos req u erid o s. E n otros trm inos, u n a d istrib u ci n n orm al m ul
tivariable nos asegura que las ecuaciones d e regresin sern de
la fo rm a a n terio r, que las distribuciones de las Y p a ra X d eter
m inadas sern todas norm ales, y que las variancias sern tam
bin iguales. E sto constituye u n a generalizacin obvia de las
p ro piedades de la distribucin n o rm al bivariable. S obra decir que
la distrib u ci n n o rm al m u ltiv ariab le n o puede re p resen ta rse geo
m tricam en te (p ese a que tien e u n a ecuacin algebraica perfecta
m en te d efin ida), to d a vez que tuvim os ya necesidad de tres di
m ensiones p a ra re p re se n ta r el caso bivariable.
Con o b jeto d e p ro p o rcio n ar u n a m ejo r com prensin intuitiva
de la n atu raleza d e las extensiones im plicadas, ser conveniente
exam inar el caso en que n o hay m s que dos variables indepen
dientes (vase la figura X IX .l). La ecuacin d e regresin Y = a +
P A + P2Y 0 p u ed e re p resen ta rse en este caso p o r m edio de u n

plano en u n espacio tridim ensional. Si dejam os que Xx = X :2 0,


obtenem os Y = a, lo que indica que el plano d e regresin co rta
el eje d e las Y a u n a a ltu ra a. Con o b jeto de o b ten er tina in te r
p re ta ci n de las p, tom am os las intersecciones del plano de re
gresin con planos p erpendiculares a los ejes de
y X 2. As,
p o r ejem plo, si tom am os u n plano p erp en d icu lar al eje de X 2,

Fig. X IX .l. In terp reta ci n geom trica de la regresin m ltip le de


Y sobre X x y X ^
m an ten em o s de h echo a X 2 constante, ya q u e todos los p u n to s
situados en este p lan o te n d r n el m ism o v alor d e X 2. E ste plano
c o rta el plano de regresin en u n a recta, y la pen d ien te de esta
re c ta ser {3i. E n o tro s trm inos, si m antenem os X 2 en u n valor
fijo,
re p re se n ta la p endiente de la lnea de regresin de Y a X x.
Y en fo rm a anloga, el hecho de m a n te n e r co n stan te a X t nos
da u n p lan o q ue in te rse c ta el plano d e regresin en u n a lnea de
p en d ien te |32.
Conviene o b serv ar que las |3 em pleadas en la regresin m ltip le
n o sern p o r lo re g u la r las m ism as q u e las que se obtuvieron en
el caso de dos v ariables. D esignando el caso de dos variables
com o reg resi n total, vem os que la |3 em pleada en la regresin
to tal se o b tien e prescindiendo de las dem s variables indepen
d ientes, y n o m an tenindolas constantes. Las 3 obtenidas en las
ecuaciones d e reg resin m ltiple se designan com o coeficientes
parciales, p o rq u e co m p o rtan pendientes que se o b ten d ran eli
m inando' o m an ten iendo constantes cada u n a de las dem s v aria
bles in d ep en d ien tes consideradas en la ecuacin d e regresin.
E l concepto de los m nim os cu ad rad o s p u ed e am pliarse en u n a
fo rm a sem ejante. Como q uiera que es casi siem pre necesario
a p reciar tm a ecuacin d e regresin ad a p ta n d o u n a a los datos
em pricos, h ab rem os de re q u e rir u n a vez m s que la ecuacin de

estim aci n re v ista u n a fo rm a p a rtic u la r y se sirva del criterio


de los m nim os cuadrados p a ra conseguir el " m e jo r" ajuste. Nos
servirem os de u n a ecuacin de m nim os cu ad rad o s de la f o r m a :
(X IX .2)
y volver a re s u lta r que, a condicin que la ecuacin d e reg re
sin sea efectivam ente de la m ism a form a, la ecuacin de los m
nim os cu ad rad o s re p re se n ta la m e jo r estim acin de la ecuacin
de regresin. E n otros trm inos, si nos servim os d e a p a ra esti
m a r a, y de fe p a ra estim a r |3, estas estim aciones sern insesgadas y, al p ro p io tiem po, d e eficiencia m xim a. P o r consiguiente,
n u e stra aten ci n p u ed e fija rs e en el anlisis d e los m n im a
cu ad rad o s com o m todo p rctico d e estim a r u n a ecuacin te
ric a que se aplica a la poblacin. Si slo h ay dos variables inde
pend ien tes, aju stare m o s u n a serie de p u n to s en el espacio trid i
m ensional con u n plan o d e m e jo r aju ste. E n u n espacio de (k +
1 ) dim ensiones, p o r su p a rte , aju stare m o s p u n to s con u n hiperp lan o de k dim ensiones, si es que sem ejan te fig u ra se puede
concebir.
T om ando el caso tridim ensional, reducirem os al m nim o la can
tid ad 2 ( F - Y pp, que re p re se n ta la sum a de las desviaciones al
cu a d rad o resp ecto del plano
d e m nim os cu ad rad o s en la
dim ensin v ertical de Y (va
se la fig u ra X IX .2). El re
su ltad o ser u n plan o nico
d e m ejo r aju ste, determ inado
p o r valores especficos de a,
bx y b2. Segn verem os, p u e
de u tilizarse luego u n coefi
ciente de correlacin m lti
ple p a ra m e d ir la b o n d ad de
a ju ste de los p u n to s al plano
de m nim os cuadrados. Se
ra tam b in "posible, p o r su
puesto, m e d ir el grad o de
a ju s te m ed ian te u n a desvia
cin e s t n d a r re fe rid a al pla
no, y p o d ram os co m p arar
esta desviacin con la des
viacin e s t n d a r en relacin
con la Y fija (rep rese n tad a Fig. XIX.2. Plano d e m nim os
ah o ra com o plano p erp en d i cuadrados, que reduce al m nim o
c u la r al eje d e las Y ). Alge las sum as de las desviaciones al
b raicam en te, el caso m s ge
cuadrado en ta dim ensin
n eral es u n a am pliacin di
vertical Y.

re c ta del caso de tre s variables. La cantidad 2 (Y Y p)2 se m ini


m iza, y h a b r q ue calcular ( k + 1) coeficientes, esto es, a, bt b2,
. . . bk. El clculo efectivo de estos coeficientes ser posible exa
m in arlo m s adelante, cuando hayam os efectuado el estudio de
la correlacin parcial.
XIX.2. Correlacin parcial
Podem os servirnos de este m odelo de regresin m ltip le p a ra
o b ten er m edidas del grado d e relacin e n tre u n a variable depen
d iente Y y cualquiera de las variables independientes, contro
lando u n a o m s d e ellas. El trm ino d e correlacin parcial se
em plea p a ra d esignar este tipo de procedim iento de control, el
cual, segn verem os, es bsicam ente m uy sim ilar al re fere n te al
anlisis de la variancia p o r dos m todos. E n la correlacin p a r
cial co n tro lam o s aju stan d o valores de las variables dependientes
e in d ependientes con o b jeto d e to m ar en cu en ta las puntuaciones
de las variables de control. P ara com prender la n aturaleza de
la correlacin p arcial y el procedim iento de ajuste, lim itarem os
p o r ah o ra n u e stra atencin a los problem as m s sencillos, en los
q ue fig u ran slo tres varia
bles, y supondrem os m ode
los de regresin lineal en tre
las tres com binaciones de va
riables tom adas de dos en
dos.
Supongam os que querem os
m ed ir el grado de relacin
en tre u n a variable depen
d ien te Y y u n a variable inde
p endiente X lt controlando en
relacin con o tra variable in
dependiente X<. P ara servir
nos de u n ejem plo concreto,
podem os ten er inters en
p re d ecir la ta sa d e discrim i
nacin econm ica c o n tra los
negros, m edida p o r las dife
rencias de ingreso e n tre los
blancos y los negros, y el
grado de urbanizacin, segn
re su lta del p o rc en taje de u n
[b)
d istrito designado com o u r
Fig. XIX.3. R ectas de m nim os bano. Se esp era con seguri
cuadrados indicando los residuos d ad que el p o rcen taje de ne
gros en el d istrito afectar
en tre: a) Y y X 2, y b) entre
asim ism o la tasa de discrim i
X, y X2 . . .

nacin, y se decide en consecuencia u tilizar el p o rc en taje de ne


gros com o variable de control.
S upngase q u e las lneas de m nim os cuadrados e n tre la dis
crim inacin Y y el p o rc en taje d e negros X 2 y e n tre el p o rc en taje
u rb an o X 1 y el p o rc en taje de negros son com o las que se indi
can en la fig u ra XIX.3. La relacin en tre la discrim inacin y el
p o rcen taje de negros es positiva, lo que indica q u e tasas elevadas
de discrim inacin se hallan asociadas a p o rc en tajes elevados de
la m in o ra en cuestin. P o r o tra p arte , la relacin e n tre el ndice
de urbanizacin y el p o rc en taje de negros es negativa. Sobre la
base de la sola inform acin, anticiparam os u n a relacin negativa
e n tre las tasas d e discrim inacin y la urbanizacin. E n otros
trm in o s: las reas u rb a n as p o d ran ten er tasas b ajas, debido
sim plem ente al hecho de que en prom edio cuentan con relativa
m ente m enos negros. Supngase, sin em bargo, que estuviram os
en condiciones, en alguna form a, d e "fo rzar" todos los d istrito s
a ten er los m ism os p o rcen tajes de la m inora. Podram os elim i
n a r en esta fo rm a el efecto p e rtu rb a d o r d e esta te rc e ra variable.
E n realidad, p o r supuesto, no podem os h ac er efectivam ente to
dos los p o rc en tajes de la m in o ra iguales, p ero podem os p o r lo
m enos e fectu ar aju stes en relacin con el hecho d e que difieren.
Como q u iera que sabem os (o podem os ap reciarla) la relacin
e n tre la variable de control y cada u n a de las o tras dos variables,
podem os p re d ecir cm o se co m p o rtaran stas resp ecto de cam
bios en la v ariable de co n tro l.2 De hecho, las ecuaciones de m
nim os cuad rad os rep resen tad as en la figura XIX.3 constituyen
n u estras ecuaciones de prediccin y pueden em plearse en el p ro
ceso de ajuste.
Al relacio n ar la discrim inacin Y al p o rc en taje de negros X 2,
podem os concebir la variacin de las tasas de discrim inacin
com o resu ltad o de dos com ponentes, siendo la p rim e ra de ellas
el p o rcen taje d e negros y, la segunda, debindose a o tro s factores,
un o de los cuales puede ser la urbanizacin. Como ya vimos, esta
segunda com ponente puede re p resen ta rse com o desviaciones res
pecto de la ecuacin de m nim os cuadrados que com porta Y y X 2,
E n trm inos d e X 2, estas desviaciones o residuos rep resen tan
erro r. Aun si X & se m an tu v iera constante, subsistiran. En es
tos residuos, p o r consiguiente, son en los que estam os en verdad
interesados, ya que rep resen tan la cantidad d e variacin en la
discrim inacin que subsiste u n a vez que el p o rc en taje de negros
h a explicado to d o lo que po d a de la variacin.
Y en fo rm a anloga, nos interesarem os tam bin en los residuos
o desviaciones respecto de la ecuacin em pleada p a ra p redecir
el p o rcen taje u rb an o a p a rtir del p o rc en taje de negros. E n otros
2 Debe insistirse de nuevo en que la justificacin para interpretar resulta
dos de tal ajuste, hecho con lpiz y papel, implica el supuesto causal de que
la variable de control puede afectar a las otras dos variables.

trm in o s: dejam os que el p o rcen taje de negros explique la va


riaci n en las o tras dos variables to d o lo que pueda. Y si ahora
ponem os los residuos en relacin de unos con otros, obtenem os
u n a m ed id a de la relacin e n tre Y y X t que es independiente de
los efectos de X l2. La correlacin parcial entre Y y Xx controlan
do X2, puede definirse com o la correlacin entre los residuos de
las regresiones de Y sobre X 2 y de X x sobre X 2. E n cierto sen
tido, pues, la correlacin parcial re p resen ta la correlacin en tre
"e rro re s' respecto de la variable de control.
El que tenga algn sentido co n tro lar en relacin con X 2 corre
lacionando residuos p o d r parecer oscuro an. Quiz la explica
cin sea m s aceptable si exam inam os m s de cerca u n a relacin
h ip o ttica en tre dichos residuos. Supongam os, p o r ejem plo, que
p a ra el d istrito A encontram os u n gran residuo negativo al co rre
lacionar Y con X 2. E sto significa que el d istrito A p re sen ta con
sid erablem ente m enos discrim inacin de lo que se esp erara
conociendo solam ente su porcentaje d e m inora. El p u n to que re
p re se n ta ra dicho d istrito p a rtic u la r se situ a ra en algn lu g ar p o r
d eb ajo de la lnea de m nim os cuadrados. Supngase, asim ism o,
que el resid u o p a ra este m ism o d istrito fu e ra positivo al corre
lacio n ar X i con X 2. E n tal caso sabem os que el d istrito en cues
tin est m s u rb anizado de lo que se esp e rara conociendo so
lam en te su p o rc en taje de m inora. Tenem os, p o r lo tanto, u n
d istrito relativam ente urbanizado con tasas b ajas de discrim ina
cin, y sabem os, adem s, que dichos valores son altos y bajo s
respectivam ente en com paracin con o tro s d istrito s del m ism o
p o rcen taje de m inora. No podem os, p o r consiguiente, a trib u ir
la relacin negativa e n tre los residuos al hecho de que la cifra
del p o rc en taje de negros acontezca ser a lta o b aja. Y en fo rm a
anloga, el d istrito B puede ten er grandes residuos positivos
p a ra Y, p e ro negativos p a ra X t . P or consiguiente, este d istrito
ten d ra m ayores tasas de discrim inacin d e lo que se esperaba,
p ero e sta ra al propio tiem po m enos urbanizado que o tro s d istri
tos del m ism o p o rc en taje d e m inora. Es obvio que si m uchos
d istrito s son sim ilares a A o B, obtendrem os u n a correlacin ne
gativa, e n tre los residuos, indicando u n a correlacin negativa
e n tre la discrim inacin y la urbanizacin, a ju sta n d o en relacin
con el p o rc en taje de negros.
La correlacin p arcial da u n a sola m edida que resum e el grado
de relacin e n tre dos variables al co n tro la r en relacin con otra.
Segn verem os al exam inar los procedim ientos de clculo, el ra
zonam iento pued e extenderse fcilm ente a variables de control
adicionales. Podem os concebir varias ecuaciones de regresin
m ltiple, u n a de las cuales com porte Y y to d as las variables de
control, y la o tra relacionando X con estas m ism as variables.
Pueden obten erse los residuos de cada u n a d e esas ecuaciones
de regresin m ltip le y relacionarlos luego. A justarem os en esta

fo rm a en relacin con to d as las variables d e co n tro l al m ism o


tiem po. El p u n to im p o rtan te, aqu, es que slo obtenem os una
correlacin parcial, en ta n to que al co n tro la r con las tablas de
contingencia (con concesiones p a ra la in teracci n ) obtenam os
u n a m ed id a sep arad a p a ra cad a u n a de las categoras de las va
riables de control.
E n el captulo xv vim os q u e el grado de relacin e n tre dos va
riables p o d a v a ria r de u n a categora de la variable de co n tro l
a otra. As, p o r ejem plo, si el p o rc en taje de negros se hu b iera
categorizado, es perfectam ente posible que hubiram os obtenido
u n a elevada correlacin negativa e n tre la discrim inacin y la u r
banizacin p a ra d istrito s de p o rcen tajes de m in o ra m uy bajos,
pero con u n a correlacin positiva, de todos m odos, en el extrem o
opuesto del continuo p o rc en taje de negros. P o r lo tanto, el
hecho de que en la correlacin p arcial hayam os obtenido una
sola m edida de resum en p u ed e acaso oscurecer cierta inform a
cin acerca de la interaccin.
R esulta que el coeficiente de correlacin p arcial puede ser tam
bin in terp re tad o com o u n prom edio ponderado d e los coeficien
tes de correlacin que se h u b iera n obtenido si la variable de
co n tro l h u b iera sido dividida en m uy pequeos intervalos y calcu
lando correlaciones separadas d en tro de cada u n a de estas cate
goras. La n atu raleza exacta de este procedim iento de pondera
cin carece de im portancia, ya que n u n ca se hace uso de l en la
p rctica. N o tendra, p o r tanto, sentido p en sa r que las correla
ciones p arciales relacionan dos variables que "m antienen cons
ta n te a u n a tercera, ya que la fuerza de su relacin puede variar
d e acuerdo con el valor p a rtic u la r en que se m an tien e constante
la variable de control.
E n el caso d e la d istrib u ci n n orm al m ultivariable, sabem os
que todas las ecuaciones de regresin ten d r n la fo rm a especial
d escrita p o r la ecuacin (X IX .l). P ero la d istribucin norm al
m u ltivariable posee adem s o tra propiedad notable. Y es que
la fuerza de la relacin en tre dos variables ser la m ism a inde
p en dientem ente de los valores de las variables d e control. En
otros t rm in o s : si se seleccionara u n gran n m ero d e categoras
de u n a v ariable de control y se obtuvieran correlaciones d en tro de
cada u n a d e dichas categoras, todas las correlaciones ten d ran
el m ism o valor. P or lo ta n to , la correlacin p arcial ten d ra el
m ism o v alo r que cada u n a d e esas correlaciones d en tro de las
categoras. E n este caso especial, te n d ra as cierto objeto pen
sa r en trm inos del m antenim iento constante de la terc era va
riab le de control. Sin em bargo, com o quiera que en el m ejo r de
los casos slo podem os aproxim am os a la distribucin norm al
m ultivariable con datos reales, es m s seguro p e n sa r en la corre
lacin parcial com o prom edio ponderado, o com o si co m p o rtara
un a ju ste e n relacin con la variable d e control.

Clculo de los coeficientes de correlacin parcial. E l clculo


de las correlaciones parciales es su m am ente sencillo, a m enos
que se desee co n tro la r en relacin con tre s o m s variables a la
vez. Antes de p re se n ta r la f rm u la de la correlacin parcial, he
m os d e in tro d u c ir u n cam bio de notacin. P o r desgracia, lo que
constitu y e u n a n o tacin conveniente p a ra u n o b jeto no lo es p a ra
o tro , n i es el u so convencional to talm en te concordante. H em os
venido re p resen ta n d o la variable dependiente p o r Y y las v aria
bles in dependientes p o r X ly X 2, . . . , X k. E n reconocim iento del
h echo de que la eleccin de la variable dependiente es a m enudo
m s o m enos a rb itra ria y que, p o r consiguiente, podem os q u erer
calcu lar correlaciones parciales en tre varias com binaciones de va
riables, convendr re m u n e ra r sim plem ente las variables d e 1 a
k + 1 y re p re se n ta r la correlacin e n tre las variables 1 y 2, co n tro
lan d o en relacin con 3 m ed ian te r 12.s. Y en fo rm a anloga, la
co rrelacin e n tre las variables 2 y 3, co n trolando en relacin con
1 , p o r m edio d e r2:,.j.
E sta notacin puede extenderse fcilm ente a cualquier n m ero
de variables de control aadiendo m s nm eros a la derech a del
p u n to cen tral del subndice. As, p o r ejem plo, la relacin en tre
las variables 5 y 7, con control d e las variables 1, 2, 3, 4 y 6, nos
vendra d ad a p o r r67.i2346- El ord en de las dos variables a la iz
q u ierd a del p u n to n o juega papel alguno, lo m ism o que el de la
derecha. P ara d istin g u ir e n tre p arciales con n m eros diferen tes
de control, designam os el n m ero de controles com o el orden de
la correlacin. As, pues, u n p rim e r o rd en p arcial te n d r u n con
tro l; u n segundo orden, dos controles, y as sucesivam ente. E n
concordancia con esta term inologa, la correlacin sin controles
se designa a m en udo com o correlacin de ord en cero. Segn se
h a indicado1 m s arrib a , el trm in o correlacin total se em plea
tam b in p a ra d esignar u n a correlacin e n tre dos variables sin
controles.
Podem os d a r a h o ra la f rm u la del p rim e r orden p arcial r
ri}.k ..........

Uj

V 1-

..... - ....

,y

ty i \

( X IX .3)

V 1 _ rik2

O bsrvese que la p rim e ra correlacin del n u m era d o r es la co rre


lacin to ta l e n tre las dos variables a re lacio n ar (i y /). La v aria
ble d e co n tro l fig u ra en la segunda expresin del n u m era d o r, en
donde se la relaciona con cada u n a de las o tra s variables, as
com o e n am bos trm in o s del denom inador. C ualquier correlacin
p arcial p a rtic u la r puede o b ten erse a p a r tir de esta f rm u la ge
n eral, su stitu y en do i, j y k p o r los n m ero s apropiados. As, p o r
ejem p lo :

r 13.2

r 13

( ^*12 ) ( ^ 2 3 )

z u m iZ ""
V 1 ~ riz2 V 1 ~ r232

E n un estu d io de 150 d istrito s del S u r [3], la correlacin e n tre


la d iscrim inacin en los ingresos y el p o rc en taje d e negros fue
d e .536; aq u lla e n tre la discrim inacin e n los ingresos y el p o r
ce n ta je u rb a n o fu e de .139, y la correlacin e n tre los p o rcen tajes
de negros y u rb a n o fu e d e .248. Si llam am os al ndice d e dis
crim inacin v ariab le 1 , al p o rc en taje de negros v ariab le 2 y al
p o rc e n ta je u rb a n o variable 3, podem os o b ten er la correlacin
p arcial en tre la discrim inacin y el p o rc en taje urb an o , controlado
en relacin con el p o rc en taje de negros. Tenem os as:
.139 (.536) ( .248)
.2719
ri3-2-----------------------------------------------------------= .332
V I - (.536)2 V I - (-.2 4 8 )2
,8178
E ste re su ltad o p u ed e in te rp re ta rs e com o cori-elacin e n tre la dis
crim inacin y el p o rc en taje u rb a n o u n a vez que se h a d ejad o que
el p o rc en taje d e negros explique to d o lo q u e p u ed e de am bas
variables.
Si bien no re su lta r in m ed iatam en te evidente que la frm ula
a n te rio r p u ed a derivarse de la definicin de la correlacin p a r
cial en trm in o s d e u n a correlacin d e residuos, la f rm u la de
clculo, p o r lo m enos, tiene u n sentido. E n efecto, en el n u m era
d o r su straem o s esencialm ente u n fa c to r de correccin de la co
rrelaci n to tal. E n cu an to al denom inador, ste co n sta de dos
factores de correccin, ninguno de los cuales pu ed e se r m ayor
q u e la unid ad , que to m an en cu e n ta el hecho de q u e la variable
d e co n tro l explica cierta pro p o rci n d e la variacin de las o tras
variables. Si elevam os al cu ad rad o el coeficiente de correlacin
parcial, el n m ero re su lta n te re p re s e n ta r la p ro p o rci n de varia
cin de la v ariable 1 (d iscrim in aci n ), d ejad a inexplicada p o r 2
(p o rc e n ta je de n egros), p e ro que p u ed e explicarse1 p o r los valores
aju stad o s de X3 (p o rcen taje u rb a n o ).
E xam inem os la ecuacin (X IX .3) con m ayor atencin, p a ra ver
cm o la co rrelaci n p arcial se c o m p o rta en relacin con las tres
correlaciones totales. Con fines de sim plificacin, supongam os
p rim ero que ri} es positiva. Si rilc y rjk tienen am bas el m ism o
signo (ya sea p ositivo o negativo), su p ro d u c to ser positivo, y
el n u m era d o r ser o bien u n n m ero positivo m en o r que rijr
o ser inclu so cero o negativo. P o r o tra p arte , el denom inador
ser siem pre m en o r que la un id ad , a m enos que rilc = rjk = 0.
P o r consiguiente, la fraccin re su lta n te p u ed e se r casi cualquier
n m ero e n tre 1.0 y + 1 .0, segn sea la m agnitud d e las tre s co
rrelaciones to tales. V erem os m s ad elan te exactam ente lo que

p odem os y lo que n o podem os decir acerca del com portam iento


d e la p arcial en estas circunstancias.
Supongam os ah o ra que las correlaciones con la variable de
co n tro l son de signos opuestos. O btenem os en ta l caso u n p ro
d u cto negativo a s u s tra e r de u n n m ero positivo, y el re su ltad o
ser u n n m ero positivo m ayor. E sto significa que si em pezam os
con dos variables relacionadas positivam ente y si podem os en
c o n tra r u n a v ariable de control relacionada negativam ente con
u n a d e ellas p ero positivam ente con la o tra, la p arcial re su lta n te
ser m ay o r q u e la correlacin de orden cero. Si la correlacin
d e la variable de control con u n a u o tra d e las o tras variables
acontece se r cero, el fa c to r de correccin del n u m era d o r ser
cero. P ero si la variable de control se h alla correlacionada ya
sea p ositiva o n egativam ente con la variable restan te, el denom i
n a d o r ser m en o r q u e la unidad, y la correlacin p arcial volver
a ser m ay o r que la correlacin total.
Si h u b iram o s em pezado con u n a correlacin to tal negativa,
u n a v ariab le de control relacionada con ca d a u n a de las o tras
dos en la m ism a direccin (y a sea positiva o negativa) p ro d u cira
u n a co rrelacin negativa m ayor. Sin em bargo, si se relacionara
con ellas en sen tido opuesto, el re su ltad o sera anlogo al que
se h a d escrito en p rim e r trm in o (e n donde la correlacin to tal
e ra p o sitiv a y el fa c to r de correccin positivo asim ism o). P or
qu? E n cam bio, si la v ariab le de control n o se relacio n ara con
u n a d e las o tra s variables, el re su ltad o sera u n a correlacin
p arcial con u n v alor ab so lu to m ayor que la total. Y si la variable
d e co n tro l no se re la cio n ara con ninguna de las o tra s variables,
la co rrelacin p arcial sera exactam ente igual, p o r supuesto, a la
co rrelaci n to tal. Una vez que hayam os exam inado la relacin
e n tre la co rrelacin p arcial y las in terp retacio n es causales, esta
rem os en condiciones de d a r u n a ju stificaci n intuitiva del com
p o rtam ien to de las correlaciones p arciales en estas diversas con
diciones.
Las f rm ulas de las parciales de segundo orden o su p erio r son
d irectam en te anlogas a las de la p arcial d e p rim e r orden. E n
efecto, vam os a adiendo sim plem ente variab les de control suce
sivas, em pezando cada vez con la p arcial d e ord en u n o m enos
que el deseado. As, p o r ejem plo, las frm ulas de r i m y ris.Um
sern :
r ij-k ~~ ( ril-Jc)(rfl-k)
(X IX .4)
V

O bsrvese que en la ecuacin (X IX .4) suponem os q u e ya hem os


co ntrolado en relacin con la variable X k. P or lo tan to , la k apa
rece a la d erech a del p u n to en las tre s p arciales de p rim e r orden.
Y en fo rm a anloga, en la ecuacin (X IX .5) hem os controlado
previam ente en relacin con X k y X u y de aqu que estas can tid a
des figuren en cada u n a de las parciales de segundo orden.
Las p arciales d e cu a rto y q u in to ord en p o d ran o b ten erse en
fo rm a anloga, y re su lta r in stru ctiv o tr a ta r d e esc rib ir las frm u
las de estas p arciales de orden superior. De m odo que la m anera
de calcular estas ltim as es id n tica a la que em pleam os en el
caso del p rim e r orden. P ero el tra b a jo que supone se hace p ro n
tam en te ab u rrid o . As, p o r ejem plo, con o b jeto de o b ten er u n a
parcial de te rc e r o rd e n con este m todo, h an de h a b e rse obte
n ido previam ente tre s parciales de segundo orden, cad a u n a de
las cuales h a de h ab e rse obtenido a su vez calculando parciales
de p rim e r ord en a p a r tir de correlaciones de orden cero. Si el
lecto r tra ta ra de expresar la f rm u la de las parciales de tercer
orden d irectam en te en trm inos d e las correlaciones de o rd en
cero, se d ara cu en ta del tra b a jo que esto rep resen ta.
A fortunadam ente, en la investigacin sociolgica ra ra vez resul
ta necesario ir m u ch o m s all d e las parciales de segundo o te r
cer orden. P o r lo regular, la adicin de controles m s all del
segundo o te rc e r control p ro p o rcio n a m uy pocos conocim ientos
nuevos. Si se h ace necesario servirse d e parciales d e ord en su
p erio r, o de ecuaciones de regresin m ltip le de cu a tro o m s
variables, existen ciertas ru tin a s d e clculo que facilitan consi
derab lem en te la labor. P ara tr a ta r tales problem as el lecto r po
d r re ferirse ya sea al m todo abreviado de D oolittle o al de
Dwyer, de la raz cu a d rad a (vanse [9 ] y [11]). De estos dos
m todos, el p rim e ro tal vez sea m s satisfactorio, p o r cu an to p e r
m ite o b ten er d irectam en te las parciales sucesivas r12.3, r 12.34,
r 12-345, etctera.
Correlacin parcial de rangos ordenados. La teo ra d e las co
rrelaciones p arciales de rangos ordenados est m enos bien des
arro llad a. P uede extenderse al caso de las parciales d e p rim er
ord en la ta u d e K endall, aunque la in terp re taci n de la tau p ar
cial no re su lta ta n aceptable in tu itiv am en te com o en el caso de
la correlacin de producto-m om ento. Si n o hay em pates, resu lta
que la f rm u la de la ta u parcial es id n tica a la que hem os estado
em pleando. (V anse [13] y [19].) As, p o r ejem plo:
(X IX .6)

En el caso que h ay a u n gran n m ero de em pates p o d r u sarse


u n procedim iento alternativo, sugerido p o r Davis [7 ] p a ra el caso

de gam m a, p ero su p rin cip io puede aplicarse a cualquiera de las


m edidas de ta u o a dvx y dxy. Si controlam os p a ra W, categorizarem os sim plem ente W, com putando gam m as (u o tras m ed id as)
d en tro de las categoras de W, obteniendo u n prom edio ponde
ra d o de dichas gam m as. P ero en lugar de p o n d e ra r segn el n
m ero de casos en cada categora, lo harem os segn el n m ero de
pares afectados. De esta m anera, en el caso de u n a gam m a p a r
cial, estam os considerando ta n slo aquellos pares que n o estn
em patados, bien en X o en Y , p ero que lo estn con respecto a
la categora de la variable de control. Davis d em u estra que tal
p rom edio p o n d erado puede re cib ir u n a sim ple in terp retaci n de
reduccin p roporcional en el error. Q uade [16], ofrece u n proce
dim iento anlogo de prom edio ponderado p a ra el caso de ta u a, fa
cilitando asim ism o u n a p ru e b a de significancia p a ra dicho parcial.
E n la investigacin exploratoria puede te n e r sentido el utilizar
m ltip les variables de control, bien p o r am pliacin de la f rm u
la (X IX .6) o dividiendo las variables de control en m ltiples subcategoras. Los cim ientos tericos de tales procedim ientos no
son, sin em bargo, m uy firm es, p artic u la rm en te cuando se dan
num erosos em pates (vase [20]). Som ers [19] h a observado que
en el caso de las relaciones no m onotnicas m arcadas, el pro ce
dim iento que Davis sugiere puede se r engaoso. Como n o rm a
general, en vista de n u e stra ignorancia acerca de las propiedades
y com p o rtam ien to de las m edidas ordinales parciales, puede re
su lta r p ru d e n te utilizarlas con precaucin, com plem entndolas
con m edidas m om ento-producto aun all donde las escalas legti
m as de in tervalo no estn plenam ente justificadas. E n u n te rre n o
ideal debe, p o r supuesto, in ten tarse m e jo ra r los procedim ientos
de m edicin, ju stificando as el uso de p ru e b as y m edidas param tricas m s poderosas.
Como est im plcito en n u estra s an terio res consideraciones so
b re los datos ordinales, u n a de las razones fundam entales p o r las
que re su lta difcil llegar a conclusiones definitivas en ord en a la
adecuacin de m edidas altern ativ as est en que tales resp u estas
p arecen d ep ender del concepto que u n o tenga acerca d e la " re a
lid ad bsica" que los datos reflejan. Ya hem os observado esto
en relacin con la m anipulacin de los em pates, y, en fo rm a im
plcita, con el proceso de categorizacin. Una m an era m uy p ro
m eted o ra de a ta c a r este difcil p roblem a supone la construccin
de u n a "realid ad cuyas propiedades sean conocidas, m ediante
el em pleo de datos originados en la com putadora, o de datos si
m ulados. Pueden, p o r ejem plo, crearse variables con d istribucio
nes de frecuencia norm ales, rectangulares o desviadas. Pueden
u sarse m odelos lineales o n o lineales, v a ria r las m agnitudes re la
tivas d e las variancias de e rro r y fo rm a r grupos de datos m ultivariados con e stru c tu ra s causales conocidas (p o r ejem plo, X y Y
con relacin esp u ria debida a Z o varias Z). Los datos podran

a continuacin se r agrupados d e d istin ta s m aneras, utilizando di


versos procedim ientos, com parando las diferentes m edidas o rd i
nales en v ista de su conform idad con el com portam iento deseado.
P o r ejem p lo : se reduce casi a cero la parcial e n tre X y Y cuan
do se co n tro la p a ra Z, all donde los datos h a n sido creados de
co nform idad con el m odelo X +-Z-* Y?
Reynolds [17] h a logrado algunos resu ltad o s esperanzadores
utilizando v ariedad d e m odelos, tip o s d e d istribucin de frecuen
cias y m odelos n o lineales, y m ed ian te la introduccin de cierto
n m ero d e com plicaciones adicionales, hab ien d o en co n trad o que
si se utilizan p o r lo m enos cinco niveles de cada variable (aunque
p refere n tem en te deban se r h a s ta diez), pueden lo g rarse m uy
buenas aproxim aciones al com portam iento de las parciales m o
m ento-producto, utilizando d iferen tes procedim ientos d e separa
cin y cualesq uiera de las m ed id as xt, xc, d yx o r a, corregida p a ra
em pates. Si el n m ero de estos ltim o s es apreciable, los valores
num ricos d e las asociaciones to tales que utilicen xa (la que no
co rrig e p a ra em p ates) tien d en a s e r tan bajo s que re su lta difcil
d istin g u ir sus valores de los de las parciales. Si el to ta l xa es de
solam ente .20, el e rro r de m u estreo pu ed e se r suficiente p a ra que
resu lte difcil d eterm in a r si h u b o o n o u n a reduccin suficiente
m en te g ran d e en la parcial q u e p e rm ita apoyar la hiptesis de
que la relacin es espuria.
T am bin h a en co n trad o R eynolds que la gam m a n o se com por
ta tan bien b a jo el seccionam iento com o las o tra s m edidas, tal
vez p o r causa de su sensibilidad extrem ada an te m arginales des
iguales. E n los casos en que el m odelo co rrec to im plica u n a re
lacin esp u ria e n tre X y Y debida a W, los controles so b re W no
reducen la gam m a parcial a cero. Los datos d e Reynolds parecen
tam bin fav o recer el em pleo d e los procedim ientos de secciona
m iento de prom edios ponderados p o r com paracin con el uso de
la f rm u la d e seccionam iento de la ecuacin (X IX .6), aun cuan
do debe ten erse p resen te la ad v erten cia d e S om ers re la tiv a a las
variables d e co ntrol n o m onotnicas. P o r ltim o, y esto es im por
tan te, R eynolds h a encontrado q u e el seccionam iento (usando
prom edios p o n d erad o s), con xh, xc y d m dio excelentes resultados
en el caso d e las relaciones m onotnicas, p ero n o lineales, en
ta n to que los p rocedim ientos m om ento-producto o p aram tricos
n o los daban. E n el ltim o caso, si se conocen las puntuaciones
reales, sera p re ferib le tra b a ja r con m odelos explcitos n o lineales
y procedim ientos param trico s. E n ausencia d e ta l conocim iento,
el em pleo d e los procedim ientos p aram trico s con puntuaciones
asignadas a rb itra ria m e n te (y conservando el o rd e n ) dio re su lta
dos engaosos.
Debe observarse, p o r ltim o, que el p roblem a de c re a r m edidas
d e correlacin m ltiple, usando tcnicas ordinales, n o h a sido
estu d iad o sistem ticam ente. M orris [15] h a en co n trad o incluso

que ta n to la gam m a com o la dyx tienen la indeseable propiedad


d e que si se fo rm an m edidas d e correlacin m ltiple u san d o p ro
cedim ientos p lenam ente razonables, la agregacin de m s valo
res explicativos puede trad u c irse realm en te e n la dism inucin de
los valores de dichas dos m edidas. Sugiere u n a m edida a ltern a
tiv a Yfc que es u n a generalizacin m u ltiv ariad a d e la d ^ (n o d e la
dyx) de Som ers, com o m ed id a asim trica d e asociacin m ltiple
o rd in al m s apropiada.
XIX.3. Correlacin parcial e interpretaciones causales
Y a se seal que el anlisis d e correlacin n o se puede em plear
d irectam en te p a ra estab lecer causalidad debido al hecho d e que
las correlaciones slo m iden la covariacin, o sea el grad o en
que diversas variables cam bian ju n ta s. Sin em bargo, u n o de los
objetivos bsicos de to d a ciencia est en establecer relaciones
causales. In d ep endientem ente de las reservas filosficas que se
p u ed an sen tir en cu an to a las nociones de causa y efecto, es su
m am ente difcil p en sa r tericam ente en cualesquiera otros trm i
nos. E n el captulo ix se seal que existe u n a b rech a m uy real
e n tre el lenguaje terico, que em pleam os p a ra pensar, y el len
guaje operativo, del que nos servim os p a ra verificar las hiptesis.
E l p ro b lem a espinoso de la causalidad no es m s que o tra indi
cacin de la existencia de dicha brecha. P ensam os a m enudo en
trm in o s de relaciones causales que co m portan secuencias tem
porales necesarias. As, p o r ejem plo, si A es causa de B , enton
ces B h a d e seguir necesariam ente a A, y si ^4 est ausente, B h a
de estarlo asim ism o. P o r supuesto, este concepto de la causali
d ad est excesivam ente sim plificado. P o r lo pro n to , n o se han
tenido en cuenta o tra s variables, y slo tien e sentido h a b la r de
causa y efecto cuando se pueden establecer ciertos supuestos a
p ro p sito de esos o tro s factores. P or o tra p arte , A y B pueden
v a ria r en grado, y no sim plem ente estan d o p resen tes o ausentes.
E m pricam ente, p o r supuesto, n u n ca podem os p ro b a r que la
conexin en tre dos variables sea necesaria. Podem os averiguar,
en cam bio, el grado en que varen ju n ta s, y re su lta asim ism o po
sible, e n ocasiones, re g istra r la secuencia tem p o ral im plicada. A
p a r tir de estos dos fragm entos de inform acin podem os fo rm u
la r deducciones causales si querem os. Si n u e stra te o ra puede
d e m o stra r u n a conexin lgica en tre dos variables, o> p red ecir
que B seguir a A, n o necesitam os ato rm e n ta rn o s dem asiado por
el hecho de efectu ar el salto intelectual a la in terp re taci n cau
sal. P o r o tra p arte , si no logram os h a lla r razn te rica alguna
p a ra enlazar d irectam ente dos acontecim ientos, solem os, p o r lo
regular, sentirnos m s vacilantes. Tenem os m ayor propensin, p o r
ejem plo, a co n siderar la relacin com o espuria. P or desgracia,
n ad a hay en el anlisis d e correlacin que nos ayude a decidir

al respecto, a m enos que estem os dispuestos a a d m itir algunos


supuestos a p ro p sito de las variables p artic u la res consideradas
y a p ro p sito d e o tras, que acaso pu ed an p ro d u c ir tam bin sus
efectos. Veam os cm o h a b r n d e se r dichos supuestos.
Supngase q u e estam os investigando la relacin e n tre el con
sum o p er capita de helados y las tasas de la delincuencia juvenil.
Es p ro b ab le q u e hallem os u n a relacin negativa. U na d e las in
terp retacio n es causales posibles sera la de p en sa r que los helados
son ta n buenos p a ra los nios que previenen la delincuencia. O tra
p o d ra ser la de que las tasas elevadas de delincuencia hacen que
los nios p ie rd a n su gusto p o r los dulces. P o r supuesto, descar
taram o s in m ed iatam en te dichas in terp retacio n es p o r absurdas,
pese a que o tra s n o m enos ab su rd as se hayan to m ad o en serio
en algn m o m ento u otro. Se razo n ara probablem ente en el sen
tid o de que la relacin h allad a e ra espuria, p o r cu an to una
te rc e ra variable, el ingreso, p o r ejem plo, era cau sa de que las dos
variables v aria ran d e tal m odo que re su lta ra d e ello u n a correla
cin negativa.
Una p ru e b a del ca rc te r espurio, vlida adem s si se em plea
adecuadam ente, consiste en co n tro la r en relacin con el nivel del
ingreso. Si la correlacin parcial
e n tre el consum o de helados y la
z
delincuencia se reduce a cero, o a
cerca d e cero, podem os ded u cir que
no se d a relaci n causal e n tre las
dos variables. Podem os, efectiva
m ente? Tom em os o tro ejem plo m uy
parecido. S upngase que e n c o n tra
m os u n a relacin negativa e n tre el
nivel del in g reso y la delincuencia,
y decidim os co n tro la r en relacin
con el p o rc e n ta je de hogares des
hechos en el rea considerada. Po- Fig. XIX.4. Las seis flechas
dem os h a lla r d e nuevo que la par- causales posibles entre
cial se reduce a cero. E s p o r ello
X, Y y Z.
esta relacin esp u ria? E sta vez ya
no estam os ta n seguros, p ese a que n o haya acaso absolutam ente
n ad a en la m ag n itu d de las correlaciones o en el com portam iento
de las p arciales que difiera en m odo alguno del p rim e r caso. Con
el p ro p sito de a ta c a r el p ro b lem a bsico que aqu se nos plan
tea, volvam os a tr s y considerm oslo en fo rm a u n poco m s sis
tem tica.
L im itando d e m om ento n u e s tra atencin al caso de tres varia
bles, observam os que se d an seis conexiones causales posibles
en tre stas. Si designam os las variables com o X , Y y Z e indica
m os la direccin d e la causalidad p o r m edio de flechas, podem os
tra z a r u n d iagram a de las conexiones posibles, com o en la figu

ra XIX.4. E n to d o p ro b lem a determ inado, p o r supuesto, algunas


d e esas flechas h a b r n de b o rrarse. D escartam os la posibilidad de
la causalidad de doble sen tid o razonando en el sentido de que, si
se seleccionan acontecim ientos discretos, la secuencia tem poral
h a b r de se r en u n sentido o en otro, p ero n o en am bos a la vez.
As, p o r ejem plo, en lu g ar de sostener q u e el desem pleo produce
recesin econm ica y viceversa, digam os que el desem pleo d e Jo

(el

ca)
Z
X-

*Y

(</)

(*)

(f)

Fig. XIX.5. R elaciones causales posibles entre X, Y y Z, tom ando


a Y com o variable dependiente y excluyendo la causalidad
en dos direcciones.
nes es causa de que ste g aste m enos dinero, lo cual d eja a su vez
sin em pleo a S m ith, etctera. Nos quedam os entonces con slo
ciertas relaciones causales posibles, que se h an indicado en la fi
g u ra XIX.5. Con o b jeto de re d u c ir el n m ero de figuras de la figu
ra XIX.5, se h a decidido* a rb itra ria m e n te escoger a Y com o varia
ble dependiente, o sea com o aquella que h a d e o c u rrir com o ltim a
en cu a lq u ie r secuencia tem p o ral. De ah q u e n o se hayan trazad o
flechas de Y a X o a Z. De to d as estas relaciones posibles, las
tres p rim era s n o rev isten in ters ni re q u ie ren com entario u lte
rio r. Adem s, con o b jeto d e sim plificar la cosa, lim item os nues
tr a atencin a aquellas figuras en las que slo se h an trazado
dos flechas causales (d , e, /, g y h ).

3 La mayora de las situaciones empricas son, por supuesto, mucho ms


complejas de lo que esta sencilla ilustracin sugiere, requirindose tcnicas
ms avanzadas, procedimiento que se aplica cuando los supuestos adecua
dos para las pruebas d mnimos cuadrados no se renen. Vanse [21, [4] y
[12] para un examen ms detallado de este problema.

Podem os d istin g u ir e n tre estos varios m odelos inspeccionando


las m agnitudes relativas de los coeficientes d e correlacin? La
resp u esta es afirm ativ a si estam os dispuestos a h ac er dos clases
d e supuestos. S im n [18] h a d em o strad o m atem ticam en te lo que
dichos su p u estos deban ser. Prim ero, hem os de e s ta r e n condi
ciones de elim in a r algunos d e los m odelos, p o stu lan d o que p o r
lo m enos algunas d e las relaciones posibles son inconsistentes.
E sto ya se h a hecho h a s ta cierto pu n to , al elim in ar todas las
dobles flechas, as com o al to m a r a Y com o v ariab le dependiente,
o sea suponiendo que n o poda se r causa ni de X ni de Z. H abrn
de h acerse adem s otros supuestos, p ero stos los dejam os p a ra
m s adelante.
El segundo tipo de supuesto general que hem os de establecer
se refiere a o tra s variables que p o d ran eventualm ente actuar.
Supongam os, siguiendo a Sim n, q u e to d as las dem s variables
que influyen so b re X n o estn relacionadas con to d as las o tra s que
afectan a Y y Z, etctera. E n o tro s trm in o s: podem os ad m itir
la existencia de o tra s variables incontroladas, p ero hem os de su
p o n er que la influencia que ejercen so b re X , Y y Z es esencial
m ente fo rtu ita . O bsrvese que esto im plica en re alid ad u n a com
binacin d e su p uestos m s dbil que la que suele co m p o rta r el
m odelo del experim ento ideal, en el que se supone q u e to d as las
variables "relev an tes h an sido controladas. R econocem os la in
fluencia p e rtu rb a d o ra de o tras variables en que n o esperam os
que las correlaciones sean perfectas. P or o tra p a rte , hem os de
su p o n er que o p eran de ta l m odo que no p e rtu rb e n el patrn
de las relaciones e n tre X , Y y Z. E sta condicin p u ed e realizarse
aproxim adam ente en la p r ctica si a c t a u n g ra n n m ero de
o tras variables, ninguna de las cuales ejerce gran efecto sobre
m s de u n a de las variables consideradas.
Si existe u n a variable ex tern a d e efecto p e rtu rb a d o r, deber
in tro d u cirse en el m odelo com o c u a rta variable. Sim n argum en
ta en el sen tid o d e que esto es lo que debem os h a c e r siem pre,
y que el hecho d e que n o nos satisfag a la explicacin causal en
el caso de dos variables es la razn de que introduzcam os la no
cin de u n a relacin espuria. As, p o r ejem plo, si estuviram os
convencidos de que no exista v ariab le tal alguna que p e rtu rb a ra
la relacin e n tre el consum o de helados y la delincuencia, y si
pudiram os excluir la posibilidad de que la delincuencia p ro
duce una b a ja d e la venta de helados, entonces n a d a ten d ram o s
que o poner a la explicacin de que la flecha causal vaya en sen
tido opuesto. E introducim os el fa c to r ingreso p recisam en te p o r
que esperam os que esta ltim a variable afecte a la relacin en tre
las dos p rim eras. Y en fo rm a anloga, aadiram os al sistem a
u n a cu a rta o q u in ta variable, p e ro hem os de e sta r dispuestos a
detenernos en algn lugar. E n este punto, si hem os de fo rm u lar
en p rin cip io alguna deduccin causal, cualquiera que sea, hem os

d e su p o n er que el sistem a est cerrado, en el sentido que aca


b am os de describir.
O bsrvese que nos encontram os en la posicin con la que esta
m os ya fam iliarizados de te n e r que a d o p ta r algunos supuestos
q ue no se d ejan verificar em pricam ente m ed ian te el anlisis es
tadstico. N o ser posible, p o r consiguiente, estab lecer el ca rc te r
co rrecto de u n m odelo causal p a rtic u la r cualquiera, p e ro pode
m os p ro ced er p o r elim inacin. As, p o r ejem plo, uno de los m o
delos indicados en la fig u ra XIX.5 p o d r p a re c e r eficaz; sin
em bargo, el m odelo co rrecto p o d ra c o m p o rta r en realidad cu a tro
o m s variables, y el cu ad ro p re se n ta rse en fo rm a totalm ente
d istin ta. Con todo, habiendo' adoptado' los supuestos en cuestin,
podem os servirnos del anlisis m atem tico fo rm u lad o p o r Sim n,
p a ra llegar a ciertas relaciones anticipadas que deberan verifi
carse en tre las correlaciones si el m odelo p a rtic u la r es efectiva
m en te correcto-. Segn verem os, exactam ente las m ism as relacio
nes em pricas se an ticip an p o r algunos de los m odelos anteriores,
obligndonos a escoger so b re o tras bases. Es aqu donde hem os
d e serv im o s del p rim e r tipo d e su p u esto exam inado m s arrib a,
o sea de que algunas relaciones causales no se realizan. Con todo,
sin em bargo, exam inem os prim ero' las predicciones m atem ticas
relativas a las in terrelacio n es e n tre coeficientes de correlacin.
Si nos fijam os en la fig u ra XIX.5g, vem os que las relaciones
e n tre X y Y y e n tre X y Z son directas, en ta n to q u e la relacin en
tre Y y Z slo es ind irecta. Lo propio' se aplica a la fig u ra h. E n
estos dos casos, el sentido' com n su g erira que, si todas las de
m s variables a c tu a ra n d e m odo esencialm ente fortuito, esp era
ram os en c o n trar que la correlacin e n tre Y y Z es m en o r en
m ag n itu d que cu alq u iera de las o tras dos. Y en fo rm a anloga,
en las figuras X IX .5e y f esperaram os que la relacin e n tre X y
Y fu e ra la m s pequea de las tres, prescindiendo d e los signos.
Como o revelan as m atem ticas, podem os incluso' p ro n u n c ia r
nos en fo rm a m s categrica. Es posible, en efecto, d em o strar
tan to p a ra (g ) com o p a ra (h), en las que la relacin en tre Y y Z
es in d irecta, q u e:
Qvz

Q xyQ xz

N os hem os servido de las p p a ra in d icar que estas relacionis


exactas slo pueden esp e rarse en la poblacin, y que los valores
de las r de la m u e stra se a p a rta r n p o r lo re g u la r de esa relacin
estim ad a, a causa de las fluctuaciones de la m u estra. Y en fo r
m a anloga puede d em o strarse que p a ra los casos (e) y ( / ) ten
drem os :
Qx y

Q xzQ rz

T oda vez que los valores absolutos d e los coeficientes de co rre


lacin n o pueden se r m ayores que la unidad, est claro que en

el p rim e r caso el valor num rico d e qYz h a de se r m en o r q u e el


d e cu alesq u iera d e los o tro s coeficientes, a m enos que u n o de es
tos valores acontezca se r la unidad. E n este caso especial, p o r
supuesto-, u n a d e las variables p u ed e p red ecirse exactam ente a
p a r tir de u n a d e las o tras, y tenem os as esencialm ente u n p ro
b lem a de slo dos variables.
F ijndonos con. m ayor deten im ien to en la p rim e ra de estas
ecuaciones, q ue se aplica a las figuras XIX .5g y h, vem os inm e
d iatam en te q u e si esta ecuacin se verificara, la correlacin p a r
cial (e n la poblacin) e n tre Y y Z, co n trolando e n relacin con
X, d esap arecera, ya que el n u m e ra d o r de la f rm u la d e la p a r
cial sera en ta l caso cero. As, pues, si (g ) o ( h ) se verificaran,
el v alo r de rTZ-x debera se r cero o m uy cerca de cero, habida
cu en ta d e los e rro re s d e m u estreo . Y en fo rm a sem ejante, puede
esp e rarse ta n to p a ra (e ) com o p a ra ( /) que la p arcial en tre X
y Y , co n tro lan d o respecto' de Z, sea aproxim adam ente cero. Qu
indican estos hechos? Si lim itam os n u e s tra atencin a u n a com
p araci n e n tre (e ) y (/), ya que la relacin e n tre (g ) y (h ) puede
co m p ararse d irec tam en te si se in tercam b ian X y Z, vem os que
en ( /) in te rp re ta ra m o s la relacin e n tre X y Y com o espuria,
to d a vez que Z a c t a en el sen tid o d e p ro d u c ir variacin tan to
en X com o en Y . E sta situacin es exactam ente la m ism a que se
d escribi en el ejem plo del consum o d e helados X y las tasas de
delincuencia Y . D ebido a que sospecham os que la relacin e n tre
estas dos variables se deba a o tra , o sea al nivel de ingreso Z,
controlam os en relacin con sta p a ra v er si la correlacin e n tre
X y Y se red u ce a casi cero. Si ( / ) es de hecho el m odelo correcto,
acabam os d e v er m atem ticam en te que ta l ser el caso.
Vimos tam bin, sin em bargo, que la p arcial h a b ra sido cero
si el m odelo c o rre c to fu e ra el de la fig u ra XIX.5 e. E n ( e ), en
efecto, tenem os que Z ac t a com o variable in terv en to ra, en el
sentido de q u e X causa Z, la cual a su vez causa Y . Pero, tiene
algn o b je to co n tro la r en relacin con Z en estas condiciones?
P ro b ab lem en te no. P orque si X es efectivam ente causa d e Z,
cm o podem os concebir q u e m antengam os a Z co n stan te m ien
tra s X sigue variando? No tiene sen tid o ciertam en te p e n sa r ob
ten er resid u ales tom ando aquella porci n de la variacin d e X
que es "d eb id a a " Z cuando Z es u n efecto de X . Puede, sin em
bargo, te n e r sen tid o el co n tro la r p a ra Z si lo que tra ta m o s de de
m o stra r es la ausencia de u n a conexin causal e n tre X y Y, ex
cepto a trav s de la variable in terv e n to ra Z. La m anipulacin
de f rm ulas estad sticas no co nstituye su stitu to alguno del co
nocim iento de lo que se est haciendo. E n este caso, sab e r lo
que se e st haciendo consiste en e s ta r en condiciones de elegir
e n tre los m odelos ( e ) y (/ ), yendo m s all de la inform acin
estad stica disponible y haciendo u n su puesto acerca de la direc
cin de la flecha e n tre X y Z.

H a sta aqu hem os prescindido d e la situacin ( d ) de la figu


ra XIX.5, en la que las flechas van a Y tan to de X com o de Z,
p ero en la que no se da relacin d irecta alguna en tre X y Z. Qu
sucede en este caso si controlam os en relacin con Z? O bserva
m os en p rim e r lu gar que tiene o b jeto co n tro lar aqu en relacin
con Z p o rq u e sta se concibe com o variable totalm ente indepen
dien te q ue afecta tam bin a Y . Desde el p u n to de vista de la
relacin e n tre X y Y , o p era como influencia p ertu rb ad o ra . Es
u n a v ariable " ex tra a que produce esencialm ente en Y variacio
n es fo rtu ita s con re sp ecto a las variaciones de X . P or lo tanto,
esp eraram o s que, controlando en relacin con Z, au m en tara la
m ag n itu d de la relacin e n tre X y Y. P uede d em o strarse m ate
m ticam en te que si establecem os los supuestos requeridos a p ro
psito de o tras variables, la correlacin en la poblacin e n tre X
y Z ser cero. Sealem os de paso que este hecho nos p e rm itir
d istin g u ir (d ) em pricam ente de cada u n a de las situaciones que
hem os venido exam inando. sta es, pues, la situacin en la
q ue la variable de control no' se relaciona con u n a de las o tras
variables, y ya vim os que en tal caso la parcial ser m ayor en va
lo r ab soluto que la correlacin total, lo que concuerda con el
sen tid o com n. Es asim ism o la situacin a la que nos en fren ta
m os en el anlisis p o r dos m todos de la variancia, en la que la
condicin de subceldillas iguales supona u n a independencia
co m pleta e n tre las variables d e fila y d e colum na, y en la que
tam b in vim os q ue un control p a ra u n a de las variables reduca
la su m a inexplicatda de los cuadrados, sin re d u cir la variacin
explicada p o r la o tra v ariab le independiente.
H ay o tro tip o d e situacin d e control que no se h a exam inado,
p e ro q u e p u ed e tra ta rs e brevem ente, ya que son pocos los casos,
si los hay, en que p odram os vernos inducidos a servirnos d e u n
control.
Supngase, en efecto, en u n a de las situaciones (e ) o ( h ),
que ib a a Relacionar las variables dependientes que intervie
nen, con tro lan d o en relacin con la variable independiente. En
( h), p o r ejem plo, qu sucedera si furam os a o b ten er la parcial
e n tre X y Y co n tro lan d o en relacin con Z? Puede d em o strarse
algebraicam ente que la p arcial re su ltan te sera m enor en m ag
n itu d que la correlacin total. E sto concuerda con la nocin in tu i
tiv a d e que, m anteniendo co nstante la variable independiente, se
red u ce necesariam ente la variacin de la variable interferente,
con lo q ue se d eb ilita la relacin con la variable dependiente.
U na vez m s, ten d ra poco o b jeto llevar a cabo sem ejante opera
cin. P o r lo regular, en efecto, n u estro inters se c e n trar en la
cuestin de sab er si existe o no u n a relacin directa entre X y 7 ,
y n o en el p roblem a de las causas antecedentes de X. Puede de
m o strarse, sin em bargo, que si hubiram os controlado inadverti
dam en te p a ra Z en ( h) , n o h ubiram os afectado sistem ticam ente

el declive estim ado bm/, excepto en el sentido de q u e habram os


au m en tad o el valor del e r ro r d e m uestreo.
Las extensiones a cu a tro o m s variables son d irectas, con tal de
q ue nos restrin jam o s a u n a causacin en slo u n sentido. Pue
de d em o strarse que en los casos en que no hay lazo directo en
tre dos variables, se d a r u n a parcial de orden m s elevado e n tre
estas variables, la que ser aproxim adam ente igual a cero, ex
cepto p o r los erro res de m uestreo. En general, debem os co n tro lar
p a ra to d as las variables antecedentes e interven toras, con objeto
de h acer desaparecer la ap ro p iad a correlacin parcial, p ero h a
brem os de ten er cuidado, evitando' c o n tro la r p a ra variables que
se supone son dependientes d e las dos que estn siendo conside
radas. P or ejem plo, en el m odelo
X i
i
i
X s
ser necesario controlar tanto p a ra X 2 com o p a ra X 3, con el fin
de re d u cir a cero la parcial r14.23. De m an era anloga, el m odelo
p redice p a ra r2s-i 0 (excepto p o r erro res d e m u estreo ), pero
no deberem os e sp e rar que r23.H sea igual a cero, ni te n d ra sen
tido alguno co n tro lar en este caso p a ra X 4. (V ase [2] p a ra m s
am plia discusin.)
Son de nuevo necesarias varias advertencias. Como en el caso
de las tre s variables, h a b r siem pre m odelos alternativos que
predigan exactam ente las m ism as in tercorrelaciones em pricas,
y h a b r q u e confiar en el conocim iento de las secuencias tempos
rales, o supuestos a priori, cuando haya que escoger en tre tales
alternativas. P or o tra p arte , la existencia de erro res de m edicin
aleatorios y no aleatorios invalidar las predicciones de cualquier
m odelo dado. Como observam os en el captulo an terio r, el e rro r
aleatorio de m edicin en u n a variable independiente aten u ar
las correlaciones en tre sta y o tras variables. E n el caso de re
gresin m ltiple, y cuando las variables independientes estn
altam ente intercorrelacionadas, los erro res aleatorios de m edicin,
en algunas de ellas, ten d er a aum entar los efectos visibles de
aquellas variables con las que estn m s altam en te in terco rrela
cionadas. Se ve de esta m an era que los erro res de m edicin en
p resencia de u n a alta intercorrelacin en tre variables indepen
dientes se p re sta n a conducirnos a deducciones errneas.
R esu ltar claro de las observaciones an terio res que si uno sum a
variables a u n a ecuacin de regresin p o d r e sp e ra r que las
correlaciones p arciales cam bien segn sea la n atu raleza de las in
tercorrelaciones en tre las variables independientes. E sto es apli
cable a los declives parciales y estandarizados que se exam inan
en la seccin siguiente. Suponem os que el erro r, o trm ino resi

dual p a ra la ecuacin de regresin, no est relacionado' con cada


una de las variables independientes de la p ro p ia ecuacin. En
trm inos causales, esto hace suponer que los factores que son
causa m ayor de la variable dependiente n o estn sistem ticam en
te relacionados con las variables independientes.
Si som os capaces de localizar las variables que contribuyen a
este fa cto r de e rro r y si las hacem os fig u rar de m anera explcita
en la ecuacin, tales variables debern no e s ta r relacionadas con
las variables independientes originales, a p a rte los erro res de
m uestreo, no resu ltando afectados sistem ticam ente los declives
parciales. Las correlaciones parciales, p o r o tra parte, aum en tarn
en su v alor numrico', debido a que h a b r sido elim inado algo de
la v ariancia no explicada. Sin em bargo, si las variables adiciona
les llevadas a la ecuacin estn relacionadas sistem ticam ente
con las variables independientes originales, p o d r d arse p o r se
guro' que todos los coeficientes re su ltarn afectados.
XIX.4. M nim os cuadrados m ltiples y los coeficientes beta
Nos hem os servido de las correlaciones parciales p a ra indicar el
grado de relacin en tre u n a variable dependiente y una variable in
dependiente, con trolando en relacin con u n a o varias variables
independientes m s. Si tenem os u n nm ero grande de varia
bles independientes, podem os o b ten er u n a indicacin de su im por
tan cia relativa asociando la variable dependiente con cada una
de las variables independientes sucesivam ente y controlando en
cada caso con las variables restantes. A nteriorm ente, en n u estro
exam en de la regresin m ltiple y de los m nim os cuadrados, ya
observam os tam bin que las b y las |3 que figuran en nu estras
ecuaciones y relacionan a Y con las variables independientes po
d ran in te rp re ta rse en cierto sentido com o parciales. Se recor
d a r que re p resen tan las pendientes de las ecuaciones de regre
sin o> de los m nim os cuadrados en la dim ensin de la variable
independiente apropiada, esto es, con todas las dem s variables
independientes m antenidas constantes. P or lo tanto, cada coefi
ciente re p resen ta la cantidad de variacin de Y que puede asociar
se con u n cam bio determ inado de las X , m anteniendo1 fijas las
dem s variables independientes. Teniendo en cuenta esta sim ili
tu d con los coeficientes de la correlacin parcial, no debera sor
p re n d er que las f rm ulas em pleadas en el clculo de esas b p a r
ciales re su ltaran m uy sem ejantes a las que se em plearon en
o b ten er las r parciales y que1, adem s, esas pendientes pudieran
em plearse p a ra d a r u n a indicacin de la im portancia relativa de
cada u n a de las variables independientes en la determ inacin de la
variacin de Y.
H em os de m odificar nuevam ente n u e s tra notacin, con objeto
de d istin g u ir e n tre el gran nm ero de com binaciones posibles de

las pendientes. D esignando n u estra s variables sim plem ente com o


1, 2, 3, etctera, nos servim os del sm bolo
si anticipam os la
variable u n o a p a r tir d e las variables 2 y 3 con referen cia al coe
ficiente de la segunda variable. El coeficiente bls-3 h a de distin
guirse de &2i-3, que em plearam os si la segunda variable se to m ara
com o variable dependiente. E n am bos casos, el hecho de que el
n m ero tre s se haya colocado a la derecha del p u n to indica que
se h a con tro lad o la terc era variable. Y en fo rm a anloga, b13.Si se
em plea p a ra in d icar el coeficiente de la segunda variable en una
ecuacin de prediccin en la que la p rim era variable se tom a
com o variable dependiente y que com porta dos variables de con
trol. E n este ltim o caso, la ecuacin de los m nim os cuadrados
se d ara en la siguiente fo r m a :

X x

1-234 +

&l,2-34-^2 +

^13-24^3 +

^14-23^4

en donde el subndice de a indica que estam os anticipando en


relacin con la variable uno a p a r tir de las variables 2, 3 y 4. La
razn de que hayam os considerado conveniente ap a rtarn o s de
la p rctica consistente en designar la variable dependiente con
Y est en servirnos de una com binacin m s sencilla de subn
dices p a ra seguir la traz a de las d istin tas b.
Las frm ulas de clculo de
y bi}.k son com o sigue:
(X IX .7)
(X IX .8)

Obsrvese que si bien el denom inador de (X IX .8) difiere en cuan


to a la fo rm a del de la frm ula d e r^.*, el num erador, en cam bio,
es esencialm ente sim ilar en carcter.
En efecto, reco rd an d o que

vemos que incluso los denom inadores n o son dem asiado dispa
res en cu an to a la form a. Con todo, al em plear esta frm ula para
ob ten er las b parciales, hay que p o n e r cuidado en distin g u ir en
tre bjk y bk, ya que los subndices ya n o pueden intercam biarse.
La extensin a parciales de ord en superior es d ire c ta (vase
[5 ]). Las ecuaciones de ai.m y b inx pueden escrib irse:
a i j u X t b i j-M X

b ilc.n X

b t j.,y X

(X IX .9)

CORRELACION MULTIPLE Y PARCIAL


bij-lc ~ (bil-k)(bij.ic)

b im ~

i -hi-^Ku)

Ig ualm ente cierto en el clculo de correlaciones parciales de o r


d en su p erio r a m edida que el nm ero de variables aum enta, el
em pleo de estas frm ulas p u ed e co m p o rtar acaso considerable
m en te m s tra b a jo que el que req u ieren los m todos abreviados
d e D oolittle o d e la raz c u a d rad a de Dwyer. N orm alm ente ser,
p o r supuesto, m s conveniente u tiliza r pro g ram as de com pu
tacin, cu an d o se tr a te d e o b ten er esto s coeficientes.
Se p u ed e in te rp re ta r u n declive p arcial com o el cam bio h ip o
ttico q u e o c u rrira en la variable d ependiente si u n a de las va
riab les in d ependientes h u b iera de cam b iar en u n a u n id ad y si las
dem s variables perm an ecieran constantes. E sto p u ed e ser in
te rp re ta d o com o u n a m edida del efecto d irecto de la variable
in d ep en d ien te sobre la variable depen d ien te; si un declive p a r
cial es igual a cero, ello n o im plicara u n efecto directo. P ero no
hab ien d o especificado las conexiones causales e n tre las p ro p ias
variables in dependientes y teniendo e n cu e n ta nicam ente sus
in terco rrelacio n es, n o nos es posible d ecir n a d a en relacin con
el efecto to ta l d e ca d a variable. Si, p o r ejem plo, la p rim era
variab le in d ep en d iente es u n a causa de la segunda, u n cam bio
en la p rim e ra v ariable p ro d u c ira u n cam bio tam b in e n la se
gunda, pro d u cin d ose efectos tan to directos com o indirectos. De
esta m an era no podem os v alo ra r la im p o rta n c ia re la tiv a de cada
variable, a m enos que conozcam os m s acerca de la e stru c tu ra
causal del sistem a en su totalidad. E sto re q u e rira tra b a ja r con
to d o u n grupo d e ecuaciones, u n a p o r cada variable que sea to
m ad a com o dep endiente d e cualesquiera d e las otras. P o r des
gracia, los m nim os cu adrados o rd in ario s no son en general ade
cuados p a ra tal sistem a de ecuaciones (vanse [4 ] y [ 1 2 ]).
E n ta n to n o estem os interesados en generalizar m s all d e los
lm ites d e u n a sola poblacin, en ocasiones es deseable ob ten er
u n a m ed id a asim trica de los efectos directos de cada variable
in d ependiente, q ue n o dependa de las unidades d e m edida u tili
zadas. O btenem os as, e n efecto, u n a m ed id a del efecto d irecto
real en el caso p a rtic u la r de la poblacin que estudiam os, dado
que algunas variables independientes v aran m s que o tras. U na
v ariable p u ed e se r m ed id a en dlares, o tra en aos. C arecera de
sen tid o co m p arar la u n id ad de cam bio en u n a con la u n id ad
de cam bio en la o tra.
Si cad a v ariable es estandarizada, dividindola p o r su desvia
cin estn d a r, en la m ism a fo rm a que se aplic p a ra o b ten er la
cu rva n o rm al est n d a r obtendrem os declives aju stad o s, com pa
rables de u n a v ariab le a la siguiente. M edim os as los cam bios
en la v ariable dep endiente en funcin d e unidades d e desviacin
e st n d a r p a ra cada u n a d e las o tras variables, lo que nos asegura

una m ism a v ariabilidad en cad a u n a de estas variables. E stos


declives p arciales aju stad o s re su lta n as bes (b ) estandarizadas,
llam adas frecu en tem en te ponderaciones beta, siendo denom ina
dos coeficientes d e curso en los m as sim ples m odelos causales,
en los que est im plicada u n a d e term in a n te de causa en u n a sola
direccin (vase [14]).
P or desgracia, u n a vez m as nos vem os envueltos en incongruen
cias de notacin. E n efecto, estas ponderaciones de b e ta n o son
las m ism as q u e las de las (3 en la ecuacin d e regresin, que se
refieren a ca ractersticas de la poblacin y no h an sido aju stad as
en relacin con las diferencias d e variabilidad. Las p o n d eracio
nes de b eta se obtienen d e los dato s de la m uestra y son sim ples
funciones de las b parciales. Las frm ulas generales de 13 v
P .^ s o n :
itrky
=&*

(X IX .11)

y
Pyw =

Si

(X IX .12)

As, pues, la p o n d eraci n de b e ta puede obtenerse m ultiplicando


la b co m p arab le p o r la razn de la desviacin e st n d a r de la
variable ind ep endiente (no co n tro la d a) a la de la variable de
pendiente.
La co m p arab iidad de las ponderaciones de b e ta y los coeficien
tes de correlacin parcial p u ed e verse en la f rm u la :
o
P i*

r ilcrjJc
= -------
1 V

.
(X X .i3 )

Las dos m edidas slo difieren en los denom inadores. D'e hecho,
vemos in m ed iatam en te q u e :
^ ^(P irfcX P i-fc)
ya que (3^.*. slo difiere de
en que el denom inador de rjk2 ser
rem plazado p o r rilc2. Ya que las ponderaciones de b e ta y las co
rrelaciones p arciales re p resen ta n tipos de m edida de asociacin
algo d istintos, no d arn exactam ente los m ism os resultados, au n
que p o r lo re g u la r com prendan variables del m ism o ord en de
im portancia. E n efecto, la correlacin parcial es u n a m edida
d e la cantidad de variacin explicada p o r u n a de las variables
independientes despus que las o tras h a n explicado to d o lo que
podan. Las p onderaciones de b eta, en cam bio, indican cunto
cam bio se p ro d u ce en la variable dependiente p o r u n cam bio
estandarizado en u n a de las variables independientes al co n tro lar
en relacin con las otras.

X I X .5 .

Correlacin m ltiple

C o m o q u ie r a q u e n u e s tr o in te r s p u e d e acaso- r e s id ir e n e l p o d e r
e x p lic a tiv o d e c ie r to n m e r o d e v a ria b le s in d e p e n d ie n te s to m a
d a s ju n ta s m s q u e e n la re la c i n e n tr e la v a ria b le d e p e n d ie n te
y c a d a u n a d e la s v a r ia b le s in d e p e n d ie n te s to m a d a s s e p a ra d a
m e n t e , p r e f e r i r e m o s t a l v e z s e r v i m o s d e l coeficiente de correla
cin m ltip le, q u e e s u n a m e d i d a d e l a b o n d a d d e a j u s t e d e l a
s u p e rf ic ie d e m n im o s c u a d r a d o s a lo s d a to s . A l ig u a l q u e e l c u a
d r a d o d e l c o e fic ie n te d e la c o rre la c i n d e o r d e n c e ro in d ic a b a e l
p o r c e n ta je d e v a ria c i n e x p lic a d a p o r la r e c ta d e m e jo r a ju s te ,
el c u a d r a d o d e l c o e fic ie n te d e c o rre la c i n m ltip le p u e d e e m
p le a r s e p a r a d a r el p o r c e n ta je d e v a ria c i n e x p lic a d o p o r la e c u a
c i n d e m e jo r a ju s te d e la f o r m a :

Y p = a + b iX i + b2X 2 + . . . + bXk
O tr a m a n e r a d e c o n c e b ir la c o r re la c i n m ltip le e s t e n q u e
r e p r e s e n t a l a correlacin d e orden cero n t r e l o s valores reales
o b t e n i d o s p a r a l a v a r i a b l e d e p e n d i e n t e y l o s valores anticipados

a p a rtir de la ecuacin de m nim os cuadrados.

S i to d o s lo s p u n
to s se e n c u e n tra n e x a c ta m e n te e n la s u p e rfic ie d e m n im o s c u a
d r a d o s , lo s v a lo re s r e a l y a n tic ip a d o c o in c id ir n , y la c o r re la c i n
m ltip le s e r la u n id a d . Y c u a n to m a y o r s e a la d is p e rs i n a lr e
d e d o r d e la e c u a c i n d e m n im o s c u a d r a d o s ta n to m s b a ja s e r
la c o r re la c i n e n tr e lo s v a lo r e s r e a l y p r e d ic h o .
L a f r m u la d e la c o r re la c i n m ltip le p u e d e d e s a r r o lla r s e f
c ilm e n te s irv i n d o s e d e l h e c h o d e q u e e l c u a d r a d o d e l m ltip le
s e r ig u a l a l p o r c e n ta je d e la v a r ia c i n e x p lic a d a p o r to d a s la s
v a r ia b le s in d e p e n d ie n te s . C o n v ie n e r e c a lc a r u n a v e z m s q u e s e
s u p o n e u n m o d e lo d e tip o lin e a l. A l e s c r ib ir la f r m u la d e la c o
r r e la c i n m ltip le , d e ja m o s p r im e r o q u e u n a d e la s v a r ia b le s
in d e p e n d ie n te s e x p liq u e to d o lo q u e p u e d e . D e ja m o s lu e g o q u e la
s e g u n d a v a r ia b le in d e p e n d ie n te h a g a lo p r o p io e n r e la c i n c o n
la p o r c i n d e la v a r ia c i n n o e x p lic a d a p o r la p r im e r a . S in e m
b a rg o , c o n o b je to d e e v ita r d u p lic a c i n , h e m o s d e c o n tr o la r e n
r e la c i n c o n e s ta p r im e r a v a ria b le in d e p e n d ie n te . D e ja m o s a c o n
ti n u a c i n q u e la t e r c e r a e x p liq u e to d o lo q u e p u e d e d e l r e s to ,
c o n tro la n d o ' a h o r a e n re la c i n c o n la s d o s p r im e ra s v a ria b le s
in d e p e n d ie n te s . E l p r o c e d im ie n to p u e d e p r o lo n g a rs e d e m a n e r a
in d e f in id a .
D e m o m e n to , s in e m b a rg o , n o s lim ita m o s a l c a s o d e tr e s v a r ia
b le s , q u e s lo c o m p o r ta d o s v a r ia b le s in d e p e n d ie n te s . S i to m a
m o s la p r im e r a v a ria b le c o m o la v a ria b le d e p e n d ie n te , y d e s ig n a
m o s e l c o e fic ie n te d e c o r re la c i n m ltip le p o r R ^ g , p o d r e m o s
e s c rib ir:

^1-23

r12

^13-2

(1 ~ ^12)

Proporcin\ /proporcin \
/ proporcin \ / proporcin \
explicada I = I explicada I + / adicional \ I no explica- 1
por 2 y 3 /
\ por 2
/
I explicada I \ da por 2 /

\ Pr 3

(X IX .14)

O bsrvese que las correlaciones m ltiples slo tienen u n a cifra


a la izq u ierd a del punto, cifra que indica la variable dependiente.
Los n m ero s de la derecha, en cam bio, indican aquellas varia
bles in d ep en d ientes que se estn em pleando p a ra explicar la va
riacin de la variable dependiente. As, pues, la f rm u la general
(p a ra tre s v ariab les) p u ed e esc rib irse com o sigue:
R^-jk A } + Ah- ( 1 ~ A j)
= 4 + 4 , (1 -4 )

(XIX .15)

No im p o rta, p o r supuesto, cul de las dos variables independien


tes se em plee p rim e ro en la frm ula, a condicin que dicha varia
ble se co n tro le en los trm inos siguientes de la ecuacin.
O peram os con los cuadrados ta n to d e la correlacin to ta l com o
de las correlaciones p arciales, y a q u e obtenem os los p o rc en ta
jes de la v ariacin explicada. P o r lo tanto, no tenem os p o r qu
p reo cu p am o s p o r los signos d e estas correlaciones. Y de hecho,
la direccin d e la m ltiple carece d e significado, y a q u e com
p o rta correlaciones con cierto n m ero de variables, algunas de
las cuales son positivas y o tra s posiblem ente negativas. P o r con
vencin, al designar el coeficiente de correlacin m ltip le, tom a
m os siem pre la raz cu a d ra d a po sitiv a d e R 2.
Si resolvem os la ecuacin (X IX .14) en relacin con la parcial
rfs-2, o b ten em o s:
B2 t-2
2 = ---1-23
'1 2
------ -----ri3.2
1* r212

/VTV1\
(X
IX .16)

E sto nos p erm ite v er la relacin e n tre los coeficientes de las co


rrelaciones m ltip les y parciales b a jo u n a p erspectiva algo dis
tin ta. E n el n u m era d o r hem os su strad o la pro p o rci n de la va
riacin de 1 explicada p o r la 2 sola, de la pro p o rci n explicada
p o r 2 y 3 actu an d o ju n ta s (R ? .^ ). E l re su ltad o es el increm ento
explicado p o r 3, despus de h a b e r p erm itid o a c tu a r a 2. Si dicho
increm ento se divide en tre la pro p o rci n de variacin d ejad a sin
explicar p o r 2, obtenem os la p arcial e n tre 1 y 3 co n trolando en
relacin con 2. E sto concuerda con n u e stra in terp re taci n ante
rio r del coeficiente de la correlacin parcial.

De la ecuacin (X IX .14) pueden derivarse diversas frm ulas


altern ativ as p ero equivalentes d e if.23. S ustrayendo am bos m iem
b ro s de dicha ecuacin de la unidad, o b ten em o s:

1 -Rl-23 = 1 r12 ~~ ^13-2(1 ~

r is )

(1 'iaX l ~ ri3-2)

(X IX .17)

E sta ecuacin indica que podem os esc rib ir la proporcin d e va


riacin d ejad a sin explicar p o r 2 y 3 ju n ta s, com o p ro d u c to de
la p ro p o rci n inexplicada p o r 2 y de aquella inexplicada p o r 3,
controlando en relacin con 2.
La f rm u la de la m ltip le p u ed e escrib irse tam bin totalm ente
en trm in o s d e correlaciones de ord en cero. E n efecto, sirvin
donos d e la ecuacin ( X IX .3) de r13.2 en trm inos de coeficientes
d e o rd en cero y sim plificando la expresin algebraica resu ltan te,
o b ten em o s:
2 _ r i2 + r w ~ 2r iar t3r 23
K x-2&---------- :----- ------------o bien, en g e n e ra l:
d 2 r i + r iTc ~ 2f ifc'jfc
K i . f t ------------ ------- -------------

1 P

y iy 1o \
( A lA .i o ;

E n p artic u la r, si la correlacin e n tre las dos variables indepen


dientes ; y k acontece se r cero, o b te n e m o s:
H2

r 2 O- r 2

Pueden o b servarse ah o ra algunas relaciones e n tre la m ltip le


R y las diversas correlaciones totales. Es obvio que R n o puede
se r m en o r en m agnitud que cualesquiera de las correlaciones to
tales, y a que es im posible explicar m enos variacin aadiendo
m s variables. N orm alm ente, p o r supuesto, la m ltiple R ser
m ayor que u n a cualquiera de las r totales. Su valor m xim o en
relacin con los coeficientes totales suele p ro d u cirse cuando las
in tercorrelaciones e n tre las variables independientes son todas
cero. Com o acabam os de ver, el cu ad rad o d e la correlacin m l
tip le se r en este caso igual a la sum a de los cuadrados de las
dem s correlaciones. P or o tra p arte , si las intercorrelaciones en
tre las variables independientes son m uy grandes en m agnitud,

la m ltip le R n o s e r p o r lo r e g u la r m u c h o m a y o r q u e la c o
rre la c i n to ta l m a y o r c o n la v a ria b le d e p e n d ie n te .
E n o tro s
t r m i n o s : s i d e s e a m o s e x p lic a r lo m s p o s ib le d e l a v a r ia c i n d e
la v a r ia b le d e p e n d ie n te , h e m o s d e b u s c a r v a r ia b le s in d e p e n d ie n
te s q u e te n g a n r e la tiv a m e n te p o c a r e la c i n u n a s c o n o tr a s , p e ro
q u e te n g a n p o r lo m e n o s c o r r e la c io n e s m o d e r a d a m e n t e a lta s c o n
la v a ria b le d e p e n d ie n te . O e x p r e s a d o e n o tr a f o r m a : s i te n e m o s
d o s v a ria b le s in d e p e n d ie n te s d e in te r re la c i n a lta , la s e g u n d a e x
p lic a r e s e n c ia lm e n te la m is m a v a ria c i n q u e la p r im e ra , y a q u e
la s d o s s e tr a s la p a r n c o n s id e ra b le m e n te . Y s i n o e s t n c o r r e
la c io n a d a s , e n to n c e s c a d a u n a e x p lic a r u n a p o r c i n d if e re n te
d e la v a ria c i n to ta l.
H a y o tr a r a z n im p o r ta n te p a r a p r e f e r ir la s v a r ia b le s in d e p e n
d ie n te s q u e no' e s t n a lta m e n te in te r c o rr e la c io n a d a s .
N o s lo
h a b r m e n o s s u p e r p o s ic io n e s e n la v a r ia n c ia e x p lic a d a , y p o r e llo
m e n o s a m b ig e d a d

en

n u e s tra

in te rp re ta c i n

causal de

su s

su

p u e s to s e fe c to s , s in o q u e e n la m e d id a e n q u e la s v a r ia b le s in d e
p e n d ie n te s e s t n a lta m e n te in te r c o rr e la c io n a d a s , ta n to la s c o r re
la c io n e s p a r c ia le s c o m o la s e s tim a c io n e s d e d e c liv e s s e h a r n c a d a
v ez m s s e n s ib le s a lo s e r r o r e s d e m u e s tr e o y m e d ic i n . E s ta
d i f i c u l t a d s e d e n o m i n a m u ltic o lin e a r id a d e n l a b i b l i o g r a f a e c o n o m tr ic a (v a n s e [4 ] y [1 2 ]). E l p ro b le m a r e s u lta e s p e c ia lm e n te
s e rio c u a n d o se u tiliz a n b lo q u e s d e v a ria b le s in d e p e n d ie n te s a lta
m e n te in te r c o r r e la c io n a d a s , y c u a n d o d ic h o s b lo q u e s d if ie re n e n
c u a n to a l n m e r o d e v a ria b le s q u e c o n tie n e n . (V a s e [ 1 0 ]) . P u e d e
d e m o s tr a r s e , p o r e je m p lo , q u e c o n m u y p e q u e a s d ife re n c ia s e n
la s c o r r e la c io n e s to ta le s c o n la v a r ia b le d e p e n d ie n te se p r o d u
c e n d if e re n c ia s c o n s id e ra b le s e n la s c o rre la c io n e s p a r c ia le s y e n
la e s tim a c i n d e lo s d e c liv e s , d e ta l m a n e r a q u e s i s e c o n f a
e n la s m a g n itu d e s r e la tiv a s d e e s to s c o e fic ie n te s p a r c ia le s , c a b e
e s p e r a r e n c o n t r a r d if e r e n c ia s c o n s id e r a b le s d e u n a m u e s tr a a a
s ig u ie n te , o b ie n e n tr e r p lic a s e n la s q u e se u tilic e n in s tr u m e n
to s d e m e d ic i n a lg o d is tin to s . L a c o n c lu s i n e s q u e e n c u a n ta s
o c a s io n e s la s v a r ia b le s in d e p e n d ie n te s e s t n a lta m e n te in te r c o
rre la c io n a d a s , r e s u lta r n e c e s a r io c o n ta r
g r a n d e s com o c o n la s m e d ic io n e s e x a c ta s .

ta n to

con

m u e s tr a s

A ttu lo d e e je m p lo n u m r ic o d e l c lc u lo d e la m ltip le R, v e a
m o s c u n ta v a r ia c i n e n m a t e r i a d e d is c r im in a c i n p u e d e e x p li
c a rs e p o r el p o rc e n ta je d e n e g ro s y el p o rc e n ta je
v i n d o n o s d e la e c u a c i n ( X IX .1 4 ) o b te n e m o s :

u rb an o .

&1-2Z = r2 + r ? 3 .2 ( 1 - r ? 2 ) = ( . 5 3 6 ) 2 + ( . 3 3 2 H 1 - ( . 5 3 6 ) 2 ]

= .2873 + (.1102) (.7127) = .3658


D e a h :

R 1.2S = .6 0 5

S ir

P or consiguiente, el p o rc en taje urbano explica m uy poca variacin


p o r encim a y p o r debajo de aquella explicada p o r el p o rcen taje
de negros.
A ttu lo de control de nu estro s clculos, observam os que el
m ism o resu ltad o d eb er obtenerse si dejam os que acte p rim ero
el p o rcen taje urbano.
O btenem os en este c a s o :
r 12- r J3( r 23)
.536 - ( . 1 3 9 ) ( - .248)
r 12*3 ------------------------- = ------------------------------------------ -5^5
V l - ( - 3 9 ) 2 V 1 ( -248T2
As pues,

R l .a3 = r\ 3 + r?3.8( 1 - ria)


= (.139)2 + (.595)2[1 - (.139)2] - .3667
# 1-23 = -605

y p o r lo ta n to :

Las f rm u las del coeficiente de correlacin m ltiple pueden


extenderse fcilm ente asim ism o a u n n m ero cualquiera de va
riables independientes. Al in tro d u cir u n a terc era variable inde
pendiente1, designada com o X f n o hacem os m s que a a d ir a la
f rm u la de R ^ 23 u n trm in o que co m porta el producto' del cua
drad o de la parcial en tre 1 y 4, controlando en relacin con 2 y 3,
y la p ro p o rci n de variacin queda inexplicada p o r 2 y 3. As,
pues:
R l- 2 3 4 r 12 +

T 'lS - a O r 1 2 ) +

r 1 4 -2 s[l

r 1 2 ~ r 1 3 '2 (^ ~

12 ) ]

(X IX .19)
Podem os, pues, ir aadiendo a la p roporcin de la variacin
explicada, siem pre que controlem os en relacin con todas las va
riables p reviam ente em pleadas y a condicin que perm itam os
q u e la nueva p arcial slo acte sobre aquella porcin de varia
cin d ejad a inexplicada p o r las variables que la h an precedido.
Obsrvese, de paso, el paralelo' con lo que hicim os en el anlisis
de la variancia. Segn verem os a continuacin, podem os servir
nos de este hecho en las pru eb as d e significacin tan to de la
correlacin m ltip le com o de la parcial. Si procediram os a
a ad ir u n a q u in ta variable, ob ten d ram o s:
^ 1 -2 3 4 5 =

R l-2 8 4 +

, 'l 5 - 2 3 4 ( I ^ 1 - 2 3 4 )

Podem os resolver de nuevo estas ecuaciones en relacin con los

coeficientes parciales. As, p o r ejem plo, tenem os (d e X IX .19):


D 2

*Vl'234

___

*Vl*23

1 - i?2
1-23

( X IX .20)

indicando que la parcial e n tre 1 y 4, controlando en relacin con


2 y 3, puede in te rp re ta rse com o la razn de la p roporcin de
variacin adicional explicada p o r 4, adem s d e la explicada p o r
2 y 3, a la p ro p o rci n de variacin d e ja d a sin explicar p o r estas
dos ltim as variables. Podem os tam bin ex ten d er la ecuacin
(X IX .17) p a ra com prender m s variables. As, p o r ejem plo:
1

^ 1 -2 8 4 ( 1

r1 2 )0

"l3- 2 )( 1 ^"l4'23 )

y, en general,
=

(XIX.21)

E l coeficiente parcial-m ltiple. E n ocasiones re su lta deseable


calcular u n a correlacin m ltip le e n tre u n a variable dependiente
y algunas variables independientes, controlando en relacin con
u n a o v arias de stas. Supngase, p o r ejem plo, que se est tra
tan d o de p re d ecir el tam ao real d e la fam ilia a p a r tir de cierto
n m ero de variables independientes. Es obvio que ciertas varia
bles com o la duracin del m atrim o n io y la edad de la esposa en
el m om ento de celebrarlo h an d e to m arse en consideracin. P or
o tra p arte, e sta s variables son ta n obvias, que el hecho de con
ju n ta rla s al coeficiente general m ltiple p o d ra oscurecer los
efectos de las variables re sta n te s. As, pues, el in ters podra
fijarse en la variacin del tam a o d e la fam ilia despus que di
chas variables tericam ente poco im p o rtan tes h an explicado de
la variacin todo lo que podan. Siguiendo a C roxton y Cowden
[ 6], indicam os la parcial-m ltiple e n tre la variable 1 (dependien
te) y 2 y 3, co n trolando en relacin con 4, p o r m edio de r1(2g 4.
La f rm u la se convierte en ta l caso e n :
2
r i ( 2 8 ) .4

-^1-234 rli
1 _

r 2
14

La f rm u la a n te rio r de la parcial-m ltiple es u n a sim ple exten


sin de las f rm ulas que hem os utilizado en las correlaciones
m ltip le y parcial. D ejam os p rim ero q u e la variable de control 4
explique todo lo que puede. O bservam os luego que # 1 -2,34 re p re

sen ta la p ro p o rci n d e variacin explicada p o r las tre s variables


in d ependientes to m adas ju n ta s. La diferencia, pues, h a de deber
se a las variables 2 y 3. De este m odo, el n u m era d o r re p resen ta
la p ro p o rci n de variacin explicada p o r 2 y 3, adem s d e aquella
explicada p o r 4. Pero, com o q u iera que slo hem os d e o p erar
con la variacin n o explicada p o r la variable de control, dividi
m os e n tre la can tid ad 1 rf4. Sirvindonos del principio consis
te n te en d e ja r ac tu a r p rim e ro to d as la s variables de control, po
dem os escrib ir la f rm u la general de la parcial-m ltiple com o:
r2

1i(jk.

1 R2

(X IX .22)

l.til-'-W

P o r e je m p lo :

3(5).124

**3*12456 ~~ **3124
1 _?2
L
3.124

La parcial-m ltiple no parece h ab e rse utilizado con m ucha fre


cuencia en la investigacin sociolgica, debido ta l vez al hecho
d e q u e las perso n as del ra m o estn poco fam iliarizadas con ella.
Sin em bargo, com o m edida que p erm ite tr a ta r problem as de co
rrelaci n m ltip le y p arcial sim ultneam ente, su em pleo p oten
cial p arece se r grande. E n la prxim a seccin exam inarem os o tro
tip o de em pleo de e sta m edida.
XIX.6. R egresin m ltip le y no linealidad
H a sta aq u to d a n u e s tra lab o r se h a basado en el su p u esto de
m odelos lineales. E n el ca p tu lo a n te rio r vim os u n a p ru e b a de no
linealidad, p ero slo pudim os d ecir m uy poco a p ro p sito d e la
fo rm a de la relacin n o lineal, excepto en el caso d e tran sfo rm a
ciones logartm icas. E n o tro s trm in o s: n o hicim os m s q u e
verificar en relacin con la existencia d e u n a desviacin resp ecto
d e la linealidad, p ero n o efectuam os p ru e b a alguna p o r lo q u e se
refiere a la fo rm a de la curva. Si b ien el p ro b lem a general d e la
no linealidad re b asa el objetivo de este texto, podem os, con todo,
ex am in ar b rev em en te d e q u m odo las tcnicas de la regresin
m ltip le y d e los m nim os cu adrados se d ejan m odificar ligera
m en te p a ra p erm itirn o s tr a ta r algunos tipos de problem as que
co m p o rtan no linealidad.
Como y a se seal en el captulo a n terio r, el n m ero d e form as
q ue la relacin n o lineal p u ed e a d o p tar es sum am ente grande.
C onsiderem os ecuaciones del tipo :
Y = a + b1X + b 2X 2 + b3X a + . . . + bkX *

( X IX .23)

Si todos los coeficientes b2, b3, . . . , bk son cero, la ecuacin se


reduce a la fo rm a lineal fam iliar. E n o tro s trm in o s: la recta
puede consid erarse com o caso p a rtic u la r de este tipo general de
curva, que se designa com o polinom ial. Y en form a anloga, si
todos los coeficientes, excepto a,
y b2, son cero, obtenem os u n a

y=a+hX+hzXz

y=et +b\X+bXz+bi Xi Y*a*t\X+bX2+b3X'+btX*

Fig. XIX.6. F orm as de polinom ios de segundo, tercero y


cuarto grados.
polinam ial de segundo grado. El grado de la polinom ial se refiere
al exponente m s elevado de X que tenga u n coeficiente no cero.
Las polinom iales tienen u n a p ro p ied a d m uy im p o rtan te, la que
nos p erm ite d ecir cul es el grado de la ecuacin que puede re
su ltar m s ap ro p iad a p a ra n u estro s datos. O bsrvese q u e una
polinom ial de p rim e r grado* es u n a lnea re c ta sin desviaciones.
Sucede que u n a ecuacin de segundo grado co n tar con u n a des
viacin, describiendo de hecho la cu rv a que llam am os parbola.
Una polinom ial de te rc e r grado te n d r dos desviaciones; la de
cu arto grado, tres, y as sucesivam ente. Si ignoram os ciertos ca
sos degenerados en los que las desviaciones no se com portan
adecuadam ente, p odrem os d ib u ja r las ecuaciones de segundo,
tercero y cuarto grados, com o se ve en la figura XIX.6. La direc
cin en que la p a rb o la o curva de m s alto grado "se a b re , de
p en d er del signo de los coeficientes. Lo im p o rtan te es observar
que siem pre h a b r u n a desviacin m enos que lo que indica el
grado de la ecuacin.
Algunas veces obtenem os curvas em pricas que se parecen a
u n a u o tra de esas polinom iales, au n q u e ra ra s veces, si es que
ttlguna, necesitam os ir m s all de u n a ecuacin de te rc e r grado.
Ln parbola sim ple p ro p o rcio n a a m en u d o u n a adaptacin razo
nablem ente b u en a a los datos, sobre todo* si nos dam os cuenta
de que n u estra curva puede ser p erfectam en te p lana y que nuesIroN tintos no necesitan extenderse lo' suficiente p a ra co m pletar
lu flexin. As, p o r ejem plo, los datos p o d ran ser sim ilares a los
que* se indican en la figura XIX.7. Aqu, aunque n o exista acaso
razn lenrica alguna p a ra esp erar que las m arcas vuelvan a b a
ja r una vez que hayam os avanzado cierta distan cia a lo largo del
eje de las X, la parbola puede c o n s titu ir con to d o u n a ad a p ta
cin razonable, dentro de los lm ite s d e variacin dados en el
problema. Es, pues, perfectam en te p o sib le que u n a p arb o la de

m nim os cuad rad os se ad ap te a los datos m ucho m ejo r que la


recta.
Supngase que sea efectivam ente as. Cmo pu ed e tra ta rse el
pro b lem a? E l le c to r se h a b r ya dado cuenta, sin duda, de la se
m ejanza e n tre la f rm u la d e la polinom ial general y la d e la ecua
cin de los m nim os cuadrados de m s de u n a variable indepen-

Fig. XIX.7. Datos hipotticos con una parbola de m ejo r ajuste.


diente. La n ica diferencia, en efecto, est en que hem os escrito
X 2 en lu g ar de X 2, etctera. S upngase ah o ra que hubiram os de
re p resen ta rn o s X2 com o variab le sep arad a y d istin ta de X . Mien
tra s nos servim os de sm bolos ab stra cto s esto es p erfectam ente
posible, aunque, adm itindolo, esta p r ctica no te n d ra m ucho
sentido en trm in o s de u n a variable concreta. Con todo, las m a
tem ticas del caso re su ltan se r idnticas. As, p o r ejem plo, si
sospecham os que la relacin e n tre la discrim inacin y el porcen
ta je de negros p u ed a re p resen ta rse acaso m s adecuadam ente por
m edio de u n a cu rv a de segundo grado, tom am os el p o rc en taje de
negros com o u n a de las variables independientes X t y (el p o r
cen ta je de n eg ro s)2 com o segunda variable independiente X 2.
P o r consiguiente, la ecuacin de segundo g ra d o :
Y = a + b 1X + b2X 2
difcil de tr a ta r p o r m edio de los m nim os cuadrados, se reduce
a la ecuacin fa m ilia r:
y = a. H- b iX i + b2X 2
P ara o b ten er u n a m edida de b o n d ad de a ju ste a la parbola,
podem os servirnos ah o ra de la correlacin m ltip le e n tre Y y

y X<. La d iferen cia e n tre el cu ad rad o d e esta correlacin m lti


ple y el cu a d rad o de la r to tal (suponiendo lin ealid ad ) nos dar
u n a m ed id a del g ra d o e n que hem os aum entado n u e s tra habilidad
en cu an to a p re d e c ir la discrim inacin sirvindonos, sin em bargo,
d e u n a ecuacin d e segundo grado en lugar d e u n a recta.
E n p rin cip io , el procedim iento indicado p u ed e ex ten d erse de
v arios m odos. P o d ran em plearse ecuaciones de te rc e r grado y
m ayores con o b jeto de conseguir u n a adaptacin algo m ejo r. Ade
m s, p u ed en a a d irse al c u a d ro o tra s variables. R especto de
algunas d e estas variables independientes puede suponerse un
m odelo n o lineal, y u n o lineal re sp ecto de o tras. Al an ticip ar
tasas de d iscrim inacin a p a r tir d e cierto n m ero d e variables
in d ependientes, podrem os acaso e n c o n tra r que ca b ra ob ten er
ecuaciones de p rediccin algo m ejo res suponiendo m odelos no
lineales p a ra algunas de las variables. E n p artic u la r, ta l vez la
relacin e n tre la discrim inacin y el p o rc en taje de negros pueda
s e r de fo rm a p arablica, en ta n to q u e las variables independien
tes re sta n te s se relacionan con la discrim inacin en fo rm a lineal.
P o r lo tan to , la ecuacin m ltip le de los m nim os cuadrados
a d o p tar la siguiente fo rm a :
Y = a + ( b X 1 + b2X 2) + bXs + . . . + bkX k
en la que los dos trm in o s al in te rio r del p arn tesis se necesitan
p a ra d escrib ir la relacin (n o lin eal) e n tre la discrim inacin y el
p o rc en taje de negros. E n este caso tam bin, la variable X 2 vuelve
a re p re se n ta r el p o rc en taje de negros al cu a d rad o : (p o rcen taje
de negros )2. Se concibe que tam b in alguna de la s o tra s X de la
ecuacin p u ed a em plearse asim ism o p a ra in d icar relaciones no
lineales e n tre la discrim inacin y las dem s variables.
E n el ejem p lo a n terio r, supngase que desebam os o b ten er la
co rrelacin p arcial e n tre la d iscrim inacin y el p o rc e n ta je de
negros co n tro lan d o en relacin con las variables re sta n te s. Como
q u iera que X t y X 2 se h an utilizado p a ra re ferirse a la p rim era
y la segunda po tencias del p o rc e n ta je d e negros, no te n d ra sen
tido re fe rir Y a X co n tro lan d o en relacin con todas las dem s
"varibles", in clu id a X 2. Antes bien, necesitam os o b ten er la co
rrelacin m ltip le e n tre Y y ta n to X x com o X 2, co n tro lan d o en
relacin con X 8, X 4, . . . , X 1:, P a ra lo g ra r dicho propsito, pode
m os servirnos del coeficiente parcial-m ltiple.
M anejo de la interaccin com o producto s cruzados. E n el
anlisis p o r dos m todos de la variancia, en el de la covariancia
(vase captulo xx), y en relacin con las variables, dependientes
de escala nom inal, concebam os la in teraccin estad stica com o si
im p licara cualquier diferencia de la sim ple adicin. U na alter
nativ a obvia p a ra u n m odelo aditivo la constituye u n a relacin
m u ltip licativ a del tip o que p o d ra se r sugerido m ed ian te argu

m entos verbales orientados a sealar que, al objeto de tener


"p resen te la Y , debern tenerse "p resen tes" tanto la X x com o
la X 2. C uando se avanza m s all de las sim ples dicotom as, la
idea, generalizada, nos dice que Y puede se r u n a funcin m ulti
plicativa de X x y X 2- La ecuacin que sigue puede co n stitu ir
u n a form ulacin general de tal relacin.
Y = (a a + p1X 1)Yl( a 2 + p2X2)y2
en las que los 'exponentes d e gam m a pueden ser, o bien positi
vos, en cuyo caso e sta r im plcita la m ultiplicacin, o negativos,
con divisin im plicada. La funcin puede desde luego ser conver
tid a en aditiva, haciendo u n a transform acin logartm ica de todas
las variables, pudiendo extender fcilm ente el principio general a
m s de dos variables independientes.
Supongam os, com o aproxim acin razonable, que am bos expo
nentes fuesen la unidad, lo que red u cira la ecuacin a:
Y ( i + Pl-S^l)( 0t2 +

)=

"I- f*2pl-Xl + 011^2-^2

Vemos in m ed iatam ente que m ediante la sum a de u n fa cto r que


ab arca X }X 2 p o drem os m a n e ja r este tipo de m odelo sim ple m ul
tiplicativo, conservando el fo rm ato aditivo. Nos lim itam os a de
n o m in ar X 1X 2 com o X 3, construyendo en consecuencia n u e stra
m edida de X ?, y continuam os adelante. D eseam os, p o r ejem plo,
m ed ir el grado en que X 3 agrega a la variancia explicada, y po
dram os p ro b a r la significancia de este fa cto r adicional com o se
indica en la seccin siguiente. Si hubiram os com enzado con tres
variables independientes, podram os h a b e r form ado tres factores
con los p ro d u cto s X 1X 2, X t X 3 y X 2X 3 p a ra d eterm in ar las tre s
interacciones de p rim e r orden, y u n trip le p ro d u c to X tX 2X 3 p a ra
m an eja r la interaccin de ord en superior.
Es necesario fo rm u lar varias advertencias. E n p rim e r lugar,
el u so de factores de p ro d u cto s cruzados est ju stificad o con base
en que la relacin "v erd ad e ra sea m ultiplicativa y no aditiva, en
tan to que la "n o aditiv id ad se refiera a cualquier tipo d e sepa
racin d e la aditividad. Tenem os as u n a m edida de interaccin
algo m s restrictiv a que la que se obtuvo en relacin con el an
lisis de la variancia, y es posible que otros factores de interaccin
h u b ieran funcionado m e jo r (p o r ejem plo: X t log X 2, X t eos X 2,
o ex i log X 2). Segundo: si tom am os X 3 =- X1X 2, debem os ten er
p resen te que X 3 es u n a funcin no* lineal exacta de X t y X 2, y
p o r ta n to las correlaciones m om ento-producto de X s ta n to con
X 1com o con X 2 sern de ordinario m uy altas. Tendrem os as
e n tre m anos u n problem a de m ulticolinearidad, y no podrem os
ten er m u ch a fe en n u estras estim aciones de los coeficientes de

los factores X. E ste problem a re su lta p artic u la rm en te serio cuan


do se com ienza con cinco o seis variables independientes y se
desea te n e r en cuenta todas las posibles interacciones. Si las
pro p ias variab les originales e stn altam ente intercorrelacionadas,
o bien fo rm an p a rte de bloques, los factores de p ro d u cto s cruza
dos se relacio n arn con tales bloques en form as peculiares (vase
[1 ]). E n tales casos puede re s u lta r razonable m e d ir h a sta qu
p u n to el g ru p o com pleto de fa c to re s de p ro d u cto s cruzados au
m en ta significativam ente la variancia explicada, m ed ian te el uso
del coeficiente parcial-m ltiple, o com parando los m ltiples, con
y sin los facto res de los productos. La determ inacin de los
efectos de determ inados factores d e los pro d u cto s cruzados pue
de, sin em bargo, re su lta r dem asiado arriesgada, p o r razn de un
g ran volum en de erro res de m u estreo en los que p u d iera haberse
in currido.
H ay evidentem ente m uchos m s usos y m s posibles extensio
nes de las tcnicas d e correlacin y regresin m ltiples, de los
que pueden se r exam inados en u n texto general. H em os visto, sin
em bargo, algunos de los principios bsicos m s elem entales,
los que p erm itirn co n su ltar inteligentem ente con los especialis
tas en caso de que se p lan tea ran problem as m s com plicados.
XIX.7. Pruebas de significacin e intervalos de confianza
E n relacin con la significacin ser necesario verificar, p o r su
puesto, tan to el coeficiente m ltip le com o el parcial. La hipte
sis n u la y los supuestos sern sim ilares a los que se establecieron
en el caso de la correlacin total. Una m u estra aleatoria ser
sup u esta com o d e costum bre. El supuesto de u n a distribucin
n o rm al m u ltiv ariable nos aseg u rar que cada variable est nor
m alm ente d istrib u id a alred ed o r d e las otras, que las variancias
son iguales, y que la ecuacin de regresin te n d r la fo rm a indi
cada p o r la ecuacin (X IX .l).4 H echos estos supuestos, podem os
servirnos de las p ru e b as d e anlisis de variancia p a ra la significa
cin de varios coeficientes p arciales y m ltiples. V erem os p ri
m ero p ru eb as d e significancia de correlaciones m ltiples, ya que
stas son m s sencillas desde el p u n to de vista de los conceptos
que las de las correlaciones parciales.
Como q u iera que el cuadrado de la correlacin m ltip le re p re
sen ta siem pre la proporcin del to tal de la variacin explicada
p o r las variables independientes actu an d o ju n tas, hem os dividido

4 Debe recalcarse una vez mas que no todas las X t necesitan tener dis
tribuciones normales, en tanto la variable dependiente est normalmente
distribuida alrededor de todas las combinaciones de niveles fijos de las
variables independientes con la misma variancia cfl. Suponemos, con otras
palabras, que el factor de perturbacin se encuentra distribuido normal
mente con la variancia constante.

de hecho esta variacin to tal en dos p o rc io n e s: las sum as expli


cad a e inexplicada de cuadrados. P or lo tan to , el cuadro del an
lisis de variancia ser siem pre sim ilar al cu ad ro X IX .l.

Cuadro

X IX .l. Prueba d e anlisis de variancia para la significa


cin de la correlacin m ltiple
Sumas de
cuadrados

Total
Explicada

Grados de
Apreciacin
libertad de la variancia

Sxi2

N-

R2 x f

Inexplicada (I -

N - k -

jR22#:

R?

a -z m * !3

i -R a

N-

N - k - l

E n el cu ad ro X IX .l hem os indicado la variable dependiente


con X lr dejan d o que k re p resen te el n m ero de las variables in
dependientes. Si R tiene, p o r ejem plo, u n a variable dependiente
y tres variables independientes, h a b r en la ecuacin d e reg re
sin cu a tro p arm etro s que hay que apreciar. P or consiguiente,
sirvindonos de la ecuacin de los m nim os cuadrados p a ra apre
ciar la v ariable dependiente, deberam os p e rd e r 4 o ( k + 1) gra
dos de libertad . As, pues, los grados de lib ertad asociados al
trm ino de e rro r sern p o r lo regular
N - ( k + l) = N - k - l
Los grados de lib ertad asociados a la sum a de cuadrados explicada
puede o b tenerse a continuacin p o r sustraccin. Toda vez que los
grados de lib ertad p a ra las sum as de cuadrados explicada e inex
plicada re su ltarn ser siem pre k y N k 1, respectivam ente, po
dem os escrib ir u n a f rm u la general de F. Obvrvese que, al igual
que en el caso de las correlaciones totales, el fa cto r que re p re
sen ta la sum a to tal de cuadrados se elim ina. O btenem os as una
f rm u la general p a ra verificar la significacin de u n a R m ltiple,
o sea:
R2
N - k - l
i

( X I X '24)

No es necesario, p o r consiguiente, establecer la ta b la del an


lisis de v ariancia en la fo rm a convencional. V erificando la signi
ficacin d e la correlacin m ltip le que obtuvim os al explicar la
discrim inacin a p a r tir del p o rc en taje de negros y el porciento
u rb a n o (p. 476), obtenem os ah o ra:

.3658

1 5 0 -3

1 - .3658

.3658 147
.6342

= 42.39

q ue es significativa al nivel d e .001.


Al v erificar la significacin de coeficientes parciales, operam os
so b re la b ase del principio de d e ja r que las variables de control
expliquen p rim ero todo lo que pueden. Tom am os a continuacin
la p orcin de la sum a to tal de cuadrados que queda inexplicada
p o r la v ariable de control, y nos servim os d e ella com o nuevo
total. E sta ltim a cantidad se descom pone luego en dos com po
nentes, las porciones explicada e inexplicada, y u n a p ru e b a F
efectuada to m ando la razn de las apreciaciones de la variancia
basadas en estas dos ltim as com ponentes. El procedim iento se
ilu stra en el cu ad ro XIX.2, en el que verificam os la significacin
de r13.2 (o sea, H 0 : 013-2 = 0).

Cuadro XIX.2. P rueba de anlisis

de variancia para la significacin


de la correlacin parcial r 13.2

Sumas de
cuadrados

Total
2xia
Explicada
por 2
rufSxi*
Inexplicada
por 2
(1 nfyZx?
Explicada
por 3
W ( l - r a,*)2*i*
Inexplica
da por 3 ( 1 - W ) ( 1- r ^ S x f

Grados
de
libertad
N

Estimacin de la
variancia

- 1
1

N -2

1
N~

ra-i{ 1 -

3 (1 - fW )(l - ra*)2xx*
N- 3

ra -i(N

- 3)

O bsrvese que los grados d e lib e rta d inexplicados decrecen


en un o cad a vez que se aade u n a nueva variable. P o r o tra p a r
te, en la f rm u la de F la expresin se sim plifica d e ta l m odo,
que re su lta innecesario escrib ir la tab la en te ra cada vez que
deseam os efe c tu a r u n a prueba E n el problem a num rico del
que nos hem os venido sirviendo (p. 456) el valor de F de la
p ru eb a de significancia de la relacin e n tre la discrim inacin
y el p o rc en taje urbano, controlndolo en relacin con el p o r
centaje de negros, se convierte e n :
13'2 (A i- 3 )
1 ~ rh:2

(.332)2
1 - (.332)2

(147) = 18.21

As pues, la parcial es significativa al nivel de .001.


Si a,l ex ten d er este procedim iento deseam os verificar la signifi
cacin de r 14.23, podem os to m a r com o nuevo to tal la porcin no
explicada p o r 2 y 3 com binadas. E sta ca n tid ad puede luego des
com ponerse en porciones explicada e inexplicada, p racticndose
la p ru e b a de F lo m ism o que an terio rm en te. U na vez m s, todas
las cantidades tan to del n u m era d o r com o del denom inador de F
se elim inarn, excepto en cuanto a los facto res que com portan las
parciales. Toda vez que los grados d e lib e rta d asociados al nu m e
ra d o r sern siem pre la u n id ad y, com o q u iera que los del denom i
n a d o r sern N k 1, podem os escrib ir la f rm u la general de la
verificacin de la p arcial
com o sigue:
s
(X IX .26)
en donde el n m ero to ta l de variables es k + 1 .
O bsrvese que al co m p arar las p ru e b as de la significacin de las
correlaciones m ltiples y las parciales el trm in o final de e rro r
q ue co m p o rta la sum a de cu adrados inexplicada p o r todas las
variables d eb er se r el m ism o en am bas tablas, a condicin, p o r
supuesto, que se em pleen las m ism as variables dependientes e in
dependientes. Ya dem ostram os que e ra as, to d a vez que sabe
m os q u e:
1 ^1-23 ( 1 ~~ r12)(l

rlS-2)

De los cu adros X IX .l y XIX.2 puede verse que estas expresiones


son las que fig uran en las hileras in ferio res de las tablas res
pectivas.
E l pro ced im iento que acabam os de d esc rib ir p a ra verificar las
correlaciones p arciales puede utilizarse asim ism o p a ra verificar
la significacin de la parcial-m ltiple. A estas altu ra s el lecto r
e sta r ya en condiciones de verificar que, con o b jeto d e h ac er la
p ru e b a de significacin de f1(23).4r> tom arem os la sum a de cu ad ra
dos n o explicada p o r 4 y 5, sirvindonos luego del cu ad rad o de la
parcial-m ltiple p a ra o b ten er la pro p o rci n de esta nueva su m a
de cuadrados, que re su lta explicada p o r las variables 2 y 3.
Pueden calcu larse asim ism o intervalos de confianza p a ra los
coeficientes p arcial y m ltiple, m ed ian te u n a ligera m odificacin
del p rocedim iento de tran sfo rm aci n de la z descrito en el cap
tulo an terio r. Podem os co n v ertir de nuevo los dos tipos de coefi

cientes en z sirvindonos de la tabla. El nico cam bio que se re


q u iere es que el e rro r e st n d a r d e z ya no nos venga dado p o r
1

= .......................
V ^ -3
E n lu g ar de ello, en cam bio, perdem os u n grado m s d e lib ertad
p o r cada v ariable aadida, de m odo que el e rro r e st n d a r se con
vierte en general en :
1
o, = --------- --------( X IX .27)
y /N -k -2
en donde k re p re se n ta el n m ero to ta l de variables.
O btenem os p o r consiguiente los intervalos de confianza del 95
p o r ciento p a ra R v23 y r13.2 de la m an era sig u ien te:
1.96a* = 1.96---------= .1622
V 146
z
Ri2s .605
.332

.7010
.3451

zl --z1.9600 zu = z + l-%a
.5388
.1829

.8632
.5073

ri

ru

.492
.181

.698
.468

As, pues, el in terv alo de confianza del 95 p o r ciento alrededor


de R x.23 va de .492 a .698, en tan to que el de r 13.2 va d e .181 a .468.
Antes de te rm in a r el p resen te cap tu lo conviene ob serv ar un im
p o rta n te p u n to m s. Cada vez que aadim os a la ecuacin de los
m nim os cu a d rad o s o tra variable, slo perdem os u n grad o de li
b e rta d m s. Podem os, p o r consiguiente, a a d ir variables, con una
p rd id a m uy p eq u e a de eficacia, p o r lo que se re fiere a las p ru e
b as de significacin. E n ocasiones, la adicin de m s variables
p o d r b a ja r el nivel de significacin, debido al hecho de que aqu
llas no co n trib u yen a explicar b a sta n te variacin adicional p a ra
co m p en sar la p rd id a en grados d e lib ertad . No o b stan te, tenes
m os en la co rrelacin m ltip le y p arcial u n in stru m e n to que, si
se aplica ad ecuadam ente, es m u ch o m s p o ten te q u e cualquiera
d e los m todos que exam inam os an terio rm en te. Sin em bargo, si
el nm ero de variables utilizadas em pieza a aproxim arse al de los
casos, podem os e sp e ra r o b ten er u n as correlaciones m ltiples m uy
grandes, debido sim plem ente a que estam os en condiciones de sa
c a r p a rtid o d e las fluctuaciones fo rtu itas. Con 15 casos y 15 va
riables, ser posible p a sa r u n a superficie de m nim os cuadrados

exactam ente e n tre todos los puntos, incluso si suponem os un


m odelo de tipo lineal. P or consiguiente, la m ltip le R ser auto
m ticam en te la unidad. De ah que, lo m ism o que las dem s tc
nicas estadsticas, las de regresin y correlacin m ltiple deban
em p learse con precaucin. A estas a ltu ra s ya n o ser pro b ab le
m ente necesario se alar que, excepto con fines de exploracin, no
d eb ern em plearse, a m enos que los supuestos requeridos se cum
plan, si 110 to talm ente, p o r lo m enos aproxim adam ente.
Glosario

Ponderaciones de beta
Correlacin mltiple
Correlacin parcial-mltiple
Ecuacin de regresin mltiple
Distribucin normal multivariable
Correlacin parcial
Ecuacin polinomial
E je r c ic io s

1. Sirvindose de los datos del ejercicio 1 del captulo xvil.


a) Obtngase la correlacin parcial entre la integracin moral y la
heterogeneidad, controlando la movilidad. Calclese asimismo
la parcial entre la integracin moral y la movilidad, controlan
do la heterogeneidad. Respuesta, .51; .63.
b) Obtngase la ecuacin de mnimos cuadrados mltiple, tomando
la integracin moral como variable dependiente.
c) Qu son las ponderaciones beta? Cmo se comparan con las
parciales obtenidas en a)?
d) Calclese la correlacin mltiple, tom ando la. integracin moral
como variable dependiente. Cmo pueden controlarse los clcu
los? Respuesta, R = .64.
e) Verifiqese la significacin de las correlaciones mltiple y par
cial calculadas en los apartados a) y d). Pnganse intervalos de
confianza del 99 por ciento alrededor de cada una de estas co
rrelaciones.
2. Escrbanse frmulas para ni.iztm, R3i.im y rVaO-Mw. Respuesta, b)
? S .1 2 S 5 7 ~

SS

- } - f 2 4 5 - W ( 1 ----- R S 4 -1 2 3 )

3. Escrbanse las frmulas de F que se emplearan para verificar el


significado de cada una de las correlaciones del ejercicio 2 anterior.
Respuesta, {c)F ---- -----------------
1
2
B ibliografa

1. Althauser, R. P .: "Multicollinearity and Non-Additive Regression


Models, en H. M. Blalock (ed.), Causal Modets in the Social
Sciences, Aldine Publishing Company, Chicago, 1971, cap. 26.

2. Blalock, H. M.: Causal Inferenees in Nonexperimental Research,


University of North Carolina Press, Chapel Hill, 1964, cap. 3.
3. Blalock, H. M .: "Per Cent Non-white and Discrimination in the
South", American Sociological Review, vol. 22, pp. 677-682, 1957.
4. Christ, Cari: Econometric Models and Methods, John Wiley &
Sons, Inc., Nueva York, 1966, Parte III.
5. Cowden, D. J . : "A Procedure for Computing Regression Coefficients, Journal of the American Statistical Association, vol. 53,
pp. 144-150, 1958.
6. Croxton, F. E., y D. J. Cowden: Applied General Statistics, 3? ed.
Prentice-Hall, Inc., Englewood Cliffs, N. J., 1967, cap. 21.
7. Davis, J. A.: "A Partial Coefficient for Goodman and Kruskals
Gamma", Journal of the American Statistical Association, vol. 62,
pp. 189-193, 1967.
8. Draper, N. R., y H. Sm ith: Applied Regression Analysis, John
Wiley & Sons, Inc., Nueva York, 1966, caps. 5-10.
9. Dwyer, P. S.: Linear Computations, John Wiley & Sons, Inc., Nueva
York, 1951.
10. Gordon, Robert: "Issues in Mltiple Regression, American Jour
nal o f Sociology, vol. 73, pp. 592-616, 1968.
11. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 25.
12. Johnston, J.: Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963.
13. Kendall, M. G.: Rank Correlation Methods, Hafher Publishing
Company, Inc., Nueva York, 1955, cap. 8.
14. Land, K. C.: "Principies of Path Analysis, en Edgar Borgatta
(ed.), Sociological Methodology 1969, Jossey-Bass, Inc., Publshers,
San Francisco, 1969, cap. 1.
15. Morris, R. N., "Mltiple Correlation and Ordinally Scaled Data,
Social Forces, vol. 48, pp. 299-311, 1970.
16. Quade, Dana: Nonparametric Partial Correlation, University of
North Carolina, Institute of Statistics Mimeo Series, nm. 526,
1967.
17. Reynolds, H. T .: Making Causal Inferences w ith Ordinal Data,
University of North Carolina, Institute for Research in Social
Science, Chapel Hill, 1971.
18. Simn, H. A.: "Spurious Correlation: A Causal Interpretation,
Journal of the American Statistical Association, vol. 49, pp. 467479, 1954.
19. Somers, R. H.: "An Approach to the Multivariate Analysis of
Ordinal Data, American Sociological Review, vol. 33, pp. 971977, 1968.
20. Wilson, T. P .: "A Critique of Ordinal Variables, Social Forces,
vol. 49, pp. 432-444, 1971.

X X . A N L IS IS D E COVARIANCIA Y V A R IA B LES
SIM ULADAS

H emos

estudiado el anlisis de variancia en que u n a sola escala


de in tervalo pu ed e relacionarse con u n a o m s escalas nom inales.
E n el captulo an terio r vim os cm o las tcnicas de la correlacin
podan em plearse p a ra relacio n ar cualquier nm ero de escalas
de intervalo. E n el anlisis de covariancia com binam os ah o ra las
ideas bsicas del anlisis de variancia y del anlisis de correla
cin, con o b jeto de tr a ta r problem as que com portan m s de una
escala d e intervalo en com binacin con cualquier nm ero de es
calas nom inales. As, pues, el anlisis de covariancia es u n a exten
sin te rica de estos dos procedim ientos, que nos pone ideal
m en te en condiciones de tr a ta r problem as que com porten diversas
com binaciones de escalas d e intervalo y nom inales.
P o r desgracia, segn verem os en seguida, los clculos re q u eri
dos p o r el anlisis de covariancia son m uy fastidiosos si se re a
lizan a m ano o con u n a calculadora de escritorio, p ero no se
p lan tean problem as especiales si se dispone de p ro g ram as de
com putacin. E n u n te rre n o ideal cabe am p liar el procedim iento
h a sta in clu ir el m anejo de u n gran nm ero de variables indepen
dientes nom inales y de escalas de intervalos, a condicin d e que
la variable d ependiente sea u n a escala de intervalo. E n la p rc
tica, sin em bargo, u n o se e n c u en tra lim itad o a tre s o c u a tro va
riables independientes p o r razn de que las interacciones d e m s
elevado o rd en re su ltan m uy num erosas pasado aquel lm ite. El
anlisis de la covariancia es, en su form a, equivalente a u n proce
dim ien to denom inado de anlisis p o r "variable sim ulada, que
ser explicado al final del captulo. E ste procedim iento equivale
a u n a sim ple am pliacin del m odelo de regresin, y el estudio de
am bos sistem as su m in istra u n a b u en a apreciacin intu itiv a de la
relacin existente e n tre el anlisis de la variancia y la regresin.
E n este captulo lim itarem os n u e stra atencin al caso de tres
variables, en el que tenem os u n a escala nom inal y dos escalas de
intervalo. El p ro blem a bsico del que nos ocuparem os es el
de relacio n ar dos de dichas variables controlando en relacin con
la tercera. Si bien sem ejan te control p o d ra efectuarse tom ando
categoras de la variable de control y llevando a cabo anlisis
separados en el in te rio r de esas clases, es posible, con todo, obte
n e r u n a eficacia m ucho m ayor m ediante el em pleo de las tcnicas
del anlisis de covariancia, a condicin de que la interaccin no
sea significativa. E n otros t rm in o s : el control puede efectuarse
sin necesidad de ten er que to m a r u n n m ero sum am ente grande
de casos. E fectivam ente, nos servim os de prom edios p o n d era
dos y d e procedim ientos d e ajuste, com o lo hicim os en el caso de

la correlacin parcial. Con todo, al servirnos del anlisis de co


variancia podem os ob ten er considerablem ente m s inform acin
de lo que fu e el caso con la correlacin parcial, ya que podem os
desplegar correlaciones y estim aciones de declive separadas p ara
cada categora d e la variable de control, pudiendo adem s buscar
la interaccin.
Hay dos tipos de situaciones de los que habrem os de ocupar
nos : 1) aquellas en las que relacionam os las dos escalas d e in te r
valo, co n tro lan d o en relacin con la escala nom inal, y 2) aquellas
en que u n a d e las escalas de intervalo es relacionada con la escala
nom inal, siendo la variable d e control la o tra escala de intervalo.
Pese a que ra ra vez el inters se fija r en am bos tipos de proble
m as p a ra u n a com binacin d ad a d e datos, ser necesario, con
todo, llevar a cabo la m ayor p a rte del anlisis re q u erid o p o r el
p rim e r tip o de problem a, incluso cuando el inters se centre
p rin cip alm en te en el segundo. sta es la razn de que proceda
m os p rim ero con el tipo de p ro b lem a en que se utiliza com o
co n tro l la variab le de escala nom inal.
X X .1. R elacin de dos escalas de intervalo, control de la escala
nom inal
Los m todos b sicos de correlacin y regresin pueden em plear
se p a ra rela cio n ar dos o m s escalas de intervalo d en tro de las
categoras d e la variable de control. H abiendo investigado cada
u n a de las relaciones en el in te rio r de las diversas categoras,
puede re s u lta r posible ju n ta r los resultados, obteniendo coeficien
tes prom edios de correlacin in traclase y de m nim os cuadrados,
a condicin de que pueda suponerse que las relaciones son las
m ism as de u n a categora a la siguiente. Si los resultados se pue
den ju n ta r, p u ed e obtenerse u n a sola m edida general que servir
cnrno m edida efectiva de resum en y ser m s segura com o esti
m acin que cu alq u iera de las m ed id as de las categoras separa
das. El coeficiente prom edio de correlacin de in traclase puede
In terp retarse com o directam en te anlogo al coeficiente de co rre
lacin parcial, ya que puede u tilizarse p a ra re p re se n ta r la rela
cin e n tra las dos variables de escala de intervalo despus de
hiber perm itid o que acte la variab le de control.
Hoy dos p ru ebas de significacin que hem os de p ra c tic a r en
este tipo de problem a. La p rim e ra es u n a p ru e b a p a ra ver si el
hecho do ju n ta r los resultados de las diversas clases es o no leg
tim o. Aqu verificam os esencialm ente la interaccin, p a ra ver si
podem os o no su p o n er la m ism a n atu ra leza de relacin (segn la
m edida de In.s b ) pnra todas las clases. Si no podem os, entonces
el ju n ta r no ten d r m ucho objeto, y habrem os de p ra c tic a r an
lisis separados pura cmln u n a de las categoras de la variable de
control. P ero si la rn m i n d e los resultados parece justificada,

entonces seguim os adelante y obtenem os u n a correlacin pro m e


dio de in traclase, y la segunda p ru e b a que hagam os ser p a ra ver
si dicho coeficiente es o no significativam ente d istin to de cero.
Como de costum bre, hem os de estab lecer algunos supuestos
acerca de los m todos de m u estreo y de las poblaciones de las
que se h an ex trado los datos y, com o p o d ra esperarse, estos su-

Fig. X X .l. D atos hipotticos que indican una dbil correlacin


total en tre X y Y, pero correlaciones m s fu ertes dentro de las
categoras de A.
puestos sern esencialm ente los que req u ieren el anlisis de va
rian cia y el de correlacin. E n lneas generales, esto es lo que
hacem os en el p ro blem a del p rim e r tip o de anlisis d e covarian
cia. Veam os ah o ra m s de cerca los detalles del procedim iento.
Con o b je to de o b ten er u n a visin clara de lo que puede suceder
cuando em pleam os el anlisis de covariancia p a ra co n tro lar en re
lacin con u n a v ariable de escala nom inal, considerem os dos tipos
extrem os de situaciones. E n la figura X X .l tenem os u n a situacin
en la que se d a u n a correlacin ligeram ente negativa general o to
tal (in d icad a p o r la re c ta co n tin u a) e n tre la variable dependiente
Y y u n a variable independiente X . Si nos fijam os separadam ente
en cad a u n a de las categoras (A lt A2 y As ) de la variable d e con
tro l A, vem os que d en tro de cada clase se d a u n a relacin posi
tiva m s bien fu e rte e n tre X y Y . E n este caso, las m edias en X
d en tro de las diversas categoras son lo b a s ta n te diferentes com o
p a ra oscu recer la relacin b sica e n tre X y Y .
Si furam os a su p erp o n er las m edias de las tres categoras
u n a so b re o tra, m overam os en realid ad las ecuaciones de in
traclase de tal m odo que qu ed aran u n a encim a de o tra, con lo que
ob ten d ram o s e n tre X y Y u n a relacin m ucho m s fuerte. E n
esencia, esto es lo que hacem os cuando obtenem os u n coeficiente
p rom edio d e correlacin intraclase. U na m an era de re p re se n ta r

se el p roceso consiste en p en sa r en trm inos de h a b e r aju stad o


n o sotros las diferencias e n tre las categoras A, sacando la fuente
de variacin d ebida a la variable d e control. H abiendo aju stad o
en relacin con A m ediante superposicin de las m edias d e X y Y,
podem os c o m p arar ah o ra las relaciones en tre X y Y d en tro de las
categoras, investigando las diferencias e n tre las pendientes inr

x
Fig. XX.2 Datos hipotticos que indican una fu erte correlacin
total entre X y Y, pero correlaciones m s dbiles dentro de las
categoras d e A.
traclase (co m o lo indican las lneas de trazo s). S in duda, el
hecho de su p erp o n er las m edias a fectar las a en cada u n a de las
ecuaciones de m nim os cuadrados, p ero d e ja r in alterad as estas
pendientes y las r del in te rio r d e las clases.
La fig u ra XX.2 re p resen ta u n a situacin co n tra sta n te, en la
que se dan relaciones extrem ad am en te dbiles al in te rio r de las
categoras de A, p ero en donde la relacin general e n tre X y Y
es m uy fu erte. La variable de control afecta nuevam ente la rela
cin e n tre X y Y , pero esta vez, si superpusiram os las m edias,
no h allaram o s esencialm ente relacin alguna e n tre las dos esca
las de intervalo. Tal vez n o exista relacin causal alguna entre
X y Y , y la relacin general se d eb a al hecho de q u e A produce
cam bios ta n to en la u n a com o en la o tra de ellas. E n tal caso,
pues, co n sid eraram os que la relacin e n tre X y Y e ra espuria.
E n estos dos tipos generales de situacin ten d r , p o r consi
guiente, o b jeto c o n tro la r en relacin con A. E n el p rim e r caso, la
correlacin p arcial o in trac la se ser m ayor en m agnitud que
la to ta l; en el segundo, en cam bio, ser m enor. Un diagram a de
dispersin cuidadosam ente construido, sirvindonos de p untos
de diversos colores p a ra re p re se n ta r las distin tas categoras de

la variable de control, in d icar p o r lo re g u la r si vale o no la pena


m olestarse en llevar a cabo u n anlisis de covariancia sobre
la base de los dato s disponibles. Si los resu ltad o s son sem ejantes
a los de las figuras X X .l o XX.2, v ald r p robablem ente la pena
seguir adelante. P or o tra p a rte , si los p u n to s de diversos co
lores se h allan d istribuidos m s o m enos al azar en el diagram a
de dispersin, de m odo que las m edias d e las categoras n o sean
m uy diferentes, n o pu ed e esp erarse que el anlisis de covariancia
p ro d u zca resu ltad o s m uy interesantes.
Al su p erp o n er las m edias de u n a categora sobre las d e la o tra,
co n tro lam o s de hecho la m agnitud de las m edias en cuestin. En
realidad, pues, m edim os variaciones y covariaciones alrededor de
las categoras individuales m s que con resp ecto de las grandes
m edias. Se re co rd a r que esto es exactam ente lo que hicim os en
el anlisis de v ariancia al dividir la sum a to tal de cuadrados
en dos com ponentes. Una de estas com ponentes, la variacin intraclase, co m p o rtab a desviaciones de las m edias de clase en tan to
que la segunda com ponente se re fera a las desviaciones de las
m edias de clase en relacin con la gran m edia o m edia to tal. Todo
lo que ah o ra necesitam os h a c e r es ex ten d er los m ism os procedi
m ientos, descom poniendo la covariacin to tal, o sum a de p ro d u c
tos, en porciones explicadas e inexplicadas. N u estro razonam iento
ser exactam en te paralelo al que em pleam os en conexin con las
sum as de cuadrados. Como q u iera q ue:
X u - X . . = ( X tJ - X . ) + { X . j - X . . )

y
Y tj Y.. = ( Y is - Y.i) + ( Y . - Y . . )
podem os e sc rib ir:
(.Xi j - X . . ) ( Y t f - Y . . )
= [ (X y - X. j) + (X. - X . .) ][ ( Y a - Y.,) + (Y ., - ? . . ) ]
Si sum am os todos los casos y efectuam os la m ultiplicacin, obte
nem os cu a tro trm inos, d e los cuales, sin em bargo, los dos cen
trales se elim inan. Como re su ltad o podem os e sc rib ir:
S 2 ( X i} - X ..) ( y 4, Y. . ) =

i }

2 ( Xi , - X . j K Y i , - Y,)

i j

Sum a to tal de p ro d u cto s = sum a de p ro d u cto s " d e n tro


(n o explicada)

+22(x./-x..)(y.i -F..)

*
+ sum a de p ro d u cto s "en tre"
(explicada)

Aqu tam bin, lo m s p rctico consiste en servirse de las f rm u


las de clculos de las sum as to ta l y e n tre de productos, obte
niendo la cifra in te rio r p o r sustraccin. E stas f rm u las de clcu
lo re su ltan se r exactam ente anlogas a las que se em plearon p ara
o b ten er las sum as de cuadrados, excepto en que u n valor de Y
reem plaza a u n valor de las X , de m odo que obtenem os p roductos
cruzados, y n o cuadrados. As tenem os, p u es:
(2 2 X iy)(22Fiy)

i i
i
S um a to tal de p roductos = 2 2 1 ^ 7 ^ -------------- ----------

(X X .l)
( S X y X S Y i,)
i
i
Sum a de p ro d u cto s entre = 2 --------------------'
N,
(2 2 X ^ ( 2 2

i i
i
------------------------------ ( X X.2)
N
en donde N re p re se n ta el n m ero d e casos en la clase ;-sima.
Lo m ism o q u e en el caso de las sum as de cuadrados, el segun
do trm in o es la m ism a ca n tid a d en am bas ecuaciones. Obsrvese
asim ism o que, en la f rm u la de la sum a en tre de productos, la
cantidad del n u m era d o r del p rim e r trm in o re p re se n ta sim ple
m en te el p ro d u c to de la sum a de las X y de la sum a de las Y
p a ra cada clase. La f rm u la nos m an d a dividir dicho p roducto
e n tre el n m ero de casos y su m ar luego todas las clases.
H ay u n a d iferencia im p o rtan te e n tre u n a su m a d e p ro d u cto s y
u n a su m a d e cuadrados, en cu an to la p rim e ra puede te n e r un
valor negativo. As, pues, la covariacin to tal pu ed e s e r negativa,
en tan to que el valor en tre p o d r ser positivo. E sto significa,
p o r supuesto, que cuando su straigam os u n n m ero positivo de
un n m ero negativo, la sum a d en tro de p ro d u cto s re su ltan te
ser u n n m ero negativo m ayor.
Problem a. A ntes d e seguir ad e la n te ser til p re s e n ta r u n ejem
plo' n u m rico e in d icar de qu m o d o los varios clculos re q u eri
dos en el anlisis de covariancia pueden llevarse a efecto en
fo rm a sistem tica. El cu ad ro X X .l m u estra dichos clculos p ara
las siguientes v a ria b le s :
Y (variable dependiente, escala de in te rv a lo ): m edida de discri
m inacin educati
va c o n tra los ne
gros

X (v ariab le independiente, escala de in te rv a lo ): p o rc en taje de


n e g ro s 1
A (v ariab le independiente, escala n o m in a l): E stado.
Los d ato s fu ero n reunidos p a ra u n a m u e stra aleato ria de 150
d istrito s del Sur, utilizando el censo d e 1950. Supongam os, en
e s ta p a r te del p roblem a, que estam os in teresad o s en estu d ia r la
relacin e n tre las m arcas de discrim inacin y el p o rc en taje de
negros, co n tro lan d o en relacin con el estad o del distrito.
A p rim e ra vista, el cu ad ro X X .l se p re se n ta algo form idable,
p ero, si lo exam inam os colum na p o r colum na, vem os que p o r lo
m enos las trece p rim era s n ad a contienen re alm en te de nuevo. E n
efecto, las colum nas 2, 3, 5, 7, 9 y 11 contienen los datos bsicos
q u e se n ecesitan p a ra todos los dem s clculos. Las colum nas
2 a 6 y 7 a 10 sirven p a ra o b ten er las sum as de cuadrados to tal,
e n tre y d en tro respectivam ente d e la s variables dependiente
e independiente. S irvindose d e esta ru tin a de clculos, se ope
r a a trav s d e la ta b la sim plem ente, obteniendo los valores de
cad a h ilera m ed ian te el em pleo de la f rm u la indicada en la ca
beza d e cad a colum na. As, p o r ejem plo, las cifras d e la colum na
6, que re p resen ta n la su m a d e los cuadrados en Y, se obtienen
su stray en d o la colum na 4 d e la 5. P or lo tan to , p a ra F lorida tene
m o s: 54 989 = 3 866 409 3 811420. E n e sta fo rm a obtenem os en
la colum na 6 la su m a d e cu adrados d en tro de cada estado. Si
estas cantidades se sum an, obtenem os la sum a de cuadrados
d en tro d e clase, de m odo que podem os in sc rib ir esta m ism a
ca n tid ad en la h ile ra in ferio r d e la colum na 6. O bsrvese que
e s ta ru tin a p a rtic u la r d e clculo difiere d e la q u e utilizam os an
tes al tr a ta r pro b lem as d e anlisis de variancia, en que hem os
obten id o la su m a in trac la se de los cu adrados directam ente,
su stray en d o este v alo r del total, p a ra o b ten er la sum a de cua
drados e n tre . As, p o r ejem plo, 1 370 555 = 2 961 762 1 591 207.
P ara o b ten er la su m a to tal de cuadrados, utilizam os exacta
m en te el m ism o p ro cedim iento en el caso de cada estado, o* sea
que su straem o s la colum na 4 de la colum na 5. Al p ro c ed er as
nos servim os, p o r supuesto, de la f rm u la:
(2 F )2

(74 938)2
= 2 F 2 - ------ = 40 399 788 - ----------7
N
150
= 40 399 788 - 37 438 026 = 2 961 762
Aqu, la N de la h ile ra de los totales es el n m ero to tal d e casos
d e la m u e s tra (150).
O bsrvese que las filas d e totales y sum as contienen exacta1 E n e l c u a d r o X X .l, l a s c i f r a s d e l p o r c e n t a j e d e n e g r o s s e h a n m u l t i
p lic a d o p o r 10 c o n o b j e t o d e e v i t a r lo s d e c im a le s .

m en te las m ism as en tra d as en las colum nas 3, 5, 7, 9 y 11, con


pu n tu acio n es b u rd a s 2 Y, 2 Y 3, 2 X , 2 X 2 y 2X Y . P ero las en tra d as
difieren en las colum nas 4, 8 y 12 referen tes a los facto res de co
rrecci n q u e h an de ser re sta d o s p a ra o b ten er 2 y 2, 2%2 y 2 xy. E n
realidad, las cifras de su m as" n o son del todo necesarias en las
colum nas 4, 8 y 12, excepto p a ra com p robar los clculos. P or
ejem p lo : la f rm u la (6) = (5) (4), es aplicable a la fila de su
m as y as, com o com probacin, observam os que
1 591 207 = 40 399 788 - 38 808 581
La cifra de sum as de la colum na 4, a sa b e r: 38 808 581, se ob
tuvo su m an d o los re su ltad o s correspondientes a ca d a estado, en
ta n to que la cifra de " to ta le s, 37 438 026, se obtuvo utilizando el
tam a o to tal d e la m u e stra de 150. A s:
37 438 026 = (74 938)2/150
S er til en este lugar efectu ar u n n m ero suficiente de clcu
los en las colum nas 2 a 6 y 7 a 10, de m odo q u e el le c to r com
p re n d a de qu se tra ta y se p e rc a te de que los re su ltad o s que
o b tiene con este nuevo m todo son exactam ente los m ism os (p res
cindiendo de los e rro res d e red o n d eo ) que los que hubiram os
o btenido con el m todo antiguo.
Las colum nas 11 a 13 sirven p a ra descom poner la variacin en
p a rte s com ponentes, en fo rm a anloga. Como se indica m s a rri
ba, las f rm u las son sim ilares a las del anlisis d e variancia, ex
cep to en que los cuadrados se sustituyen p o r p ro d u cto s, obtenien
d o p o r consiguiente la colum na 13 sustrayendo la 12 de la 11,
com o lo in d ican las frm ulas de clculo. C alculam os tam bin la
sum a in te rio r de p ro d u cto s directam ente, y el v alo r e n tre p o r
su stracci n . De este m odo, la covariacin to tal es de 3 025 678,
y la in te rio r es de 1 744 189, lo que d a 1 281 489 p a ra la covariacin
entre-clases. O curre, en este caso, que las tre s sum as de p ro d u c
tos, lo m ism o que los valores p a ra todos los estados, son positi
vas, p e ro esto no ser siem pre necesariam ente as. H em os efec
tu ad o ah o ra el clculo bsico que vam os a n ec esitar p a ra n u estra
lab o r u lterio r, habiendo obtenido las sum as to tal, explicada e
inexplicada p a ra y2, xz y xy. N u e stra atencin p u ed e fija rse ahora
en las varias p ru e b as y m edidas que se necesitan p a ra llevar a
cabo el anlisis. Las colum nas re sta n te s del cu ad ro X X .l se ex
plicarn cuando' lleguem os a ellas.
Prueba de la interaccin. Se re c o rd a r que en el anlisis en dos
form as de v arian cia la p rim e ra p ru e b a que efectuam os fu e la del
efecto de interaccin. La raz n de p ro ced er a dicha pru eb a en
p rim e r lu g ar estab a en que si las dos variables independientes
p ro d u cen efectos distintos, al a c tu a r en com binacin, d e los que

Para calcular las sumas de cuadrados en Y

Para calcular las sumas de cuadrados en X

( c o l. 6 )

C lase

N,

(1 )

(2 )

( c o l. 10)

( 2 YP/ Nj
( 4 ) = (3 )a /< 2 )

sy s

Sy2

2X

(3 )

(5 )

(6 ) = ( 5 ) - ( 4 )

(7 )

2 7

(S X P /A T j(8 ) = (7 )2 /(2 )

2X 2
(9 )

2*2
(1 0 ) = (9 ) (8 )

F lo rid a
A la b a m a
A rk an sas
G e o rg ia
K e n tu c k y
L o u is ia n a
N o r th C a ro lin a
M is s is s ip p i
S o u th C a ro lin a
T en n essee

11
8
10
33
9
15
24
20
11
9

6475
4 03 0
4608
18911
2724
7 47 6
9281
12206
5967
3 26 0

3 811420
2030112
2 123 36
10 837 149
824464
3 7 2 6 03 8
3589040
7449322
3 2 3 6 826
1180844

3 866409
2 1 6 8 898
2 223 740
11 2 3 9 4 5 1
891102
3 926182
3 862309
7 5 8 6 664
3371315
1 2 6 3 71 8

5 4 989
138 7 8 6
1 00 3 7 4
402302
66 638
2 0 0 144
2 73 26 9
137 34 2
134489
82 874

2 683
3 367
3 211
12707
69 5
5257
7459
10419
4676
1088

654408
1 4 1 7 086
1 031 052
4 89 2 965
53 669
1842403
2318195
5 4 2 7 778
1 9 8 7 725
131 527

74 4 861
1964231
1236701
5 826 629
63293
2025311
3 2 6 6 843
6 043 283
2 3 6 7 054
2 2 9 200

9 0 453
547 145
2 0 5 6 49
9 3 3 6 64
9 6 24
182 908
948 648
615505
379329
9 7 6 73

Sum as
T o ta le s
E n tr e c la s e
(e x p lic a d a p o r

150
150

74938
74938

38 808 581
37 438 026

40399788
40399788

1 591207
2 961 762

51562
51562

19756808
17 72 4 266

23 7 6 7 4 0 6
23 767 4 0 6

4 0 1 0 5 98
6043140

A)
D e n tr o d e c la s e
( n o e x p lic a d a
p o r A)

1 3 7 0 555

2 0 3 2 5 42

1 591 20 7

4010598

Adaptada de [4], cuadro 74, pp. 486-487, con la amable autorizacin del editor.

Para el clculo de covariackmes


(col. 13)
Clase
(1)

Florida
Alabama
Arkansas
Georgia
Kentucky
Louisiana
North Carolina
Mississippi
South Carolina
Tennessee
Sumas
Totales

2XY
(11)

(2X)(2Y)/iVy
(12) =
(3)(7)/(2)

pendientes

b=
S.xy
2xy/2x2
(13) =
(14) =
(11)(12) (13)/(10)

Explicada
por X
(Xxy^/'S.x*
(15) =
(13)(14)

No explicada
por X

Para el clculo de
correlaciones

(2xyP
(2xy)2
2*22y2
2x2
(17) =
( 16)=(6)(15)
(15)/(6)
2V2

(18) =
V(17)

1601 644
1894209
1 579 758
7 765 621
217349
2700374
3 203 824
6 620 545
2 737 694
464 348

1579311
1 696 126
1479629
7 281 881
210 353
2620089
2 884 457
6 358 716
2 536 517
394098

22333
198 083
100129
483 740
6996
80285
319367
261 829
201177
70250

.24690
.36203
.48689
.51811
.72693
.43894
.33665
.42539
.53035
.71924

5 514
71 712
48 752
250 630
5 086
35 240
107 515
111 379
106694
50 527

49475
67 074
51622
151 672
61552
164904
165 754
25 963
27795
32347

.10027
.51671
.48570
.62299
.07632
.17607
.39344
.81096
.79333
.60968

.317
.719
.697
.789
.276
.420
.627
.900
.891
.781

28 785 366
28785366

27 041 177
25759688

1744189
3 025 678

.50068

1 514 896

798158
1446866

.51148

.715

.47670

.690

Entre clase
(explicada por
A)

1 281 489

Dentro de clase
(no explicada
por A)

1744189

614189

.43489

758 530

832 677

Para calcular el ajuste de las Y (col. 23)


Clase
(1)
Florida
Alabama
Arkansas
Georgia
Kentucky
Louisiana
North Carolina
Mississippi
South Carolina
Tennessee

X., = 2X/JVf
(19) = (7)/(2)
243.909
420.875
321.100
385.060
77.222
350.467
310.792
520.950
425.091
120.889

x - X . - X ..
(20) = (19) X - 99.838
77.128
- 22.647
41.313
-266.525
6.720
- 32.955
177.203
81.344
-222.858

(21) = bw (20)
- 43.42
33.54
- 9.85
17.97
-115.91
2.92
- 14.33
77.06
35.38
- 96.92

Y., = 2 Y / N ,
(22) = (3)/(2)
588.64
503.75
460.80
573.06
302.67
498.40
386.71
610.30
542.45
362.22

Sumas
Totales

X.. = 343.747

Y.. = 499.59

Y -j = Y . - bwx
(23) = (2 2 ) -(2 1 )

632.06
470.21
470.65
555.09
418.58
495.48
401.04
533.24
507.07
459.14

esperbam os sobre la base de sus efectos separados, tiene m uy


escaso objeto, tericam ente, estu d ia r los efectos de u n a de ellas
controlando la otra. En otros t rm in o s : la relacin e n tre u n a de
las variables independientes y la variable dependiente difiere se
gn el v alo r de la variable de control. Si tal es el caso, la rela
cin d eber estu d iarse separadam ente en el in terio r de cada una
de las categoras de la variable de control. E n el anlisis de co
variancia nos enfrentam os a u n problem a sim ilar, aunque, en lu-gar de p en sa r en trm inos del supuesto de adicionalidad, nos
en contram os ah o ra com parando las pendientes de las ecuaciones
de los m nim os cuadrados en el in terio r de cada u n a de las cate
goras. O bservem os p rim ero el paralelism o e n tre el supuesto de
adicionalidad y el de pendientes iguales. E starem o s luego en m e
jo res condiciones de com prender la naturaleza d e la p ru eb a de
interaccin en el anlisis de covariancia.
E n el cap tu lo xvi, que tr a ta del anlisis de variancia, nos ser
vimos del siguiente ejem plo num rico con o b jeto de ilu s tra r la
adicionalidad:
A2 ^3
Ai
Bi
2
Bs

5
10
25

10
15
30

20
25
40

Se hizo o b servar que no e ra necesario su p o n er diferencias igua


les e n tre las m arcas de B t y Be, p o r u n a p arte , y las de B 2 y B s,
p o r la otra. P ero hubim os de su p o n er que las diferencias en tre
i Y -2 ran las m ism as p a ra cada u n a de las categoras de A.
Supongam os ah o ra que la variable B re p resen te en realidad na
variable X de escala de intervalo, que ha sido categorizada. H a
brem os de su p o n er que las relaciones en tre X y la variable de
pen d ien te Y (rep rese n tad a p o r las m arcas en el cuerpo de la
tab la) son lineales d en tro de cada u n a de las categoras de A.
Una som era reflexin nos convencer de que, situ an d o adecuada
m en te las categoras de B a lo larg o del eje de las X , podem os
trad u c ir la propiedad de adicionalidad en el enunciado de que
las tres lneas de regresin p re se n ta n todas ellas la m ism a pen
diente. La figura, XX.3 indica esta relacin. Vemos as que la
p ru eb a d e adicionalidad es directam en te anloga a la de la h ip
tesis de que las pendientes en el in te rio r de las clases son iguales.
Al v erificar la interaccin en el anlisis bim odal de variancia
tom am os la cantidad de variacin d e la variable dependiente que
no poda ser explicada p o r las dos escalas nom inales al suponer
adicionalidad. E sta cantidad se fragm ent luego en dos com po
nentes, a sab e r: la cantidad que poda explicarse p o r la in terac
cin, y la can tidad que perm aneca inexplicada todava p o r los
efectos e n tre colum nas, e n tre hileras y de la interaccin. La ra

zn de estas dos ltim as com ponentes se utiliz p a ra verificar la


interaccin. E n el anlisis de covariancia hacem os exactam ente
lo m ism o, pero, segn caba esperar, n u e stro procedim iento adop
ta u n a fo rm a algo d istin ta. Acabam os de ver, en efecto, que el
sup u esto de adicionalidad es anlogo al de que las pendientes de
poblacin d en tro de cada u n a de las categoras son las m ism as.

Fig. XX.3. R ectas de pendientes iguales, que indican


no interaccin.
S in em bargo, si se d a u n efecto significativo de interaccin, esto
su p o n d r u n a relacin d iferen te p a ra algunas p o r lo m enos de
las categoras. E n o tro s trm in o s: u n d eterm in ad o cam bio d e X
p ro d u c ir diferen tes cam bios de Y en las d istin tas clases de A. Si
tom am os ah o ra la ca n tid ad de variacin de Y no explicada p o r
X suponiendo p endientes iguales, podem os v e r cu n ta variacin
adicional podem os explicar p o r la interaccin. Podem os luego
v erificar la in teracci n com parando la su m a de cuadrados d e
s ta con el trm in o de e rro r.
Cm o d eterm inam os la can tid ad de variacin que po d em o s
a trib u ir a la in teraccin? P a ra c o n testa r a e s ta pregunta, h em o s
d e in terro g a m o s p rim ero a nosotros m ism os cu n ta v ariaci n
p o dram o s ev en tualm ente e sp e ra r explicar sirvindonos de m o
delos lineales d en tro de cada u n a d e las categoras de A. M ani
fiestam ente, la ecuacin individual de los m nim os cu ad rad o s
p a ra cada categora nos d a el m e jo r a ju s te que p u ed a esp e ra rse
de u n a recta, y el coeficiente de correlacin calculado so b re la
b ase d e los dato s de dicha categora p a rtic u la r nos p ro p o rcio n ar

u n a m ed id a d e la b o n d ad de a ju ste. Podem os, pues, o b ten er p a ra


cad a categora cifras q u e re p resen te n la cantidad de variacin de
Y explicada p o r X , sirvindonos d e la re c ta q u e m e jo r se aju sta
a los d ato s d e d ich a categora p a rtic u la r. Al su m ar las variacio
nes explicadas p a ra cada u n a de las categoras, obtenem os la
can tid ad de variacin efectivam ente explicada p o r to d as las ecua
ciones d istin tas d e los m nim os cuadrados. Y en fo rm a anloga,
al su m ar las sum as inexplicadas d e cuadrados, obtenem os la can
tid ad de v ariacin de Y que p erm an ece todava sin explicar p o r
esas lneas de m nim os cuadrados distintas.
E n el cu ad ro X X .l, estos clculos se h an llevado a cabo en las
colum nas 15 y 16. E n el caso de F lorida, p o r ejem plo, la variacin
to ta l d e Y (co lum na 6) es de 54 989. De esta cantidad, 5 514
es explicada p o r la ecuacin de m nim os cuadrados que m e jo r se
a d a p ta a los datos d e F lorida, perm aneciendo inexplicada la
d e 49475. De la variacin to ta l de Y (2 961762), la ca n tid a d de
798 158 re p re se n ta la ca n tid a d d e ja d a inexplicada p o r esas ecua
ciones de m nim os cu adrados separadas.
H em os d e p re g u n ta rn o s a continuacin cu n ta variacin queda
inexplicada si se supone que n o h ay efecto de interaccin. Si no
lo hay, entonces to d as las p endientes de las categoras de A sern
iguales. N u e stra m e jo r apreciacin d e esta p en d ien te com n
co n sistir en u n a apreciacin co n ju n ta, que es u n p ro m ed io pon
d erad o de las p endientes individuales e n el in te rio r de las clases.
E stas pen d ien tes se h a n calculado en la c o lu rm a 14. L a aprecia
cin co n ju n ta, o p endiente m ed ia d e n tro de las clases, se h a
calculado asim ism o e n la colum na 14, sirvindonos de los datos
in terio res a las clases de las colum nas 10 y 13. As, el v alo r de
.43489 se o btuvo dividiendo 1 744 189 e n tre 4 010 598.
Podem os c o m p a ra r ah o ra las relativ as capacidades de explica
cin de las d istin ta s lneas de m nim os cuadrados in terio re s a las
clases, cad a u n a con u n a p en d ien te d istin ta, y u n n m ero de
rectas trazad as a travs de las m edias de cada categora, pero
de igual p en d ien te to d as ellas, esto es, la b prom edio d e n tro de
las clases (vase fig u ra XX.4). De estas ltim as lneas parale
las no p u ed e esp e rarse que expliquen ta n to de la variacin to tal
com o las lneas realm en te m e jo r aju sta d a s de cada u n a de las
c a te g o ra s; p ero, si n o se d a efectivam ente in teraccin alguna en
los datos de la poblacin, las d istin tas ecuaciones d e regresin
ten d r n to d as la m ism a pendiente, y podem os e sp e ra r que las
lneas de m nim os cuadrados n o d ifieran en cu an to a la pendiente
en fo rm a d em asiado pronunciada. E n o tro s trm in o s: si no se
d a interaccin, la serie de lneas p aralelas de trazos se acercar
con u n a aproxim acin relativ am en te b u en a a las ecuaciones de
m nim os cu ad rados reales de cada categora. T oda vez q u e en tal
caso el valor de la p endiente m ed ia d en tro de las clases n o ser
dem asiado d iferen te de aquel de cad a u n a de las pendientes p a r

ticu lares d en tro de las clases, las lneas d e trazos te n d r n u n


p o d er explicativo casi ta n grande com o las continuas.
D ebido a las fluctuaciones de la m u estra, podem os e sp e ra r al
guna interacci n d en tro de la m u estra, a u n si n o la hay acaso
en tre la poblacin. Las lneas continuas y de trazos n u n ca sern
idnticas y, p o r consiguiente, estas ltim as d e ja r n siem pre algo
___ ____Rectas de mnimos cuadrados

Fig. XX.4. C om paracin en tre rectas separadas de m n im o s ada


drados y rectas a travs d e las m edias de categoras, pero todas
tienen tu m ism a p endiente b w.
m s de variacin sin explicar que las lneas individuales de m ni
m os cuad rad o s. La cuestin e st ah o ra en sa b e r si las lneas de
m nim os cu ad rados sep arad as difieren o n o suficientem ente en
tr e s, y p o r consiguiente de las lneas d e trazos, p a ra g aran tizar
n u e stra conclusin en el sen tid o de que la interaccin es signifi
cativ a desde el p u n to d e v ista estadstico.
E n esta y en o tra s p ru e b as del anlisis d e covariancia hem os
de estab lecer u n a serie de supuestos que son esencialm ente los
m ism os req u erid o s p o r los anlisis d e variancia y regresin. Como
de co stu m b re, hay que su p o n er u n a m u e s tra aleatoria indepen
diente. H em os de su p o n er tam b in no rm alid ad bivariable e n tre
X y Y d en tro de cada u n a de las categoras de A. Adems, h e
m os de su p o n er que las variancias de X y F son las m ism as den
tro de to d as las categoras de A.2 E n la p ru e b a de interaccin,
n u e stra h iptesis n u la ser, p o r supuesto, que cada u n a d e las
relaciones d e categora e n tre X y Y co m p o rta la m ism a pen
diente (3.
2 Una vez ms resultar innecesario suponer la normalidad de las X en
tanto las Y estn distribuidas normalmente (con variancias iguales) alre
dedor de las puntuaciones fijas X, dentro de cada categora de la variable
de escala nominal.

E n el cu ad ro XX.2 se efecta u n a p ru e b a F e n relacin con la


interaccin. T om am os la can tid ad de variacin de Y n o explicada
p o r X y A, suponiendo ausencia de interaccin, o iguales pendien
tes de poblacin. E sta cantidad p u ed e en c o n trarse en el cua
d ro X X .1, re co rrie n d o la h ile ra co rresp o n d ien te al in te rio r de las
clases, h a s ta lleg ar a la colum na inexplicada p o r X (colum na 16).

Cuadro

XX.2. P rueba de anlisis d e variancia para la interaccin


Suma de
cuadrados

I n e x p l i c a d a p o r X y A, s u
p o n ie n d o a u s e n c ia d e in
te ra c c i n
E x p lic a d a p o r i n te r a c c i n
E rro r

832 677
34 519
7 9 8 158

Grados de
libertad

N ~ ( k + 1 ) = 139
k - 1=9
AT 2 = 13Q

Estimacin
de la
variancia

3 835.4
6 1 3 9 .7

< 1 .0

Como q u iera que la cifra de 832 677 se obtuvo sirvindonos de la


m ism a com binacin d e cifras que en el caso de la b prom edio
d en tro de las clases, vemos que hem os supuesto esencialm ente
p en dientes iguales al calcular e sta su m a inexplicada d e cuadra
dos. Vimos tam b in que la ca n tid ad de 798 158 re p re se n ta la
can tid ad de variacin d ejad a sin explicar p o r las ecuaciones se
p arad as de m nim os cuadrados. P o r lo tan to , la diferencia e n tre
estas dos can tid ad es re p resen ta la ca n tid a d de variacin que pue
de a trib u irse a la interaccin.
P ara aso ciar grados de lib e rta d con cada u n a d e esas cantida
des, contam os el n m ero de coeficientes que se h an estim ado en
las ecuaciones de m nim os cu ad rad o s respectivas. F ijndonos p ri
m ero en el trm in o de erro r, o ca n tid ad d ejad a sin explicar p o r
las ecuaciones sep arad as de m nim os cuadrados, observam os que
p a ra cada u n a de estas ecuaciones separadas hubim os d e calcular
dos coeficientes (a y b ). P or lo tan to , perderem os 2k grados de
lib ertad , re p resen ta n d o k el n m e ro d e categoras d e A. As,
pues, los grados de lib ertad asociados a dicho trm in o sern
N 2k. Sin em bargo, p a ra serv im o s d e las lneas de trazos, slo
hubim os de calcu lar u n a sola pendiente, la b pro m ed io d en tro
de las clases. Como q uiera que, sin em bargo, cada u n a de dichas
lneas atraviesa u n grupo diferen te d e m edias de m u estra, tene
m os valores d istin to s d e a p a ra cada u n a de esas lneas. H em os
perdido, p o r consiguiente, (fc-f 1) grados de lib ertad , y los gra
dos de lib ertad asociados con este trm in o sern N ( k + 1), o
sea N k 1. Podernos o b ten er luego los grados d e lib ertad
p a ra el trm in o de interaccin sustrayendo, lo que nos d a :
(N -k-)-(N -2k)= :k-

o u n o m enos que el n m ero de categoras. Calculam os ah o ra F


en la fo rm a usual y concluim os que, to d a vez que F 9,i3o < LO, no
tenem os interaccin significativa.
Como q u iera que la interaccin no resu lt ser significativa,
estam os ju stificad o s en rep o n er la peq u e a can tid ad de in terac
cin de la m u estra en el trm ino de erro r, sirvindonos en ade
lan te de la can tidad de 832 677 com o variacin no explicada ni
p o r X ni p o r A, Y to d a vez que al p ro ced er as nos hallam os en
el extrem o indebido de la p ru e b a de interaccin, hem os de com
p o rtarn o s con cierta cautela. Sin em bargo, con u n a N ta n gran
de y u n valor tan pequeo de F, n o correm os ciertam en te riesgo
alguno al excluir e n este p ro b lem a p a rtic u la r la interaccin.
Si sta h u b iera sido significativa, n u estro prxim o paso h ab ra
consistido en averiguar el o los estados que discrepan de los de
m s. E sto se efecta fcilm ente consultando la colum na de las b.
Si re su lta m anifiesto que algunos estados producen el efecto
de in teraccin y si pueden sugerirse buenas razones tericas del
p o rq u esto sea as, entonces ser acaso posible excluir dichos
estados y re p e tir la p ru e b a con el resto. P ero si no destaca en
esta fo rm a estado alguno, ta l vez ser necesario seguir adelante
analizando cada estado separadam ente. E n ta l caso p o d r n even
tu alm en te ob tenerse valiosos datos tericos preguntndose uno
m ism o p o r qu difiere la relacin e n tre la discrim inacin y el
p o rc en taje d e negros de u n estad o a otro.
Una estrateg ia de posible uso cuando se d an diferencias apreciables e n tre los declives, consiste en o rd e n a r p o r rangos las
categoras (e n n u estro caso, estad o s) en relacin con las m ag
nitu d es de las pendientes, tra ta n d o a continuacin de localizar
alguna variable especfica que est sum am ente correlacionada
con dicha ordenacin. P or e je m p lo : tal vez cuando ordenam os
los estados de a b a jo hacia a rrib a en relacin con lo inclinado
de los declives (aqu todos positivos), podrem os observar q u e los
estad o s con inclinaciones m s pronunciadas tienden a ser los m s
urbanizados o los m s industrializados. Si ta l fu e ra el caso po
d ram os o b ten er u n a m edida Z de urbanizacin (o in d u strializa
cin), reem plazando la escala nom inal "estad o , con la Z, u tili
zando a continuacin alguna altern ativ a especfica a un m odelo
aditivo, tal com o la funcin m ultiplicativa Y = kX^iZh. Tom ando
los logaritm os de am bos lados, esta funcin m ultiplicativa puede
ser tran sfo rm ad a en la ecuacin aditiva log Y = log k + &i log
X + b2 log Z.
La correlacin prom edio dentro de clase. H abiendo establecido
que n o se d a efecto de interaccin significativo alguno estam os
ah o ra ju stificad os en a g ru p ar las r individuales d en tro de las cla
ses p a ra o b ten er u n coeficiente de correlacin prom edia en el
in te rio r de las clases, que ser anlogo al coeficiente d e correla
cin parcial. E n o tro s trm in o s: to d a vez que estam os ju stifica

dos en su p o n er u n a sola p endiente p a ra todas las ecuaciones de


regresin, podem os suponer asim ism o que los coeficientes de co
rrelacin de la poblacin sern tam b in iguales, y que el valor
com n puede ap reciarse ju n ta n d o las r de la m u e stra p a ra las
varias clases. El coeficiente de correlacin prom edio intraclase,
que podem os sim bolizar com o rXY.At se calcula del m ism o
m odo que la b prom edio intraclase, sirvindonos d e los datos
relativos d e n tro d e las clases reg istrad o s en la h ilera in ferio r del
cu ad ro X X .l (v anse las colum nas 17 y 18). El cu ad rad o d e dicho
coeficiente p u ed e in te rp re ta rse com o la proporcin de variacin
en Y que no es aplicada p o r A, p ero s p o r X . A s:
758 530
.47670 = (.690)2 =
1 591 207
Si nos fijam os en las frm ulas em pleadas p a ra el clculo d e cada
u no de estos n m eros, verem os que la in terp re taci n se deduce
in m ed iatam en te a p a r tir de ellas. A ttu lo d e control global de
n u estro s clclos, la r prom edio in traclase h a b ra d e re su lta r
com parable en m agnitud con las diversas r in trac la se separadas.
Como q u iera que se tr a ta esencialm ente d e u n p ro m ed io ponde
rado, los estad o s con el m ayor n m ero de d istrito s ejercern la
m ay o r influencia en la determ inacin de su valor. Si alguna de
las b en la colum na (14) re su lta se r negativa, las r com parables
en la colum na (18) deb ern recib ir desde luego signos negativos.
Si quisiram os te n e r u n a m edida anloga a la i? m ltiple, po
d ram os to m a r la razn de la ca n tid a d d e variacin explicada p o r
X y A ju n ta s a la sum a to tal de cuadrados. E n este problem a,
p o r ejem plo, hem os explicado 2 961 762 - 832 677 o 2 129 085. Por
lo tan to , hem os explicado 2129 085/2 961 762 o 71.9 p o r ciento
d e la variacin. H em os d e reco rd a r, sin em bargo, que si quere
m os fo rm a r u n a R m ltiple to m an d o la raz cu a d rad a de dicho
valor, el re su lta d o se r en p a rte u n a funcin del n m ero p ro
m edio d e casos d en tro d e las categoras de A (vase seccin
Podem os efe c tu a r la p ru e b a de la significacin d e
en la
fo rm a h ab itu al. P rim ero dejam os q u e la variable de co n tro l A
explique to d o lo que puede. D ejam os luego a c tu a r X sobre la va
riacin no explicada, frag m en tan d o e sta ltim a can tid ad en dos
com ponentes. La p rim e ra de stas ser la porcin explicada p o r
X , y la segunda ser el trm ino de erro r, que no es explicado ni
p o r X ni p o r A (su poniendo que n o se d a interaccin). Ya vimos
que los grados de lib ertad del trm in o de e rro r sern N ( k + 1).
Los grados de lib e rta d asociados a la variacin inexplicada por
A, que fig u ra en la h ilera al pie de la colum na 6, sern, p o r su
puesto, N - k (vase seccin X V I.l). E sto d eja u n g rad o de liber
ta d asociado a la com ponente no explicada p o r A pero explicada

p o r X . Los resu ltad o s de e sta p ru e b a se h allan resum idos en el


cu ad ro XX.3. Vemos, en e sta form a, que la correlacin prom edio
in traclase es significativa al nivel d e .001.

C uadro XX.3. Prueba

de anlisis de variancia para la significacin


de la correlacin prom edio intraclase ( q x t - a )

No explicada por A
No explicada por A,
pero explicada por X
E rror (suponiendo au
sencia de interaccin)

Suma de
cuadrados

.
Grados de

1 591 207

N - k = 140

758 530

832 677

N (fc + l) = 139

Estimacin
J tf* .

D
F

758 530
126.6
5990.5

Antes de te rm in a r esta porcin del captulo en la que hem os


estu d iad o la relacin e n tre dos escalas de intervalo controlando
en relacin con la escala nom inal, podem os establecer u n a com
p araci n con el tipo de co n tro l efectuado p o r la correlacin p a r
cial. Sin duda, el control p o r m edio del anlisis d e covariancia
co m p o rta considerablem ente m s tra b a jo que el em pleo de la
co rrelacin parcial. Como se concibe fcilm ente, las extensiones
que co m porten variables adicionales em pezarn a re q u e rir tan to s
clculos, que p o r lo re g u la r el anlisis d e covariancia n o re su lta r
practicab le. P o r o tra p a rte , el anlisis de covariancia nos p ro
p o rcio n a m s inform acin que la correlacin parcial. E n efec
to, podem os no slo efectu ar u n a p ru e b a de interaccin, sino que
p odem os investigar adem s las relaciones e n tre X y Y d en tro de
cad a u n a de las categoras d e las variables d e control, co m p aran
do los diversos valores de r y b. Al serv im o s de las correlaciones
parciales, en cam bio, slo obtenem os la nica m edida com parable
a la co rrelacin p ro m ed io d en tro de clase, y n o podem os efectu ar
la p ru e b a resp ecto d e la interaccin.
Vemos, pues, que el anlisis de covariancia p re sen ta cierto n
m ero de ven tajas resp ecto d e los anlisis q u e em plean las co rre
laciones parciales, sobre todo en aquellos estudios en los que se
p u ed a esp e ra r que se d a interaccin. As, pues, en algunos casos
v ald r eventualm ente la p en a convertir u n a de las escalas de
in terv alo en escala nom inal y d e p ro c ed er con el anlisis de co
variancia, en lu g ar de a correlacin parcial, a u n a sabiendas
de que perdem os as inform acin con resp ecto al nivel d e m e
dicin.

XX.2. R elacin de una escala de intervalo y una escala nom inal,


control de la escala d e intervalo
E n el anlisis de u n a form a de variancia relacionam os u n a escala
d e in terv alo con u n a sola escala nom inal, p ro b a n d o el signifi
cad o de las diferencias e n tre las m edias de las categoras de A.
Con o b jeto de d eterm in a r la m agnitud de la relacin e n tre las dos
variables, calculam os u n coeficiente de correlacin intraclase.
Obtuvim os asim ism o las m edias d e las diversas categoras que
podan u tilizarse con fines descriptivos p a ra in d icar las m arcas
relativas d e u n a categora con las o tras. E n el anlisis cruzado
d e variancia p u dim os c o n tro la r en relacin con u n a escala nom i
nal, averiguando la interaccin. Sin em bargo, nos vim os fuerte*
m en te lim itados, ya que necesitbam os ten er el m ism o nm ero
de casos en cad a subcasiUa. E n e sta seccin, en cam bio, verem os
situaciones e n las q u e deseam os relacio n ar Y y A, pero en las que
la v ariable d e co ntrol es u n a escala de intervalo X .
Supngase q u e n u e stro in ters se endereza a n te to d o en descu
b r ir la relacin e n tre las cuotas d e discrim inacin y las subregio
nes del S ur, definidas p o r los diversos estados. Sin duda, los
estados n o co n stituyen las m ejo res clases d e unidades p a ra de
lin ear subregiones, p ero nos sirven con to d o aqu con fines de
ilustracin. E s obvio que u n a variab le com o la del p o rcen taje
de negros necesita se r controlada, ya que los diversos estados del
S u r difieren considerablem ente en cu an to a los po rcen tajes de
sus m in o ras respectivas. Supngase q u e dividiram os el porcen
ta je de negros en categoras y procediram os a efectu ar anlisis
de v ariancia sep arados p a ra cada u n a d e ellas. O bsrvese que
p ro b ab lem en te n i siquiera in ten taram o s el anlisis cruzado de
variancia, debido a la necesidad de te n e r subclases iguales. Pero,
es que los anlisis separados d e variancia resuelven realm ente
n u estro p ro b lem a? Al exam inar los d istrito s de p o rcen tajes bajos
de m inora, en contraram os inm ediatam ente que excluam os
p rcticam en te to dos los d istrito s d e M ississippi y Alabama, inclu
yendo en cam bio p rcticam ente todos los de K entucky y Tennessee. P o r o tra p arte , h a b ra a lo sum o uno o dos d istrito s de
estos ltim os estad o s con u n alto p o rc en taje de negros. As,
pues, al tr a ta r de co n tro lar p o r este m todo, descartam os casi
n u estro p roblem a, p o r cu an to slo unos pocos estados estarn
rep resen tad o s en cada u n o de los anlisis separados. Los efectos
de las subregiones o estados se co n fu n d iran as irrem isiblem ente
con el p o rc en taje de negros. E n efecto, no podem os m an ten er
literalm en te co n stan te u n a d e las variables, sin re d u cir al propio
tiem po la v ariab ilidad de la otra.
Si bien no podem os m an ten e r la variable de control efectiva
m ente constante, podem os con todo, sirvindonos del anlisis de
covariancia, efectu ar algunos aju stes en relacin con sus efectos.

C o n cretam en te: si estam os dispuestos a suponer que las regre


siones de Y a X d en tro de cada u n a de las categoras de A tienen
u n a p en d ien te com n que p u ed e ap reciarse p o r la b prom edio
in traclase, podem os a p reciar el cam bio p roducido en Y p o r u n
cam bio dad o de X . E n otros t rm in o s : podem os fo rm u lar algu
nas predicciones acerca d e lo que o c u rrira con las tasas de dis
crim inacin en cada estad o si los p o rc en tajes de la m inora fue
ra n a cam biar. E n p a rtic u la r, podem os p reg u n tarn o s a nosotros
m ism os, qu o c u rrira con estas tasas si los po rcen tajes d istin
to s de negros fu eran a igualarse? E sta clase de proceso slo p ro
p o rcio n a re su ltad o s hipotticos, y esto h a de ten erse claram ente
p resen te. E n efecto, n o tra ta m o s de o b ten er tasas de discrim ina
cin d e los distintos estados m anteniendo realm ente co n stan te
el p o rc en taje de negros, sino que slo podem os p red ecir lo que
o c u rrira si esto fu e ra efectivam ente as y si las relaciones e n tre
X y Y fu e ran efectivam ente tales com o se supone que son. Se con
cibe p erfectam en te que, si los negros fu e ran a re d istrib u irse a
s m ism os en fo rm a m s uniform e e n tre los estados del S ur, las
relaciones p a rtic u la re s halladas e n tre X y Y y a n o se verificaran.
N o obstan te, u n procedim iento de aju stes de e sta clase puede
co n d u cir a m enudo a com probaciones tiles.
Si pued e p re su m irse que no se d a efecto alguno de interaccin,
ya vim os que la m e jo r m an era de ap re c ia r las pendientes com u
nes d e las ecuaciones de regresin d e n tro d e las clases es p o r
m edio de la b p ro m ed io in trac la se calculada en el c u a d ro X X .l.
Podem os d esc rib ir ah o ra el procedim iento q u e vam os a utilizar.
Nos g u stara a ju s ta r cada u n a de las m edias Y. de las clases de
tal m an era q u e se tu v iera en cuenta el hecho de que las m edias
en X difieren asim ism o de u n estado a otro. Con fines de com o
d id ad su p o n d rem os que to d as las X. estn aju stad a s resp ecto de
la g ran m ed ia de las X. Eso co m porta el desplazar la m edia de X
p a ra cad a clase en u n a distan cia de (X. . X.). La figura XX.5
ind ica esta diferencia com o el largo de la b ase del tringulo. P ero
sabem os que p a ra o b ten er la ca n tid ad de cam bio en Y p a ra u n
cam bio d ad o d e X hem os d e m u ltip licar el cam bio de X p o r la b
pro m ed io in traclase. P o r consiguiente, Y. cam bia en la can tid ad
de b ,J X .. X.j), en donde nos servim os del sm bolo bw p a ra re
p re se n ta r la p en d ien te pro m ed io intraclase. El valor aju stad o
de las m edias de Y puede en co n trarse ah o ra aadiendo dicho in
crem en to a la m edia original de Y.
As, pues, dejando q u e Y . re p resen te el v alor aju stad o , tene
m o s:
Y'.j = Y . j + b w( X . . - X . j )
= Y. f - b w( X. J - X . . )

(XX .3)

La segunda de e sta s form as, que slo com porta la inversin del
ord en de las X .. y X. y el cam bio co rresp o n d ien te d e signos, es la
fo rm a que se h a em pleado p a ra el clculo de la Y a ju sta d a en
el cu ad ro X X .l. O bsrvese que, en este ejem plo concreto, la pen
diente es positiva, sindolo tam b in el cam bio de X. a X.., tal
com o lo m u e stra la figura XX.5. Los m ism os re su ltad o s alge-

Fig. XX.5. In terp reta ci n geom trica de los clculos de las


m edias Y ajustadas.
braicos se verifican exactam ente e n el caso de se r la pendiente
negativa, o cuando el valor de X decrece. A estas a ltu ra s debe
ram o s e s ta r ya en condiciones d e convencernos p o r cu e n ta p ro
p ia de que esto es efectivam ente as.
La fig u ra XX.6 ay udar a e n ten d e r lo que hem os hecho al ajus
ta r los valores m edios de Y . E n efecto, hem os desplazado cada
u n a de las m ed ias de las clases, paralelam en te a la pen d ien te de
la b p rom edio intraclase, a u n a posicin en la que to d as las X son
iguales, a la g ran m edia de las X . Las Y aju stad a s p u ed en h allar
se a lo largo de la lnea d e trazos, co rresp o n d ien te a la gran
m edia de las X . Las m agnitudes relativas de las m edias en Y
p ueden re s u lta r considerablem ente alteradas. E n la fig u ra XX.6,
los valores no aju stad o s de Y son tales que la m edia de
queda
ligeram ente d eb ajo d e A, la cual, a su vez, es su stancialm ente
m en o r que ;43. Obsrvese, con todo, que A tien e u n v alo r X m uy
pequeo. T oda vez que la pen d ien te se h a re p resen ta d o com o
positiva, el a ju ste resp ecto d e X tien e p o r efecto a u m e n ta r el
v alo r de Y en el caso de At . P o r o tra p a rte , el proceso de aju ste
red u ce los valores de Y tan to p a ra A2 com o p a ra A3, ya que estas

dos categoras tien en valores de X re la tiv a m e n te grandes. Como


re su ltad o de ello, la Y a ju sta d a p a ra A x es efectiv am en te m ayor
que la a ju sta d a p a ra A2, y el valor de A 3 es m u ch o m s vecino
del d e A x.
Si volvem os al c u a d ro X X .l, colum nas 22 y 23, observarem os
el efecto del aju ste del p o rc en taje de negros so b re las tasas de

Fig. XX.6. In terp retacin geom trica de las m edias ajustadas de


Y m ed ia n te deslizam iento de las m edias de categoras paralela
m e n te a la recta d e pen d ien tes b w.
discrim inacin. F lorida, e n efecto, q u e tien e u n p o rc e n ta je re la
tiv am en te b a jo de negros, destaca ah o ra con ta sa s aju sta d a s m uy
altas, en ta n to q u e estad o s com o los de M ississippi y Tennessee
co n cu erd an ah o ra m s con los estados re sta n te s. O bsrvese tam
bin que las diferencias to tales e n tre estados se h an red u cid o
considerablem ente.
Ya se m encion en este m ism o captulo que el anlisis de
covariancia re su lta r til si los d iagram as de dispersin revelan
que las diversas m edias de las clases en X son m uy d iferentes en
valor. E sto pued e ap reciarse en la fig u ra XX.6. Si las m edias
de las clases h u b iera n estad o agrupadas den sam en te en X alre
d ed o r de la g ran m edia, las bases, y p o r consiguiente, tam b in
los lados d e los tringulos h ab ra n sido m uy cortos. E n o tro s
t rm in o s : el hecho de a ju s ta r resp ecto de X n o p ro d u c ira un
efecto m u y p ro nunciado, y a que, en realidad , el a ju ste efecti
vam ente re q u erid o era m uy pequeo. Y si to d as las m edias de
las clases h u b ieran sido exactam ente iguales en X , h ab ram o s te
nido efectivam ente u n co n tro l en relacin con X . Slo cuando
las m edias de las clases en X son m uy diferentes podem os espe

r a r que el a ju s te produzca u n efecto notable. E xpresado en o tra


fo rm a : h a de h a b e r u n a relacin relativ am en te fu e rte e n tre X
y A, las dos variables independientes.
P ara que el a ju s te valga la p en a se req u iere adem s o tra cosa.
E n efecto, si la b prom edio in trac la se h u b iera sido m uy pequea
nu m ricam en te, se h a b ra re q u erid o u n cam bio m uy gran d e en
X p a ra p ro d u c ir u n ligero cam bio en Y . As, pues, si e n tre X y Y
d e n tro de las clases de A slo se d a u n a relacin p eq u e a o nula,
no te n d r o b jeto alguno a ju s ta r en relacin con X . E stas obser
vaciones concuerdan, p o r supuesto, con el sentido com n, el cual
nos dice que no se obtiene g ra n v e n ta ja co n trolando resp ecto de
tin a variab le que n o est relacio n ad a con las dos variables que
n o s in teresan . Sin duda, si X slo se relaciona con la variable
d ep endiente, se la puede co n tro la r com o influencia p e rtu rb a d o ra .
Sin em bargo, podem os v er en la fig u ra XX.6 que, a m enos que
se den algunas variaciones con re sp ecto a X e n tre las categoras
d e A, el a ju s te n o te n d r g ra n objeto.
P ara servirnos d e la b p ro m ed io in traclase hubim os de supon e r q ue no se d ab a efecto alguno de interaccin. P o r lo tanto,
ser necesario llevar a cabo la p ru e b a de la in teracci n as com o
los clculos de b antes de seguir ad elan te con el p roceso de aju s
te. Si la in teracci n re s u lta significativa, el p ro b lem a es m s
com plicado y q u ed a fu e ra del o b jeto del p re sen te texto. E n de
term in ad as circunstancias ser acaso posible a ju s ta r sirvindose
d e las p en d ien tes individuales d en tro de las clases. S in em bargo,
la in terp re taci n h a de efectu arse con prudencia. Supngase, p o r
ejem plo, que la p en d ien te de M ississippi re su ltab a se r totalm ente
d istin ta de la de Tennessee. P odram os en ta l caso servirnos
leg tim am ente de sus lneas individuales d e m nim os cuadrados
p a ra a ju s ta r los valores de Y? E sto re q u erira su p o n er que Mis
sissippi m an tien e esencialm ente los m ism os tipos d e discrim ina
cin a m ed id a que va p erd ien d o negros. Sin em bargo, el hecho
d e que o tro s estados m u estren relaciones d istin tas con el p o r
cen taje d e negros sugiere que el su p u esto puede n o se r legtim o.
E l hecho de que se haya d em o strad o que existe in teraccin de
ber. h acern o s m uy cautos en cu a n to a c o n je tu ra r lo q u e o cu rri
ra realm en te si cam biaran las X . P o r o tra p arte, si encontram os
esencialm ente la m ism a relacin en cad a u n o d e los estados
e n tre el p o rc e n ta je de negros y la discrim inacin, o sea ausencia
d e in teracci n , estam os m s confiados en el sen tid o d e que el
a ju ste n o nos ex trav iar dem asiado.
H em os d e p la n te a r a h o ra la cu esti n relativ a a la significacin
d e las d iferencias e n tre las m edias aju stad a s de Y . Las diferen
cias e n tre las m edias no a ju sta d a s p o d r n o n o h a b e r sido sig
nificativas, p e ro esto no im plica, con todo, que el m ism o resul
ta d o se verifiq u e en relacin con los valores aju stad o s. Tal vez, en
efecto, el h ech o de a ju s ta r re sp ecto d e X p u ed a h a b e r tenido

com o consecuencia el ju n ta r m s los valores de Y. O ta l vez estn


ah o ra m s separados. H em os efectuado u n a ta re a descriptiva,
la de o b ten er efectivam ente las figuras aju stad as, de m odo que
p u ed an desplegarse con fines de com paracin. Y hem os de veri
fica r ah o ra la hiptesis n u la de que, en la poblacin, las m edias
aju stad a s de Y son todas las m ism as. Los supuestos en relacin
Prueba de anlisis de variancia para la significacin
de las diferencias entre m edias ajustadas

C uad ro X X .4 .

Suma de
cuadrados
In e x p lic a d a p o r X
I n e x p lic a d a p o r X,
p e ro e x p lic a d a p o r A
E r r o r (s u p o n ie n d o a u
s e n c ia d e in te ra c c i n )

1446866

Grados de
libertad

Estimacin
de la
variancia

AT 2 = 148

614189

k - 1= 9

832 67 7

N - ( * + ! > = 139

68243
11.39
5 9 9 0 .5

con e s ta p ru e b a son los usuales. H em os d e suponer, en efecto,


m u estras aleatorias independientes, n o rm alidad y variancias igua
les de las Y aju stad as, y hem os de estab lecer asim ism o los su
puesto s req u erid os p o r el anlisis de regresin, es decir, u n a
d istrib u ci n n o rm al bivariable de X y Y d en tro de cada categora
de A.
A fortunadam ente, n o hem os de volver a calcular las sum as de
cu ad rad o s sirvindonos de los propios valores ajustados. En
efecto, podem os llevar a cabo u n a p ru e b a de anlisis de varian
cia em pleando el procedim iento fam iliar de d e ja r que la variable
d e co n tro l explique p rim ero todo lo que p u ed e de la variacin.
Toda vez que n u e stra variable d e control es ah o ra X , tom am os
com o nueva sum a to tal de cuadrados la cantidad de variacin no
explicada p o r aqulla. F ragm entam os luego esta can tid ad en la
p orcin explicada p o r A y la porcin que no h a sido explicada
p o r las dos variables. Los grados de lib ertad asociados a cada
u n a d e esas cantidades ya se h an determ inado. Los resultados
d e la p ru e b a de F estn resum idos en el cu ad ro XX.4. Vemos, en
esta form a, que las diferencias aju stad as, si bien m enores que
las originales, son significativas al nivel d e .001. Concluimos,
pues, que si bien el hecho de a ju s ta r en relacin con el porcen
ta je d e negros red u ce las diferencias d e las tasas de discrim ina
cin en tre los estados, estas diferencias no desaparecen con todo
p o r com pleto en el proceso.
P o r fin, podem os eventualm ente q u e re r calcular u n a co rrela
cin p arcial de in trac la se e n tre Y y A, contro lan d o en relacin
con X . E sto pu ede ser recom endable, con objeto de o b ten er u n a

m e jo r indicacin del grado de relacin e n tre las dos variables de


la que pued en in d icar las diferencias e n tre las m edias ajustadas.
Fijndonos sim plem ente en estas diferencias aju stad a s n o pode
m os o b ten er u n a idea m uy b u en a de sus m agnitudes relativas a
las diferencias d en tro de las categoras, y p o r ello u n a correlacin
parcial de in trac la se puede re su lta r til. G eneralizando la no
cin de la correlacin in traclase podem os esc rib ir:

v-ve
r iY A - X '

Vt + ( ~ l ) V e

en donde V b estim acin e n tre clase (n o explicada p o r X ; expli


c ad a p o r A)
Fe estim acin del e r ro r (inexplicada p o r X y A)
n = n m ero prom edio de casos p o r clase, calculado
conform e a la ecuacin (XV I .2).
Aqu nos in tere sa la estim acin e n tre clase de la variancia de
las Y ajustadas. N u e stra estim acin del e rro r tien e en cu en ta que
X h a explicado y a todo lo que poda de la variacin en Y .
N um ricam ente obtenem os, p u es:

--1 _lI

k - i

j;
2 N t2
i=i

*
2

---------

= i

2 Ni
i= 1
1 /
2 858 \
= | 150----------- 1
9 V
150 )
1
= (150 - 19.05) = 14.55
9
r iY A - X

68 2 4 3 - 5 990.5
68 243 + 13.55(5 990.5)
62 252.5
149414

.417

XX.3. E xten sio nes del anlisis de covariancia


La adicin de u n a segunda escala nom inal com plicar el anlisis
de covariancia, debido al re q u isito de subclases iguales. Desde el
p u n to de v ista prctico, esto significa de hecho que este tipo de
extensin n o re su lta r practicable, excepto en estudios que com

p o rten esquem as de experim ento en los que el control del n


m ero d e casos sea posible. Sin em bargo, si aadim os u n a o m s
escalas de intervalo, la extensin es sencilla en principio, pese a
que in tro d u cir u n n m ero considerable de clculos adicionales.
H abrem os de a a d ir nuevas colum nas a la tab la de clculo. En
p artic u la r, h a b r u n a colum na que indique la can tid ad de varia
cin d ejad a sin explicar p o r las dos escalas de intervalo ( X y Z)
actu an d o sim ultneam ente. Nos vem os envueltos, en esta form a,
en ecuaciones de m nim os cuadrados m ltiples p a ra cada u n a de
las categoras de A. P ara ob ten er m edias aju stad as de Y, p o r
ejem plo, habrem os de a ju s ta r en relacin con X y Z sirvindonos
de las dos b prom edios parciales den tro de las clases. E n lu
g ar de d esplazar ah o ra las m edias de las categoras p aralelam en
te a u n a lnea de m nim os cuadrados, habrem os de deslizaras
p aralelam en te a u n plano m edio in te rio r a las clases. P ara verifi
ca r la significacin de las Y aju stad as, dejarem os p rim ero que
X y Z expliquen de Y to d o lo que puedan, perm itiendo a conti
nuacin a A ac tu a r sobre el rem anente.
Como q u iera que no hem os agotado ni con m ucho el tem a re
lativo al anlisis de covariancia, el lecto r po d r, si lo desea, con
su lta r las referencias que se relacionan m s abajo acerca de o tras
aplicaciones y extensiones del m todo general aqu expuesto. En
p artic u la r, cuando el nm ero de las categoras de A es m uy gran
de, a veces re su lta m uy til investigar la regresin de las m e
dias de categoras de Y en las m edias de X , considerando as de
hecho cada categora com o u n caso. As, p o r ejem plo, en el p ro
blem a que hem os considerado, podram os desear estu d iar la re
lacin en tre X y Y sirvindonos com o unidades de los estados,
en lu g ar de los distritos, y tra ta n d o las X y las Y de cada esta
do com o m arcas p artic u la res. E n la m ayora de los problem as
que in teresan a los socilogos, sin em bargo, el nm ero de cate
goras de A ser dem asiado reducido p a ra ju stific ar sem ejante
anlisis, siendo sta la razn de que el tem a no se exam ine en el
p resen te captulo.
XX.4. Anlisis de la variable sim ulada
T anto en el anlisis de variancia com o en el de la covariancia
n u e stra atencin estab a ce n trad a en el proceso de dividir en va
rios com ponentes las sum as de cuadrados y las sum as de p ro
ductos, en ta n to que en el anlisis de regresin lo estab a m s
bien en calcular los coeficientes de u n a ecuacin. R esultar til
re u n ir ah o ra am bas ideas, dem ostrando la fo rm a en que una
com binacin de las escalas de intervalo y nom inales puede ser
tam bin m an ejad a b ajo el fo rm ato de la regresin. R ecurdese
que en anlisis p o r dos m todos de la variancia se indic que es
posible u tilizar u n m odelo aditivo de la form a

Yij* + a + fij + y j + ijk


en tan to que en la regresin m ltiple utilizam os ecuaciones de
la fo rm a siguiente
Y i = a + pxXx + }2X2 + . . . + Pfc-Xj; + Ej
A parte las diferencias en notacin, q u e no deben preocupam os,
observam os dos diferencias obvias en estas ecuaciones: 1) En
el m odelo sim plificado de regresin n o tenem os en cu e n ta la in
teraccin, y 2) E l m odelo aditivo, en el caso del anlisis d e varian
cia, n o contiene ninguna X que re p resen te escalas d e intervalo.
O bservam os em p ero que el m odelo de regresin n o p lan tea res
triccin alguna a las X en cu an to a su distrib u ci n d e frecuencia,
aunque cabe su p o n er que aqullas se en cu en tren distribuidas
norm alm ente. E n p articu lar, algunas X , o todas ellas, podran
re cib ir m arcas d e 1 o 0, y vam os a v er cm o el hacerlo nos p er
m itira m an eja r las escalas nom inales com o casos especiales. He
m os observado, asim ism o, que algunas de las X pueden ser pro
ducto de o tra s X (podem os, p o r ejem plo, h acer X 3 = X 1X 3), y
m ediante este dispositivo podrem os m a n e ja r factores d e in terac
cin en el co n tex to d e la regresin. El anlisis d e variancia pue
de as ser co nsiderado com o u n caso especial del anlisis de
regresin y viceversa, resum iendo los dos b ajo u n solo m odelo
m atem tico general.
P ara que la explicacin no se haga dem asiado ab stra cta, supon
gam os que estam os tra ta n d o con u n a variable dependiente de es
cala de in terv alo Y ; dos variables independientes de escala de
intervalo, X y X 2, y u n a sola escala nom inal com puesta p o r cua
tro categoras. Supongam os que Y re p resen ta el ingreso, a la
edad de 35 a o s; X t sus aos de estu d io ; X 2 la p u n tuacin rela
tiva a su sta tu s ocupacional, y Z{ u n a variable (q u e m s abajo
describim os) q u e re p resen ta la regin en la que ra d ic a el sujeto.
Si hay cu a tro regiones (N ordeste, Sur, Medio O este y Oeste),
podem os u tiliza r tres Z{, com o sigue:

Z1=
=
Z2 =
=
Z3 =
=

1, si el su jeto reside en el N ordeste


0 e n o tro caso
1, si el su jeto resid e en el S ur
0, en o tro caso
1, si el su jeto resid e en el M edio Oeste
0, en o tro caso

La "variable Z4 se denom ina variable sim ulada, ya que las


m arcas d e 1 y 0 son asignadas arb itra riam en te. Podram os en
realid ad h ab e r utilizado u n grupo d istin to d e m arcas, p e ro el em
pleo de 1 y 0 m an ten d r el anlisis d en tro de la m ayor sencillez.

O bsrvese q ue no hay necesidad de u sa r u n a Z4 que tom e el valor


de 1 en el caso de ser O este o el de 0 en o tro caso, ya que, si
conocem os los valores de Z-,, Z2 y Z3, sabrem os con certeza el de
Z4. E n p artic u la r, todos los sujetos del O este recib irn m arcas
de 0 en las tres Z. E n ta n to nos ocupem os de u n a sola escala
nom inal, y en tan to, asim ism o, no introduzcam os u n a co nstante a
en la ecuacin, ser posible in clu ir en sta la Z4. Si p o r el
co n trario , retenem os a, o si tenem os m s d e u n a escala nom inal,
e in ten tam o s re te n e r Z p a ra to d as las categoras, verem os que
los procedim ientos de m nim os cuadrados se v en d rn abajo, de
b ido al hech o de que, en este ejem plo, Z 4 es u n a funcin lineal
p erfec ta de Z lf Z3 y Zg. Podem os de hecho v er que Z4 = 1
(Z j + Zo + Zg). E n la p rctica, si tom am os la co stu m b re de "su
p rim ir" siem p re u n a categora de cada escala nom inal, estarem os
listo s p a ra ap licar m nim os cuadrados b a jo los supuestos h a b i
tuales. R esu ltar que la categora su p rim id a (en este caso el
O este) fo rm a r u n a base de com paracin con las categoras res
tantes.
Podem os ah o ra in te g ra r u n a ecuacin estim ativa com o sigue:
Y ~ a + b xX x + b.^X<
>+ c tZ -f- c2Z2 + C3Z3
In terp retem o s esta ecuacin antes de in tro d u c ir o tro m odelo
m s com plejo, en el que se tenga en cu en ta la interaccin. Su
pongam os q ue estam os ocupndonos de u n sujeto del Oeste, p a ra
el cual Z x Z2 Z s 0. E n este caso la ecuacin se red u ce a
Y = a. *4 byX\ -t- b2X 2
Si com param os ah o ra e s te individuo con o tro del N ordeste,
p a ra el cual Z x 1, y Z2 = Z3 = 0, verem os que p a ra este segundo
su jeto la ecuacin co n ten d r u n trm in o adicional c1Z 1 c t ( 1) =
cx, p u d ien d o co n sid erar que h a sido agregado a a. As, p a ra el
su jeto del N o rd este tenem os
Y = (a + cx) + b] X1 + b2X 2
y vem os q ue c : puede se r in te rp re ta d o com o la diferencia e n tre
los p u n to s de co rte e n tre las dos regiones. De fo rm a anloga, c2
puede se r in te rp re ta d o com o la d iferencia e n tre los p u n to s de
co rte e n tre los individuos del S u r p o r com paracin con los del
Oeste. E n este sentido*, la categora su p rim id a re p resen ta u n
g rupo d e com paracin p a r a las tre s categoras re sta n te s. E n t r
m inos causales puede in te rp re ta rse la cx com o los increm entos
o d ecrem entos en los ingresos en que se in c u rrira si todos los
individuos h u b iesen d e e m ig ra r del Oeste a las dem s regiones.
Considerem os a continuacin el caso en que deseam os te n e r en

cu en ta las in teracciones e n tre las regiones y X x o X s. P a ra m ayor


clarid ad lim itarem o s n u e stra aten ci n a X lt elim inando X 2 de la
ecuacin. E n el caso del anlisis de covariancia vim os que la in
teraccin ap a rec a com o una d iferencia en tre los declives de cate
gora d en tro . E sto puede m an ejarse en funcin de la form u
lacin de la v ariab le sim ulada m ed ian te la in troduccin de
factores d e la fo rm a dyXjZy. E n el caso de u n a v ariab le indepen
diente X lt y tres Z., n u e stra ecuacin s e r :
Y ~ a -f- b^X i -f- CiZx + C2Z 2 ' (';:?:! ~b d^iX^Z^ -j- cl\

-f- d ^ X

E n el caso d e u n su jeto del Oeste, p a ra el cual


= Z2 = Z3 = 0,
la ecuacin se red u ce a Y = a + b xX ^ P a ra el individuo del N or
deste, en cam bio, la ecuacin se r :
Y O- + b X

1+ c-Zi + d n X i Z i = (a + Cj) + (61 + d n ) X ^

y a que Z x 1 p a r a todas las p erso n as de aquella regin. Si com


param o s las ecuaciones de los individuos del N ordeste con nues
tra ecuacin "estn d ar", co rresp o n d ien te a los del Oeste, no slo
ten d rem o s u n a d iferencia de c o rte clt sino tam b in u n a d iferen
cia en declives. E sto p erm ite in te rp re ta r d u com o el increm ento
(o d ecrem en to ) que agregam os al declive d e la relacin e n tre X
y Y cuando los individuos se desplazan del O este al N ordeste.
P ueden d arse in terp retacio n es anlogas a d 12 y d 13, y si estos
coeficientes se sep aran de cero en fo rm a significativa, deducire
m os que h ay p re se n te u n a in teracci n en la poblacin. P or o tra
p a rte , u n exam en de las m agnitudes de la d i} p u ed e re s u lta r til
p a ra co m p re n d er dicha interaccin.
Acabam os de co n sid erar el caso en que slo hay u n intervalo
y u n a v ariab le nom inal independiente, y los re su ltad o s de este
anlisis sern idnticos a los obtenidos al ap licar el anlisis de
la covariancia. Los procedim ientos d e clculo son m uy sencillos,
siem pre que se disponga de p ro g ram as d e com putacin capaces
de m a n e ja r p ro b lem as de regresin m ltiple. B asta u tiliza r las
m arcas de las variables de escalas d e intervalo, tal com o apare
cen, co n v irtien do sus escalas nom inales e n variables sim uladas Z it
analizando stas a continuacin e n fo rm a id n tica a lo que se h a
b ra hecho en el caso de la reg resi n m ltiple. Cada uno de los
coeficientes b it c y d if pu ed e ser investigado p a ra d eterm in a r a
significancia. P ueden obtenerse correlaciones m ltiples y parcia
les, y as sucesivam ente. Si, p o r ejem plo, se desea m e d ir el p o d er
explicativo d e la regin, con u n co n tro l p a ra to d as las X, se co
m enzar p o r co m p ro b ar si es posible p re scin d ir de las interaccio
nes. Si ello es posible, puede calcularse u n a p arcial m ltip le que
relacione Y con todas las Z tom adas en conjunto, con u n control
p a ra to d as las X t .

Si se desean u tilizar dos o m s escalas nom inales, pueden se


guirse dos estrateg ias alternativas, am bas sencillas. Una posibi
lidad consiste en com binar las dos escalas en u n a sim ple escala
nom inal, procediendo a continuacin com o antes se indica. Si
se desea, p o r ejem plo, e stu d ia r las interacciones de raza y sexo
con la educacin X lt p a ra m ed ir en qu fo rm a re su lta afectado
el in greso Y , p u ed en u tilizarse las cu a tro com binaciones negrovarn (Z j), negra-hem bra (Z2), blanca-hem bra (Z3) y blanco-va
r n (su p rim id a), com parando as las tre s com binaciones razasexo re sta n te s con el g rupo blanco-varn com o grupo estn d ar. La
segunda altern ativ a consiste en u tiliza r dos variables sim uladas
d istin tas, u n a p a ra el sexo y o tra p a ra la raza. Si hacem os Zx = 1
p a ra todos los negros, y Wx = 1 p a ra todas las hem bras, podrem os
in tro d u c ir explcitam ente interacciones de p rim e r orden en tre X 1
y raza, con slo agregar u n fa c to r que ab arq u e el pro d u cto X xZ lt
p udiendo, de m an era anloga, u tilizar el fa c to r X 1W 1 p a ra averi
g u ar la in teraccin ingreso-sexo. P odram os tam bin m an eja r
u n a in teracci n raza-sexo utilizando el p ro d u c to W iZ1( que sera
igual a la u n id ad slo en el caso de las h em b ra s negras. Pode
m os adem s m an eja r las interacciones, d e m s elevado orden,
raza-sexo-ingreso, m ed ian te u n facto r igual al p ro d u cto X^W^Z^.
Si se cu en ta con dos escalas nom inales con categoras r y e ,
respectivam ente, h a b r ( r 1) y ( c 1) categoras no suprim i
das, y necesitarem os ( r l ) ( c 1) trm inos p a ra m e jo ra r todas
las in teracciones de los dos factores. Podem os, pues, ex p resar Y
com o u n a funcin de los efectos principales de la variable de
fila, de los efectos principales de u n a variable de colum na y
de u n a serie d e facto res d e interaccin. Podem os as tr a ta r el
anlisis p o r dos m todos de la variancia, com o u n caso especial
del anlisis m ediante variab le sim ulada, y no necesitarem os su
p o n er igual n m ero de casos en todas las subeasillas, ya que
estam os acep tan do las in terco rrelacio n es e n tre las variables in
dependientes. Como o cu rra en el caso del anlisis de regresin,
h ab rem o s de p ag ar el precio de u n a am bigedad terica, resu l
ta n te de la superposicin en la variacin, la que ser "explicada
p o r las dos variables independientes correlacionadas. Como e je r
cicio, puede re s u lta r til im aginar de nuevo los problem as discu
tidos en el cap tulo del anlisis de la variancia, d en tro de este
nuevo concepto de las variables sim uladas.
XX.5. O bservaciones finales
H em os cu b ierto cierto n m ero de aproxim aciones estadsticas al
anlisis m u ltivariado, au n q u e algunos tem as m s especializados
se han quedado sin tra ta r. El problem a que ta l vez es el fumn
m ental del anlisis m ultivariado, consecuencia de la falta dp h-n
ras bien especficas que dicten de m an era p recisa los pn*n> n

seguir, es el de e n c o n tra r m todos relativam ente sistem ticos


p a ra h ac er fre n te a diversos tipos d e com plicaciones. La tare a
bsica consiste en elim in ar tan ta s d e dichas com plicaciones com o
sea posible, p ero slo u n a vez que nosotros m ism os hayam os
d escubierto su existencia y valorado su im portancia. La e stra te
gia general co nsiste en d isponer u n g rupo de p rio rid ad es orde
n ad as en principio, tra ta n d o a continuacin d e elim in a r en p ri
m e r lug ar aquellas com plicaciones potenciales en las que estem os
m enos interesados, avanzando a continuacin hacia u n anlisis
m s intensivo, que incluya aquellas q u e ocupan el ce n tro del
p ropio in ters te rico y que en fo rm a em prica re su lten las m s
im portantes.
Hay varios tipos de com plejidades q u e h an sido m encionados
slo de paso. E n tre ellos la posibilidad realista de en c o n trar
varios tipos de e rro r tan to en las m ediciones aleatorias com o en
las no aleatorias. Como hem os visto, los p rim ero s h a n recibido
cierto grado de atencin en la b ibliografa estadstica, en ta n to los
ltim os h an perm an ecido v irtu alm en te ignorados h a sta hace muy
poco tiem po. Se e n c u en tra u n segundo tip o d e com plejidad en
la investigacin no experim ental realista, en la que es necesario
te n e r p resen te u n a causacin recproca. H em os su p u esto que la
eleccin de v ariab le dependiente n o es problem tica, y que n o hay
efecto de retro alim entacin de las variables dependientes a las
independientes. A unque hem os acep tad o la posibilidad de varia
bles independientes intercorrelacionadas, no hem os exam inado
m odelos que tra te n de te n e r en cu en ta estas intercorrelaciones,
tom ando algunas d e las variables "in dependientes" com o funcin
d e las otras. E sto s tem as sern tra ta d o s en u n volum en poste
rio r, h abiendo sido estu d iad o en gran d etalle p o r los econom etristas en conexin con m odelos de ecuaciones sim ultneas. (V anse
especialm ente, C hrist [2 ], y Jo h n sto n [6 ]).
_Un tip o de com plicacin, que h a sido estudiado, ab a rca la adi
cin a u n a ecuacin d e variables explicativas, las que, com o aca
bam os de h ac er n o tar, pueden e sta r intercorrelacionadas. Se ha
observado que siem p re que dichas intercorrelaciones sean altas
en relacin con las correlaciones con la o las variables dependien
tes, re su lta r especialm ente difcil se p a ra r sus efectos com po
nentes. P or ello, u n a fo rm a a que deben a ju starse siem pre las sim
plificaciones, es la d e re d u cir h a sta u n n m ero razonable las
variables explicativas. E sto se logra m ed ian te cierto n m ero de
artificios. Uno de stos consiste en se p a ra r las variables en blo
ques", tra ta n d o solam ente stos com o diferenciados. O bien, pue
de co n stru irse u n a sola m arca p a ra la to talid a d del bloque (p o r
ejem plo, sta tu s socioeconm ico), o p u ed en u sarse m edidas tales
com o el coeficiente de correlacin m ltip le parcial, p a ra d eterm i
n a r los efectos del bloque en su conjunto. Ju n to a estas operacio
nes, p uram en te estadsticas, debe in clu irse u n a cuidadosa concep

cin terica, relativa a la n atu raleza del p a rtic u la r bloque de


variables q ue hem os form ado. A ta l fin pueden se r usadas las
tcnicas del anlisis de facto r m ltiple, anlisis de grupo, anli
sis de e stru c tu ra latente, anlisis de clasificacin m ltiple y co
rrelacin cannica.
Suele d arse el caso de que u n investigador sea capaz d e re u n ir
sus variables independientes en varios grupos, de acuerdo con sus
intereses tericos. F igurarn en p rim e r lu g ar aquellas variables
en las q ue se ce n tra su in ters principal. A continuacin un gru
p o de las variab les independientes que se pro ponga u s a r com o
variables d e control. stas son las variables q u e esp era h an de
ten er m ayor efecto sobre las variables de su in ters prim ordial,
p ero que en t rm inos de su p ro p io esquem a investigativo sern
consideradas com o "variables perju d iciales. N o pueden ser igno
rad as, p ero en teo ra ten d r n poco inters. H a b r p o r fin un
g rupo de variables, grupo tal vez m uy grande, que se considere
que tien en relativam ente m en o r im portancia, o que h an sido suge
rid as com o variables con las que hay que c o n tar en caso de que
se observe que las re sta n te s tienen escaso valor explicativo. E n
los estudios exploratorios es razonable in clu ir e sta s variables, ya
que las orientaciones tericas son p o r lo general m uy vagas. La
estrateg ia b sica del anlisis, en el caso de este te rc e r grupo
de variables, consiste en com enzar p o r v er cuntas de ellas pue
den ser elim inadas desde luego. Las que n o estn en este caso
p o d rn se r tran sferid as al segundo grupo. Lo im p o rtan te es que,
al tr a ta r d e re d u cir la am p litu d del anlisis, d eb er tra b a ja rse
de afu era h ac ia adentro, p o r as decir. T rtese p rim ero de
elim inar las com plicaciones. E n este caso, tal in ten to consiste
en lib rarse de aquellas variables que slo m u estran u n p o d er
explicativo m arginal. E n general, y a m enos q u e se disponga de
am plios recu rso s econm icos, m uchas de tales variables sern
elim inadas auto m ticam ente si las correlaciones de orden cero
con las variables dependientes son despreciables, o si las varia
bles se en cu en tran altam en te asociadas con o tra s variables in
d ependientes cuyo inters sea m s fundam ental.
Las posibles n o linealidades constituyen o tra fo rm a de com ple
jid a d q ue d eb er ser siem pre investigada en el caso de las escalas
de intervalo, pud iendo se r evaluadas aproxim adam ente en el
caso de los datos ordinales. Es m uy c ierto que todas las re la
ciones b ivariadas (incluso las que existen e n tre variables inde
p en d ien tes) deb ern ser ru tin aria m e n te investigadas en relacin
con la n o lm ealidad, com parando p a ra ello E 2 con r2. Si ta l d ife
ren cia es estad sticam en te significativa p e ro num ricam ente pe
quea (debido a que se tr a ta de u n a m u e stra m uy gran d e), ser
necesario resolver si el in crem en to explicado, al ten er en cuenta
la n o linealidad, ju stific a el aum ento en la com plejidad. La so
lucin d ep en d er de las peculiares p rio rid ad es de la investigacin,

y el lu g ar cen tral que ocupe esta relacin p a rtic u la r con vistas


al anlisis consiguiente. P or ejem p lo : si liay u n a relacin no
lineal em bebida en u n com plejo grupo de relaciones, entre, tal
vez, tanto* com o diez o quince variables, quiz no valga la pena
acep tar el au m ento en la com plejidad. Si, p o r el contrario, no
hay m s de tre s o cu atro variables m ayores, y es la variable de
pendiente la que con cen tra n u e s tra atencin, puede re s u lta r ju s
tificado el refinam iento. E n tal caso d eber tra ta rs e de especificar
u n a funcin m atem tica razonablem ente sencilla (p o r ejem plo:
logartm ica, p arab lica o exponencial) que explique casi ta n to de
la v ariancia com o la funcin no* lineal com pletam ente irre stric ta
(es d ec ir: sin restricciones en las m edias de las categoras),
cuyo p o d er explicativo es m edido p o r E2. E n o tras palabras, no
b asta con in d icar que u n a relacin im p o rtan te no es lineal. De
b er indicarse su fo rm a especfica, haciendo u n a p ru e b a p ara
ver si tal fo rm a (p o r ejem plo, u n a p arb o la) se a ju s ta m ejor, en
fo rm a significativa, que u n a lnea recta. La posibilidad adicional
de que u n a fo rm a p a rtic u la r de la relacin vare tam bin con el
nivel de o tra s variables (lo que supone u n a in teracci n ), deber
ser investigada asim ism o. P or ejem p lo : u n a relacin puede ser
logartm ica p a ra hom bres, y lineal p a ra m ujeres. C uando en un
sistem a se d an ta n ta s com o ocho o nueve variables, el nm ero
de posibles com plejidades de este este tipo aum en ta en progre
sin geom trica, a m edida que va agregndose u n a variable m s.
H abitualm ente, sin em bargo, la m ay o r p a rte de las com plejidades
potenciales no llegan a hacerse presentes.
P o r ltim o, debe investigarse siem pre la posibilidad de in terac
ciones o relaciones no aditivas e n tre las variables independientes.
Con variables independientes m ltiples se d arn num erosas in
teracciones de o rd e n elevado, las que p rcticam ente siem pre son
ignoradas e n el anlisis. Una estra te g ia razonable consiste en
bu scar to d as las posibles interacciones de dos variables. La m a
yora de stas, segn se ver, son sin d u d a despreciables. Podrn
hacerse p ru e b a s de significancia de grupos enteros de interaccio
nes, utilizando p a ra ello los coeficientes parciales m ltiples.
Supongam os, p o r ejem plo, que se cuenta con cu a tro variables
independientes X u X 2, X a y X 4. P odran sum arse a la ecuacin
de regresin todos los productos cruzados posibles XXj, com pro
b an d o si este g rupo de variables agrega en fo rm a significativa
al valor de la variancia explicada. Si no ocurre as, todas as
interacciones p o d r n ser om itidas. Si, p o r el contrario, se pro
duce efecto, al m enos, algunas de ellas p o d r n tal vez se r elim i
nadas.
Cuando se en c u en tra u n n m ero razonablem ente grande de in
teracciones significativas de dos variables, puede considerarse
justificado b u sca r o tras interacciones de orden elevado. El su
puesto, en este caso, es el de que n o aparecern interacciones

de ord en elevado si se observ la ausencia de interacciones de


ord en in ferio r. Las bases tericas de ta l supuesto pueden n o es
ta r lo suficientem ente claras, pero, en trm in o s p u ram en te em
pricos, el supuesto parece razonable. Es cierto que si uno
hallase am plias interacciones de teroero y cu a rto rdenes en
ausencia de interacciones de p rim e r orden, re su ltara cierta
m en te difcil en co n trar u n a explicacin te rica del hecho. Tal
vez p o d ra defenderse, a m edias, el ig n o rar las interacciones
d e dos facto res en ausencia de efectos principales, pero, p o r lo
m enos en el caso de las variables de b a ja p rio rid ad , los efectos
p rincipales casi cero ju stific ar n de o rd in ario el que se descuide
el estu d io de las interacciones en las que intervienen dichas va
riables. H ay ocasiones, p o r supuesto, en que u n o puede en c o n trar
se desorientado, p ero re su lta inevitable en el anlisis m ultivariado
el verse obligado a to m a r p o r algunos atajos.
La cuestin p rincipal p o r recalcar es la de que la b sq u ed a de
interacciones (y no linealidades) debe se r n o slo sistem tica,
sino ru tin a ria . No debe c o rrerse u n " a lb u r buscando slo un
subgrupo selecto de posibles interacciones, en ta n to se desconoce
el re sto de stas. En ra ra s ocasiones las teoras de las ciencias
sociolgicas (y sus afines) son lo b a sta n te explcitas y precisas
com o p a ra especificar y p re d ecir tales interacciones (especialm en
te las de o rd en su p erio r) con an terio rid ad a la recopilacin de
datos. La falla p rincipal d e esta clase de "b a rrid o " aplicado al
anlisis de los d ato s es p o r supuesto la de que slo p o r casuali
d ad h a b r de h acerse visible cierto n m ero de interacciones
significativas. P o r lo tan to , cuando se las en cu en tra deber com
p ro b a rse si estn o no diseadas en fo rm a sistem tica. Tende
r n a ab arcar, p o r ejem plo, slo dos o tres de las variables?
Todo lo a n te rio r lleva im plcito que siem pre est p re sen te el
riesgo de sobreanalizar los propios datos, p artic u la rm en te cuando
el n m ero de p arm etro s p o r estim ar com ienza a aproxim arse al
tam ao to tal de la m uestra, o cuando se observa u n gran nm ero
de com plejidades de m s bien escasa im portancia. H ay p o r su
p u esto u n a cierta tensin e n tre la necesidad de sim plificar, p o r
u n lado, y el c o n tar con u n a m ayor fuerza explicativa, p o r el otro.
No hay norm as rgidas p a ra escoger e n tre ellas, p o r razn sobre
todo de que el n m ero de tipos de com plejidades es grande.
Los estudios v aran considerablem ente en cu an to al grado en
que son prin cip alm ente explicativos, o definidam ente tericos.
V aran tam bin n cuanto a la calidad de las m ediciones, com o
an terio rm en te pudo observarse. Cuando las m edidas son b u rd a s
y la teo ra dbil, p ero se cuenta con u n buen nm ero de variables
explicativas potenciales, p o d r n llevarse a cabo los anlisis ex
plo rato rio s m ediante el em pleo de procedim ientos ru tin ario s de
clculo ( S onquist y M organ [8 ]). C uando se cuenta con u n a teo
ra m s explcita, re su ltan recom endables las tcnicas de las ecua

ciones sim ultneas. Si el tam a o d e la m u estra es adecuado, es


aconsejable la estrateg ia de dividir (al azar) la m u e stra en m ita
des, o incluso en tercios. P uede as llevarse a cabo u n estudio
p u ram en te ex p lo ratorio con la p rim e ra subm uestra, utilizando los
datos, as obtenidos, p a ra d e sa rro llar las explicaciones tericas,
las que a continuacin p o d r n ser com probadas u san d o el resto
d e los datos. De esta form a pueden a d a p ta rse con gran flexibili
d ad las tcn icas estadsticas m u ltiv ariad as a las necesidades del
m om ento, utilizndolas p a ra el d esarro llo de las p ro p ias teoras
y la com probacin de stas.
E jercicios

1. Comprubense tantos clculos del cuadro XX.l como sean necesa


rios para comprender cmo se obtuvieron las cifras en cuestin.
2. Tmense los datos del ejercido 1, cap. xvu y descompngase el
ndice de heterogeneidad en las siguientes categoras: 10.0 a 14.9, 15.0
a 19.9, 20.0 a 24.9, 25.0 a 29.9 y 30.0 a 49.9. Designando la integracin
moral con Y, la movilidad con X y la heterogeneidad con A :
a. Verifiqese la interaccin. Respuesta, F 2.17.
b. Obtngase rZY-. y verifiqese la significacin. Respuesta, F - 13.6.
c. Ajstense las medias de las categoras en Y en relacin con dife
rencias respecto de X.
. Verifiqese la significacin de las diferencias entre las Y ajusta
das. Respuesta, F = 2.71.
e. Obtngase la correlacin parcial intraclase r i 7 A-x3. Llvese a cabo un anlisis con variable simulada sobre los datos
del ejercicio 2, aceptando la interaccin, y comprense los resultados
con los del anlisis de covariancia.
B ibliografa

1. Boyle, R. P.: "Patb. Analysis and Ordinal Data", American Journal


of Sociology, vol. 75, pp. 461-480, 1970.
2. Christ, Cari: Econometric Models and Methods, John Wiley & Sons,
Inc., Nueva York, 1966, Parte III.
3. Dixon, W. J., y F. J. Massey: Introuction to Statistical Analysis,
3 ed., McGraw-Hill Book Company, Nueva York, 1969, cap. 12.
4. Hagood, M. J., y D. O. Price: Statistics for Sociologists, Henry
Holt and Company, Inc., Nueva York, 1952, cap. 24.
5. Johnson, P. O.: Statistical Methods in Research, Prentice-Hall, Inc.,
Englewood Clills, N. J., 1949, caps. 10 y 11.
6. Johnston, J . : Econometric Methods, McGraw-Hill Book Company,
Nueva York, 1963.
7. Schuessler, K arl: "Covariance Analysis in SocicJogical Research",
en Edgar Borgalta (ed.), Sociologicat Methodology 1969, JosseyBass, Inc., Pufollshers, San Francisco, 1969, cap. 7,

8. Sonquist, J. A., y J. N. Morgan: The Detection of Interaction


Effects, Institute for Social Research, University of Michigan, Aun
Arbor, 1964.
9. Suits, Daniel: The Use of Dummy Variables in Regression Equations, Journal of the American Statistical Association, vol. 52, pp.
548-551, 1957.

Quinta Parte
MUESTREO

Todas las p ruebas que hem os exam inado, lo m ism o que los p ro
cedim ientos em pleados p a ra o b ten er intervalos de confianza, h an
req u erid o el supuesto de m u estreo aleatorio, y de hecho el lec
to r pu ed e h ab erse fo rm ad o acaso la im presin de que la m u estra
aleato ria e ra la n ica clase respetable de m u estra utilizada p o r
el estadgrafo, lo cual dista m ucho d e se r as. Existen, en efec
to, cu a tro tipos bsicos de m u estreo de p ro babilidad q u e se exa
m in an en el p re sen te captulo, a sa b e r: la m u estra aleatoria, la
m u e stra sistem tica, la m u estra estra tific ad a y la m u e stra p o r
conglom erados. Segn verem os, es posible servirse de la induc
cin estad stica con cad a uno de estos cu a tro tipos de m uestreo
de p robabilidad, si b ien es cierto, p o r desgracia, que al p resen te
estam os m uy lim itados p o r lo que se refiere al nm ero d e tipos
d iferen tes de p ru eb as que pueden efectu arse con m u estras no
fo rtu itas de pro b ab ilidad. Sobre todo en el caso de las m u estras
ag rupadas, n u estro s clculos se hacen al propio tiem po m ucho
m s com plicados. P or lo tanto, en u n texto general com o el
p resen te, ser im posible h acer m ucho m s que in d icar algunas
consideraciones generales de estrateg ia p a ra escoger el tipo de
m u estreo que re su lte m s apropiado en vista de una situacin
d eterm inada.
Acabam os de in d icar que hay cuatro tipos bsicos de m uestreo
de p ro b abilidad, u n o de los cuales es el m u estreo aleatorio. Qu
es, pues, la m u estra de probabilidad? La caracterstica d istin ti
va de la m u estra de p ro b ab ilid ad es que todo individuo h a de
ten er u n a p ro b ab ilid ad conocida de q u ed ar incluido en la m ues
tra. E n la m u e stra al azar, ya vimos que todas las com binaciones
de individuos tienen iguales posibilidades de figurar. P ero al
fo rm u lar inducciones estadsticas no es absolutam ente necesario
que to d as las pro b ab ilidades sean iguales, ya que, si la pro b ab i
lid ad de seleccin es conocida, ser posible a ju sta r en relacin
con pro b ab ilid ad es desiguales m ediante algn procedim iento de
pond eraci n de u n a clase u o tra. Es esencial, sin em bargo, que
las p ro babilidades sean conocidas, con o b jeto de llegar a los
pesos apropiados. Si las probabilidades se desconocen, ser im
posible servirse legtim am ente de la induccin estadstica. E n
efecto, con un m u estreo caren te d e probabilidad, podem os aca
so o b ten er u n a m u e stra efectivam ente m uy representativa, pero
n o estarem o s en condiciones de ap re c ia r los riesgos d e e rro r
im plicados. Despus de d escrib ir y co m p arar cada uno de los
c u a tro tipos de m u estreo de probabilidad, exam inarem os breve
m en te algunos casos en los que es pro b ab le que se obtengan
m u estras sin p robabilidad.

Se h a recalcado que en el m u estreo al azar no slo h a de tener


cada individuo u n a op o rtu n id ad igual d e ser seleccionado, sino
que todas las com binaciones h a n de se r adem s igualm ente pro
bables. H em os indicado tam bin que p o r lo re g u lar re su lta m s
conveniente seleccionar sin reposicin. Los especialistas d e la
seleccin suelen d esignar la m u e stra de esta clase com o "m ues
tr a sencilla ale a to ria . O bsrvese que despus de cada extraccin
sucesiva la p ro b ab ilid ad p a ra u n individuo de se r seleccionado
au m enta ligeram ente debido al hecho de que q u ed arn cada vez
m enos individuos n o seleccionados en la poblacin. Si en rela
cin con u n a extraccin determ in ad a las probabilidades de todos
los individuos re sta n te s en cu an to a se r seleccionados son igua
les, independientem ente de los individuos seleccionados a n terio r
m ente, entonces tenem os u n a m u e stra sencilla aleatoria. En
efecto, tenem os independencia de u n a extraccin a la siguiente,
excepto en cu an to al hecho de que ningn individuo puede ser
seleccionado dos veces.
P or cul p rocedim iento m ecnico se seleccionan las m u estras
al azar? Se su p o n e a veces err n eam en te que casi to d o m todo
de seleccin de "c a ra o cruz d ar u n a m u estra al azar. E sto
d ista m ucho d e se r as. E n efecto, tales m todos conducen casi
invariablem ente a u n a m u estra sesgada, debido al elem ento
hum ano im plicado. Con objeto de aseguram os que todos los in
dividuos, incluidos los atpicos o los que son difciles d e localizar,
tienen efectivam ente la m ism a posibilidad de aparecer en la
m uestra, hem os de observar p o r lo reg u lar m uchas condiciones
al pro ced er a la extraccin. P rim ero, en efecto, hem os d e ase
gurarnos de que cada individuo fig u ra en la lista y de que aparece
nicam ente en ella u n a sola vez. Podem os luego asociar u n n
m ero a cad a p u esto de la lista y serv im o s de algn procedim ien
to m ecnico, p o r el estilo del que se em plea en el juego de bingo,
con objeto d e aseg u rar probabilidades iguales de seleccin. Exa
m inem os p rim ero algunos problem as que pueden p re sen tarse en
relacin con la m ism a confeccin de la lista, o lo que los especia
listas en m u estreo denom inan "arm azn de la m u estra".
P o d r p en sa rse acaso que el hecho d e obtener u n a lista es p o r
lo reg u lar asu n to de poca m onta. Sin em bargo, en la m ayora
de los casos p rcticos esto no es as. A m enudo ni siquiera exis
ten listas. P o r ejem plo: no existe lista alguna de los residentes
de los E stados Unidos o del estado d e Michigan. Es casi seguro
que tam poco h a b r lista alguna de los negros o los niponorteam ericanos que viven en u n a localidad determ inada. Y si no hay
lista, p u ed e re s u lta r m uy costoso confeccionar una. Si ta l es el
caso, hay otros m todos de m u estreo d e probabilidad que son p re
feribles a la m u estra sim ple aleatoria. P or o tra p arte, p u ed e acaso

h ab er listas, p ero es posible que no estn al da. Algunos indivi


duos p o d r n no e sta r incluidos, m ien tras que o tro s h ab rn dejado
e n tre tan to de p erten ecer a la poblacin considerada. Los direc
torio s locales, que a p rim e ra vista parecen co n stitu ir la fuente
ideal p a ra aquel que desea e x tra er u n a m u estra aleatoria de los
residentes, pueden acaso re su lta r ta n anticuados en el m om ento
de su publicacin, que ya p rcticam en te no sirvan. Los indivi
duos acabados d e llegar esta r n excluidos de la lista y no ten
drn, p o r consiguiente, pro b ab ilid ad alguna de ser seleccionados.
Y en la m edida en que dichas personas difieran del re sto de la
poblacin en cu an to a las caractersticas o b jeto del estudio, el in
vestigador o b ten d r u n a m u estra sesgada y resultados engao
sos. O tras listas, tales com o los directorios telefnicos o los re
g istros de los vehculos o autom viles, pueden e sta r sesgadas
en el sen tid o de que los grupos de ingresos inferiores estarn
p ro b ab lem en te subrepresentados. Cabe decir, p o r lo tanto, que
p o r m ucho que u n a lista parezca e sta r cuidadosam ente confec
cionada, deberem os investigar siem pre h a sta qu p u n to resu lta
apropiada. Una lista deficiente puede re s u lta r p eo r que la fa lta
total de la m ism a, si conduce a una m u estra excepcionalm ente
sesgada.
Qu podem os h acer si la lista es inadecuada? Si la lista es
com pleta p ero contiene duplicaciones, el problem a es relativam en
te sencillo, a condicin, p o r supuesto, que las duplicaciones se
p uedan d escu b rir fcilm ente. P or ejem plo: si la lista com prende a
todos los nios de u n a escuela determ in ad a y querem os seleccio
n a r u n a m u estra aleatoria d e los padres, descubrirem os, sin duda
alguna, q u e ciertos pad res tienen m s de u n nio que va a dicha
escuela. P o r consiguiente, si dam os a la ficha de cada nio la
m ism a p ro b ab ilid ad de seleccin, algunos p ad res ten d r n m ayo
res p ro b abilidades de ser seleccionados que otros. Con o b jeto de
rem ed iar esta situacin, podram os d esc artar las fichas de todos
los herm anos de p ad re y m ad re m enos una, o podram os selec
cionar u n p a d re solam ente en el caso de que fu e ra seleccionada
la ficha de su h ijo m ayor, descartndolo, en cam bio, si sala la
ficha de alguno de sus o tro s hijos.
Debe observarse que si se seleccionara el segundo o el te rc e r
hijo de Jones y n o incluyram os, p o r consiguiente, a Jones en la
m uestra, no sera legtim o rem plazar a Jones p o r el p ad re que
fig u rara a continuacin en la lista. E n efecto, si se hiciera as,
las p ersonas de fichas vecinas a las de los pad res de m s de un
nio ten d ra n m ayores probabilidades de seleccin. El procedi
m ien to correcto consistir, en tal caso, en p re sc in d ir de Jones
y p a sa r a la prxim a ficha seleccionada p o r m todos de p ro b a
bilidad. O tra alternativa, posible tericam ente p ero susceptible
de c rear problem as adicionales p a ra el anlisis, consistira en
inclu ir a Jones si sala la ficha de cualquiera de sus hijos, pero

atribuyndole m en o r peso en el anlisis. As, p o r ejem plo, si


tien e tres h ijo s y, p o r lo tan to , tre s veces la p ro b ab ilid ad gene
ra l de ser seleccionado, d arase a sus m arcas u n a te rc e ra p arte
del peso atrib u id o al p ad re de u n solo hijo.
E n la m ayora d e los problem as, sin em bargo, lo m s probable
es que la lista sea incom pleta o que incluya nom bres de indivi
duos que ya n o son m iem bros de la poblacin. Aqu ser tam
bin posible d e p u ra r la lita h a sta que sea correcta. P ero si esto
no es practicab le, p o d r re su lta r deseable red efin ir la poblacin
ligeram ente, p a ra ad a p ta rla a la lista. Supngase que se sabe que
u na lista de em pleados es com pleta y exacta a la fecha del da
p rim ero del ao. E n lugar de o b ten er los nom bres de todas las
p ersonas em pleadas desde entonces, ser tal vez posible lim itar
n u e stra atencin a las personas que tra b a ja b a n en la em presa
con an terio rid ad a la fecha en cuestin y que siguen tra b a ja n d o
en ella. Luego, to d as las personas incluidas en la m u e stra pero
que re su ltan h a b e r dejado e n tre ta n to la em presa p o d r n des
cartarse. Obsrvese, sin em bargo, que la poblacin estu d iad a no
co n star de todos los em pleados presentes, y el lecto r h a de percartarse bien de ello.
Una vez o b ten id a u n a lista correcta, es relativam ente sencillo
ex traer u n a m u estra aleatoria. T ericam ente p o d ra em plearse
to d a u n a serie d e m edios m ecnicos p a ra aseg u rar probabilida
des iguales de seleccin. P odra utilizarse u n juego de naipes bien
b arajad o , o ex traerse nm eros de un som brero. Tal vez una
esfera con bo las num eradas d ara resultados m s seguros, debido
a la tendencia de las cartas o los pedacitos de papel a pegarse
cuando se los b a ra ja o m ezcla. E n realidad, sin em bargo, el in
vestigador no n ecesita seguir u n proceso ta n com plicado, ya que
se han confeccionado con tal o b jeto tablas de nm eros aleatorios.
E sta s tablas se h an confeccionado sirvindose de m edios m ec
nicos com o los que se acaban de indicar. As, p o r ejem plo, po
d ra ponerse u n n m ero igual de bolas con los dgitos 0, 1, 2, . . . ,
9 en u n a cesta y p ro ced er a extraerlas, reponindolas y mezcln
dolas cada vez a fondo. Los dgitos re su ltan tes p o d ran luego
serv ir p a ra confeccionar u n cu ad ro de nm eros al azar, com o el
del cuadro B del apndice 2.
Al servirnos de u n cu ad ro de nm eros aleatorios, no im porta
que sigam os las colum nas de a rrib a abajo o que procedam os
a travs de las hileras, ni que em pecem os con u n a de las colum
nas o hileras con preferencia a otra, a condicin, sin em bargo,
que n u estra decisin se adopte an tes d e exam inar los datos. P ara
ilu stra r el em pleo del cuadro de nm eros aleatorios, suponga
m os que se q u iere ex traer u n a m u estra de tam a o 100 de una
poblacin que consta de 736 individuos. Toda vez que el nm ero
736 consta de tres dgitos, re su lta r conveniente escoger tres
colum nas adyacentes (cu alesq u iera), eligiendo o tras tre s al lie-

gar al pie de la pgina. Supngase, p o r ejem plo, que decidi


m os servirnos de las tre s p rim era s colum nas de la p rim e ra p
gina del cu ad ro B. Como p rim e r caso de la m u e stra escogem os
el p rim e r n m ero que aparece en tre 001 y 736. E ste n m ero es
100. E n otro s trm in o s: el centsim o individuo fig u ra r en la
m u estra. Seguim os ah o ra las colum nas 1 a 3 abaj, y obtenem os
los n m ero s 375 y 084. Llegam os luego al n m ero 990. E sto
co rresp o n d era al individuo noningentsim o nonagsim o de la po
blacin, pero, com o q uiera que este individuo no existe, pasam os
al prxim o nm ero, que es 128.
D espus de u n ra to em pezam os a en c o n tram o s con n m ero s
que y a h an sido seleccionados. Toda vez q u e estam os seleccio
n an d o sin reposicin, hem os de o m itir dichos nm eros, h a sta
h ab e r seleccionado finalm ente los 100 casos. E sto es to d o lo que
hay que h acer. La razn de que el p roceso sea tan sencillo y
que p u ed a d ecidirse a rb itra ria m e n te el em pleo de las colum nas
o h ileras est, p o r supuesto, en q u e los n m eros que fig u ran en
el cu ad ro son to talm e n te aleatorios. .De hecho, es casi im posible
servirse d e u n a d e estas tab las in co rrectam en te, a m enos que se
re p ita n las colum nas (o las h ilera s) o que se h ag a tram p a, deci
diendo, p o r ejem plo, que se quiere o b ten er en la m u e stra el caso
ducentsim o decim onono y buscando d eliberadam ente u n a co
lu m n a que lo contenga.
C orreccin de la m u estra sin reposicin. Y a se m encion en el
cap tu lo xx, relativo a la p robabilidad, que cuando se saca u n a
m u e stra sin reposicin violam os el su p u esto de independencia
y que, e stricta m e n te hablando, hem os de m odificar, p o r consi
guiente, n u estra s frm ulas p a ra te n e r en cu en ta dicho hecho.
P o r lo reg u lar, esto no constituye p ro b lem a grave alguno, ya que
la m u e stra seleccionada no es m s que u n pequeo fragm ento
de la poblacin y, p o r lo tan to , la pro b ab ilid ad de que u n indivi
d u o d eterm in ad o re su lte seleccionado dos o m s veces es m s
b ien p equea. Sin em bargo, si la m u e stra llega a co m p ren d er
h a s ta u n q u in to d e los individuos d e la poblacin, ser conve
n ien te in tro d u c ir facto res de correccin, siem pre que tales fac
to res sean conocidos. P o r desgracia, slo se conocen fa cto res
exactos de correccin p a ra los tipos de problem as m s sencillos.
Con todo, este hecho slo ra ra m e n te re su lta p e rtu rb a d o r, ya que,
si fu ram o s a seleccionar u n a m u e stra que co m p o rta ra el tercio
o la m ita d de la poblacin, estaram os de todos m odos en con
diciones de seleccionar tam bin la poblacin entera. El em pleo
del fa c to r d e correccin p a ra frm ulas que co m p o rtan el e rro r
e st n d a r de la m edia se exam ina m s abajo. E n casos m s com
plicados, h ab rem o s de referirn o s a algn texto especial sobre
m u estreo, au n q u e p robablem ente n o se encu en tre en los m ism os
un exam en d e los facto res de correccin aplicado a las diversas
p ru eb as n o p aram tricas. P o r o tra p arte , dichos textos tien en su

m ay o r aplicacin a las m u e stra s pequeas, en los que el p ro b le


m a de la rep o sicin reviste m en o r im portancia.
La f rm u la q ue habrem os de ap licar efectivam ente p a ra la co
rrecci n del e r ro r e stn d a r de la m edia, si seleccionam os sin re
posicin, es la siguiente:
=

(X X I.l)

en donde / re p re se n ta la fraccin de m uestreo, o sea la razn


del n m ero de casos de la m u e stra con respecto d e la poblacin.
Si designam os el tam a o de la m u e stra com o N y el de la pobla
cin com o M, podem os escrib ir el fa c to r de correccin c o m o :
J i - J L
J
M
Se echa de v er in m ed iatam en te que si el tam ao de la m u estra
es relativ am en te pequea en com paracin con M, el valor del
fa cto r de correccin se hace aproxim adam ente igual a la unidad,
y tiene, p o r consiguiente, escaso o b jeto o nulo el servirse de l.
As, p o r ejem plo, si se selecciona u n a m u estra de 500 de una
poblacin de 10 000, la fraccin de m u estreo es 1/20, y el valor
del fa c to r de correccin es de .975. O bsrvese que, toda vez
q ue el fa c to r de correccin h a d e ser m en o r que la u n id ad tra
tn d o se de poblaciones finitas, el valor corregido del e rro r estn
d a r ser siem p re m en o r que el de la cifra sin corregir. As, pues,
si deseam os u n e rro r est n d a r pequeo, com o suele se r el caso,
nos en co n trarem o s del lado conservador no sirvindonos de la
correccin. A m enos que la fraccin de m u estreo sea del orden
de u n q u in to o m s, ra ra m e n te la tenem os en cuenta.
E ste m ism o fa c to r de correccin p u ed e em plearse en o tras
frm ulas que co m p o rtan e rro res e st n d a r de m edias o p ro p o r
ciones. As, si h u biram os de servirnos de u n a estim acin, recu
rrira m o s a la f rm u la :

0-

= V

(
\y/N /

| = V

( -

( x x i .2)

\y/N - 1 /

E n u n a p ru e b a d e diferencia de m edias, h ab r dos fracciones de


seleccin, y la f rm u la b sica de la estim acin del e rro r estn
d a r de la diferen cia de las m edias s e r :

O tro tipo de m u estreo de uso m uy frecuente se confunde fcil


m ente con el de m u estreo aleatorio y, de hecho, se em plea a m e
n u d o com o intercam biable con ste. E n el m u estreo sistem tico,
en lu g ar de servirnos de u n cu ad ro de nm eros aleatorio, reco
rrem o s sim plem ente u n a lista y tom am os cada /c-simo individuo,
em pezando con u n caso escogido aleato riam en te en tre los p rim e
ro s k individuos. As, p o r ejem plo, si deseram os seleccionar u n a
m u e stra de 90 personas de e n tre u n a lista de 1 800, tom aram os
cada vigsim a p erso n a de la lista. Sin em bargo, n u e stra p rim era
eleccin h a de d eterm in a rse p o r algn procedim iento al azar,
com o el em pleo, p o r ejem plo, de un c u a d ro de nm eros aleato
rios. Supngase que se eligiera el individuo undcim o. E ntonces
la m u e stra co n stara de los individuos 11, 31, 51, 71, 91, . . .
El m u estreo sistem tico es m anifiestam ente m ucho m s senci
llo que el m u estreo aleatorio, siem pre que la lista sea sum am ente
larga o que haya que e x tra er u n a m u e stra m uy grande. Si nos p u
diram os serv ir legtim am ente, p o r ejem plo, de u n directorio tele
fnico o del directorio de u n a ciudad, se concibe fcilm ente la
dificu ltad de b u sc a r los individuos 512, 1 078 y 15 324. Si la o rd e
nacin em pleada en la com pilacin de la lista puede considerarse
esencialm ente com o al azar con respecto a la variable que se est
m idiendo, el m u estreo sistem tico ser equivalente al m u estreo
sencillo aleatorio. P o r e je m p lo : la m ayora d e las listas estn
confeccionadas p o r ord en alfabtico. Los apellidos, p o r supuesto,
no son casuales. As, pues, u n m arido y m u je r registrados sepa
ra d am en te n o ten d ra n p rcticam en te p ro b ab ilid ad alguna de
fig u ra r ju n to s en la m u estra, a m enos que su apellido fu e ra su
m am en te com n. Algunos grupos tnicos tienen u n a proporcin
elevada de n o m b res que em piezan con la m ism a le tra ( OB rien,
O'Neil, etc tera ). E n realidad, en el caso de las listas alfabticas
tenem os algo que se aproxim a al m u estreo estratificad o (vase
m s ad elan te), en el que los grupos tnicos p re sen tan cierta
ten den cia a u n irse. El hecho de to m a r cada fc-simo indivi
duo tiene, p o r lo tan to , probabilidades de p ro p o rcio n ar u n a re
p resen taci n ap ro p iad a d e cada grupo. E n la p rctica, sin
em bargo, com o q u iera que la ordenacin alfabtica es esencial
m ente irrelev an te desde el p u n to de vista de la m ayora de las
variables estu d iadas, n o solem os p o r lo re g u la r c o rre r riesgo
alguno al co n sid erar la m u e stra sistem tica com o equivalente al
m u estreo sencillo aleatorio. Sin em bargo, se h an desarrollado
p a ra el p rim ero algunas frm ulas algo d istin tas, que p a rte n de
su p u esto s d iferentes. E n la m ayora de los casos, con todo, ape
n as v ald r la p en a to m arse ese tra b a jo adicional.
H ay dos tipos de situaciones en las que la seleccin sistem tica
p ro d u ce sesgos considerables. A fortunadam ente, stas no se p re

sen tan con frecuencia en los problem as sociolgicos. Prim era:


los individuos pueden h ab erse o rdenado de m an era que se p ro
duzca u n a tendencia. E n efecto, si las personas se h an reg istrad o
p o r profesiones, prestigio, o edad, la posicin de la salida al azar
puede afectar los resultados. Supngase, p o r ejem plo, que la
fraccin de m u estreo sea de 1/30. Dos perso n as pueden extraer
m u estras sistem ticas con p a rtid a s aleatorias m uy diferentes.
Una p a rtid a al azar de dos, p o r ejem plo, d a r u n a m arc a pro
m edia co n siderablem ente m s elevada (si los individuos estn
ordenados de m ayor a m en o r) que la d e 27, ya que cada individuo
de la p rim e ra m u estra e sta r situ ad o 25 lugares ad elan te de la
p erso n a co rresp o n d ien te de la segunda m u estra. Si se observa
u n sesgo de esta clase, h a b r que m ezclar algo la lista, o servirse
de u n a " p a rtid a m ed ia (o sea, em pezando con los individuos
15 o 16).
El segundo tip o de situacin que hay que ev itar es aquel en
que la lista p re se n ta cierta c a rac te rstic a peridica o cclica co
rresp o n d ien te a la fraccin de m uestreo. As, p o r ejem plo, en un
edificio o u n a casa de d ep artam en to s cada octavo de stos form a
esquina. Si ste es algo m ayor que los restan tes, cabe e sp e rar
que sus o cu pantes difieran asim ism o. P or lo tan to , si se d a el
caso de que la fraccin de m u estreo sea tam bin d e 1/8, podra
ob ten erse u n m u estreo con to d o d e esquinas o, inversam ente, sin
ninguna, segn el p u n to de p a rtid a aleatorio. Con o b je to de evi
ta r esta tram p a, p o d ra cam biarse ligeram ente la fraccin de
m uestreo, to m n d ola com o 1/7 o 1/9, o cab ra servirse de varios
p u n to s de p a rtid a tom ados al azar. As, p o r ejem plo, u n a vez
seleccionados diez departam entos, p o d ra escogerse o tro nm ero
aleato rio y seleccionar o tras diez residencias, e x tra er o tro nm e
ro, y as sucesivam ente.
La seleccin sistem tica se em plea a m enudo en com binacin
con otros p ro cedim ientos en los estudios sociales, debido a su
sencillez. Al p ra ctican te inexperto de u n a encuesta, p o r ejem
plo, es m s fcil indicarle que visite cada terc era casa de una
m anzana q ue decirle que em plee u n cu ad ro de n m eros alea
torios. Sin em bargo, lo m ism o que en el caso del m u estreo sen
cillo aleatorio, la lista h a de ser com pleta y p recisa. Si el que
realiza la en c u esta o m itiera los d ep artam en to s m s pequeos
o algunas residencias de las avenidas lejanas, p o d ran re su lta r de
ello graves erro res. Es im p o rta n te p ercatarse de que en toda
Clase de m u estreo de p robabilidad h a n de darse ta n to u n elem en
to fo rtu ito com o algn tipo de re g istro com pleto. Sin em bargo,
segn verem os en seguida, la n atu ra leza de las lista s req u erid as
puede d ife rir de u n p ropsito a otro, siendo algunas de ellas
m ucho m s fciles de o b ten er que o tras. El investigador h a de
exam inar siem pre su lista cuidadosam ente y h a de sab e r cm o se
h a confeccionado y cules son sus defectos.

E n ta n to que en trm inos de ah o rro de costos o de problem as de


anlisis las diferencias e n tre las m u estras aleatorias sencillas y
las sistem ticas son p o r lo* regular relativam ente secundarias, los
o tro s dos tipos bsicos de m uestreo, en cam bio, difieren de
los p rim ero s que acabam os de v er en algunos aspectos fundam en
tales. Segn verem os, ta n to el m u estreo estratificado com o el
conglom erado pueden em plearse en determ inadas circunstancias
p a ra a u m en ta r la eficacia del diseo de m uestreo. E n o tro s t r
m in o s: pueden concebirse p a ra conseguir m ayor precisin con
los m ism os costos o bien, si se p refiere, cuestan m enos y com
p o rta n la m ism a precisin. Se ver tam bin que am bos procedi
m ientos req u ieren frm ulas distin tas de aquellas de las que nos
hem os servido anteriorm ente.
E n el m u estreo estratificad o dividim os p rim ero todos los in
dividuos en grupos o categoras y seleccionam os luego m u estras
independientes d en tro de cada estrato . Es im p o rtan te que los
estrato s se definan de tal m odo que cada individuo figure en
u n o y slo en u n o de ellos. E n los tipos d e m u estreo estra tifi
cado m s sencillos y de em pleo m s frecuente, tom am os una
m u estra aleato ria sencilla o sistem tica de cada u n o de los e stra
tos. Las fracciones d e m u estreo de los d istin to s estrato s pueden
ser iguales, en cuyo caso hablam os de u n m u estreo estratificad o
proporcional, o puede tra ta rse , p o r el contrario, de u n m uestreo
estratificad o no proporcional.
Una de las razones en cuya v irtu d estratificam os a m enudo una
m u estra es la de que pueden h ab erse em pleado m todos o listas
de m u estreo p a ra cada estra to . As, p o r ejem plo, los estrato s
pu ed en con sistir en fbricas, escuelas o dorm itorios distintos,
cada uno de los cuales se h a estudiado en m om entos distintos
p o r d istin tas personas. Es posible que h u b iera sido to talm en te
im p racticab le co m binar las listas de los d istin to s e stra to s selec
cionando luego u n a m u e stra sencilla aleatoria de todos ellos. O tra
razn im p o rtan te de la estratificacin, fren te a la m u e stra alea
to ria sencilla, consiste en la reduccin de los casos requeridos
p a ra la obtencin de u n determ inado grado de precisin. E n la
m edida en que los e stra to s son hom ogneos con resp ecto a las
variables estudiadas, podem os m e jo ra r la eficacia del diseo.
Al exam inar las m u estras estratificad as proporcionales y n o p ro
porcionales, ap reciarem os m ejo r algunas d e las ventajas p artic u
lares de este m uestreo fre n te al m u estreo sencillo aleatorio.
M uestreo estratificado proporcional. El m u estreo estratificad o
pro p o rcio n al se em plea a m enudo p a ra asegurarse u n a m u estra
m s rep resen tativ a de la que cabra e sp e rar de las m u estras
aleatorias sencillas o sistem ticas. Supngase, p o r ejem plo, que
hay 600 p ro testan tes, 300 catlicos y 100 judos en u n a poblacin

determ inada. Si se fu e ra a e x tra er u n a m u estra aleato ria de tam a


o 100, no esp eraram os ciertam en te o b ten er exactam ente 60 p ro
testan tes, 30 catlicos y 10 judos. La proporcin d e los judos,
en p artic u la r, p o d ra re su lta r fcilm ente o dem asiado grande o de
m asiado pequea. Supngase ah o ra que nos in tere sa b a estu d iar
alguna variable, tal com o la asisten cia a la iglesia, ntim am ente
ligada a la confesin. Supngase, adem s, que nos interesaba
estim ar el n m ero prom edio de veces que las p erso n as de la
poblacin asistan a la iglesia. R esulta fcil ver intuitivam ente
que u na m u e stra estratificad a con p roporcin al tam ao en el que
las fracciones de m uestreo fu eran de 1/10 p a ra los tre s estrato s
(o sea que co n staran de 60 p ro testan te s, 30 catlicos y 10 judos)
nos pro p o rcio n ara, p o r lo regular, resultados m s seguros que
la m u estra sencilla aleatoria.
Tenem os aqu, en efecto, u n p ro b lem a anlogo al del anlisis
de variancia. E n la m u estra aleato ria hay dos fuentes de varia
cin. Puede h a b e r e rro res de seleccin dentro de cada estrato,
y puede hab erlo s entre los estrato s en relacin con los respectivos
nm eros seleccionados. No slo podram os seleccionar judos
o catlicos m uy atpicos, sino que podram os seleccionar, ade
m s, dem asiados o m uy pocos de cada tipo. En el m uestreo
estratificado, en cam bio, hem os elim inado la variacin en tre es
tra to s y n o s qu eda slo la variacin dentro. Si los estrato s
fu eran to talm en te hom ogneos, el m u estreo proporcional nos da
ra siem pre re su ltad o s correctos, e n tan to que no sera as con
el m uestreo sencillo aleatorio. P or o tra p arte, si los estra to s fue
ra n ta n hom ogneos com o p o d ra esp erarse del azar, n ad a ga
naram os estratifican d o . E n o tro s trm in o s: si las diferencias
en tre los grupos son pequeas en com paracin con las diferen
cias d en tro , la estratificacin d e n ad a sirve. As, pues, la ven
ta ja re su ltan te de e stra tific a r es proporcional en lneas genera
les a la correlacin de in traclase e n tre las dos variables. Por
consiguiente, si el criterio en favor de la estratificacin se rela
ciona m uy n tim am ente con la variable estudiada, la ventaja
p ued e se r acaso considerable. Al gan ar el control sobre el n
m ero de casos de cada estra to , cosa que n o era posible en el
m uestreo aleatorio, podem os asegurarnos m ayor precisin en re
lacin con u n tam a o d eterm inado de la m uestra.
No debe p o r ello esperarse dem asiado del m u estreo e stra tifi
cado p ro p o rcio n al. Si el tam ao d e la m u estra es relativam ente
grande, esperam os, p o r supuesto, que el solo fa c to r azar nos
asegure ap ro x im adam ente proporciones correctas de cada estra
to. Y como q u iera que los problem as de anlisis no se com plican
dem asiado a consecuencia d e la m u e stra estratificada, poco p er
dem os en realid ad al estratificar. P or lo regular, no es ni nece
sario n i p racticab le esforzarse en o b ten er u n solo crite rio "m ejor"
p a ra estratificar. P ara o b ten er u n a m u estra estratificad a pro-

porcional, h ay que conocer los tam aos de los estrato s de pobla


cin, y slo ser posible, p o r supuesto, estra tific ar conform e a
variables a cuyo p ropsito la inform acin se desprende de las
listas en el m om ento de la extraccin d e la m uestra. E sto signi
fica a m en u d o que nos vem os lim itados a variables ta n sencillas
com o el sexo, la edad, la ocupacin o el re a de residencia. Algu
nas de estas variables pueden incluso utilizarse com binadas,
si se desea, si bien ra ra vez re su lta r ventajoso estra tific a r con
m s de dos o tre s variables a u n tiem po. Sin em bargo, com o
q u iera que la estratificacin constituye u n procedim iento ta n
sencillo, sus posibilidades deberan exam inarse siem pre.
M uestreo estratificado no proporcional. E n el m u estreo e stra
tificado no p roporcional nos servim os de d istin ta s fracciones de
m u estreo p a ra m an ip u lar el nm ero de casos seleccionado, con
o b jeto de au m en ta r todava m s la eficacia del diseo. H ay di
versos tipos de situaciones en los que esta fo rm a de m uestreo
re su lta indicada. A m enudo, en efecto, n u estro in ters puede
c e n tra rse m s en las diversas subpoblaciones rep resen tad as p o r
los estra to s que en la poblacin c o n ju n ta m ism a. Supngase,
p o r ejem plo, que deseram os com parar los tre s grupos religiosos
principales en relacin con la asistencia a la iglesia. Es obvio
que ta n to el m u estreo sencillo aleatorio com o el estratificad o
p roporcional nos d ara n dem asiados pocos ju dos en la m u estra
p a ra p o d er estab lecer com paraciones significativas. P or consi
guiente, podram os acaso decidir seleccionar nm eros iguales de
cad a grupo, dando as a cada ju d o u n a p robabilidad de selec
cin igual a tres veces la de los catlicos y seis veces la de los
p ro testan tes. Si seleccionram os 50 de cada grupo, las fracciones
de seleccin respectivas seran as de 1/12, 1/6 y 1/2. Y si luego
quisiram os generalizar a la poblacin en te ra con o b jeto de
a p reciar la cifra m edia de la asistencia, habram os de p o n d erar
las m edias de los tre s estrato s, a fin de com pensar el hecho de
que los ju d o s h an sido sobreseleccionados. E ste procedim iento
d e p onderacin se describe m s adelante.
P ero incluso si n u e stro objetivo est en generalizar a la po
blacin e n tera y no en c o m p arar diversas subpoblaciones, aun
as p u ed e re s u lta r indicado servirnos de la m u e stra estra tific ad a
n o proporcional, siem pre q u e : 1) las desviaciones e st n d a r den
tro de los distin tos e stra to s difieran considerablem ente e n tre s,
o 2) que los costos de re u n ir los datos varen su stancialm ente
d e u n e stra to a otro. H a b r siem pre u n a distribucin ptim a en
relacin con la cual el p ro p sito del m u estreo p re se n ta r una
eficacia m xim a. E n o tro s trm in o s: h a b r u n a determ inada;
com binacin de fracciones de m u estreo que p ro p o rcio n ar el
m en o r e rro r de m u estreo al m en o r costo posible. Y podem os
o b ten er esta distribucin ptim a si hacem os la fraccin de m a e s
treo de cada estrato directam ente proporcional a la desviacin

estndar d en tro del estrato e inversam ente proporcional a la raz


cuadrada del costo de cada caso dentro de su estrato. Veam os
in tu itiv am en te p o r qu esto es as, exam inando p rim ero la cues
tin de las desviaciones estn d ar.
Si u n d eterm in ad o e stra to p a rtic u la r es excepcionalm ente ho
m ogneo con respecto a la variable estudiada, no ser necesario
ex tra er d e la m ism a u n a m u e stra m uy grande p a ra conseguir un
grado d eterm in ad o de precisin. P or o tra p arte , ser indicado
to m a r u n a m u e stra m ucho m ayor de u n e s tra to m uy heterogneo.
Como q u iera que n u e stra precisin co n ju n ta v en d r determ inada
a n te todo p o r el grado de precisin del eslabn m s dbil de la
cadena, p o r as decir, im p o rta que no tengam os u n o o dos e stra
tos con e rro res grandes de seleccin. E sto es p artic u la rm en te
as si los e s tra to s suelen se r grandes. No te n d ra objeto, en
efecto, so sten er u n a precisin p erfec ta en algunos de los estrato s
m s pequeos, con u n e rro r de m u estreo m uy grande, en cam
bio, en o tro e stra to . P or consiguiente, si tom am os relativam ente
m s casos de los estrato s heterogneos y m enos, en cam bio, de
los hom ogneos, podem os salir del paso con m enos casos. Segn
se d em u estra m atem ticam ente, las fracciones de seleccin de
seadas son proporcionales a las desviaciones e st n d a r respecti
vas, y no a las variancias.
Conviene h ac er aqu u n a advertencia. E n efecto, u n determ i
n ad o e s tra to p o d r ser acaso m uy hom ogneo en relacin con
u na de las variables estudiadas y m uy heterogneo, en cambio,
en relacin con o tra. Toda vez que los proyectos de investiga
cin co m portan p o r lo regular m s de u n a variable, puede acaso
re su lta r m uy difcil e n c o n tra r distribuciones que sean ptim as, o
ap ro xim adam ente tales, p a ra m s de u n a variable a la vez. Y de
hecho, u n diseo m uy eficaz en relacin con u n a variable puede
acaso ser su m am ente ineficaz en relacin con o tra. P or consi
guiente, lo m e jo r ser co n su ltar u n especialista en m ateria de
m uestreo, p ercatn d o se bien de cules son las variables im por
tantes, an tes de servirse de la distribucin no proporcional. En
caso de duda, la estim acin pro p o rcio n al ser m ucho m s segura.
H asta aq u las consideraciones relativas a los costos n o se han
tenido en cuenta, debido al hecho d e que hem os venido supo
niendo im p lcitam ente que los costos de la reu n i n de datos
eran iguales p a ra todos los individuos. Supngase, sin em bargo,
que esto no sea as, y que algunos estra to s com porten costos m s
elevados que otros. D iferentes adm inistradores, p o r ejem plo,
pueden p e rm itir acaso el em pleo de diversas tcnicas de recopi
lacin de datos, o ta l vez las condiciones m ateriales de los diver
sos estrato s sean tales que la en cu esta tom e m s tiem po en uno
de ellos que en los dem s. E n igualdad de los dem s factores,
ser obviam ente m enos costoso seleccionar u n n m ero relativa
m en te m ayor de casos de los e stra to s m s b arato s. Puede de

m o strarse m atem ticam en te que la distrib u ci n ptim a se ob


te n d r si las fracciones de m u estreo se tom an inversam ente
prop o rcio n ales a la raz cu a d rad a de los factores de los costos.
O bsrvese que en el caso especial en que todos los costos sean
iguales y en que to d as las desviaciones e st n d a r d en tro d e los
e stra to s sean asim ism o iguales, las fracciones de m u estreo sern
asim ism o iguales, y tenem os as la situacin en que la estra tifi
cacin pro p o rcio nal nos d la d istribucin ptim a. E n general,
suele se r indicado seguir la regla de servirse de la estratificacin
p roporcional, a m enos que las diferencias de costos sean m uy
grandes, o a m enos que las desviaciones e st n d a r de los estrato s
sean su stan cialm ente diferentes. Segn verem os m s adelante, el
em pleo del m u estreo n o proporcional tien d e a com plicar los
p roblem as del anlisis y debera, p o r consiguiente, d escartarse,
a m enos que p re se n ta ra ventajas realm en te m uy claras.
H a sta aqu to dava n o nos hem os en fren tad o a u n a cuestin
im p o rtan te. E n efecto, cm o podem os servirnos d e clculos de
costos y d e las desviaciones e st n d a r relativas, siendo as que
estos elem entos no se conocen todava en el m om ento de e x tra er
la m u estra? La re sp u esta obvia es que h an de apreciarse, lo m is
m o que hem os de efectu ar anticipaciones lgicas en relacin con
los valores d e determ inados p arm etro s antes de ap reciar el ta
m ao de la m u e stra que necesitarem os. H em os de te n e r presen
te, sin em bargo, que la clase de estim aciones que necesitam os no
es del tip o d e las que form ulam os a p a r tir de las estadsticas
de las m u estras. Sin duda, sera posible efectu ar u n estudio de
ensayo con o b jeto de o b ten er dichas estim aciones, pero, a m e
nos que el estu d io haya de ser sum am ente vasto y costoso, se
m ejan te gasto de d in ero n o ser pro b ab lem en te conveniente. P or
lo tan to , n u e stra s estim aciones h an de b asa rse en la experiencia
de los p erito s o en estudios an terio res. Con todo, la situacin
n o es ta n difcil com o parece, ya que re su lta p o r lo re g u la r posi
ble o b ten er aproxim aciones m uy satisfacto rias de la distribucin
p tim a m ed ian te anticipaciones m uy generales e n cu an to a los
costos y las desviaciones estn d a r. E n otros t rm in o s : si existe
alguna razn p a ra sospechar que se dan diferencias sensibles
e n tre los e stra to s en relacin con el uno o el o tro d e los factores
en cuestin, u n a anticipacin inteligente nos d a r probablem en
te un diseo casi ta n eficaz com o el que se o b ten d ra con valores
exactos.
Clculos relativos a las m uestras estratificadas. Cuando calcu
lam o s estim aciones de m edias y estim am os e rro res e st n d a r a
p a r tir de m u estras estratificad as, hem os de calcular valores se
p arad o s p a ra cada u n o de los estra to s y ponderarlos luego de
acu erd o con el tam a o relativo del e s tra to en la poblacin. Si
indicam os con W t (w eig h t = p eso ) el peso del i-simo e stra to de
la poblacin y ponem os 2W* = 1, reduciendo as los pesos a p ro

porciones, podem os esc rib ir la f rm u la p a ra la estim acin de la


m edia de la poblacin com o sigue:
X = 2 W jC i
i= i
en donde las X { re p resen ta n las m edias d e cada u n o d e los k es
trato s. E sta f rm u la es ta l com o la esperaram os. Dice sim ple
m en te que si u n e stra to es tre s veces m ayor que o tro , su m edia
h ab r de re cib ir u n peso tres veces m ayor.
Si se h a em pleado el m u estreo estra tific ad o proporcional y de
jam o s q ue N i y M{ indiquen respectivam ente los tam aos de la
m u estra y de la poblacin e n relacin con el e stra to i-simo, en
tonces, p o r definicin, todos los A/j/M* sern iguales a N/ M. Pero,
com o quiera, que, p a ra el e stra to t-simo.
Ni

y tam bin

ten e m o s:

J =

M
Ni
2 X j
* N i 1
X = 2 ----------------^ N
Ni

1 * Ni
2 2 Xu

E sta doble su m a to tal significa sim plem ente que hem os sum ado
todas las X . Y to d a vez que luego dividim os esta sum a e n tre el
n m ero to tal de casos p a ra o b ten er X, vem os as que, en el caso
de m u estra estra tific ad a proporcional, podram os h a b e r obtenido
la estim acin de exactam ente1en la m ism a fo rm a que en el caso
d e la m u estra alea to ria sim ple. P o r esta razn designam os la
estratificacin proporcional com o autoponderada. E n o tro s t r
m inos : cada e stra to h a recibido su p ro p io peso. Y si la estra tifi
cacin^ no h a sido proporcional, entonces hem os de m ultiplicar
cada X i p o r el peso de dicho e s tra to en la poblacin.
Al ap reciar el e r ro r e stn d a r de la m edia, n u estro s clculos no
resu ltan ta n sencillos. E n efecto, hem os de a p reciar prim ero el
e rro r estn d a r p a ra cada e stra to y ju n ta r luego los resultados,
com o lo hicim os en la p ru eb a d e la diferencia de las m edias y en
el anlisis de variancia. Se re c o rd a r que, en lu g ar de sum ar
desviaciones estn d ar, operam os con las variancias y las sum as

M U ESTREO

545

de cuadrados. H em os tam b in de llevar al cu a d rad o los pesos


W. La f rm u la de la variancia an ticip ad a de la m edia puede,
pues, escribirse, en el caso de la m u e stra estratificada, com o:

en donde o j.2 indica u n a estim acin d e la variancia de la m edia


d en tro del e s tra to f-simo. Podem os o b ten er el e rro r estn d a r
C uadro X X I .l.

Datos para calcular estim aciones de parm etros


d e m u estra s estratificadas
Distrito
Total

T a m a o d e l d i s t r i t o ( M 4)
P e s o (W j)
T a m a o d e l a m u e s t r a (A f*)
M e d ia d e la m u e s tr a (X )
D e s v ia c i n e s t n d a r d e la m u e s
tr a (s^

10000
.20
50

15000
.30
50

25 0 0 0
.50
50

3100

4300

3 80 0

50 0

400

300

50 000 ( = M )

1.00
15 0 ( = t f )

an ticip ad o de la m ed ia extrayendo la raz cu a d ra d a d e la expre


sin a n te rio r y calculando luego la estad stica t com o se hizo
an tes.
Supngase, p o r ejem plo, que hay tre s d istrito s y que los datos
d e los m ism os p u ed en re su m irse com o en el cu ad ro X X I.l. Ob
srvese que hem os obten id o u n a m u e stra n o proporcionada, ya
q ue nos hem os servido de fracciones de m u estreo desiguales.
S upongam os q ue nos servim os del m u estreo sim ple aleato rio d en
tro de cad a e s tra to y que las m u estras se ex tra jero n independien
tem en te. Los e rro re s e s t n d a r anticipados, prescindiendo del
fa c to r 1 /, son
D istrito I :

Si
500
--------------= ------ = 71.4
V tfi - 1
V 49

D istrito I I :

s2
400
----------------------- = 57.1
V tf2 - 1
V 49

D istrito I I I :

s
300
------ ----- = --------- = 42.9

X = .20(3 100) + .30(4 300) + .50(3 800) = 3 810


y

a / = (.20)2(71.4)2 + (.30)2(57.1)2 + (.50)2(42.9)2


= 957.5

Si bien los clculos de las m edias y las proporciones son sen


cillos en el caso de las m u estras estratificad as, h a d e reconocerse,
con todo, que n o se pueden em p lear legtim am ente las diversas
pru eb as n o p aram tricas, las p ru e b as p a ra la significacin de la
correlacin, el anlisis de covariancia, etctera, sin u n a m odifi
cacin su stancial. P or desgracia, n o suelen en c o n trarse estudios
de estos p ro b lem as en los textos sobre m uestreo. Sabem os cm o
tr a ta r p ro b lem as estadsticos com plicados si podem os suponer
la fo rm a m s sencilla de m u e s tra : el m u estreo aleatorio. E n el
caso de diseos m s com plicados, podem os tra ta r los m s senci
llos de los pro blem as estadsticos, tales com o estim acin de m e
dias o p roporciones, clculo de intervalos de confianza p a ra
m edias y p roporciones, p ru e b as de diferencias d e m edias, etcra . P ero existe u n vaco, con todo, cuando se llega a tcnicas e sta
dsticas m s com plejas, de diseos d e m u estreo m s com plicados.
X X I.4. M uestreo p o r conglom erados
E n el m u estreo estratificad o dividim os la poblacin en grupos
que llam am os e stra to s y seleccionam os de e n tre cada estrato. En
ocasiones re su lta ventajoso dividir la poblacin en un gran n
m ero d e porciones o conjuntos llam ados conglom erados y selec
cio n ar en tre stos. As, p o r ejem plo, podram os acaso dividir u n a
ciudad en varios centenares de d istrito s electorales y seleccionar
luego 40 d istrito s com o m u estra. S em ejante diseo de m uestreo
se designa com o m u estreo conglom erado y se em plea frecuente
m en te en los estudios sociales, con o b jeto de re d u c ir los costos
in h eren tes a la recopilacin de datos. Segn verem os en seguida,
el o b jeto del m u estreo conglom erado consiste en seleccionar gru
pos lo m s heterogneos posible y lo suficientem ente pequeos
p a ra re d u cir los costos, tales com o gastos de viaje, etctera, inhe
ren tes a la encuesta.
E n la m u e stra conglom erada no seleccionam os n u estro s ele
m en to s directam ente. E n lu g ar d e ellos seleccionam os grupos
o co n ju n to s d e elem entos. E n el diseo d e conglom erados m s
sencillos p o d ram o s servirnos del m u estreo aleato rio e n tre gru
pos, seleccionando luego cad a individuo de los grupos incluidos
en la m u e stra d e stos. S em ejan te diseo se designa a m enudo
com o diseo de conglom erados d e fase nica, ya que en el pro
ceso la seleccin tien e lu g ar u n a sola vez. E n la seleccin de fa

ses m ltiples, p o r o tra p arte, el diseo puede se r m ucho m s


com plicado. Podram os to m ar p rim ero u n a m u estra sim ple alea
to ria d e d istrito s electorales de la ciudad. Y luego, podram os
to m a r u n a m u estra sencilla aleatoria de m anzanas censales (aglo
m eraciones m s peq u e as) dentro de cada distrito. Finalm ente,
p o d ran d arse instrucciones al que realizara la encuesta, en el
sen tid o de que visite cada terc era vivienda d en tro de las m an
zanas incluidas e in terro g u e a cada segundo adulto d en tro de
aqullas. De este m odo, los procedim ientos de m uestreo pueden
in tro d u cir el proceso de seleccin en ciertos nm eros de p untos
distin to s. P o r supuesto, es esencial en el m u estreo p robabilista
que se d en el procedim iento algn elem ento al azar. Pueden
calcularse fracciones de m u estreo que pro duzcan m u estras no
sesgadas, d e m odo que cada individuo d e la poblacin tenga una
p ro b ab ilid ad igual de fig u rar en la m u estra. Sin em bargo, con
e ste pro ced im iento no ser posible ase g u rar u n a seleccin inde
p endiente. E n efecto, las personas del m ism o conglom erado ten
d r n p o r lo re g u lar m s probabilidades de aparecer ju n ta s en la
m ism a m u estra que los m iem bros de conglom erados diferentes.
Y de hecho, el objetivo global del m u estreo p o r conglom erados
consiste precisam ente en asegurar que esto ocurra.
S er in stru ctivo co m p arar el m u estreo conglom erado tan to con
el sencillo aleatorio com o con el estratificado. P ara sim plificar la
cuestin, supongam os que nos servim os d e u n diseo d e m u estra
p o r conglom erado de fase nica en el que los conglom erados se
seleccionan aleatoriam ente, incluyendo luego cada individuo de
los conglom erados seleccionados en la m u estra total. E n qu
difiere e l m uestreo p o r conglom erado del estratificado? O bsr
vese q u e si bien am bos com portan la divisin de la poblacin en
grupos, im plican con todo, en cierto sentido, operaciones de se
leccin opuestas. E n efecto, en la m u e stra estratificad a seleccio
nam os individuos d en tro de cada estrato . E stam os, p o r lo tanto,
seguros de que cada e stra to est rep resen tad o p o r cierto nm ero
de casos. N uestros erro re s de seleccin co m portan en este caso
v ariab ilid ad den tro de los estrato s. Q uerem os, p o r consiguiente,
que stos sean en s m ism os lo m s hom ogneos posible y lo
m s d iferen tes posible unos de otros.
E n el m u estreo p o r conglom erado (d e fase n ica), en cam bio,
no tenem os fu en te alguna de e rro r d en tro del conglom erado, p o r
que nos servim os en cada caso del m ism o. Toda vez que slo
tom am os u n a m u estra d e conglom erados, n u estro e rro r com por
ta v ariab ilid ad entre los conglom erados. Si las m edias de los
conglom erados difieren considerablem ente en com paracin con
la v ariab ilid ad d en tro de los m ism os, correm os el riesgo de ob
te n e r u n conglom erado m uy poco u su al en n u e stra m u estra de
conglom erados. Si esto o cu rriera efectivam ente y si los conglo
m erados fu eran hom ogneos, n u e stro e rro r de m u e stra podra

se r considerable. P ero si los conglom erados son heterogneos en


s m ism os en com paracin con las diferencias en tre ellos, pode
m os salir ad elan te con pocos conglom erados relativam ente gran
des. Supngase, en el caso extrem o, que cada conglom erado fue
ra heterogneo y que, en c o n tra ste con ello, las diferencias en tre
las m edias de los conglom erados fu eran insignificantes. E n tal
caso podram os seleccionar sim plem ente un conglom erado muy
grande y o b ten er u n a excelente m u estra. En cam bio, si los con
glom erados fu e ran to talm en te hom ogneos, slo necesitaram os
u n caso en cad a u n o de ellos. T ratam os, pues, en esta form a, de
ob ten er e stra to s hom ogneos, p ero en cam bio, conglom erados
heterogneos, siendo que la razn de la variancia en la estrategia
es la diferencia en cu an to al p u n to de extraccin d e la m uestra.
C om parem os ah o ra el m u estreo p o r conglom erados con el
m u estreo sim ple aleatorio. E n casi todos los ejem plos que en
contrarem os, las m u estras de conglom erados sern m en o s efica
ces (o sea que p ro d u c irn m ayores erro res de seleccin) que las
m u estras alea to rias sencillas d e igual tamao. Sin em bargo, se
gn verem os d e n tro de poco, es posible que cueste b a sta n te m e
nos o b ten er m u estras de conglom erados. N uestro p roblem a ser
esencialm ente el de eq u ilib rar los costos y la eficiencia. Cmo
com param os, pues, la eficiencia relativ a de dos diseos? sta se
m ide de la m an era m s adecuada en trm inos del tam a o del
e rro r estn d a r de la e stim aci n ; u n e r ro r pequeo indicando una
eficiencia alta. Segn vimos, es deseable obtener conglom erados
que sean lo m s heterogneos posible. E sta nocin intu itiv a pue
de trad u cirse en u n a f rm u la que com porte el coeficiente de
correlacin intraclase. Puede d em o strarse que la razn de las va
riancias de las estim aciones de .i p a ra las m u estras p o r conglo
m erados y los m ustreos aleatorios es aproxim adam ente :

en donde o - 2 y oj 2 re p resen ta n respectivam ente las variancias


de las m edias de las m u estras de conglom erado y sencilla aleato
ria, Qi re p resen ta la correlacin in traclase de la poblacin, y N
es el n m ero m edio de casos en cada uno de los conglom erados.
O bsrvese que la razn de las variancias ser p o r lo regular
m ayor que la unidad, lo que indica variancias m ayores (y de
aqu tam bin m ayores e rro re s e st n d a r) p a ra el m u estreo p o r
conglom erados. La expresin ser m ayor que la unidad, a m e
nos que N = 1, o Q < 0. Es obvio que, si N , el m u estreo de
conglom erados se reduce al caso especial de la m u e stra aleato
ria, ya que cada conglom erado consta de u n solo caso. La co

rrelaci n de intraclase es, p o r supuesto, u n a m edida de hom oge


neidad. Si el conglom erado es m s hom ogneo de lo que podra
esp erarse al azar, o ser m ayor que cero y, cuanto m s hom o
gneo sea el conglom erado, tan to m ayor ser el valor de q*. Se
concibe que
sea negativo. P ero esto re q u erira que el conglo
m erado fu e ra m s hom ogneo de lo que se esp erara p o r azar.
E n conjunto, las clases de conglom erados q u e solem os p o r lo
re g u lar escoger con fines prcticos sern casi siem pre tan hom o
gneos p o r lo m enos com o se esp erara p o r azar.
Vemos que si
> 0, cu an to m ayor es el nm ero de casos N
del conglom erado, tan to m ayor es la razn de las variancias y p o r
consiguiente, ta n to m en o r la eficiencia relativa del diseo de con
glom erados. E sto puede verse intuitivam ente. E n efecto, si u n
g rupo es p erfectam ente hom ogneo, n o necesitam os m uchos ca
sos p a ra o b ten er u n a estim acin p recisa de su m edia. P odra
m os en tal caso to m a r u n a m u estra m uy pequea del conglom e
rado, d estin an d o el d in ero ahorrado al estu d io de conglom erados
adicionales. Son dos factores, pues, los que determ inan la efi
ciencia relativ a del diseo de conglom erados, a sab er: el grado
de hom ogeneidad d en tro del conglom erado y el tam ao del con
glom erado m ism o. Deseam os seleccionar de los conglom erados
hom ogneos slo unos cuantos c a so s; si son heterogneos, p o d e
m os to m a r m s casos de cada conglom erado, sin p erjuicio grave
de la eficiencia.
Como ya lo hem os indicado, la seleccin de conglom erados re
su lta p o r lo reg u lar m s econm ica que el m u estreo aleatorio.
Supngase, p o r ejem plo, que se tra ta b a de o b ten er u n a m u estra
a escala nacional p a ra e stu d iar las p referencias electorales o las
tasas de fecundidad. E n p rim e r lugar, no se dispondr de lista
alguna d e adultos, y el costo de confeccionar u n a re su ltara p ro h i
bitivo. E n cam bio, se dispone de listas de distritos. S er cierta
m en te m ucho m enos costoso ex traer u n a m u estra aleatoria (o
sistem tica o estratificad a) de los d istrito s y o p erar nicam ente
con los d istrito s efectivam ente seleccionados. Es probable que
incluso d en tro de cada d istrito u n a m u estra aleatoria n o sera
conveniente. Existe todava o tro facto r de ah o rro m anifiesto.
S er sin d u d a mucho' m enos costoso m a n d a r entrevistadores a 50
d istrito s, p o r ejem plo, que esparcirlos p o r todo el pas. En una
m u estra sencilla aleatoria, tal vez slo re su ltaran seleccionadas
10 p ersonas en el estad o de M ontana. Con el m u estreo p o r con
glom erados, en cam bio, es posible p re p a ra r eficazm ente a en tre
v istadores locales, y cada uno de ellos puede conseguir u n n
m ero relativ am en te grande de encuestas sin in c u rrir en gastos
ex o rb itan tes de viaje. Las m u estras de conglom erados efectuadas
a los niveles de los estados, los d istrito s o las ciudades reu n i
r n todos ellos las m ism as ventajas, aunque, sin duda, en m enor
grado.

Toda m u estra general co m porta cierto n m ero de costos. Y


son stos, y n o el nm ero de casos, los que ponen lm ites al es
tudio. H ay ciertos costos fijos que son independientes del diseo
de m u estreo y del nm ero de los casos seleccionados. E n rela
cin con n u estro s fines, stos pueden ignorarse, ya que pueden
su straerse sim plem ente del to tal d e los fondos disponibles. Y
hay o tro s costos, luego, que re su lta n de la confeccin efectiva
de las listas d e unidades a seleccionar. Como acabam os d e ver,
el m u estreo p o r conglom erados reduce a m enudo estos ltim os
costos considerablem ente. O tros costos, todava, son directam en
te p roporcionales al nm ero de casos definitivam ente seleccio
nados. E l salario pagado al e n tre v ista d o r m ien tras h ab la al in
terrogado, los costos de clasificacin de los datos y ciertos costos
de clculos, todos ellos corresponden a esta categora.
O tros costos, en cam bio, sern proporcionales al nm ero de
conglom erados seleccionados. La m ayora de los gastos de viaje,
incluidas las llam adas telefnicas, son de este tipo. R esultar
m s econm ico m an d ar a u n individuo a u n determ in ad o d istrito
p o r varios das, y luego a otro , que hacerlo v ia ja r p o r todo el
estado, con el nico resultado, acaso, de h a lla r que las personas
p o r in te rro g a r n o estn e n casa la p rim era vez que las visita.
E n trm in o s generales, si los costos de viaje y dem s que depen
den del n m ero de los conglom erados seleccionados son m uy ele
vados en com paracin con los que varan directam en te con el
n m ero de los casos, el m u estreo p o r conglom erados re su ltar
m s econm ico que el sencillo aleatorio. As, p o r ejem plo, en la
prospeccin d e u n rea grande que com porte encuestas m uy
breves, el m u estreo p o r conglom erados puede1 re s u lta r indicado.
E n cam bio, si las encuestas d u ra n cada u n a v arias horas, la
m u estra sencilla aleatoria p o d r ser m s apropiada, a condicin
que los costos de la confeccin de listas no sean prohibitivos.
As, pues, al decidir el diseo a utilizar, h ay que sopesar las
consideraciones relativas a los costos con las relativas a la efi
ciencia del diseo. Y h a b ra que servirse del m todo que d un
e rro r e s t n d a r m en o r a u n costo determ inado. T oda vez que
no es necesario to m a r a cad a individuo d en tro d e los conglom e
rados de la m uestra, el m u estreo de fase m ltip le p u ed e cons
titu ir u n com prom iso aceptable. Tenem os entonces el problem a
com plicado de escoger u n diseo ptim o, en el que hem os de
decidir el n m ero de fases en las que el m u estreo vaya a ser
usado, el n m ero de conglom erados p o r u sa r y el nm ero de
casos p o r seleccionar d en tro d e cada conglom erado. El pro
blem a se com plica adem s p o r el hecho de que la m ayora
de los estudios co m p o rtarn indudablem ente no u n a sola, sino
cierto n m e ro de variables, no siendo adem s todos los conglo
m erados del m ism o tam ao. Con o b jeto de d e sc a rta r las dudas
al respecto, siem pre ser p ru d e n te co n su ltar a u n esp ecialista en

m ateria de m u estreo an tes d e to m a r u n a decisin en cu an to al


diseo. E n efecto, cuando se llega al anlisis de los datos, un
p lan eam ien to cuidadoso p u ed e tra d u c irse no slo en costos m e
nores, sino que puede re d u n d a r adem s en u n n m ero m en o r de
problem as.
A ntes d e te rm in a r esta seccin de m u estreo p o r conglom era
dos, conviene u n a vez m s h ac er u n a advertencia. Las frm ulas
expuestas en este texto n o pueden u tilizarse en el m u estreo por
conglom erados. Como y a se indic, los e rro re s introducidos p o r el
hecho d e servirse de frm ulas de m u estreo sencillo alea to rio en
relacin con los datos reunidos de m u estras de conglom erados
p ueden re s u lta r m uy graves. E stos e rro res, en efecto, n o son del
o rd e n de m ag n itud de aquellos que se in tro d u cen sirvindose
de la ta b la n o rm al, p o r ejem plo, en lu g ar de la ta b la t, sino que
pu ed en ser m ucho m ayores. E n lu g ar de ten er significancia al
nivel de .05, el v erd ad ero nivel (ob ten id o p o r las frm ulas co
rre c ta s de la seleccin d e conglom erados) puede llegar a .50
(vase [3 ]). Si deseam os d e sc a rta r la hiptesis nula, ra ra vez
nos en co n trarem o s del lado conservador, si es que llegam os a
alguna sirvindonos de las frm ulas d e m u e stra alea to ria con
dato s agrupados. Se re co rd a r, adem s, que los m u estreo s p o r
conglom erados son m enos eficientes que el m u estreo sencillo alea
torio del m ism o tam ao. P or consiguiente, las frm ulas del m ues
tre o sencillo aleatorio subestim arn los verdaderos e rro res e stn
d ar. O dicho en o tra fo rm a : u n a m u e stra de conglom erados de
u n tam a o d eterm in ad o puede ser el equivalente, en trm in o s
de eficiencia, de u n a m u e stra sencilla alea to ria m ucho m enor. As,
p o r ejem plo, u n a m u e stra de conglom erados de tam a o 800 pue
d e eq u iv aler en trm inos de eficiencia a u n m u estreo sencillo
aleato rio de 500. P or consiguiente, si se em plean las f rm u las
del m u estreo sencillo aleatorio con u n a N de 800, tenem os m s
pro b ab ilid ad es d e o b ten er significacin que sirvindonos de los
procedim ientos correctos.
As, pues, hem os de p ro c ed er con la m ayor cautela al analizar
dato s p rovenientes d e m u estras p o r conglom erados. No debere
m os servirnos de estadsticas tales com o la ^-cuadrada, a m enos
que el especialista en m a teria de m u estreo p u ed a ay u d am o s a
in tro d u c ir los factores de correccin apropiados. El p roblem a
no es ta n grave con las m u estras estra tific ad as debido, si m s no,
a que las m u estras estratificad as son m s eficientes que las sen
cillas al azar. E n efecto, u n m u estreo estra tific ad o d e u n tam a o
dad o p u ed e ig ualar en eficiencia u n a m u e stra aleato ria m ayor,
de m odo que el investigador se en c o n trar siem pre, con aqul, del
lado conservador en cu an to a d e sc a rta r la hiptesis nula. Con
todo, esto n o es siem pre as, de m odo que la cautela se im pone
en todos los casos.

V eam os a h o ra b revem ente algunas situaciones en las que se ha


em pleado el m u estreo sin prob ab ilid ad . El m ayor inconveniente
de sta est en q u e no obtenem os con ella u n a estim acin v
lid a de n u estro s riesgos de erro r. P o r lo tan to , la induccin es
tad stica n o e s t legitim ada, y n o debera utilizarse. E sto no
significa, con todo, q u e el m u estreo sin pro b ab ilid ad n o resulte
ap ro p iad o alguna vez. E n efecto-, en los estudios de exploracin,
cuyo p rin cip a l objetivo est en o b ten er nociones valiosas que
p u ed an llevarnos en ltim a in stan cia a hiptesis verificables, el
m u estreo d e p ro b ab ilid ad p u ed e o re s u lta r dem asiado caro o
co n d u cir a conocim ientos m s lim itados. As, p o r ejem plo, po
dem os tal vez q u e re r in te rro g a r a p erso n as que estn en una
posicin p a rtic u la rm e n te favorable p a ra p ro p o rcio n ar inform a
cin. O podem os q u erer acaso in te rro g a r casos extrem os, sus
ceptibles d e p ro c u ra m o s las diferencias m s notables. Si hace
m os esto, n o tenem os derecho legtim o alguno, p o r supuesto, a
v erificar la significancia d e las diferencias e n tre extrem os, a m e
nos q ue tra te m o s d e generalizar a u n a poblacin com puesta ex
clusivam ente d e tales personas. El hecho de que conozcam os
in d u d ab lem en te estudios en los que se h a n efectu ad o pru eb as
estad sticas d e casos extrem os d e e s ta clase, no- significa, con
todo, que el p ro ced im ien to sea legtim o. P ero n o p u e d e negarse,
sin em bargo, que pueden o b ten erse conocim ientos tiles a p a rtir
d e com paraciones de e sta clase.
Se em plean e n ocasiones los m todos sin p ro b a b ilid ad cuando
el p ro p sito e s t en fo rm u lar generalizaciones acerca de una
p oblacin m u estread a. Tales m todos se sirven invariablem ente
ya sea del c rite rio del e n tre v ista d o r en cuanto a los individuos a
incluir, o' p erm iten que u n individuo d e la m u estra se seleccione
a p a rte del e stu d io sobre alguna b ase n o fo rtu ita.
Los m u streo s d e cu o ta em pleados a m enudo en las encuestas
de la opinin p b lica parecen se r sim ilares, a p rim e ra vista, a
los m u streo s estratificados. Se d an al investigador d eterm in a
das "cu o tas q u e h a de llenar. H a d e te n e r ta n ta s o cuantas
m u je re s d e m s d e 40 aos, ta n ta s o cuantas p ersonas con un
in greso m en o r de $ 3 000, o c ie rto p o rc en taje d e catlicos. Pero
se d eja a su discrecin cules m u jere s de m s d e c u a ren ta aos
o cules catlicos q uiera in terro g a r. Y com o q u iera que es h u
m ano, es p ro b a b le que seleccione aquellas p erso n as que le resu l
te m s cm odo visitar. Si va a sus casas, p ro b a b le m en te slo
seleccionar aquellas p erso n as q u e se en c u en tran e n ellas en
aquel m om ento. Incluso si se d a cu e n ta de sem ejan te tenden
cia selectiva, le re su lta r difcil co rreg irla adecuadam ente. Un
en tre v ista d o r su m am ente responsable p o d r incluso sobreseleccio n ar acaso a p erso n as que r a r a vez se en c u en tran en la casa,

o a individuos de las clases inferiores, a los que los dem s e n tre


v istad o res p asa rn a m enudo p o r alto. Tal vez u n a p erso n a bien
e n tre n a d a llegue a hacerse m uy experta en el em pleo de su dis
crecin. P ero ser difcil, p o r no decir im posible, saberlo. Y si
cu alq u ier g rupo sobreseleccionado o, respectivam ente, subseleccionado suele p re se n ta r diferencias pronunciadas con respecto
a otro s en relacin con la variable o b jeto del estudio, el m ues
treo p o d r re su lta r gravem ente sesgado. Y lo que es peor, no
hay fo rm a de ap reciar exactam ente cun sesgado pueda estar.
S iem pre que las listas sean incom pletas o que deba conside
ra rse u n g ran p o rc en taje de personas com o no respondientes,
tenem os de hecho o tro ejem plo de m u estreo caren te d e p ro b a
bilidad. Si en el caso de u n cuestionario rem itido p o r correo
recibim os u n 50 p o r ciento de respuestas, podem os acaso in tro
d u c ir sesgos graves, debido al hecho de que las personas que no
co n testa n pued en tal vez ser significativam ente diferentes de las
que devuelven el cuestionario. As, pues, aunque inicialm ente
nos hayam os to m ado la p en a de o b ten er u n m u estreo de p ro b a
bilidad, algunos individuos no ten d r n en realid ad op o rtu n id ad
alg u n a de verse incluidos en la m u estra definitiva, p o rq u e se h an
d escartad o ellos m ism os negndose a co n testar. De ah q u e sea
sum am ente im p o rtan te h ac er seguir u n cuestionario remitido^ p o r
correo de u n a o varias ta rje ta s postales, con o b jeto de o b ten er
u n p o rc en taje m ayor de respuestas. Y en fo rm a anloga, el en
trev istad o r h a de a p re n d e r a in sistir y h a de e sp e ra r y h ac er va
ria s llam adas p a ra conseguir u n n m ero de respuestas suficiente.
E s obvio, p o r lo dem s, que u n sesgo sustancial n o se d eja com
p en sa r p o r m edio d e u n a m u e stra m ayor.
XXI.6. E rrores no de m u e stre o y tam ao d e la m uestra
Incluso si se h a p u esto el m ayor cuidado en concebir u n estu
dio que re n a todos los req u isito s de u n bu en m uestreo, siem pre
se ten d rn , con todo, algunos e rro res ajenos a sta. La teo ra de
las p ro b ab ilid ad es nos p e rm ite ap re c ia r los riesgos d e erro res
de seleccin, o sea d e aquellos e rro re s introducidos en v irtu d del
hecho de que las m u estras varan de u n a a otra. Los e rro res no
de m uestreo , en cam bio, son e rro res d e m edicin. E n efecto,
en un estudio1 que com porte u n a en tre v ista o u n cuestionario,
h a b r siem p re e rro re s d e respuesta. E n algunos casos, tal como
en la edad de las personas, p o r ejem plo, p u ed e darse u n conjun
to d e e rro res que conduzcan a u n sesgo* m anifiesto. E n otros
ejem plos, e n cam bio, los erro res de re sp u esta p o d r n deberse
m s o m enos al azar. Y los propios sesgos del en trev istad o r p u e
d en a fe c ta r sus resultados.
E n este tex to no podem os e n tra r a estu d ia r detalladam ente las
olases de posibles e rro res no de m uestreo. V ale la pena, sin em

bargo, m en cio nar un pu n to sum am ente im p o rtan te. No se gana


n ad a en re d u cir los erro res d e m u estreo p o r debajo d e cierto ni
vel, en com paracin con los e rro re s no de m u estreo . Si estos dos
tipos de erro res pueden suponerse independientes uno de otro, la
situacin se puede re p re se n ta r p o r m edio de u n diagram a, com o
el de la fig u ra X X I.l. El e rro r to ta l es as u n a funcin de dos

Error de muestreo

Error no de muestreo
Fig. X X I.l. Relacin en tre el error total y tos errores de
m uestreo y no de m uestreo.
fuentes in dependientes de erro r, y no se puede re d u cir sustancial
m ente, a m enos que se controlen sim ultneam ente los dos tipos.
Si las equivocaciones ajenas al m uestreo, tales com o los erro res
de re sp u esta o de entrevista, son grandes, n o tiene objeto to m ar
una m u e stra grande con el p ro p sito de re d u cir el e rro r estn d ar
de la estim acin, ya que el e rro r to ta l e sta r d eterm in ad o en p ri
m er trm in o p o r el largo d e la base del tringulo. Y en form a
anloga, si se desea h ac er todo lo posible p a ra re d u cir los erro res
no de m u estreo a u n m nim o, se r co n trap ro d u cen te servirse de
u n a m u e stra pequea, con lo que se te n d r u n e rro r m ayor
de m u estreo. D eber, p o r consiguiente, m an ten e rse u n equilibrio
ap ro p iad o e n tre los erro res de m u estreo y los no de m uestreo. El
cuidado en la investigacin lim ita el tam ao efectivo d e la m ues
tra y viceversa. P o r desgracia, los e rro res n o de m u estreo son
p o r l re g u la r difciles de apreciar. Sin em bargo, si los erro res
pueden se r apreciados, el diseo to tal m s eficaz se r aquel con
respecto al cual los dos lados del tringulo sean iguales. Conviene
ten er p re sen te este hecho.
Glosario

Muestreo por conglomerados


Fraccin de m uestreo
Muestreo sencillo al azar
Muestreo estratificado
Muestreo sistemtico
B ibliografa

1. Cochran, W. G., Sampling Techniques, John Wiley & Sons, Inc.,


Nueva York, 1953.

2. Hansen, M. H., W. N. Hurwitz y W. G. Madow, Sampie Survey


Methods and theory, vol. 1, John Wiley & Sons, Inc., Nueva York,
1953.
3. Kish, L., "Confidence Intervals for Clustered Samples, American
Sociological Review, vol. XXII, pp. 154-165, abril de 1957.
4. Kish, L., "Selection of the Sampie, en L. Festinger y D. Katz
(eds.), Research Methods in the Behaviorat Sciences, The Dryden
Press, Inc., Nueva York, 1953, cap. 5.
5. Kish, L .: Survey Sampling, John Wiley & Sons, Inc., Nueva York,
1965.
6. Lazerwitz, B em ard: Sampling Theory and Procedures, en H. M.
Blalock y Ann B. Blalock (ed.), Methodlogy in Social Research,
McGraw-Hill Book Company, Nueva York, 1968, cap. 8.

APNDICES

o d a vez que la m ayora d e los estudiantes h a b r n olvidado


m u
cho de lo que ap ren d iero n en el lgebra elem ental, u n breve
resu m en de algunas de las operaciones algebraicas bsicas les
re su lta r sin du d a til. Algunas de estas reglas sern expuestas
m s ad elan te en fo rm a m uy concisa. Si se necesita u n repaso m s
extenso, d eb er co n su ltarse un texto sobre lgebra.
Una de las cosas bsicas que hay que re c o rd a r a propsito de
las operaciones aritm ticas y algebraicas es que el orden en que
dichas operaciones se efectan reviste sum a im portancia. En
t rm in os generales, en p resencia de u n a expresin relativam ente
com plicada se o p era del in te rio r al exterior. C onvendr re te n er
m s o m enos las siguientes reglas.

1. D esarrollo de una sum a o una diferencia al cuadrado.


(a

b )2 a2-f- 2ab -f- b2

o? + b2

(a b )2 = a2 2ab + fe2 ^ a2 b2
Lo inverso se verifica al tra ta r con races cuadradas
\ / a 2 + la b + b2 = \ / ( a + b )2 a + b
D efinitivam ente no es cierto que
\ / a 2 + b2 = a + b
2.
que

D ivisin entre una sum a o una diferencia. Aun siendo cierto


a+ b

n o podem os con todo sim plificar ta n fcilm ente las expresiones


a

A s , p o r e j e m p l o :

------

o ------

b+c

b c

------------ --------1

b+ c

3.
D ivisin entre una fraccin. Si el denom inador es l m ism o
una fraccin, podem os p o n er el denom inador del denom inador
en el n u m era d o r com o sigue:

en fo rm a a n lo g a :

ac

b /c

a /b

a d

ad

c /d

b e

be

a-

b / ( c + d)

c+d

a (c + d )

4. M ultiplicacin de potencias. Si tenem os el p ro d u c to de un


nm ero elevado a la potencia a y el m ism o n m ero a la potencia
b, podem os su m a r los exponentes. As, p o r ejem plo :
X cX

P ero :
Y

= I + y

+ X +

X * x 2

= X

y X* + X 2 = X ? (X + 1)

en fo rm a anloga, al dividir sustraem os los exponentes:


Xa
Xi

-------- = : X a ->

X*
*2

---------- -

X l

E n p a rtic u la r:
Xa
Xa

= X o= 1

As, pues, cu alquier n m ero real (excepto ce ro ) elevado a la p a


tencia 0 es igual a 1.
5. E xp o n en tes negativos. Un n m ero elevado a u n a potencia
negativa p u ed e escrib irse como' su n m ero recproco elevado a
la p o tencia positiva. P or e je m p lo :
1
X - = -----Xa

1
X ~ 2=
X2

6. Su p resin o adicin de parntesis. Aqu seguim os la regla


de pro ced er d e d en tro p a ra afuera. Un signo negativo antepuesto
a u n p arn tesis significa que cad a trm ino d en tro del p arn tesis
h a de cam b iar de signo al su p rim irse el parntesis. O s e a :

a (b c ) = ab ac
y

[a (& c ) ] = [a b + c] = a + b c

a [& (c <2)2] = a [fe (c 2 2cd + d2)]


= a - Ib - c2 4- 2cd - d 2]
= a b + c2 2 cd. +

d2

Y en fo rm a anloga, hem os de cam b iar los signos de todas las


can tid ad es que in troduzcam os en u n p arn tesis si ste va prece
dido del signo negativo. As, p u e s :
a b c = a (b + c)
y

a b + c d = (a b) + (c d ) = (& a) (d c)

E m p leo de los signos de sum a total. En estad stica es necesario


con frecuencia servirse de frm ulas que com portan sum as de
n u m ero sas cantidades. A ttulo de sustituto- taquigrfico de la
p lena e sc ritu ra de cada u n a de dichas sum as nos servim os de
la le tra griega 2 (sigm a m ayscula), que indica la sum a total.
A m an era de regla general, siem pre que dicho signo aparece sig
n ifica que to d as las cantidades que figuran a su d erecha h an de
su m arse. E n lu g ar de servim os de letra s to talm en te d istin tas
p a ra cada u n a de las cantidades a su m a r ( v . g r a , b, c, d, e , f , . . . ) ,
p o r lo re g u lar hacem os uso de u n a sola le tra (generalm ente X,
Y o Z ), ju n to con u n subndice i, j o k, que puede to m a r cualquier
valor num rico que deseem os. P or lo regular, aunque no siem
pre, la p rim e ra m a rc a se re p re se n ta r p o r m edio del sm bolo X 1(
la segunda p o r X 2, y as sucesivam ente. Nos servim os, pues, de
2 com o sigue:

2 X i = X t + X 2 + X s + .. . + X N

i= i

Las notaciones a rrib a y abajo de la 2 se em plean p a ra indicar


que i tom a todos los valores sucesivos 1, 2, 3, e tc te ra h asta N.
E n fo rm a anloga, podram os esc rib ir:
2

i= 3

X t = X3 ++ X s + X0+ X 7+ X 8

E n este ltim o caso, los sm bolos nos indican que hem os de adi
cionar las m arcas de las observaciones tres a ocho.
Si seguim os las reglas generales del lgebra, podem os d erivar
c iertas reglas que h an de aplicarse a las sum as totales. La m a

y o ra d e estas reglas se en u n c ia rn con poca o nin g u n a explica


cin, y a que re su lta n obviam ente de la definicin de 2 y de re
glas m uy sencillas del lgebra.

1.

2 Xf = XS + x* + x!? + - + XJ

i= l

2.

2 X iY i = X 1Y 1 + X 2Y 2 + X 3Y 3 + + X NY N
i1

3. 2 (Xi + Yt) =.(x1+ y1) + (x,3+ ya) + - + (x, + y2,)


i1

x2+

= (X j +

+ X N)
+

(^1 + 3^2 + ' ' +

1/

= 2 Xi+ 2 Yi

i~l
i1
V
y
2 ( * , - 7 , ) = S X 2 F j
(vase 3)
<=i
1=1
i=l
ar
N
2 ( X + Y ) ^ 2 w + 2 **7 * + *7 )
i=i
= i
N

y
j
2 2 1 y + 2 Ti2
i=l
i==l

= 2
N
*

2
=1

N
X

f +

2 y 4a.
i=l

Not a: El fa c to r 2 puede po n erse delante del segundo trm ino, lo


N

que d a: 2 2 X tY 4 (vase 6).


6. Si k es u n a co n stan te:
2 k X i kXx + k X 2 + + kXjf
<=i
= k ( X 1 + Xo + + X N) = k 2 X
t= i
7. ( 2 X )2 = (X j -(- X 2 + + Xf )2
.<=i
= X*2 +
+ + Z v2 + 2 X xX 9
+ 2 X ^ 3 + + 2XN_ 1X N
' X 12 + X 2z + + X J
E n otro s t rm in o s : hem os d e d istin g u ir e n tre

S li2
t= i

(2

X)2

=i

E n ocasiones p o d r re su lta r asim ism o conveniente expresar


u n a sum a en trm inos de u n a doble sum a to tal sobre dos ndices
i y /. Cada can tidad a su m ar puede escribirse con un doble SUbAr M
ndice (i/). La cantidad 2 2 X is significa que p rim ero sumai= l/= l
m os el segundo subndice
/ de 1a M,
y
luego, de d en tro a fuer
sum am os i de 1 a N. As, pues:
N

i=l

X ^

j= l

+ X i2 + X i3 + + X iM)

=1

= (-^n +

x 12+

+ X 1M) + (X 21 + X 2 +

+ X-2x) + ' + (X m + X S2 + ' ' ' + X NM).


Y en fo rm a anloga:
I
<=i

(2

X 4,-)2 = 2 (X 41 + X i2 + + X iM)2
i

i=i

Operaciones con nm eros m uy grandes o m uy pequeos. Al


o p erar con nm eros m uy grandes o m uy pequeos, sobre todo
al elevar al cu ad rad o o al ex traer la raz cuadrada, re su lta a m e
nudo conveniente servirse de las potencias d e 10. Toda vez que
101 = 10, 102 = 100, 103 = 1 000, etctera, contando el n m ero de
lugares ya sea a la d erecha o a la izquierda del decim al podem os
escrib ir cu alq uier cifra com o n m ero e n tre 0 y 10 m ultiplicado
p o r u n a d eterm in ad a potencia de 10. As, p o r ejem plo:
13 = 1.3(10) = 1.3

101

138 = 1.38(100) = 1.38

102

1 382 = 1.382( 1 000) = 1.382 X 103

Si querem os elevar al cuadrado la cantidad 1 382, te n d re m o s:


X 3822 x 10e

1 382a = (1.382

103)2 -

1.9099

1 000 000 = 1 909 900

R esulta as m ucho m s fcil colocar el p u n to decim al.


Al ex tra er la raz cuadrada, lo m s sencillo consiste en servirse de p o tencias pares de 10. T oda vez que y l = V 0 F = 10 y
\ /1 0 000 = V IO 4 = 102 = 100 y, en general,
^/O 2k - io
en tan to que

V 1 000 = V 103 = 10\/10

10000 =

v i o 5= o o v i o

vemos q ue re su lta siem pre posible sacar potencias p ares de diez


fu era del radical, en tan to que esto no es as con las potencias
im pares. P o r consiguiente, al ex tra er u n a raz cuadrada, podem os
co n tar el nmero- d e pares de dgitos a d erecha o izquierda del
decim al y ex p resar la cantidad original com o n m ero en tre 1 y
100 m u ltip licado p o r u n a potencia p a r d e 10.
13 = 1.3(10) = 1.3

101

138 = 1.38(100) = 1.38 x 10*


1 382 = 1.382(1 000) = 1.382 x 10^
1 382 461 = 1.382461 x 10

1 3 = 1.3 x 1 0 -1
.13 =
10
1.3

1.3

loo =ToT=L3x I0^


'00M3 = w W = 1 3 x l -

Nmero
1
2
3
4
5
6
7
8
9
10
U
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Cuadrado Raiz'Cuadrade Nmero


1
4
9
16
25
36
49
64
81
100
121
144
169
196
2 25
2 56
2 89
3 24
3 61
4 00
4 41
4 84
5 29
5 76
625
676
7 29
7 84
841
900

1.0000
1.4142
1.7321
2.0000
2.2361
2.4495
2.6458
2.8284
3.0000
3.1623
3.3166
3.4641
3.6056
3.7417
3.8730
4.0000
4.1231
4.2426
4.3589
4.4721
4.5826
4.6904
4.7958
4.8990
6.0000
5.0990
5.1962
5.2915
5.3852
5.4772

3l
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60

Cuadrado RaziCuadrada
9 61
10 24
10 89
1156
12 25
12 96
13 69
14 44
15 21
16 00
16 81
17 64
18 49
19 36
20 25
21 16
22 09
23 04
24 01
25 00

5.5678
5.6569
5.7446
5.8310
5.9161
6.0000
6.0828
6.1644
6.2450
6.3246
6.4031
6.4807
6.5574
6.6332
6.7082
6.7823
6.8557
6.9282
7.0000
7.0711

2601
27 04
2809
2916
3025
3136
32 49
33 64
34 81
3600

7.1414
7.2111
7.2801
7.3485
7.4162
7.4833
7.5498
7.6158
7.6811
7.7460

F u e n t e : H. Sorenson, Statistics for Students Psychology and Education,


McGraw-Hill Book Company, Nueva York, 1936, cuadro 72, pp. 347-359, con
la amable autorizacin del autor.

Nmero
61
62
63
C4
65
66
67
68
69
70
71
72
73
74
75
78
77
78
79
80
81
82
83
84
85
88
87
88
89
90
91
92
93
94
95
S6
97
98
99
100

Cuadrado Raz Cuadrada


37 21
38 44
39 69
40 96
42 25
43 56
44 89
46 24
47 61
49 00
50 41
51 84
53 29
54 78
56 25
57 76
59 29
60 84
62 41
8400
65 81
87 24
88 89
70 56
72 25
73 96
75 69
77 44
79 21
8100
82 81
84 64
88 49
8836
9025
9216
94 09
96 04
9801
100 00

7.8102
7.8740
7.9373
8.0000
8.0623
8.1240
8.1854
8.2402
8.3066
8.3666
8.4261
8.4853
8.5440
8.6023
8.6603
8.7178
8.7750
8.8318
8.8882
8.9443
9.0000
9.0554
9.1104
9.1652
9.2195
9.2736
9.3274
9.3808
9.4340
9.4868
9.5394
9.5917
9.6437
9.6954
9.7468
9.7980
9.8489
9.8995
9.9499
10.0000

Nmero
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
118
117
118
119
120
121
122
123
124
125
128
127
128
129
130
131
132
133
134
135
136
137
138
139
140

Cuadrado Raz Cuadrada


102 01
1 04 04
1 0609
10816
1 10 25
1 12 36
1 14 49
1 16 64
1 18 81
12100
123 21
125 44
127 69
129 96
132 25
134 58
136 89
139 24
141 61
144 00
146 41
148 84
15129
153 78
156 25
158 78
16129
163 84
166 41
169 00
17161
174 24
176 89
179 56
182 25
184 96
187 69
190 44
193 21
19600

10.0499
10.0995
10.1483
10.1980
10.2470
10.2956
10.3441
10.3923
10.4403
10.4881
10.5357
10.5830
10.6301
10.8771
10.7238
10.7703
10.8167
10.8628
10.9087
10.9545
11.0000
11.0454
11.0905
11.1355
11.1803
11.2250
11.2694
11.3137
11.3578
11.4018
11.4455
11.4891
11.5326
11.5758
11.6190
11.6619
11.7047
11.7473
11.7808
11.8322

tO fcO to to co to to to to
M W SO W W W M W W W

151
152
153
154
155
156
157
158
159
160
161
162
163
164
1C5
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180

198 81
2 0164
2 04 49
2 07 36
2 10 25
2 13 16
2 16 09
2 19 04
2 22 01
2 25 00
2 28 01
2 3104
2 34 00
2 37 16
2 40 25
2 43 36
2 46 49
2 49 64
2 52 81
2 56 00
2 59 21
2 62 44
2 65 69
2 68 96
2 72 25
2 75 56
2 78 89
2 $2 24
2 85 61
2 89 00
2 92 41
2 95 84
2 99 29
3 02 76
3 06 25
3 09 76
3 13 29
3 16 84
3 20 41
3 24 00

to to to to O

141
142
143
144
145
146
147
148
149
150

Cuadrado Raz Cuadrada

to to to to

me

11.8743
11.9164
1i .9583
12.0000
12.0416
12.0830
12.1244
12.1655
12:2066
12.2474
12.2582
12 328S
12.3693
12.4097
12.4499
12.4900
12.5300
12.5693
12.6095
12.6491
12.6886
12.7279
12.7671
12.8062
12.8452
12.8841
12.2228
12.9615
13.0000
13.0384
13.0767
13.1149
13.1529
13.1909
13.2288
13.2665
13.3041
13.3417
13.3791
13.4164

Nmero
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
193
199
200
201
202
203
204
205
2)G
207
208
209
210
211
212
213
214
215
216
217
218
219
220

Cuadrado Raz Cuadrada


3 27 61
3 31 24
3 34 89
3 38 56
3 42 25
3 45 96
3 49 69
3 53 44
3 57 21
36100
3 64 81
3 68 64
372 49
3 76 36
3 80 25
3 84 16
3 88 09
3 92 04
3 9601
4 00 00
4 04 01
4 0804
412 09
4 16 16
4 20 25
4 2436
4 28 49
4 32 64
4 36 81
4 41 00
4 45 21
4 49 44
4 53 69
4 57 96
4 62 25
4 66 56
4 70 89
4 75 24
4 79 61
48400

13 4536
13.4907
13.5277
13.5647
13.6015
13.6382
13.67-8
13.7113
13.7477
13.7840
13.8203
13 8564
13 8924
13.9281
13.9642
14.0000
14.0357
14.0712
14.1067
14.1421
14.1774
14.2127
14.2478
14.2829
14.3178
14.3527
14 3875
14.4222
14.4568
14.4914
14.5258
14,5602
14.5945
14.6287
14.6629
14.6969
14.7309
14.7648
14.7986
14.8324

Nmero
221
222
223
224
225
220
227
228
229
230
231
232
233
234
235
236
237
238
230
240
241
242
243
244
245
246
247
248
259
250
251
252
253
254
255
256
257
258
259
260

Cuadrado RaziCuadrada
4 88 41
4 92 84
4 97 29
5 01 76
5 06 25
510 76
515 29
519 84
5 24 41
5 29 00
5 33 61
5 38 24
5 42 89
5 47 56
5 52 25
5 56 96
5 6169
5 66 44
6 71 21
5 76 00
80 81
5 85 64
5 90 49
595 36
60025
6 05 16
61009
615 04
6 20 01
6 2500
6 3001
635 04
6 40 09
6 45 16
650 25
665 36
6 60 49
6 65 64
6 70 81
67600

14.8661
14.8997
14.S332
14.9666
15.0000
15.0333
15.0665
15.0997
15.1327
15.1658
15.1987
15.2315
15.2643
15.2971
15.3297
15.3623
15.3948
15.4272
15.4596
15.4919
15.5242
15.5563
15.5885
15.6205
15.6525
15.6844
15.7162
15.7480
15.7797
15.8114
15.8430
15.8745
15.9060
15.9374
15 9687
16.0000
16.0312
16.0624
16.0935
16.1245

Nmero
261
262
263
264
265
263
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300

Cuadrado Raiz Cuadrada


6 8121
6 86 44
69169
6 96 96
7 02 25
7 07 56
712 89
718 24
7 23 61
.7 29 00
7 34 41
7 39 84
7 45 29
7 5076
7 56 25
7 6176
7 67 29
7 72 84
7 7841
7 84 00
7 89 61
7 95 24
800 89
806 56
812 25
81796
8 23 69
8 29 44
83521
8 4100

16.1555
16.1864
16.2173
16.2481
16.2783
10.3095
16.3401
16.3707
16.4012
16.4317
16.4621
16.4924
16.5227
16.5529
16.6831
16.6132
16.6433
16.6733
16.7033
16.7332
16.7631
16.7929
16.8226
16.8523
16.8819
16.9115
16.9411
16.9706
17.0000
17.0294

846 81
852 64
8 5849
8 64 36
70 25
8 76 16
8 82 09
8 88 04
8 9401
900 00

17.0587
17.0880
17 1172
17.1464
17.1756
17.2047
17.2337
17.2627
17.2916
17.3205

Nmero
.01
302
303
304
305
306
307
303
309
310
311
312
313
314
31o
310
317
318
319
320
321
322
323
324
325
326
327
323
329
330
331
332
333
334
335
336
337
338
339
340

Cuadrado Raz Cuadrada


9 06 01
912 04
91809
9 2416
9 30 25
036 36
9 42 49
948 64
9 54 81
96100
9 6721
973 44
9 79 69
9 85 96
9 92 25
9 98 56
100489
1011 24
IQ 17 61
102400
1030 41
1036 84
10 43 29
10 49 76
1056 25
10 62 76
10 69 29
10 75 84
10 82 41
10 89 00
1095 61
1102 24
1108S9
11 15 56
1122 25
1128 96
11 35 69
11 42 44
1149 21
11 56 00

17.3494
17.3781
17.4069
17.4356
17.4642
17.4929
17,5214
17.5499
17.5784
17.6068
17.6352
17.6635
17.6918
17.7200
17.7482
17.7764
17.8045
17.8326
17.8606
17.8885
17.9165
17.9444
17.9722
13.0000
18.0278
18.0555
18.0831
18.1108
18.1384
18.1659
18.1934
18.2209
18.2483
18.2757
18.3030
18.3303
18.3576
18.3848
18.4120
18.4391

Nmero
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380

Cuadrado Raz Cuadrada


1162 81
1169 64
11 76 49
11S3 36
11 9025
11 97 16
12 04 09
12 11 04
12 18 01
12 25 00
12 32 01
12 39 04
12 46 09
12 5316
12 C0 25
12 67 36
12 74 49
12 81 64
12 8881
12 9600
13 03 21
13 10 44
13 17 69
13 24 96
13 32 25
13 39 56
13 43 89
13 5424
13 61 61
13 69 00
13 76 41
13 83 84
13 91 29
13 98 76
14 05 25
14 13 76
14 21 29
14 28 84
14 36 41
14 44 00

18.4662
18.4932
13.5203
18.5472
18.5742
18.6011
18.6279
18.6548
18.6815
18.7083
18.7350
18.7617
18.7883
18.8149
18.8414
18.8680
18.8944
18.9209
18.9473
18.9737
19.0000
19.0263
19.0526
19.0788
19.1050
19.1311
19.1572
19.1833
19.2091
19.2354
19.2614
19.2873
19.3132
19.3391
19.3649
19.3907
19.4165
19.4422
19.4679
19.4936

Nmero
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420

Cuadrado Raz Cuadrada


14 51 61
14 59 24
1466 89
1474 56
14 82 25
14 89 96
14 97 69
15 05 44
15 13 21
15 2100
15 28 81
15 36 64
15 44 49
15 52 36
15 60 25
15 6816
15 76 09
15 84 04
15 92 01
16 00 00
16 0801
16 16 04
16 2409
16 32 16
16 40 25
16 48 36
10 56 49
16 64 64
16 72 81
16 8100
16 8921
1697 44
17 05 69
17 13 96
17 22 25
17 30 56
17 3889
17 47 24
17 55 61
17 64 00

19.5192
19.5448
19.5704
19.5959
19.6214
19.6469
19.6723
19.6977
19.7231
19.7484
19.7737
19.7990
19.8242
19.8494
19.8746
19 8987
19.9249
19.9499
19.9750
20.0000
20.0250
20.0499
20.0749
20.0998
20.1246
20.1494
20.1742
20.1990
20.2237
20.2485
20.2731
20.2978
20.3224
20.3470
20.3715
20.3961
20.4206
20.4450
20.4695
20.4939

Nmero
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460

Cuadrado Raz Cuadrada


17 72 41
17 80 84
17 89 29
17 97 76
1806 25
18 14 76
1823 29
18 31 84
1840 41
18 49 00
1857 61
186624
18 74 89
18 83 56
18 92 25
19 00 96
19 09 69
1918 44
19 27 21
19 3600
19 44 81
19 53 64
19 62 49
19 71 36
19 80 25
19 89 16
19 98 09
20 07 04
20 16.01
20 25 00
203401
20 43 04
20 52 09
20 6118
20 7025
20 79 36
20 88 49
20 97 64
210681
2116 00

20.5183
20,5426
20.5670
20.5913
20.6155
20.6398
20.6640
20.6882
20.7123
20.7364
20.7605
20.7846
20.8087
20.8327
20.8567
20.8806
20.9045
20.9284
20.9523
20.9762
21.0000
21.0238
21.0476
21.0713
21.0950
21.1187
21.1424
21.1660
21.1896
21.2132
21.2368
21.2603
21.2838
21.3073
21.3307
21.3542
21.3776
21.4009
21.4243
21.4476

Nmero
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500

Cuadrado RaizCuadrada
2125 21
213444
2143 69
2152 96
2162 25
217156
21 8089
219024
219961
22 09 00
22 1841
22 27 84
22 37 29
22 46 76
22 56 25
22 65 76
22 75 29
22 84 84
2294 41
23 0400
2313 61
23 23 24
23 3289
23 42 56
23 52 25
23 61 96
23 71 69
23 8144
23 9121
24 0100
24 10 81
24 20 64
24 30 49
24 40 36
24 50 25
24 60 16
24 70 09
24 80 04
24 90 01
25 00 00

21 4709
21 4942
21.6174
21 5407
21.5639
21.5870
21.6102
21.6333
21.6564
21 6795
21 7025
21 7256
21 7486
21 7715
21 7945
21.8174
21.8403
21.8632
21 8861
21.9089
21.9317
21.9545
21.9773
22.0000
22.0227
22.0454
22 0681
22.0007
22 1133
22.1359
22 1585
22 1811
22.2036
22.2201
22.2486
22.2711
22.2935
22.3159
22 3383
22.3607

Nmero
501
502
503
504
505
606
507
508
509
510
511
512
513
514
515
516
51?
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
510

Cuadrado RaizCuadrada
25 10 01
25 20 04
253009
254016
255025
25 6036
25 70 49
25 80 64
25 9081
260100
261121
25 21 44
26 3169
264196
2652 25
22 62 56
267289
268324
26 9361
270400
2714 41
27 24 84
27 35 29
27 4576
27 5625
27 6676
27 77 29
27 87 84
27 98 41
2809 00
28 19 61
28 3024
28 40 89
28 5156
28 62 25
28 72 96
28 83 6ft
28 94 44
29 0521
29 1000

22.3830
22.4054
22.4277
22.4499
22.4722
22.4944
22.5167
22.5389
22.5610
22.5832
22.6053
22.6274
22.6495
22.6716
22.6936
22,7156
22,7376
22.7596
22.7816
22.8035
22.8254
22:8473
22.8692
22.8910
22.9129
22.9347
22.9565
22.9783
23.0000
23.0217
23.0434
23.0651
23.0868
23.1084
23.1301
23.1517
23.1733
23.1948
23.2164
23.2379

Nmero
541
542
543
544
545
546
547
548
549
550
651
552
553
554
555
556
557
558
559
660
661
562
563
564
565
566
537
668
669
670
671
672
673
674
675
S76
577
578
579
580

Cuadrado Raz Cuadrada


29 26 81
29 37 64
29 48 49
29 59 36
29 70 25
29 81 16
29 92 09
30 03 04
30 14 01
30 25 00

23.2594
23.2809
23.3024
23.3238
23.3452
23.3666
23.3880
23.4094
23 4307
23.4521

30 36 01
30 47 04
30 58 09
306916
30 80 25
30 91 36
31 02 49
3113 64
31 24 81
313600
31 47 21
31 58 44
31 69 69
31 80 96
31 92 25
32 03 56
32 14 89
32 26 24
32 37 61
32 49 00

23.4734
23.4947
23.5160
23.5372
23.5584
23.5797
23.6008
23.6220
23.6432
23.6643
23.6854
23.7065
23.7276
23.7487
23.7697
23.7908
23.8118
23.8328
23.8537
23.8747
23.8956
23.9165
23.9374
23.9583
23.9792
24.0000
24.0208
24.0416
24.0624
24.0832

32 60 41
32 71 84
32 83 29
32 94 76
33 06 25
33 17 76
33 29 29
33 40 84
33 52 41
33 64 00

Nmero
581
582
583
684
585
586
587
588
589
690
691
592
593
594
695
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620

Cuadrado Raz Cuadrada


33 75 61
33 87 24
33 98 89
34 10 56
34 22 25
34 33 96
34 45 69
34 57 44
34 69 21
34 8100
34 92 81
35 04 64
35 1649
3528 36
35 40 25
35 52 16
35 64 09
35 76 04
35 88 01
36 00 00
36 12 01
36 24 04
36 36 09
36 48 16
36 60 25
36 72 36
36 84 49
36 9664
37 08 81
37 21 00
37 3321
37 45 44
37 57 69
37 69 96
37 82 25
37 94 56
3806 89
38 19 24
38 31 61
38 44 00

24.1039
24.1247
24.1454
24.1661
24.1868
24.2074
24.2281
24.2487
24.2693
24.2399
24.3105
24.3311
24.3516
24.3721
24.3926
24.4131
24.4336
24.4540
24.4745
24.4949
24.5153
24.5357
24.5561
24.5764
24.5967
24.6171
24.6374
24.6577
24.6779
24.6982
24.7184
24.7385
24.7588
24.7790
24.7992
24.8193
24.8395
24.8596
24.8797
24.8998

lmei

621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654

Cuadrado Raz Cuadrada Nmero


38 56 41
38 68 84
38 8129
38 93 76
39 06 25
39 1876
39 31 29
39 43 84
39 56 41
39 69 00
39 81 61
39 94 24
4006 89
4019 56
40 32 25
4044 96
4057 69
40 70 44
40 83 21
40 96 00
41 08 81
4121 64
4134 49
41 47 36
416025
41 73 16
41 86 09
41 99 04
42 12 01
42 25 00
423801
42 51 04
42 64 09
42 77 16
42 90 25
43 03 36
43 16 49
4329 64
43 42 81
43 56 00

24.9199
24.9399
24.9600
24.9800
25.0000
25.0200
25.0400
25.0599
25.0799
25.0998
25.1197
25.1396
25.1595
25.1794
25.1992
25.2190
25.2389
25.2587
25.2784
25.2982
25.3180
25.3377
25.3574
25.3772
25.3969
25.4165
25.4362
25.4558
25.4755
25.4951
25.5147
25.5343
25.5539
25.5734
25.5930
25.6125
25.0320
25.6515
25.6710
25.6905

661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
693
697
698
699
700

Cuadrado RazCuadrada
43 69 21
43 82 44
43 95 69
44 08 96
44 22 25
44 35 56
44 48 89
44 62 24
44 75 61
44 89 00
45 02 41
4515 84
4529 29
45 42 76
45 56 25
45 69 76
45 83 29
45 96 84
46 10 41
4624 00
46 37 61
46 51 24
46 64 89
46 78 56
46 92 25
47 05 96
47 19 69
47 33 44
47 47 21
47 6100
47 74 81
47 88 64
48 02 49
48 16 36
48 30 25
48 44 16
48 58 09
48 72 01
48 88 01
49 00 00

25.7099
25.7294
25.7488
25.7682
25.7876
25.8070
25.8263
25.8457
25.8650
25.8844
25.9037
25.9230
25 9422
25.9615
25.9808
26.0000
26 0192
26.0384
26.0576
26.0768
26.0960
26 1151
26.1343
26 1534
26.1725
26 1916
26.2107
26.2298
26.2488
26.2679
26.2869
26.3059
26.3249
26.3439
26.3629
26.3818
26.4008
26 4197
26 4386
26 4575

Nmero
701
702
703
704
705
706
707
708
700
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
73S
739
740

Cuadrado RaizCuadrada
49 14 01
49 2804
49 42 09
49 56 16
49 70 25
49 84 36
49 98 49
50 12 64
50 26 81
50 4100
5055 21
5069 44
5083 69
60 97 96
5112 25
61 2656
51 40 89
51 55 24
51 69 61
518400
51 98 41
52 12 84
62 27 29
62 4176
62 56 25
52 70 76
62 85 29
5299 84
53 14 41
53 2900
53 43 61
63 58 24
53 72 89
53 87 56
54 02 25
54 16 96
54 31 69
54 46 44
54 61 27
54 7600

28.4764
26.4953
26.5141
26.5330
26.5518
26.5707
26.5895
26.6083
26.6271
26.6458
26.6646
26.6833
26.7021
26.7208
26.7395
26.7582
26.7769
26.7955
26.8142
26.8328
26.8514
26.8701
26.8887
26.9072
26.9258
26.9444
26.9629
26.9815
27.0000
27.0185
27.0370
27.0555
27.0740
27.0924
27.1109
27.1293
27.1477
27.1662
27.1846
27.2029

Nmero
741
743
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780

Cuadrado RaizCuadrada
54 90 81
55 05 64
55 20 49
55 35 36
55 50 25
55 65 16
55 80 09
65 95 04
56 1001
56 25 00
56 40 01
56 55 04
56 70 09
66 85 16
57 00 25
57 15 36
57 30 49
57 45 64
57 60 81
57 76 00
57 91 21
58 06 44
58 21 69
58 36 96
58 52 25
68 67 66
58 82 89
58 98 24
59 13 61
59 29 00
59 44 41
59 59 84
59 75 29
59 90 76
60 06 25
60 21 76
60 37 29
60 52 84
60 68 41
60 84 00

27.2213
27.2397
27.2580
27.2764
27.2947
27.3130
27.3313
27.3496
27.3679
27.3861
27.4044
27.4226
27.4408
27.4591
27.4773
27.4955
27.5136
27.5318
27.5500
27.5681
27.5862
27.6043
27.6225
27.6405
27.6586
27.6767
27.6948
27.7128
27.7308
27.7489
27.7669
27.7849
27,8029
27.8209
27.8388
27.8568
27.8747
27.8927
27.9106
27.9285

Nmero
781
782
783
784
785
780
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
800
807
808
809
810
811
812
813
814
815
816
817
818
819
820

Cuadrado RazCuadrada Nmero

Cuadrado RazCuadrada

60 99 61
61 15 24
61 30 89
61 46 56
61 62 25
61 77 96
61 93 09
62 09 44
62 25 21
62 41 00
62 56 81
62 72 64
62 88 49
63 01 36
63 20 25
63 30 16
63 52 09
63 6804
63 84 01
64 00 00
64 1601
64 32 04
64 4809
64 04 16
64 80 25
64 96 36
65 12 49
65 28 64
05 44 81
65 61 00
65 77 21
65 93 44
66 09 69
66 25 96
06 42 25
66 58 56
66 74 89
66 91 24
67 07 61
67 24 00

67 40 41
67 56 84
67 73 29
67 89 76
68 06 25
68 22 76
68 39 29
68 55 84
68 72 41
68 89 00
69 05 61
69 22 24
69 38 89
69 55 56
69 72.25
69 88 96
70 05 69
70 22 44
70 39 21
7056 00
707281
70 89 64
71 06 49
71 23 36
71 40 25
71 57 16
71 74 09
71 91 04
72 08 01
72 25 00
72 42 01
72 59 04
72 76 09
72 93 16
73 10 25
73 27 36
73 44 49
73 61 64
73 78 81
73 96 00

27.9464
27.9643
27.9821
28.0000
28.0179
28.0357
28.0535
28.0713
28.0891
28.1069
28.1247
28.1425
28.1603
28.1780
28.1957
28.2135
28.2312
28.2489
28.2666
28.2843
28.3019
28.3196
28.3373
28.3549
28.3725
28.3901
28.4077
28.4253
28.4429
28.4G05
28.4781
28.4956
28 5132
28.5307
28 5482
28.5657
28.5832
28.6007
28.6082
28.6356

821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
S50
857
858
859
860

28.6531
28.6705
28.6880
28.7054
28.7228
28.7402
28.7576
28.7750
28.7924
28.8097
28.8271
28.8444
28.8617
28.8791
28 8964
28.9137
28.9310
28.9482
28.9655
28.9828
29.0000
29.0172
29.0345
29.0517
29.0689
29.0861
29.1033
29.1204
29.1376
29.1548
291719
29.1890
29.2062
29.2233
29 2404
29 2575
29.2746
29.2916
29.3087
29.3258

Nmero
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
890
897
898
899
900

Cuadrado RaizCuadrada Nmero


7413 21
29.3428
901
74 3044
29.3598
902
744769
29.3769
903
74 6496
29.3939
904
7482 25
29.4109
905
74 99 56
29.4279
906
7516 89
29.4449
907
75 34 24
29.4618
908
75 5161
29.4788
909
75 69 00
29.4958
910
758641
29.5127
911
760384
29.5296
912
762129
29.5466
913
763876
29.5635
914
765625
29.5804
915
76 73 76
29.5973
916
76 9129
29.6142
917
770884
29.6311
918
772641
29.6479
919
774400
29.6648
920
77 6161
29.6816
921
77 7924
29.6985
922
77 96 89
29.7153
923
7814 56
29.7321
924
7832 25
29.7489
925
7849 96
29.7658
926
29.7825
786769
927
78 85 44
29.7993
928
790321
29.8161
929
792100
29.8329
930
79 3881
29.8496
931
79 56 64
29.8664
932
79 74 49
29.8831
933
79 92 36
29.8998
934
29.9166
801025
935
802816
29.9333
936
29.9500
8046 09
937
80 64 04
29.9666
938
80 82 01
29.9833
939
8100 00
30.0000
940

Cuadrado RaizCuadrada.
811801
30.0167
813604
30.0333
30.0500
815409
817216
30.0666
819025
30.0832
820836
30.0993
82 2649
30.1164
824464
30.1330
82 6281
30.1496
828100
30.1662
829921
30.1828
831744
30.1993
8335 69
30.2159
835396
30.2324
83 72 25
30.2490
83 9056
30.2655
840889
30.2820
842724
30.2985
84 45 61
30.3160
84 6400
30.3315
84 82 41
30.3480
85 00 84
30.3645
851929
30.3809
85 37 76
30.3974
855625
30.4138
85 74 76
30.4302
85 93 29
30.4467
861184
30.4331
8630 41
30.4795
86 49 00
30.4959
866761
30.5123
868624
30.5287
87 04 89
30.5450
87 2356
30.5614
8742 25
30.5778
30.5941
87 6096
8779 69
30.6105
87 9844
30.6268
881721
30. (5431
883600
30.6594

C uadro A [ conclusin ]

Nmero

Cuadrado RaizCuadrada

941
942
943
f%
AA
VTB
945
946
947
948
949
960
961
962
963
954
956
950
957
958
959
960

88 54 81
88 73 64
88 92 49
89 11 36
89 3025
89 4916
89 6809
89 8704
90 06 01
902500
9044 01
90 63 04
90 82 09
910116
9120 25
91 39 36
91 5849
91 77 64
91 96 81
92 16 00

961
962
963
964
965
966
967
968
969
970

92 35 21
92 54 44
92 73 69
92 92 96
93 12 25
93 31 56
93 50 89
93 70 24
93 89 61
94 09 00

30.6757
30.6920
30.7083
30.7246
30.7409
30.7571
30.7734
30.7896
30.8058
30.8221
30.8383
30.8545
30.8707
30.8869
30.9031
30.9192
30.9354
30.9516
30.9677
30.9839
31.0000
31.0161
31.0322
31.0483
31.0644
31.0805
31.0966
31.1127
31.1288
31.1448

Nmero
971
972
973
974
976
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000

Cuadrado Rafe Cuadrada


94 28 41
94 47 84
94 67 29
94 8676
9506 25
95 25 76
96 45 29
9564 84
95 84 41
9604 00
96 23 61
96 43 24
96 62 89
96 82 56
97 02 25
97 21 96
97 41 69
97 61 44
97 81 21
98 0100
98 20 81
98 40 64
98 60 49
98 80 36
99 00 25
99 20 16
99 40 09
99 60 04
99 80 01
100 00 00

31.1609
31.1769
31.1929
31.2090
31.2250
8JL.2410
31.2570
31.2730
31.2890
31.3050
31.3209
31.3369
31.3528
31.3688
31.3847
31.4006
31.4166
31.4325
31.4484
31.4643
31.4802
31.4960
31.5119
31.5278
31.5436
31.5595
31.5753
31.5911
31.6070
31.6228

10 09 73 25 33 76 52 01 86 34 67 35 48 76 80 95 00 91 17 39 29 27 49 45
37 54 20 48 05 64 89 47 42 96 24 80 52 40 37 20 63 61 04 02 00 82 29 16 65
08 42 26 89 53 19 64 50 93 03 23 20 90 25 60 15 95 33 47 64 35 08 03 3606
99 01 90 25 29 09 37 67 07 15 38 31 13 11 65 88 67 67 43 97 04 43 62 76 59
12 80 79 99 70 80 15 73 61 47 64 03 23 66 53 98 95 11 68 77 12 17 17 68 33
6 06 57 47 17 34 07 27 68 50 36 69 73 61 70 65 81 33 98 85 11 19 92 91 70
31 06 01 08 05 45 57 18 24 06 35 30 34 26 14 86 79 90 74 39 23 40 30 97 32
85 26 97 76 02 02 05 16 53 92 68 66 57 48 18 73 05 38 52 47 18 62 38 85 79
63 57 33 21 35 05 32 54 70 48 90 55 35 75 48 28 46 82 87 09 83 49 12 56 24
73 79 64 57 53 03 52 96 47 78 35 80 83 42 82 60 93 52 03 44 35 27 38 84 35
98 52 01 77 67 14 90 56 86 07 22 10 94 05 58 60 97 09 34 33 50 50 07 39 98
11 80 50 54 31 39 80 82 77 32 50 72 56 82 48 29 40 52 42 01 52 77 56 78 51
83 45 29 96 34 06 28 89 80 83 13 74 67 00 78 18 47 54 06 10 68 71 17 78 17
88 @8 54 02 00 86 50 75 84 01 36 76 66 79 51 90 36 47 64 93 29 60 91 10 62
99 59 46 73 48 87 51 76 49 69 91 82 60 89 28 93 78 56 13 68 23 47 83 41 13
65 48 11 76 74 17 46 85 09 50 58 04 77 69 74 73 03 95 71 86 40 21 81 65 44
80 12 43 56 35 17 72 70 80 15 45 31 82 23 74 21 11 57 82 53 14 38 55 37 63
74 35 09 98 17 77 40 27 72 14 43 23 60 02 10 45 52 16 42 37 96 28 60 26 55
69 91 62 68 03 66 25 22 91 48 36 93 68 72 03 76 62 11 39 90 94 40 05 64 18
09 89 32 05 05 14 22 56 85 14 45 42 75 67 88 96 29 77 88 22 54 38 21 45 98
91 49 91 45 23 63 47 92 76 86 46 16 28 35 54 84 75 08 99 23 37 08 92 00 4S
80 33 69 45 98 26 94 03 68 58 70 29 73 41 35 53 14 03 33 40 42 05 08 23 41
44 10 48 19 49 85 15 74 79 54 32 97 92 65 75 57 60 04 08 81 22 22 20 64 13
12 55 07 37 42 11 10 00 20 40 12 86 07 46 97 96 64 48 94 39 28 70 72 58 15
63 60 64 93 29 16 50 53 44 84 40 21 95 25 63 43 65 17 70 82 07 20 73 17 90
61 19 69 04 46 26 45 74 77 74 51 92 43 37 29 65 39 45 95 93 42 58 26 05 27
15 47 44 52 66 95 27 07 99 53 59 36 78 38 48 82 39 61 01 18 33 21 15 94 66
94 55 72 85 73 67 89 75 43 87 54 62 24 44 31 91 19 04 25 92 92 92 74 59 73
42 48 11 62 13 97 34 40 87 21 16 86 84 87 67 03 07 11 20 59 25 70 14 66 70
23 52 37 83 17 73 20 88 98 37 68 93 59 14 16 26 25 22 96 63 05 52 28 25 62
04 49 35 24 94 75 24 63 38 24 45 86 25 10 25 61 96 27 93 35 65 33 71 24 72
00 54 99 76 54 64 05 18 81 59 96 11 96 38 96 54 69 28 23 91 23 28 72 95 29
35 96 31 53 07 26 89 80 93 54 33 35 13 54 62 77 97 45 00 24 90 10 33 93 33
59 80 80 83 91 45 42 72 68 42 83 60 94 97 00 13 02 12 48 92 78 56 52 01 06
46 05 88 52 36 01 39 09 22 86 77 28 14 40 77 93 91 08 36 47 70 61 74 29 41
32 17 90 05 97 87 37 92 52 41 05 56 70 70 07 86 74 31 71 57 85 39 41 18 33
69 23 46 14 06 20 11 74 52 04 15 95 66 00 00 18 74 39 24 23 97 11 89 63 38
19 56 54 14 30 01 75 87 53 79 40 41 92 15 85 66 67 43 68 06 84 96 28 52 07
45 15 51 49 38 19 47 60 72 46 43 66 79 45 43 59 04 79 00 33 20 82 66 95 41
94 86 43 19 94 36 16 81 08 51 34 88 88 15 53 01 54 03 54 56 05 01 45 11 76
F u e n t e : The Rand Corporation, A Million Random Digits, Free Press,
Glencoe, 111., 1955, pp. 1-3, con la amable autorizacin del editor.

98 08 62 48 26
33 18 51 62 32
80 95 10 04 06
79 75 24 91 40
18 63 33 25 37
74 02 94 39 02
64 17 84 56 11
11 66 44 98 83
48 32 47 79 28
69 07 49 41 38
09 18 82 00 97
90 04 58 54 97
73 18 95 02 07
75 76 87 64 90
54 01 64 40 56
08 35 86 99 10
28 30 60 32 64
63 84 08 62 33
91 75 75 37 41
89 41 69 26 94
77 51 30 38 20
19 60 23 71 74
21 81 85 93 13
61 47 46 64 99
99 65 96 83 31
33 71 34 80 07
85 27 48 68 93
84 13 38 96 40
56 73 21 62 34
65 13 85 68 06
38 00 10 21 76
37 40 29 63 97
97 12 54 03 48
21 82 64 11 34
73 13 64 27 42
07 63 87 79 29
60 52 88 34 41
83 59 63 56 55
10 85 06 27 46
39 82 09 89 62

45 24 02 84 04
41 94 15 09 49
96 38 27 07 74
71 96 12 82 96
98 14 50 65 71
77 65 73 22 70
80 99 33 71 43
62 07 98 48 27
31 24 96 47 10
87 63 79 19 73
32 82 53 95 27
51 98 15 06 54
47 67 72 52 69
20 97 18 17 49
66 28 13 10 03
78 54 24 27 85
81 33 31 05 91
81 59 41 36 28
61 61 36 22 69
00 39 75 83 91
86 83 42 99 01
69 97 92 02 88
93 27 88 17 67
68 10 72 36 21
62 53 52 41 70
93 68 47 28 69
11 30 32 92 70
44 03 65 21 66
17 39 59 61 31
87 64 83 62 61
81 71 91 17 11
01 30 47 75 86
87 08 33 14 17
47 14 33 40 72
95 71 90 90 35
03 06 U 80 72
07 95 41 98 14
06 95 89 29 83
99 59 91 05 07
43 2 26 31 47

44 99 90 88 96
89 43 54 85 81
20 15 12 33 87
69 88 10 25 91
31 01 02 43 74
97 79 01 71 19
05 33 51 29 69
59 38 17 15 39
02 29 53 68 70
35 58 40 44 01
04 22 08 63 04
94 93 88 19 97
62 29 06 44 64
90 42 91 22 72
00 68 22 73 98
13 66 15 88 73
40 51 00 78 93
51 21 69 02 90
50 23 39 02 12
12 60 71 76 46
68 41 48 27 74
65 21 02 97 73
05 68 67 31 66
94 04 99 13 46
69 77 71 23 30
51 92 66 47 21
28 83 43 41 37
73 85 27 00 91
10 12 39 13 22
34 31 38 68 61
71 60 29 29 37
66 27 11 00 86
21 81 63 92 60
64 63 88 69 02
86 79 47 42 88
96 20 74 41 53
59 17 52 08 95
05 12 80 97 19
13 49 90 63 19
64 42 18 08 14

39 09 47 34 07
83 69 54 19 94
25 01 62 52 98
74 85 22 05 39
05 45 56 14 27
62 52 75 80 21
66 12 71 92 55
09 97 33 34 40
32 30 75 75 46
10 51 82 16 15
83 38 8 73 74
91 87 07 61 50
27 12 46 70 13
95 37 50 58 71
20 71 46 32 95
04 61 89 75 63
32 60 46 04 75
28 46 66 87 95
55 78 17 66 .14
48 94 97 23 06
61 00 81 39 0)
74 28 77 52 51
07 08 28 60 46
42 83 60 91 91
74 81 97 81 42
68 30 32 98 22
73 51 59 04 00
61 22 26 05 61
86 49 65 75 60
46 87 62 10 69
74 21 06 40 49
47 32 46 26 06
75 23 76 20 47
49 13 90 64 41
08 78 98 81 66
23 82 19 96 38
05 53 35 21 39
77 43 35 37 83
63 07 57 18 39
43 80 00 93 61

35 44 13 18 80
37 54 87 30 43
94 62 46 11 71
00 38 75 95 79
77 93 89 19 33
80 81 45 17 48
36 04 09 03 24
88 46 12 33 56
15 02 00 99 94
01 84 87 69 38
64 27 85 80 44
68 47 66 46 69
41 36 18 27 60
-93 82 34 31 78
07 70 61 78 13
31 22 30 84 20
94 11 90 18 40
77 76 22 07 91
83 48 34 70 55
94 64 13 74 08
72 89 35 56 07
65 34 43 74 15
31 85 33 84 52
08 00 74 64 40
43 86 07 28 34
3 17 49 39 72
71 14 84 36 43
62 32 71 84 23
81 60 41 88 80
86 64 44 72 77
65 68 44 96 98
40 03 03 74 38
16 60 12 95 78
03 85 66 45 52
64 39 11 92 02
04 71 38 69 94
61 21 20 64 55
92 30 15 04 98
06 41 01 93 62
31 02 47 31 67

CUADROS
C uadro B [ continuacin ]
59 68 00 04 78 75 66 87 88 00
33 50 80 73 41 23 79 34 87 63
30 69 27 06 63 94 68 81 61 37
85 44 39 66 69 18 28 83 74 37
27 20 76 02 84 13 19 27 22 94

88 33 5S 44 86
CO 82 29 70 22
56 19 68 00 91
48 83 22 40 41
07 47 74 40 08

23 76 SO 61 50
17 71 90 42 07
82 06 70 34 00
08 33 70 66 70
en9 11
17 98 64 9

04 11 10 84 08
96 95 44 99 53
06 46 26 92 00
96 29 99 08 36
97 34 13 03 68

32 42 10 38 69 95 37 28
31 80 22 62 12 69 84 08
62 45 Si 35 70 00 47 54
27 80 01 11 88 30 95 23
03 37 12 Si 34 23 78 21

28 82 53 67 93
12 84 38 26 90
83 82 45 26 92
63 01 19 89 01
83 32 68 08 51

28 97 66 62 52
09 81 69 31 46
64 13 05 61 60
14 97 44 03 44
43 66 77 08 83

1 30 70
m 43 49
48 SO 81
06 91 34
10 46 61

68 O
46 88
58 77
61 97
60 19

12 88 39
21 77 83
19 52 35
67 24 66
60 68 44

73
09
95
26
73

80 73
12 25
58 31
60 03

69 61
96 59
65 63
79 92

31 64 94 20 93
83 28 36 82 58
79 24 68 68 86
45 13 43 68 29

63 28 10 20 23
09 67 21 37 98
76 46 33 42 22
26 76 08 86 37

03 81 64 74 49
16 43 59 16 29
26 66 69 08 02
41 32 64 43 44

68 86 34
24 63 73
83 08 01
16 44 42
00 79 01

13 77 36 00 69
87 36 74 38 48
24 51 38 99 22
43 34 36 16 10
81 67 67 17 86

48 60
03 42
28 16
90 73
57 02

68 83 87 38 69
62 62 30 79 92
07 78 96 17 77
27 49 37 09 39
11 16 17 86 76

49 36 47 33 81
12 30 91 86 01
97 37 72 75 85
85 13 03 26 62
45 81 96 29 79

96 24 04 36 42
03 74 28 38 73
61 97 23 78 67
64 84 66 47 69
66 13 00 48 60

71
88
05
81
61

61 68 94
05 97 80
24 02 16
90 68 31
03 69 06

66 08 32 46 63
08 36 66 08 60
55 12 12 92 81
00 91 19 89 36
14 06 04 08 19

84 60 05 82 32
29 73 54 77 62
69 07 60 79 36
76 35 69 37 79
29 64 96 96 16

88 61 81 91 61
71 29 92 38 63
27 95 46 89 09
80 86 30 05 14
33 66 46 07 80

66 91 27 09
02 31 92 90
17 04 10 27
75 99 76 80
33 70 85 78

90 04 94
20 17 73
41 22 02
72 07 17
34 70 19

14 84 64 66 72
41 83 95 63 82
39 68 62 33 09
74 41 66 31 66
63 16 26 74 33

01 96 87 71 00
17 26 77 09 43
10 06 10 88 29
36 20 83 33 74
35 66 36 29 72

90 89 97 67 64
78 03 87 02 67
66 98 66 64 86
87 63 90 88 23
16 81 86 03 11

36 07 63 30 40
60 62 33 44 42
30 40 98 32 32
67 02 6 26 06
07 39 03 74 08

42 61 42 92 07
34 99 44 13 74
09 38 64 16 00
66 49 76 86 46
4$ 60 92 39 29

01 91 82 83 16
70 07 11 47 36
U 13 30 76 86
78 13 m 66 69
27 48 24 64 76

98 95 37 32 31
09 95 81 80 66
16 91 70 62 63
19 64 09 94 13
86 24 43 61 69

03 99
38 65
17 54
32 64
69 67
24
61
30
03
48

11
59
07
35
26

12 26
19 63
63 22
78 89
22 86

60 36 69
83 79 94
32 96 00
10 32 25
ti 22 09

19 07
84 47
64 74
42 67
14 21

43 65 02 70 11 84 04 23 60 13 92 17 97 41 60 77 90 71 22 67 69
76
15
70
77

38
65
35
07

04 61 93
55 64 32
37 04 92
23 61 96
87 77 39

40 63
24 02
74 06
38 45
47 47

31 76 !S 72 00
88 49 20 93 82
30 03 44 77 44
22 38 84 88 m
78 21 21 09 03

08 08 00 63 39 16 47 04 83 66 88 66 12 26 96 03 15 21 92 21
14 46 40 46 04
07 48 18 38 28
27 49 00 87 48
36 00 20 13 86

20 09 49 89 77
73 78 80 65 33
60 63 04 61 28
44 37 21 64 89

74 84 39 34 13
28 69 78 04 05
74 02 28 46 17
66 74 11 40 14

22 10 97 85 08
94 20 62 03 80
82 03 71 02 68
87 48 13 72 20

41 84 1)8 45 47
40 35 23 30 49
i i 08 79 62 94
62 70 10 83 37
7 27 53 68 93
20 83 77 31 6
16 63 38 49 24
92 69 44 82 97
77 61 31 SO 19
88 63 83 24 80
25 18 30 18 89
SS 23 10 76 29
SS 81 54 36 25
64 39 71 16 92
04 51 62 56 24
83 76 16 08 73
14 33 70 63 45
51 32 19 22 46
72 47 20 00 08
06 49 65 63 06
39 62 87 24 84
81 01 61 87 11
07 63 61 61 20
90 n 70 42 35
40 13 82 81 93
34 41 43 21 67
63 43 97 53 63
67 04 90 90 70
76 49 0 41 46
01 70 43 05 52

48 85 05 23 26
69 24 89 34 60
14 01 33 17 92
56 30 38 73 15
81 30 44 85 85
70 28 42 43 26
90 41 59 36 14
39 90 40 21 15
88 15 20 00 80
45 13 46 35 45
70 01 41 50 21
37 23 93 32 95
18 63 73 75 09
05 32 78 21 62
95 09 66 79 40
43 25 38 41 45
80 85 40 92 79
80 08 87 70 74
80 se 01 SO02
93 12 81 84 64
82 47 42 55 93
53 34 24 42 76
82 64 12 28 20
13 57 41 72 00
29 59 38 86 27
86 88 75 50 87
44 98 91 68 22
93 39 94 55 47
52 16 29 02 86
04 73 72 10 31

34 67 75 83 00
45 30 50 75 21
59 74 76 72 77
56 52 06 06 76
68 65 22 73 76
79 37 69 52 20
33 52 12 66 65
59 58 94 90 67
20 55 49 14 09
59 40 47 20 59
41 29 06 73 12
05 87 00 11 19
82 44 49 90 05
20 24 78 17 59
43 46 08 55 58
60 83 32 59 83
43 52 90 63 18
88 72 25 67 36
94 81 33 19 00
74 45 79 05 61
48 54 53 52 47
75 12 21 17 24
92 90 41 31 41
69 90 26 37 42
94 97 21 15 98
19 15 20 00 23
36 02 40 09 67
94 45 87 42 84
54 15 83 42 43
75 05 19 30 29

74 91 06 43 45
61 31 83 18 55
76 50 33 45 13
11 65 49 98 93
92 85 25 58 66
01 15 96 32 67
55 82 34 76 41
66 82 14 15 75
96 27 74 82 57
43 94 75 16 80
71 85 71 59 57
92 78 42 63 40
04 92 17 37 01
45 19 72 53 32
15 19 11 87 82
01 29 14 13 49
38 38 47 47 61
63 16 44 94 31
54 15 58 34 36
72 84 81 18 34
18 61 91 36 74
74 62 77 37 07
32 39 21 97 63
78 46 42 25 01
62 09 53 67 87
12 30 28 07 83
76 37 84 16 05
05 04 14 98 07
46 97 83 54 82
47 66 56 43 82

19 32 58 15 49
14 41 37 09 51
39 66 37 75 44
02 18 16 81 61
88 44 80 35 84
10 62 24 83 91
86 22 53 17 04
49 76 70 40 37
50 81 69 76 16
43 85 25 96 93
58 97 11 14 03
13 47 76 56 22
14 70 79 39 97
83 74 52 25 67
16 93 03 33 61
20 36 80 71 20
41 19 63 74 80
66 91 93 16 78
35 35 25 41 31
79 98 20 84 16
18 61 U 92 41
58 31 91 59 97
61 19 96 79 40
18 62 79 08 72
00 44 15 89 97
32 62 46 86 91
65 96 17 34 88
20 28 83 40 60
59 36 29 59 38
99 78 29 34 78

Fracciones del rea total (10 000) bajo la curva normal, correspondientes a
distancias entre la media y las ordenadas situadas a Z unidades de desvia
cin estndar de la media.

.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
4.5
5.0

0000
0398
0793
1179
1554
1915
2257
2580
2881
3159
3413
3643
3349
4032
4192
4332
4452
4554
4641
4713
4773
4821
4861
4893
4918
4938
4953
4965
4974
49S1
4988.5
4990.0
4993.129
4995.166
4996.631
4997.674
4998.409
4998.922
4999.277
4999.519
4999.G83
4999.966
4999.997133

0040
0438
0832
1217
1591
1950
2291
2612
2910
3186
3438
3665
3869
4049
4207
4345
4463
4564
4649
4719
4778
4826
4865
4896
4920
4940
4955
4960
4975
4982
4987
4991

0089
0478
0871
1255
1628
1985
2324
2642
2939
3212
3461
3686
3888
4066
4222
4357
4474
4573
4656
4726
4783
4830
4868
4898
4922
4941
456
.4067
4976
4983
4987
4991

0120
0517
0910
1293
1684
2018
2357
2673
2967
3238
3485
3713
3907
4083
4236
4370
4485
4582
4664
4732
4788
4834
4871
4901
4925
4943
4957
4968
4977
4984
4988
4991

0159
0557
0948
1331
1700
2054
2389
2704
2995
3264
3508
3729
3925
4099
4251
4382
4495
4591
4671
4738
4793
4838
4875
4904
4927
4945
4959
4969
4977
4984
4988
4992

0199
0596
0987
1368
1738
2088
2422
2734
3023
3289
3531
3749
3944
4115
4265
4394
4505
4599
4678
4744
4798
4842
4878
4906
4929
4946
4960
4970
4978
4984
4988
4992

0239
0633
1026
1406
1772
2123
2454
2764
3051
3315
3554
3770
3962
4131
4279
4406
4515
4608
4686
4750
4803
4846
4881
4909
4931
4948
4961
4971
4979
4985
4989
4992

0279
0675
1064
1443
1808
2157
2486
2794
3078
3340
3577
3790
3980
4147
4292
4418
4525
4616
4693
4768
4808
4850
4884
4911
4932
4949
4962
4972
4980
4985
4989
4992

0319
0714
1103
1480
1844
2190
2518
2823
3103
3365
3599
3810
3997
4162
4306
4430
4535
4625
4699
4762
4812
4854
4887
4913
4934
4951
4963
4973
4980
4986
4989
4993

0359
0753
1141
1517
1879
2224
2549
2852
3133
3389
8621
3830
4015
4177
4319
4441
4545
4833
4706
4767
4817
4857
4890
4916
4936
4952
49G4
4974
4981
4986
4990
4993

Fuente : Harold O. Rugg, Statistical Methods Applied to Educaticm, Houghton Mifflin Company, Boston, 1917, apndice al cuadro III, pp. 389-390, con
la amable autorizacin del editor.

Cuadro D. D istribucin de t
Nivel de significacin para la prueba de una sola cola
.01
.005
.0005
.05
.025
.10
OI
Nivel de significacin para la prueba de dos colas
.02
.001
.01
.10
.20
.05
31.821
63.657
636.619
6.314
12.706
1
3.078
6.965
9.925
31.598
2
2.920
4.303
1.886
4.541
5.841
12.941
2.353
3.182
3
1.638
3.747
4.604
8.610
2.132
4
2.776
1.533
4.032
2.571
6.859
3.365
5
1.476
2.015
3.707
3.143
1.943
2.447
5.959
6
1.440
3.493
2.898
5.405
7
1.415
1.895
2.365
5.041
2.896
3.355
1.860
2.306
8
1.397
2.821
2.262
3.250
4.781
1.833
9
1.383
2.764
3.169
4.587
10
1.372
1.812
2.228
2.718
3.106
4.437
1.796
2.201
11
1.363
2.681
4.318
12
1.782
2.179
3.055
1.356
3.012
2.659
4.221
1.771
2.160
13
1.350
2.624
2.977
4.140
14
1.761
2.145
1.345
2.602
2.947
4.073
1.341
1.753
2.131
15
2.583
2.921
1.746
2.120
4.015
1.337
16
2.567
2.898
1.740
3.085
17
1.333
2.110
2.552
2.878
3.922
.734
2.101
18
1.330
1.729
2.539
2.861
3.883
2.093
19
1.328
2.845
1.725
2.086
2.528
3.850
20
1.325
2.831
1.721
2.080
2.518
3.819
21
1.323
3.792
2.508
2.819
22
1 321
1.717
2.074
3.767
1.714
2.500
2.807
23
2.069
1.319
2.492
1.711
2.064
2.797
3.745
24
1.318
2.787
2.485
3.725
25
1.708
2.060
1.316
2.479
2.779
3.707
1.706
2.056
26
1.315
3.690
1.703
2.052
2.473
2.771
27
1.314
2.467
2 >83
3.674
1.701
28
2.048
1.313
2.462
2.756
29
1.699
3.659
1.311
2.045
2.457
2.750
3.646
30
1.697
2.042
1.310
2.423
2.704
40
1.684
2.021
1.303
3.551
60
2.390
2.660
3.460
1.296
1.671
2.000
120
2.358
2.617
3.373
1.658
1.980
1.289
oo
2.326
2.576 eazsF.SEewHmix-scr
1.282
1.660
3.291*.
1.645
Fuente: El cuadro D es una abreviacin del cuadro III de Statistical
Tables for Biological, Agricultural and Medical Research (ed. 1948), de R. A.
Fisher y F. Yates; publicada por Oliver & Boyd, Ltd., Edimburgo y Lon
dres, con la autorizacin de los autores y editores.

Cuadro E .

Valores crticos de r en la prueba de las


secuencias P = .05

En la prueba de las secuencias de las muestras, cualquier valor de r igual


o menor que el que figura en el cuerpo del cuadro es significativo al nivel
de .05 con direccin no anticipada, o al nivel .025 con direccin anticipada.

4
6
6
7
8
9
10
11
12
13
14
15
16
17

18
19
20

2
2
2
2
3
2
2
2

2
2
2
2
2
3
3
3
3
3
3

2 3
2 3
2 3
O
2 O

2 O

4
2
2
3
3
3
3
3
3
4
4
4

3
3
3
3
4
4
4
4
4
5
S
5
5
5

3
4
4
4
5
5
5
5
5
6
6
0

4
4
5
5
6
6
6
6
6
6
7

5
5
6
6
6
6
7
7
7

9 10 11

6
6
6
7
7
W
ff
8
8
7 8

6
7
7
8
8
8
8
9

4
4
4
4
6 7 8 8 9
4 5 6 7 8 8 9
4 5 S 7 8 9 9

12

13

14 -15 16

7
8
S
8
9
9
8
9
9 10
9
e 10 10
9 10 10 11
9 10 10 11
10 10 11 11
10 10 11 12
10 11 31 12

11
11
11

11
12

17

18

19 20

12

12 12 13 13
12 13 13 14 14
12 13 13 14 14 15

F u e n t e : F. S. Swed y C. Eisenhart, "Tables for Testing Randomness of


Grouping in a Sequence of Alternatives, Annals of Mathematical Statistics,
vol. 14, pp. 83-86, 1943, con la amable autorizacin de los autores y el editor.

Cuadro F.

Cuadro de probabilidades asociadas a valores tan pe


queos com o los valores observados de U en la prueba de MannW hitney ( con direccin anticipada) *

a 3
2
i
0
1
2
3
4
5

Nt
2

0
3
2
3
4
6
8
7
8
9
10
11
12
13

.167
.333
.600
.667

.047
.095
.190
.286
.429
.571

JV3

.250 .100 .050


.500 .200 .100
.750 .400 .200
.600 .350
.500
.650

** 5
3
.018
.036
.071
.125
.196
.286
.393
.500
.607

.008
.016
.032
.056
.095
.143
.206
.278
.365
452
.548

.004
.008
.016
.028
.048
.075
.111
.155
.210
.274
.345
.421
.500
.579

1
0
1
2
3
4
5
6
7
8

Xj
0
i
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

.200 .067 .028 .014


.400 .133 .057 .029
.600 .267 .114 .057
.400 .200 .100
.600 .314 .171
.429 .243
.571 .343
.443
.557
1
.143
.286
.428
.571

N'i = 6
2
3
.036
.071
.143
.214
.321
.429
.571

.012
.024
.048
.083
.131
.190
.274
.357
.452
.548

.005
.010
.019
.033
.057
.086
.129
.176
.238
.305
.381
.457
.545

.002
.004
.009
.015
.026
.041
.063
.089
.123
.165
.214
.268
.331
.396
.465
.535

.001
.002
.004
.008
.013
.021
.032
.047
.066
.090
.120
155
.197
.242
.294
.350
.409
.469
.531

F u e n t e : H. B. Mann y D. R. Whitney, "On a Test of Whether One of


Two Random Variables is Stochastically Larger than the Other, Annals
of Mathematical Statistics, vol. 18, pp. 52-54, 1947, con la amable autorizacin
de los autores y el editor.
* Si ]a direccin no ha sido anticipada se duplicarn las probabilidades.

Cuadro

F [continuacin ]
Ns = 7

NJVi
U\

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

.125
250
.375
.500
.625

.028
.056
.111
.167
.250
.333
.444
.556

.008
017
.033
.058
.092
.133
.192
.253
.333
.417
.500
.583

.003
.006
.012
.021
.036
.055
.082
.115
.158
.206
.264
.324
.394
.464
.538

.COI
.003'
.005
.009
.015
.024
.037
.053
.074
101
.134
.172
.216
.265
.319
.378
.438
.500
.562

.001
.001
.002
.004
.007
.011
.017
.026
.037
.051
.069
.090
.117
147
.183
.223
.267
.314
.365
.418
.473
.527

.000
001
.001
.002
.003
.006
.009
.013
.019
.027
.036
.049
.064
.082
.104
.130
.159
.191
.228
.267
.310
.355
.402
.451
.500
.649

CUADROS

Cuadro

F [conclusin]
N2 = 8

V /.
u\

0
i
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

1
.111
.222
.333
.444
.656

2
.022
.044
.089
.133
.200
.267
356
.444
.656

3
.006
.012
.024
.042
.067
.097
.139
.188
.248
.315
.387
.461
.639

4
.002
.004
.008
.014
.024
.036
.055
.077
.107
.141
.184
.230
.285
.341
.404
.467
.633

5
.001
.002
.003
.005
.009
.015
.023
.033
.047
.064
.085
.111
142
177
.217
.262
.311
.362
.416
.472
.528

.000
.001
.001
.002
.004
.006
.010
.015
.021
.030
.041
.054
.071
.091
.114
.141
.172
.207
.245
.286
.331
.377
.426
.475
.525

.000
.000
.001
.001
.002
.003
.005
.007
.010
.014
.020
.027
.036
.047
.060
.076
.095
.116
.140
.168
.198
.232
.268
.306
.347
.389
.433
.478
.622

.000
.000
.000
.001
.001
.001
.002
.003
.005
.007
.010
.014
.019
.025
.032
.041
.052
.065
.080
.097
.117
.139
.164
.191
.221
.253
.287
.323
.360
.399
.439
.480
.520

Cuadro

G. Cuadro de valores crticos de U en la prueba


de M ann-W hitney

Valores crticos de

a a = .001 con direccin anticipada, o a a = -002


c.on direccin sin anticipar.

\JV 9 10 11 12 13 14 15 16 17 18 19 20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

1
2
3
S
7
8
10
12
14
15
17
19
21
23
25
26

0
1
3
5
6
8
10
12
14
17
19
21
23
25
27
29
32

0
2
4
6
8
10
12
15
17
20
22
24
27
29
32
34
37

0
2
4
7
9
12
14
17
20
23
25
28
31
34
37
40
42

1
3
5
8
11
14
17
20
23
26
29
32
35
38
42
45
48

1
3
6
9
12
15
19
22
25
29
32
36
39
43
46
50
54

1
4
7
10
14
17
21
24
28
32
36
40
43
47
51
55
59

2
6
8
11
15
19
23
27
31
35
39
43
48
52
56
60
65

0
2
5
9
13
17
21
25
29
34
38
43
47
52
57
61
66
70

0
3
6
10
14
18
23
27
32
37
42
46
51
56
61
66
71
76

0
3
7
11
15
20
25
29
34
40
45
50
55
60
66
71
77
82

0
3
7
12
16
21
26
32
37
42
48
54
59
65
70
76
82
88

D. Auble, Extended Tables for the Mann-Whitney Statistics,


vol.
1, nm. 2, cuadros 1, 3, 5 y 7, 1953, con la amable autorizacin del editor;
tal como ha sido adaptada por S. Siegel, en Nonparametric Statistics, McGraw-Hill Book Company, Nueva York, 1956, cuadro K.
Fuente:

Bulletin of the Institute of Educational Research at Indiana University,

VAT,
v ,\ 9
1
2
3
4
5
6
7
8
9
10
IX
12
13
14
15
16
17
18
19
20

1
3
5
7
9
11
14
16
1S
21
23
26
28
31
33
36
38
40

10 11 12 13 14 15 16 17

1
3
6
8
11
13
16
19
22
24
27
30
33
36
38
41
44
47

1
4
7
9
12
15
18
22
25
28
31
34
37
41
44
47
50
53

2
5
S
11
14
17
21
24
28
31
35
38
42
46
49
53
56
60

0
2
5
9
12
16
20
23
27
31
35
39
43
47
51
55
59
63
67

0
2
6
10
13
17
22
26
30
34
38
43
47
51
56
60
65
69
73

0
3
7
11
15
19
24
28
33
37
42
47
51
56
61
66
70
75
80

0
3
7
12
16
21
26
31
36
41
46
51
56
61
66
71
76
82
87

18

19

20

1
0
0
1
4
4
4
5
9 10
8
9
13 14 15 16
18 19 20 22
23 24 26 28
28 30 32 34
33 36 38 40
38 41 44 47
44 47 SO 53
49 83 56 60
55 59 63 67
60 65 69 73
66 70 75 80
71 76 82 87
77 82 88 93
82 88 94 100
88 94 101 107
93 100 107 114

ViV, 9 10 11 12 13 14 15 16 17 18

19 20

i
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

2
7
13
19
25
32
38
45
52
58
65
72
78
85
92
99
106
113
119

VN

0
2
4
7
10
12
15
17
20
23
26
28
31
34
37
39
42
45
48

0
3
5
8
11
14
17
20
23
26
29
33
36
39
42
45
48
52
55

0
3
6
9
13
16
19
23
26
30
33
37
40
44
47
51
55
58
62

1
4
7
11
14
18
22
26
29
33
37
41
45
49
53
57
61
65
09

1
4
8
12
16
20
24
28
33
37
41
45
50
54
59
63
67
72
76

1
5
9
13
17
22
26
31
36
40
45
60
55
59
64
67
74
78
83

1
5
10
14
19
24
29
34
39
44
49
54
59
64
70
75
80
85
90

1
6
n
15
21
26
31
37
42
47
53
69
64
70
75
81
86
92
98

2
6
11
17
22
28
34
39
45
51
57
63
67
75
81
87
93
99
105

2
7
12
18
24
30
36
42
48
55
61
67
74
80
86
93
99
106
112

2
8
13
20
27
34
41
48
55
62
69
76
83
90
98
105
112
119
127

9
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

1
3
6
9
12
15
18
21
24
27
30
33
36
39
42
45
48
51
54

10 11 12 13 14
1
4
7
11
14
17
20
24
27
31
34
37
41
44
48
51
55
58
62

1
5
8
12
16
19
23
27
31
34
38
42
46
50
54
57
61
65
69

2
5
9
13
17
21
26
30
34
38
42
47
51
55
60
64
68
72
77

2
8
10
15
19
24
28
33
37
42
47
51
56
61
65
70
75
80
84

15

17

18

rj

20

2
3
3
3
9
7
8
7
11 12 14 15
16 18 19 20
21 23 25 26
26 28 30 33
31 33 36 39
36 39 42 45
41 44 48 51
46 50 54 57
51 55 60 64
56 61 65 70
61 66 71 77
66 72 77 83
71 77 83 89
77 83 89 96
82 88 95 102
87 94 101 109
92 100 107 115

4
9
16
22
28
35
41
48
55
61
68
75
82
88
95
102
109
116
123

0
4
10
17
23
30
37
44
51
58
65
72
80
87
94
101
109
116
123
130

0
4
11
18
25
32
39
47
54
62
69
77
84
G2
100
107
115
123
130
138

10

C uadro H. C uadro de valores crticos de T en la prueba de pares

asociados y rdenes provistos de signo, de W ilcoxon

Nivel de significacin, direccin anticipada


.005
.01
.025
N

Nivel de significacin, direccin


sin anticipar
.05

0
7
8
9
10
11
12
13
14
15
10
17
18
19
20
21
22
23
24
25

0
2
4
6
3
11
14
17
21
25
30
35
40
46
52
59
m
73
81
89

.02

.01

0
2
3
5
7
10
13
16
20
24
23
33
38
43
49
56
62

69
77

0
2
3
5
7
10
13
16
20
23
28
32
38
43
49
55
61
68

Fuente: F. Wilcoxon, Some Rapid Approximate Statistical Procedures,


American Cyanamid Company, Nueva York, 1949, cuadro_ I, p. 13, con la
amable autorizacin del autor y el editor; tal como ha sido adaptada por
S. Siegel en Nonparametric Statistics, McGraw-Hill Book Company, Nueva
York, 1956, cuadro G.

Cuadro I.

D istribucin de la.

P robabilidad
df

.80

.70

.03157 .0*628 .00393


.0231 .0104
.103
.115
.185
.352
.297
.429
.711
.554
.752 1 145

.0158
.211
.584
1.064
1.610

.0642
.440
1.005
2.649
2.343

.148
713
1 424
2.195
3 000

.455 1.074
1.386 .%2.408
2.366 3.665
3.367 4.878
4.351 6.064

9
10

.872
1.229
1.646
2.038
2.558

1.134
1.564
2.032
2.532
3.059

1.635
2.167
2.733
3.325
3.940

2.204
2.833
3.490
4.168
4.865

3.070
3.822
} 594
5.380
6.179

3.828
4.671
5.527
6.393
7.267

5.348 7.231 8.558


C.346 8 383 9.803
7.344 9.524 11.030
8 343 10.656 12.242
9.342 1J.781 13.442

11
12
13
14
15

3.C53
3.571
4.107
4.650
5.229

3.609
4 178
4.765
5.308
5.985

4.575
5.226
5.892
6.571
7.261

5.578 C.989 8.148


6.304 7.807 9 034
7.042 S.634 9.926
7 790 9.4S7 10 S21
8.547 10.307 11.721

16
17
18
19
20

5 812
6.408
7 015
7 633
8 260

8.JB14 7.962 9.312


7.255 8.672 10.085
7.906 9 290 10.865
3.567 10.117 11 651
9.237 10.851 12.443

3
4
5
6
7

.93

.95

.90

1
2

.99

21 8.857 9.935
22 9 542 10.600
23 10.196 11.293
24 10.836 11 992
25 11.524 12.657

.50

.30

.20

1 642
3.219
4.642
5.989
7.289

.10

.05

.02

.001

2.706 3.841 5.412 6.635 10.G27


4.605 5.991 7.824 9.210 13.815
6.25 7.815 9.837 11.341 16.268
7.779 9.488 U 668 13.277 18.465
9.236 11.070 13.388 15.086 20.7
10.645
12.017
13.362
14.C84
15.SS7

12.592
14.067
15.507
16.919
18.307

15.033
16 622
18.168
19.679
21.161

16.812
18.475
20.090
21.666
23.209

22.457
24.322
26.125
27.877
39.588

10.341
11.340
12.340
13.339
14.339

12.899
14.011
15.119
16.222
17.322

14.631
15.812
16.985
18.151
19.311

17.275
18:549
19.812
21.064
22.307

19.675
21.026
22.362
23.68$
24.996

22.618
24.054
25.472
26.873
28.259

24.725
20.217
27.G88
29.141
30.578

3I.2C4
32.800
34.528
33.123
37.CP?

11 152
12.002
12 357
12 716
14 578

12.624
13.531
14.440
15 352
10 266

15.338
16 338
17.338
18 338
19 337

18.418
19 511
20.601
21.689
22.775

20.465
21.615
22.760
23.900
25.038

23-542
24.769
25.989
27.204
28.412

26.296
27.587
28.889
30.144
31.410

29.633
30.995
S2.346
33.687
35.020

32.C00
33.409
34.805
38.191
37.566

39.252
40.790
42.312
43.620
4S.315

11.591
12 338
13.091
13.848
14.611

13.240
14.041
14.848
15.659
16.473

15 445
16.314
17.187
18.062
18.940

17.1S2
18.101
19.021
19.943
20.8G7

20 337
21.337
22.337
23 337
24.337

23.858
24 939
26 018
27.096
23.172

23.171
27.301
28.429
29.553
30.675

29 615
30 813
32.007
33.196
34.382

32.871
33.924
35.172
36.415
37.652

36.343
37.659
38.968
40.270
41.566

38.932
49.289
41.638
42.980
44.314

48.797
48.268
49.728
51.179
52.620

26 12.198 13.409 15.379


27 12.879 14.126 19.151
28 13.565 14.847 16.928
29 14.258 15.574 17 708
30 14.953 16.200 13.493

17.292
18.114
18.-039
19.788
20.599

19.820
20.703
21 588
22 475
23.364

21.792
22.719
23.647
24.577
25.508

25.339
26.336
27.336
28.323
29.336

29.246
30.319
31.391
32.461
33.530

31 795
32.912
34.027
35.139
36.250

35 563
36.741
37.916
39.087
40.256

38.835
40.113
41.337
42.557
43.773

42.856
44.140
45.419
46.693
47.9C2

45.642
46.963
48.278
49.588
50.892

64.052
55.476
56.893
58.302
59.703

Para valores mayores de df, la expresin


y/2df 1 puede utilizarse
como una desviacin normal, con variancia de unidad, recordando que la
probabilidad para x2 corresponde a la de una sola cola de la curva normal.
F
: El cuadro I es una reimpresin del cuadro IV de Statistical
Tables for Biological, Agricultural and Medical Research (ed. 1948), de R.
A. Fisher y F. Yates, publicada por Oliver & Boyd, Ltd., Edimburgo y Lon
dres, con autorizacin de los autores y los editores.
uente

Cuadro
\ 1
n s\
1
2
3
4
5
G
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
21
25
26
27
28
29
30
40
60
120
OO

J. D istribucin d e F
p = .05

24

(O

161.4 199.5 215.7 224.6 230.2 234.0 23S .'3 243.9 249.0 254.3
18.51 19.00 19.16 19.25 19.30 19.33 19.37 19.41 19.45 19.58
10.13 9.55 9.28 9.12 9.01 8.94 8.84 8.74 8.64 S.S3
7.71 6.94 6.59 6.39 6.26 6.16 6.04 5.91 5.77 5.63
6.61 5.79 5.41 5.19 5.05 4.95 4.82 4.68 4.53 4.36
5.99 5.14 4.76 4.53 4.39 4.28 4.15 4.00 3.84 3.67

t<l>
5,59 4.74 4.35 4.12 3.97 3.87 3.73 3.57 3 A l OOV
5.32 4.46 4.07 3.84 3.69 3.58 3.44 3.28 3.12 2.93
5.12 4.2Q 3.86 3.63 3.48 3.37 3.23 3.07 2.90 2.71
4.96 4.10 3.71 3.48 3.33 3.22 3.07 2.91 2.74 2.54
4.84 3.98 3.59 3.36 3,20 3.09 2.95 2.79 2.61 2.40
4 75 3.88 3.49 3.26 3.11 3.00 2.85 2.69 2.50 2.30
4 67 3.80 3.41 3.18 3.02 2.92 2.77 2.60 2.42 2.21
4.60 3.74 3.34 3.11 2.96 2.85 2.70 2.53 2.35 2.13
4.54 3.68 3.29 3.06 2.90 2.79 2.64 2.48 2.29 2.07
4 49 3.63 3.24 3.01 2.85 2.74 2.59 2.42 2.24 2.01
4 45 3.59 3.20 2.96 2.81 2.70 2.55 2,38 2.19 1.96
4:41 3.55 3.16 2.93 2.77 2.60 2.51 2.34 2.15 1.92
4.38 3.52 3.13 2.90 2.74 2.63 2.48 2.31 2.11 1.88
4.35 3.49 3.10 2.87 2.71 2.60 2.45 2.28 2.08 1.84
4.32. 3.47 3.07 2.84 2.68 2.57 2.42 2.25 2.05 1.81
4.30 3.44 3.05 2.82 2.66 2.55 2.40 2.23 2.03 1.78
4.28 3.42 3.03 2.80 2.64 2.53 2.38 2.20 2.00 1.76
4.26 3.40 3.01 2.78 2.62 2.51 2.36 2.18 1.98 1.73
4.24 3.38 2.99 2.76 2.60 2.49 2.34 2.16 1.93 1.71
4.22 3.37 2.98 2.74 2.59 2.47 2.32 2.15 1.95 1.69
4.21 3.35 2.96 2.73 2.57 2.46 2.30 2.13 1.93 1.67
4.20 3.34 2.95 2.71 2.56 2.44 2.29 2.12 1.91 1.65
4.18 3.33 2.93 2.70 2.54 2.43 2.28 2.10 X.90 1.64
4.17 3.32 2.92 2.69 2.53 2.42 2.27 2.09 1.89 1.62
4.08 3.23 2.84 2.61 2.45 2.34 2.18 2.00 1.79 1.51
4.00 3.15 2.76 2.52 2.37 2.25 2.10 1.92 1.70 1.39
3,92 3.07 2.68 2.45 2.29 2.17 2.02 1.83 1.61 1.25
3.84 2.99 2.60 2.37 2.21 2.09 1.94 1.75 1.52 1.00

Los valores de nx y n. representan los grados de libertad asociados a las


estimaciones mayores y menores respectivamente de la variancia.
Fuente: El cuadro J es una abreviacin del cuadro V de Statistical Tables
for Biological, Agricultural and Medical Research (ed. 1948), de R. A. Fisher
y Yates, publicada por Oliver & Boyd, Ltd., Edimburgo y Londres, con
autorizacin de los autores y los editores.

C u a d ro

c o n tin u a c i n

p = .01

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

20

21
22
23
24
25
26
27
28
29
30
40
60
120
QO

4052
93 49
34 12
21 20
16 26
13 74
12 25
11 26
10 56
10 04
9 65
9 33
9 07
8 86
8 68
8 53
8 40
8 28
8 18
8 10
8 02
7 94
7 88
7 82
7 77
7 72
7 68
7 64
7 60
7 56
7 31
7 08
8 85
6 64

4999
99 o
S!) 81
18 00
13 27
10 92
9 55
8 65
8 02
7 56
7 20
6 93
6 70
6 51
6 30
6 23
6 11
6 01
5 83
5 85
5 78
5 72
5 66
5 81
5 57
5 53
5 49
5 45
5 42
5 39
5 18
4 98
4 79
4 60

5403
99 .17
29 46
16 69
12 06
9 78
8 45
7 59
6 99
6 55
6 22
5 95
5 74
5 56
5 42
5 29
5 18
5 09
5 01
4 94
4 87
4 82
4 76
4 72
4 68
4 64
4 60
4 57
4 54
4 51
4 31
4 13
3 95
3 78

6625
99 25
28 71
15 98
11 39
9 15
7 85
7 01
6 42
6 99
5 67
5 41
5 20
5 03
4 89
4 77
4 67
4 58
4 60
4 43
4 37
4 31
4 26
4 22
4 18
4 14
4 11
4 07
4 04
4 02
3 83
3 65
3 48
3 32

5764
99 30
28 24
15 52
10 97
8 75
7 46
6 63
6 06
5 64
S 32
8 03
4 86
4 69
4 56
4 44
4 34
4 25
4 17
4 10
4 04
3 69
3 94
3 90
3 83
3 82
3 78
3 75
3
3 70
3 51
3 34
3 17
3 02

rtgaumuw

5853
99.33
27 91
15 21
10 67
8 47
7 19
6 37
5 80
5 39
5 07
4 82
4 62
4 46
4 32
4 20
4 10
4 01
3 94
3 87
3 81
3 76
3 71
3 67
3 63
3 59
3 56
3 53
3 50
3 47
3 29
3 12
2 98
2 80

8
5981
39.36
27 49
14 80
10 27
8 10
6 84
6 03
5 47
5 06
4 74
4 SO
4 30
4 14
4 co
3 89
3 79
3 71
3 63
3 55
O 51
3 45
3 41
3 36
3 32
3 29
3 26
3 23
3 20
3 17
2 99
2 82
2 63
2 51

sim tm n n E

12

24

eo

6108
89 42
27 05
14 37
9 80
7 72
6 47
5 67
5 11
4 71
4 40
4 16
3 96
3 80
3 67
3 S5
3 45
3 37
3 30
3 23
3 17
3 12
3 07
3 03
2 99
2 95
2 93
2 90
2 87
2 84
2 66
2 50
2 34
2 18

6234
99 46
26 60
13 3
9 47
7 31
6 07
5 28
4 73
4 33
4 02
3 78
3 59
3 43
3 28
3 18
3 08
3 00
2 92
2 86
2 80
2 75
2 70
2 66
62
2
2 58
2 55
2 52
2 49
2 47
2 29
2 12
1 95
1 79

6366
99 50
26 12
13 46
9 02
6 88
5 65
4 86
4 31
3 91
3 60
3 36
3 16
3 OCf
2 87
2 75
2 65
2 57
2 43
2 42
2 36
2 31
2 26
2 21
2 .17
2 13
2 10
2 06
2 03
2 01
i 80
i 60
i 38
i 00

itfso rzes

Los valores de y n3 representan los grados de libertad asociados a las


estimaciones mayores y menores respectivamente de a vaiiancia.

Cuadro J [ c o n c lu s i n ]
p = .001
\

500000
998.5 899.0
167.6 148.5
74.14 61.25

i 405284

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120

00

47.04

35.51
29.22
25.42
22.86
21.04
19.89
18.64
17.81
17.14
16.59
16.12
15.72
15.38
15.08
14.82
14.59
14.38
14.19
14.03
13.88
13.74
13.61
13.50
13.39
13.29
12.61
11.97
11.38
10.83

38.61

27.00
21.69
18.49

16.39
14.91
13.81
12.97
12.31
11.
11.34
10.97
0.6S
10.39
30.13
9.95
9.77
9.61
9.47
9.34
9.22
9.12
9.02
8.93
8.85
8.77
8.25
7.76
7.31
6.91

3
540378
999.2
141.1
66.18
33.20
23.70
18.77
15.83
13.90
12.55
11.53
10.80
10.21
0.73
9.34
9.00
8.73
8.49
8.28
8.10
7.94
7.80
7.67
7.55
7.45
7.33
7.27
7.19
7.12
7.05
6.60
6.17
5.79
6.42

662E00 576405
899.3
137.1 134.S
63.44 51.71
31.09 29.75

939.2

21.00

32 i 24

03

585S37 598144 610667 23497 636'l.5


S99.3 999.4 999.4 999.5 (999.5
132.8 130.6 123.3 125.9 123.5
50.53 49.00 47.41 45.77 44.>5
28.84 27.84 26.4f; 25.14 23.78

20.83 20.03 19.03 17.99 16.89 15.75

17.19 16.21 15.52 14.83 13.71 12.73 11 .>9


14.39 13.49 12.86 12.04 11.19 10.30 9.24
12.56 11.71 11.13 10.37 9.57 8,72 7.81
XI.28 10.48 9.92 9.20 8.45 7.64 6.76
10.35 0.58 9.0o 8.35 7.63 6.85 6.00
9.63 8.89 8.38 7.71 7.00 6.25 5.42
9.07 8.35 7.86 7.21 6,52 5.78 4.97
8.62
7.92 7.43 6.80 6.13 5.41 4.60
8.25 7.57 7.09 6.47 5.81 5.10 4.31
7.94 7.27 6.81 6.19 5.55 4.85 4.06
7.68 7.02 6.56 5.96 5.32 4.63 3.85
7.46 6.81 6.35 5.76 5.13 4.45 3.67
7.26 6.61 6.18 5.59 4.97 4.29 3.52
7 40 6.46 6.02 5.44 4.82 4.15 3.33
6.95 6.32 5.88 5.31 4.70 4.03 3.2G
6.81 6.19 5.76 5.19 4.58 3.92 3.15
6.69 6.08 5.65 5.06 4.48 3.82 3.05
6.69 5.98 5.55 4.99 4.39 3.74 2.97
6.49 6.88 5.46 4.91 4.31 3.66 2.89
6.41 5.80 5.38 4.83 4.24 3.59 2.82
6.33 5.73 5.31 4.76 4.17 2.52 2.75
6.25 5.66 5.24 4.69 4.11 3.46 2.70
6.19 5.59 5.18 4.64 4.05 3.41 2.64
6.12 5.63 5.12 4.58 4.0Q 3.36 2.59
5.70 5.13 4,73 4.21 3.24 3.01 2.23
B.31 4.76 4.37 3.87 3.31 2.69 1.90
4.95 4.42 4.04 3.55 3.02 2.40 1.56
4.62 4.10 3.74 3.27 2.74 2.13 1.00
,,

Los valores de n, y rt2 representan los grados de libertad asociados a las


estimaciones mayores y menores respectivamente de la variancia.

C u a d ro K .

r
.000
.010

.020
.030

.0 4 0

.050
.060
.070
,080
.000
.100
.110
.120
.130
.140
.150
.160
.170
.180
.190
.200
.210
.220
.230
.240
.250
.260
.870
.280
.290
.800
.810
.330
.330
.340
.350
.360
.370
.330
.390
.400
.410
.420
.430
.440
.450
.460
.470
.430
.490

V a lo r e s

d e

p a ra

v a lo r e s

d a d o s

d e

.000

.001

r002

,C03

.004

.005

.006

.007

.008

.009

.0000
.0100
.0200
.0300
.0400
.0501
.0601
.0701
.0802
.0902
.1003
.1105
.1206
.1308
. J.409
.1511
.1614
.1717
.1820
.1923
.2027
.2132
.2237
.2342
.2448
.2554
.2661
.2769
.2877
.2986
.3095
.3206
.3317
.3428
.3541
.3654
.3769
.3884
.4001
.4118
.4230
.4350
.4477
.4599
.4722
.4847
.4973
.5101
.5230
.5361

.0010
.0110
.0210
.0310
.$410
.0511
.0611
.0711
.0812
, ;0912
.1013
.1115
.121$
.1318
.1419
.1522
.1624
.1727
.1830
.1934
.2038
.2142
.2247
.2353
.2458
.2565
.2672
.2779
*2888
.2927
.310$
.3217
.3328
.3439
.3552
.3666
.3780
.3896
.4012
.4130
.4243
.4308
.4489
.4611
.4735
.4860
.4985
.5114
.5243
53j 4

.0020
.0120
.0220
.0320
.0420
.0521
.0821
.0721
.0822
.0922
.1024
.1125
.1226
.1323
.1430
.1532
.1634
.1737
1841
!l944
.2048
,2153
.2258
>2363
.2469
.2575
.2682
.2760
.2898
.3008
.3117
.3228
.3339
.3451
,3564
.3677
.3792
.3907
.4024
.4142
.4260
.4380
.450!
.4623
.4747
.4872
.4999
.5126
.5256
.5387

.0030
.0130
.0230
.0330
.0430
.0531
.0631
.0731
.0832
.0933
.1034
.1135
.1236
.1338
.1440
.1542
.1844
. 1748
.1851
. 1054
.2059
.2163
.2268
.2374
.2480
;2586
.2693
.2801
.2909
.3019
.3128
.3239
.3350
.3462
.3575
.3689
.3803
.3919
.4036
.4153
.4272
.4.392
.4513
.4636
.4760
.4885
.5011
.5139
.5279
.5400

.0040
.0140
.0240
.0340
.0440
.0541
.0641
.0741
.0842
.0943
.1044
.1145
.1246
.1348
.1450
.1552
.1655
.1758
.1861
.1965
.2069
.2174
.2279
.2384
.2490
.2597
.2704
.2812
.2920
.3029
.3139
.3250
.3361
.3473
.3586
.3700
.3815
.3931
.4047
.4165
.4284
.4404
.4526
.4648
.4772
,4897
.5024
.51512
.5282
.5413

.0050
.0150
.0250
.0350
.0450
.0551
.0651
.0751
.0852
.0953
.1054
.1155
.1257
. 1358
.1460
.1563
.1665
.1763
.1872
.1975
.2079
.2184
.2289
.2395
.2501
.2608
.2715
.2823
.2931
.3040
.3150
.3261
.3372
.3484
.3597
.3712
.3826
.3942
.4059
.4177
.4298
.4418
.4538
.4660
.4784
.4910
.5037
.5165
.5285
.6427

,0060
.0160
.0260
.0360
.0460
.0561
.0631
.,0761
.0862
.0963
.1064
1165
.1267
.1368
.1470
.1573
.1676
.1779
.1882
.1986
.2090
.2194
.2300
.2405
.2511
.2618
.2726
.2833
,2842
.3051
.3161
.3272
.3384
.3490
.3609
.3723
.3838
.3954
.4071
.4189
.4308
.4429
.4550
.4673
.4797
.4923
.5049
.6178
.5308
.6440

.0070
.0170
.0270
.0370
.0470
.0571
.0671
.0771
.0872
.0973
.1074
.1176
.1277
.1379
.1481
.1583
.1686
.1789
.1892
.1996
.2100
.2205
.2310
.2416
.2522
.2629
.2736
.2844
.2953
.3062
.3172
.3283
.3395
.3507
.3620
.3734
.3S5
.3966
.4083
.4201
.4320
.4441
.4562
.4685
.4809
.4935
.6062
.5191
.5321
.5453

.0030
.OlSQ
.0280
.0380
.0480
.0581
.0681
.0783
.0882
.0983
.1084
.1185
.1287
.1389
.1491
.1593
.1698
.1799
.2903
.2007
.2111
.2215
.2321
.2427
.2533
.2640
.2747
.2855
.2964
.3073
.3183
.3294
.3406
.3518
.3632
.3743
.3861
.3977
.4094
.4213
.4332
.4453
.4574
.4607
.4822
.4948
.6075
.6204
.6334
.6466

,0090
.0190
.0290
.0390

.04 9 0

.0591
.0691
.0792
.0892
.0993
.1094
.1195
.1297
.1399
.1501
.1604
.1706
.1810
.1913
.2017
.2121
.2226
.2331
.2437
.2543
.2650
.2758
.2866
2975
.3084
.3105
.3305
.3417
.3530
.3643
.3767
.3873
.3989
.410$
.4225
.4344
.4405
.4587
.4710
.4835
.4961
.6083
.6217
.5347
.5480

F uente: Albert E. Waugh, Statistical Tables and Problems, McGraw-Hill


Book Company, Nueva York, 1952, cuadro All, pp. 40-41, con la amable autorizacin del autor y el editor.

Cuadro

K [ conclusin]
ttwnrtamraMCEgg

.000

.001

.002

.003

.004

.005

-C O G

.007

.009

500
510
520
530
540

5493
5027
57G3
.5901
6012

5506
5041
5777
591r>
0056

5520
5054
5791
.5929
6070

.6533
5805
51'4 3
.0084

5547
. 508 1
.5818
. 5957
.0098

.ssr.o
5095
. 5832
.5971
0112

.5573
. 5709
. 5840
5985
.0127

.5587
.5722
. 5800
.5999
.6141

.5000
. 5730
. 5874
.0013
.6155

.5614
.5750
.583S
.0027
.6170

550
500
570
580
590

6184
32S
0475
0025
6777

6198
0343
6490
.0640
0792

.6213
.0353
.6505
0055
C807

.6227
6372
6520
6070
6823

0241
6387
. 6535
0085
0838

.6256
.6401
.0550
. 6700
. 0354

.6270
.6416
.G5G5
.0715
.6869

.6285
.6431
.6579
.6731
.6835

.6299
.0440
. 0594
.6746
.6900

.6314
.0400
.6610
.6761
.6916

600
.610
620
630
<340

.6931
7089
7250
7414
7582

.6947
.7105
.7206
.7431
7599

6963
7121
7283
.7447
7616

.6978
7137
7299
7464
7033

.6994
7153
.7315
.7481
7650

.7010
7109
.7332
.7497
.7667

.7020
.7185
.7348
.7514
.7084

.7042
.7201
.7364
.7531
.7701

.7057
.7218
.7381
.7548
.7718

.7073
.7234
.7393
.7565
.7736

.650
CGO
670
080
690

.7753
7928
8107
8291
8480

7940
812G
8310
899

7788
.79G4
8144
8328
8518

7805
7981
8102
.8347
.8537

.7823
.7999
.8180
8300
.8550

.7840
.8017
.8199
.8385
.8576

.7858
.8035
.8217
.8404
.8595

.7875
8053
.8236
.8423
.8614

.7803
.8071
.8254
.8442
.8034

.7910
.8039
.827
.8461'
.8653

700
710
720
730
740

8073
8872
9070
.9287
9505

8003
8S92
9007
9309
9527

87 *2
-8912
9118
.9330
0549

.8732
8933
9139
9352
.9571

.8752
.8953
9160
.9373
.9594

.8772
.8973
.9181
.9395
.9610

.8792
.8994
.9202
.9417
.9039

.8812
.9014
.9223
.9439
9601

.8832
.9035
.9245
.9461
.9684

.8852
.9058
.9260
.9483
.9707

750
760
770
780
790

9730
9902
i 0203
1 0454
1 0714

.9752
9986
1 0228
l 0479
l 0741

.9775
1.0010
1.0233
1 0505
1.0708

.9799
1.0034
I .0277
i 0531
1.0795

.9822
1.0058
1.0302
1.0557
1.0822

.9845
1.0082
1.0327
1.0583
1.0849

.9892
.9808
1.0100 1.0130
1.0352 '1 .0 3 7 8
1.0009 1.0035
1.0876 1.0903

.9915
1.0154
1.0403
1.0601
1.0931

.9939
1.0179
5.0428
1.0688
.o o sa

800
850
820
830
840

1 0986
l 1270
1 1568
1 1870
1.2212

1.1014
I 1299
1 1599
1 1913
1.2246

t .1041
1.1329
1 1030
1.1946
1 2280

1.1070
1 1358
1.1600
1 1979
1.2315

1.1098
1.1388
1 1092
1.2011
1.2349

1.1127
1 1417
l . 1723
1.2044
1.2384

1.1155
1.1447
1.1754
1.2077
1.2419

1.1184
1.1477
1.1786
12111
1.2454

1.1212
1.1507
l . 1817
1.2144
1.2490

1.1241
1.1538
1.1849
1.2178
1.2526

850
.870
880
.890

1.2561
l 2934
1 3331
1 3758
1 4219

1 2598
1.2972
l .3372
I 3S02
1.4268

1.2634
1.3011
l 3414
1 3847
1 4310

1 2670
1 3050
1 3456
1.3892
1 4300

1.2708
1.3089
1.3498
1.3938
1.4415

1.2744
1.3129
1.3540
1.3984
1.4405

1.2782
1.3168
1.3583
1.4030
1.4516

1.2819
1.3209
1.2620
1.4077
1. .4566

1.2857
1.3249
I . 3670
1.4124
1.4018

1 .2S95
1.3290
1.3714
1.4171
1.4670

.900
.910
.920
.930
.940

1 4722
1 5275
1 5890
1.6584
.7380

1.4775
1 5334
1.5950
l.GG59
1,7407

1.4828
l .5393
1 .0022
1.6734
1.7555

1.4883
1.5453
l 0089
1.0821
1.7045

1.4937
1.5513
1.0157
1.0888
1.7736

1.4992
1.5574
1.6226
1.0907
1.7828

1.5047
1.5030
1.6290
1.7047
1.7923

1.5103
1.5093
1.6300
1.7129
1.8019

1.5100
1 .57G2
1.0438
1.721L
1.8117

1.5217
1.5825
1.6510
1.7295
1.8216

.950

1.3421
1.9588

1.8527
1 .9721
2.1273

l 8035
1.9857
2 1457

1.8745
1.9990

1.8857
2.0140
2.1847

1.8972
2.0287
2.2054

1.9090
2.0439
2.2209

1.9210

.970

1.8313
1.9459
2 0923

2.0595
2.2494

.980
.990

2.2076
2.0407

2 3507
2.7587

2.3790
2 8257

2.4426
2.9945

2.4774
3.1 0 6 3

1.9333
2.0756
2,2729
2.5988

.SCO

.960

7770

2 .1095
2.3223
2 .6990

S f ifiS

2 .1649
2.4101
2.9032

.9999
.99999

4.95172
6.10303

2 .5147

3 .2504
L ......

2.5 5 5 0
3.4 5 3 4

3.8002

IV .l. H istogram a de intervalos iguales . . . . . .


IV .2. H istogram a de intervalos desiguales y altu ras p ro
porcionales a las f r e c u e n c ia s .....................................62
V.3. H istogram a de intervalos desiguales y reas p ro
porcionales a las f r e c u e n c ia s .....................................62
IV.4. Polgono de f r e c u e n c i a .................................................
IV .5. Ojiva que re p resen ta u n a distribucin de frecuen
cia ac u m u la tiv a .................................................................
V.l. Relacin en tre la asim etra y las posiciones rela
tivas de la m edia y la m e d i a n a . ...............................83
V.2. Una distribucin b i m o d a l ...........................................86
V II.1. Com paraciones de curvas lisas con histogram as de
am plitudes diferentes de i n t e r v a l o ........................ 105
VII.2. C om paracin de las reas debajo de la curva y de
b a jo del r e c t n g u l o .......................................................106
VII.3. F orm a general de la curva n o r m a l ........................ 107
VII.4. Com paracin de curvas norm ales de igual desvia
cin e stn d a r pero de m edias diferentes . . .

61

108

VII.5. C om paracin de dos curvas norm ales de m edias


iguales pero con desviaciones e stn d a r diferentes

109

63
64

VII.6. Com paracin de una curva norm al con curvas de


su m ism a desviacin estn d a r pero d istin tas en
cuanto a las c i m a s ....................................................... 109
VII.7. reas debajo de la curva n o r m a l ...............................110
VII.8. C om paracin de las form as e st n d a r y general de
la curva n o r m a l .............................................................112
VII.9. Curva norm al, con porcin achurad a rep resen tan
do el rea en u n a sola c o l a ...........................................113
V II. 10. Curva norm al, con porciones achuradas p resen tan
do reas en am bas c o l a s ...........................................114
V II.ll. Curva n orm al con porcin achurada, represen tan
do el rea en tre dos ordenadas . . . . . .
114
IX .1. Oscilacin de la proporcin de xitos aproxim n
dose al lm ite de . 5 0 ....................................................... 130
IX.2. R epresentacin geom trica de probabilidades, con
reas proporcionales a P(A), P( B) y P( A & B ) . .
136

599

X .l. C om paracin de las regiones crticas de pru eb as


de u n a sola cola y de dos colas, em pleando el ni
vel de significacin de . 0 5 ..........................................174
X I.l. C om paracin de las distribuciones norm ales de
m u estreo p a ra m u estras de tam ao diferente .
.

188

X I .2. C om paracin en tre las distribuciones de la pobla


cin y de la m u e s t r a ...................................................... 189
XI.3. D istribucin de la poblacin de las probabilidades
de o b ten er caras de 1, 2, 3, 4, 5 o 6 con un dado
p e r f e c to .............................................................................. 192
XI.4. D istribucin de m u estreo de las m edias de las ca
ras, con dados perfectos y m uestras de tam ao 2 192
XI.5. D istribucin de m uestreo de las m edias de las ca
ras, con dados perfectos y m u estras de tam ao 3 193
XI.6. D istribucin norm al de m uestras, con rea achu
ra d a rep resen tan d o un a regin crtica de u n a sola
cola al nivel de significacin de . 0 5 ........................197
X II.1. Com paracin de las distribuciones de m u estreo de
u n a estim acin sesgada, con alta eficiencia, y una
estim acin no sesgada, de eficacia m enor . . .

214

XII.2. C om paracin de intervalos de confianza con la dis


tribu cin de m uestreo de la m edia, m ostrando p o r
qu los intervalos de confianza del 95 p o r ciento
com prenden x el 95 p o r ciento de las veces . . .

217

X II.3. D istribucin de intervalos variables de confianza


con resp ecto a un valor fijo del parm etro u . .

218

XII.4, C om paracin de un intervalo de confianza del 95


p o r ciento con pru eb as de hiptesis al nivel de .05
m o stran d o el no rechazo de la m edia hip o ttica jij,
que queda dentro! del intervalo1, y el descarte de la
(i2 hipottica, que queda fu era del intervalo . .

220

X IV .l. Funciones de potencia p a ra p ruebas de dos colas,


con a = .05, p ara m u estras de tam ao variable . .

258

XIV.2. D erivacin de la fuerza com o funcin de ([i [x0)

260

XIV.3. C om paracin
b as de u n a y
Z > 1.645. b)
si Z > 1.96 o

261

de funciones de potencia p a ra p ru e
dos colas, con a = .05. a) R echace si
Rechace si Z < 1.645. c) Rechace
si Z < - 1.96 ...........................................

X V II.l. F orm a general de la regresin de Y sobre X, o cur


so de las m edias de los valores de Y p a ra valores
fijos de X ..........................................................................380

XVII.2. La ecuacin lineal de regresin, m o stran d o in te r


pretacio nes geom tricas de a y 3 ...............................382
XVII.3. La d istrib u ci n n o rm al b i v a r i a b l e ........................ 385
XVII.4. D iagram a de d ispersin y re c ta de m nim os cu a
386
d rad o s ............................................................. ......
XVI 1.5. E cuacin de m nim os cuadrados, que m inim iza las
sum as de los cu adrados de las distancias vertica
les y estim a la regresin de Y so b re X . . .
. 388
XVII.6. D iagram a de dispersin y re c ta de m nim os cua
d rad o s p a ra los datos del cu ad ro X V II.1 . . . 392
XVI 1.7. D iagram a de dispersin que m u e stra las diferentes
fuerzas y direcciones de las relaciones en tre X y Y
393
XVII.8. D iagram a de d ispersin de u n a relacin no lineal
perfecta, en que r 0 ................................................. 395
XVII.9. D iagram as de dispersin que m u estran los efectos
posibles de valores extrem os de I . . . . . 398
XVII.10. D iagram a de dispersin que no m u estra relacin
alguna den tro de u n reco rrid o lim itado de v aria
cin de X, pero con relacin positiva sobre el re
corrido to ta l.........................................................................399
X V II.11. R epresentacin geom trica que m u e stra las desvia
ciones resp ecto de la m edia Y com o u n a sum a de
desviaciones resp ecto de la re c ta de m nim os cua
d rad os y desviaciones de la re cta de m nim os
cuadrados respecto d e la Y ........................................... 408
X V III.1. R epresentacin geom trica del hecho de que la
hiptesis de {3 = 0 es equivalente a la hiptesis

Hi = (Ja = = M*..........................................................
X V III.2. B anda de confianza con respecto de la recta de
m nim os c u a d r a d o s .................................................... 422
XV III.3. Ecuacin logartm ica de m nim os cuadrados de la
fo rm a Y = a + b log X .............................................. 427
X V III.4. C om paracin de las desviaciones respecto de la rec
ta de m nim os cuadrados con las desviaciones re s
pecto de las m edias de las c a te g o ras......................428
X IX .l. In terp retac i n geom trica de la regresin m ltiple
de Y sobre I ] y I 3 .....................................................449
XIX.2. Plano de m nim os cuadrados, que reduce al m ni
m o las sum as de las desviaciones al cuadrado en
la dim ensin vertical Y .............................................. 450
XIX.3. R ectas de m nim os cu ad rados indicando los resi
du o s e n tre : a) Y y X 2, y b) e n tre X x y X 2 . . .

451

XIX.4. Las seis flechas causales posibles en tre X , Y y Z .

462

XIX.5. Relaciones causales posibles en tre X, Y y Z, to


m an d o a Y com o variable dependiente y excluyen
do la causalidad en dos d ir e c c io n e s .........................463
XIX .6. F o rm as de polinom ios de segundo, terc ero y cuar
to g r a d o s ..........................................................................480
XIX.7. D atos hipotticos con u n a p arbola de m e jo r aju ste

481

XX. 1. D atos hipotticos que indican u n a dbil correlacin


to tal e n tre X y Y, p e ro correlaciones m s fu ertes
d en tro de las categoras de A .....................................493
XX.2. D atos hipotticos que indican u n a fu e rte correla
cin to tal en tre X y Y, p ero correlaciones m s d
biles d en tro de las categoras de A .........................494
XX.3. R ectas de pendientes iguales, que indican no in
teracci n ................................... .......................................... 503
XX.4. C om paracin e n tre re ctas separadas de m nim os
cu ad rad o s y rectas a travs de las m edias de cate
goras, p ero todas tienen la m ism a p endiente bw .

505

XX.5. In te rp re ta c i n geom trica de los clculos de las


m edias Y a j u s t a d a s ....................................................... 512
XX.6. In terp retac i n geom trica de las m edias aju stad as
de Y m ediante deslizam iento de las m edias de ca
tegoras paralelam ente a la re cta de pendientes b, 513
X X I.1. R elacin e n tre el e rro r to tal y los erro res de m ues
treo y no de m u e s t r e o ................................................. 554

111.1. N m ero de delincuentes y de no delincuentes en


dos localidades hipotticas . ..................................... 44
111.2. Proporciones de delincuentes y de 110 delincuentes
en dos localidades h ip o t tic a s .................................... 44
111.3. D istribucin de los nm eros y porcentajes de ca
sos trata d o s p o r tres agencias hipotticas de servi
cios d o m s t i c o s ............................................................. 46
111.4. D istribucin en porcentajes de los casos tratad o s
p o r tres agencias hipotticas de servicios dom s
ticos, con los porcentajes dispuestos verticalm ente
111.5. D istribucin en p o rcentajes de los casos tratados
p o r tres agencias hipotticas de servicios dom s
ticos, con los porcentajes calculados horizontalm ente
.......................................................................48
IV. 1. D istribucin d e la frecuencia, con datos agrupados
en intervalos de 5 p o r c i e n t o ..............................
IV.2. D istribucin de la frecuencia, con datos agrupados
en intervalos de 10 p o r ciento . . . . . . .
IV.3. D istribucin de las frecuencias con datos agrupa
dos en intervalos de 20 p o r c i e n t o ..................
IV.4. D istribucin de frecuencia cum ulativa . . . .
V .l. Clculo de la m edia de datos agrupados p o r el m
todo l a r g o ..................................................................
V.2. Clculo de la m edia de datos agrupados p o r el m
todo c o r t o ..................................................................
V.3. Clculo de la m edia da datos agrupados por el m
todo corto y de las desviaciones graduales . .
V.4. Clculo de la m ediana de datos agrupados . . .
VI. 1. Clculo de la desviacin e stn d a r utilizando datos
a g r u p a d o s ............................................................... 100

47

55
55
56
60
75
77
78
79

XIV. 1. Clculos p ara la p ru eb a de dos m uestras de Smirnov ............................................................................280


XIV.2. Clculos de la p ru eb a de W ilcoxon de pares aso
ciados
..................................................................... 282
XV .l. Clculos de la ^ - c u a d r a d a ................................ 294
XV.2. Clculo de la x-cuadrada sirvindose de la frm ula

603

295

XV.3. Clculo de la ^-cuadrada p a ra una tabla de contin


gencia de 3 x 3 ...................................................299
XV.4. C uadro m aestro p a ra correlacionar cuatro variables

322

XV.5. Serie de tablas de contingencia que relacionan dos


variables con dos controles sim ultneos . . . .

323

XV .o.................................................................................................... 324
X V I.l. D atos p a ra el anlisis de v a r ia n c i a .............. 333
XVI.2. R epresentacin sim blica de los datos p a ra el an
lisis de la v a r i a n c i a .............................................335
XVI.3. Clculos p a ra el anlisis de la variancia . . . .

342

XVI.4. D atos p a ra el anlisis de variancia en dos form as

350

XVI.5. Clculos p a ra el anlisis de variancia, de dos fo r


m as con p ru e b a de i n t e r a c c i n .............................. 357
XVI.6. Clculos p a ra el anlisis de variancia en dos fo r
m as, con la interaccin aadida den tro del trm i
no de e r r o r .......................................................

359

XVI.7. D atos y clculos p a ra el anlisis de variancia con


rangos d e K ru s k a l-W a llis ...........................................366
XVI.8. D atos y clculos p a ra la p ru eb a de F riedm an .

XVII. 1. D atos p a ra un p roblem a de correlacin . . . .

369
390

XVII.2. D atos clasificados cruzados p a ra o b ten er correla


ciones de datos a g r u p a d o s ...........................................404
XVII.3. Clculos de la correlacin de datos agrupados .

XVII.4. Relaciones num ricas e n tre r, r2, 1 r2 y y'l

405
411

X V III.l. P ru eb a de anlisis de variancia de la hiptesis g= 0 416


XVIII.2. P ru eb a de anlisis de variancia p a ra el caso de no
l i n e a l i d a d ......................................................................... 429
XVIII.3. Clculo del coeficiente de S pearm an de la correla
cin de r a n g o ................................................................... 435
XVIII.4. Datos com parados p a ra el clculo de la ta u de
K endall a p a rtir de datos a g r u p a d o s ........................ 440
X IX .l. P rueba de anlisis de variancia p a ra la significa
cin de la correlacin m ltip le . . . . . .
485
XIX.2. P ru eb a de anlisis de variancia p a ra la significa
cin de la correlacin p arcial rls.. ........................ 486
XX. 1. Clculos p a ra el anlisis de covariancia . . . 499-501
XX.2. P ru eb a de anlisis de variancia p a ra la interaccin
506

XX.3. P rueba de anlisis de variancia p a ra la significa


cin de la correlacin prom edio intraclase ( q Z t -a )
509
XX.4. P ru eb a de anlisis de variancia p a ra la significa
cin de las diferencias en tre m edias ajustadas .
.
515
X X I.1. D atos p a ra calcular estim aciones de p arm etro s
de m u estras e s tr a tif ic a d a s .......................................... 545
A. C uadro de cuadrados y races cuadradas . . 565-577
B. N m eros a l e a t o r i o s .................................................

578-581

C. reas b ajo la curva n o rm a l..................................................582


D. D istribucin de t ....................................................................583
E. V alores crticos de r en la p ru eb a de las secuen
cias P = .05 ..................................................................................... 584
F. C uadro de probabilidades asociadas a valores tan
pequeos com o los valores observados de V en la
p ru e b a de M ann-W hitney (con direccin antici
p a d a ) .............................................................................. 585-587
G. C uadro de valores crticos de U en la p ru eb a de
M ann-W hitney............................... .............................. 588-591
H. C uadro de valores crticos de T en la pru eb a de
p ares asociados y rdenes provistos de signo, de
W i l c o x o n ..................................................................................592
I. D istribucin de la x2 ............................................................ 593
J. D istribucin de F ....................................................... 594-596
K. Valores de la z p a ra valores dados de r . . . 597-598

Prefacio

....................................................................................................................................

P rim era P oste


I n t r o d u c c i n
I. I n tr o d u c c i n : o b je tiv o s y lm ite s d e

la e s ta d s tic a

1 .1 . F u n c i o n e s d e l a e s t a d s t i c a .
.
.
.
.
.
.
1 .2 . E l l u g a r d e l a e s t a d s t i c a e n e l p r o c e s o d e l a
i n v e s t i g a c i n ....................................................................................... 19
1 .3 . A d v e r t e n c i a ........................................................................................ 2 0

15
16

B ib l io g r a f a ................................................................................................. 21
I I . T e o r a , m e d i c i n y m a t e m t i c a s .............................................. 2 2
1 1 .1 . T e o r a e h i p t e s i s : d e f i n i c i o n e s o p e r a t i v a s
.
.
1 1 .2 . E l n i v e l d e m e d i c i n : e s c a l a s n o m i n a l e s , o r d i
n a l e s y d e i n t e r v a l o ............................................................... 2 6
1 1 .3 . M e d i c i n y e s t a d s t i c a .......................................................3 2
1 1 .4 . O r g a n i z a c i n d e l l i b r o .......................................................3 7

22.

B i b l io g r a f a .................................................................................................4 0
S e g u n d a P arte
E s t a d s t ic a

d e s c r ip t iv a u n iv a r ia d a

I I I . E s c a la s n o m n a le s : p ro p o rc io n e s , p o r c e n ta je s y
z o n e s ...............................................................................................

ra
.43

1 1 1 .1. P r o p o r c i o n e s ................................................................................4 3
1 1 1 .2 . P o r c e n t a j e s .................................................................................. 4 5
1 1 1 .3 . R a z o n e s ..............................................................................................4 9

B i b l io g r a f a .................................................................................................5 2
IV . E s c a la s d e in te r v a lo : d is tr ib u c io n e s d e f re c u e n c ia
y r e p r e s e n t a c i n g r f i c a ...............................................................53
I V . 1. D i s t r i b u c i o n e s d e f r e c u e n c i a : a g r u p a m i e n t o d e
l o s d a t o s ....................................................................................... 53
I V .2 . D i s t r i b u c i o n e s d e f r e c u e n c i a c u m u l a t i v a
.
.
I V .3 . P r e s e n t a c i n g r f i c a : h i s t o g r a m a s , p o l g o n o s
d e fre c u e n c ia y o jiv a s ,
............................................ 61

B i b l io g r a f a .................................................................................................6 6

606

60

V .l. La m edia aritm tic a . ......................................


V.2. La m e d i a n a ................................................................. 71
V.3. Clculo de la m edia y la m ediana de datos ag ru
p ados .............................................................................73
V.4. Com paracin de la m edia y la m ediana . . .
V.5. O tras m edidas de tendencia c e n tral . . . .
V.6. Deciles, cuartiles y p e r c e n tile s ...........................86

67

81
85

B i b l io g r a f a ........................................................................ 88
VI. Escalas de in terv alo: m edidas de dispersin . . .
V I.1.
VI.2.
VI.3.
VI.4.
VI.5.
VI.6.

90

El r e c o r r i d o ...............................................................90
La desviacin c u a r t i l ................................................. 92
La desviacin m e d i a .............................................92
La desviacin e s t n d a r ........................................... 93
El coeficiente de v a r ia b ilid a d ...............................101
O tras m edidas r e s u m i d a s .....................................102

B i b l io g r a f a ...........................................................................103
V II. La distribucin n o r m a l ..................................................104
V II.1. D istribuciones de frecuencias finitas versus in
finitas .......................................................................... 104
VII.2. F orm a general de la curva n o rm al . . . .
107
VII.3. reas bajo la curva n o r m a l ...............................109
VII.4. Ilustraciones suplem entarias del em pleo de la
tab la n o r m a l ..............................................................113
B i b l io g r a f a ...........................................................................116
T ercera P a rte
E s t a d s t ic a

V III.

in d u c t iv a

In trod uccin a la estad stica in d u c tiv a ..................... 119


V III.1.
V III.2.
V III.3.
V III.4.

E stad stic a y p a r m e tro s ....................................119


Pasos en la verificacin de u n a hiptesis . . 120
La falacia de a firm a r el consecuente . .
123
La fo rm a de las hiptesis estadsticas .
121

B i b l i o g r a f a ...........................................................................I
IX . P r o b a b ilid a d ......................................................
IX .l. P robabilidad a p r i o r i ........................
IX.2. P ropiedades m atem tica* ti Ihn |ir<ililtilltlnil>*i

l
I
I
I \1

IX.3. P e r m u t a s ....................................................................145
IX.4. V alores e s p e r a d o s ................................................. 151
IX.5. In dependencia y m uestreo aleatorio . . . .
153
B ibliografa

....................................................................159

X. P ruebas de hip tesis: la distribucin binom ial


X .l.
X.2.
X.3.
X.4.
X.5.

. 160

La distrib ucin de m u estreo binom ial .


. . 160
Pasos en las p ru eb as e s ta d s tic a s .........................164
Aplicaciones de la b in o m ia l.....................................177
Extensiones del b in o m io ...........................................181
S u m a r i o ..........................................................................183

B i b l io g r a f a ...........................................................................186
XI. P ruebas de m u estras sim ples que im plican m edias y
proporciones ....................................................................... 187
X I.l. D istribucin en m uestreo de las m edias .
. . 187
XI.2. P ru eb a p a ra la m ed ia de la poblacin, cono
ciendo a .........................................................................194
XI .3. La distribucin t de S t u d e n t ............................199
XI.4. P ru ebas que co m portan proporciones .
. . 204
B i b l io g r a f a ........................................................................210
X II. E stim acin de pu n to e i n t e r v a l o ...........................211
X II.l. E stim acin del p u n t o ........................................... 212
X II.2. E stim acin del i n t e r v a l o .....................................215
XII.3. in te rv a lo s de confianza p a ra o tros tip os de
p r o b le m a s ...................................................................221
XII.4. D eterm inacin del tam ao de la m u estra . . 224
B i b l io g r a f a ........................................................................227
C u a rta P a rte
E s t a d s t i c a s b iv a ria d a s y m u l ti v a r i a d a s
X III. P ruebas d e dos m u e s tra s : diferencia de las m edias
y las p ro p o rcio n es................................................
X II I.l.
X III.2.
X III.3.
X III.4.
X III.5.

231

P ru eb a de la d iferencia de las inedias . . 231


D iferencia d e p r o p o r c io n e s ...............................240
In terv alo s de c o n f ia n z a .....................................245
M uestras d ep en d ien tes: pares asociados . . 246
C om entarios a p ro p sito de los esquem as ex
p erim entales y p ru e b as de significacin .
. 248

XIV. E scalas o rd in ales: p ru e b as n o p aram tricas de dos


m u e s tra s ................................................................................ 256
X IV .l. F uerza y eficiencia de la f u e r z a ..................... 257
XIV.2. La p ru e b a de las secuencias ( r u n s ) de WaldW o l f o w i t z ............................................................263
XIV.3. La p ru e b a de M ann-W hitney o de W ilcoxon 269
XIV.4. La p ru e b a de Kolm ogorov-Sm irnov .
. 277
XIV.5. La p ru e b a de W ilcoxon de p ares asociados y
rdenes provistos de s i g n o ............................280
XIV.6. R e s u m e n ................................................................ 284
B i b l i o g r a f a ....................................................................... 288
XV. E scalas nom inales : problem as de contingencia
X V .l.
XV.2.
XV.3.
XV.4.

, .

289

La p ru e b a de la ^ - c u a d r a d a ........................... 289
La p ru e b a exacta de F i s h e r ............................301
M edidas de la fuerza de la relacin . . . .
306
C ontrol de o tra s variables . . . . .
. . 319

B i b l i o g r a f a ....................................................................... 330
XVI. Anlisis de la v aria n cia.................................................... 332
X V I.L
XVI.2.
XVI.3.
XVI.4.

Anlisis sim ple d e la v a r ia n c ia ..................... 332


C om paracin de m edias especficas .
. . 343
Anlisis bim odal de la variancia . . . .
349
A lternativas n o p aram trica s del anlisis de
v a r ia n c ia ................................................................ 365
X V I.5. M edidas de asociacin: correlacin in traclase 370

B i b l io g r a f a ........................................................................376
X V II. Correlacin y r e g r e s i n .............................................. 377
X V II.1. R egresin lineal y m nim os cuadrad os . . 377
XVII.2. C o rre la c i n ..........................................................393
B i b l io g r a f a ....................................................................... 413
X V III. C orrelacin y regresin [ conclusin] ....................... 414
X V III.l. P ru eb a de significacin e intervalos de con
fianza ...................................................................
X V III.2. C orrelacin no lineal y regresin .
X V III.3. Efectos de los erro res de m edicin .
XVIII.4. Escalas o rd in ales: correlacin de inni">
B i b l io g r a f a ......................................
XIX .

Correlacin m ltiple y parclnl ,

X IX .l. R egresin m ltip le y m nim os cuadrados . . 447


XIX.2. C orrelacin p a r c i a l ................................................451
XIX.3. C orrelacin p arcial e in terp re tacio n es cau
sales ...........................................................................461
XIX.4. M nim os cuadrados m ltiples y los coeficien
tes b e t a ................................................................... 469
XIX.5. Correlacin m ltiple . ..................................... 473
XIX .6. R egresin m ltip le y no linealidad . . . 479
XIX.7. P ruebas de significacin e intervalos de con
fianza ......................................................................... 484
B i b l i o g r a f a .......................................................................... 489
XX. Anlisis de covariancia y variables sim uladas .

.491

XX.1. Relacin de dos escalas de intervalo, control


de la escala n o m i n a ] ...........................................492
XX.2. Pvdacin de u n a escala de intervalo y u n a es
cala nom inal, co ntrol de la escala d e intervalo 510
XX.3. Extensiones del anlisis de covariancia . . . 516
XX.4. Anlisis de la variable s im u la d a .......................... 517
XX.5. O bservaciones f i n a l e s ...........................................521
B i b l io g r a f a .......................................................................... 526
Q u in ta P a rte
M u e s tr e o
XXI. M u e s t r e o ................................................................................ 531
X X I.1.
XXI.2.
XXI.3.
XXI.4.
XXI.5.
XXI.6.

M uestreo aleatorio s e n c illo ........................... 532


M uestreo s is te m tic o ........................................537
M uestreo e s tra tif ic a d o ......................................539
M uestreo p o r c o n g lo m e r a d o s ..................... 546
M uestreo sin p r o b a b i l i d a d ........................... 552
E rro res no de m u estreo y tam ao de la
m u e s t r a .................................................................... 553

B ib l io g r a f a ...........................................................................554
Apn d ices
I. R esum en de operaciones a lg e b r a ic a s .........................559
C u a d r o s ................................................................... .............................. 565
Indice de f i g u r a s ................................................................................599
n d ice de c u a d r o s ..............................................................................603

Este libro se termin de imprimir y encuadernar


en el mes de junio de 1994 en los talleres de En
cuadernacin Progreso, S. A. de C. V. (iepsa),
Calz. de San Lorenzo, 244; 09830 Mxico, D. F.
Se tiraron 2 000 ejemplares.

Potrebbero piacerti anche