Sei sulla pagina 1di 83

Fundamentos de Estadstica

Pablo Cazau
Prefacio
Captulo 1: Introduccin a la estadstica
1.1 Definicin y utilidad de la estadstica
1.2 Clasificaciones de la estadstica
1.3 Poblacin y muestra
1.4 Estructura del dato
1.5 La medicin
Captulo 2: Estadstica descriptiva
2.1 Generalidades
2.2 rdenamiento y a!ru"acin de los datos# matrices y tablas
2.3 $isuali%acin de los datos# !r&ficos
2.4 'ntesis de los datos# medidas estadsticas de "osicin
2.5 'ntesis de los datos# medidas estadsticas de dis"ersin
2.( 'ntesis de los datos# asimetra y curtosis
)otas
Captulo 3: Probabilidad y curva normal
3.1 El conce"to de "robabilidad
3.2 Definicin y caractersticas de la cur*a normal
3.3 Punta+es brutos y "unta+es estandari%ados
3.4 ,"licaciones de la cur*a normal
)otas
Captulo 4: Correlacin y regresin
4.1 -ntroduccin
4.2 El an&lisis de correlacin
4.3 C&lculo !r&fico de la correlacin
4.4 C&lculo analtico de la correlacin
4.5 .n e+em"lo# construccin y *alidacin de tests
4.( El an&lisis de re!resin
4./ C&lculo analtico de la re!resin
4.0 C&lculo !r&fico de la correlacin
)otas
Captulo : Estadstica inferencial
5.1 -ntroduccin
5.2 Estimacin de "ar&metros
5.3 Prueba de 1i"tesis
5.4 E+em"los de "ruebas de 1i"tesis
5.5 El conce"to de si!nificacin estadstica
)otas
!eferencias bibliogr"ficas
#tras fuentes consultadas
$ne%os
,)E2 1# )3E)CL,4.5, .4-L-6,D, E) E'4, G.7,
,)E2 2# 4,8L, DE 95E,' 8,: L, C.5$, )53,L E'4,)D,5-6,D,
Tabla 1 reas desde z hacia la izquierda
Tabla 2 reas desde z = 0 hacia la izquierda o hacia la derecha
,)E2 3# 4,8L, DE L, D-'45-8.C-;) t
Fundamentos de estadstica
Pablo Cazau
PREFACIO
El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras universitarias
de grado y posgrado que cursan asignaturas donde se ensea la estadstica como herramienta de la
metodologa de la investigacin cientfica.
e brinda aqu un panorama general e introductorio de los principales temas de una disciplina que opera en
dos grandes etapas! la estadstica descriptiva y la estadstica inferencial. "ambi#n se desarrollan los conceptos
de probabilidad y curva normal$ b%sicos para la comprensin de la estadstica inferencial$ y los conceptos de
correlacin y regresin vinculados$ respectivamente$ con las etapas descriptiva e inferencial.
Pablo Cazau. &icenciado en Psicologa y Profesor de Enseanza 'edia y uperior en Psicologa ()*+,.
*uenos +ires$ Enero -../.
Todos los derechos reservados
CAPTULO 1: ITRO!UCCIO A LA E"TA!I"TICA
1#1 !EFIICI$ % UTILI!A! !E LA E"TA!"TICA
&a Estadstica es una disciplina que utiliza recursos matem%ticos para organizar y resumir una gran cantidad
de datos obtenidos de la realidad$ e inferir conclusiones respecto de ellos.
Por e0emplo$ la estadstica interviene cuando se quiere conocer el estado sanitario de un pas$ a trav#s de
ciertos par%metros como la tasa de morbilidad o mortalidad de la poblacin. En este caso la estadstica
describe la muestra en t#rminos de datos organizados y resumidos$ y luego infiere conclusiones respecto de la
poblacin. Por e0emplo$ aplicada a la investigacin cientfica$ hace inferencias cuando emplea medios
matem%ticos para establecer si una hiptesis debe o no ser rechazada.
&a estadstica puede aplicarse a cualquier %mbito de la realidad$ y por ello es utilizada en fsica$ qumica$
biologa$ medicina$ astronoma$ psicologa$ sociologa$ ling1stica$ demografa$ etc.
Cuando en cualquiera de estas disciplinas se trata de establecer si una hiptesis debe o no ser rechazada$ no
siempre es indispensable la estadstica inferencial.
Por e0emplo$ si sobre /. veces que se mira un dado$ sale un dos 2. veces$ no se requiere la estadstica para
rechazar la hiptesis 3el dado est% cargado4. i sale un dos en 56 ocasiones sobre /.$ tampoco se necesita la
estadstica para aceptar la hiptesis 3el dado est% cargado4.
Pero$ 7qu# ocurre si el n8mero dos sale -.$ -5 o 9. veces: En estos casos de duda$ la estadstica interviene
para determinar hasta qu# cantidad de veces se considerar% rechazada la hiptesis (o bien desde qu# cantidad
de veces se la considerar% aceptada,. En otras palabras$ la estadstica interviene cuando debe determinarse si
los datos obtenidos son debidos al azar o son el resultado de un dado cargado.
;tro e0emplo. i una persona adivina el color (ro0o o negro, de las cartas en un 5.< de los casos$ se puede
rechazar la hiptesis 3la persona es adivina4. i$ en cambio$ acierta en el ==< de los casos el color de las
cartas$ se puede aceptar la mencionada hiptesis. &os casos de duda corresponden a porcenta0es de acierto
intermedios$ como el /.<$ el >.<$ etc.$ en cuyos casos debe intervenir la estadstica para despe0arlos.
&a importancia de la estadstica en la investigacin cientfica radica en que la gran mayora de las
investigaciones son ?casos de duda@.
1#& CLA"IFICACIOE" !E LA E"TA!"TICA
Existen varias formas de clasificar los estudios estadsticos.
2, Segn la etapa.A Bay una estadstica descriptiva y una estadstica inferencial. &a primera etapa se ocupa de
describir la muestra$ y la segunda etapa infiere conclusiones a partir de los datos que describen la muestra
(por e0emplo$ conclusiones con respecto a la poblacin,.
"anto la estadstica descriptiva como la estadstica inferencial se ocupan de obtener datos nuevos. &a
diferencia radica en que la estadstica descriptiva procede a resumir y organizar esos datos para facilitar su
an%lisis e interpretacin$ y la estadstica inferencial procede a formular estimaciones y probar hiptesis acerca
de la poblacin a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas 8ltimas
operaciones llevar%n siempre a conclusiones que tienen alg8n grado de probabilidad$ la teora de la
probabilidad constituye una de sus herramientas principales. "#ngase presente que en s misma la teora de la
probabilidad no forma parte de la estadstica porque es otra rama diferente de la matem%tica$ pero es
utilizada por la estadstica como instrumento para lograr sus propios ob0etivos.
&a estadstica descriptiva tambi#n incluye Cexplcita o implcitamenteA consideraciones probabilsticas$ aunque
no resultan ser tan importantes como en la estadstica inferencial. Por e0emplo$ la eleccin de un determinado
estadstico para caracterizar una muestra (modo$ mediana o media aritm#tica, se funda sobre ciertas
consideraciones implcitas acerca de cu%l de ellos tiene m%s probabilidades de representar significativamente
el con0unto de los datos que se intenta resumir.
"anto la estadstica descriptiva como la inferencial implican$ entonces$ el an%lisis de datos. 3i se realiza un
an%lisis con el fin de describir o caracterizar los datos que han sido reunidos$ entonces estamos en el %rea de
la estadstica descriptivaD Por otro lado$ la estadstica inferencial no se refiere a la simple descripcin de los
datos obtenidos$ sino que abarca las t#cnicas que nos permiten utilizar los datos muestrales para inferir u
obtener conclusiones sobre las poblaciones de las cuales fueron extrados dichos datos4 (Pagano$ 2==6!2=,.
Eohan$ por su parte$ sintetiza as su visin de las diferencias entre ambos tipos de estadstica! 3i estudiamos
una caracterstica de un grupo$ sea en una poblacin o en una muestra$ por e0emplo talla$ peso$ edad$
cociente intelectual$ ingreso mensual$ etc$ y lo describimos sin sacar de ello conclusiones estamos en la etapa
de la estadstica descriptiva. i estudiamos en una muestra una caracterstica cualquiera e inferimos$ a partir
de los resultados obtenidos en la muestra$ conclusiones sobre la poblacin correspondiente$ estamos haciendo
estadstica inductiva o inferencial$ y como estas inferencias no pueden ser exactamente ciertas$ aplicamos el
lengua0e probabilstico para sacar las conclusiones4 (Eohan$ 2==F!-5,. Eohan emplea la palabra inductiva
porque las inferencias realizadas en este tipo de estadstica son razonamientos inductivos$ modernamente
definidos como razonamientos cuya conclusin es slo probable.
-, Segn la cantidad de variables estudiada.A Gesde este punto de vista hay una estadstica univariada
(estudia una sola variable$ como por e0emplo la inteligencia,$ una estadstica bivariada (estudia la relacin
entre dos variables$ como por e0emplo inteligencia y alimentacin,$ y una estadstica multivariada (estudia
tres o m%s variables$ como por e0emplo como est%n relacionados el sexo$ la edad y la alimentacin con la
inteligencia,.
El siguiente esquema ilustra la relacin entre dos clasificaciones de la estadstica! descriptiva H inferencial y
univariada H bivariada.
&a estadstica descriptiva se ocupa de muestras$ y la estadstica inferencial infiere caractersticas de la
poblacin a partir de muestras.
+ su vez$ ambas etapas de la estadstica pueden estudiar una variable por vez o la relacin entre dos o m%s
variables. Por e0emplo$ a, en el caso de la estadstica univariada$ el c%lculo de medidas de posicin y
dispersin en una muestra corresponde a la estadstica descriptiva$ mientras que la prueba de la media
corresponde a la estadstica inferencialI b, en el caso de la estadstica bivariada$ el an%lisis de correlacin de
variables en una muestra corresponde estrictamente hablando a la estadstica descriptiva$ mientras que el
an%lisis de regresin o las pruebas de hiptesis para coeficientes de correlacin (Eohan J$ 2==F!-9F,
corresponden a la estadstica inferencial.
9, Segn el tiempo considerado.A i se considera a la estadstica descriptiva$ se distingue la estadstica
est%tica o estructural$ que describe la poblacin en un momento dado (por e0emplo la tasa de nacimientos en
determinado censo,$ y la estadstica din%mica o evolutiva$ que describe como va cambiando la poblacin en el
tiempo (por e0emplo el aumento anual en la tasa de nacimientos,.
1#' PO(LACI$ % )UE"TRA
Puesto que la estadstica se ocupa de una gran cantidad de datos$ debe primeramente definir de cu%les datos
se va a ocupar. El con0unto de datos de los cuales se ocupa un determinado estudio estadstico se llama
*o+laci,n.
Jo debe confundirse la poblacin en sentido demogr%fico y la poblacin en sentido estadstico.
&a poblacin en sentido demogr%fico es un con0unto de individuos (todos los habitantes de un pas$ todas las
ratas de una ciudad,$ mientras que una poblacin en sentido estadstico es un con0unto de datos referidos a
determinada caracterstica o atributo de los individuos (las edades de todos los individuos de un pas$ el color
de todas las ratas de una ciudad,.
Kncluso una poblacin en sentido estadstico no tiene porqu# referirse a muchos individuos. )na poblacin
estadstica puede ser tambi#n el con0unto de calificaciones obtenidas por un individuo a lo largo de sus
estudios universitarios.
En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales$ seg8n que
correspondan a muchas personas o a una sola$ y tambi#n seg8n que hayan sido recolectados en un instante
de tiempo determinado$ o bien a lo largo del tiempo.
Ge muchos individuos Ge un solo individuo
En un instante de tiempo Jotas de todos los alumnos en el
primer parcial de tal mes y tal ao.
Jotas de un solo alumno en el
primer parcial de las materias que
cursa en ese momento.
+ lo largo del tiempo Jotas de todos los alumnos durante
los / aos de carrera.
Jotas de un alumno a lo largo de los
/ aos de carrera.
&os datos de la totalidad de una poblacin pueden obtenerse a trav#s de un censo. in embargo$ en la
mayora de los casos no es posible hacerlo por razones de esfuerzo$ tiempo y dinero$ razn por la cual se
POBLACION
MUESTRA
Pa!metos
"
#
"
$
"
n
Estadsticos
"
#
%
#
"

%
"

%
Una &aiable 'os (o m!s) &aiables
extrae$ de la poblacin$ una muestra$ mediante un procedimiento llamado muestreo. e llama muestra a un
subcon0unto de la poblacin$ y que puede o no ser representativa de la misma.
Por e0emplo$ si la poblacin es el con0unto de todas las edades de los estudiantes de la provincia de *uenos
+ires$ una muestra podra ser el con0unto de edades de -... estudiantes de la provincia de *uenos +ires
tomados al azar.
1#- E"TRUCTURA !EL !ATO
&os datos son la materia prima con que traba0a la estadstica$ del mismo modo que la madera es la materia
prima con que traba0a el carpintero. +s como este procesa o transforma la madera para obtener un producto
8til$ as tambi#n el estadstico procesa o transforma los datos para obtener informacin 8til. "anto los datos
como la madera no se inventan! se extraen de la realidadI en todo caso el secreto est% en recoger la madera
o los datos m%s adecuados a los ob0etivos del traba0o a realizar.
Ge una manera general$ puede definirse t#cnicamente dato como una categora asignada a una variable de
una unidad de an%lisis. Por e0emplo$ 3&uis tiene 2.>. metros de estatura4 es un dato$ donde ?&uis@ es la unidad
de an%lisis$ ?estatura@ es la variable$ y ?2.>. metros@ es la categora asignada.
Como puede apreciarse$ todo dato tienen al menos tres componentes! una unidad de an%lisis$ una variable y
una categora.
&a unidad de an.lisis es el elemento del cual se predica una propiedad y caracterstica. Puede ser una
persona$ una familia$ un animal$ una sustancia qumica$ o un ob0eto como una dentadura o una mesa.
&a varia+le es la caracterstica$ propiedad o atributo que se predica de la unidad de an%lisis. Por e0emplo
puede ser la edad para una persona$ el grado de cohesin para una familia$ el nivel de aprendiza0e alcanzado
para un animal$ el peso especfico para una sustancia qumica$ el nivel de ?salud@ para una dentadura$ y el
tamao para una mesa.
Pueden entonces tambi#n definirse poblacin estadstica (o simplemente poblacin, como el con0unto de datos
acerca de unidades de an%lisis (individuos$ ob0etos, en relacin a una misma caracterstica$ propiedad o
atributo (variable,.
obre una misma poblacin demogr%fica pueden definirse varias poblaciones de datos$ una para cada variable.
Por e0emplo$ en el con0unto de habitantes de un pas (poblacin demogr%fica,$ puede definirse una poblacin
referida a la variable edad (el con0unto de edades de los habitantes,$ a la variable ocupacin (el con0unto de
ocupaciones de los habitantes,$ a la variable sexo (el con0unto de condiciones de sexo de los habitantes,.
&a cate/ora es cada una de las posibles variaciones de una variable. Categoras de la variable sexo son
masculino y femenino$ de la variable ocupacin pueden ser arquitecto$ m#dico$ etc$ y de la variable edad
pueden ser 2. aos$ 22 aos$ etc. Cuando la variable se mide cuantitativamente$ es decir cuando se expresa
num#ricamente$ a la categora suele llam%rsela valor. En estos casos$ el dato incluye tambi#n una unidad de
medida$ como por e0emplo aos$ cantidad de hi0os$ grados de temperatura$ cantidad de piezas dentarias$
centmetros$ etc. El valor es$ entonces$ cada una de las posibles variaciones de una variable cuantitativa.
Datos individuales y datos estadsticos.A )n dato individual es un dato de un solo individuo$ mientras que un
dato estadstico es un dato de una muestra o de una poblacin en su con0unto. Por e0emplo$ la edad de Luan
es un dato individual$ mientras que el promedio de edades de una muestra o poblacin de personas es un dato
estadstico. Gesde ya$ puede ocurrir que ambos no coincidan! la edad de Luan puede ser 9> aos$ y el
promedio de edades de la muestra donde est% includo Luan es -9 aos. Por esta razn un dato estadstico
nada dice respecto de los individuos$ porque solamente describe la muestra o poblacin.
&os datos estadsticos que describen una muestra suelen llamarse estadsticos (por e0emplo$ el promedio de
ingresos mensuales de las personas de una muestra,$ mientras que los datos estadsticos descriptores de una
poblacin suelen llamarse *ar.metros (por e0emplo$ el promedio de ingresos mensuales de las personas de
una poblacin, (Eohan J$ 2==F!2F9,.
1#0 LA )E!ICI$
&os datos se obtienen a trav#s un proceso llamado medicin. Gesde este punto de vista$ puede definirse
medici,n como el proceso por el cual asignamos una categora (o un valor, a una variable$ para determinada
unidad de an%lisis. E0emplo! cuando decimos que 'artn es varn$ estamos haciendo una medicin$ porque
estamos asignando una categora (varn, a una variable (sexo, para una unidad de an%lisis ('artn,.
+ veces se ha definido medir como comparar$ lo cual puede referirse a diversos tipos de comparacin! 2, comparar una
cantidad con otra tomada como unidad entido cl%sico de comparacin,I -, comparar dos categoras de una misma
variable en el mismo su0eto y distinto tiempoI 9, comparar dos categoras de una misma variable en distintos su0etos al
mismo tiempoI y F, categoras de variables distintas (debe usarse punta0e estandarizado,$ en el mismo su0eto o en
su0etos distintos.
e pueden hacer mediciones con mayor o menor grado de precisin. Cuanto m%s precisa sea la medicin$ m%s
informacin nos suministra sobre la variable y$ por tanto$ sobre la unidad de an%lisis. Jo es lo mismo decir que
una persona es alta$ a decir que mide 2$69 metros.
&os diferentes grados de precisin o de contenido informativo de una medicin se suelen caracterizar como
niveles de medici,n. "picamente se definen cuatro niveles de medicin$ y en cada uno de ellos la obtencin
del dato o resultado de la medicin ser% diferente!
E0emplos de datos en diferentes niveles de medicin
Jivel de
medicin
Jivel nominal Jivel ordinal Jivel cuantitativo
discreto
Jivel cuantitativo
continuo
G+"; 'artn es
electricista
Elena termin la
secundaria
Luan tiene 9-
dientes
'ara tiene >.
pulsaciones por
minuto
)nidad de
an%lisis
'artn Elena Luan 'ara
Mariable ;ficio Jivel de
instruccin
Cantidad de piezas
dentarias
Nrecuencia cardaca
Categora o
valor
Electricista ecundaria
completa
9- >.
)nidad de
medida
AAAAAAAAAAAAA AAAAAAAAAAAA Giente Pulsaciones por
minuto
En el nivel nominal$ medir significa simplemente asignar un atributo a una unidad de an%lisis ('artn es
electricista,.
En el nivel ordinal$ medir significa asignar un atributo a una unidad de an%lisis cuyas categoras pueden ser
ordenadas en una serie creciente o decreciente (la categora ?secundaria completa@ puede ordenarse en una
serie$ pues est% entre ?secundaria incompleta@ y ?universitaria incompleta@,.
En el nivel cuantitativo$ medir significa adem%s asignar un atributo a una unidad de an%lisis de modo tal que
la categora asignada permita saber ?cu%nto@ mayor o menor es respecto de otra categora$ es decir$ especifica
la distancia o intervalo entre categoras (por e0emplo$ la categora >. es el doble de la categora 95,.
&as variables medibles en el nivel cuantitativo pueden ser discretas o continuas. )na variable discreta es
aquella en la cual$ dados dos valores consecutivos$ no puede adoptar ning8n valor intermedio (por e0emplo
entre 9- y 99 dientes$ no puede hablarse de 9-.5 dientes,. En cambio$ una variable es continua cuando$
dados dos valores consecutivos$ la variable puede adoptar muchos valores intermedios (por e0emplo entre 2 y
- metros$ puede haber muchas longitudes posibles,.
+lgunas veces una misma variable puede ser considerada como discreta o continua. Por e0emplo$ la variable
peso es discreta si solamente interesan los pesos sin valores intermedios (5. Og$ 52 Og$ etc,$ mientras que
ser% continua si interesan tambi#n los valores intermedios (5.$9 Og$ 5.$95 Og$ 5.$95> Og$ etc,. ;bviamente$
al considerar una variable como continua se obtendr% mayor precisin$ es decir$ mayor informacin.
&a precisin es una cualidad importante de la medicin. e pueden hacer mediciones m%s precisas y menos precisas$ o
tan precisas como lo permita el instrumento de medicin. El primer nivel de medicin es el menos preciso$ y el 8ltimo el
m%s preciso. Por e0emplo$ una mu0er puede estar interesada en ?medir@ el amor de su pare0a$ para lo cual podr%
interrogarla solicit%ndole diferentes grados de precisin! 7me quer#s: (nivel nominal,$ 7me quer#s m%s que a la otra:
(nivel ordinal,$ 7Cu%nto me quer#s$ del 2 al 2.: (nivel cuantitativo,.
Ge la misma manera$ diferentes grados de precisin para la variable temperatura pueden ser! + es un ob0eto caliente
(nivel nominal,$ + es m%s caliente que * (nivel ordinal,$ + tiene -5 grados Celsius (nivel cuantitativo,. &os e0emplos del
amor y de la temperatura ilustran tambi#n el hecho de que una variable puede en principio medirse en cualquiera de los
niveles de medicin.
&os niveles de medicin pueden tambi#n ser clasificados de acuerdo a un criterio diferente$ que afecta
especficamente a los dos 8ltimos. +s$ los niveles de medicin pueden ser clasificados como nominal$ ordinal$
de intervalos iguales y de cocientes o razones.
'%s all% de sus diferentes propiedades matem%ticas$ el nivel de intervalos iguales incluye un cero relativo o
arbitrario$ mientras que el nivel de cocientes o razones incluye un cero absoluto o real. )n cero absoluto o real
representa la ausencia ?real@ de la variable (cero metros implica ausencia de longitud,$ mientras que un cero
relativo o arbitrario no (cero grado centgrados no implica ausencia de temperatura,.
Existen ciertas variables a las cuales no puede asign%rsele un ?cero real@$ por cuanto no se considera que esa
variable pueda estar ausente en la realidad. "al es el caso de la ansiedad o la inteligencia! nadie$ por menos
ansioso o por menos inteligente que sea$ puede tener ansiedad o inteligencia nulas.
CAPTULO &: E"TA!"TICA !E"CRIPTI1A
&#1 2EERALI!A!E"
El propsito fundamental de la estadstica descri*tiva es resumir y organizar una gran cantidad de datos
referentes a una muestra (lo m%s habitual, o a una poblacin. e supone que los datos resumidos y
organizados permiten describir adecuadamente la muestra o la poblacin a los efectos de conocerla y$
eventualmente$ utilizarlos en la estadstica inferencial para obtener conclusiones a partir de ellos.
Para resumir y organizar los datos se utilizan diferentes procedimientos$ llamados t3cnicas descri*tivas! la
matriz de datos permite ordenarlos$ las tablas de frecuencias (o tablas de distribucin de frecuencias,
permiten agruparlos$ los gr%ficos permiten visualizarlos$ y las medidas estadsticas y las medidas de asimetra
y curtosis permiten resumirlos reduci#ndolos a un solo dato.
"ecuencia *ara or/ani4ar 5 resumir datos individuales
+ medida que se van utilizando estos procedimientos$ los datos van quedando cada vez m%s resumidos y
organizados. El empleo de dichos procedimientos propios de la estadstica descriptiva sigue un orden
determinado$ como puede apreciarse en el siguiente esquema!
Como puede verse!
a, &os datos quedan recolectados mediante entrevistas$ cuestionarios$ tests$ etc.
b, &os datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la informacin en unas
pocas p%ginas,.
c, &os datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la informacin en una
sola p%gina,.
d, &os datos quedan visualizados mediante gr%ficos.
e, &os datos quedan sintetizados mediante las medidas estadsticas y otras (lo cual permite resumir la
informacin en uno o dos renglones,.
Puede entonces decirse que$ mediante una matriz de datos$ una tabla de frecuencias (2,$ un gr%fico o con
medidas estadsticas$ etc$ la muestra o la poblacin (con0untos de datos, puede quedar adecuadamente
descrita.
Estas sucesivas abstracciones estadsticas implican! a, la reduccin del espacio fsico donde queda guardada la
nueva informacin$ y b, la desaparicin de considerable informacin irrelevante.
Gebe distinguirse el fin o propsito perseguido (por e0emplo ordenar los datos,$ del medio utilizado para ello$
que e la t#cnica descriptiva (por e0emplo$ la matriz de datos,.
&#& OR!EA)IETO % A2RUPACI$ !E LO" !ATO": )ATRICE" % TA(LA"
)na vez que los datos han sido recolectados$ se procede a continuacin a ordenarlos en una matriz de datos y
luego a agruparlos en una tabla de frecuencias.
&a forma de ordenarlos y agruparlos depender% del tipo de variable considerada. Por e0emplo$ si son datos
relativos a variables cualitativas (niveles de medicin nominal y ordinal,$ no podremos utilizar tablas de
frecuencias por intervalos. El siguiente cuadro indica de qu# manera se pueden ordenar y agrupar los datos
seg8n cada nivel de medicin de la variable!
'ATOS RECOLECTA'OS
(ente&istas* cuestionaios* tests* etc)
'ATOS OR'ENA'OS
(matiz de datos)
'ATOS A+RUPA'OS POR
FRECUENCIA
(tabla de ,ecuencias)
'ATOS A+RUPA'OS POR
INTER-ALOS
(tabla de ,ecuencias .o inte&alos)
'ATOS -ISUALI/A'OS
(0!,icos)
'ATOS SINTETI/A'OS
(medidas estadsticas % medidas de asimeta % cutosis)
Ejemplos de organizacin de los datos segn el nivel de medicin
'atos odenados 'atos a0u.ados .o ,ecuencia 'atos a0u.ados .o inte&alos
Ni&el nominal
(Ejemplo:
variable
religin)
Matriz de datos
Su1eto " (eli0i2n)
Juan Catlica
Pedro Catlica
Mara Juda
Antonio Protestante
Luis Protestante
Jos Protestante
Tabla de frecuencias
" (eli0i2n) ,
Catlica !
Juda "
Protestante #
n 3 4
, $ %recuencia
n $ tama&o de la muestra
Ni&el odinal
(Ejemplo:
variable clase
social)
Matriz de datos
Su1eto " (clase
social)
Juan Alta
Pedro Media
Mara Media
Antonio Media
Luis 'aja
Jos 'aja
Tabla de frecuencias
" (clase social) ,
Alta "
Media #
'aja !
n 3 4
, $ %recuencia
n $ tama&o de la muestra
Ni&el
cuantitati&o
(Ejemplo:
variable edad)
Matriz de datos
Su1eto " (edad)
Juan "(
Pedro "(
Mara "(
Antonio ")
Luis ")
Jos ")
Ana ")
*abriela ")
+usana ",
Martn ",
+ergio ",
Pablo ",
-aniel ",
*raciela ",
-aniela ",
'eatri. ",
/scar "0
1elipe "0
Alberto "0
Mnica "2
Marta "2
Mariana !3
Tabla de frecuencias
" (edad) ,
"( #
") (
", 0
"0 #
"2 !
!3 "
n 3 $$
, $ %recuencia
n $ tama&o de la muestra
Tabla de frecuencias por
intervalos
" (edad) ,
"(4") 0
",4"0 ""
"24!3 #
n 3 $$
, $ %recuencia
n $ tama&o de la muestra
)na vez confeccionada la matriz de datos$ se procede luego a resumir a8n m%s esta informacin mediante una
tabla de frecuencias o$ si cabe$ en una tabla de frecuencias por intervalos. )na tabla de este 8ltimo tipo se
0ustifica cuando la tabla de frecuencias original es demasiado grande y por tanto de difcil mane0o para
procesar la informacin. ea de la forma que fuere$ los datos ordenados seg8n sus frecuencias suelen
denominarse distribucin de frecuencias (29,.
&as tablas de frecuencias contienen tres elementos importantes! las frecuencias$ el tamao de la muestra y
los intervalos (en este 8ltimo caso slo para variables cuantitativas,.
a, Frecuencia.A &a frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por e0emplo!
la frecuencia - indica que el dato ?catlico@ se repite dos veces$ la frecuencia 9 que el dato 3clase media4 se
repite tres veces$ y la frecuencia 6 que el dato 32> aos4 se repite ocho veces.
+ veces resulta necesario expresar las frecuencias de otra manera$ como puede apreciarse en la siguiente
tabla ilustrativa!
Tipos de frecuencias que pueden indicarse en una tabla de frecuencias
6 7edad8 9 9: F F: 9r Fr
25 9 25< 9 25< ..25 ..25
2/ > 95< 2. 5.< ..95 ..5.
2> 6 F.< 26 =.< ..F. ..=.
26 - 2.< -. 2..< ..2. 2
n ; &< n ; 1<<: ====== ====== n ; 1 ======
Frecuencia absoluta (f,.A Es la cantidad de datos que se repiten. Por e0emplo$ la frecuencia 9 indica que hay
tres personas de 25 aos. &a suma de todas las frecuencias absolutas equivale al tamao de la muestra.
Frecuencia porcentual (f<,.A Es el porcenta0e de datos que se repiten. Por e0emplo$ la frecuencia porcentual
25< indica que el 25< de la muestra tiene la edad de 25 aos. &a suma de todas las frecuencias porcentuales
es 2..<.
Frecuencia acumulada (N,.A Es el resultado de haber sumado las frecuencias anteriores. Por e0emplo$ la
frecuencia acumulada 2. resulta de sumar >P9$ e indica la cantidad de veces que se repiten las edades 2/ y
25. &a 8ltima de todas las frecuencias acumuladas$ que en el e0emplo es -.$ debe coincidir con el tamao de
la muestra.
Frecuencia acumulada porcentual (N<,.A Es el porcenta0e de las frecuencias acumuladas.
Frecuencia relativa (fr,.A + veces tambi#n llamada proporcin$ es el cociente entre la frecuencia de un dato x y
la frecuencia total o tamao de la muestra. En la pr%ctica$ el tamao de la muestra se considera como 2$ a
diferencia del tamao de la muestra en la frecuencia porcentual$ que se considera 2..<.
Frecuencia relativa acumulada (Nr,.A Es el resultado de haber sumado las frecuencias relativas anteriores. Por
e0emplo! la frecuencia relativa ..=. indica que en ..=. casos sobre 2 las edades est%n comprendidas entre 25
y 2> aos.
Frecuencias parciales y frecuencia total.A "anto las frecuencias absolutas como las porcentuales o las relativas
pueden ser frecuencias parciales o una frecuencia total$ siendo #sta 8ltima la suma de todas frecuencias
parciales.
&as frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia total$
y sirven para establecer comparaciones entre muestras distintas. Por e0emplo$ si en una muestra de 2...
hombres$ solo votaron -..$ y en una muestra de /.. mu0eres solo votaron -.. mu0eres$ en t#rminos de
frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos$ es decir -..$ pero en
?proporcin@$ las mu0eres votaron m%s (la tercera parte del total, que los hombres (la quinta parte del total,.
Esta informacin se obtiene al convertir las frecuencias absolutas en frecuencias porcentuales o en frecuencias
relativas (o proporciones,.
-, Tama>o de la muestra.A ;tro concepto importante es el tamao de la muestra (n) que designa la
cantidad total de datos. ;bviamente$ la suma de todas las frecuencias f debe dar como resultado el tamao n
de la muestra$ por lo que el tamao de la muestra coincide con la frecuencia total.
9, Intervalos.A )n intervalo$ tambi#n llamado intervalo de clase$ es cada uno de los grupos de valores
ubicados en una fila en una tabla de frecuencias. Por e0emplo el intervalo 25A2/ significa que en esa fila se
est%n considerando las edades de 25 a 2/ aos. &a frecuencia correspondiente a un intervalo es igual a la
suma de frecuencias de los valores en #l includos (-,. &os intervalos presentan algunas caractersticas$ que
son las siguientes!
!amao del intervalo (a,.A "ambi#n llamado amplitud o anchura del intervalo$ es la cantidad de valores de la
variable que se consideran con0untamente en ese intervalo. Por e0emplo$ el intervalo 25A2/ aos tiene una
amplitud de -$ puesto que se consideran dos valores! 25 y 2/. En otro e0emplo$ el intervalo -.A-5 aos tiene
una amplitud de /$ puesto que se consideran seis valores.
En general$ puede calcularse el tamao de un intervalo restando el lmite superior y el inferior y sumando al
resultado el n8mero 2. Por e0emplo$ -5 menos -. da 5$ y sum%ndole 2 da /.
&os e0emplos indicados corresponden a variables discretas$ lo que significa que no podr%n encontrarse valores
intermedios entre dos intervalos. Por e0emplo$ entre los intervalos 25A2/ y 2>A26 no se encontrar%n valores
intermedios entre 2/ y 2> aos.
"#ngase presente que! a, preferiblemente los intervalos deben tener un tamao constante$ de manera tal que
no se pueden considerar como intervalos 25A2/ y 2>A-.$ porque tienen diferentes tamaosI y b, los intervalos
han de ser mutuamente excluyentes$ de manera tal que cuando se trata de variables discretas$ no pueden
definirse los intervalos 25A2/ y 2/A2>$ porque el valor 2/ aos est% en ambos intervalos y no se podr% saber
con seguridad en qu# intervalo ubicar dicho valor.
El problema se puede presentar con las variables continuas$ donde$ por definicin$ podra aparecer alg8n valor
intermedio entre dos intervalos. Por e0emplo$ si se considera la variable continua ?ingresos mensuales@ y se
consideran en ella los intervalos 2...A-... dlares y 9...AF... dlares$ puede ocurrir que un dato obtenido
de la realidad sea -5.. dlares$ con lo cual no podr% ser registrado en ning8n intervalo. En tal caso se
deberan reorganizar los intervalos como 2...A-=== dlares y 9...AF=== dlares$ con lo cual el problema
estara resuelto.
Gesde ya$ puede ocurrir que aparezca un ingreso mensual de -===$5. dlares$ en cuyo caso en principio
deberan reorganizarse nuevamente los intervalos como 2...A-===$5. dlares y -===$52AF=== dlares. &a
forma de reorganizar los intervalos depender% entonces del grado de precisin que pretenda el investigador o
del grado de precisin del instrumento de medicin disponible.
"mites del intervalo.A "odo intervalo debe quedar definido por dos lmites! un lmite inferior y un lmite
superior. Estos lmites$ a su vez$ pueden ser aparentes o reales (Pagano$ 2==6!96A9=,. Consid#rese el
siguiente e0emplo!
Lmites a*arentes Lmites reales
=5A== =F.5A==.5
=.A=F 6=.5A=F.5
65A6= 6F.5A6=.5
6.A6F >=.5A6F.5
>5A>= >F.5A>=.5
i la variable considerada es discreta$ carecer% de sentido la distincin entre lmites reales o aparentes. i se
conviene que los valores que la variable puede adoptar son n8meros enteros$ se considerar%n solamente los
intervalos =5A==$ =.A=F$ etc. Estos intervalos son en rigor reales$ porque expresan los valores ?reales@ que
puedan haber$ que no son fraccionarios.
lo en el caso de las variables continuas adquiere sentido la distincin entre lmites reales y aparentes. i la
variable es continua$ deberan tenerse en cuenta los lmites reales. Por e0emplo$ si un valor resulta ser =F.5-$
entonces ser% ubicado en el intervalo =F.5A==.5. in embargo$ a8n en estos casos$ lo usual es omitir los
lmites reales y presentar slo los lmites aparentes (Pagano$ 2==6!9=,. En todo caso$ los lmites reales se
utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en un gr%fico.
En principio$ en ning8n caso deber% haber una superposicin de valores$ como en el caso de los intervalos -.A
-2 y -2A--$ donde el valor -2 est% includo en ambos intervalos$ viol%ndose as la regla de la mutua exclusin.
i acaso se presentara esta situacin$ o bien podr% ser ad0udicada a un error del autor de la tabla$ o bien
deber% traducrsela como -.A-..== y -2A--.==.
#unto medio del intervalo ($m).A Es el valor que resulta de la semisuma de los lmites superior e inferior$ es
decir$ el punto medio del intervalo se calcula sumando ambos lmites y dividiendo el resultado por dos. Por
e0emplo$ el punto medio del intervalo 25A-. es 2>.5. El punto medio del intervalo sirve para calcular la media
aritm#tica.
%ntervalos abiertos y cerrados.A Kdealmente$ todos los intervalos deberan ser cerrados$ es decir$ deberan
estar especificados un lmite superior y uno inferior de manera definida. in embargo$ en algunos casos se
establecen tambi#n intervalos abiertos$ donde uno de los lmites queda sin definir. En el siguiente e0emplo$ @26
o menos@ y @-= o m%s@ son intervalos abiertos. ;bviamente$ en este tipo de distribucin los intervalos de0an de
ser de tamao constante.
Intervalos
26 o menos
2=A-9
-FA-6
-= o m%s
&antidad de intervalos.A &a cantidad de intervalos es inversamente proporcional al tamao de los mismos!
cuanto menor tamao tienen los intervalos$ m%s numerosos ser%n.
El solo hecho de emplear intervalos supone una cierta p#rdida de la informacin. Por e0emplo$ si se considera
el intervalo 25A26 aos$ quedar% sin saber cu%ntas personas de 2/ aos hay. Para reducir esta incertidumbre$
podra establecerse un intervalo menor (25A2/ aos,$ pero con ello habr% aumentado la cantidad de intervalos
hasta un punto donde la informacin se procesar% de manera m%s difcil. Consiguientemente$ al agrupar los
datos hay que resolver el dilema entre perder informacin y presentar los datos de manera sencilla (Pagano Q$
2==6!9>, (*otella$ 2==9!5F,$ es decir$ encontrar el 0usto equilibrio entre el tamao de los intervalos y su
cantidad.
En la pr%ctica$ por lo general (Pagano$ 2==6!9>, se consideran de 2. a -. intervalos$ ya que la experiencia
indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones de datos (9,.
e pueden sintetizar algunas reglas importantes para la construccin de intervalos de la siguiente manera!
a, &os intervalos deben ser mutuamente excluyentes.
b, Cada intervalo debe incluir el mismo n8mero de valores (constancia de tamao,.
c, &a cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser includos en alg8n
intervalo,.
d, El intervalo superior debe incluir el mayor valor observado (*otella$ 2==9!5F,.
e, El intervalo inferior debe incluir al menor valor observado (*otella$ 2==9!5F,.
f, En variables continuas$ es aconse0able expresar los lmites aparentes de los intervalos$ que los lmites
reales.
&#' 1I"UALI?ACI$ !E LO" !ATO": 2R@FICO"
)na vez que los datos han sido organizados en tablas de frecuencias$ es posible seguir avanzando
organiz%ndolos$ desde all$ de otras maneras diferentes y con distintos propsitos. )na de estas maneras es la
utilizacin de representaciones gr%ficas$ algunas de las cuales son aptas para representar variables cualitativas
(niveles nominal y ordinal, y otras para variables cuantitativas. +l tratarse de esquemas visuales$ los gr%ficos
permiten apreciar de un ?golpe de vista@ la informacin obtenida.
!ia/rama de tallo 5 hoAas
Esta t#cnica de visualizacin de datos es aqu mencionada en primer lugar porque puede ser considerada un
procedimiento intermedio entre la tabla de frecuencias y el gr%fico. Nue creada por "uOey en 2=>> (citado por
*otella$ 2==9!5=, y presenta$ entre otras$ las siguientes venta0as! a, permite conocer cada puntuacin
individual (a diferencia de la tabla de frecuencias por intervalos$ donde desaparecen en ellos,I y b, puede ser
considerada un ?gr%fico@ si hacemos girar =.R el listado de puntuaciones o datos.
+ continuacin se describe la forma de construir un diagrama de tallo y ho0as$ tomando como e0emplo la
siguiente distribucin de datos ordenados!
9-A99A9>AF-AF/AF=A52A5FA55A5>A56A/2A/9A/9A/5A/6A>2A>-A>9A>9A>9A>5A>>A>>A>6A69A65A65A=2A=9
Tallo BoAas
' &'C
- &DE
0 1-0CF
D 1''0F
C 1&'''0CCF
F '00
E 1'
Procedimiento para realizar el diagrama de tallo y ho0as
a, e construye una tabla como la de la izquierda con dos columnas! tallos y ho0as.
b, e identifican cu%les son los valores extremos! 9- y =9.
c, e consideran los primeros dgitos de cada valor! 9 y =.
d, En la columna 3tallos4 se colocan los n8meros desde el 9 hasta el =.
e, En la columna 3ho0as4 se colocan los segundos dgitos de cada valor que empiece con
9$ con F$ con 5$ etc.
Sirando la tabla obtenida =.R hacia la izquierda$ se obtendr% algo similar a un gr%fico de barras$ que muestra
por e0emplo que la mayor concentracin de valores es la que comienza con >.
)na utilidad adicional del diagrama de tallo y ho0as es que permite comparar visualmente dos variables$ es
decir$ dos con0untos de datos en los an%lisis de correlacin$ como puede apreciarse en el siguiente e0emplo!
BoAas 72ru*o control8 Tallo BoAas 72ru*o e6*erimental8
6>/55 2 =
FF9--22. - 2-F
6>//55 9 5//>>666==
222... F ...-99FF
5 555
Misualmente es posible darse una idea de los resultados del experimento! los datos del grupo experimental
tienden a concentrarse en los valores altos$ y los del grupo de control en los valores ba0os.
Picto/rama
Es una representacin gr%fica en la cual se utilizan dibu0os. Por e0emplo$ en el siguiente pictograma cada cara
puede representar 2.. personas!
-aones
Mu1ees
#55 .esonas
"ector circular
Qepresentacin gr%fica de forma circular donde cada porcin de la ?torta@ representa una frecuencia. Para
confeccionarlo se parte de una tabla de frecuencias donde est%n especificadas las frecuencias en grados (fR,$
las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas (f,.
Por e0emplo$ si 6-5 es a 9/.R$ entonces 92. es igual a 9/.R x 92. dividido por 6-5$ lo cual da un resultado de
295R. Por lo tanto$ para representar la frecuencia 92. deber% trazarse un %ngulo de 295R.
Estos valores pueden verse en el e0emplo siguiente$ donde se han representado dos sectores circulares
distintos$ uno para varones y otro para mu0eres!
"
(.atolo0a)
Se"o
-aones Mu1ees
Total ,6
(&aones)
,6
(mu1ees)
Angina #"3 !0, (2, "#(5 ""#5
'ron6uitis !2, 7!2 ,!) "#35 ")25
+arampin "!# "!3 !7# (75 7,5
/tras 2( 03 ",( 7"5 #"5
8otal 0!( 2") ")2" #)35 #)35
Para realizar estos sectores se traza un %ngulo de por e0emplo 29.R y dentro de coloca la palabra 3bronquitis4$
y as sucesivamente.
El crculo para mu0eres es algo mayor que el crculo para hombres$ porque en la muestra hay m%s mu0eres
que hombres. Para lograr estos tamaos debe calcularse el radio. Por e0emplo$ si se ha elegido un radio
masculino de F cm$ el radio femenino puede calcularse mediante la frmula siguiente!
El radio femenino es igual al radio masculino multiplicado por la raz cuadrada del n femenino$ resultado que
se dividir% por la raz cuadrada del n masculino$ donde n T tamao de la muestra de cada sexo. i el radio
masculino es F cm$ con esta frmula se obtendr% un radio femenino de F$-- cm.
-aones
Mu1ees
Bon7uitis
An0ina
Saam
.i2n
Otas
Bon7uitis
An0ina
Saam
.i2n
Otas
!ia/rama de +arras
Qepresentacin gr%fica donde cada barra representa una frecuencia parcial. En el e0e de las ordenadas se
indican las frecuencias absolutas$ y en el e0e de absisas se representan los valores de la variable x. Ge esta
manera$ las barras ?m%s altas@ tienen mayor frecuencia.
Existen diferentes tipos de diagramas de barras$ de los cuales se ilustran tres! las barras simples$ las barras
superpuestas y las barras adyacentes. &os dos 8ltimos tipos dan informacin sobre dos variables al mismo
tiempo$ que son sexo y estado civil en los e0emplos que siguen!
&as barras tambi#n pueden disponerse horizontalmente.
'ediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas.
,
$8
$5
#8
#5
8
Baas sim.les
,
$8
$5
#8
#5
8
Solteos Casados Se.aados
"
Baas su.e.uestas
,
$8
$5
#8
#5
8
Solteos Casados Se.aados "
Baas ad%acentes
Solteos Casados Se.aados "
Adolescentes
Adultos
Bisto/rama de Pearson
)tilizado para representar variables cuantitativas continuas agrupadas en intervalos$ este gr%fico se compone
de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el e0emplo
siguiente$ se presenta la tabla de frecuencias por intervalos y su histograma correspondiente!
" (lon0itud) ,
"4"922 #
!4!922 (
#4#922 !
Total #5
Como pude apreciarse$ en las absisas se indican los lmites inferiores de los intervalos.
Cuando los intervalos no son iguales$ en lugar de indicar las frecuencias absolutas pueden indicarse las alturas
(h,. Esta 8ltima se obtiene dividiendo la frecuencia parcial por el tamao del intervalo correspondiente.
Pol/ono de 9recuencias
Es un gr%fico de lneas rectas que unen puntos$ siendo cada punto la interseccin del punto medio del
intervalo (indicado en las absisas, y la frecuencia correspondiente. "omando el e0emplo anterior$ el polgono de
frecuencias sera el siguiente!
)n polgono de frecuencias puede obtenerse tambi#n a partir del histograma correspondiente. Para ello basta
con indicar los puntos medios de cada lnea horizontal superior de cada barra del histograma$ y luego unirlos
con lneas rectas.
;tra alternativa para este tipo de diagrama es el polgono de frecuencias acumuladas$ donde se indican las
frecuencias acumuladas en lugar de las frecuencias habituales.
,
8
9
:
$
#
# $ : 9
"
,
8
9
:
$
#
#;8 $;8 :;8 .unto medio ("
m
)
OAiva de 2alton
Sr%fico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los lmites
superiores de cada intervalo (aunque tambi#n pueden indicarse los puntos medios de cada intervalo,. Por
e0emplo!
" (lon0itud) , F
"4"922 # #
!4!922 ( 0
#4#922 ! "3
Total #5
&a o0iva de Salton tambi#n puede representar frecuencias acumuladas decrecientes.
&#- "TE"I" !E LO" !ATO": )E!I!A" E"TA!"TICA" !E PO"ICI$
&os datos individuales pueden ser sintetizados mediante medidas de posicin$ medidas de dispersin (ambas
se llaman medidas estadsticas,$ medidas de asimetra y medidas de curtosis. En este tem se describen las
medidas de posicin.
!e9inici,n
&as medidas de posicin pueden ser definidas de diversas formas (F,. En esta nota proponemos la siguiente
definicin! "as medidas de posicin son datos estadsticos 'ue intentan representar un con(unto de datos
individuales respecto de una variable.
Esta definicin se refiere a tres cuestiones!
2, Son medidas estadsticas$ es decir$ no son medidas individuales. )na medida de posicin representa a todo
un con0unto de datos$ y no son los datos individuales. Por e0emplo$ un promedio de edades representa a todas
las edades del grupo$ y no es la edad individual de uno de sus miembros$ aunque pueda coincidir
num#ricamente con ella. +s$ si el promedio de edades es -. aos y una de las personas del grupo tiene -.
aos$ el primer dato es una medida estadstica y el segundo una medida individual.
En otros t#rminos$ las medidas estadsticas no describen individuos$ sino poblaciones o muestras. Por
e0emplo$ no tiene sentido explicar que una persona es anciana porque vive en una poblacin cuyo promedio
de edad es >. aos.
-, Son medidas representativas$ es decir$ intentan representar y sintetizar a todas las medidas individuales. El
con0unto de todas las medidas individuales puede recibir diversos nombres$ tales como muestra y poblacin$
F
#5
<
=
>
4
8
9
:
$
#
#;<< $;<< :;<< lm su.eio (L
s
)
con lo cual tiene sentido afirmar proposiciones tales como ?una medida de posicin representa una muestra o
una poblacin@.
Por e0emplo$ es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras!
a, El promedio de las notas es de >.95 puntos (en este caso usamos una medida de posicin llamada media
aritm#tica,.
b, &a mitad de los alumnos ha obtenido una nota superior a /$5 puntos (en este caso utilizamos otra medida
de posicin llamada mediana,.
c, &a nota que m%s se ha repetido fue > puntos (en este caso usamos la medida de posicin llamada modo,.
&a pregunta acerca de cu%l de las tres medidas de posicin representa ?me0or@ al con0unto de datos
individuales es el problema de la representatividad de la medida de posicin$ y la estadstica suministra$ como
se ver%$ diversos criterios para evaluar la me0or forma de representar un cierto n8mero de datos individuales.
9, Son medidas 'ue miden una variable$ es decir$ alg8n atributo o propiedad de los ob0etos. En el e0emplo
anterior la variable medida es el rendimiento acad#mico$ pero tambi#n pueden obtenerse medidas de posicin
representativas de un con0unto de edades$ de profesiones$ de clases sociales$ de puntuaciones de un test$ de
cantidad de dientes$ etc.
Ge otra manera! no tiene sentido decir que una medida de posicin represente un con0unto de personas$ pero
s tiene sentido decir que representan las edades de un con0unto de personas.
Caractersticas de las *rinci*ales medidas de *osici,n
&as medidas de posicin pueden ser de tendencia central y de tendencia no central. &as primeras 3se refieren
a los valores de la variable que suelen estar en el centro de la distribucin4 (Eohan$ 2==F!/=,. Por e0emplo! la
media aritm#tica$ la mediana y el modo son las m%s conocidas$ pero tambi#n est% la media aritm#tica
ponderada (8til cuando hay valores que se repiten y que requieren atencin diferencial,$ la media geom#trica
(Eohan$ 2==F!>2A>-,$ la media armnica$ la media antiarmnica$ la media cuadr%tica$ la media c8bica$ etc.
&as medidas de posicin no centrales son los cuartiles$ deciles y percentiles (Eohan$ 2==F!>=,$ que reciben
gen#ricamente el nombre de cuantiles o fractiles (5,.
Ge acuerdo a *otella (2==9!==,$ las medidas de posicin no centrales son datos o valores que ocupan una
posicin especial en la serie de datos. Cuando una medida de posicin es un dato que ocupa un lugar central$
la llamamos medida de tendencia central.
En el siguiente cuadro se especifican las definiciones y caractersticas principales de las medidas de posicin.
)edida !e9inici,n Caractersticas
';G; Es el dato o
valor que m%s
se repite$ o
sea$ el de
mayor
frecuencia.
Qesulta 8til si hay muchos datos repetidos (altas frecuencias,.
Puede calcularse cuando hay valores muy extremos.
El modo muestral no es un estimador suficiente del modo poblacional
porque no incluye todos los datos.
En distribuciones multimodales es posible que la muestra no sea
homog#nea$ y que est# constituda por varios estratos.
Es posible convertir una distribucin multimodal en una modal
reorganizando los intervalos.
i una distribucin no tiene modo$ podra obtenerse reorganizando los
datos en intervalos.
'EGK+J+ Es el dato o
valor que
divide por la
mitad la serie
de datos
ordenados
creciente o
decrecienteme
nte$ es decir$
es el valor
central de la
serie.
Es la medida m%s 8til en escalas ordinales siempre que los valores
centrales sean iguales.
Jo est% influenciada por los valores extremos (por ello por e0emplo
puede aplicarse desconociendo estos o sea cuando hay lmites
superiores o inferiores abiertos,.
Puede usarse cuando hay intervalos abiertos$ siempre que el orden de
la mediana no se corresponda con ellos.
Es 8til cuando unos pocos datos difieren mucho del resto.
Jo es 8til si hay muchos datos repetidos (altas frecuencias,.
&a mediana muestral no es un estimador suficiente de la mediana
poblacional porque no incluye todos los datos.
Es 8til es distribuciones muy asim#tricas (extremos no compensados,.
&a mediana coincide con el U- (cuartil -,$ el G5 (decil 5, y el P5.
(percentil 5., (6,.
'EGK+
+QK"'V"KC+
Es el promedio
aritm#tico de
todos los
datos o
valores.
Est% influenciada por los valores extremos (por e0emplo$ no puede
utilizarse cuando hay valores extremos desconocidos o intervalos
abiertos$ salvo que estos puedan cerrarse,.
Jo conviene cuando los valores extremos son muy altos o muy ba0os.
Es 8til en distribuciones sim#tricas (con extremos compensados,.
Jo puede usarse en escalas nominales ni ordinales.
Es siempre superior a la media geom#trica y a la media armnica.
&a media muestral es un estimador suficiente de la media poblacional
porque incluye todos los datos.
Jo necesariamente coincide con alguno de los valores.
&a media aritm#tica tiene varios otras propiedades (>,.
C)+J"K& Es el dato o
valor que
divide la serie
ordenada de
datos en
partes iguales.
Es 8til cuando hay gran cantidad de valores.
Puede tambi#n utilizarse como medida de dispersin.
uelen utilizarse los cuartiles$ los deciles y los percentiles.
ACuartiles Malores que
dividen la
serie en
cuatro partes
iguales.
"res cuartiles dividen la serie en cuatro partes iguales.
AGeciles Malores que
dividen la
serie en diez
partes iguales.
Jueve deciles dividen la serie en diez partes iguales.
APercentiles Malores que
dividen la
serie en cien
partes iguales.
Joventa y nueve percentiles dividen la serie en cien partes iguales.
"ambi#n se llaman centiles.
)elacin entre modo mediana y media aritm*tica.A a, &a experiencia indica que la relacin entre estas tres
medidas es!
'odo T (9 . 'ediana, C (- . 'edia aritm#tica,. Esta relacin es conocida como la frmula de Pearson. b,
Cuanto m%s sim#trica es una distribucin (por e0emplo en una curva normal,$ m%s tienden a coincidir los
valores de las tres medidas.
C.lculo analtico de las medidas de *osici,n: 9,rmulas
Para calcular una determinada medida de posicin puede haber diversas frmulas. &a eleccin de la frmula
adecuada depender% de la forma en que est#n organizados los datos individuales.
En principio$ los datos pueden estar organizados de cuatro maneras!
2, Datos desordenados. Por e0emplo$ las edades de un grupo de cuatro personas son 2>$ -=$ 2> y 2F. Cuando
se recolecta informacin$ generalmente se obtienen datos desordenados$ frente a lo cual convendr%
ordenarlos.
-, Datos ordenados. Por e0emplo$ las edades del mismo grupo de personas son 2F$ 2>$ 2> y -=$ si hemos
decidido ordenarlas en forma creciente$ aunque tambi#n podemos ordenarlas decrecientemente.
9, Datos agrupados por frecuencia. Por e0emplo$ hay dos edades de 2> aos$ una edad de 2F aos y una edad
de -= aos. ;$ lo que es lo mismo$ la frecuencia de la edad 2> es -$ y la frecuencia de las restantes edades es
2.
F, Datos agrupados por intervalos. Por e0emplo$ hay 9 edades comprendidas en el intervalo 2FA2> aos$ y una
edad comprendida en el intervalo 26A-= aos.
&a estadstica va agrupando los datos siguiendo el orden anterior. Cuanto m%s avance en este proceso$ m%s
habr% logrado sintetizar y organizar los datos individuales.
En el siguiente cuadro se sintetizan las diversas reglas o frmulas para calcular las medidas de posicin$ seg8n
como est#n organizados los datos individuales y seg8n los niveles de medicin que admiten. Jtese que en
algunos casos no es posible especificar ninguna frmula$ y entonces el c%lculo se har% siguiendo la regla
indicada para los mismos. Por e0emplo! 3para calcular el modo de un con0unto de datos ordenados$ debe
buscarse el dato o valor que m%s se repite4 (/,.
C%lculo de medidas de posicin seg8n los niveles de medicin que admiten y seg8n la forma de organizacin de los datos individuales.
Preparado por! Pablo Cazau
Medida de
.osici2n
Ni&el de
medici2n
'atos odenados 'atos a0u.ados .o ,ecuencia 'atos a0u.ados .o inte&alos
Modo :ominal ;alor 6ue m<s se repite ;alor con la ma=or %recuencia
444444444444
/rdinal ;alor 6ue m<s se repite ;alor con la ma=or %recuencia
444444444444
Cuantitativo ;alor 6ue m<s se repite ;alor con la ma=or %recuencia
% 4 %ant
Mo $ Li > 4444444444444444444444 9 a
(% 4 %ant) > (%4 %pos)
Mediana /rdinal ;alor central de la serie
ordenada de valores
;alor 6ue corresponde a la %recuencia acumulada n?!
444444444444
Cuantitativo ;alor central de la serie
ordenada de valores
;alor 6ue corresponde a la %recuencia acumulada n?!
n?! 4 1ant
Mn $ Li > 4444444444444444444444 9 a
%
Media
aritmtica
Cuantitativo
@
A $ 44444
n
(@9%)
A $ 444444444
n
(@m9%)
A $ 444444444
n
Cuartil Cuantitativo ;alores 6ue dividen la serie
en cuatro partes iguales9
Por tantoB Ca= # cuartiles: D"B
D! = D#
;alor 6ue corresponde a la %recuencia acumulada t9n?7B e@presin
llamada cuartil de orden o D
3
(")
-onde t puede valer "B ! o #9
Por tantoB Ca= # cuartiles: D"B D! = D#
t9n?7 4 1ant
Dt $ Li > 4444444444444444 9 a
%
-ecil Cuantitativo ;alores 6ue dividen la serie
en die. partes iguales9
Por tantoB Ca= 2 deciles:
desde el -" Casta el -2
;alor 6ue corresponde a la %recuencia acumulada t9n?"3B e@presin
llamada decil de orden o -
3
(")
-onde t puede valer entre " = 29
Por tantoB Ca= 2 deciles: desde el -" Casta el -2
t9n?"3 4 1ant
-t $ Li > 4444444444444444 9 a
%
Percentil Cuantitativo ;alores 6ue dividen la serie
en cien parte iguales9
Por tantoB Ca= 22 percentiles:
desde el P" Casta el P22
;alor 6ue corresponde a la %recuencia acumulada t9n?"33B e@presin
llamada percentil de orden o P
3
(")
-onde t puede valer entre " = 229
Por tantoB Ca= 22 percentiles: desde el P" Casta el P22
t9n?"33 4 1ant
Pt $ Li > 4444444444444444 9 a
%
(2, i no puede identificarse unvocamente una frecuencia acumulada$ y por tanto un valor determinado de x$ puede ser calculada por interpolacin. En realidad$ los cuantiles se
utilizan preferentemente cuando los datos est%n agrupados por intervalos.
+ continuacin$ se suministran e0emplos de cmo calcular cada medida de posicin teniendo
en cuenta las reglas y frmulas del esquema anterior.
a8 C.lculo del modo *ara datos ordenados 7niveles nominalG ordinal 5 cuantitativo8
Jivel nominal! perro$ perro$ /ato$ /ato$ /ato$ /ato (por tanto$ el modo es /ato,
Jivel ordinal! grande$ grande$ mediano$ mediano$ mediano$ chico$ chico$ chico$ chico (por
tanto$ el modo es chico,
Jivel cuantitativo! /$ /$ C$ C$ C$ C$ 6$ =$ 2.$ 2.$ 22 (por tanto$ el modo es C,
+8 C.lculo del modo *ara datos a/ru*ados en 9recuencia 7niveles nominalG ordinal 5
cuantitativo8
ivel nominal ivel ordinal ivel cuantitativo
x (religin, f
Catlicos 5/
Protestantes CF
Ludos F5
*udistas -F
;tros 92
x (dureza, f
'uy duro 1F
Guro 6
Kntermedio 29
*lando 2/
'uy blando >
x (edad, f
9. aos /
92 aos 2F
9- aos 2=
99 aos &-
9F aos 25
El modo es 3Protestantes4 El modo es 3'uy duro4 El modo es 3994 aos
Como puede verse$ el modo es el valor de la variable x que est% m%s repetido.
c8 C.lculo del modo *ara datos a/ru*ados *or intervalos 7nivel cuantitativo8
6 7cantidad *ie4as dentarias8 9
2.A26 /
2=A-> 6
-6A9/ -F
9>AF5 -
nTF.
)na vez confeccionada la tabla de frecuencias por intervalos$ se procede en dos pasos!
a, e identifica cu%l es el intervalo de mayor frecuencia. En este caso$ es -6A9/.
b, e aplica la frmula correspondiente!
f A fant
'o T &i P AAAAAAAAAAAAAAAAAAAAAA . a
(f A fant, P (fA fpos,
-F A 6
'o T -6 P AAAAAAAAAAAAAAAAAAAAAA . 6 T 92.9> piezas dentarias
(-F A 6, P (-F A -,
d8 C.lculo de la mediana *ara datos ordenados 7niveles ordinal 5 cuantitativo8
Para hallar la mediana de un con0unto de datos$ primero hay que organizarlos en orden
descendente o ascendente. i el con0unto de datos contiene un n8mero impar de elementos$
el central es la mediana. i hay un n8mero par$ la mediana es el promedio de los dos datos
centrales.
E0emplos para el nivel ordinal!
J8mero impar de datos! alto$ alto$ alto$ alto$ medio$ medio$ medio$ medio$ medio$ medio$
ba0o (por tanto$ la mediana es T medio,.
J8mero par de datos! En el nivel ordinal no puede calcularse un promedio si los dos valores
centrales son distintos. i los dos valores centrales son iguales$ ese es el valor de la
mediana.
E0emplos para el nivel cuantitativo!
J8mero impar de datos! 29$ 29$ 29$ 2F$ 1-$ 2>$ 26$ 2=$ 2= (por tanto$ la mediana es 1-,
J8mero par de datos! 22$ 22$ 2-$ 29$ 1-$ 10$ 2/$ 26$ 26$ 26 (por tanto$ la mediana es el
promedio entre 1- y 10$ o sea 2F.5,.
e8 C.lculo de la mediana *ara datos a/ru*ados *or 9recuencia 7niveles ordinal 5
cuantitativo8
6 7das8 9 F
2 > >
- = 2/
9 2F 9.
F 2. F.
5 - F-
n T F-
&a variable es aqu cantidad de das de posoperatorio.
El procedimiento es el siguiente!
a, e calcula la mediana de orden!
'n
.
T nH- T F-H- T -2
b, e identifica cu%l es el valor de x que corresponde a la frecuencia acumulada que contiene
el valor -2!
Gicha frecuencia acumulada es 9.$ y$ por lo tanto 'n T 9 das
98 C.lculo de la mediana *ara datos a/ru*ados *or intervalos 7nivel cuantitativo8
6 9 F
.A9 6 6
9A/ 2. 26
/A= 22 -=
=A2- 2- F2
2-A25 = 5.
25A26 > 5>
26A-2 / /9
-2A-F 5 /6
n T /6
Jtese que para calcular la mediana se precisa informacin sobre frecuencias acumuladas$
razn por la cual se ha agregado la columna respectiva.
e procede en dos pasos!
a, e identifica cu%l es el intervalo que debe ser considerado$ para lo cual se calcula la
mediana de orden!
'n
.
T nH- T /6H- T 9F
"omando en cuenta las frecuencias acumuladas$ el valor 9F entra en la frecuencia acumulada
F2$ y$ por lo tanto$ el intervalo a considerar ser% =A2-.
b, e aplica la frmula de mediana!
nH- A Nant
'n T &i P AAAAAAAAAAAAAAAAAAAAAA . a
f
9F A -=
'n T = P AAAAAAAAAAAAAAAAAAAAAA . 9 T 2..-5
2-
"#ngase presente que si la variable fuera discreta y medible slo en n8meros enteros$ sera
'n T 2..
i la variable fuese cantidad de materias aprobadas$ el alumno con 2. materias aprobadas
est% en el lugar central de la serie$ es decir$ habra un 5.< de compaeros con menos
materias aprobadas y un 5.< con m%s materias aprobadas.
/8 C.lculo de la media aritm3tica *ara datos ordenados 7nivel cuantitativo8
Gados los siguientes dados ordenados! -A-A9AFAFAFA5A5A/A>A6A2.
e puede calcular la media aritm#tica aplicando la frmula!
@
A $ 44444
n
2+2+3+4+4+4+5+5+6+7+8+10 60
A $ 4444444444444444444444444444444444444444 $ 444444444 $ (
"! "!
h8 C.lculo de la media aritm3tica *ara datos a/ru*ados *or 9recuencia 7nivel
cuantitativo8
6 7edad8 9 9 # 6
26 9 5F
2= 2 2=
-. - F.
-9 F F-
-5 - 5.
-/ - 5-
-6 - 5/
n T 2/ 9/9
Jtese que para el c%lculo de la media aritm#tica se ha agregado una columna con los
productos de x . f.
e aplica la frmula de media aritm#tica!
(@9%) (7>"2>73>7!>(3>(!>() #)#
A $ 444444444 $ 44444444444444444444444444444444444 $ 44444444 $ !!9)0 a&os $ !# a&os9
n ") ")
i8 C.lculo de la media aritm3tica *ara datos a/ru*ados *or intervalos 7nivel
cuantitativo8
6 9
"m "m;,
.A9 6 2.5 2-
9A/ 2. F.5 F5
/A= 22 >.5 6-.5
=A2- 2- 2..5 2-/
2-A25 = 29.5 2-2.5
25A26 > 2/.5 225.5
26A-2 / 2=.5 22>./
-2A-F 5 --.5 22-.5
n T /6 >9-.5
Jtese que para el c%lculo de la media aritm#tica se ha agregado una columna con los
puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos
medios.
e aplica la frmula de media aritm#tica!
(@m9%) ,#!9(
A $ 4444444444444 $ 4444444444 $ "39,,
n )0
El m#todo corto y el m#todo clave son dos m#todos alternativos para calcular la media
aritm#tica$ siendo el 8ltimo slo aplicable cuando el tamao de los intervalos es constante.
Ge acuerdo al m3todo corto$ la media aritm#tica se calcula sumando al punto medio del
intervalo de mayor frecuencia$ el cociente entre la sumatoria de los productos entre cada
frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del
intervalo de mayor frecuencia$ y la sumatoria de frecuencias (n,.
Ge acuerdo al m3todo clave$ la media aritm#tica se calcula sumando al punto medio del
intervalo de mayor frecuencia$ el producto entre el tamao del intervalo y un cociente$ donde
el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo
unitario (que resulta de dividir la diferencia entre cada punto medio y el punto medio del
intervalo de mayor frecuencia$ por el tamao del intervalo,$ y donde el denominador es la
sumatoria de frecuencias (n,.
A8 C.lculo del cuantil *ara datos ordenados 7nivel cuantitativo8
2A2A2A2A2A-A-A-A9A9A9A9AFA5A/A/A/A/A>A>A6A6A=
i en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales$
esos valores ser%n los cuartiles U2$ U- y U9!
2A2A2A2A2A&A-A-A9A9A9A'AFA5A/A/A/ADA>A>A6A6A=
U2 T -
U- T 9
U9 T /
in embargo$ es m%s pr%ctico agrupar los datos por frecuencias o por intervalos$ a los
efectos del c%lculo de los cuantiles (cuartiles$ deciles o percentiles,.
H8 C.lculo del cuantil *ara datos a/ru*ados *or 9recuencia 7nivel cuantitativo8
6 7edad8 9 F
26 9 9
2= 2 F
-. - /
-9 F 2.
-5 - 2-
-/ - 2F
-6 - 2/
n ; 1D
e pueden calcular$ por e0emplo$ U2$ U- y U9.
El primer paso consiste en averiguar los respectivos cuartiles de orden.
Para U2 es D
3
T t.nHF T 2.2/HF T F
Para U- es D
3
T t.nHF T -.2/HF T 6
Para U9 es D
3
T t.nHF T 9.2/HF T 2-
El segundo y 8ltimo paso consiste en identificar el valor de x correspondiente al cuartil de
orden respectivo.
U2 T F
U- T Est% entre -. y -9
U9 T -5
l8 C.lculo del cuantil *ara datos a/ru*ados *or intervalos 7nivel cuantitativo8
6 7*untaAe8 9 F
.A2. 2 2
2.A-. 9 F
-.A9. 5 =
9.AF. / 25
F.A5. 2. -5
5.A/. 2- 9>
/.A>. 29 5.
>.A6. = 5=
6.A=. F /9
=.A2.. 9 //
n T //
e pueden calcular$ por e0emplo$ U9$ G> y PF5.
El primer paso consiste en averiguar los cuantiles de orden!
Para U9 es D
3
T t.nHF T 9.//HF T F=.5
Para G> es -
3
T t.nH2. T >.//H2. T F/.-
Para PF5 es P
3
T t.nH2.. T F5.//H2.. T -=$>
El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la
columna de frecuencias acumuladas!
El valor F=.5 corresponde al intervalo /.A>.
El valor F/.- corresponde al intervalo /.A>.
El valor -=.> corresponde al intervalo 5.A/.
El tercer y 8ltimo paso consiste en aplicar la frmula bas%ndose en la informacin del
intervalo identificado. i la frmula pide el dato de la frecuencia acumulada anterior y esta
no existe$ se coloca . (cero,.
En el e0emplo del c%lculo del G>$ se aplica la siguiente frmula!
t.nH2. A Nant
Gt T &i P AAAAAAAAAAAAAAAAAAA . a
f
F/.- A 9>
G> T /. P AAAAAAAAAAAAAAAA . 22 T />.>6
29
C.lculo visual de las medidas de *osici,n: /r.9icos
Es posible utilizar un procedimiento gr%fico para calcular ciertas medidas de posicin$ tales
como el modo y la mediana. Por e0emplo$ el modo se puede calcular a partir de un
histograma. &a mediana tambi#n puede calcularse con un histograma$ aunque lo m%s
habitual es hacerlo mediante una o0iva.
a, C%lculo del modo mediante un histograma
)na vez construido el histograma a partir de una tabla de datos agrupados por intervalos!
2, e considera el rect%ngulo de mayor frecuencia (mayor altura,.
-, Gentro del mismo se trazan dos rectas como est% indicado en el gr%fico siguiente.
9, Por la interseccin de ambas rectas se traza una recta perpendicular al e0e de absisas.
F, El punto del e0e de las absisas por donde pasa la recta perpendicular corresponde al modo
(en el e0emplo$ el modo es F.6.,.
b, C%lculo de la mediana mediante una o0iva
En este caso pueden utilizarse dos procedimientos!
2, )na vez trazada la o0iva$ a, se ubica en el e0e de las ordenadas a la mediana de orden
('n
3
)I b, por la mediana se orden se traza una recta paralela al e0e x hasta que intersecte la
o0ivaI c, por este punto de interseccin se traza una recta paralela al e0e y hasta que
intersecte el e0e x. En este punto estar% ubicada la mediana.
-, e trazan en el mismo e0e de coordenadas las o0ivas creciente y decreciente de la misma
distribucin de datos. &uego$ a, se traza una recta paralela al e0e y que pase por la
interseccin de ambas o0ivas y por alg8n punto del e0e xI b, el punto del e0e x por donde
pasa dicha recta corresponde a la mediana.
Criterios de elecci,n de medidas de *osici,n
2, &a eleccin de una medida de posicin debe tener en cuenta el nivel de medicin de la
variable que se mide!
ivel nominal ivel ordinal ivel cuantitativo
'odo "I "I "I
'ediana O "I. iempre y cuando
los dos valores centrales
con n T par sean
iguales. En caso
contrario usar el 'odo.
"I
'edia
aritm#tica
O O "I Cuando no haya valores
extremos ale0ados ni valores
extremos abiertos. En caso
contrario$ usar el 'odo o la
'ediana (W,.
Cuantiles O O "I
(W, Bay al menos tres situaciones donde se preferir% la mediana a la media (*otella$ 2==9!225,! a,
cuando la variable es ordinal$ b, cuando haya valores extremos que distorsionen la interpretacin de la
media$ y c, cuando haya intervalos abiertos$ como en el caso de variables como ingresos mensuales.
-, &a eleccin de una medida de posicin debe tener en cuenta la forma en que est%n
organizados los datos. Por e0emplo! 3en ocasiones$ el azar hace que un solo elemento no
representativo se repita lo suficiente para ser el valor m%s frecuente del con0unto de datos.
Es por esta razn que rara vez utilizamos el modo de un con0unto de datos no agrupados
como medida de tendencia central. Por esta razn$ debemos calcular el modo en datos
agrupados en una distribucin de frecuencias4 (&evin y Qubin$ 2==/,.
9, &a eleccin de una medida de posicin de una muestra debe tener en cuenta el grado de
fidelidad con que representa a la medida de posicin poblacional.
,
8
9
:
$
#
# 9 > #5
"
*otella (2==9!22F, afirma$ en este sentido$ que si no hay ning8n argumento en contra$
siempre se preferir% la media$ no slo porque permite la utilizacin de otras medidas
estadsticas (por e0emplo el desvo est%ndar,$ sino porque es m%s representativa de la media
poblacional que el modo o la mediana con respecto al modo o la mediana poblacional.
&#0 "TE"I" !E LO" !ATO": )E!I!A" E"TA!"TICA" !E !I"PER"I$
!e9inici,n
"as medidas de dispersin llamadas tambi*n medidas de variabilidad o de variacin son
datos estadsticos 'ue informan acerca del grado de dispersin o variabilidad de los datos
individuales de una muestra o una poblacin respecto de una variable. En otras palabras$
indican el grado de homogeneidad o de heterogeneidad del con0unto de los datos. Por
e0emplo$ indican cu%n ale0ados o cu%n cercanos se encuentran los datos de alg8n valor
central como la media aritm#tica! una muestra cuyos datos son 9AFA5 es menos dispersa que
una muestra cuyos datos son 2AFA>.
+lgunos autores (*otella$ 2==9!9-5, han relacionado la dispersin de los datos Apara los
niveles de medicin nominal y ordinalA con los conceptos de entro*a y de incertidum+re e
incluso han propuesto a la primera como una medida que permite cuantificar la dispersin! a
mayor dispersin de los datos$ hay mayor entropa y mayor incertidumbre.
Por e0emplo$ las siguientes dos muestras tienen cada una F. su0etos que han elegido
determinados colores para representar la idea de paz!
*lanco Merde +marillo Celeste Qosa
'uestra +! -6 9 9 9 9
'uestra *! 6 6 6 6 6
i habra que adivinar qu# color eligi determinado su0eto de la muestra +$ cabra proponer
el color blanco porque fue el m%s elegido. En cambio$ la incertidumbre aumenta si habra que
elegir lo mismo en la muestra *. En esta muestra hay m%s entropa$ es decir$ m%s desorden$
mientras que en la muestra + los datos est%n m%s ordenados alrededor de un valor muy
repetido$ como el blanco.
&a muestra * es m%s dispersa$ es decir$ m%s heterog#nea$ mientras que la muestra + es
menos dispersa$ es decir$ m%s homog#nea. &a homogeneidad no debe relacionarse con la
repeticin de frecuencias (9A9A9A9, sino con la repeticin de valores iguales o muy cercanos
entre s (-6 su0etos eligieron blanco,.
)na medida de posicin no alcanza para describir adecuadamente una muestra. e obtiene
una informacin m%s precisa y completa de ella cuando adem%s se utiliza una medida de
dispersin.
Por e0emplo$ la muestra 2 de datos 9AFA5 y la muestra - de datos 2AFA> tienen la misma
medida de posicin! la media aritm#tica en ambos casos es F. in embargo$ se trata
evidentemente de dos muestras diferentes$ por cuanto la segunda es m%s dispersa que la
primera$ es decir$ sus datos est%n m%s ale0ados de la media aritm#tica.
En la primera muestra el promedio de las desviaciones respecto de la media es 2 (de 9 a F
hay 2$ y de 5 a F hay 2,$ mientras que el promedio de las desviaciones en la segunda
muestra es 9 (de 2 a F hay 9$ y de > a F hay 9,. Por lo tanto$ ambas muestras pueden
representarse de la siguiente manera!
'uestra 2! F P 2 (se lee F m%sHmenos 2,
'uestra -! F P 9 (se lee F m%sHmenos 9,.
&as medidas de dispersin tienen una importancia adicional porque (&evin y Qubin! 2==/,! a,
Proporcionan informacin adicional que permite 0uzgar la confiabilidad de la medida de
tendencia central. i los datos se encuentran ampliamente dispersos$ la posicin central es
menos representativa de los datos. b, + veces resulta indispensable conocer la dispersin de
una muestra porque muestras demasiado dispersas pueden no ser 8tiles para poder sacar
conclusiones 8tiles sobre la muestra. &evin y Qubin indican que$ 3ya que existen problemas
caractersticos para datos ampliamente dispersos$ debemos ser capaces de distinguir los que
presentan esa dispersin antes de abordar esos problemas4.
Caractersticas de las *rinci*ales medidas de dis*ersi,n
En general$ las medidas de dispersin m%s utilizadas sirven para la medicin de variables en
el nivel cuantitativo. eguidamente se examinar%n las siguientes medidas de dispersin!
rango$ desviacin media$ varianza$ desvo est%ndar$ desvo intercuartlico y coeficiente de
variacin.
En el siguiente cuadro se especifican las definiciones y caractersticas principales de las
medidas de dispersin.
)edida !e9inici,n Caractersticas
Q+JS; Es la diferencia
entre los valores
m%ximo y mnimo
de la variable.
Ge uso limitado$ no es una buena medida de dispersin.
Es muy sensible a los valores extremos e insensible a los valores
intermedios.
Est% muy vinculada al tamao de la muestra! es probable que la
muestra de mayor tamao presente mayor rango aunque las
poblaciones de referencia tengan igual dispersin (*otella$ 2==9,.
e llama tambi#n amplitud.
GEMK+CK;J
'EGK+
Es el promedio de
las desviaciones
de todos los
valores respecto
de la media
aritm#tica.
Considera desviaciones absolutas$ es decir$ no las considera con valores
negativos (de otro modo$ el promedio de las desviaciones$ por un
teorema de la media aritm#tica$ dara cero,. Esto representa una
dificultad de c%lculo$ por lo que se utiliza la varianza.
M+QK+JX+ Es el promedio de
los cuadrados de
las desviaciones
con respecto a la
media aritm#tica.
Es un valor esencialmente no negativo (2.,.
'atem%ticamente es buena medida de dispersin$ pero da valores muy
altos$ por lo cual en estadstica descriptiva se utiliza el desvo est%ndar
(=,.
e apoya en una propiedad de la media aritm#tica seg8n la cual la
suma de los cuadrados de las desviaciones respecto a la media es un
valor mnimo.
&a varianza permite comparar la dispersin de dos o m%s muestras si
sus medias aritm#ticas son similares (*otella$ 2==9,.
i se suma una constante a un con0unto de valores$ la varianza no se
modifica (*otella$ 2==9,.
i se multiplica por una constante a un con0unto de valores$ la varianza
de los nuevos valores el igual al producto de la varianza de las
originales por el cuadrado de la constante (*otella$ 2==9,.
GEMK;
E"YJG+Q
Es la raz cuadrada
de la varianza (22,
Es un valor esencialmente no negativo (2.,.
Es la medida de dispersin m%s utilizada.
e la emplea con0untamente con la media aritm#tica como medida de
posicin.
&a raz cuadrada permite compensar el cuadrado de la varianza.
i se suma una constante a un con0unto de valores$ el desvo est%ndar
no se modifica (*otella$ 2==9,.
i se multiplica por una constante a un con0unto de valores$ el desvo
est%ndar de los nuevos valores el igual al producto del desvo est%ndar
de las originales por el cuadrado de la constante (*otella$ 2==9,.
e llama tambi#n desviacin tpica$ o tambi#n desviacin est%ndar
(Pagano$ 2==6!>2,.
GEMK;
KJ"EQ
C)+Q"K&KC;
Es la diferencia
entre el U9 y el U2.
Expresa el rango del 5.< central de la serie de valores.
e llama tambi#n amplitud intercuartil.
C;ENKCKEJ"E
GE
M+QK+CK;J
Es el cociente
entre el desvo
est%ndar y la
media aritm#tica.
Permite comparar la dispersin de dos o m%s muestras con diferentes
medias aritm#ticas! a mayor coeficiente de variacin$ mayor
dispersin.
Jo se expresa en unidades como la variable en estudio (por e0emplo$
para edad$ no se expresa en aos,.
Puede considerarse como un ndice de la representatividad de la media
aritm#tica! cuanto mayor es el coeficiente de variacin$ menos
representativa es la media (*otella$ 2==9,.
C.lculo analtico de las medidas de dis*ersi,n: 9,rmulas
En este tem se indican las frmulas para calcular medidas de dispersin$ y se suministran
e0emplos de cada caso.
Clculo de las medidas de dispersin segn la forma de organizacin de los datos
individuales
Preparado por! Pablo Cazau
Medida de
dis.esi2n
'atos odenados 'atos a0u.ados .o
,ecuencia
'atos a0u.ados .o
inte&alos
Eango
E $ @ma= 4 @men E $ @ma= 4 @men
:o
-esviacin
media
F @ G A F
-m $ 444444444444444
n
F @ G A F 9 %
-m $ 444444444444444444
n
F @m G A F 9 %
-m $ 44444444444444444444
n
-esvo
est<ndar
( @ G A )
!
+ $ 4444444444444444
n
El segundo miembro es
a la ra. cuadrada
( @ G A )
!
9 %
+ $ 4444444444444444444
n
El segundo miembro es a la ra.
cuadrada
( @m G A )
!
9 %
+ $ 4444444444444444444444
n
El segundo miembro es a la ra.
cuadrada
;arian.a Es el cuadrado del
desvo est<ndar (+
!
)
Es el cuadrado del desvo
est<ndar (+
!
)
Es el cuadrado del desvo
est<ndar (+
!
)
-esvo
intercuartlico
-D $ D# G D" -D $ D# G D" -D $ D# G D"
Coe%iciente
de variacin
+
C; $ 44444
A
+
C; $ 44444
A
+
C; $ 44444
A
Cuando hay que calcular varianza o desvo est%ndar poblacionales$ se utiliza ?n@ en el
denominador$ pero cuando se calculan las correspondientes medidas muestrales (o cuando la
muestra es muy pequea,$ se utilizar% ?nC2@ (2-,.
a8 C.lculo del ran/o *ara datos ordenados 5 *ara datos a/ru*ados *or 9recuencia
e puede aplicar a estas muestras la frmula del Qango Q T xmay A xmen
'uestra 2! 6.$ 2..$ 2..$ 22.$ 2-.. +qu el rango Q es T 2-. C 6. T F..
'uestra -! 9.$ 5.$ >.$ 2-.$ 26.. +qu el rango Q es T 26. C 9. T 25.
Como se ve$ la muestra - es m%s dispersa porque tiene mayor rango.
Jo se puede calcular el rango para datos agrupados por intervalos porque se desconocen
cu%les son los valores m%ximo y mnimo.
+8 C.lculo de la desviaci,n media *ara datos ordenados
&a serie ordenada de datos puede ser la siguiente! -$ 9$ 5$ /$ >$ =$ 2.
Como primer paso se calcula la media aritm#tica!
-P9P5P/P>P=P2.
Z T AAAAAAAAAAAAAAAAAAAAAAAAAAA T /
>
Como segundo y 8ltimo paso$ se calcula la desviacin media!
F @ G A F F!4)F > F#4)F > F(4)F > F)4)F > F,4)F > F24)F > F"34)F
-m $ 444444444444444 $ 444444444444444444444444444444444444444444444444444444444444444444444 $ !9!2
: ,
c8 C.lculo de la desviaci,n media *ara datos a/ru*ados *or 9recuencia
+ la siguiente tabla de frecuencias (f, deber% agregarse una columna (f.x, para calcular la
media aritm#tica$ y luego otras dos columnas (xAZ, y ([ xAZ [ . f, para calcular la desviacin
media!
6 9 9 # 6 I 6 = J I I 6 = J I # 9
>. F5 925. 95 25>5
6. /9 5.F. -5 25>5
=. >6 >.-. 25 22>.
2.. 2./ 2./.. 5 59.
22. 226 2-=6. 5 5=.
2-. =- 22.F. 25 296.
29. >5 =>5. -5 26>5
2F. -9 9--. 95 225
n T /.. /-6.. 2/. 662.
Primero se calcula la media aritm#tica!
(@9%) )!033
A $ 444444444 $ 444444444444 $ "379)) $ "3(
n )33
Ninalmente se calcula la desviacin media!
F @ G A F 9 % 00"3
-m $ 444444444444444444 $ 444444444444 $ "79)0
n )33
d8 C.lculo de la desviaci,n media *ara datos a/ru*ados *or intervalos
e procede de la misma manera que en el caso anterior$ con la diferencia que en lugar de
considerar los valores x$ se consideran los puntos medios de los intervalos (xm,.
e8 C.lculo del desvo est.ndar *ara datos ordenados
Para la serie de valores 5$ /$ 2.$ su media aritm#tica es >. )na vez conocido este valor$
puede obtenerse el desvo est%ndar de la siguiente forma!
( @ G A )
!
((4,)
!
> ()4,)
!
> ("34,)
!
+ $ 4444444444444444444 $ 444444444444444444444444444444444444 $ 79)) $ !9!
n #
98 C.lculo del desvo est.ndar *ara datos a/ru*ados *or 9recuencia
6 7edad8 9 9 # 6 6 K J 7 6 K J 8
&
7 6 K J 8
&
# 9
26 9 5F A5 -5 >5
2= 2 2= AF 2/ 2/
-. - F. A9 = 26
-9 F F- . . .
-5 - 5. P- F 6
-/ - 5- P9 = 26
-6 - 5/ P5 -5 5.
n T 2/ 9/9 265
Primero se calcula la media aritm#tica$ que arro0a un valor de Z T -9.
Ninalmente$ se aplica la frmula de desvo est%ndar!
( @ G A )
!
9 % "0(
+ $ 4444444444444444444444 $ 444444444444 $ ""9() $ #9!
n ")
Puede tambi#n utilizarse una frmula m%s sencilla a los efectos del c%lculo (*ancroft$
2=/.!6.,!
@
!
9%
+ $ 44444444444 4 (A)
!
n
Gonde el primer t#rmino del segundo miembro es a la raz cuadrada.
/8 C.lculo del desvo est.ndar *ara datos a/ru*ados *or intervalos
e procede del mismo modo que en el caso anterior$ con la diferencia que se calcula el punto
medio xm de los intervalos en lugar del valor x.
h8 C.lculo de la varian4a
El procedimiento es el mismo que en el caso del desvo est%ndar. lo debe tenerse presente
que la varianza es el cuadrado del desvo est%ndar.
i8 C.lculo del desvo intercuartlico
Gada la siguiente serie$ obtener el desvo intercuartlico!
6 9
.A-. -
-.AF. F
F.A/. 5
/.A6. 6
6.A
2..
2
n T -.
Primero se calculan los U9 y U2 aplicando la frmula explicada en medidas de posicin.
Ninalmente$ se aplica la frmula del desvo intercuartlico!
GU T U9 C U2 T >. C 95 T 95
)na variante es el empleo del desvo semiAintercuartlico$ es decir$ el desvo intercuartlico
dividido dos. e trata de una medida de dispersin propuesta por Salton en 266=$ y que
resulta recomendable cuando hay alg8n valor extremo que pudiera distorsionar la
representatividad de la media aritm#tica (*otella$ 2==9,.
A8 C.lculo del coe9iciente de variaci,n
i una muestra tiene una media aritm#tica 222 y el desvo est%ndar 26$ entonces su
coeficiente de variacin es!
222
CM T AAAAA T AAAAAAAAAA T ..2/
Z 26
Cuanto mayor es el CM$ mayor es la dispersin.
"ambi#n puede calcularse un coe9iciente de variaci,n *orcentual$ multiplicando CM por
2... En el e0emplo!
CM< T ..2/ . 2.. T 2/<.
C.lculo visual de las medidas de dis*ersi,n: /r.9icos
*otella (2==9!2F9, menciona dos procedimientos para expresar gr%ficamente medidas de
dispersin! el diagrama de ca0a y bigotes ("uOey$ 2=>>, y el diagrama de bigotes verticales.
Diagrama de caja y bigotes
Puede apreciarse a simple vista que la distribucin de valores * es m%s dispersa que + no
slo porque la diferencia entre los valores m%ximo y mnimo (rango, es mayor$ sino tambi#n
porque lo es la diferencia entre los cuartiles primero y tercero.
Diagrama de bigotes verticales
El gr%fico representa las medias aritm#ticas de nivel de ansiedad de diversos cursos de
alumnos. En cada media aritm#tica se han trazado bigotes verticales que representan los
respectivos desvos est%ndar. Puede entonces apreciarse$ por e0emplo$ que a medida que
aumenta la media aritm#tica$ tiende tambi#n a aumentar el desvo est%ndar.
&#D "TE"I" !E LO" !ATO": A"I)ETRA % CURTO"I"
)n con0unto de datos o distribucin de datos queda exhaustivamente descrito cuando
pueden especificarse una medida de posicin$ una medida de dispersin$ un ndice de
asimetra y un ndice de curtosis. &as medidas de asimetra y curtosis se refieren a la ?forma@
de la distribucin y$ aunque no son tan importantes como las medidas de posicin y
dispersin y son muy poco utilizadas$ aportan tambi#n informacin sobre la distribucin de
los valores de una muestra o poblacin.
Asimetra
&a asimetra hace referencia al grado en que los datos se reparten equilibradamente por
encima y por deba0o de la tendencia central (*otella$ 2==9!2/=,. Por e0emplo$ en la siguiente
>8 =5 =8 <5 <8 #55 #58 ##5 ##8 #$5 #$8 #:5
A
B
?
mn
?
m!"
?
m!"
?
mn
@
#
@
:
@
#
@
:
Ni&el de
ansiedad
96 86 46 >6 =6
Cuso
tabla se puede apreciar que en el curso + muchos alumnos obtuvieron buenas notas$ en el
curso C muchos alumnos obtuvieron ba0as notas$ y en el curso * est%n equilibrados.
6 7nota8 9 7curso A8 9 7curso (8 9 7curso C8
2. 5 - 2
= 2. 5 -
6 25 6 9
> -- 2. /
/ 2/ 25 6
5 2- -. 2-
F 6 25 2/
9 / 2. --
- 9 6 25
2 - 5 2.
. 2 - 5
n T 2.. n T 2.. n T 2..
Qepresentando las tres distribuciones de datos con curvas en un gr%fico con las frecuencias
en las ordenadas y los valores de x en las absisas$ se obtiene lo siguiente!
Ban sido propuestos diversos ndices de asimetra para cuantificar el grado de asimetra de
una distribucin de datos. Ge entre ellos pueden citarse los siguientes (*otella$ 2==9!2>.,!
Indice de
asimetra media=
modo
Indice de asimetra
media=mediana
7LohanG 1EE-:E'8
Indice de asimetra
de Pearson
Indice de asimetra
intercuartlico
Es la distancia
entre la media y el
modo$ medido en
desvos est%ndar!
J A 'o
+s T AAAAAAAAAAAAA

Es la distancia entre
la media y la
mediana multiplicada
por tres$ medida en
desvos est%ndar!
J A 'n
+sT AAAAAAAAAAAAA

Es el promedio de los
valores z elevados al
cubo (donde z es el
cociente entre la
diferencia entre x y
la media aritm#tica$
y el desvo
est%ndar,.
Es el cociente entre la
diferencia U9AU- y U-A
U2$ y la diferencia U9A
U2
&os tres ndices se interpretan de manera similar! si resultan ser n8meros negativos$ la curva
ser% asim#trica hacia la derecha$ y si dan resultados positivos$ la curva ser% asim#trica a la
izquierda. El resultado . (cero, indicar% asimetra nula (simetra perfecta,.
Cuso A Cuso C Cuso B
Media Modo Modo Media
Media
Modo
Asimeta
ne0ati&a
(cu&a Aacia
la deecAa)
Asimeta
ceo
Asimeta
.ositi&a
(cu&a Aacia
la iz7uieda)
Existen otros muchos tipos de curvas! parablicas$ hiperblicas$ bimodales$ etc$ pero una
forma usual es la curva sim#trica$ llamada tambi#n curva normal o campana de Sauss.
Curtosis
&a curtosis hace referencia a la forma de la curva de la distribucin de datos en tanto muy
aguda (mayor apuntamiento o mayor curtosis! leptoc8rtica, o muy aplanada (menor
apuntamiento o menor curtosis! platic8rtica,.
Gel mismo modo que sucede con la asimetra$ tambi#n se han propuesto diversos ndices de
curtosis. i el ndice es positivo$ su apuntamiento es mayor que el de una distribucin normal
y la curva ser% leptoc8rtica$ y si es negativo$ su apuntamiento es menor y la curva ser%
platic8rtica (*otella$ 2==9,.
OTA"
(2, eg8n *otella (2==9!F=, la 3distribucin de frecuencias es un instrumento diseado para cumplir
tres funciones! a, proporcionar una reorganizacin y ordenacin racional de los datos recogidosI b,
ofrecer la informacin necesaria para hacer representaciones gr%ficasI y c, facilitar los c%lculos
necesarios para obtener los estadsticos muestrales4.
(-, Cuando se confecciona una tabla de frecuencias por intervalos con la intencin de elaborar gr%ficos o
medidas estadsticas a partir de ella$ deben asumirse ciertos supuestos que implican un margen de error$
pero que son imprescindibles. Estos supuestos$ llamados supuestos de concentracin intraintervalo$ son
dos. a, El supuesto de concentracin en el punto medio del intervalo$ seg8n el cual todos los valores de
la variable son el mismo$ a saber$ el punto medio del intervalo. b, El supuesto de distribucin
homog#nea$ seg8n el cual 3los valores incluidos en un intervalo se reparten con absoluta uniformidad en
su interior. Es decir$ que si en un intervalo hay cinco observaciones \valores observados en la variable]
aceptaremos que sus valores son los que tendramos si parti#ramos al intervalo en cinco subintervalos
de igual amplitud y asign%ramos a cada individuo el punto medio de un subintervalo4 (*otella$ 2==9!5/,.
(9, Bay quienes recurren a la frmula de turges para calcular la cantidad de intervalos que resulta
deseable tomar en funcin del tamao de la muestra. Esta frmula es! J8mero de intervalos T 2 P (log
n H log -,$ donde n designa el tamao de la muestra. Por e0emplo$ aplicando la frmula para n T F.$ la
cantidad deseable de intervalos es /.9$ con lo cual podr%n elegirse entre / o > intervalos. )na vez
determinada la cantidad de intervalos$ slo resta dividir el tamao de la muestra por / o >$ de lo que
resultar% el tamao de cada intervalo.
(F, Por e0emplo$ las medidas de posicin son aquellas que 3caracterizan la posicin de un grupo respecto
de una variable4 (Eohan$ 2==F!/=,. ;tras definiciones se refieren a la utilidad de estas medidas$ y
entonces por e0emplo se definen como 3ndices diseados especialmente para revelar la situacin de una
puntuacin con respecto a un grupo$ utilizando a #ste como marco de referencia4 (*otella$ 2==9!69,.
(5, Estrictamente hablando$ ciertos cuantiles como el cuartil -$ el decil 5 y el percentil 5. resultan ser
medidas de tendencia central$ ya que coinciden con la mediana.
(/, Estrictamente$ dato y valor no son sinnimos$ aunque aqu se emplear%n indistintamente ambas
expresiones. El valor es uno de los componentes del dato! los otros dos son la unidad de an%lisis y la
variable.
(>, *otella (2==9!2.5A222, describe seis propiedades de la media aritm#tica! 2, &a suma de las
diferencias de n puntuaciones de la media aritm#tica$ o puntuaciones diferenciales$ es igual a cero. -, &a
suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que
Le.tocBtica PlaticBtica MesocBtica
con respecto a cualquier otro valor. 9, i sumamos una constante a un con0unto de puntuaciones$ la
media aritm#tica quedar% aumentada en esa misma constante. F, i multiplicamos una constante a un
con0unto de puntuaciones$ la media aritm#tica quedar% multiplicada por esa misma constante. 5, &a
media total de un grupo de puntuaciones$ cuando se conocen los tamaos y medias de varios subgrupos
hechos a partir del grupo total$ mutuamente exclusivos y exhaustivos$ puede obtenerse ponderando las
medias parciales a partir de los tamaos de los subgrupos en que han sido calculadas. /, )na variable
definida como la combinacin lineal de otras variables tiene como media la misma combinacin lineal de
las medias de las variables intervinientes en su definicin.
(6, Equivalencias entre cuantiles (*otella$ 2==9!6=,!
Cuartiles !ecile
s
Percentile
s
G2 P2.
G- P-.
U2 P-5
G9 P9.
GF PF.
U- G5 P5.
G/ P/.
G> P>.
U9 P>5
G6 P6.
G= P=.
(=, 3Para la varianza$ las unidades son el cuadrado de las unidades de los datos+ Estas unidades no son
intuitivamente claras o f%ciles de interpretar. Por esta razn$ tenemos que hacer un cambio significativo
en la varianza para calcular una medida 8til de la desviacin$ que sea menos confusa. Esta medida se
conoce como la desviacin est%ndar$ y es la raz cuadrada de la varianza. &a desviacin est%ndar$
entonces$ est% en las mismas unidades que los datos originales4 (&evin y Qubin$ 2==/,. &a varianza
como tal se utiliza m%s frecuentemente en estadstica inferencial (Pagano$ 2==6!>>,.
(2., 3&a raz cuadrada de un n8mero positivo puede ser tanto positiva como negativa. Cuando tomamos
la raz cuadrada de la varianza para calcular la desviacin est%ndar$ los estadsticos solamente
consideran la raz cuadrada positiva4 (&evin y Qubin$ 2==/,.
(22, &a desviacin est%ndar nos permite determinar$ con un buen grado de precisin$ dnde est%n
localizados los valores de una distribucin de frecuencias con relacin a la media. El teorema de
Chebyshev dice que no importa qu# forma tenga la distribucin$ al menos >5< de los valores caen
dentro de P - desviaciones est%ndar a partir de la media de la distribucin$ y al menos 6=< de los
valores caen dentro de P 9 desviaciones est%ndar a partir de la media.
Con m%s precisin!
+proximadamente /6< de los valores de la poblacin cae dentro de P 2 desviacin est%ndar a partir de
la media.
+proximadamente =5< de los valores estar% dentro de P - desviaciones est%ndar a partir de la media.
+proximadamente ==< de los valores estar% en el intervalo que va desde tres desviaciones est%ndar por
deba0o de la media hasta tres desviaciones est%ndar por arriba de la media (&evin y Qubin$ 2==/,.
(2-, Esto se debe a que 3los especialistas en estadstica pueden demostrar que si tomamos muchas
muestras de una poblacin dada$ si encontramos la varianza de la muestra para cada muestra y
promediamos los resultados$ entonces este promedio no tiende a tomar el valor de la varianza de la
poblacin$ a menos que tomemos nC2 como denominador de los c%lculos4 (&evin y Qubin$ 2==/,.
(29, El concepto de distribucin de frecuencias es uno de los m%s b%sicos de la estadstica descriptiva$ y
hace referencia a un con0unto de valores de una variable ordenados de acuerdo con sus frecuencias. &as
distribuciones de frecuencias pueden expresarse en forma de tablas$ gr%ficos$ medidas de posicin$
medidas de dispersin$ de asimetra y de curtosis. Estas 8ltimas cuatro medidas pueden considerarse
propiedades o caractersticas b%sicas de una distribucin frecuencial.
CAPTULO ': PRO(A(ILI!A! % CUR1A OR)AL
&a curva normal es uno de los temas fundamentales de la estadstica que utiliza la
informacin provista por la estadstica descriptiva y permite el paso a la estadstica
inferencial en el sentido de proveer una herramienta para obtener conclusiones respecto de
la poblacin. &a comprensin de este tema exige un conocimiento mnimo de la teora de la
probabilidad.
'#1 EL COCEPTO !E PRO(A(ILI!A!
e entiende por probabilidad el grado de posibilidad de ocurrencia de un determinado
acontecimiento. Gicha probabilidad puede calcularse en forma terica o emprica$ a partir de
las llamadas probabilidad cl%sica y frecuencial$ respectivamente. El concepto de probabilidad
ha demostrado ser de importante utilidad en ciertos enfoques sist#micos$ especialmente en
los %mbitos de la termodin%mica y la teora de la informacin.
,+ &oncepto de probabilidad.A Entendida como medida de la posibilidad de la ocurrencia de
un determinado acontecimiento$ la probabilidad abarca un espectro que se extiende desde la
certeza (el acontecimiento ocurrir% con total seguridad,$ hasta la imposibilidad (es imposible
que el acontecimiento ocurra,$ pasando por todos los grados intermedios (es muy probable
que ocurra$ es medianamente probable$ es poco probable$ etc,.
Por e0emplo$ el suceso ^obtener un n8mero entre 2 y / tirando un dado^ equivale a la
certezaI el suceso ^obtener un > arro0ando un dado^ equivale a la imposibilidadI y el suceso
^obtener un - arro0ando un dado^ equivale a uno de los grados intermedios de probabilidad.
Es habitual representar el grado de probabilidad mediante un n8mero que puede variar entre
2 (certeza, y . (imposibilidad,. &a probabilidad puede entonces valer 2$ .$ ..5.$ ..6.$ etc.
Por e0emplo$ una probabilidad de ..2 es muy ba0a$ y una probabilidad de ..=6 muy alta. )na
probabilidad intermedia es ..5. o tambi#n$ si la expresamos en t#rminos de porcenta0es
corriendo la coma dos lugares hacia la derecha$ obtenemos una probabilidad del 5. por
ciento. "al el caso de obtener una cara arro0ando una moneda.
-+ #robabilidad cl.sica y probabilidad frecuencial.A i bien existen diferentes teoras y
enfoques acerca de la probabilidad$ explicaremos a continuacin los dos planteos m%s
habituales$ siguiendo un ordenamiento histrico e incluso sistem%tico! el cl%sico y el
frecuencial. En 8ltima instancia$ se trata de dos modos diferentes de calcular la probabilidad
de la ocurrencia de un fenmeno.
a) #robabilidad cl.sica.A uele tambi#n denominarse probabilidad terica o a priori$ y se
define como el cociente entre el n8mero de casos favorables y el n8mero de casos
equiprobables posibles. +claremos esta aparentemente engorrosa definicin.
abemos que un dado tiene seis caras$ numeradas del uno al seis. &a probabilidad de
obtener la cara tres$ por e0emplo$ es de un sexto$ es decir de un caso favorable (porque hay
una sola cara con el tres, sobre seis casos equiprobables y posibles (caras 2A-A9AFA5A/,.
+plicando la definicin de probabilidad$ es!
Casos favorables 2
pT AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA T ..2///
Casos equiprobables posibles /
Para poder calcular esta probabilidad necesitamos$ obviamente$ conocer todos los casos
posibles (requisito de exhaustividad,$ pero adem%s debemos saber que todos esos casos
posibles tienen la misma probabilidad de salir (requisito de equiprobabilidad,$ vale decir$
debemos tener la suficiente seguridad de que ninguna cara tendr% mayor o menor
probabilidad de salir que otra cara cualquiera$ como puede ocurrir$ por e0emplo$ con los
dados ^cargados^.
)na aclaracin respecto de la expresin ^casos favorables^. Gebemos evitar aqui la
connotacin sub0etiva del t#rmino. )n caso favorable es simplemente un caso del cual
queremos conocer la probabilidad de su ocurrencia. Puede incluso tratarse de un terremoto o
una enfermedad$ aunque estos eventos no sean ^favorables^ desde otro punto de vista m%s
sub0etivo.
Qespecto de la expresin ^casos equiprobables posibles^$ esta alude al hecho antes indicado
de que para calcular una probabilidad en sentido cl%sico$ deben cumplirse los dos requisitos
de exhaustividad y equiprobabilidad.
Puede suceder$ en efecto$ que alguno de estos requisitos no se cumpla. 2, Exhaustividad!
Este requisito puede no cumplirse en dos casos. Primero$ puede ocurrir que al arro0ar un
dado$ este quede parado en equilibrio sobre alguno de sus v#rtices o aristas. Como
posibilidad existe$ pero es remotsima. Gebido a que esta posibilidad es muy ba0a$ a los
efectos pr%cticos la consideramos nula y seguimos aplicando la definicin cl%sica de
probabilidad$ como si todos los casos posibles fueran$ como en el caso del dado$ solamente
seis. egundo$ puede ocurrir que no sepamos cu%ntas caras tiene el dado (en la situacin
anterior s sabamos esta cantidad$ descartando las alternativas remotas,$ a8n cuando
sepamos que todas tienen la misma probabilidad de salir. En este caso$ al desconocer el
n8mero de casos posibles$ la definicin cl%sica de probabilidad resulta inaplicable$
qued%ndonos la opcin de aplicar la probabilidad frecuencial. -, Equiprobabilidad! Este
requisito puede no cumplirse cuando el dado est% ^cargado^ lo que hace que$ por e0emplo$ el
tres tenga mayores probabilidades de salir que el cuatro. En este caso$ podemos calcular la
probabilidad mediante la probabilidad frecuencial.
En sntesis hasta aqu! cuando ninguno de estos requisitos$ o ambos$ no pueden cumplirse$
nos queda a8n la opcin de calcular la probabilidad en forma emprica$ lo que nos lleva al
tema de la llamada probabilidad frecuencial.
b) #robabilidad frecuencial.A uele tambi#n denominarse probabilidad emprica o a posteriori$
y es definible como el cociente entre el n8meros de casos favorables y el n8mero de casos
observados. En un e0emplo$ supongamos que no conocemos cu%ntas caras tiene un dado (es
decir desconocemos la cantidad de casos posibles,$ y queremos averiguar qu# probabilidad
tiene de salir el uno. ;bviamente no podemos decir ^un sexto^ o ^uno sobre seis^ porque no
sabemos cu%ntas caras tiene el dado. Para hacer este c%lculo decidimos hacer un
experimento$ y arro0amos un dado com8n de seis caras (aunque nosotros ignoramos este
detalle, por e0emplo diez veces$ constatando que el uno sali cinco veces$ cosa
perfectamente posible. Conclumos entonces que la probabilidad de obtener un uno es de
cinco sobre diez$ es decir$ de ..5. i tomamos al pie de la letra este valor$ podramos conclur
que el dado tiene... _- caras`$ cada una con la misma probabilidad de ..5. +plicando la
definicin de probabilidad frecuencial$ resulta!
Casos favorables 5
pT AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA T ..5
Casos observados 2.
;tro e0emplo! supongamos que conocemos perfectamente que el dado tiene seis caras$ pero
no sabemos si las probabilidades de salir son iguales o no para todas ellas$ ya que
sospechamos que el dado puede estar ^cargado^. Para determinar la probabilidad de salir del
n8mero uno hacemos el mismo experimento$ d%ndonos un valor de ..>. Este valor$ si lo
tomamos al pie de la letra$ nos hara pensar que el dado est% preparado para que tenga
tendencia a salir el n8mero uno$ ya que su probabilidad de ocurrencia es bastante alta.
&a probabilidad frecuencial se llama tambi#n ^a posteriori^ debido a que ^slo despu#s^ de
hacer nuestra observacin o nuestro experimento podemos saber el valor de la probabilidad$
y no ^antes^$ como en el caso de la probabilidad cl%sica$ donde ^antes^ de arro0ar el dado ya
sabemos que la probabilidad de cada cara es de ..2///.
&a denominacin ^frecuencial^ alude al hecho de el c%lculo de probabilidades se realiza en
base a la frecuencia con que sale una determinada cara o posibilidad$ frecuencia que es
relativa porque la comparamos con la cantidad de casos observados. Por e0emplo$ en nuestro
8ltimo e0emplo la frecuencia absoluta es >$ porque de 2. veces que arro0amos el dado$ >
veces sali el n8mero deseado. En cambio la frecuencia relativa es ..>$ y resulta de dividir la
frecuencia absoluta por el n8mero de casos observados.
c) "a ley de los grandes nmeros.A "ambi#n llamada principio de la estabilidad de la
frecuencia relativa$ nos permite unificar conceptualmente los dos tipos de probabilidad reci#n
examinados$ y puede expresarse de la siguiente manera! a medida que aumenta la cantidad
de ensayos$ el valor de la probabilidad emprica obtenido se va aproximando cada vez m%s al
valor de la probabilidad terica.
"ey de los /randes 0meros
Cantidad de ensayos
arro0ando una moneda
Probabilidad terica de
salir cara
Probabilidad emprica obtenida
para cara
una vez ..5 .
- veces ..5 ..5
9 veces ..5 ..9999
F veces ..5 ..-5
2. veces ..5 ..9
2.. veces ..5 ..F
2... veces ..5 ..F5
2...... veces ..5 ..F============
iguiendo el esquema ad0unto$ si arro0amos una moneda por primera vez (primer ensayo,$ la
probabilidad terica de salir cara es de ..5$ cosa que sabemos m%s all% de hacer o no esa
experiencia. in embargo$ puede ocurrir que salga ceca$ y entonces conclumos que la
probabilidad emprica es .$ pues no sali ninguna cara.
+l arro0ar la moneda por segunda vez$ la probabilidad terica sigue siendo ..5$ ya que el
dado no tiene ^memoria^! por m%s que haya salido cien veces cara$ la 2.2R vez sigue
teniendo la misma probabilidad de salir cara. &a probabilidad emprica$ en cambio$ nos da
por e0emplo tambi#n ..5$ porque la primera vez no sali cara pero la segunda s$ con lo cual
habr% salido cara la mitad de las veces$ o sea hay una probabilidad de ..5. +l tercer tiro
vuelve a aparecer ceca$ con lo cual sobre tres tiros habr% salido slo una cara (la segunda
vez,$ y entonces la probabilidad emprica es de un tercio (..999,.
&o que dice la ley de los grandes n8meros es que$ si seguimos aumentando la cantidad de
tiros$ el valor de la probabilidad emprica se ir% aproximando cada vez m%s a la probabilidad
terica de ..5$ es decir$ se verifica una tendencia de la frecuencia relativa a estabilizarse en
dicho resultado$ y por ello esta ley se llama tambi#n principio de la estabilidad de la
frecuencia relativa.
"a probabilidad (p) vara entre 1 y ,
Kmposible Srados intermedios de probabilidad eguro
. ..-5 ..5. ..>5 2
. 2HF 2H- 9HF 2
Probabilidad de
extraer un as de
espadas de un
mazo de cartas
francesas
Probabilidad de
extraer un naipe
de copas de un
mazo de cartas
espaolas
Probabilidad de
obtener cara
arro0ando una
moneda
Probabilidad de
extraer una
bolilla ro0a de
una ca0a donde
hay 9 ro0as y
una blanca
Probabilidad de
extraer una
bolilla ro0a de un
bolillero de
bolillas ro0as
2+ 3lgunas aplicaciones del concepto de probabilidad.A &a teora de las probabilidades$
importante rama de la matem%tica$ ha permitido encarar la investigacin de sistemas$ tanto
cerrados como abiertos$ ba0o este relativamente nuevo enfoque. E0emplos particularmente
representativos aparecen en la termodin%mica y en la teora de la informacin.
a) #robabilidad en termodin.mica+4 &a evolucin de los sistemas cerrados o abiertos puede
medirse seg8n varios par%metros$ como por e0emplo el grado de entropa o desorden$ pero
tambi#n seg8n el grado de probabilidad que pueden alcanzar cuando evolucionan hacia
estados de equilibrio (como en el sistema cerrado, o hacia estados uniformes (como en el
sistema abierto,. +s$ se dice que la tendencia general de los procesos fsicos entendidos
como sistemas cerrados apunta a la entropa creciente o estados de creciente probabilidad$
mientras que los sistemas abiertos$ como por e0emplo los sistemas vivos$ consiguen
mantenerse en un estado de mnima entropa$ es decir$ en un estado de alta improbabilidad
estadstica.
b) #robabilidad en !eora de la %nformacin.A En la "eora de la Knformacin se emplea tanto
la probabilidad cl%sica como la probabilidad frecuencial. Es posible ilustrar esta cuestin con
el siguiente e0emplo (&ichtenthal$ 2=>.,! )n forastero llega a un pueblo y pregunta!
a7&lover% esta tarde:a$ a lo cual un vecino contesta asa. Esta respuesta 7provee mucha
informacin o poca informacin: "odo depende de quien la reciba.
a, i la respuesta la recibe el mismo forastero$ el aa implica bastante informacin$ porque
desconoce el clima del pueblo. El aa encierra para #l tanta informacin como el aJoa$
porque$ al no conocer el clima habitual de la zona$ para #l ambas respuestas son igualmente
probables (equiprobabilidad,$ y por consiguiente eval8a la probabilidad de que llueva o no en
base a una probabilidad terica o a priori.
b, i la respuesta la escucha otro vecino$ el aa tiene un valor informativo pr%cticamente
nulo porque todos en el pueblo saben que casi siempre llueve por las tardes. Jo es ninguna
novedad el aa$ es decir encierra poqusima informacin. En cambio si nuestro vecino
hubiese escuchado aJoa se sorprendera mucho$ y la cantidad de informacin es mucha. El
aa y el aJoa no son igualmente probables$ cosa que el vecino descubri por experiencia$ por
haber vivido un tiempo en el pueblo (la probabilidad es$ en este caso$ frecuencial$ y las
posibles alternativas no son equiprobables,.
&os e0emplos vienen a destacar una idea muy importante que vincula informacin con
probabilidad$ y que es la siguiente! el contenido informativo de un mensa0e est% ntimamente
ligado a su improbabilidad o ^valor sorpresa^. Por e0emplo$ cuando m%s nos ^sorprende^ la
respuesta$ o cuando m%s ^improbable^ o ^inesperada^ la 0uzgamos$ m%s informacin encierra.
Ge aqu una importante definicin de informacin$ como aquello que hace disminur la
incertidumbre del receptor. i al vecino le dicen que as llover% en este pueblo esta tardea
esto no es sorpresa para #l$ no reduce su incertidumbre y$ por consiguiente$ apenas si
contiene informacin.
5+ 6ocabulario.A &a teora de la probabilidad utiliza cierta terminologa t#cnica. +lgunos de los
principales t#rminos son los siguientes!
7spacio muestral! es el con0unto de todos los resultados posibles de un experimento dado.
Por e0emplo$ los resultados posibles del experimento de arro0ar un dado son 2$ -$ 9$ F$ 5 y /.
8uestra! es un resultado particular$ o sea$ un elemento de . Por e0emplo$ arro0ar un dado y
obtener F.
7vento! )n evento + es un con0unto de resultados$ o sea$ un subcon0unto de . Por e0emplo$
un evento puede ser arro0ar dos veces un dado obteni#ndose por e0emplo un F y un 9. i el
evento tiene una sola muestra$ se llama evento elemental.
El con0unto o espacio muestral es de por s un evento (en este caso se lo llama cierto o
seguro$ pues es seguro que arro0ando un dado se obtendr% 2$ -$ 9$ F$ 5 o /,$ mientras que
tambi#n se considera evento al con0unto vaco (se lo llama imposible! no es posible que no
salga ning8n n8mero,.
e pueden combinar eventos entre s para formar nuevos eventos$ por e0emplo!
+ unin * es el evento que sucede si y slo si + o * o ambos suceden.
+ interseccin * es el evento que sucede si y slo si + y * suceden simult%neamente.
+ complemento de +@ es el evento que sucede si y slo si + no sucede. Gos eventos son
mutuamente excluyentes cuando no pueden suceder simult%neamente.
7spacio finito de probabilidad! se obtiene al asignar a cada muestra de un espacio muestral
finito una determinada probabilidad de ocurrencia en forma de n8mero real. &a probabilidad
de un evento es igual a la suma de las probabilidades de sus muestras. i en un espacio
finito de probabilidad cada muestra tiene la misma probabilidad de ocurrir$ se llamar% espacio
equiprobable o uniforme. Existen tambi#n espacios muestrales infinitos.
'#& !EFIICI$ % CARACTER"TICA" !E LA CUR1A OR)AL
i se tomaran nueve personas al azar para medir la variable frecuencia cardaca$ podran
obtenerse$ por e0emplo$ los siguientes resultados! tres personas con /-$ cinco personas con
>. y una persona con 6F pulsaciones por minuto. Qepresentando visualmente esta situacin
mediante un polgono de frecuencias$ se obtiene el gr%fico 2.
i se registrara la frecuencia cardaca de 6. personas m%s$ probablemente se obtendra
resultados similares al polgono de frecuencias del gr%fico -. Ninalmente$ si se consideraran
infinito n8mero de personas$ la representacin visual se aseme0ara al gr%fico 9$ denominado
curva normal$ curva de Sauss o campana de Sauss (por su forma acampanada,.
Como puede apreciarse$ ciertas variables continuas como la frecuencia cardaca$ la glucemia$
la estatura$ el peso$ la agudeza visual$ el cociente intelectual$ y otras$ tiende a adoptar la
forma de una curva normal a medida que aumenta la cantidad de casos observados (9,.
+unque esta curva es una idealizacin$ porque no pueden medirse infinitos casos$ tiene$
como se ver%$ su utilidad$ a8n cuando las variables que se estudian desde este modelo no
siguen estrictamente la distribucin de la curva normal. Pruebas como por e0emplo el chi
cuadrado permiten determinar si una distribucin es lo suficientemente parecida a una
distribucin normal como para poder aceptar el modelo de la curva normal para estudiarla.
Ge hecho$ muchas variables tienen distribuciones lo suficientemente similares a una
distribucin normal como para tratarlas como tales sin cometer grandes errores.
En relacin con estas cuestiones$ conviene recordar aqu el teorema del lmite central$ que
dice que cualquiera sea la poblacin de donde se tome una muestra$ la distribucin de los
valores de la muestra se aproximan o aseme0an cada vez m%s a una distribucin normal a
medida que el tamao n de la muestra aumenta. En la pr%ctica se consideran normales a las
muestras cuyo tamao es igual o superior a 9..
&a curva normal tiene entonces algunas caractersticas que son las siguientes!
a, Es la idealizacin de un polgono de frecuencias con tendencia central para una gran
cantidad de casos. Por esta razn tiene la apariencia de una curva y no de una lnea
quebrada$ ya que el polgono de frecuencias tiene infinito n8mero de lados.
b, "iene forma de campana! no tiene otras formas similares como puede ser la forma de
herradura o la forma de una campana invertida.
c, Es sim#trica respecto de un e0e vertical$ lo que las diferencia de otras curvas como por
e0emplo la hip#rbole equil%tera. &a simetra de la curva normal implica que la media
aritm#tica$ la mediana y el modo coinciden en el punto central. Consecuentemente$ la curva
normal es unimodal (en cambio$ una campana invertida podra ser bimodal,. "ambi#n implica
que la distancia del cuartil 2 al cuartil - es igual a la distancia entre el cuartil - y el cuartil 9.
d, Es asinttica respecto del e0e x. Esto significa que la curva y el e0e de las absisas se
cortan en el infinito$ lo cual implica que cualquier valor de x tiene potencialmente alguna
frecuencia$ y ninguna frecuencia igual a ..
e, &a curva normal puede adoptar diferentes formas! mesoc8rtica$ platic8rtica o leptoc8rtica.
f, &os puntos de inflexin (donde la curva cambia de cncava a convexa y viceversa, se
encuentran en los puntos correspondientes a la media aritm#tica m%sHmenos un desvo
est%ndar.
g, Bay muchas posibilidades de curvas normales$ dependiendo de cu%les sean los valores de
las medias aritm#ticas y los desvos est%ndar. &a m%s importante es aquella que tiene como
media aritm#tica . (cero, y como desvo est%ndar 2 (la unidad,. En este caso$ la curva
normal se designa como distribucin o curva normal est.ndar o estandarizada.
h, Est% comprobado que en una curva normal$ y siempre idealmente$ alrededor de un /6<
de los casos posibles est%n comprendidos entre menos un desvo est%ndar y m%s un desvo
est%ndar ( 1), alrededor de un =5< est%n comprendidos entre menos - y m%s dos desvos
est%ndar ( 2), y alrededor de un ==< est%n comprendidos entre menos tres y m%s tres
desvos est%ndar ( 3), seg8n lo ilustra el siguiente esquema!
,
" C<
8
:
#
D& C< F-
+!,ico # +!,ico $ +!,ico :
Esto significa por e0emplo que una persona tiene una probabilidad del /6< de tener una
frecuencia cardaca comprendida entre menos un desvo est%ndar y m%s un desvo est%ndar.
i la media aritm#tica de esta distribucin fuera 6. pulsaciones por minuto y el desvo
est%ndar fuera de 2. pulsaciones por minuto$ entonces la frecuencia cardaca de una persona
cualquiera tendra un /6< de probabilidades de valer entre >. y =. pulsaciones por minuto.
iguiendo el mismo criterio$ tambi#n puede calcularse la probabilidad de aparicin de un
valor comprendido entre menos tres desvos est%ndar y la media aritm#tica (==< dividido
-,$ la probabilidad de aparicin de un valor comprendido entre menos dos desvos est%ndar y
la media aritm#tica (=5< dividido -,$ la probabilidad de aparicin de un valor comprendido
entre menos un desvo est%ndar y m%s dos desvos est%ndar (/6< dividido -$ m%s =5<
dividido -,$ y la probabilidad de obtener cualquier otro valor intermedio (como el
comprendido entre A2.-> desvos y P-.5/ desvos,$ para lo cual se habr% de consultar una
tabla especialmente confeccionada para tal efecto.
'#' PUTAME" (RUTO" % PUTAME" E"TA!ARI?A!O"
+ntes de hacer referencia a las utilidades pr%cticas de la curva normal$ convendr% aclarar
algunos conceptos tales como los de punta0e bruto y punta0e estandarizado.
Para designar los diferentes valores que asume una variable para una determinada unidad de
an%lisis$ en estadstica descriptiva suele emplearse la expresin ?dato@. Por e0emplo$ un dato
puede ser 3Luan mide 2.>. metros4. 'uchos datos$ sin embargo$ se distribuyen de acuerdo a
una curva normal$ y esta clase de datos suelen ser tpicamente puntuaciones o punta0es de
tests o pruebas de evaluacin. Por e0emplo$ 3Luan obtuvo =. puntos en el test de inteligencia
de beschler4$ o 3Pedro obtuvo > puntos en el examen de geografa4. Esta es la razn por la
cual$ en lo que sigue se utilizar% la expresin *untaAe en lugar de ?dato@$ pero debe tenerse
presente que todo punta0e es$ siempre$ un dato.
e llama *untaAe +ruto$ directo u original al punta0e obtenido por un su0eto en una prueba.
Por e0emplo$ podra resultar de la suma de respuestas correctas$ valiendo cada una de ellas
un punto (Eohan$ 2==F!296,.
&os punta0es brutos presentan sin embargo algunos inconvenientes. Por e0emplo! a, i una
persona obtuvo F puntos en una prueba acad#mica$ podemos suponer que obtuvo un ba0o
punta0e porque lo comparamos con el punta0e m%ximo$ que es 2.. in embargo$ no nos sirve
para comparar a esa persona con el resto de la poblacin$ ya que si los dem%s alumnos
obtuvieron en promedio - puntos$ la calificacin F ser%$ entonces$ alta. b, i una persona
obtuvo 6 puntos en geografa y 5 puntos en matem%ticas$ podemos suponer que obtuvo m%s
punta0e en geografa. in embargo$ esta suposicin es errnea si resulta ser que el punta0e
m%ximo en geografa es -. y el punta0e m%ximo en matem%ticas es /$ en cuyo caso habr%
obtenido mayor punta0e en matem%ticas.
Estas y otras dificultades pueden resolverse transformando los punta0es brutos en otros
llamados *untaAes estandari4ados (o tambi#n punta0es transformados$ porque resultan de
haber transformado los punta0es brutos,. Estos punta0es estandarizados permitir%n$ por
e0emplo$ comparar el punta0e de un su0eto con toda la poblacin$ o bien comparar dos
punta0es de pruebas con diferentes sistemas de evaluacin (2,.
&os punta0es estandarizados pueden ser lineales o no lineales$ seg8n que resulten de
transformaciones lineales o no lineales (Eohan$ 2==F!296,. En el primer caso existe una
proporcionalidad entre los punta0es brutos y sus correspondientes punta0es estandarizados$
ya que la transformacin opera seg8n una ecuacin lineal o ecuacin de primer grado y$ por
tanto$ no ?deforma@ la distribucin de los punta0es brutos.
En lo que sigue se describen sucintamente tres e0emplos de punta0es estandarizados de uso
frecuente! los punta0es estandarizados z (punta0e reducido,$ X (punta0e derivado, y P
(punta0e percentil,.
El *untaAe reducido 4 es 3un dato transformado que designa a cu%ntas unidades de desvos
est%ndar por arriba o por deba0o de la media se encuentra un dato en bruto4 (Pagano$
2==6!6F,. Para transformar un dato en bruto x en un punta0e z se utiliza la frmula! z T (x A
Z, H s.
Pueden destacarse tres caractersticas de los punta0es z (Pagano$ 2==6!6/A6>,! a, tienen la
misma forma que el con0unto de datos en brutoI b, la media de los punta0es z es siempre
igual a ceroI y c, el desvo est%ndar de los punta0es z es siempre igual a 2.
El *untaAe derivado ? (tambi#n llamado a veces punta0e derivado ", tiene la venta0a sobre
el punta0e reducido z que no tiene valores negativos y que pueden despreciarse los
decimales por ser una cantidad pequea (Eohan$ 2==F!2F2,. Para transformar un punta0e
reducido z en un punta0e derivado X se utiliza la frmula! X T (z.2., P 5.$ ya que este
punta0e derivado considera la media aritm#tica como 5. y el desvo est%ndar como 2..
Existen otras modalidades de punta0es derivados (*otella! 2==9!2/2,. )no muy conocido en
psicologa es el llamado cociente intelectual o CK$ que considera como media aritm#tica a 2..
y como desvo est%ndar a 25.
El *untaAe *ercentil P es un punta0e no lineal y es tambi#n de uso frecuente por su
facilidad de comprensin$ aunque tenga el inconveniente de que su distribucin toma una
forma que no responde a la realidad de las funciones psicolgicas. Para transformar un
punta0e z en un punta0e percentil hay que recurrir a una tabla especial$ que se describe m%s
adelante.
Como se puede apreciar en el esquema siguiente$ el punta0e percentil P no es proporcional al
resto de los punta0es$ pero si lo es respecto de las %reas cubiertas ba0o la curva normal$
%reas que a su vez indican la probabilidad de ocurrencia de un punta0e cualquiera. En efecto$
puede verse que los punta0es percentiles P est%n concentrados en aquellos lugares donde el
%rea ba0o la curva es mayor y$ adem%s$ cuanto mayor es esta %rea mayor ser% el percentil
correspondiente.
&as correspondencias entre los diferentes punta0es pueden visualizarse mediante el siguiente
esquema (-,!
7'uivalencias de punta(es brutos y estandarizados
+s por e0emplo$ puede apreciarse que un punta0e bruto correspondiente a m%s un desvo
est%ndar corresponde a un punta0e reducido z de P2$ a un punta0e derivado X de /.$ y a un
percentil de 6F.
Especialmente cuando se trata de averiguar valores intermedios (por e0emplo el punta0e
bruto correspondiente a m%s 2./- desvos est%ndar, debe recurrirse al empleo de frmulas y
tablas. El siguiente esquema indica la forma de hacerlo!
)eglas de transformacin de punta(es (de utilidad para resolver aplicaciones pr.cticas de la
curva normal)
85C del !ea
.obabilidad 3 5;8
P
<
P
&
P
1D
P
0<
P
F-
P
EF
P
1<<
< 1< &< '< -< 0< D< C< F< E< 1<<
='s =&s =1s ? N1s N&s N's
=0 =- =' =& =1 < N1 N& N' N- N0
, (,ecuencia) ? ; media aritm3tica
s ; desvo est.ndar
6 ; *untaAe +ruto
4 ; *untaAe reducido
? ; *untaAe derivado
P ; *ercentil
6
4
?
P
85C del !ea
.obabilidad 3 5;8
En este esquema$ las flechas m%s gruesas indican los procedimientos habituales en las
aplicaciones pr%cticas de la curva normal$ mientras que aquellas y las flechas m%s finas
indican mas bien los procedimientos que se piden en e0ercitaciones en cursos de estadstica.
'#- APLICACIOE" !E LA CUR1A OR)AL
El modelo matem%tico de la curva normal tiene varias aplicaciones pr%cticas$ como por
e0emplo en psicologa y ciencias de la educacin. Pagano (2==6!62, invoca tres razones
principales que explican su importancia en estas disciplinas! 2, 'uchas variables psicolgicas
tienen distribuciones muy seme0antes a la curva normal$ tales como altura$ peso e
inteligencia. -, 'uchas pruebas de inferencia empleadas para analizar experimentos tienen
distribuciones muestrales que poseen una distribucin muestral al aumentar el tamao de la
muestra. 9, 'uchas pruebas de inferencia requieren distribuciones muestrales que se
aseme0en a la curva normal$ como la prueba z$ la prueba ?t@ de tudent o la prueba N.
Consiguientemente$ gran parte de la importancia de la curva normal aparece con0untamente
con la estadstica inferencial.
En lo que sigue se suministran algunos e0emplos de aplicaciones pr%cticas de la curva normal
con punta0es estandarizados. 7n primer lugar se expone un problema tpico y la forma de
resolverlo teniendo en cuenta las reglas de transformacin de punta0es (ver esquema
anterior,. 7n segundo lugar$ se presentan algunas variantes posibles dentro del problema
tpico u otros.
#roblema tpico.A &a variable ?peso@ en una poblacin de mu0eres adultas tiene una
distribucin aproximadamente normal$ con una media aritm#tica (J, de /. Og y un desvo
est%ndar (s, de / Og. Calcular la probabilidad de que una mu0er adulta de esa poblacin
tomada al azar tenga un peso mayor a /6 Og.
)esolucin del problema tpico.A Cuando el enunciado del problema afirma que la variable
tiene una distribucin aproximadamente normal$ ello significa que puede ser resuelto
recurriendo al modelo de la curva normal. + partir de aqu$ los pasos para resolverlo son los
siguientes!
PUNTADE
BRUTO (")
PUNTADE
RE'UCI'O (z)
AREA E?PRESA'A
COMO PROBABILI'A'
(.)
AREA E?PRESA'A
COMO PORCENTADE (C) PUNTADE
'ERI-A'O (/)
PERCENTIL (P) m $ un nHmero cual6uiera entre 3 = "33
. $ (@ 4 ?) ? s
I $ (.9"3) > (3
8abla: entrar
por .
8abla: entrar
por p
Multiplicar
por "33
-ividir
por "33 . $ (I4(3) ? "3
@ $ (.9s) > ?
mJ P
m
P
m
mJ
a, &o primero que debe especificarse son los datos y las incgnitas. &os datos son tres! la
media aritm#tica (/. Og,$ el desvo est%ndar (/ Og,$ y finalmente un valor de la variable a
partir del cual debe estimarse su probabilidad (/6 Og,. En smbolos!
J T /. Og s T / Og 6 T /6 Og
En este caso el problema solicita resolver una sola incgnita! la probabilidad de que una
persona tomada al azar tenga m%s de /6 Og (tambi#n podra haber solicitado averiguar la
probabilidad de que tenga menos de 5. Og$ o la probabilidad de que tenga entre F. y /. Og,.
En smbolos!
* /6 Og c x
b, +ntes de seguir adelante$ siempre convendr% trazar la curva normal y especificar la
informacin revelante para resolver el problema. En este caso es!
eg8n el es'uema de reglas de transformacin de punta(es$ si a partir de un valor dado de x
(/6 Og, se quiere calcular su probabilidad p$ antes deber% transformarse el valor x a un
punta0e reducido z$ el cual constituye una incgnita (:, que deber% resolverse.
+simismo se raya el %rea ba0o la curva que se extiende desde /6 hacia la derecha$ porque es
esa probabilidad (proporcional al %rea rayada, la que debe averiguarse (es decir$ /6 o m%s,.
c, e aplica la frmula de transformacin del punta0e x en punta0e z!
z T (x A J, H s
z T (/6 C /., H / T 2.99
d, e recurre a la !abla de .reas ba(o la curva normal estandarizada para hallar la
probabilidad p a partir de z T 2.99. Para ello$ puede utilizarse indistintamente la "abla 2 o la
"abla - (ver +nexo,.
e utilizar% la "abla 2$ donde puede verse que a un valor z T 2.99 corresponde una
probabilidad p T ..=.6-.
e, in embargo$ esta tabla indica la probabilidad de z o menos es decir$ la zona rayada hacia
la izquierda de z.
Por lo tanto$ como lo que interesa es la probabilidad de un valor de z o mayor$ se restar% al
valor p T 2 (el total del %rea ba0o la curva, el valor p T ..=.6-. En smbolos!
+rea total 2.....
'enos %rea hacia la izquierda ..=.6-
+rea hacia la derecha ...=26
Por lo tanto$ la probabilidad de que una mu0er adulta pese m%s de /6 Og es de p T ...=26.
"raduciendo la probabilidad a porcenta0es$ puede decirse que existe un =.26< de
probabilidades de que la mu0er pese /6 Og o m%s. Ge id#ntica manera$ puede decirse que el
percentil P que ocupa una mu0er adulta de /6 Og es$ siguiendo las pautas del es'uema de
reglas de transformacin de punta(es! P=2 (calculado y redondeado a partir de p T ..=.6-,$
lo cual significa que una mu0er que pese /6 Og tiene ?por deba0o@ aproximadamente un =2<
de personas que pesan menos que ella.
3lgunas variantes posibles.A &os siguientes ocho casos ilustran algunos e0emplos de
problemas que pueden resolverse mediante la curva normal y los punta0es estandarizados. El
problema tpico examinado precedentemente encuadra en el caso F.
En todos estos casos se trata de calcular la probabilidad de ocurrencia de un valor
comprendido ba0o el %rea rayada de la curva ya que la probabilidad de ocurrencia del valor
es proporcional al %rea respectiva. Como se ver%$ en algunos casos conviene m%s utilizar la
"abla 2 y en otros las "abla - (ver +nexo,.
CASO # CASO $
CASO : CASO 9
CASO 8
CASO 4
CASO >
CASO =
Caso 1.A +qu se trata de averiguar la probabilidad p de que un valor cualquiera de la
poblacin corresponda a z T P2.5. Para este caso convendr% utilizar la tabla 2$ donde
primero se busca el valor P2.5 en la primera columna$ y luego se busca su valor de
probabilidad$ que es p T ..=99-. Jota! si el valor de z hubiese sido P2.5/$ se busca primero
z T 2.5 y luego se busca$ en la primera hilera$ el valor .../ (ya que 2.5 P .../ T 2.5/,. En
el entrecruzamiento de 2.5 y .../ encontraremos$ finalmente$ el valor de la probabilidad p T
..=F./.
Caso &.A En este caso se procede de manera similar que en el caso anterior.
Caso '.A +qu se trata de averiguar la probabilidad de que un valor z valga A- o m%s. Esta
situacin exige dos pasos. El primer paso es id#ntico al caso 2. in embargo$ este primer
paso calcula la probabilidad de z hacia la izquierda$ y lo que se necesita saber es la
probabilidad de z hacia la derecha (zona rayada,. Como se sabe que la totalidad del %rea
ba0o la curva vale 2$ para averiguar la zona hacia la derecha bastar% con restar 2 de la
probabilidad de la zona hacia la izquierda. En esto consiste el segundo y 8ltimo paso.
Caso -.A +qu debe averiguarse la probabilidad de que un valor z valga 2.5 o m%s. &a opcin
m%s sencilla es aqu emplear la "abla2$ con la cual se calcula la probabilidad correspondiente
a z T P2.5$ que es p T ..=99-. Esta probabilidad corresponde a la zona rayada desde z
hacia la izquierda$ pero como debe averiguarse la probabilidad de z hacia la derecha$ deber%
restarse 2 menos ..=99-.
Caso 0.A +qu debe averiguarse la probabilidad de que un valor z est# comprendido entre
A-.5 y P2.5. )na forma sencilla de resolver este problema es dividiendo el %rea rayada en
dos! una desde la mitad hacia la izquierda (. a A-.5, y otra desde la mitad hacia la derecha
(. a P2.5,. e calcula luego la probabilidad de cada %rea recurriendo a la "abla -$ y
finalmente se suman ambas probabilidades. Jota! para el c%lculo de la zona rayada de la
mitad hacia la izquierda se buscar% en la "abla - el valor z T P-.5$ porque es igual al valor z
T A-.5 (por ser la curva normal sim#trica,.
Caso D.A Este caso es tan sencillo que no requiere el uso de tablas. &a probabilidad de la
zona rayada es p T ..5 porque corresponde exactamente a la mitad de toda el %rea ba0o la
curva$ cuya p es igual a 2 (p T 2 equivale a la certeza,.
Caso C.A +qu debe calcularse la probabilidad de que un valor z est# comprendido entre A- y
A2. En este caso$ en lugar de sumar %reas como en el caso 5$ deber%n restarse %reas.
Qecurriendo a la "abla 2$ se calcula primero la probabilidad correspondiente a z T A2 (que es
p T ..256>, y luego la probabilidad de z T A- (que es p T ...--6,. &a probabilidad
resultante ser% p T ..256> C ...--6 T ..295=.
Caso F.A +qu debe calcularse la probabilidad de que un valor z est# comprendido entre P2 y
P-. e puede proceder de la misma forma que en el caso >$ es decir$ restando las
probabilidades correspondientes a z T P- y z T P2.
OTA"
(2, *otella (2==9!259, refiere que los punta0es estandarizados son 8tiles en los siguientes casos! a, al
hacer comparaciones entre unidades de distintos grupos! se pueden comparar$ mediante puntuaciones
estandarizadas$ distintas observaciones de un mismo su0eto o de su0etos diferentesI b, al hacer
comparaciones entre variables medidas de distinta forma$ debido a que los punta0es estandarizados son
adimensionales. Por e0emplo$ comparar una altura expresada en centmetros con otra expresada en
metrosI y c, al comparar observaciones de distintas variables! por e0emplo$ comparar la altura y el peso
de un su0eto.
(-, En el esquema puede apreciarse que z contempla valores que se extienden a A5 o P5.desvos
est%ndar. En la pr%ctica$ sin embargo$ se consideran solamente valores entre A9 y P9 por razones
pr%cticas. En efecto$ los valores superiores a P9 o menores a A9 cubren %reas muy pequeas ba0o la
curva$ es decir$ la probabilidad de ocurrencia de punta0es mayores que P9 o menores que A9 son muy
improbables$ estando muy ale0ados de la media aritm#tica.
(9, Bay muchas formas en que los datos pueden distribuirse$ y en todos esos casos existe cierta
regularidad en los mismos. Por e0emplo$ hay una tendencia a que la mitad de las veces salga cara
arro0ando una moneda$ y tambi#n hay una tendencia a que la mitad de las veces se opte por un
producto + y no uno * (suponiendo que lo hay ninguna razn para elegir uno u otro,. Estos hechos
sugieren que los datos de una manera regular$ y los estadsticos propusieron diversos modelos de
distribucin$ uno para cada forma regular de distribucin de datos$ como por e0emplo el modelo
*ernouilli o el modelo binomial.
&a nocin de permanencia estadstica (Messereau +$ 2=/-!25, hace referencia a ciertas uniformidades en
los datos de la realidad. Por e0emplo! a, la cantidad de varones y la de mu0eres tiende a ser
aproximadamente igualI b, el tamao de las galletitas que fabrica una m%quina tiende a ser
aproximadamente igualI c, la proporcin entre granos esf#ricos de arve0as y granos arrugados de
arve0as tiende a ser del >5< y del -5< aproximadamente$ o sea$ siempre tiende a encontrarse
aproximadamente >5 granos esf#ricos cada 2..$ y -5 granos arrugados cada 2..I d, la estatura de las
personas tienden siempre a estar alrededor de un valor medio$ siendo frecuente encontrar estaturas de
2.>. metros pero raro encontrar estaturas de - metros.
Estas uniformidades sugieren la presencia de leyes que rigen la forma en que se distribuyen los datos.
Como hay muchas formas en que los datos pueden distribuirse$ tambi#n habr% muchas leyes que
describen dichas distribuciones. Entre las m%s conocidas (Messereau +$ 2=/-!2/A-F, se cuentan la ley
binomial$ la ley de &aplaceASauss y la ley de Poisson. Por e0emplo$ la ley de &aplaceASauss describe las
distribuciones que siguen una curva normal! 3cuando una magnitud recibe la influencia de una gran
cantidad de causas de variacin$ y estas son todas muy pequeas e independientes unas de otras$ se
demuestra que los valores individuales de las mediciones se distribuyen respondiendo a la ley de
&aplaceASauss4 (Messereau +$ 2=/-!-.,.
;tros autores consideran fundamentales a las distribuciones normal$ binomial y de tudent$ y hacen
referencia a otras$ como la distribucin ?chi cuadrado@ (x
-
, que$ a diferencia de la primeras$ no es
param#trica$ es decir$ no requiere supuestos tan rigurosos acerca de la poblacin$ como por e0emplo de
que esta se distribuya normalmente (Eohan J$ 2==F!2=2,.
Bay otras leyes que tienen alcance m%s general$ como por e0emplo la ley de distribucin de las medias
(Messereau +$ 2=/-!-F, que establece que$ cualquiera que sea la distribucin (binomial$ gaussiana$ etc,$
el desvo est%ndar de las medias aritm#ticas de todas las muestras posibles de n elementos disminuye
inversamente a la raz cuadrada de n. Esto significa que cuanto m%s grandes sean las muestras$ menos
desviacin o dispersin habr% entre sus medias aritm#ticas.
CAPTULO -: CORRELACIO % RE2RE"IO
-#1 ITRO!UCCI$
El an.lisis de correlacin permite averiguar el tipo y el grado de asociacin estadstica entre
dos o m%s variables$ mientras que el an%lisis de regresin permite hacer predicciones sobre
la base de la correlacin detectada.
'%s concretamente$ una vez realizado el an%lisis de correlacin$ pueden obtenerse dos
resultados! que haya correlacin o que no la haya. i hay correlacin$ entonces se emprende
un an.lisis de regresin$ consistente en predecir cmo seguir%n variando esas variables
seg8n nuevos valores.
Por e0emplo$ si sobre la base de haber examinado a F. alumnos se concluye una alta
correlacin en sus notas en ambos parciales$ conociendo la nota del primer parcial de un
alumno n8mero F2$ podremos predecir con alg8n margen de seguridad cu%nto se sacar%
este alumno en el segundo parcial.
En general el an%lisis de correlacin se realiza con0untamente con el an%lisis de regresin.
'ientras el an%lisis de correlacin busca asociaciones$ el an%lisis de regresin busca
predicciones$ es decir$ predecir el comportamiento de una variable a partir del
comportamiento de la otra.
+s$ la correlacin y la regresin est%n ntimamente ligadas. En el nivel m%s sencillo$ ambas
implican la relacin entre dos variables y utilizan el mismo con0unto de datos b%sicos$ pero
mientras la correlacin tiene que ver con la magnitud y la direccin de la relacin$ la
regresin se centra en el uso de la relacin para hacer una prediccin. Esta 8ltima es sencilla
cuando la relacin es perfecta$ pero la situacin es m%s comple0a si la relacin es imperfecta
(Pagano$ 2->,.
&a correlacin es 8til porque permite hacer predicciones$ porque permite establecer
correlaciones (paso previo para la determinacin de una conexin causal,$ y para realizar
pruebas de confiabilidad de instrumentos de medicin como los tests (prueba testAretest,
(Pagano$ ==,.
Por 8ltimo$ vale la pena aclarar que en el contexto de un estudio cientfico$ no basta con
determinar el grado de correlacin entre dos variables en una muestra. Es necesario adem%s
establecer$ mediante una prueba de significacin (por e0emplo la prueba ?t@,$ si la correlacin
establecida en la muestra puede extenderse a toda la poblacin con un determinado nivel de
confianza. Esta tarea corresponder% a la estadstica inferencial.
&orrelacin lineal.A &as relaciones entre variables pueden ser de muchos tipos. a, Bay
relaciones deterministas que responden a modelos matem%ticos tericos$ como por e0emplo
la relacin entre la intensidad de una corriente y la resistencia del conductor$ o bien$ la
relacin entre la factura de consumo de agua y el n8mero de metros c8bicos consumidos.
Estas relaciones son habituales en ciencias exactas. b, ;tras relaciones no son tan
deterministas$ pero pueden eventualmente parecerse Cslo parecerseA a alg8n modelo
matem%tico terico determinista$ en cuyo caso se concluye que ese modelo explica bien la
relacin$ aunque no lo haga perfectamente. Estas relaciones son habituales en las ciencias
sociales (*otella$ 2==9!262,.
Gentro de los muchos modelos tericos a los cuales podra a0ustarse una relacin no
determinista se cuentan los modelos lineales$ los modelos cuadr%ticos$ los modelos c8bicos$
etc. El primero se representa mediante una recta$ y los restantes mediante diversos tipos de
curva como par%bolas e hip#rbolas. El presente artculo har% referencia$ por razones de
simplicidad$ a las relaciones lineales y$ por tanto$ a la correlacin lineal.
&orrelacin y causalidad.A El hecho de que dos variables est#n correlacionadas$ no significa
necesariamente que una sea la causa y la otra el efecto! la correlacin no siempre significa
causalidad. Entre otras cosas$ una alta correlacin puede deberse a que ambas variables Z e
d dependen cada una independientemente de otra variable X$ y entonces$ al variar X hace
variar con0untamente a Z e d$ produciendo un efecto de alta correlacin que puede dar la
apariencia de causalidad. Por dar un e0emplo! entre memoria visual (Z, y memoria auditiva
(d, puede haber una alta correlacin$ pero ello no significa que la memoria visual sea la
causa de la memoria auditiva$ ya que ambas pueden estar dependiendo de otro factor X m%s
general$ ll%mese amemoriaa$ o acantidad de +QJa.
i realizar el an%lisis de correlacin es algo relativamente f%cil (se trata de recoger datos y
aplicar una frmula,$ determinar el vnculo causal suele implicar un procedimiento m%s
laborioso$ como por e0emplo la e0ecucin de un diseo experimental que implique la
comparacin de dos grupos sometidos a condiciones diferentes y donde haya un control
sobre la influencia de variables extraas.
El siguiente esquema permite visualizar algunos pasos posibles para llevar a cabo un an%lisis
de correlacin seguido de un an%lisis de regresin. El esquema sintetiza$ al mismo tiempo$
los temas a tratar en el presente artculo.
-#& EL A@LI"I" !E CORRELACI$
3Luan se sac una buena nota en el primer parcial$ y por lo tanto es bastante probable que
tambi#n saque buena nota en el segundo parcial4. 3Esta persona tiene m%s edad y por lo
tanto es m%s probable que le falte alguna pieza dentaria4. +bundan esta clase de
razonamientos en la vida cotidiana$ que suelen aceptarse sin demasiada crtica.
in embargo$ en un estudio cientfico es habitual que estas hiptesis deban ser comprobadas
m%s all% de las certidumbres sub0etivas. Para constatar si hay realmente asociacin entre dos
o m%s variables cualesquiera$ se emplea una herramienta denominada ?an%lisis de
correlacin@$ que tambi#n eval8a el grado o intensidad en que dichas variables est%n
asociadas. e examina aqu el caso m%s sencillo (dos variables,$ que se estudia dentro de la
estadstica bivariada.
En el siguiente e0emplo se exponen tres posibles distribuciones de frecuencias bivariadas (2,
referidas a las primeras y segundas notas de ex%menes parciales.
Si las &aiables sonE
CUANTITATI-AS
Se calcula la coelaci2n con
CUALITATI-AS OR'INALES
Se calcula la coelaci2n con
METO'O ANALITICO
Coe,iciente de coelaci2n .o
an0os de S.eaman
METO'O ANALITICO
Coe,iciente de
coelaci2n de Peason
METO'O +RAFICO
'ia0ama de
dis.esi2n
Se calcula la
e0esi2n
(.edicci2n) con
Paa inte.eta me1o este
coe,iciente* se calcula el
coe,iciente de deteminaci2n
METO'O ANALITICO
MFtodo de los cuadados
mnimos
METO'O +RAFICO
Recta de e0esi2n
Alumno Ta+la 1 Ta+la & Ta+la '
J % J % J %
+
*
C
G
E
N
S
9
F
/
/
6
=
2.
-
5
5
/
/
=
=
9
F
/
/
6
=
2.
9
F
/
/
6
=
2.
9
F
/
/
6
=
2.
-
9
5
5
>
6
=
J T Jota del primer parcial
% T Jota del segundo parcial
En la "abla 2 se han consignado las notas de los parciales de un grupo de > alumnos
ordenadas en forma creciente.
)n somero examen visual de la tabla revela que hay bastante asociacin entre las variables
Z e d! quienes sacaron buena nota en el primer parcial tienden a sacar buena nota en el
segundo$ y lo mismo para quienes sacaron ba0as notas$ con lo cual ambas variables tienden
a variar concomitantemente o con0untamente.
in embargo$ debe tenerse presente que la asociacin o correlacin entre ambas variables no
depende de la similitud entre Z y d$ sino de la similitud de sus modos de variacin. +s$ en la
"abla - las notas de los primeros y segundos parciales de cada alumno son iguales$ y en la
"abla 9 la nota del segundo parcial es diferente$ pero siempre menor en un punto. in
embargo$ en ambas tablas la correlacin es la misma.
El an%lisis de correlacin busca establecer esencialmente tres cosas!
2, #resencia o ausencia de correlacin.A Gadas dos o m%s variables$ si existe o no correlacin
entre ellas.
-, !ipo de correlacin.A En caso de existir correlacin$ si esta correlacin es directa o inversa.
En la correlacin directa$ ambas variables aumentan (o disminuyen, concomitantemente$ y
en la correlacin inversa ambas variables varan inversamente$ o tambi#n puede decirse aen
relacin inversamente proporcionala$ lo que significa que cuando una aumenta la otra
disminuye$ o viceversa (-,. En el siguiente esquema se muestran algunos e0emplos de
correlacin directa e inversa.
!ipos de correlacin
Ti*o !e9inici,n EAem*los en *sicolo/a
Correlacin
directa o
positiva
+mbas variables
aumentan (o
disminuyen, en
forma concomitante.
&ociente intelectual9calificacin! + mayor CK$ mayor
calificacin obtenida en el examen.
!iempo9retencin! + mayor tiempo para memorizar$
mayor cantidad de palabras retenidas.
!est laboral9rendimiento futuro! + mayor punta0e en un
test de aptitud t#cnica$ mayor rendimiento en dicha
%rea dentro de x aos (esto es tambi#n un modo de
estimar la validez predictiva de un test,.
Correlacin
inversa o
negativa
)na variable
aumenta y la otra
disminuye (o
viceversa, en forma
concomitante.
7dad9memoria! +l aumentar la edad$ disminuye la
memoria.
0umero de ensayos9cantidad de errores! +l aumentar
el n8mero de ensayos$ disminuye la cantidad de
errores.
&ansancio9atencin! +l aumentar el cansancio
disminuye la atencin.
9, /rado de correlacin.A El grado o ?intensidad@ de la correlacin$ es decir$ ?cu%nta@
correlacin tienen en t#rminos num#ricos.
Para hacer todas estas averiguaciones$ se puede recurrir a tres procedimientos.
a, El m*todo tabular.A )na correlacin podra constatarse con la simple visualizacin de
tablas de correlacin como las indicadas anteriormente$ pero habitualmente las cosas no son
tan f%ciles$ sobre todo porque hay bastante mayor cantidad de datos$ y porque estos casi
nunca registran los mismos incrementos para ambas variables. Por lo tanto$ debe
abandonarse la simple visualizacin de las tablas y utilizar procedimientos m%s confiables$
como los gr%ficos (diagramas de dispersin o dispersiogramas, y los analticos (por e0emplo
el coeficiente de Pearson,.
b, El m*todo gr.fico.A Consiste en trazar un diagrama de dispersin.
c, El m*todo analtico.A Consiste en aplicar una frmula que permita conocer no slo el tipo
de correlacin (directa o inversa, sino tambi#n una medida cuantitativa precisa del grado de
correlacin. &a frmula del coeficiente de Pearson es un e0emplo tpico para medir correlacin
entre variables cuantitativas.
-#' C@LCULO 2R@FICO !E LA CORRELACI$
)n gr%fico es mucho me0or que una tabla para apreciar r%pidamente si hay o no correlacin
entre variables. Existen varias maneras de graficar la correlacin (9,$ pero aqu se describir%
el procedimiento cl%sico! el diagrama de dispersin. El diagrama de dispersin es
b%sicamente una ?nube@ de puntos$ donde cada punto corresponde al entrecruzamiento de
cada par de valores de Z e d. Este diagrama puede realizarse independientemente del c%lculo
analtico de la correlacin.
Por e0emplo$ el diagrama de dispersin correspondiente a la "abla 2 se aseme0a al diagrama
+ del esquema de diagramas de dispersin.
+ este diagrama se ha agregado ?a o0o@ una lnea imaginaria$ que viene a representar m%s o
menos el ordenamiento lineal de los puntos (que van desde aba0o a la izquierda hacia arriba
a la derecha,. El diagrama se llama ^de dispersin^ porque muestra cu%n dispersos (prximos
o ale0ados, est%n los puntos alrededor de dicha recta. N%cil es advertir que cuanto m%s
alineados est#n$ m%s correlacin habr%. En el e0emplo + del esquema sobre diferentes
diagramas de dispersin$ los puntos tienden a ubicarse en las proximidades de la recta
imaginaria$ lo que indica que est%n poco dispersos. i los puntos figurasen m%s ale0ados
habra m%s dispersin$ y por lo tanto menor correlacin entre Z e d.
El caso * muestra correlacin inversa$ pues el ordenamiento de los puntos indican que$ a
medida que aumenta Z$ va disminuyendo d. +s entonces$ cuando la lnea imaginaria va de
aba0o a la izquierda hacia arriba a la derecha$ hay correlacin directa$ y cuando va desde
arriba a la izquierda hacia aba0o a la derecha hay correlacin inversa. Gicho m%s
t#cnicamente$ en el primer caso la recta tiene una inclinacin o pendiente positiva$ y en
segundo su pendiente es negativa.
El caso C revela$ por su parte$ que a medida que aumenta d$ los valores de Z ni aumentan ni
disminuyen$ permaneciendo fi0os en el valor 5. Por lo tanto no hay correlacin. En general no
la hay cuando una de las variables no vara (en este caso Z permanece constante en el valor
5,.
El caso G es similar al anterior! all los valores de d permanecen constantes en el n8mero F$
mientras va variando Z. "ampoco hay correlacin.
El caso E muestra un e0emplo donde varan ambas variables$ pero sin embargo no hay
correlacin. En esa nube es imposible trazar una lnea imaginaria representativa de la
orientacin de los puntos$ simplemente porque no hay tal orientacin lineal. &os valores que
van asumiendo las variables son en principio aleatorios (varan al azar,. "ampoco hay
correlacin.
El caso N nos muestra un caso de correlacin perfecta o m%xima (en este caso directa,$ pues
no hay dispersin de puntos alrededor de la lnea imaginaria! todos est%n sobre ella. Estas
regularidades ?perfectas@ no suelen encontrarse f%cilmente$ ni menos a8n en ciencias
sociales$ porque los fenmenos obedecen siempre a muchas causas que estar%n actuando
para romper la ?armona natural@ entre Z e d.
"ambi#n hay casos de correlacin no lineal$ donde en lugar de una recta imaginaria se traza
una curva. En este artculo se presentan solamente los casos m%s sencillos$ es decir$ los
casos de correlacin lineal$ representables mediante rectas.
Diferentes diagramas de dispersin
i bien una ?nube de puntos@ puede dar una idea de si hay o no correlacin$ o de si es directa
o inversa$ todava no proporciona informacin sobre ?cuanta@ correlacin hay. Esta
informacin se obtiene mediante un c%lculo analtico.
-#- C@LCULO AALTICO !E LA CORRELACI$
&a correlacin se calcula analticamente mediante ciertos coeficientes$ que ser%n distintos
seg8n se trate de correlacionar variables nominales$ ordinales o cuantitativas$ y seg8n se
trate de otras consideraciones varias.
i bien existen muchos coeficientes de correlacin (F,$ en lo que sigue se explicar%n algunos
de los m%s utilizados! el coeficiente de correlacin lineal de Pearson (para variables
cuantitativas,$ y el coeficiente de correlacin por rangos de pearman (para variables
cualitativas ordinales,.
a, Coeficiente de correlacin lineal de Pearson
Este coeficiente (que se designa con 3r4,$ fue creado por Earl Pearson (265>A2=9/, para
relacionar variables cuantitativas (es decir$ variables que$ como 3nota de examen4$ se miden
mediante n8meros,.
El coeficiente de Pearson es un n8mero comprendido entre A2 y P2$ y que posee un
determinado signo (positivo o negativo,. El valor num#rico indica ?cuanta@ correlacin hay$
mientras que el signo indica qu# ?tipo@ de correlacin es (directa si el signo es positivo$
inversa si es negativo,. En el siguiente esquema se muestran algunos posibles valores de 3r4.
%
2.
=
6
>
/
5
F
9
-
2
.
. 2 - 9 F 5 / > 6 = 2. J
$& Correlacin
directa
%
2.
=
6
>
/
5
F
9
-
2
.
. 2 - 9 F 5 / > 6 = 2. J
'& Correlacin
inversa
%
2.
=
6
>
/
5
F
9
-
2
.
. 2 - 9 F 5 / > 6 = 2. J
C& (in correlacin
%
2.
=
6
>
/
5
F
9
-
2
.
. 2 - 9 F 5 / > 6 = 2. J
)& (in correlacin
%
2.
=
6
>
/
5
F
9
-
2
.
. 2 - 9 F 5 / > 6 = 2. J
E& (in correlacin
%
2.
=
6
>
/
5
F
9
-
2
.
. 2 - 9 F 5 / > 6 = 2. J
*& Correlacin
directa perfecta
3lgunos valores del coeficiente de #earson
Cuanto m%s cerca de cero est# el coeficiente de correlacin obtenido$ tanto menor
correlacin habr%. Cabra preguntarse! 7hasta qu# valor se considera que hay correlacin:
7desde qu# valor no la hay: Esto es una cuestin que depende de varias cosas$ y hace a la
cuestin de la relatividad del coeficiente de Pearson.
En efecto$ su interpretacin depende de varios factores$ como por e0emplo! a, la naturaleza
de las variables que se correlacionanI b, la significacin del coeficienteI c, la variabilidad del
grupoI d, los coeficientes de confiabilidad de los testsI e, el propsito para el cual se calcula
r.
El valor r T .$>. puede indicar alta correlacin para cierto par de variables$ pero ba0a
correlacin para otras variables distintas. ;tro e0emplo! un r de .$9. entre estatura e
inteligencia o entre tamao craneal y habilidad mec%nica indicara una correlacin mas bien
alta$ puesto que las correlaciones entre variables fsicas y mentales suelen ser mucho m%s
ba0as$ a menudo iguales a cero. ;tro e0emplo! un r de .$9. entre inteligencia y nota de
examen$ o entre punta0e en ingl#s y punta0e en historia es considerada ba0sima$ ya que los r
en estos campos suelen extenderse entre .$F. y .$/.. ;tro e0emplo! seme0anzas entre
padres e hi0os$ en cuanto a rasgos fsicos y mentales$ se expresan por valores entre .$95 y
.$55$ y por lo tanto un r de .$/. sera alto.
Qespecto de la frmula para calcular el coeficiente de correlacin de Pearson (ara,$ no hay
una 8nica manera de presentarla$ y la eleccin de una u otra depender% de la forma de
presentacin de los datos. Por e0emplo$ si los datos est%n agrupados en una tabla de
frecuencias$ se utiliza cierta frmula (*ancroft$ 2=/.!2=.,$ mientras que si los datos no
est%n agrupados en frecuencias$ podr%n utilizarse cualquiera de las frmulas indicadas en el
siguiente esquema (5,!
F,rmula 1 F,rmula &
G ( " H ?) (% H I) J
3 + KKKKKKKKKKKKKKKKKKKKKKKKKKKKKKK
n " ; %
+e usa esta %rmula cuando dan como
datos las medias de A e K = sus
respectivos desvos est<ndar9
G ( " H ?) (% H I) J
r $ L 4444444444444444444444444444444
( " H ?)
$
; (% H I)
$
(El denominador debe elevarse a la ra. cuadrada)9
+e usa esta %rmula cuando dan como datos las medias
aritmticas de A e K9
F,rmula ' F,rmula -

(/ " ; /%)
3 L KKKKKKKKKKKKKKKKKKKKK
n
+e usa esta %rmula cuando dan como
datos los puntajes estandari.ados I9
n (@9=) G@ 9 =
r $ 444444444444444444444444444444444444444444444444
n @
!
G (@)
!
9 n =
!
G (=)
!

(Ambos %actores del denominador se elevan a la ra.
cuadrada)
+e utili.a esta %rmula (llamada %rmula del producto
momento) cuando no se conocen ni medias aritmticas ni
desvos est<ndar9
Coelaci2n in&esa m!"ima (K#)
Ba1a coelaci2n in&esa (K5;#8)
Coelaci2n nula (5)
Alta coelaci2n diecta (M5;>5)
Coelaci2n diecta m!"ima (M#)
+ continuacin se suministra un e0emplo de cmo calcular el coeficiente ara utilizando la
frmula -. e trata de determinar el coeficiente de Pearson para dos variables Z e d (que
podran ser por e0emplo las notas del primero y segundo parcial,. "ambi#n se pide
interpretar el resultado.
&a tabla 2 son los datos dados$ mientras que la tabla - es una ampliacin que debe hacerse
para poder obtener m%s informacin y poder as aplicar la frmula!
!abla ,
Alumno J %
+
*
C
G
E
F
5
>
=
2.
/
>
6
=
2.
JT5 alumnos 95 F.
!abla -
" H ? % H I ( " H ?) (% H I) ( " H ?)
$
(% H I)
$
A9
A-
.
-
9
A-
A2
.
2
-
/
-
.
-
/
=
F
.
F
=
2
2
.
2
2
. . 2/ -/ 2.
? T >
I T 6
Con los datos obtenidos se aplica ahora la frmula -!
G ( " H ?) (% H I) J #4
$ L 4444444444444444444444444444444444444444 $ 44444444444444444444444 $ M5;<<
az de ( " H ?)
$
; (% H I)
$
az de $4*#5
Knterpretando el resultado$ se puede decir que la correlacin obtenida es directa o positiva y
es adem%s$ muy alta.
&oeficientes derivados.A + partir del coeficiente ara de Pearson (en cualquiera de sus formas,
se pueden derivar otros$ seg8n la informacin que se quiera obtener!
2, Coeficiente de determinacin (r
-
,! es el coeficiente ara elevado al cuadrado. El coeficiente
de determinacin indica qu# porcenta0e de la variacin de d est% determinada por las
variaciones de Z. Por e0emplo$ para un ara de .$>.$ hay un coeficiente de determinacin de
.$F=$ lo que significa que el F=< de la variacin de d est% determinada por la variacin de Z.
-, Coeficiente de alienacin (O,! llamado tambi#n de no correlacin$ no indica la correlacin
sino la falta de correlacin entre dos variables (o grado de independencia,. Para calcularlo se
aplica la frmula siguiente!
r
-
P O
-
T 2 \2]
Por e0emplo$ si sabemos que ara es de .$5.$ aplicando la frmula indicada tenemos que aOa
vale .$6/$ con lo cual el grado en que falta la correlacin resulta ser mayor que el grado en
que s hay correlacin.
Kd#nticamente$ si ara vale 2 entonces aOa vale .$ y viceversa. Cuanto mayor es el coeficiente
de alienacin tanto menor es la correlacin$ y por tanto menos confiables ser%n las
predicciones que Aan%lisis de regresin medianteA se hagan sobre esa base.
9, Coeficiente de indeterminacin (O
-
,! es el coeficiente aOa pero elevado al cuadrado. 'ide el
grado en que la variacin de d no est% determinada por la variacin de Z. &a frmula del
coeficiente de indeterminacin es deducible de la anterior \2].
F, Coeficiente de eficiencia predictiva (E,! suele utilizarse para$ sabiendo ara$ estimar
r%pidamente el poder predictivo de la correlacin ara. u frmula es!
E T 2.. . (2 A 2Ar-, donde 2Ar- debe elevarse a la raz cuadrada.
Por e0emplo si la correlacin ara es de .$5.$ la eficiencia predictiva ser% del 29<. Pero
cuando ara sube a .$=6$ la eficiencia predictiva ser% del 6.<. &a correlacin debe ser
entonces de ..6> o m%s para que la eficiencia predictiva sea mayor al 5.<.
8atriz de correlaciones.A En muchas investigaciones se estudian muchas variables$ y se
intenta cuantificar mediante el coeficiente ?r@ sus relaciones dos a dos$ es decir$ las relaciones
de cada variable con cada una de las dem%s (*otella$ 2==9!-.-,. + los efectos de comparar
estos diferentes valores de ?r@ se traza una matriz de correlacin$ que puede tener la
siguiente forma!
Mariable Z Mariable d Mariable b Mariable X
Mariable Z r T A..2> r T A..22 r T A..9.
Mariable d r T P..F/ r T P..2>
Mariable b r T P..2.
Mariable X
&a matriz permite visualizar inmediatamente$ entre otras cosas$ cu%les son los coeficientes
de correlacin m%s altos (en este caso$ entre d y b,.
Jtese que no han sido llenados los casilleros donde se cruzan las mismas variables (por
e0emplo Z con Z,$ porque carece de sentido hacerlo y su correlacin es siempre perfecta y
positiva (r T P2,.
b, Coeficiente de correlacin por rangos de pearman
e trata de un coeficiente de correlacin utilizado para estudiar la asociacin entre dos
variables ordinales. e representa con la letra griega ?rho@$ y sus frmulas son las siguientes!
F,rmula 1 F,rmula &
) d
!
$ " 4 444444444444444444444444444
n (n > ") (n G ")
@
!
> =
!
> d
!
$ 44444444444444444444444444444444
! 9 @
!
9 =
!
&a frmula para obtener @
!
o =
!
es la misma en ambos
casos$ y es @
!
T =
!
T (n
9
C n, H 2-
En el denominador$ la raz cuadrada afecta a @
!
9 =
!
En ciertos casos conviene utilizar la primera frmula$ y en otros casos la segunda. Por
e0emplo (Eohan$ 2==F!-5/,$ si no hay empates en los rangos o son muy pocos$ se utilizar%
la frmula 2$ y si hay empates en los rangos$ se utilizar% la frmula -. Para comprender esto$
se suministran a continuacin dos e0emplos diferentes! uno sin empates y otro con empates.
7(emplo ,.A En este e0emplo (tomado de Eohan$ 2==F!-5/, se utiliza el coeficiente de
pearman para evaluar el grado de asociacin entre dos variables ordinales! Z
(autoritarismo, e d (b8squeda de status,. Por e0emplo$ permitir% averiguar si a medida que
aumenta el autoritarismo en las personas tiende tambi#n a aumentar la b8squeda de status
social.
Para ello se toma una muestra de 2- su0etos$ y se obtienen los siguientes resultados!
"uAeto 6 7ran/o *or
autoritarismo8
5 7ran/o *or +OsPueda de
status8
d d
&
A -R 9R A2 2
( /R FR - F
C 5R -R 9 =
! 2R 2R . .
E 2.R 6R - F
F =R 22R A- F
2 6R 2.R A- F
B 9R /R A9 =
I FR >R A9 =
M 2-R 2-R . .
L >R 5R - F
L 22R =R - F
n ; 1& d
$
;
0&
Esta tabla indica$ por e0emplo$ que el su0eto + se situ en un segundo lugar en autoritarismo
y en un tercer lugar en b8squeda de estatus.
+plicando la frmula 2$ se obtiene un coeficiente de pearman de ..6-$ lo cual sugiere una
alta correlacin entre autoritarismo y b8squeda de status.
7(emplo -.A +qu se trata de obtener el coeficiente de pearman cuando hay empates en los
rangos. &os empates ocurren cuando dos o m%s su0etos tienen el mismo rango en la misma
variable. Por e0emplo (ver tabla siguiente,$ los su0etos + y * obtuvieron el mismo punta0e en
la variable Z (o sea$ obtuvieron ambos cero,. ;tro tanto ocurri con los su0etos C y G y con
los su0etos L y E$ siempre en relacin a la misma variable Z. En el caso de la variable d todos
los punta0es fueron diferentes$ y por lo tanto no hubo empates.
Cuanto mayor es la cantidad de empates$ m%s conveniente resultar% utilizar la frmula -.
"uAeto 6 7ran/o *or
autoritarismo8
5 7ran/o *or +OsPueda de
status8
Punta0e Qango Punta0e Qango
d d
&
A . (2R, 2.5R F- 9R A2.5 -.-5
( . (-R, 2.5R F/ FR A-.5 /.-5
C 2 (9R, 9.5R 9= -R 2.5 -.-5
! 2 (FR, 9.5R 9> 2R -.5 /.-5
E 9 (5R, 5R /5 6R A9.5 =
F F (/R, /R 66 22R A5 -5
2 5 (>R, >R 6/ 2.R A9 =
B / (6R, 6R 5/ /R - F
I > (=R, =R /- >R - F
M 6 (2.R, 2..5R =- 2-R A2.5 -.-5
L 6 (22R, 2..5R 5F 5R A5.5 9..-5
L 2- (2-R, 2-R 62 =R 9.5 =
n ; 1& d
$
;
1<E#0
Para hallar el coeficiente de pearman en estos casos$ puede procederse se acuerdo a tres
pasos!
a, )easignacin de rangos.A En la columna de Punta0e de la variable Z se ha agregado entre
par#ntesis el rango u orden que ocupara el su0eto. Este agregado sirve al 8nico efecto de
determinar el rango definitivo que se le asignar%$ y que aparece en la columna Qango$ de la
misma variable.
&a forma de calcular este rango definitivo es simple. Por e0emplo$ si se consideran los su0etos
+ y *$ se suman los rangos 2R y -R$ con lo cual se obtiene el valor 9. Este valor se divide por
la cantidad de empates$ que en este caso es -$ y se obtiene el valor 2.5$ que ser% el rango
definitivo de ambos su0etos.
b, &orreccin de la suma de los cuadrados.A Para poder aplicar la frmula -$ y puesto que
hay empates$ deben modificarse los valores de @
!
y de =
!
es decir$ las sumatorias de los
cuadrados de los valores de cada variable.
Para modificar dichos valores deben restarse a ellos E$ cuyo valor se entiende a partir de la
siguiente frmula donde dicho factor se ha restado!
n
#
G n "!
#
G "! !
#
G ! !
#
G ! !
#
4 !
@
!
T AAAAAAAAA A E T AAAAAAAAAAAA A ( AAAAAAAAA P AAAAAAAAA P AAAAAAAAA , T 2F9 C 2.5 T
2F2.5
"! "! "! "! "!
El valor - significa que hay sido dos los valores empatados. En este caso$ los empates se han
dado en tres oportunidades (su0etos +A*$ CAG y LAE,$ y por ello se suman los tres cocientes.
Como en la variable d no se han verificado empates$ el c%lculo no incluir% el factor de
correccin!
n
#
G n "!
#
G "!
=
!
T AAAAAAAAA T AAAAAAAAAAAA T 2F9
"! "!
c, 3plicacin de la frmula -.A e aplica la frmula con los valores corregidos del siguiente
modo!
@
!
> =
!
> d
!
"7"9( > "7# G "329(
$ 44444444444444444444444444444444 $ 444444444444444444444444444444 $ 39)")
! 9 @
!
9 =
!
! "7"9( 9 "7#
i no se hubieran introducido las correcciones indicadas$ el valor del coeficiente de pearman
3hubiera sido m%s elevado$ aunque en este caso la diferencia es poco importante y slo
conviene corregir cuando hay gran cantidad de empates4 (Eohan$ 2==F!-56,.
-#0 U EME)PLO: CO"TRUCCI$ % 1ALI!ACI$ !E TE"T"
El an%lisis de correlacin se aplica en muchos %mbitos de la psicologa$ como por e0emplo en
la teora factorialista de la inteligencia$ en el an%lisis de actitudes en psicologa social$ y
tambi#n en la construccin de pruebas psicodiagnsticas (/,.
Como e0emplo$ a continuacin se inventar% un test$ no slo para ver como se realiza esta
tarea$ sino tambi#n para ver el modo en que interviene en este proceso el an%lisis de
correlacin.
&a idea de construir un supuesto 3!est de personalidad de #*rez4 pudo haber comenzado al
leer los diversos trastornos de personalidad del G'AKM. )no de ellos es el trastorno
narcisista$ otro el trastorno esquizoide$ y as sucesivamente. El G'AKM propone diversos
criterios para identificarlos$ pero aqu se ha elegido otro camino! tomar un test creado ad
hoc.
Pensando en la cuestin$ cabe imaginarse que un individuo narcisista podra muy bien estar
cmodo con un dibu0o como el esquema /$ donde aparece un gran punto rodeado de otros
m%s pequeos que lo admiran$ mientras que un esquizoide preferira el esquema >$
representativo de un patrn de distanciamiento de las relaciones sociales.
+cto seguido$ se eligen mil su0etos con diagnsticos diversos de personalidad y se les
pregunta qu# dibu0o les gusta m%s. +qu es donde interviene el an%lisis de correlacin$ que
permitir% ver el grado de asociacin entre el diagnstico y el dibu0o elegido. )na muy alta
correlacin aparecera$ por e0emplo$ si gran cantidad de su0etos con trastorno narcisista
eligen el esquema /$ con lo cual$ en lo sucesivo se podr% tomar este test sin necesidad de
explorar sus conductas y ver si cumplen los criterios del G'AKM$ un tr%mite que suele ser
arduo.
Es7uema 4 Es7uema >
Gesde ya$ construir un test exige una gran cantidad de controles y precauciones que no
vienen al caso exponer aqu. Por e0emplo$ debe determinarse su validez y su confiabilidad. El
an%lisis de correlacin permite$ precisamente$ determinar por e0emplo un tipo especial de
validez! la validez predictiva$ que pueden verse claramente en las pruebas de orientacin
vocacional.
+s$ por e0emplo$ una forma de establecer si un test de este tipo eval8a la vocacin de un
su0eto$ es esperar varios aos y ver si ese su0eto tuvo #xito en la profesin sugerida por el
test. Como puede apreciarse$ aqu se recurre nuevamente al an%lisis de correlacin$ al
compararse la profesin diagnosticada con la profesin elegida exitosamente. )na alta
correlacin entre ambas variables es indicador de la validez predictiva del test en cuestin.
El an%lisis de correlacin permite tambi#n determinar otros tipos de validez como la validez
interAtest$ que compara los resultados de un test vocacional con otro test vocacional. i
ambos arro0an aproximadamente los mismos resultados en un con0unto de su0etos$ entonces
tienen validez interAtest$ comparacin que fue posible por un an%lisis de correlacin.
-#D EL A@LI"I" !E RE2RE"I$
El ob0etivo del an%lisis de regresin es establecer una prediccin acerca del comportamiento
de una variable d conociendo el correspondiente valor de Z (o viceversa, y el grado de
correlacin existente entre ambas variables.
Para ello es preciso conocer la llamada recta de regresin (>,$ que es la recta imaginaria que
me0or representa el con0unto de pares de valores de las variables Z e d. En el siguiente e0e
de coordenadas$ est%n representados por e0emplo cinco de esos pares de valores$ mediante
cinco puntos. &a recta de regresin dibu0ada sera la que me0or representa esos puntos$ por
cuanto la distancia de los puntos a la recta (representada con una lnea punteada, es la
mnima. Esta distancia recibe el nombre de regresin$ de manera tal que cuanto menor es la
regresin de los puntos$ mayor ser% la correlacin entre ellos.
&a recta de regresin es$ de muchas rectas posibles$ la que me0or representa la correlacin
o$ m%s t#cnicamente$ es la 8nica que hace mnima la suma de los cuadrados de las
desviaciones o distancias de cada punto a la recta. Es$ adem%s$ la me0or manera de poder
hacer predicciones.
&as desviaciones de los puntos respecto de la recta se ad0udican a factores no controlados
(que suelen ser particularmente importantes en las ciencias sociales,$ y se parte del
supuesto de que si no hubiera factores extraos que afecten la relacin entre Z e d$ entonces
no habra desviaciones y la correlacin sera perfecta.
&a recta de regresin puede trazarse ?a o0o@$ pero este procedimiento no tiene precisin. El
an%lisis de regresin propone un m#todo mucho m%s preciso$ consistente en hallar la recta
de regresin por una va analtica.
Este c%lculo de la recta de regresin consiste en hallar la ecuacin de la recta de regresin y
eventualmente luego dibu0%ndola en un diagrama de coordenadas cartesianas. )na vez en
posesin de esta ecuacin$ podr%n hacerse predicciones a partir de la ecuacin misma o bien
a partir de la recta trazada en el diagrama de coordenadas.
+mbos procedimientos ser%n examinados a continuacin con los nombres de c%lculo analtico
de la regresin y c%lculo gr%fico de la regresin$ respectivamente.
"
%
Recta de e0esi2n
-#C C@LCULO AALTICO !E LA RE2RE"I$
El c%lculo analtico de la regresin consiste en averiguar la ecuacin de la recta de regresin.
Ello permitir% realizar predicciones en base a dicha ecuacin.
)na vez que se cuenta con un determinado con0unto de pares de valores obtenidos de la
realidad$ puede determinarse la ecuacin de la recta que los representan por dos m#todos!
el m#todo de los cuadrados mnimos$ y el m#todo de las desviaciones.
+ntes de examinarlos$ debe tenerse presente que la forma general de una ecuacin de una
recta es 5 ; a N +#6 (6,. Geterminar la ecuacin de la recta significa asignarle un valor al
par%metro ?a@ y otro valor al par%metro ?b@. &os m#todos indicados tienen como fin
determinar el valor de ambos par%metros.
a, 8*todo de los cuadrados mnimos.A
&a ecuacin de la recta que tiene la forma y2 T a P b . x2 se obtiene averiguando los valores
a y b. )na vez obtenidos ambos valores$ puede realizarse una prediccin cualquiera! a partir
de x2 como el valor conocido$ se puede predecir el valor de y2.
&as frmulas para el c%lculo de a y b son las siguientes!
n (x.y, C x . y
b T AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
n x
-
A ( x,
-
a T d A b . Z (donde d y Z son las respectivas medias aritm#ticas,
Como puede apreciarse$ primero debe calcularse b$ ya que para calcular a se requiere
conocer b.
b, 8*todo de las desviaciones.A
&a ecuacin de la recta se obtiene a partir de la siguiente expresin!
y T r . (y H x, . (x A Z, P d
En esta ecuacin de la recta$ la expresin r . (y H x, se llama coeficiente de regresin.
Como puede apreciarse$ la aplicacin del m#todo de las desviaciones requiere conocer las
medias aritm#ticas y los desvos est%ndar de Z e d. "ambi#n requiere conocer el coeficiente
de correlacin r$ para lo cual resulta aqu recomendable utilizar la frmula n8mero 2.
7(emplo de prediccin en base a la ecuacin de la recta.A i se dispone ya de una ecuacin
de la recta$ ser% muy sencillo hacer una prediccin del valor de y en funcin del valor de x.
En cambio$ si debe hacerse esa prediccin a partir de una simple lista de pares de valores
correlacionados$ primero deber% obtenerse la ecuacin de la recta$ para lo cual$ a su vez Csi
la idea es aplicar el m#todo de las desviacionesA deben conocerse las medias aritm#ticas de x
e y$ los desvos est%ndar de x e y$ y la correlacin r entre x e y.
Consid#rese la siguiente lista de pares de valores ordenados!
"uAeto J 7edad8 % 7*untaAe test8
+ - 55
* 9 /.
C 5 /5
G / 6.
E / 65
N 6 >5
+ los efectos de poder obtener informacin sobre las medias aritm#ticas$ los desvos
est%ndar y el coeficiente de correlacin (necesarios para calcular la ecuacin de la recta,$ se
ampla la tabla anterior de la siguiente manera!
"uAeto J 7edad8 % 7*untaAe test8 7J=J8 7%=%8 7J=J8 7%=%8
+ - 55 A9 A25 F5
* 9 /. A- A2. -.
C 5 /5 . A5 .
G / 6. 2 2. 2.
E / 65 2 25 25
N 6 >5 9 5 25
Total '< -&< === === 1<0
+plicando la frmula correspondiente$ se obtienen las medias aritm#ticas de Z e d (que son 5
y >.,.
+plicando la frmula correspondiente$ se obtienen los desvos est%ndar de Z e d (que son - y
2..6,.
+plicando la frmula 2$ se obtiene el coeficiente de correlacin (que es r T P..62,.
Ninalmente$ se obtiene la ecuacin de la recta utilizando el m#todo de loas desviaciones!
y T r . (y H x, . (x A Z, P d
y T ..62 (2..6 H -, . (x C 5, P >.
Esta expresin se transforma de manera tal que adopte la forma tpica de la ecuacin de la
recta$ con lo cual se obtiene!
y T F>.65 C F.F9 . x
)na vez que se cuenta con la ecuacin de la recta$ ahora s pueden hacerse predicciones. Por
e0emplo$ si a un nio que 2. aos se le toma el test$ 7cu%l ser% el punta0e m%s probable que
obtendr%:
y T F>.65 C F.F9 . x
y T F>.65 C F.F9 . 2. T =-.25
y T =-.25
-#F C@LCULO 2R@FICO !E LA RE2RE"I$
El c%lculo gr%fico de la regresin consiste en trazar la recta de regresin en base a la
ecuacin de la recta obtenida en el c%lculo analtico. Ello permitir% realizar predicciones en
base a dicha recta trazada en el diagrama de coordenadas cartesianas.
&a recta de regresin$ como toda recta$ puede determinarse por dos puntos. )n punto es la
ordenada al origen$ y el otro punto es la interseccin de las medias aritm#ticas de x e y. Este
8ltimo punto se llama baricentro.
"omando el e0emplo anterior$ la ordenada al origen es F>.65$ mientras que el baricentro
queda determinado por las medias aritm#ticas 5 y >.$ con lo cual la recta de regresin ser%
la siguiente!
7(emplo de prediccin en base a la recta del diagrama cartesiano.A Considerando solamente
la recta dibu0ada$ puede hacerse una prediccin (m#todo gr%fico,. Por e0emplo$ si se sabe
que x T >$ puede predecirse que el valor de y ser% 6- de la siguiente manera!
7rror est.ndar de la prediccin.A En el e0emplo anterior la prediccin realizada es slo
probable$ lo que significa que se est% cometiendo alg8n error en la estimacin del valor y.
Ello es as porque se ha calculado el coeficiente de correlacin r y la ecuacin de la recta de
regresin en base a una muestra (en este caso de apenas seis su0etos, y con esta
informacin se est% intentando predecir un valor nuevo que no est% en la muestra$ es decir$
que pertenece a la poblacin. +dem%s$ se est% suponiendo (Eohan J$ 2==F!--6, que la
muestra ha sido tomada al azar$ y que ambas variables se distribuyen normalmente.
Es posible estimar el error est%ndar cometido en base a la siguiente expresin!
est = $ = 9 " G r
!

Esto es$ el error est%ndar es igual al desvo est%ndar poblacional multiplicado por la raz
cuadrada de la diferencia entre 2 y el cuadrado del coeficiente de correlacin.
En el e0emplo anterior$ el desvo est%ndar vala 2..6 y el coeficiente de correlacin vala ..6-.
Qeemplazando$ se obtiene!
est = $ 10.8 9 " G 390!
!
$ )9!
Esto significa que el valor de y predicho y T 6-$ estar% en un /6< de los casos entre 6-
/.-$ es decir entre 66.- y >5.6. ; si se quiere$ hay un /6< de probabilidades que el valor de
y se encuentre entre 66.- y >5.6. Gesde ya$ tambi#n puede calcularse este intervalo de
confianza en base a un =5< o un ==< de probabilidades$ en cuyo caso el intervalo de
confianza deber% ser mayor.
OTA"
(2, )na distribucin de frecuencias bivariada es un con0unto de pares de valores$ correspondientes a dos
variables observadas con0untamente$ con sus respectivas frecuencias. Cuando la distribucin se registra
%
=.
6.
>.
/.
5.
F.
9.
-.
2.
.
. 2 - 9 F 5 / > 6 = 2. J
%
=.
6.
>.
/.
5.
F.
9.
-.
2.
.
. 2 - 9 F 5 / > 6 = 2. J
en una tabla de doble entrada se obtiene una tabla de contingencia. En cada celda de esta tabla se
indica la frecuencia con que se observ cada par de valores.
(-, +lgunos autores (por e0emplo *otella$ 2==9!269,$ clasifican en tres los casos posibles de relacin
lineal entre variables. a, )elacin lineal directa! se dice que dos variables Z e d mantienen una relacin
lineal directa cuando los valores altos en d tienden a empare0arse con valores altos en Z$ los valores
intermedios en d tienden a empare0arse con valores intermedios en Z$ y los valores ba0os en d tienden a
empare0arse con valores ba0os en Z. Por e0emplo! la relacin entre inteligencia y rendimiento. b,
)elacin lineal inversa! se dice que dos variables Z e d mantienen una relacin lineal inversa cuando los
valores altos en d tienden a empare0arse con valores ba0os en Z$ los valores intermedios en d tienden a
empare0arse con valores intermedios en Z$ y los valores ba0os en d tienden a empare0arse con valores
altos en Z. Por e0emplo! la relacin entre tiempo y errores. c, )elacin lineal nula! se dice que hay
relacin lineal nula entre dos variables cuando no hay un empare0amiento sistem%tico entre ellas en
funcin de sus valores. Por e0emplo! la relacin entre estatura e inteligencia.
(9, ;tra forma de apreciar gr%ficamente la correlacin es mediante el .ngulo de correlacin! dadas las
dos rectas 51 ; a N + # 61 y 61 ; a N + # 51 $ el punto donde se intersectan se llama centroide. El
%ngulo entre ambas rectas se llama .ngulo de correlacin. Cuanto menor es este %ngulo$ m%s
correlacin hay (Eohan$ 2==F!--F,.
(F, +dem%s del cl%sico coeficiente ara de Pearson$ existen otros tambi#n destinados a medir el grado de
asociacin entre variables. En el esquema siguiente se resumen algunos e0emplos. Jo deben confundirse
los coeficientes derivados del coeficiente de Pearson$ con estos otros coeficientes de correlacin$ que en
general fueron diseados de manera diferente o para otros propsitos.
om+re Condiciones de a*licaci,n
Coeficiente de
Pearson
e aplica sobre variables cuantitativas (de intervalos iguales o de cocientes,.
+dem%s$ las variables deben estar distribuidas normalmente$ o al menos
tratarse de distribuciones bastante sim#tricas respecto de la media.
e llama tambi#n coeficiente de correlacin productoAmomento de Pearson.
Coeficiente U de dule Ge f%cil c%lculo e interpretacin como el anterior$ pero su uso se limita a dos
variables nominales$ con dos categoras cada una.
Coeficiente de
asociacin (gamma,
de Soodmann y
ErusOal
e utiliza sobre todo cuando son muchas observaciones y muy pocos valores
ordinales alcanzados por ellas. e busca computando las concordancias e
inversiones en las ordenaciones que representan las dos variables y se aplica la
frmula.
Coeficiente (Qho, de
pearman
Jo es m%s que el coeficiente de Pearson aplicado a variables ordinales.
Coeficiente Etha )tilizado para variables cuantitativas (de intervalos iguales o de cocientes,$
debe reunir dos requisitos! que la curva de distribuciones sea bastante sim#trica
y unimodal$ y que la asociacin de variacin sea al menos aproximadamente
rectilnea.
Coeficiente de
correlacin m8ltiple
Para correlacionar simult%neamente m%s de dos variables.
Coeficiente Phi Para variables nominales.
;tros coeficientes son! el Coeficiente ("au, de Eendall (Eohan$ 2==F!-/.,$ el Coeficiente de bilcoxon$ el
Coeficiente de Nlanagan$ el Coeficiente de correlacin multiserial de Laspe$ el Coeficiente " de
"schuproe$ el Coeficiente de correlacin tetracrica (Eohan$ 2==F!-62,$ etc.
"odos los coeficientes de correlacin pueden aplicarse en psicologa$ por e0emplo$ en experimentos sobre
el aprendiza0e$ en la teora factorialista de pearman$ y en psicometra cuando por e0emplo debemos
establecer el grado de correlacin entre dos tests$ o el grado de correlacin de un mismo test tomado en
dos momentos diferentes.
(5, 3En algunos textos de estadstica se describen frmulas abreviadas para facilitar los c%lculos cuando
se dispone de un n8mero grande de pares de valores. &a disponibilidad actual de calculadoras de mesa y
ordenadores personales hacen innecesarias estas frmulas4 (*otella$ 2==9!2=9,.
(/, &a construccin de tests puede llevarse a cabo para realizar una investigacin ad hoc para la cual no
hay instrumentos de medicin conocidos$ o bien para crear una prueba que pueda ser utilizada por otros
en diferentes circunstancias$ aunque esto 8ltimo es m%s raro en un mercado sobresaturado de pruebas
psicom#tricas y proyectivas donde es realmente muy difcil posicionar un test que pueda representar una
me0ora respecto de los anteriores.
(>, "ambi#n puede ser una curva$ pero en este artculo se describe solamente la regresin lineal$ que se
representa mediante una recta.
(6, El valor ?a@ es la ordenada al origen$ y el valor ?b@ es el coeficiente angular o pendiente de la recta$
que equivale a la tangente del %ngulo alfa (formado por la recta y otra recta paralela a la absisa,. &a
ecuacin de la recta tambi#n puede representarse como x T a P b.y$ en cuyo caso el par%metro ?a@
significar% la absisa al origen. En este artculo no se considerar% esta segunda expresin por razones de
simplicidad$ y por cuanto la idea es poder predecir un valor y en funcin de un valor x$ y no un valor x
en funcin de un valor y. +s$ la ecuacin y T a P b.x permite predecir cu%nto valdr% y en funcin de x$
mientras que la ecuacin x T a P b.y permite predecir cu%nto valdr% x en funcin de y.
+mbas rectas de regresin se cortan en un punto llamado centroide$ y 3la correlacin entre las dos
variables est% dada por el %ngulo entre las dos rectas! si este %ngulo vale .$ la correlacin es 24 (Eohan
J$ 2==F!--F,.
CAPTULO 0: E"TA!I"TICA IFERECIAL
0#1 ITRO!UCCI$
+ diferencia de la estadstica descriptiva$ la estadstica inferencial va m%s all% de la mera
descripcin de la muestra por cuanto se propone$ a partir del examen de #sta 8ltima$ inferir
una conclusin acerca de la poblacin$ con un cierto nivel de confianza (o$
complementariamente$ con un cierto nivel de error,.
&as muestras de las cuales se ocupa la estadstica inferencial son muestras probabilsticas$ es
decir$ aquellas en las cuales es posible calcular el error cometido al estimar una caracterstica
poblacional (Eohan J$ 2==F!2FF, (2,.
Cl%sicamente$ la estadstica inferencial se ocupa de dos cuestiones! la estimacin de
par.metros y la prueba de hiptesis$ aunque 3por lo general$ la mayora de las aplicaciones
de la estadstica inferencial pertenecen al %rea de la prueba de hiptesis4 (Pagano$
2==6!-.=,.
Ge acuerdo al mismo autor (2==6!255,$ en la estimacin de par%metros el investigador
busca determinar una caracterstica de la poblacin a partir de los datos de la muestra. Por
e0emplo$ tomando la variable edad$ podra concluir que la probabilidad de que el intervalo
F.C5. contenga la media de la poblacin es de ..=5.
En cambio en la prueba de hiptesis$ el investigador re8ne datos en una muestra para validar
cierta hiptesis relativa a una poblacin. E0emplos! a, para validar la hiptesis de que la
media poblacional no tiene una diferencia significativa con la media muestral$ toma ambas
medias y las compara estadsticamente mediante la prueba de la mediaI b, para validar la
hiptesis de que en la poblacin el m#todo de enseanza + es me0or que el *$ el investigador
toma dos muestras de alumnos y a cada uno le aplica un m#todo de enseanza diferente. El
tipo de conclusin que se busca aqu podra ser que las mayores calificaciones en un grupo
que en otro se deben al m#todo de enseanza aplicado y no al azar$ y$ adem%s$ que dicha
conclusin no se aplica slo a la muestra sino a toda la poblacin.
En la estadstica inferencial se pueden hacer inferencias espaciales e inferencias temporales.
)na inferencia espacial implica suponer$ a partir de la muestra$ cmo es la poblacin total.
)na inferencia temporal es un caso especial donde$ a partir de ciertos datos actuales
podemos inferir o suponer ciertos otros datos que podamos obtener en el futuro$ vale decir
una poblacin potencial.
0#& E"TI)ACI$ !E PAR@)ETRO"
Esta tarea consiste en$ partiendo de ciertos valores de la muestra llamados estadsticos o
estadgrafos (por e0emplo la media aritm#tica muestral,$ inferir ciertos otros valores de la
poblacin llamados par.metros (por e0emplo la media aritm#tica poblacional o esperanza,.
Ello es as porque en general lo que interesa es la poblacin$ no la muestra. Cuando un
investigador observa que en una muestra el 6.< de las personas lee el diario$ le interesar%
averiguar a partir de all qu# porcenta0e o proporcin de la poblacin lee el diario$ ya que por
e0emplo su inter#s es editar un nuevo peridico. Ge la misma forma$ cuando un investigador
observa que la media aritm#tica muestral de la frecuencia cardaca es 6. pulsaciones por
minuto$ le interesar% averiguar si ello se cumple tambi#n en la poblacin$ ya que por e0emplo
su inter#s puede ser comparar la frecuencia cardaca de sus pacientes con toda la poblacin
para decidir sobre su salud en base a un criterio estadstico.
Como puede verse$ lo m%s habitual es inferir medias aritm#ticas (promedios, y proporciones
(porcenta0es,. +s$ a partir de la media aritm#tica muestral se infiere la media aritm#tica
poblacional$ y a partir de la proporcin observada en la muestra se infiere la proporcin en la
poblacin.
Existen dos tipos de estimacin de par%metros! la estimacin puntual y la estimacin
intercalar (Pagano Q$ 2==6!9.F,.
&a estimacin puntual consiste en inferir un determinado valor para el par%metro. Por
e0emplo$ inferir que la poblacin debe tener puntualmente una media aritm#tica de 6..
&a estimacin intervalar consiste en inferir dentro de qu# intervalo de valores estar% el
par%metro con un determinado nivel de confianza. Por e0emplo$ inferir que la poblacin debe
tener una media aritm#tica entre >5 y 69$ con un nivel de confianza de ..=5 (esto es$ hay un
=5< de probabilidades de que el par%metro poblacional se encuentre entre >5 y =9, o$ si se
quiere$ con un nivel de riesgo (F, de ...5 (esto es$ hay un 5< de probabilidades de que el
par%metro no se encuentre entre esos valores,.
En general$ resulta mucho m%s riesgoso afirmar que el par%metro vale 6. que afirmar que
vale entre >5 y 69. Por esta razn$ se prefiere ba0ar este riesgo y establecer un intervalo de
confianza$ que podr% ser de ..=.$ ..=5$ ..==$ etc$ seg8n eli0a el investigador.
Bay diferentes procedimientos de estimacin de par%metros$ seg8n se trate de estimar
medias o proporciones$ o seg8n se trate de estimar par%metros de variables cualitativas (con
dos categoras o con m%s de dos categoras, o cuantitativas. En lo que sigue se dan algunos
e0emplos combinados.
7stimacin de la media poblacional para variables cuantitativas.A Conociendo la media
muestral$ es posible averiguar con un cierto nivel de confianza (por e0emplo ..=5,$ entre qu#
valores de la variable estar% la media poblacional. Estos valores se llaman lmite superior del
intervalo (&s, y lmite inferior del intervalo (&i,.
Para obtener ambos valores se utilizan las siguientes frmulas!
&s T Z P z . ( H
n,

&i T Z A z . (H
n,
Gonde!
Ls T &mite superior del intervalo de confianza.
Li T &mite inferior del intervalo de confianza.
J T 'edia aritm#tica muestral.
" T Gesvo est%ndar muestral.
n T "amao de la muestra. i se trata de una muestra chica (menor a
9., se considera nA2.
7" Q n8 T Gesvo est%ndar poblacional. Cuando no tenemos el desvo
est%ndar de la poblacin (hecho muy frecuente, se utiliza el desvo
muestral (Qodrguez Nei0o J$ -..9,.
4 # 7"Q n8 T Error muestral o est%ndar (error que puede cometerse al
inferir la media poblacional, (9,.
4 T Punta0e estandarizado que define el nivel de confianza. i se desea
un nivel de confianza de ..=.$ debe consignarse z T 2./F. i se desea
un nivel de confianza de ..=5$ debe consignarse z T 2.=/. i se desea
un nivel de confianza de ..==$ debe consignarse z T -.56. Para valores
intermedios de nivel de confianza$ pueden consultarse las tablas de
%reas de z (ver captulo sobre probabilidad y curva normal,.
7(emplo ()odrguez Fei(o 0 -112)+4 En una muestra probabilstica de /.. nios de 2. aos
de Capital Nederal el cociente intelectual promedio obtenido fue de 2.5 con una desviacin
est%ndar de 2/. Con un intervalo de confianza del =5<$ 7entre qu# lmites oscilar% el CK
promedio de los nios de 2. aos de Capital Nederal:
&s T Z P z . ( H n, T 2.5 P 2.=/ (2/ H /.., T 2./.->
&i T Z A z . (H n, T 2.5 A 2.=/ (2/ H /.., T 2.9.>9
Qespuesta! con un riesgo de 5< de equivocarse en la estimacin$ el CK promedio de los
nios de 2. aos de Capital Nederal oscila entre 2.9.>9 y 2./.-> puntos.
7stimacin de proporciones para variables cualitativas de dos categoras (:ohan 0
,;;5<,==).A Conociendo la proporcin muestral$ es posible averiguar con cierto nivel de
confianza (por e0emplo ..==, entre qu# proporciones estar% la proporcin poblacional.
"#ngase presente que una variable con dos categoras es una variable que tiene solamente
dos posibilidades de variacin (por e0emplo! el sexo,.
Para obtener los lmites superior e inferior del intervalo de confianza$ se utilizan las
siguientes frmulas!
&s T p P z . ( p . q H
n,
&i T p A z . ( p . q H
n,
Jota! &a raz cuadrada
afecta a p$ q y n.
Gonde!
Ls T &mite superior del intervalo de confianza.
Li T &mite inferior del intervalo de confianza.
* T Proporcin muestral
4 T Punta0e estandarizado que define el nivel de confianza. i se
desea un nivel de confianza de ..=.$ debe consignarse z T 2./F. i
se desea un nivel de confianza de ..=5$ debe consignarse z T 2.=/.
i se desea un nivel de confianza de ..==$ debe consignarse z T
-.56. Para valores intermedios de nivel de confianza$ pueden
consultarse las tablas de %reas de z (ver captulo sobre probabilidad
y curva normal,.
P T Proporcin que falta para llegar al 2..<. Por e0emplo! si p es
/5<$ entonces q T 95<,.
n T "amao de la muestra. i se trata de una muestra chica (menor
a 9., se considera nA2.
7(emplo.A En una muestra probabilstica de 2.. personas$ el -.< son masculinos. Con un
intervalo de confianza del ==<$ 7entre qu# proporciones oscilar% el porcenta0e de masculinos
en la poblacin:
&s T -.< P -.56 . ( -. . 6. H 2.., T 9..9<
&i T -.< C -.56 . ( -. . 6. H 2.., T =.><
Qespuesta! con un riesgo de 2< de equivocarse en la estimacin$ la proporcin de
masculinos en la poblacin oscila entre el =.>< y el 9..9<.
0#' PRUE(A !E BIP$TE"I"
&as pruebas de hiptesis se utilizan para probar alguna hiptesis en investigacin cientfica
(2.,. Cuando el investigador propone una hiptesis$ su deseo ser% poder confirmarla (porque
#l mismo la propuso o porque cree intuitivamente en ella,. i decide hacer una prueba
estadstica para salir de dudas$ entonces realizar% una prueba de hiptesis y establecer% dos
hiptesis estadsticas! su propia hiptesis$ a la que convertir% en hiptesis alternativa$ y la
opuesta$ que llamar% hiptesis nula$ y la tarea consistir% en intentar probar esta 8ltima. i la
rechaza$ aceptar% la alternativa$ y si la acepta$ rechazar% la alternativa (>,.
Existe una gran variedad de pruebas de hiptesis$ pero todas ellas tienen en com8n una
determinada secuencia de operaciones$ que son las siguientes!
2, Formulacin de la hiptesis de investigacin y obtencin de los datos.A El investigador
comienza formulando la hiptesis que pretende probar. Por e0emplo$ que una determinada
droga cura una enfermedad. &uego$ disea un experimento y lo e0ecuta para obtener datos
que permitan aceptar o no la hiptesis. Por e0emplo$ administra la droga a un grupo y al otro
no$ para comparar los resultados.
Estrictamente$ este primer paso no forma parte de la prueba estadstica de la hiptesis pero
es una condicin necesaria para realizarla$ y ello por tres motivos! a, si no hay datos
empricos$ no puede realizarse ning8n estudio estadstico$ del mismo modo que si no hay
combustible$ el motor no funcionar%I b, si los datos obtenidos en el experimento o en la
observacin son lo suficientemente convincentes como para aceptar o rechazar la hiptesis
de investigacin$ no ser% necesario emplear una prueba estadstica de hiptesis$ con lo cual$
este primer paso permite decidir si cabe o no aplicarla$ a8n cuando se sepa que en la
inmensa mayora de los casos s cabe hacerlo. Por e0emplo$ si el 2..< de los pacientes
tratados con una droga se cura$ mientras que el 2..< de los pacientes no tratados sigue
enfermo$ es posible concluir$ sin la ayuda de la estadstica$ que cabe aceptar la hiptesis de
investigacin seg8n la cual la droga cura. in embargo$ en la realidad no suelen obtenerse
datos tan auspiciosos$ por lo que se requiere una prueba estadsticaI y c, para obtener datos
se utiliza un determinado diseo de investigacin$ y la eleccin de la prueba estadstica de
hiptesis m%s adecuada depender% del tipo de diseo de investigacin utilizado.
En suma$ 3es importante saber qu# diseo est% usando el investigador$ cu%les son las variables
que puede controlar y en funcin de esto buscar la prueba estadstica adecuada4 (Eohan$
2==F!95>,.
-, Formulacin de la hiptesis alternativa y la hiptesis nula.A i la prueba estadstica resulta
necesaria$ la hiptesis de investigacin es reformulada en t#rminos estadsticos$
obteni#ndose la hiptesis alternativa (Ba,. + continuacin$ se formula$ en los mismos
t#rminos$ la hiptesis nula (Bo,$ que es la opuesta de la alternativa. +mbas reformulaciones
incluyen consideraciones del tipo 3hay o no hay una diferencia significativa entreD4.
Por e0emplo$ si la hiptesis de investigacin sostiene que la droga cura$ la hiptesis
alternativa dir% que hay una diferencia significativa entre los resultados del grupo de
pacientes tratado y el grupo de pacientes no tratado. Por lo tanto$ la hiptesis nula sostendr%
que no hay una diferencia significativa entre ambos grupos. En este caso$ adem%s$ la Ba
plantea un cambio (la droga cura,$ mientras que la Bo plantea la permanencia de un estado
(la droga no cura,.
&o que siempre se intentar% probar es la hiptesis nula para un determinado nivel de
significacin o de riesgo. i rechazamos la hiptesis nula aceptamos la alternativa$ y si no
rechazamos la hiptesis nula$ rechazamos la alternativa$ ya que ambas son mutuamente
contradictorias (6,.
+l estimar par%metros o probar hiptesis pueden cometerse errores. uelen describirse dos
tipos de errores (Eohan J$ 2==F!2>6,!
El error !ipo % consiste en rechazar la hiptesis nula cuando en realidad es verdadera. ; sea$
creer que la muestra J; es representativa de la poblacin$ cuando s lo es. Es el error del
desconfiado.
El error !ipo %% consiste en aceptar la hiptesis nula cuando en realidad es falsa. ; sea$ creer
que la muestra K es representativa de la poblacin$ cuando no lo es. Es el error del ingenuo.
&a probabilidad de cometer el error K se simboliza con la letra griega alfa (,$ y la
probabilidad de cometer el error KK se simboliza con la letra griega beta (, (Eohan J$
2==F!265,.
Estos errores no son errores que cometan inadvertidamente los investigadores. Como la
hiptesis nula se rechaza o se acepta en base a determinado nivel de significacin o de
riesgo de equivocarse$ siempre habr% alg8n riesgo de error$ que podr% ser mayor o menor
seg8n el nivel de riesgo elegido$ pero que no obliga necesariamente a invalidar los
resultados. Gebe tenerse presente que siempre que se concluya algo sobre la poblacin a
partir de la muestra$ el procedimiento estar% teido de alg8n grado de incertidumbre$ es
decir$ siempre habr% alg8n grado de probabilidad de cometer alguno de los dos tipos de
errores.
2) Seleccin de la prueba de hiptesis m.s adecuada.A Uued dicho que hay una gran
cantidad de pruebas de hiptesis y su eleccin 3depende de la hiptesis alternativa que se
formule$ del n8mero de casos examinados$ del nivel de medicin utilizado$ etc4 (Eohan J$
2==F!2>/,. Por e0emplo$ a, si la hiptesis es direccional (es decir$ especifica una relacin de
?mayor que@ o bien una relacin de ?menor que@,$ se utilizar% una prueba de hiptesis de una
cola$ mientras que si la hiptesis es no direccional (indica una relacin de 3diferente a4,$ se
utilizar% una prueba de hiptesis de dos colas (22,I b, si se conoce el desvo est%ndar
poblacional$ puede aplicarse la prueba z$ mientras que si solamente se conoce el desvo
est%ndar muestral$ se aplicar% la prueba t de tudentI c, si se opera con variables medidas
en un nivel nominal$ puede utilizarse la prueba de chi cuadradoI si se traba0a con muestras
muy pequeas (por e0emplo de 5 a 2. datos,$ la prueba t de tudent es 8til. eala
Messereau que se trata de un aporte importante por cuanto 3durante mucho tiempo se ha
credo que era imposible sacar buen partido de las muestras muy pequeas4 (Messereau +$
2=/-!99,I d, &a prueba +J;M+ (an%lisis de varianza,! 3as como se pueden comparar las
medias de dos muestras$ existen pruebas que permiten confrontar su variabilidad (varianza o
desviacin tpica,. Estas pruebas sirven$ entre otras$ para resolver los problemas siguientes!
2, Qeconocer si un grupo de muestras es homog#neoI y -, determinar$ en la variabilidad de
una poblacin de medidas$ la parte que corresponde al azar y la que debe atribuirse a causas
de variacin sistem%ticas$ llamadas causas controladas o asignadas4 (Messereau +$
2=/-!96,.
F, Determinacin del nivel de significacin.A El nivel de significacin es la probabilidad de
rechazar Bo siendo esta verdadera (error tipo K,. Cada investigador elige su nivel de
significacin$ es decir$ su probabilidad de equivocarse en el sentido indicado. Por e0emplo$
puede elegirse un 5< o un 2< de probabilidad de error (o$ lo que es lo mismo$ un =5< o un
==< de probabilidad de no equivocarse,.
eala Eohan (2==F!2>>, que el nivel de significacin elegido depender% de la importancia
pr%ctica de la investigacin. Por e0emplo$ para un estudio sobre los efectos de una droga en
el sistema nervioso se usar% un nivel de significacin muy ba0o$ como por e0emplo un ...2<$
lo que minimiza al extremo su probabilidad de producir intoxicacin.
&o usual es especificar un nivel de significacin (probabilidad de cometer el error tipo K, y
no el nivel de significacin (probabilidad de cometer el error tipo KK,.
)na aclaracin m%s detallada del concepto de significacin estadstica puede consultarse m%s
adelante en este mismo captulo
5, Determinacin del tamao de la muestra.A En principio$ el tamao de la muestra n ya fue
determinado en el momento de elegir y e0ecutar el diseo de investigacin! cuanto mayor
haya sido el tamao de la muestra elegido$ menor ser% el error de (Eohan$ 2==F!2>6,. in
embargo$ tambi#n puede procederse al rev#s! si se elige un determinar nivel $ puede
determinarse por medios matem%ticos el tamao de la muestra n adecuado a ese nivel
(Eohan J$ 2==F!262A265,. +s$ por e0emplo$ en general si el investigador desea un menor
margen de error$ deber% aumentar el tamao de la muestra.
+dem%s del tamao de la muestra$ deber%n tambi#n determinarse la curva operativa
caracterstica (Eohan J$ 2==F!26., y el poder de eficiencia de la prueba (o tambi#n
potencia,$ definido este 8ltimo como la probabilidad de rechazar la hiptesis nula cuando es
realmente falsa. Por consiguiente$ el poder de eficiencia se define como 2 A $ es decir$ 2
menos la probabilidad del error KK (no rechazar la hiptesis nula cuando es realmente falsa,
(Eohan J$ 2==F!265,. "#ngase presente!
Jivel de error tipo K Es la probabilidad de cometer el error tipo K.
#robabilidad de rechazar la >o cuando es verdadera+
2 A Jivel de confianza Es la probabilidad de J; cometer el error tipo K.
#robabilidad de 0? rechazar (aceptar) la >o cuando es
verdadera+
Jivel de error tipo
KK
Es la probabilidad de cometer el error tipo KK.
#robabilidad de 0? rechazar (aceptar) la >o cuando es falsa+
2 A Jivel de confianza Es la probabilidad de J; cometer el error tipo KK.
#robabilidad de rechazar la >o cuando es falsa+ Se llama poder
de eficiencia o potencia de la prueba+
/, Determinacin de la distribucin muestral de la prueba estadstica para >o.A eala Eohan
(2==F!26/A26>, que cuando un investigador eligi una prueba estadstica$ necesita saber
cu%l es su distribucin muestral$ que es una distribucin terica que se obtendra si se
sacaran al azar todas las muestras posibles del mismo tamao de una poblacin (2-,. El
conocimiento de esta distribucin muestral permite estimar la probabilidad de la ocurrencia
de ciertos valores.
>, Definicin de la zona de rechazo.A obre la base de los puntos 9$ F$ 5 y / deber% ahora
establecerse la zona de rechazo de la Bo. Para una me0or comprensin de este concepto$ se
puede trazar una lnea horizontal sobre la cual se podr%n definir las zonas de rechazo y de no
rechazo de la Bo. En esa lnea horizontal se indicar%n valores que van desde A9 hasta P9$
pasando por el . (cero,. Estos valores corresponden a punta0es estandarizados$ como por
e0emplo z$ si la prueba estadstica elegida es la prueba z$ o t$ si la prueba elegida es la
prueba t de tudent!
&as zonas de rechazo se definir%n seg8n se trate de pruebas de hiptesis de una cola
(hiptesis direccionales, o de dos colas (hiptesis no direccionales,$ seg8n el siguiente
esquema!
K: K$ K# 5 M# M$ M:
z
K: K$ K# 5 M# M$ M:
t
Para determinar una zona de rechazo (o tambi#n zona crtica, es preciso indicar un
determinado valor de z (o de t, que sirva para delimitar la zona de rechazo (, de la zona de
aceptacin (2 A ,. Ese valor recibe el nombre de ?z terico@$ ?z crtico@ o ?punto crtico@$ que se
calcula en base a una tabla de z (o de t, y en base al nivel de significacin elegido.
Existe una relacin b%sica entre $ y el tamao de muestra n. Puesto que es la
probabilidad de que la estadstica de prueba (por e0emplo el z emprico, caiga en la regin de
rechazo$ un incremento en el tamao de esta regin aumenta $ y simult%neamente
disminuye $ para un tamao de muestra fi0o. El reducir el tamao de la regin de rechazo
disminuye y aumenta . i se aumenta el tamao de muestra entonces$ se tiene m%s
informacin en la cual basar la decisin y ambas y decrecer%n.
6, Decisin final (=).A i el dato emprico (llamado ?z emprico@, obtenido ?cae@ dentro de la
zona de rechazo$ se rechaza la Bo y por tanto se acepta la Ba. En cambio$ si el dato ?cae@
fuera de esta zona de rechazo$ no se rechaza (se acepta, la Bo$ siempre para un nivel de
significacin elegido (Eohan J$ 2==F!26=,. Por e0emplo!
En este e0emplo$ se puede apreciar que el z terico delimita las zonas de rechazo y
aceptacin de la Bo. Como de los datos del experimento result un z emprico ubicado dentro
de la zona de rechazo$ se decide rechazar la Bo y$ por lo tanto$ se acepta la Ba.
0#- EME)PLO" !E PRUE(A" !E BIP$TE"I"
Existe una enorme cantidad de tipos de pruebas de hiptesis$ adaptables a diversas
necesidades y ob0etivos. En lo que sigue se suministran e0emplos de algunas de las pruebas
m%s frecuentes.
2, #rueba de la media.A +qu no hay que estimar un intervalo para la media poblacional
(como en la estimacin de par%metros,$ sino probar la hiptesis seg8n la cual no hay
diferencia estadsticamente significativa entre la media poblacional y la muestral. Esta
z
z
Pueba de una cola a
la iz7uieda
z
Pueba de una cola a
la deecAa
Pueba de dos colas
/ona de ecAazo /ona de ace.taci2n
/ona de ecAazo /ona de ace.taci2n
/ona de ecAazo /ona de ecAazo / de ace.taci2n
z
/ona de ecAazo
de la No
/ona de ace.taci2n de la No
z te2ico 3 K#;48
z em.ico 3 K#;=5
K#;48 K#;=5
prueba$ llamada tambi#n prueba de la media$ se entiende cabalmente a partir de un
conocimiento mnimo sobre distribucin muestral y teorema central del lmite (2-,.
Existe una gran diversidad de pruebas de la media$ seg8n que se conozca o no se conozca el
desvo est%ndar poblacional (en cuyo caso se utiliza una prueba z o una prueba t$
respectivamente,$ seg8n que la hiptesis sea direccional (prueba de una cola, o no
direccional (prueba de dos colas,$ y seg8n se aplique a una sola muestra (Pagano Q$
2==6!-=9, o a dos muestras (Pagano Q$ 2==6!92>,.
7(emplo.A e supone que la estatura media de la poblacin de alumnos de una universidad es
menor que 2./6 m$ y su desvo est%ndar poblacional es de ..2. m. e cuenta con una
muestra de 9/ alumnos$ con una media muestral de 2./5 m. Probar la hiptesis con un nivel
de significacin o riesgo del 5<.
)esolucin.A a, En primer lugar convendr% ordenar los datos que suministra el problema!
"amao de la muestra (n, T 9/. 'edia aritm#tica de la poblacin () T
2./6 m.
'edia aritm#tica de la muestra (Z, T 2./5 m. Gesvo est%ndar de la poblacin () T
..2. m.
Jivel de significacin () T 5< T ...5.
b, En segundo lugar$ se establecen la hiptesis alternativa y la hiptesis nula.
&a hiptesis alternativa (Ba, sostiene que la media poblacional es menor que 2./6 m$ o sea
f 2./6 m.
Jtese que$ primero$ la Ba siempre se refiere a la poblacin$ no a la muestraI segundo$ es la
hiptesis deseable por el investigador y por tanto la que se quiere probarI tercero$ en este
caso particular la hiptesis se refiere a una permanencia$ no a un cambio$ ya que sostiene
que la estatura media poblacional sigue siendo menor que 2./6 m. a pesar de la muestra$
que parece sugerir lo contrarioI de esto 8ltimo se desprende$ en cuarto lugar$ que la muestra
no sera representativa de la poblacin$ es decir$ la diferencia entre muestra y poblacin sera
significativa y en este caso debida al azar.
&a hiptesis nula (Bo, sostiene que la media poblacional es igual a 2./6 m$ o sea T 2./6 m.
Estrictamente hablando la Bo$ por ser la opuesta a la Ba$ debera proponer c 2./6 m$ pero
en la pr%ctica se utiliza la igualdad.
&a hiptesis nula (Bo, sostiene que la diferencia entre la media muestral y la media
poblacional no es estadsticamente significativa para el nivel de significacin del 5<$ o sea$
la muestra es representativa de la poblacin.
-, e calcula el z emprico mediante la siguiente frmula!
Z A 2./5 C 2./6
ze T AAAAAAAAAAAAAA T AAAAAAAAAAAAAAAAAA T A 2.6
H n ..2. H 9/
9, e calcula el z terico mediante la tabla de z para un nivel de significacin del 5<. Como
se trata de una hiptesis alternativa direccional que especifica una direccin de ?menor que@$
se emplea la tabla de %reas de z hacia la izquierda (ver ap#ndice,.
Puesto que se pide un nivel de significacin del 5<$ traduciendo este valor a probabilidades
obtenemos ...5. + continuacin$ se busca el valor de z que corresponde aproximadamente a
esa probabilidad. Bay dos valores que se aproximan id#nticamente! ...5.5 y ...F=5.
Eligiendo arbitrariamente el primero$ se obtiene!
zt T A2./F
F, e define la zona de rechazo mediante zt y se indica el valor de ze!
5, Como ze cae dentro de la regin de rechazo o regin crtica$ entonces se rechaza la Bo$ y
por lo tanto$ se acepta la Ba seg8n la cual la estatura media poblacional es menor que 2./6
m. En este caso se puede estar cometiendo un error tipo K$ es decir$ rechazar la Bo cuando
es verdadera$ con una probabilidad de T ...5 (o si se quiere$ existe una probabilidad del
5< de estar rechazando la Bo cuando es verdadera,.
-, #rueba de hiptesis de correlacin (,2)+4 &a prueba de hiptesis que permite estudiar la
significacin de una correlacin entre dos variables intenta probar la hiptesis nula que
sostiene que la correlacin entre las dos variables ser% cero en la poblacin origen. &as
hiptesis estadsticas de esta prueba son!
Bo, T .
Ba, .
&a significacin del coeficiente de correlacin se estudia por medio de la distribucin t de
tudent. Para ello se obtiene el valor de!
que se sit8a ba0o la distribucin t (nA-,,.

7(emplo.A ean$ a efectos did%cticos$ las siguientes seis observaciones obtenidas en dos
variables Z e d!
Z d
2.
2.
2-
2-
2F
2/
29
2/
2-
2>
25
25
)esolucin.A +plicando la expresin del coeficiente de correlacin lineal de Pearson$ se
obtiene r T ..2--5.
i se quiere contrastar la hiptesis nula Bo, = .$ se deber% estudiar la significacin del valor
r obtenido.
Para estudiar su significacin se debe transformar$ en primer lugar$ el valor de la correlacin
en un valor t (t emprico, y$ en segundo lugar$ comparar dicho valor con el valor de las tablas
de la t de tudent (t terico, con nA- grados de libertad (ver "abla t en +nexo,.
El valor proporcionado por las tablas es t (F$ ...5,T -.>>/.
+s$ puesto que el valor obtenido es inferior al de las tablas se concluye que los datos no
aportan informacin para rechazar la hiptesis nula Bo en funcin de la cual las dos variables
no est%n correlacionadas en la poblacin origen de la muestra.
z
/ona de ecAazo
de la No
/ona de ace.taci2n de la No
z te2ico 3 K#;49
z em.ico 3 K#;=
K#;49 K#;=
0#0 EL COCEPTO !E "I2IFICACI$ E"TA!"TICA
En este tem se ofrecen mayores detalles este importante concepto de la estadstica
inferencial$ con un tercer e0emplo de prueba de hiptesis.
)no de los fines de la estadstica inferencial consiste en determinar si la diferencia entre dos
con0untos de datos es o no significativa. En el contexto de la investigacin cientfica$ ambos
con0untos de datos pueden consistir en dos muestras (por e0emplo entre el grupo
experimental y el grupo de control,$ o bien entre una muestra y una poblacin de la que fue
extrada.
2, Diferencia entre muestras.A Cuando la investigacin incluye un diseo experimental$ es
sabido que las muestras (entonces designadas como grupo experimental y grupo de control,$
en general exigen un tratamiento estadstico antes y despu#s de la manipulacin$ es decir$
antes y despu#s de su exposicin a la influencia de la variable experimental 3x4.
a, +ntes de aplicar 3x4 lo que se exige es que no haya diferencias significativas entre los
grupos experimental y de control$ tanto en lo referente a 3x4 como en las variables de
control (es decir a las variables extraas relevantes que requieren ser controladas,.
b, Gespu#s de aplicar 3x4$ lo que se espera como deseable (para aceptar la hiptesis de
investigacin, es que haya diferencias significativas en cuanto a 3x4 entre ambos grupos.
&a teora de las muestras (-, 3es 8til para poder determinar si las diferencias observadas
entre dos muestras son realmente debidas al azar o si son significativas$ lo que puede
llevar a un proceso de toma de decisiones gracias a las pruebas de ?hiptesis@ y de
?significacin@ que se pueden hacer4 (Eohan J$ 2==F!2FF,.
-, Diferencia entre muestra y poblacin.A Uueda$ no obstante$ otra tarea adicional para la
estadstica inferencial! establecer si las conclusiones obtenidas para la muestra experimental$
luego de la exposicin a 3x4$ pueden extenderse lcitamente a toda la poblacin$ habida cuenta
de que la ciencia busca un conocimiento v%lido y universal. Esta tarea es lo que Eohan
describe como 3probar hiptesis v%lidas para la poblacin correspondiente$ conociendo la
informacin de las muestras4 (Eohan J$ 2==F!2FF,. &a misma autora indica que para que las
conclusiones que se obtienen a partir de las muestras sean v%lidas$ #stas deben ser
representativas de la poblacin.
El ob0etivo de este tem es explicar con un e0emplo de qu# manera se puede alcanzar el
ob0etivo 2b$ es decir$ como se puede probar si hay o no diferencias significativas entre un
grupo experimental y un grupo de control.
&os resultados de un experimento requieren un tratamiento estadstico que permita orientar
al investigador acerca de si la hiptesis de investigacin debe ser rechazada o no rechazada$
para lo cual deber% establecer convencionalmente un determinado nivel de significacin que
permita diferenciar resultados estadsticamente significativos de resultados estadsticamente
no significativos. eguidamente se explica en detalle esta aseveracin.
En los informes de investigacin suelen aparecer expresiones del tipo alos resultados del
e$perimento son estadsticamente significativosa. eguidamente se aclarar% en forma
intuitiva qu# quiere decir esto$ siguiendo los lineamientos did%cticos de &en y 'ontero
(2==5!2.5A29.,.
upngase un sencillo experimento$ donde se trata de probar si un choque emocional altera
o no el recuerdo de los sucesos inmediatamente anteriores al mismo.
Para ello$ se tomaron dos grupos de estudiantes! el grupo experimental presenci una
pelcula donde haba una escena violenta$ y el grupo de control presenci la misma pelcula
pero sin la escena violenta.
&os resultados fueron los siguientes! el grupo sometido al choque emocional lograba luego
recordar un promedio de 2.$ mientras que el grupo sin choque emocional lograba recordar
m%s sobre las escenas del film! por e0emplo$ un promedio de 25. Esquem%ticamente!
2ru*o ChoPue
emocional
Recuerdo
Srupo K (vieron escena violenta, K 2.
Srupo KK (no vieron escena violenta, J; 25
&o que debe ahora establecerse es si esta diferencia en los recuerdos entre 2. y 25 es o no
significativa$ es decir$ si va o no m%s all% del simple azar. i se concluye que J; es
significativa$ entonces las diferencias entre 2. y 25 se deben al azar$ pero si se concluye que
K es una diferencia significativa$ entonces no debe descartarse la influencia del choque
emocional sobre la memoria. &a expresin ^significativa^ quiere decir una diferencia lo
suficientemente grande como para pensar que el choque emocional influye sobre los
recuerdos.
En principio$ para averiguar si la diferencia es o no significativa$ puede apelarse a dos
procedimientos$ que podran llamarse el procedimiento intuitivo y el procedimiento
estadstico.
a, El procedimiento intuitivo es muy simple! se advierte que la diferencia entre ambos
grupos es 25A2.T5$ y entonces se piensa! aevidentemente$ hay una diferencia significativaa.
i ambos grupos hubiesen obtenido 25$ se pensara que no habra diferencia significativa y
entonces se concluira que el choque emocional no influye sobre el recuerdo.
Como puede notarse$ este procedimiento intuitivo tiene el problema de la sub0etividad en la
estimacin de los resultados. "al vez para otro investigador no hubiese sido significativa la
diferencia de 5 sino una diferencia mayor$ como por e0emplo 6. +mbos investigadores
polemizaran fundamentando sus argumentaciones sobre la base de simples impresiones o
creencias$ es decir$ 0am%s llegaran a un acuerdo$ y$ en el me0or de los casos$ acordaran
buscar un procedimiento m%s ob0etivo. En este caso contrataran a un t#cnico en estadstica
para que hiciera una estimacin como la que ahora se pasa a explicar.
b, El procedimiento estadstico es m%s comple0o que el anterior! en lugar de intentar
averiguar si la diferencia entre las promedios 25 y 2. es aintuitivamente significativaa$ lo que
intentar% probar es si la diferencia es aestadsticamente significativaa.
Cabe aqu anticipar algo que sealan &en y 'ontero! aEncontrar una diferencia de valores
que no es estadsticamente significativa equivale a decir que esa diferencia la hemos
encontrado por casualidad. ; lo que es lo mismo$ si repiti#ramos el proceso$ el promedio de
diferencias encontradas sera ceroa.
7Uu# significa esta 8ltima expresin: ignifica que si se hicieran otros experimentos con
otros grupos$ puesto que las diferencias que se obtienen obedecen a la casualidad$ una vez
se podra encontrar una diferencia de 5$ otra vez una diferencia de 9$ otra vez una diferencia
de AF$ etc$ es decir$ saldran n8meros al azar cuyo promedio tendera a cero$ puesto que si
dicho promedio tendiese a 5$ entonces los resultados ya podran ser pensados como
significativos.
+ partir del e0emplo$ se puede ahora examinar el concepto de significacin estadstica$
central dentro de la teora de las muestras (5,.
&en y 'ontero proponen imaginar por un momento una variante del experimento anterior$
donde ninguno de los dos grupos fue expuesto al choque emocional$ es decir$ ambos grupos
vieron la misma pelcula sin la escena violenta.
Gesde ya$ este experimento carece de sentido$ porque lo que interesa es ver si hay o no
diferencias entre dos grupos en lo concerniente a capacidad de recordar$ sometidos cada uno
a ^diferentes^ condiciones experimentales (uno vio la escena violenta y el otro no,. in
embargo$ analizar lo que sucedera en este experimento imaginario resultar% 8til para
entender la idea de significacin estadstica$ como enseguida se ver%.
En este experimento imaginario$ puesto que ambos grupos no recibieron el estmulo violento$
es esperable que los rendimientos mn#micos sean iguales$ o por lo menos aproximadamente
iguales$ porque siempre cabe la posibilidad de la intervencin de pequeas variables no
controladas.
Qepitiendo varias veces el experimento$ una vez podramos obtener una diferencia de .$ otra
vez una diferencia de ..5$ otra vez una diferencia de A2$ etc. i el experimento se repitiese
diez mil veces$ es razonable pensar que habra muy pocos casos donde la diferencia fuese
muy extrema (por e0emplo > o A>,$ y muchos casos prximos a una diferencia de .. &as
diferencias obtenidas en los diez mil experimentos podran resumirse$ seg8n este criterio$ en
la tabla 2.
!abla ,
!i9erencias entre los &
/ru*os
Cantidad de e6*erimentos
79recuencias8
> 5
/ -5
5 =.
F -6.
9 /6.
- 2-..
2 2/=.
. -...
A2 2>..
A- 22=.
A9 >-.
AF -=.
A5 2..
A/ -/
A> F
Total 1<#<<<
&os resultados de la tabla 2 permiten ver$ en efecto$ que hay muy pocos experimentos donde
la diferencia entre grupos es muy grande (en apenas 5 experimentos la diferencia fue >,$
mientras que hay muchos experimentos donde la diferencia entre grupos es nula (hay -...
experimentos donde la diferencia fue .,.
&a tabla tambi#n informa sobre lo siguiente!
a, &a cantidad de casos que obtuvieron como diferencia entre P2 y A2 fue de 5.9=. casos
(que resulta de sumar 2/=. P -... P 2>..,. Ello representa el 59$=< m%s prximo a cero
del total de casos.
b, &a cantidad de casos que obtuvieron como diferencia entre P9 y A9 fue de =26. casos.
Esto representa el =2$6< m%s prximo a cero del total de casos$ y se puede graficar
mediante una curva normal tal como aparece en el gr%fico 2. En este gr%fico se puede
visualizar f%cilmente que el =2$6< de los experimentos obtuvo una diferencia de A9 hasta
P9.
/r.fico ,
)na vez hechos estos c%lculos$ ahora cabe hacerse una pregunta fundamental! 7dentro de
qu# intervalo de diferencias cabra admitir que las diferencias responden al simple azar:
7Gentro del intervalo A2 y P2: 7Gentro del intervalos A9 y P9: Por las dudas$ se considerar%
convencionalmente este 8ltimo intervalo. Esto quiere decir$ por e0emplo$ que si en un
experimento se obtuvo una diferencia de -$ entonces se considerar% que dicha diferencia se
debe al azar (pues - est% entre A9 y P9,$ mientras que si en otro experimento se obtuvo una
diferencia de /$ entonces se considerar% que dicha diferencia no se debe al azar (pues / est%
fuera del intervalo entre A9 y P9,$ es decir$ se considerar% que la diferencia es
^estadsticamente significativa^.
upngase ahora el experimento original$ donde un grupo era sometido al estmulo violento
y el otro no$ es decir$ donde los grupos son sometidos a diferentes condiciones
experimentales.
En uno de dichos experimentos se ha obtenido$ por e0emplo$ una diferencia de -.5I por lo
tanto$ deber% concluirse que esta diferencia no es ^estadsticamente significativa^ porque est%
comprendida dentro del =2$6< de los casos m%s prximos a cero (o sea$ entre A9 y P9,$
seg8n la convencin propuesta.
En cambio$ si la diferencia encontrada en otro experimento de este tipo hubiese sido de 5$
este valor cae fuera del intervalo entre A9 y P9$ y por lo tanto es ^estadsticamente
significativo^ (ver gr%fico -,. Gesde ya$ para decidir esto se ha considerado que el porcenta0e
que permite discriminar lo que es significativo de lo que no lo es era =2$6<. i se hubiese
elegido el ==<$ una diferencia de 5 como resultado hubiese resultado estadsticamente no
significativa.
ealan &en y 'ontero! ael investigador \es quien] determina el porcenta0e que sirve para
discriminar la significacin de la no significacin. Este tanto por ciento se denomina ^nivel de
confianza^$ y tiene sus valores m%s frecuentes entre =5< y ==<a. Cuanto mayor es el
porcenta0e elegido$ m%s exigente deber% ser en cuanto a la tipificacin de un resultado como
estadsticamente significativo.
En los informes de investigacin$ en vez de citarse el nivel de confianza$ se suele citar su
complementario$ que es el ^nivel de significacin^ o ^nivel de riesgo^. En el caso del e0emplo$
si el nivel de confianza era del =2$6<$ el nivel de significacin o de riesgo ser% lo que falta
para completar 2..<$ es decir$ el 6$-< (ver gr%fico -,. '%s a8n$ inclusive$ es frecuente
expresar este nivel de significacin no en t#rminos de porcenta0es sino en t#rminos de
probabilidad$ con lo cual$ en vez de afirmarse 6$-<$ se afirmar% ...6-.
/r.fico -
z
K> K4 K8 K9 K: K$ K# 5 M# M$ M: M9 M8 M4
M>
-i%erencias
!333
1recuencias
2"B0J
&as expresiones ^confianza^ y ^riesgo^ resultan esclarecedoras para entender estos conceptos!
si un experimento cae dentro del nivel de confianza se puede decir con tranquilidad$ con
^confianza^$ que los resultados no son estadsticamente significativos$ pero si cae dentro del
nivel de riesgo$ el investigador se estara ^arriesgando^ a sostener que los resultados son
estadsticamente significativos$ es decir$ a aceptar la hiptesis seg8n la cual un choque
emocional efectivamente influye sobre los recuerdos.
&en y 'ontero indican que encontrar diferencias estadsticamente significativas no es el
propsito final del investigador$ ni lo m%s importante. &o que el investigador persigue es en
realidad determinar la significacin terica$ m%s que la significacin estadstica que le sirve
como medio$ es decir$ si resulta o no relevante para alguna finalidad. +s por e0emplo$ si se
ha constatado que un tratamiento para adelgazar produce una p#rdida de - Eg$ esto puede
ser estadsticamente significativo$ pero mientras que para un investigador nutricionista ser%
adem%s tambi#n importante desde el punto de vista terico$ para un vendedor de esa dieta
no$ porque - Eg. no le proporciona un buen argumento de venta.
)na 8ltima acotacin. Podra ocurrir que algunos investigadores que hicieran el experimento
del choque emocional hubiesen obtenido diferencias extremas$ como por e0emplo A> o P>$
mientras que otros hubiesen obtenido diferencias m%s prximas a cero$ con lo cual los
primeros hubiesen aceptado la hiptesis del choque emocional$ mientras que los segundos la
hubiesen rechazado. Este desacuerdo entre investigaciones puede ocurrir$ con lo cual deber%
emprenderse lo que se llama un ^metaAan%lisis^$ es decir$ un procedimiento que permita
integrar los resultados acumulados de una serie de investigaciones.
OTA"
(2, &as muestras no probabilsticas 3solo suelen usarse como primera aproximacin en traba0os piloto$
pero no puede saberse cu%n confiables son sus resultados4 (Eohan J$ 2==F!2F/,.
(-, 3"oda teora de las muestras es una estadstica ?inferencial@$ pues se ?infieren@ a partir de los valores
estadsticos hallados en las muestras los valores param#tricos m%s probables para las poblaciones de las
cuales hemos extrado las muestras4 (Eohan J$ 2==F!2F5,.
(9, Cuanto mayor es el error est%ndar$ mayor es el intervalo de confianza. El error est%ndar es mayor
cuando z es mayor$ o sea$ cuanto menor es el riesgo que se quiere correrI cuando n es menor (si se
quiere m%s precisin se necesitar% una muestra m%s grande,$ y cuando es mayor. En sntesis! cuanto
menor es el riesgo que se quiere correr$ cuanto menor es el tamao de la muestra y cuanto mayor es el
(desvo est%ndar muestral,$ mayor ser% el intervalo de confianza.
(F, Este nivel de riesgo es tambi#n llamado nivel de significacin (Qodrguez Nei0o J$ -..9,.
(5, a&a teora sobre las muestras... es 8til \entre otras cosas] para poder determinar si las diferencias
observadas entre dos muestras son realmente debidas al azar o si son significativas$ lo que puede llevar
a un proceso de toma de decisiones gracias a las pruebas de hiptesis y de significacin que se pueden
hacera (Eohan J$ 2==F!2FF,.
z
K> K4 K8 K9 K: K$ K# 5 M# M$ M: M9 M8 M4
M>
Eesultados estadsticamente
signi%icativos
:ivel de
signi%icacin
(o de riesgo)
9*#C
:ivel de
con%ian.a
<#*=C
:ivel de
signi%icacin
(o de riesgo)
9*#C
Eesultados estadsticamente
NO signi%icativos
Eesultados estadsticamente
signi%icativos
(/, &a prueba de hiptesis tiende a ser denominada en la actualidad teora de la decisin (Eohan J$
2==F!2>9,. Con ello se quiere significar que la prueba de hiptesis se lleva a cabo sobre la base de una
teora llamada teora de la decisin.
(>, )n experimento cl%sico para probar la hiptesis del investigador es comparar dos muestras! el grupo
experimental y el grupo de control. i hay diferencia significativa entre la muestra experimental y la
muestra de control$ entonces J; hay diferencia significativa entre la muestra experimental y la
poblacin.
(6, Puede llamar la atencin que el investigador no pruebe directamente su hiptesis alternativa sino
que lo haga indirectamente$ probando la hiptesis nula. 7Por qu# proceder para apoyar una teora
mostrando que hay poca evidencia para apoyar la teora contraria: 7Por qu# no apoyar directamente la
hiptesis alternativa o de investigacin: &a respuesta est% en los problemas para evaluar las
posibilidades de decisiones incorrectas.
El argumento que en general puede encontrarse en los textos de estadstica es el siguiente! i la
hiptesis de investigacin es verdadera (por e0emplo una vacuna cura el resfriado,$ la prueba de la
hiptesis nula (la contraria a la hiptesis de investigacin, deber% conducir a su rechazo. En este caso$ la
probabilidad de tomar una decisin incorrecta corresponde a cuyo valor fue especificado al determinar
la regin de rechazo. Por lo tanto$ si se rechaza la hiptesis nula (que es lo deseable, se conoce
inmediatamente la probabilidad de tomar una decisin incorrecta. Esto proporciona una medida de
confianza de la conclusin.
upngase que se utiliza el razonamiento opuesto$ probando la hiptesis alternativa (de investigacin,
de que la vacuna es efectiva. i la hiptesis de investigacin es verdadera$ la estadstica de prueba
probablemente caer% en la regin de aceptacin (en lugar de la de rechazo,. +hora$ para encontrar la
probabilidad de una decisin incorrecta de debe evaluar $ la probabilidad de aceptar la hiptesis nula
cuando esta es falsa. + pesar de que esto no representa un gran esfuerzo para el problema de la vacuna
contra el resfriado$ es un traba0o adicional que se debe hacer y en algunos casos es muy difcil calcular
.
+s que$ para resumir$ es mucho m%s f%cil seguir el camino de la 3prueba por contradiccin4. Por lo tanto$
el estadstico elegir% la hiptesis contraria a la de la investigacin como hiptesis nula y su deseo es que
la prueba conduzca a su rechazo. i es as$ el estadstico conoce el valor de y tiene una medida
inmediata de la confianza que se puede depositar en esta conclusin.
(=, +utores como Bern%ndez ampieri et al (2==/!=2, nos ofrecen una interesante tipologa de hiptesis
nulas que contemplan varias posibilidades. Concretamente$ hacen referencia a! 2, hiptesis nulas
descriptivas de una variable que se va a observar en un contexto (por e0emplo 3la expectativa de ingreso
mensual de los traba0adores de la corporacin " no oscila entre 5..... y /..... pesos colombianos4,I
-, hiptesis que niegan o contradicen la correlacin entre dos o m%s variables (por e0emplo 3no hay
relacin entre la autoestima y el temor de logro4,I 9, hiptesis que niegan que haya diferencia entre
grupos (por e0emplo 3no existen diferencias en el contenido de sexo en las telenovelas $ & y '4,I y F,
hiptesis que niegan la relacin de causalidad entre dos o m%s variables (por e0emplo 3la percepcin de
la similitud en religin$ valores y creencias no provoca mayor atraccin fsica4,.
+ nuestro entender$ una visin m%s completa de las hiptesis nulas debera considerar al menos cuatro
sentidos$ que podemos designar respectivamente en t#rminos de hiptesis nula de estimacin$ hiptesis
nula de correlacin$ de causalidad y de validez externa!
a, &a hiptesis nula de estimacin vendra a afirmar que los estadsticos muestrales no son
representativos de los par%metros poblacionales.
b, &a hiptesis nula de correlacin vendra a afirmar que no existe una correlacin significativa entre dos
o m%s variables. El nivel de significacin es en estos casos el que establece a priori el investigador
cuando califica ciertos intervalos del coeficiente de correlacin como ?alto@$ ?medio@$ ?ba0o@$ etc.
c, &a hiptesis nula de causalidad vendra a afirmar que los cambios en la variable dependiente d no son
ad0udicables a los cambios de la variable independiente Z. Pagano$ por e0emplo$ refiere que la hiptesis
nula indica que la variable independiente no influye sobre la variable dependiente (Pagano$ 2==6!-2-,.
Este segundo sentido de hiptesis nula es el m%s frecuentemente mencionado en los tratados sobre el
tema.
d, &a hiptesis nula de validez externa vendra a indicar que las conclusiones obtenidas en la muestra no
son extensibles Acon el nivel confianza requeridoA a toda la poblacin. Este tipo de hiptesis vendra
entonces a negar la validez externa de un experimento$ entendiendo aqu validez externa como
requisitos de los diseos experimentales tal como por aparecen en gran parte de la bibliografa sobre el
tema (por e0emplo Campbell G y tanley L$ 2==5!2/,. +utores como "amayo pareceran considerar este
sentido de hiptesis nula cuando la incluyen dentro de las hiptesis estadsticas$ definiendo #stas 8ltimas
como suposiciones sobre una poblacin que se realizan a partir de los datos observados$ es decir$ de una
muestra ("amayo '$ 2===!2-.,.
&a hiptesis nula de estimacin corresponde a la primera tarea de la estadstica inferencial! la estimacin
de par%metros. &as hiptesis nulas de correlacin y de causalidad corresponderan a la prueba de
hiptesis donde se busca establecer si ?y@ se debe a ?x@ y no al azar$ y la hiptesis nula de validez externa
corresponderan a la prueba de hiptesis donde se busca generalizar los resultados a toda la poblacin.
(2., Gebe diferenciarse la hiptesis de investigacin (B,$ la hiptesis alternativa (Ba, y la hiptesis nula
(Bo,. &a hiptesis de investigacin resulta$ seg8n Messereau (2=/-!-6,$ de consideraciones tericas o
bien est% sugerida por los datos mismos. + los efectos de probar la hiptesis de investigacin$ deber%
d%rsele una ?forma@ estadstica$ con lo cual se convierte en la hiptesis alternativa (esta ?forma@
estadstica significa que incluye por e0emplo alguna afirmacin acerca de ?si hay o no diferencias
significativas@,. + su vez para probar esta hiptesis alternativa deber% probarse la hiptesis nula$ que no
es otra cosa que la negacin de la hiptesis alternativa.
'%s concretamente$ 3por lo general$ la hiptesis de investigacin predice una relacin entre dos o m%s
variables (por e0emplo$ que los nios que tienen mayor dominio del o0o izquierdo obtendr%n punta0es de
rendimiento en lectura bastante inferiores a los de los otros alumnos,. Para probar esta hiptesis de
manera estadstica$ el investigador debe transformarla en hiptesis alternativa y luego negarla mediante la
hiptesis nula. &a hiptesis nula no siempre refle0a las expectativas del investigador en relacin con el
resultado del experimento. Por lo general$ se opone a la hiptesis de investigacin$ pero se la utiliza
porque resulta m%s apropiada para la aplicacin de los procedimientos estadsticos. &a hiptesis nula
determina que no existe relacin entre las variables consideradas (por e0emplo$ en lo que respecta al
rendimiento en la lectura$ no hay ninguna diferencia entre los nios que poseen mayor dominio del o0o
izquierdo y los dem%s,. Por lo general$ cuando se formula una hiptesis nula$ se espera que sea
rechazada. i esto 8ltimo ocurre$ se acepta la hiptesis de investigacin4 (Man Galen! 26=A2=.,.
(22, &as pruebas de una cola y dos colas tambi#n se llaman pruebas de un extremo y dos extremos$ o
tambi#n unilaterales y bilaterales$ o tambi#n one tailed test o teo tailed test.
(2-, Gada una poblacin de la cual se conoce su media aritm#tica$ por e0emplo >.$ su varianza$ y su
tamao J$ por e0emplo F$ puede llevarse a cabo el siguiente procedimiento! a, primero se sacan todas
las muestras posibles del mismo tamao. &a cantidad de muestras posibles se puede calcular mediante
un n8mero combinatorio$ y as$ por e0emplo$ de una poblacin de J T F$ se pueden obtener un total de
/ muestras de n T -. b, + continuacin se calculan las medias aritm#ticas de cada una de las muestras
posibles$ con lo cual se obtiene una distribucin muestral de medias aritm#ticas. Por e0emplo$ las medias
aritm#ticas de las / muestras pueden ser! 5.$ /.$ >.$ 6. y =.. c, eguidamente se calcula la media
aritm#tica de todas estas medias aritm#ticas$ y se obtiene un valor de >.. Como puede apreciarse$ esta
media de todas la medias muestrales coincide con la media poblacional.
&a estadstica ha demostrado que esta distribucin de medias de todas las medias muestrales sigue el
modelo de la curva normal$ y se ha establecido as el teorema central de lmite$ que dice que si se sacan
repetidamente muestras de tamao n de una poblacin normal de cierta media y cierta varianza$ la
distribucin de las medias muestrales ser% normal con una media igual a la media poblacional y con una
varianza igual a la varianza poblacional dividido n. Gesde ya$ la precisin de la aproximacin me0ora al
aumentar n.
Ge todo ello se desprende que si se selecciona una muestra cualquiera y #sta tiene una determinada
varianza (o sea$ un determinado desvo est%ndar respecto de la media de las medias,$ se habr%
cometido un determinado error$ llamado en este caso error est.ndar$ por haber traba0ado con una
muestra en lugar de haberlo hecho con la poblacin. &a frmula del error est%ndar no es otra cosa que el
desvo est%ndar de la muestra en cuestin$ lo que es igual al desvo est%ndar poblacional dividido por la
raz cuadrada del tamao n de la muestra (Qodrguez Nei0o$ -..9, (Eohan J$ 2==F!25.A259,.
(29, Extrado de http!HHeee.bibliopsiquis.comHpsicologiacomHvol5num2H-625H. ;tro e0emplo de prueba
de hiptesis de correlacin puede encontrarse en Eohan (2==F!-9F,.
REFERECIA" (I(LIO2R@FICA"
*ancroft B (2=/., %ntroduccin a la bioestadstica. *uenos +ires! Eudeba.
*otella Q (2==9, 3n.lisis de datos en psicologa %. *uenos +ires! Paids.
Campbell G y tanley L (2==5,$ Diseos e$perimentales y cuasie$perimentales en la investigacin social.
*uenos +ires! +morrortu.
Bern%ndez ampieri Q$ Nern%ndez Collado C y *aptista &ucio P (2==/,$ 8etodologa de la investigacin.
'#xico! 'cSraeABill.
Eohan J (2==F, Diseo estadstico. *uenos +ires$ Eudeba.
&ichtenthal $ Au* es la teora de la informacin. *uenos +ires$ Qevista Ciencia Jueva$ JR 9$ 2=>..
&en ; y 'ontero K (2==5, Diseo de investigaciones (Kntroduccin a la lgica de la investigacin en
Psicologa y Educacin,$ 'adrid$ 'cSraeABill.
&evin Q y Qubin G (2==/, 7stadstica para administradores. Prentice Ball$ /R ed.
Pagano Q (2==6, 7stadstica en las ciencias del comportamiento. '#xico! Knternacional "homson. 5R
edicin.
Qodrguez Nei0o J (-..9, 7stadstica social.
"amayo ' (2===,$ Diccionario de la investigacin cientfica. '#xico! &imusa.
Man Galen G y 'eyer b$ 8anual de t*cnica de la investigacin educacional.
Messereau + (2=/-, "a estadstica. *uenos +ires! Eudeba.
OTRA" FUETE" CO"ULTA!A"
+nderAEgg E (2=6>, !*cnicas de %nvestigacin social. *uenos +ires! Bvmanitas$ -2 edicin.
Cuidet C (2=/=, 0ociones b.sicas para el tratamiento estadstico en los tests mentales. *uenos +ires!
;pfyl.
Sarrett B (2=//, 7stadstica en #sicologa y 7ducacin. *uenos +ires! Paids.
AEJO"
AEJO 1: O)ECLATURA UTILI?A!A E E"TA 2UA
'uchos de los smbolos que se emplean en estadstica no son universales. En la siguiente
lista se presentan los smbolos que se utilizan en esta Sua$ y tambi#n se incluyen los
smbolos de las letras del alfabeto griego.
Bay ciertas reglas que suelen ser universales$ como por e0emplo$ las letras griegas siempre
se refieren a par%metros de la poblacin y las letras latinas se refieren a estadsticos de la
muestra (&evin y Qubin$ 2==/,.
Smbolo Conce.to
C Altura
C; Coe%iciente de variacin
C;J Coe%iciente de variacin porcentual
D
3
Cuartil de orden
Dt Cuartil t (ejemplo: D# $ Cuartil #)
-
3
-ecil de orden
-t -ecil t (ejemplo: -2 $ -ecil 2)
-m -esviacin media
+ -esvo est<ndar muestral
-esvo est<ndar poblacional
% 1recuencia absoluta
1 1recuencia acumulada
1ant 1recuencia acumulada anterior
1J 1recuencia acumulada porcentual
1pos 1recuencia acumulada posterior
1r 1recuencia acumulada relativa
%ant 1recuencia del intervalo anterior
%pos 1recuencia del intervalo posterior
%5 1recuencia e@presada en grados
%J 1recuencia porcentual
%r 1recuencia relativa
As Lndice de asimetra
Li Lmite in%erior del intervalo
Ls Lmite superior del intervalo
@ma= Ma=or valor de la variable
A Media aritmtica muestral de @
K Media aritmtica muestral de =
Media aritmtica poblacional (esperan.a)
Mn Mediana
Mn
3
Mediana de orden
@men Menor valor de la variable
Mo Modo
t :Hmero de decil o del percentil
P
3
Percentil de orden
Pt Percentil t (ejemplo P22 $ Percentil 22)
p Probabilidad
I Puntaje estandari.ada derivado
. Puntaje estandari.ado reducido
@m Punto medio del intervalo
E Eango o amplitud
-D Eango o desvo intercuartlico
+umatoria
n 8ama&o de la muestra
: 8ama&o de la poblacin
a 8ama&o o amplitud del intervalo
F ;alor absoluto
@n ;ariable (cual6uier valor de unaM)
@" ;ariable (determinado valor de unaM)
@B = ;ariables (letras 6ue designanM)
+
!
;ariancia muestral

2
;ariancia poblacional
Ls Lmite superior del intervalo de con%ian.a
Li Lmite in%erior del intervalo de con%ian.a
N Niptesis de investigacin
No Niptesis nula
Na Niptesis alternativa
Probabilidad de cometer un error 8ipo L
Probabilidad de cometer un error 8ipo LL
2 A Probabilidad de :/ cometer el error tipo L
2 A Probabilidad de :/ cometer el error tipo LL
.e . emprico
.t . terico o crtico
Al,abeto 0ie0o
Nombr
e
Mayscul
a
Minscu
la
Nombr
e
Mayscu
la
Minscu
la
Nombr
e
Mayscu
la
Minscu
la
al%a iota ro
beta Oappa sigma
gamm
a
lambd
a
tau
delta mi psilo
n

psilo
n
ni %i
dseta @i ji
eta micro
n
psi
.eta pi
omega

AEJO &: TA(LA !E @REA" (AMO LA CUR1A OR)AL E"TA!ARI?A!A
&as siguientes tablas representan dos maneras diferentes de proporcionar una misma
informacin$ a saber$ la relacin entre el punta0e reducido z con la probabilidad p de
ocurrencia del valor z. El valor de esta probabilidad es proporcional al %rea correspondiente
ba0o la curva.
Por e0emplo$ dado un valor z$ las tablas permite conocer qu# probabilidad tiene que darse
ese valor o m%s o ese valor o menos$ en un individuo elegido al azar. Gesde ya$ a la inversa$
tambi#n permite conocer qu# valor z corresponde a una determinada probabilidad. &os
valores z figuran en la primera columna$ mientras que los diferentes valores de probabilidad
figuran en las columnas restantes.
Por e0emplo!
a, iguiendo la "abla 2$ un punta0e reducido z T P2.-/ o menor tiene una probabilidad de
ocurrencia de p T ..6=/- (el %rea ba0o la curva normal corresponde al 6=./-< de total del
%rea,.
b, iguiendo la "abla -$ un punta0e reducido z situado entre z T . y z T P2.-/ tiene una
probabilidad de ocurrencia de p T ..9=/- (el %rea ba0o la curva normal corresponde al
9=./-< del total del %rea,.
+rriba de cada tabla puede observarse un esquema de la curva normal. &as %reas rayadas
indican las %reas que cada tabla permite calcular. Por e0emplo$ la "abla 2 permite calcular
%reas desde z hacia la izquierda$ y la "abla - calcula %reas entre z y el centro de la
distribucin (z T .,.
Jtese que el ttulo asignado a la "abla - es 3Yreas desde z T . hacia la izquierda o hacia la
derecha4. Esto significa que$ debido a la perfecta simetra de la curva normal$ una distancia
entre z T P2.-/ y . da la misma probabilidad que la distancia z T A2.-/ y ..
Tabla 1 !reas desde z "acia la izquierda
z
Pobabilidad (.)
5;55 5;5# 5;5$ 5;5: 5;59 5;58 5;54 5;5> 5;5= 5;5<
K:;9 9333# 9333# 9333# 9333# 9333# 9333# 9333# 9333# 9333# 9333!
K:;: 9333( 9333( 9333( 93337 93337 93337 93337 93337 93337 9333#
K:;$ 9333, 9333, 9333) 9333) 9333) 9333) 9333) 9333( 9333( 9333(
K:;# 933"3 93332 93332 93332 93330 93330 93330 93330 9333, 9333,
K:;5 933"# 933"# 933"# 933"! 933"! 933"" 933"" 933"" 933"3 933"3
K$;< 933"2 933"0 933", 933", 33")9 933") 933"( 933"( 933"7 933"7
K$;= 933!) 933!( 933!7 933!# 933!# 933!! 933!" 933!" 933!3 933"2
K$;> 933#( 933#7 933## 933#! 933#" 933#3 933!2 933!0 933!, 933!)
K$;4 9337, 9337( 93377 9337# 9337" 93373 933#2 933#0 933#, 933#)
K$;8 933)! 933)3 933(2 933(, 933(( 933(7 933(! 933(" 93372 93370
K$;9 9330! 93303 933,0 933,( 933,# 933," 933)2 933)0 933)) 933)7
K$;: 93"3, 93"37 93"3! 93322 9332) 93327 9332" 93302 9330, 93307
K$;$ 93"#2 93"#) 93"#! 93"!2 93"!( 93"!! 93""2 93"") 93""# 93""3
K$;# 93",2 93",7 93",3 93")) 93")! 93"(0 93"(7 93"(3 93"7) 93"7#
K$;5 93!!0 93!!! 93!", 93!"! 93!3, 93!3! 93"2, 93"2! 93"00 93"0#
K#;< 93!0, 93!0" 93!,7 93!)0 93!)! 93!() 93!(3 93!77 93!#2 93!##
K#;= 93#(2 93#(! 93#77 93##) 93#!2 93#!! 93#"7 93#3, 93#3" 93!27
K#;> 9377) 937#) 937!, 937"0 93732 9373" 93#2! 93#07 93#,( 93#),
K#;4 93(70 93(#, 93(!) 93(") 93(3( 9372( 9370( 937,( 937)( 937((
K#;8 93))0 93)(( 93)7# 93)#3 93)"0 93)3) 93(2( 93(0! 93(," 93((2
K#;9 93030 93,2# 93,,0 93,)7 93,72 93,#( 93,!! 93,30 93)27 93)0"
K#;: 932)0 932(" 932#7 932"0 9323" 9300( 930)2 930(# 930#0 930!#
K#;$ 9""(" 9""#" 9"""! 9"32# 9"3,( 9"3() 9"3#0 9"3!3 9"33# 9320(
K#;# 9"#(, 9"##( 9"#"7 9"!2! 9"!," 9"!(" 9"!#3 9"!"3 9""23 9"",3
K#;5 9"(0, 9"()! 9"(#2 9"("( 9"72! 9"7)2 9"77) 9"7!# 9"73" 9"#,2
K5;< 9"07" 9"0"7 9",00 9",)! 9",#) 9","" 9")0( 9"))3 ")#(9 ")""9
K5;= 9!""2 9!323 9!3)" 9!3## 9!33( 9"2,, 9"272 9"2!! 9"027 9"0),
K5;> 9!7!3 9!#02 9!#(0 9!#!, 9!!2) 9!!)) 9!!#) 9!!3) 9!",, 9!"70
K5;4 9!,7# 9!,32 9!),) 9!)7# 9!)"" 9!(,0 9!(7) 9!("7 9!70# 9!7("
K5;8 9#30( 9#3(3 9#3"( 9!20" 9!27) 9!2"! 9!0,, 9!07# 9!0"3 9!,,)
K5;9 9#77) 9#732 9##,! 9###) 9##33 9#!)7 9#!!0 9#"2! 9#"() 9#"!"
K5;: 9#0!" 9#,0# 9#,7( 9#,3, 9#))2 9#)#! 9#(27 9#((, 9#(!3 9#70#
K5;$ 97!3, 97")0 97"!2 97323 973(! 973"# 9#2,7 9#2#) 9#02, 9#0(2
K5;# 97)3! 97()! 97(!! 9770# 9777# 97737 7#)79 7#!(9 7!0)9 7!7,9
K5;5 9(333 972)3 972!3 97003 97073 9703" 97,)" 97,!" 97)0" 97)7"
5;5 9(333 9(373 9(303 9("!3 9(")3 9("22 9(!#2 9(!,2 9(#"2 9(#(2
5;# 9(#20 9(7#0 9(7,0 9((", 9(((, 9((2) 9()#) 9(),( 9(,"7 9(,(#
5;$ 9(,2# 9(0#! 9(0," 9(2"3 9(270 9(20, 9)3!) 9)3)7 9)"3# 9)"7"
5;: 9)",2 9)!", 9)!(( 9)!2# 9)##" 9)#)0 9)73) 9)77# 9)703 9)(",
5;9 9)((7 9)(2" 9))!0 9)))7 9),33 9),#) 9),,! 9)030 9)077 9)0,2
5;8 9)2"( 9)2(3 9)20( 9,3"2 9,3(7 9,300 9,"!# 9,"(, 9,"23 9,!!7
5;4 9,!(, 9,!2" 9,#!7 9,#(, 9,#02 9,7!! 9,7(7 9,70) 9,(", 9,(72
5;> 9,(03 9,)"" 9,)7! 9,),# 9,,37 9,,#7 9,,)7 9,,27 9,0!# 9,0(!
5;= 9,00" 9,2"3 9,2#2 9,2), 9,22( 903!# 903(" 903,0 90"3) 90"##
5;< 90"(2 90"0) 90!"! 90!#0 90!)7 90!02 90#"( 90#73 90#)( 90#02
#;5 907"# 907#0 907)" 9070( 90(30 90(#" 90((7 90(,, 90(22 90)!"
#;# 90)7# 90))( 90)0) 90,30 90,!2 90,72 90,,3 90,23 900"3 900#3
#;$ 90072 900)2 90000 9023, 902!( 90277 902)! 90203 9022, 923"(
#;: 923#! 92372 923)) 9230! 92322 92""( 92"#" 92"7, 92")! 92",,
#;9 92"2! 92!3, 92!!! 92!#) 92!(" 92!)( 92!,2 92!2! 92#3) 92#"2
#;8 92##! 92#7( 92#(, 92#,3 92#0! 92#27 9273) 927"0 927!2 9277"
#;4 927(! 927)# 927,7 92707 9272( 92(3( 92("( 92(!( 92(#( 92(7(
#;> 92((7 92()7 92(,# 92(0! 92(2" 92(22 92)30 92)") 92)!( 92)##
#;= 92)7" 92)72 92)() 92))7 92)," 92),0 92)0) 92)2# 92)22 92,3)
#;< 92,"# 92,"2 92,!) 92,#! 92,#0 92,77 92,(3 92,() 92,)" 92,),
$;5 92,,! 92,,0 92,0# 92,00 92,2# 92,20 9203# 92030 920"! 920",
$;# 920!" 920!) 920#3 920#7 920#0 9207! 9207) 920(3 920(7 920(,
$;$ 920)" 920)7 920)0 920," 920,( 970,0 9200" 92007 9200, 92023
$;: 9202# 9202) 92020 9223" 92237 9223) 92232 922"" 922"# 922")
$;9 922"0 922!3 922!! 922!( 922!, 922!2 922#" 922#! 922#7 922#)
$;8 922#0 92273 9227" 9227# 9227( 9227) 92270 92272 922(" 922(!
$;4 922(# 922(( 922() 922(, 922(2 922)3 922)" 922)! 922)# 922)7
$;> 922)( 922)) 922), 922)0 922)2 922,3 922," 922,! 922,# 922,7
$;= 922,7 922,( 922,) 922,, 922,, 922,0 922,2 922,2 92203 9220"
$;< 9220" 9220! 9220! 9220# 92207 92207 9220( 9220( 9220) 9220)
:;5 9220, 9220, 9220, 92200 92200 92202 92202 92202 92223 92223
:;# 92223 9222" 9222" 9222" 9222! 9222! 9222! 9222! 9222# 9222#
:;$ 9222# 9222# 92227 92227 92227 92227 92227 9222( 9222( 9222(
:;: 9222( 9222( 9222( 9222) 9222) 9222) 9222) 9222) 9222) 9222,
:;9 9222, 9222, 9222, 9222, 9222, 9222, 9222, 9222, 9222, 92220
Tabla # !reas desde z $ % "acia la izquierda o "acia la derec"a
z
Pobabilidad (.)
5;55 5;5# 5;5$ 5;5: 5;59 5;58 5;54 5;5> 5;5= 5;5<
5;5 93333 93373 93303 93"!3 93")3 93"22 93!#2 93!,2 93#"2 93#(2
5;# 93#20 937#0 937,0 93(", 93((, 93(2) 93)#) 93),( 93,"7 93,(7
5;$ 93,2# 930#! 930," 932"3 93270 9320, 9"3!) 9"3)7 9""3# 9""7"
5;: 9"",2 9"!", 9"!(( 9"!2# 9"##" 9"#)0 9"73) 9"77# 9"703 9"(",
5;9 9"((7 9"(2" 9")!0 9"))7 9",33 9",#) 9",,! 9"030 9"077 9"0,2
5;8 9"2"( 9"2(3 9"20( 9!3"2 9!3(7 9!300 9!"!# 9!"(, 9!"23 9!!!7
5;4 9!!(0 9!!2" 9!#!7 9!#(, 9!#02 9!7!! 9!7(7 9!70) 9!("0 9!(72
5;> 9!(03 9!)"! 9!)7! 9!),# 9!,37 9!,#7 9!,)7 9!,27 9!0!# 9!0(!
5;= 9!00" 9!2"3 9!2#2 9!2), 9!22) 9#3!# 9#3(" 9#3,0 9#"3) 9#"##
5;< 9#"(2 9#"0) 9#!"! 9#!#0 9#!)7 9#!02 9##"( 9##73 9##)( 9##02
#;5 9#7"# 9#7#0 9#7)" 9#70( 9#(30 9#(#" 9#((7 9#(,, 9#(22 9#)!"
#;# 9#)7# 9#))( 9#)0) 9#,30 9#,!2 9#,72 9#,,3 9#,23 9#0"3 9#0#3
#;$ 9#072 9#0)2 9#000 9#23, 9#2!( 9#277 9#2)! 9#203 9#22, 973"(
#;: 973#! 97372 973)) 9730! 97322 97""( 97"#" 97"7, 97")! 97",,
#;9 97"2! 97!3, 97!!! 97!#) 97!(" 97!)( 97!,2 97!2! 97#3) 97#"2
#;8 97##! 97#7( 97#(, 97#,3 97#0! 97#27 9773) 977"0 977!2 9777"
#;4 977(! 977)# 977,7 97707 9772( 97(3( 97("( 97(!( 97(#( 97(7(
#;> 97((7 97()7 97(,# 97(0! 97(2" 97(22 97)30 97)") 97)!( 97)##
#;= 97)7" 97)72 97)() 97))7 97)," 97(22 97)30 97)") 97)!( 97)##
#;< 97,"# 97,"2 97,!) 97,#! 97,#0 97,77 97,(3 97,() 97,)" 97,),
$;5 97,,! 97,,0 97,0# 97,00 97,2# 97,20 9703# 97030 970"! 970",
$;# 970!" 970!) 970#3 970#7 970#0 9707! 9707) 970(3 970(7 970(,
$;$ 972)" 970)7 970)0 970," 970,( 970,0 9700" 97007 9700, 97023
$;: 9702# 9702) 97020 9723" 97237 9723) 97232 972"" 972"# 972")
$;9 972"0 972!3 972!! 972!( 972!, 972!2 972#" 972#! 972#7 972#)
$;8 972#0 97273 9727" 9727# 9727( 9727) 97270 97272 972(" 972(!
$;4 972(# 972(( 972() 972(, 972(2 972)3 972)" 972)! 972)# 972)7
$;> 972)( 972)) 972), 972)0 972)2 972,3 972," 972,! 972,# 972,7
$;= 972,7 972,( 972,) 972,, 972,, 972,0 972,2 972,2 97203 9720"
$;< 9720" 9720! 9720! 9720# 97207 97207 9720( 9720( 9720) 9720)
:;5 9720, 9720, 9720, 97200 97200 97202 97202 97202 97223 97223
:;# 97223 9722" 9722" 9722" 9722! 9722! 9722! 9722! 9722# 9722#
:;$ 9722# 9722# 97227 97227 97227 97227 97227 9722( 9722( 9722(
:;: 9722( 9722( 9722( 9722) 9722) 9722) 9722) 9722) 722)9 9722,
:;9 9722, 9722, 9722, 9722, 9722, 9722, 9722, 9722, 9722, 97220
AEJO '
TA(LA !E LA !I"TRI(UCIO t 7"tudent8
2rado de li+ertad ivel de *ro+a+ilidad *ara *rue+as de una cola
<#1< <#<0 <#<&0 <#<1 <#<<0 <#<<<0
ivel de *ro+a+ilidad *ara *rue+as de dos colas
<#&< <#1< <#<0 <#<& <#<1 <#<<1
1 9..>6 /.92F 2-.>./ 92.6-2 /9./5> /9/./2=
& 2.66/ -.=-. F.9.9 /.=/5 =.=-5 92.5=6
' 2./96 -.959 9.26- F.5F2 5.6F2 2-.=F2
- 2.599 -.29- -.>>/ 9.>F> F./.F 6./2.
0 2.F>/ -..25 -.5>2 9.9/5 F..9- /.65=
D 2.FF. 2.=F9 -.FF> 9.2F9 9.>.> 5.=5=
C 2.F25 2.6=5 -.9/5 -.==6 9.F== 5.F.5
F 2.9=> 2.6/. -.9./ -.6=/ 9.955 5..F2
E 2.969 2.699 -.-/- -.6-2 9.-5. F.>62
1< 2.9>- 2.62- -.--6 -.>/F 9.2/= F.56>
11 2.9/9 2.>=/ -.-.2 -.>26 9.2./ F.F9>
1& 2.95/ 2.>6- -.2>= -./62 9..55 F.926
1' 2.95. 2.>>2 -.2/. -./5. 9..2- F.--2
1- 2.9F5 2.>/2 -.2F5 -./-F -.=>> F.2F.
10 2.9F2 2.>59 -.292 -./.- -.=F> F..>9
1D 2.99> 2.>F/ -.2-. -.569 -.=-2 F..25
1C 2.999 2.>F. -.22. -.5/> -.6=6 9.=/5
1F 2.99. 2.>9F -.2.2 -.55- -.6>6 9.=--
1E 2.9-6 2.>-= -..=9 -.59= -.6/2 9.669
&< 2.9-5 2.>-5 -..6/ -.5-6 -.6F5 9.65.
&1 2.9-9 2.>-2 -..6. -.526 -.692 9.62=
&& 2.9-2 2.>2> -..>F -.5.6 -.62= 9.>=-
&' 2.92= 2.>2F -../= -.5.. -.6.> 9.>/>
&- 2.926 2.>22 -../F -.F=- -.>=> 9.>F5
&0 2.92/ 2.>.6 -../. -.F65 -.>6> 9.>-5
&D 2.925 2.>./ -..5/ -.F>= -.>>= 9.>.>
&C 2.92F 2.>.9 -..5- -.F>9 -.>>2 9./=.
&F 2.929 2.>.2 -..F6 -.F/> -.>/9 9./>F
&E 2.922 2./== -..F5 -.F/- -.>5/ 9./5=
'< 2.92. 2./=> -..F- -.F5> -.>5. 9./F/
-< 2.9.9 2./6F -..-2 -.F-9 -.>.F 9.552
D< 2.-=/ 2./>2 -.... -.9=. -.//. 9.F/.
1&< 2.-6= 2./56 2.=6. -.956 -./2> 9.9>9
In9inito 2.-6- 2./F5 2.=/. -.9-/ -.5>/ 9.-=2
(Nuente! Eohan$ 2==F!52=,.