Sei sulla pagina 1di 245

Universitat de les Illes Balears

Col.lecci Materials Didctics















INTRODUCCIN A LA ESTADSTICA
DESCRIPTIVA PARA ECONOMISTAS





Joaqun Alegre Martn
Magdalena Cladera Munar










Palma, 2002



NDICE




1 INTRODUCCIN: Qu es...?

1 Qu es una variable?
2 Qu es la estadstica descriptiva? Cul es el mbito de la estadstica
descriptiva en el anlisis econmico?
2 Qu son la poblacin y la muestra?
4 Qu es un parmetro? Qu es un estadstico?
4 Qu es una muestra aleatoria?
6 Estructura del libro.


7 CAPTULO I. Descripcin de Variables Cualitativas.

7 Variables cualitativas nominales y ordinales.
8 Distribucin de frecuencias. Frecuencia relativa y frecuencia relativa
acumulada.
11 Diagrama de barras.
12 Moda.
14 Mediana.
15 Pictograma.
16 Diagrama de Pareto.


19 CAPTULO II. Distribucin de Frecuencias e Histograma.

19 Escala de intervalo y de cociente.
19 Variables discretas y continuas.
19 Distribucin de frecuencias. Diagrama de barras.
23 Histograma.
26 Cmo trabajar con los histogramas.


35 CAPTULO III. Estadsticos Descriptivos de una Variable Cuantitativa.

35 Medidas de posicin central.
35 Moda y mediana.

36 Media aritmtica.
38 Propiedades de la media.
38 Media ponderada.
40 Media ponderada y muestreos complejos.
43 Representatividad de la media.
43 Media cortada (trimmed mean).
45 Media geomtrica.
48 Utilizacin de la media, moda y mediana para detectar la
asimetra de una distribucin.
51 Cuartiles, deciles y percentiles.
57 Medidas de dispersin: rango, rango intercuartlico, varianza,
desviacin estndar, coeficiente de variacin.
58 Discusin y propiedades de la varianza, desviacin estndar y
coeficiente de variacin.
76 Relacin entre la media y la desviacin estndar: Desigualdad de
Chebychev.
79 El Diagrama de caja.
81 Diagrama de caja. Ayudas para su interpretacin.
89 Medidas de asimetra y curtosis.
89 Medida de asimetra de Fisher.
91 Medida de asimetra de Pearson.
91 Medida de apuntamiento o curtosis.


101 CAPTULO IV. Anlisis Bivariante de Variables Cualitativas.

101 Distribucin conjunta de variables. Tabla de contingencia.
108 Chi-cuadrado y C de contingencia.
113 Lambda.
119 Gamma, Tau-b y Tau-c.


133 CAPTULO V. El Coeficiente de Correlacin.

133 Asociacin lineal entre dos variables.
134 Asociacin lineal positiva o negativa.
137 Estadstico de covarianza.
144 Propiedades de la covarianza.
145 Coeficiente de correlacin lineal.
148 Propiedades del coeficiente de correlacin.
148 Matriz de correlaciones.
149 Algunos errores en la interpretacin del coeficiente de correlacin.
153 El coeficiente de correlacin de rangos de Spearman.


177 CAPTULO VI. Ajuste de una Recta.

179 De la propuesta de causalidad a la recta de regresin.
182 Obtencin de a y b por mnimos cuadrados ordinarios.
186 Derivacin de las expresiones de mco para a y b.
189 Ejemplos de clculo de la recta de regresin.
195 Ajustes no lineales.
196 Siempre es posible un buen ajuste?
198 Algunas propiedades del error del ajuste.
198 Medida de bondad del ajuste: Coeficiente de determinacin R
2
.
201 Lmites del coeficiente de determinacin.
204 Anlisis grfico de los errores del ajuste.
205 Existe alguna relacin entre el coeficiente de correlacin y el
coeficiente de determinacin?
205 Dos ejemplos numricos sobre el coeficiente de determinacin.



231 BIBLIOGRAFA.






INTRODUCCIN: Qu es...?

Qu es una variable?


En estadstica, como en matemticas o economa, se emplea el concepto
de variable para referirnos a cualquier caracterstica, que toma valores
diferentes en un conjunto de observaciones. En economa, por ejemplo,
definimos la renta como una variable. Al hacerlo podemos estar pensando en los
ingresos anuales de las familias de una regin, en la que cada familia tendr un
volumen de ingresos distinto. Tambin podemos pensar en los ingresos
agregados de la regin, medidos a lo largo del tiempo (cada trimestre o cada
ao), y considerar que la regin es el individuo sobre el que se mide la variable.
Las dos interpretaciones del concepto de renta que apuntamos son correctas,
utilizndose en mbitos distintos. Lo que es esencial en su definicin es la
posibilidad de medir el nivel de ingresos de una manera sistemtica (sea para un
conjunto de familias en un momento del tiempo, sea para un nico individuo,
familia o regin a lo largo de un periodo), obteniendo observaciones de una
cantidad variable.

En el caso de la renta estamos considerando una variable de tipo
cuantitativo. Hablamos de una variable cuantitativa cuando la caracterstica
que se mide toma valores numricos. Muchas de las variables econmicas son
de este tipo, pero tambin hay variables econmicas de tipo cualitativo.
Entendemos por variable cualitativa aquella que toma valores no numricos.
La caracterstica que se mide en el individuo sera, en este caso, una
cualidad (un atributo) del mismo. Por ejemplo, la distincin de los
consumidores por sexo, el tipo de familia (su composicin), el nivel de estudios o
la categora profesional son variables de tipo cualitativo que forman parte de los
anlisis de los patrones de consumo. La pertenencia a un sector industrial
concreto, el tipo de mercado (nacional o internacional) en el que se opera, la
existencia de barreras de entrada son caractersticas que se estudian en economa
industrial.

La distincin entre variables cuantitativas y cualitativas es importante
desde el punto de vista estadstico porque las tcnicas que pueden emplearse en
uno u otro caso son diferentes.



Qu es la estadstica descriptiva? Cul es el mbito de la
estadstica descriptiva en el anlisis econmico?


La estadstica descriptiva es un conjunto de mtodos cuyo objetivo es
ordenar las observaciones, resumir la informacin disponible y obtener las
medidas cuantitativas que describen sus caractersticas. La descripcin es
cuantitativa y pretende ser lo ms sinttica posible.

La teora econmica se suele interesar por variables econmicas en un
nivel alto de abstraccin. Los campos de la macroeconoma y microeconoma, la
economa del consumo y economa de la produccin, la economa financiera, etc.
toman como referencia agentes econmicos, sobre los que se definen modelos de
comportamiento. Estos agentes, definidos como referencias abstractas tienen, sin
embargo, su conexin con la realidad econmica. El mbito de la estadstica se
aplica a esos individuos reales, estudiando variables como el gasto familiar, los
beneficios empresariales o el ndice de paro de un pas.

Las tcnicas estadsticas tambin se aplican al control de calidad de la
produccin, a la gestin de carteras de acciones, etc., campos de menor
abstraccin, en los que las variables a estudiar pueden ser tan concretas como la
produccin diaria de una mquina o el precio de una accin. En cualquiera de los
campos en los que se aplique, la estadstica descriptiva pretende ayudar a
plantear y resolver los problemas de la economa.

Qu son la poblacin y la muestra?


Al conjunto de individuos objetivo del anlisis se le denomina poblacin.
Una muestra es una parte de la poblacin. Cuando se trabaja con una muestra
las conclusiones que se obtienen deben restringirse, inicialmente, a sta. Extraer
conclusiones ms generales, aplicables a toda la poblacin, slo puede hacerse de
una manera limitada, siendo necesario entre otras cosas que la muestra sea
representativa y que la generalizacin de las conclusiones se haga de una forma
prudente y rigurosa. Las tcnicas de la estadstica inferencial facilitan esa
generalizacin desde la muestra a la poblacin.

Las tcnicas descriptivas se pueden aplicar a toda la poblacin, si esta se
conoce, o a una muestra. En el caso de disponer nicamente de informacin
muestral se debern aplicar las tcnicas de la estadstica inferencial si se quieren
generalizar las conclusiones obtenidas.

El trabajo con muestras es usual es economa. Uno de los ejemplos ms
conocidos para justificar el uso de las muestras se encuentra en el terreno del
control de calidad. Una empresa dedicada a la produccin de bombillas, las habr
diseado garantizando un tiempo de vida determinado. Antes de servir su
producto la empresa desear comprobar la fiabilidad real de su oferta realizando
algn tipo de prueba, pero obviamente esto no lo podr hacer con toda la
produccin, puesto que la destruira. Una muestra representativa permitir a la
empresa comprobar el tiempo de duracin real de sus bombillas. Ejemplos de
situaciones similares no son difciles de encontrar. Piense, por ejemplo, en las
empresas de auditora contable cuando acceden a la informacin de una empresa.
Si la empresa auditora se viera obligada a seguir cada una de los procesos de la
empresa (desde el primer movimiento contable al archivo de la ltima factura) se
vera metida en una labor inabordable. La seleccin, al azar, de una muestra de
algunos movimientos contables puede ser suficiente para verificar la correccin
de la toda la gestin.


La necesidad de trabajar con muestras responde en muchas ocasiones a
un ahorro en los costes de obtencin de la informacin. Si puede obtenerse
informacin esencial y generalizable a partir de una muestra no ser preciso
acceder a toda la poblacin.


En ocasiones, el recurrir a las muestras no obedece a una cuestin de
costes, sino a la imposibilidad de acceder a todas las observaciones. Esta
situacin es frecuente en economa cuando se recoge la evolucin temporal del
valor de una variable. Algunos modelos econmicos consideran que, en un
momento del tiempo, la poblacin de inters son todos los valores posibles que
puede tomar una observacin. Por ejemplo, imagine que est siguiendo la
evolucin diaria del precio de una accin en un mercado burstil a lo largo de un
ao. Cada da usted observar el precio de la accin a la hora del cierre de la
sesin de bolsa, de manera que si el mercado abre durante doscientos das,
dispondr de doscientos precios. Respecto al ao, ese conjunto de doscientas
observaciones, se considera una poblacin o una muestra del precio de la
accin? Se dispone de todos los precios de cierre observados a lo largo del ao,
pero no de todos los precios que ha tomado la accin. En un da concreto, el
precio de la accin puede tomar distintos valores y es hasta cierto punto una
cuestin de azar el que a la hora del cierre se observe un precio determinado. Las
doscientas observaciones pueden entenderse como una muestra de todos los
precios que puede haber tomado la accin (que definiran la poblacin). En este
caso, los posibles valores de una variable en un momento del tiempo definiran la
poblacin, el valor observado se considerara una realizacin muestral.



El empleo de informacin muestral obedece a veces a la imposibilidad de
observar toda la poblacin.


Qu es un parmetro? Qu es un estadstico?


Cuando queremos entender lo que ocurre con unos datos, lo ms
adecuado es resumir los valores individuales. Estaremos interesados en conocer
cul es el valor representativo de un grupo o hasta qu punto las observaciones se
alejan de ese valor. Cuando se est estudiando una poblacin, estas medidas que
describen las caractersticas de los datos se denominan parmetros
poblacionales. El valor medio de una variable en una poblacin sera un
parmetro, tambin lo es la proporcin de individuos de la poblacin que tienen
una caracterstica. La discusin de algunos de estos parmetros es parte de la
estadstica.

En general, daremos el nombre de estadstico a cualquier frmula
aplicada en la informacin muestral. Muchos de los estadsticos que se utilizan
pretenden ser estimaciones de los parmetros de la poblacin. Si slo disponemos
de una muestra, podemos calcular el valor medio de las observaciones y suponer
que esa media muestral puede ser una buena aproximacin al valor del
parmetro, la media poblacional. La relacin entre el parmetro y su estimacin
en la muestra es parte esencial de la estadstica inferencial. No obstante, los
trminos parmetro y estadstico son palabras de uso frecuente tambin en la
estadstica descriptiva.

Qu es una muestra aleatoria?


Para que las muestras sean tiles deben ser representativas de la
poblacin. Una manera de garantizar la representatividad de una muestra
consiste en obtenerla mediante procedimientos aleatorios. Los muestreos
aleatorios garantizan la representatividad de la muestra al basarse en el azar. Si
se desea extraer una muestra de cien observaciones de una poblacin de mil
individuos, parece razonable seleccionar aleatoriamente los cien individuos entre
toda la poblacin. La seleccin aleatoria ms sencilla es el muestreo aleatorio
simple (m.a.s.) En su diseo ideal, el m.a.s. consistira en asignar un nmero a
cada uno de los elementos de la poblacin y seleccionar al azar (con igual
probabilidad para cada nmero) el conjunto de individuos que formarn parte de

la muestra. Puede imaginar que este diseo ideal, para ser operativo necesita en
ocasiones de otros criterios que lo complementen (qu ocurre cuando la
poblacin no puede numerarse, por ejemplo), pero queremos destacar ahora la
idea de que mediante diseos muestrales aleatorios se pretende conseguir
muestras lo ms representativas posibles de la poblacin.


Los diseos de obtencin de las muestras son a veces ms complejos que
el muestreo aleatorio simple. Si sabemos que una poblacin se distribuye
aproximadamente igual entre los dos sexos, podra interesarnos que ese
porcentaje se mantuviera en la muestra. Por azar, sera posible obtener una
muestra en la que la mayora de los individuos perteneciera a uno de los dos
sexos. Un diseo muestral ms rico podra dividir la poblacin en dos (segn su
sexo), realizando un m.a.s. en cada una de las partes, es decir, seleccionando al
azar la mitad de la muestra entre la poblacin masculina y la otra mitad entre la
poblacin femenina. El diseo ya no es puro azar, puesto que ste se sacrifica
parcialmente para garantizar la mxima representatividad. La complejidad
estadstica del diseo muestral puede aumentar rpidamente, cuando se imponen
ms criterios. Lo que resulta esencial es que bajo diseos ms o menos
complejos, siempre aparece finalmente un procedimiento de seleccin basado en
el azar.


El estudio y diseo de los diferentes tipos de muestreo es una parte de la
estadstica inferencial y no se discuten en este libro. Slo en un punto del anlisis
descriptivo se produce un cruce con la idea de poblacin y es cuando a cada
individuo de la muestra se le asocia un factor de elevacin poblacional. El factor
de elevacin poblacional indica el nmero de individuos de la poblacin a los
que representa cada uno de los individuos de la muestra. Imaginemos una
poblacin con 1000 individuos, de la cual se quiere extraer una muestra de diez
observaciones. A cuntos individuos de la poblacin representa cada uno de los
individuos de la muestra? Si se trata de un m.a.s., cada uno de los individuos de
la muestra ha tenido igual oportunidad de ser elegido y cada individuo
representar a 1000/10=100 individuos en la poblacin. El factor de elevacin de
cada elemento de la muestra ser igual a 100. El Instituto Nacional de
Estadstica, por ejemplo, realiza gran parte de su trabajo basndose en muestras,
aunque ofrece sus resultados al nivel de la poblacin. Para ello utiliza los factores
de elevacin calculados previamente (en funcin del particular diseo muestral).
Si se quiere describir la poblacin empleando la muestra, puede resultar til
emplear estos factores.






Estructura del libro


El libro se estructura en seis captulos. Los tres primeros tratan el anlisis
descriptivo de una nica variable (anlisis descriptivo univariante): se dedica un
corto captulo al tratamiento de variables cualitativas y dos captulos a las
variables de tipo cuantitativo. Los captulos siguientes se centran en el anlisis de
las relaciones entre dos variables (relaciones bivariantes). En el captulo cuarto
se estudian las relaciones bivariantes entre variables cualitativas, mientras que el
quinto y sexto estn dedicados a las relaciones bivariantes entre variables
cuantitativas. En cada captulo los conceptos tericos estn acompaados de un
nmero amplio de ejemplos.

CAPTULO I. Descripcin de VARIABLES CUALITATIVAS


En este captulo se exponen las tcnicas ms sencillas que se utilizan para
describir una variable cualitativa. Definiremos las variables cualitativas
nominales y ordinales, los conceptos asociados a la distribucin de frecuencia y
los limitados estadsticos que pueden emplearse en la descripcin. El captulo se
cierra con algunos de los procedimientos grficos empleados para representar las
distribuciones de estas variables.


Variables cualitativas nominales y ordinales. En una encuesta sobre el gasto
turstico se pregunta a los visitantes de una autonoma cul es la impresin que
han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes:

La impresin que ha tenido de su viaje ha sido:
Muy buena.
Buena.
Normal.
Mala.

Tambin se pregunta cul es la categora socio-profesional en la que se
sita el encuestado:

Su profesin es:
Profesional liberal.
Directivo o empresario.
Administrativo.
Trabajador manual.
Trabajador Autnomo.
Funcionario.
Jubilado.
Estudiante
Otras.

Las anteriores variables son de tipo cualitativo, calificndose como de
tipo ordinal (la primera) y nominal (la segunda). La distincin entre ellas es
clara. En la pregunta sobre la impresin del viaje, la respuesta muy buena
indica un nivel de satisfaccin mayor que buena, sta ltima respuesta estara a
su vez por encima de normal y mala sealara en nivel mnimo de
satisfaccin. Las respuestas pueden, en algn sentido, ordenarse de menos a ms.

En cambio, no es posible ordenar de menos a ms las respuestas de una variable
como la categora profesional.

Las variables cualitativas nominales nicamente ponen nombre a una
caracterstica, las variables ordinales llevan asociadas un orden en las respuestas.

Las categoras de una variable nominal, al contrario de las de una variable
ordinal, no pueden ordenarse de menos a ms.


Distribucin de frecuencias. Frecuencia relativa y frecuencia relativa
acumulada. La principal herramienta de anlisis de una variable de tipo
cualitativo es el simple recuento del nmero de los casos dentro de cada
categora. Adems de referirnos a las categoras de una variable, emplearemos
tambin el trmino valores de la variable.

Supongamos que tenemos una variable A, que puede tomar las categoras
A
1
, A
2
,, A
I
. El primer objetivo es conocer cuntos individuos tienen cada
caracterstica.

La principal herramienta de anlisis de una variable de tipo cualitativo es el
simple recuento del nmero de los casos dentro de cada categora.


En estadstica, el nmero de veces que se repite una de las categoras o
valores de la variable se denomina frecuencia o, de manera ms precisa,
frecuencia absoluta (que denotaremos n
i
). Por distribucin de frecuencias se
entiende el registro de todos las posibles categoras o valores de la variable,
junto con sus frecuencias asociadas. Adems de las frecuencias absolutas se
suelen presentar las frecuencias relativas de cada categora. La frecuencia
relativa se define como la frecuencia absoluta dividida por el total de
observaciones:
f
n
n
i I
i
i
, , , 1 K

Cuando se trabaja con una variable de tipo ordinal (cuyas categoras se
pueden ordenar de menor a mayor) se pueden calcular las frecuencias
acumuladas. La idea de acumulacin facilita conocer rpidamente el nmero de
observaciones que estn por debajo de un determinado valor o categora. Se
distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia
absoluta acumulada se define como:

N n i I
i j
j
i

1
1 , ,K .

Y la frecuencia relativa acumulada como:
I i
n
N
n
n
F
i
i
j
j
i
, , 1 ,
1
K




Recuerde que tiene sentido hablar de valores acumulados cuando las
respuestas de la variable se han ordenado de menor a mayor, lo que slo es
posible si la variable cualitativa es de tipo ordinal.


La imagen estndar de una distribucin de frecuencias es tan sencilla
como la que se muestra en el cuadro 1. En la misma apareceran, para el total de
n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas,
las frecuencias relativas y las frecuencias relativas acumuladas.


Cuadro 1
Distribucin de frecuencias
Categoras
Frecuencias
Absolutas
Frecuencias
Relativas
Frecuencias
Relativas acumuladas
A
1
n
1
n
1
/n n
1
/n
A
2
n
2
n
2
/n (n
1
+n
2
)

/n

A
I
n
I
n
I
/n (n
1
++n
I
)

/n


Ejemplo 1. Rgimen de propiedad de la vivienda. El rgimen de
propiedad de la vivienda familiar puede considerarse como una variable
cualitativa, distinguiendo tres posibles categoras: la vivienda est en alquiler, la
vivienda es de propiedad con la hipoteca pendiente o la vivienda es de
propiedad sin hipoteca. Ante una muestra concreta de familias, podemos
describir de una manera cuantitativa su relacin con la propiedad de su vivienda.

En el cuadro 2 se muestra la distribucin de frecuencias de una muestra
de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser
cmodo, cuando se graban los datos, convertir las categoras en etiquetas
numricas. En nuestro ejemplo se ha definido una variable denominada
vivienda que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1

cuando la vivienda es de propiedad pero tiene la hipoteca an vigente y valor 2,
si la vivienda es de propiedad y sin hipoteca.


Cuadro 2

VI VI ENDA POSESI N VI VI ENDA HABI TUAL( 0, 1, 2)
Cum
Val ue Label Val ue Fr equency Per cent Per cent

Al qui l er 0 1764 36, 8 36, 8
Hi pot eca vi gent e 1 960 20, 0 56, 9
Pr opi edad 2 2067 43, 1 100, 0
- - - - - - - - - - - - - -
Tot al 4791 100, 0

Val i d cases 4791 Mi ssi ng cases 0



En el cuadro 2 aparecen los siguientes conceptos:

Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y
2 reflejan las categoras de alquiler, vivienda con hipoteca vigente y vivienda
de propiedad (en la columna Value Label se muestran las etiquetas de la
variable).

La Frecuencia absoluta (Frequency). El nmero de individuos que tiene cada
una de las categoras.

La frecuencia relativa (Percent) . Definida como el cociente entre la
frecuencia absoluta y el nmero total de observaciones.

La frecuencia relativa acumulada (Cum Percent). La frecuencia relativa
acumulada se define como la suma acumulada de los porcentajes relativos
de las categoras anteriores y hasta la propia categora.


La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes
tiene el mayor porcentaje de individuos. La segunda es la categora de vivienda
en alquiler, con un 36.8% de declarantes. Finalmente, la categora con menos
individuos corresponde a la de declarantes que viven en vivienda de propiedad,
an no pagada. La importancia de cada una de las categoras es fcil de percibir
cuando el nmero de categoras de la variable es muy pequeo.




Los porcentajes acumulados no tienen una interpretacin inocente
cuando se tratan variables de tipo cualitativo. La informacin de que el 56.9% de
los individuos viven en rgimen de alquiler o en vivienda propia con hipoteca
puede ser una informacin sin sentido.



La frecuencia relativa se define como la frecuencia en cada clase dividida
por el total de observaciones:
f
n
n
i
i


La frecuencia relativa acumulada en cada clase se define, una vez
ordenadas las respuestas desde la categora inferior a la superior, como:
n
N
n
n
F
i
i
j
j
i

1


En variables de tipo cualitativo nominal el porcentaje acumulado de
frecuencias no debe leerse de manera automtica, puesto que al no existir un
orden en las categoras, el sentido de la acumulacin puede ser confuso.




Diagrama de barras. Los resultados de la distribucin de frecuencias se
pueden acompaar de ayudas grficas que facilitan la lectura de la informacin.
El diagrama de barras representa, para cada una de las categoras de la variable
(indicada en uno de los ejes de la grfica), su frecuencia absoluta o relativa (que
se muestra en un segundo eje). Su objetivo es disponer de una visualizacin clara
y rpida de la importancia de cada una de las categoras de la variable. En la
grfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior.


El diagrama de barras representa grficamente las frecuencias (absolutas o
relativas) de la variable.




Grfica 1
Grfica de barras
POSESIN VIVIENDA (0=Alquiler,1=Hipoteca,2=Propiedad)
2 1 0
F
r
e
c
u
e
n
c
i
a
2200
2000
1800
1600
1400
1200
1000
800





Moda. En el Ejemplo 1 sobre el rgimen de propiedad de la vivienda uno de los
resultados obtenidos era que la categora con un porcentaje mayor de individuos
era la 2 (vivienda en propiedad sin hipoteca). Esta percepcin puntual puede
convertirse en el primer estadstico de resumen, ya que saber cul es la categora
ms frecuente de una variable dice algo del comportamiento general del grupo de
individuos. Conocer el valor con mayor frecuencia permite disponer de una
medida sinttica de cul es la tendencia general de las observaciones. A este
valor se le denomina moda de la distribucin.


La moda de una distribucin es el valor de la variable con
mayor frecuencia.


En ocasiones, las distribuciones de frecuencias se pueden caracterizar en
funcin de la moda, distinguiendo entre distribuciones con una nica moda
(distribuciones unimodales) y distribuciones en las que son dos o ms de dos los
valores que alcanzan la mxima frecuencia (distribuciones bimodales o
multimodales, respectivamente).

Es difcil encontrar distribuciones empricas que sean multimodales en el
sentido estricto en que aqu se han definido, es decir, que de manera exacta varios
valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar
distribuciones en las que dos o ms valores tienen frecuencias ms altas que los

dems. En la prctica estas distribuciones se denominan tambin multimodales.
La explicacin de esta flexibilidad puede encontrarla en la comparacin de las
grficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que
tomara ocho categoras. En la primera distribucin se observa una doble moda,
con las categoras A
3
y A
7
con superior e igual frecuencias absolutas. En la
segunda distribucin la moda se encuentra en la categora A
3
, pero resulta obvio
que cualquier comentario sobre la distribucin que ignorase la categora A
7

falseara la imagen de conjunto que se desea transmitir. Hablar de una
distribucin bimodal, con una primera moda situada en la categora A
3
y una
segunda moda en la categora A
7
resultara ser un retrato ms fiel de las
observaciones.

Grfica 2
Variable Cualitativa
A8 A7 A6 A5 A4 A3 A2 A1
F
r
e
c
u
e
n
c
i
a
s
120
100
80
60
40
20
0



Grfica 3
Variable Cualitativa
A8 A7 A6 A5 A4 A3 A2 A1
F
r
e
c
u
e
n
c
i
a
s
120
100
80
60
40
20
0


Mediana. En el caso de variables cualitativas ordinales la moda no es el nico
estadstico con significado. Puesto que en las variables ordinales existe un
sentido de orden en sus categoras, si stas se ordenan de menos a ms, la
distribucin de frecuencias acumuladas tendr una interpretacin. La mediana es
aquella caracterstica de la distribucin que ocupa la posicin central de la
misma. Ordenados los valores de la variable (de menor a mayor), la mediana
define aquel punto que deja por debajo de s mismo el 50% de la distribucin.


Ordenados los valores de la variable (de menor a mayor) la mediana es aquel
valor de la distribucin que ocupa el valor central de la misma.


Ejemplo 2. Investigacin comercial de un nuevo producto. Las
empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su
aceptacin. Una prctica habitual es ofrecer una muestra del producto a algunos
consumidores potenciales. Una encuesta posterior permitir conocer el nivel de
satisfaccin del consumidor y las modificaciones que podran resultar
adecuadas. Supongamos que una empresa productora de un abrillantador de
muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre
un nmero igual de posibles consumidores, realizando despus una encuesta
sobre el nivel de satisfaccin respecto al producto. En el cuadro 3 se
reproduciran los resultados obtenidos.

Cuadro 3

Val i d Cum
Val ue Label Val ue Fr equency Per cent Per cent Per cent

Nada sat i sf act or i o 1 6 2, 5 2, 7 2, 7
Poco sat i sf act or i o 2 31 13, 1 13, 9 16, 6
Bast ant e sat i sf act or i o 3 96 40, 7 43, 0 59, 6
Muy sat i sf act or i o 4 90 38, 1 40, 4 100, 0
No l o ha pr obado 5 13 5, 5 Mi ssi ng
- - - - - - - - - - - - - - - - - - - - -
Tot al 236 100, 0 100, 0



La variable cualitativa presenta cuatro posibles respuestas, indicando
cada una de ellas el nivel de satisfaccin del consumidor. Existe una quinta
opcin que recoge la categora de aquellas personas que finalmente no han
empleado el producto y que, en este ocasin, se han definido como valores
perdidos (missing). En los resultados del programa aparecen dos columnas de
porcentajes. En la primera, el total de observaciones (hayan empleado o no el
producto) se recoge como referencia para calcular las frecuencias. En la

segunda columna (valid percent) se calculan lo que se denominan porcentajes
vlidos, calculndose las frecuencias con referencia al nmero de individuos
que han empleado el producto.

Las caractersticas ms relevantes de la distribucin seran una moda
para la categora de bastante satisfactorio (43% de las respuestas vlidas) y un
valor mediano en la misma categora, al acumularse dentro de ella el 50% de
consumidores. Adems, en los porcentajes acumulados puede leerse que slo el
16,6% de los consumidores consideran el producto nada o poco satisfactorio.
El diagrama de barras de la distribucin se representa en la grfica 4,
apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los
resultados anteriores el hecho de que la lectura de los porcentajes acumulados
(y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa
de tipo ordinal.

Grfica 4
Grfica de barras
Satisfaccin con respecto al producto
Nada satisf actorio Poco satisf actorio Bastante satisf act. Muy satisf actorio
P
o
r
c
e
n
t
a
j
e
50
40
30
20
10
0




Pictograma. Junto a los diagramas en barra es posible representar la importancia
de cada una de las categoras usando otro tipo de grficas. El pictograma no es
ms que un crculo en el que se representan las categoras de la variable
proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue
definiendo los ngulos proporcionalmente a las frecuencias. As, una categora
con una frecuencia relativa del 40.4% debera cubrir un ngulo igual a
0404 360 14544
0 0
. . . En la grfica 5 se representan las frecuencias relativas
del ejemplo anterior por medio de un pictograma.


Grfica 5
Frecuencias relativas
2,7%
13,9%
43,0%
40,4%
Nada satisf echo
Poco satisf echo
Bastante satisf echo
Muy satisf echo




Diagrama de Pareto. Si se quiere resaltar la distribucin de frecuencias
acumuladas puede emplearse el denominado diagrama de Pareto. ste no es ms
que un diagrama en barras en el que las categoras se ordenan de mayor a menor
frecuencia, dibujando sobre las barras una lnea indicativa de la frecuencia
acumulada hasta esa categora. La grfica se puede realizar tanto sobre variables
nominales como ordinales.


El diagrama de Pareto es un diagrama de barras en el que las categoras se
ordenan de mayor a menor frecuencia, dibujando una lnea indicativa de la
frecuencia acumulada hasta esa categora.



Ejemplo 3. Control de produccin. Una empresa sufre continuas paradas
en su cadena de produccin. Dada la importancia de las consecuencias
econmicas de estas paradas se decide controlar durante un mes cules son las
razones que las ocasionan. Para ello se solicita de los operarios que anoten el
tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta
hasta que se soluciona el problema. Las causas detectadas (seis causas
particulares a este proceso de produccin) as como su frecuencia y el tiempo de
parada se reproducen en el cuadro 4.

Cuadro 4
Causa Frecuencia Tiempo de parada
(en minutos)
1 Rotura de tornillos 10 70
2 Rotura de arandelas 10 10
3 Rotura o bloqueo de cintas 4 41
4 Rotura de aros de sujecin 2 20
5 Rotura de otras piezas 2 10
6 Desajustes de temperatura 11 53


En total, como consecuencia de 39 paradas, se han perdido 204 minutos
en un mes de trabajo. El tiempo de parada y el nmero de paradas se pueden
analizar a partir de los correspondientes diagramas de Pareto. En la grfica 6 se
observa que las tres causas ms frecuentes de parada son la sexta, primera y
segunda, por este orden. Estas tres primeras causas, tal como se observa en la
lnea continua del diagrama, representan un porcentaje alto del total de paradas,
en concreto un 79,5% de stas, (11+10+10)/39. En la grfica 7 se puede
observar, sin embargo, que no todas las paradas tienen igual importancia en
cuanto al tiempo de interrupcin. Las tres primeras causas (primera, sexta y
tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el inters
de la empresa se encuentra en reducir al mximo el tiempo de parada (y no
tanto el nmero de veces en que la produccin se detiene) debera centrarse en
los determinantes de la rotura de tornillos, los desajustes de temperatura y la
rotura o bloqueo de cintas.

Grfica 6
Causa de la parada
5,00 4,00 3,00 2,00 1,00 6,00
N

m
e
r
o

d
e

p
a
r
a
d
a
s
50
40
30
20
10
0
P
o
r
c
e
n
t
a
j
e
100
50
0
4
10 10
11





Grfica 7
Causa de la parada
5,00 2,00 4,00 3,00 6,00 1,00
T
i
e
m
p
o

d
e

p
a
r
a
d
a
300
200
100
0
P
o
r
c
e
n
t
a
j
e
100
50
0
20
41
53
70








CAPTULO II. Distribucin de frecuencias e histograma



Las variables de tipo cuantitativo son aquellas que toman, en lugar de
categoras, valores numricos. Las categoras de las variables cualitativas pueden
relacionarse con valores numricos, pero eso no las convierte en cuantitativas,
puesto que el nmero, en su caso, no es ms que una etiqueta, careciendo de
sentido operar matemticamente con ellos.


Escala de intervalo y escala de cociente. Desde un punto de vista terico se
distingue entre variables cuantitativas medidas en escala de intervalo y en escala
de cociente. Las variables cuantitativas tienen una escala de intervalo si se
pueden ordenar sus valores y, adems, se pueden realizar con ellos las
operaciones de suma y resta. La primera caracterstica la comparte con las
variables cualitativas ordinales, pero al contrario que en aqullas, en la escala de
intervalo puede medirse la distancia entre distintas observaciones. Permite
afirmar, por ejemplo, que un individuo tiene un valor que supera en diez
unidades al que toma otro individuo, o que entre dos individuos hay una
diferencia de veinte unidades. Las variables con escala de cociente aaden a
estas caractersticas la de incorporar un origen no arbitrario. La diferencia
esencial es que este segundo tipo de variable admite un cero verdadero
(toneladas consumidas o nmero de empleados, por ejemplo, donde el cero se
entiende como inexistencia) y permite el clculo de proporciones entre los
distintos valores (una observacin toma un valor que es el doble que el de otra).
Normalmente, desde el punto de vista prctico, no siempre se realiza una
distincin entre ellas.


Variables discretas y continuas. Tambin se suele distinguir en la estadstica
descriptiva entre variables de tipo discreto (si la variable toma un nmero finito
o infinito numerable de observaciones) y de tipo continuo (infinito no
numerable). De nuevo, desde el punto de vista prctico esta distincin no es
importante en muchas ocasiones.


Distribucin de frecuencias. Diagrama de barras. La idea de recuento, es
decir, la idea de crear una distribucin de frecuencias debe ser, como en el caso
de las variables cualitativas, el primer paso del anlisis. Observar los distintos
valores que toma una variable, ordenarlos de menor a mayor y contar el nmero
de veces que aparece cada valor nos dar una idea de su comportamiento. El
nico problema que se plantea con una variable de tipo cuantitativo es que suele
tomar un nmero de valores mucho mayor que las posibles categoras de una

variable cualitativa. La imagen general que se pretende dar con la distribucin de
frecuencias puede ser entonces poco til, porque la informacin est poco
resumida. El trabajo con intervalos de la variable, en lugar de con cada uno de
sus posibles valores, es el procedimiento normal para conseguir una imagen
sinttica de la distribucin.

Ejemplo 1. Distribucin de frecuencias del nmero de hijos. En este
primer ejemplo vamos a obtener la distribucin de frecuencias y el
diagrama de barras del nmero de hijos de una muestra de familias
espaolas. La muestra de 1254 familias est formada por una seleccin
aleatoria de declarantes del IRPF que ya hemos analizado anteriormente.
La distribucin de frecuencias para una muestra de esta variable Nmero
de hijos del hogar aparece en el cuadro 1 y su representacin en un
diagrama en barras en la grfica 1.

Cuadro 1

Nmer o de hi j os del hogar
Cumul at i ve Cumul at i ve
Ni os Fr equency Per cent Fr equency Per cent

0 562 44. 8 562 44. 8
1 307 24. 5 869 69. 3
2 301 24. 0 1170 93. 3
3 59 4. 7 1229 98. 0
4 23 1. 8 1252 99. 8
5 2 0. 2 1254 100. 0


Grfica 1

Nmero de hijos del hogar
5 4 3 2 1 0
F
r
e
c
u
e
n
c
i
a
s

a
b
s
o
l
u
t
a
s
600
500
400
300
200
100
0
59
301
307
562

El primer resultado interesante de la distribucin es el disponer de
los valores que toma la variable, informacin que a priori no conocamos.
El nmero de hijos en la muestra toma nicamente valores 0, 1, 2, 3, 4,
5. Se trata de una variable de tipo cuantitativo discreta. Como en el caso
de una variable cualitativa podramos detectar la moda y mediana de la
distribucin. La moda corresponde al valor 0, ya que el 44.8% de las
familias no tienen ningn hijo en el hogar. La mediana de la distribucin
es el hijo nico, ya que es en el valor 1 en donde se acumulan el 50% de
las observaciones. Se puede resaltar, adems, la importancia de los tres
primeros valores para describir el comportamiento de la muestra: el
93.3% de las familias tendra un nmero igual o inferior a dos hijos.


Un problema diferente se enfrenta cuando la variable toma diversos
valores numricos, pero con un nmero mayor de posibilidades. Pensemos en la
distribucin de la edad del perceptor principal de rentas de una familia
(sustentador principal) en la misma muestra de declarantes. En concreto, si
solicitsemos la distribucin de frecuencias en una muestra de 1460 familias,
para la variable Edad del sustentador principal, nos encontraramos ahora con la
distribucin del cuadro n 2.

Cuadro 2

EDAD del sust ent ador pr i nci pal
Val i d Cum
Val ue Fr equency Per cent Per cent Per cent
16, 00 1 , 1 , 1 , 1
17, 00 4 , 3 , 3 , 3
18,00 13 ,9 ,9 1,2

19, 00 9 , 6 , 6 1, 8
20, 00 20 1, 4 1, 4 3, 2
21, 00 18 1, 2 1, 2 4, 5
22, 00 33 2, 3 2, 3 6, 7
23, 00 34 2, 3 2, 3 9, 0
24, 00 37 2, 5 2, 5 11, 6
25, 00 36 2, 5 2, 5 14, 0
26, 00 42 2, 9 2, 9 16, 9
27, 00 33 2, 3 2, 3 19, 2
28, 00 31 2, 1 2, 1 21, 3
29, 00 33 2, 3 2, 3 23, 6
30, 00 32 2, 2 2, 2 25, 8
31, 00 27 1, 8 1, 8 27, 6
32, 00 34 2, 3 2, 3 29, 9
33, 00 45 3, 1 3, 1 33, 0
34, 00 31 2, 1 2, 1 35, 1
35, 00 32 2, 2 2, 2 37, 3
36, 00 31 2, 1 2, 1 39, 5
37, 00 26 1, 8 1, 8 41, 2
38, 00 31 2, 1 2, 1 43, 4
39, 00 31 2, 1 2, 1 45, 5
40, 00 25 1, 7 1, 7 47, 2

( Cont i nuaci n Cuadr o 2)

41, 00 34 2, 3 2, 3 49, 5
42, 00 27 1, 8 1, 8 51, 4
43, 00 34 2, 3 2, 3 53, 7
44, 00 31 2, 1 2, 1 55, 8
45, 00 40 2, 7 2, 7 58, 6
46, 00 32 2, 2 2, 2 60, 8
47, 00 35 2, 4 2, 4 63, 2
48, 00 23 1, 6 1, 6 64, 7
49, 00 20 1, 4 1, 4 66, 1
50, 00 28 1, 9 1, 9 68, 0
51,00 11 ,8 ,8 68,8
52, 00 34 2, 3 2, 3 71, 1
53, 00 32 2, 2 2, 2 73, 3
54, 00 28 1, 9 1, 9 75, 2
55, 00 21 1, 4 1, 4 76, 6
56, 00 25 1, 7 1, 7 78, 4
57, 00 30 2, 1 2, 1 80, 4
58, 00 38 2, 6 2, 6 83, 0
59, 00 25 1, 7 1, 7 84, 7
60, 00 15 1, 0 1, 0 85, 8
61, 00 15 1, 0 1, 0 86, 8
62, 00 12 , 8 , 8 87, 6
63, 00 18 1, 2 1, 2 88, 8
64, 00 11 , 8 , 8 89, 6
65, 00 17 1, 2 1, 2 90, 8
66, 00 14 1, 0 1, 0 91, 7
67, 00 12 , 8 , 8 92, 5
68, 00 20 1, 4 1, 4 93, 9
69, 00 10 , 7 , 7 94, 6
70, 00 9 , 6 , 6 95, 2

71, 00 6 , 4 , 4 95, 6
72, 00 8 , 5 , 5 96, 2
73, 00 5 , 3 , 3 96, 5
74, 00 7 , 5 , 5 97, 0
75, 00 8 , 5 , 5 97, 5
76, 00 4 , 3 , 3 97, 8
77, 00 1 , 1 , 1 97, 9
78, 00 5 , 3 , 3 98, 2
79, 00 5 , 3 , 3 98, 6
80, 00 5 , 3 , 3 98, 9
81, 00 5 , 3 , 3 99, 2
82, 00 5 , 3 , 3 99, 6
83, 00 1 , 1 , 1 99, 7
84, 00 1 , 1 , 1 99, 7
85, 00 1 , 1 , 1 99, 8
86, 00 1 , 1 , 1 99, 9
87, 00 1 , 1 , 1 99, 9
88, 00 1 , 1 , 1 100, 0
- - - - - - - - - - - - - - - - - - - -
Tot al 1460 100, 0 100, 0

Grfica 2
EDAD del sustentador principal
88
86
84
82
80
78
76
74
72
70
68
66
64
62
60
58
56
54
52
50
48
46
44
42
40
38
36
34
32
30
28
26
24
22
20
18
16
F
r
e
c
u
e
n
c
i
a
s

a
b
s
o
l
u
t
a
s
50
40
30
20
10
0



La lectura de esta distribucin ya no resulta tan cmoda como cuando la
variable toma un nmero escaso de valores. La creacin de la tabla sigue siendo
una ayuda para comprender el comportamiento de la variable (moda, mediana,
porcentajes acumulados hasta un determinado valor), pero resulta algo ms difcil
hacerse una idea general de la distribucin. La representacin grfica del
diagrama en barras (grfica 2) nos ayuda a simplificar la imagen, pero tambin
presenta un exceso de informacin. Uno de los principales objetivos de las

tcnicas estadsticas es facilitar la comprensin de la informacin numrica,
sacrificando volumen de informacin (menor precisin) por una mejor
comprensin de la misma (mayor eficiencia).



Histograma. Para tratar variables que toman gran cantidad de valores el
procedimiento usual es el de agrupar los valores en intervalos. Tomemos la
variable edad del sustentador principal con la que hemos trabajado en el
apartado anterior. De una manera arbitraria, podemos pensar en crear intervalos
de edad de 8 aos: de los 16 a los 24 aos, de los 24 a los 32, etc. En el cuadro 3
se recoge el resultado de esta agrupacin de la variable y en la grfica 3, la
representacin correspondiente de las frecuencias relativas de cada intervalo.

Aunque ahora no dispone de informacin sobre el nmero de individuos
de la muestra que tienen una edad concreta, los rasgos generales de la
distribucin de la edad es ms clara.

Cuadro 3

Val i d Cum
EDAD Frequency Percent Percent Percent

16 a 24 169 11, 6 11, 6 11, 6
24 a 32 268 18, 4 18, 4 29, 9
32 a 40 252 17, 3 17, 3 47, 2
40 a 48 256 17, 5 17, 5 64, 7
48 a 56 199 13, 6 13, 6 78, 4
56 a 64 164 11, 2 11, 2 89, 6
64 a 72 96 6, 6 6, 6 96, 2
72 a 80 40 2, 7 2, 7 98, 9
80 a 88 16 1, 1 1, 1 100, 0
- - - - - - - - - - - - - - - - - - - - -
Tot al 1460 100, 0 100, 0




Grfica 3
EDAD del sustentador principal
80 - 88 72 - 80 64 - 72 56 - 64 48 - 56 40 - 48 32 - 40 24 - 32 16 - 24
300
200
100
0



La representacin realizada para la variable Edad del sustentador
principal se denomina histograma. Aunque se parece al diagrama de barras,
se diferencian en que en el diagrama, la altura de la barra es proporcional a la
frecuencia, mientras que en el histograma es el rea del rectngulo la que es
proporcional a la frecuencia. Formalmente pueden establecerse otras
diferencias entre el diagrama en barras y el histograma. En el diagrama, cada
barra representa la frecuencia de un atributo de la variable, mientras que en un
histograma, cada uno de los rectngulos representa las frecuencias de
diversos valores de la variable (intervalos de valores). Adems, debe tenerse
en cuenta que en los histogramas, cuando aparece un intervalo con frecuencia
cero, no se omite por ello su representacin, mientras que en un diagrama de
barras no se incluye ningn espacio para aquellos valores con frecuencia nula.


En el histograma se representan las frecuencias de la variable definida en
intervalos. El rea del rectngulo es proporcional a la frecuencia en el intervalo.


El histograma se construye de manera que el rea correspondiente al
rectngulo que se dibuja sobre el intervalo sea proporcional a su frecuencia.
Carecera de sentido proceder como en el diagrama de barras. Puesto que los
intervalos en los que se puede dividir cualquier variable continua son de una

amplitud y nmero arbitrario, si dibujsemos barras con alturas proporcionales a
las frecuencias para cada intervalo, los resultados seran absurdos.

Haciendo el rea proporcional a la frecuencia relativa para el intervalo i-
simo se tendr:
Area base altura
n
n
i i i
i
*

donde la base es la amplitud del intervalo y, por tanto, la altura del rectngulo es
igual a:

altura
n
n base
i
i
i

1


Si un intervalo tiene una gran amplitud tender en principio a ofrecer un
mayor nmero de frecuencias, no obstante en el histograma se seguir
manteniendo un rea total proporcional. La altura del rectngulo, de acuerdo con
su definicin, se conoce como densidad de frecuencia.

Para identificar cada intervalo se emplea en ocasiones sus puntos medios,
denominados marcas de clase:

2
intervalo del inferior Lmite intervalo del superior Lmite
clase de marca
+


En muchos histogramas es la marca de clase el valor que identifica los
intervalos.

En general, se emplea el histograma: (i) cuando se trata de variables
que contienen muchos valores diferentes; (ii) cuando tiene sentido construir
intervalos, agrupando valores adyacentes.


Cmo trabajar con los histogramas. El histograma pretende facilitar la
comprensin de la forma de la distribucin de la variable.

Al estudiar un histograma se debe estar dispuesto a descubrir cules son
los valores ms frecuentes, los valores que ocurren con poca frecuencia, la
simetra o asimetra de la distribucin, su dispersin y forma.

La moda y la mediana que utilizbamos para describir una variable
cualitativa pueden usarse con la misma definicin sobre las variables

cuantitativas. La moda es el valor con mayor frecuencia. La mediana es aquel
valor que (ordenada la variable de menor a mayor) deja por debajo de s mismo
el 50% de las observaciones. Estos estadsticos pueden calcularse sobre la
distribucin original de la variable, aunque puede ser recomendable obtener la
moda y la mediana en los intervalos de la variable. Existen frmulas para obtener
la moda y la mediana a partir de la informacin agregada en intervalos, pero es
tambin correcto detectar la moda y mediana en el propio intervalo y hablar, por
ejemplo, del intervalo modal cuando en una distribucin se detecta un intervalo
con un rea (una frecuencia) mayor que los restantes.

Uno de los problemas de los histogramas es decidir con cuntos
intervalos construirlos y si los intervalos deben ser todos de la misma amplitud.
Normalmente los histogramas se construyen con intervalos de igual amplitud,
de manera que o bien se define el nmero de intervalos y de ah se deduce (a
partir del rango de la variable) la amplitud de cada intervalo, o bien se decide
arbitrariamente la amplitud del intervalo y luego se deduce el nmero de
intervalos. Estas decisiones estn sujetas a una cierta arbitrariedad. Una regla
frecuentemente utilizada es la de definir intervalos de la misma amplitud, en
un nmero igual al entero ms prximo a n .

Es normal definir intervalos de diferente amplitud en las colas de la
distribucin (valores superiores e inferiores de la distribucin), en donde adems
se suelen emplear intervalos abiertos. El intervalo inferior se define tomando los
valores por debajo de una cantidad (menos de __ ) y el intervalo superior, por
encima de una cantidad (ms de __ ). El propsito de estos intervalos abiertos es
evitar histogramas en los que pesen demasiado la representacin de los valores
extremos, que pueden estar muy alejados del comportamiento comn.


Ejemplo 2. Efecto del nmero de intervalos en la construccin del
histograma. La decisin sobre el nmero de intervalos que deben tomarse
para construir un histograma puede ser decisiva para la comprensin de
la distribucin. Como ejemplo se ofrecen en los grficos 4 a 7 cuatro
histogramas de la variable ingresos familiares de una muestra de familias
de la Encuesta de Presupuestos Familiares (EPF-90). En la grfica 4 se
ofrece un histograma basado en 27 intervalos (nmero seleccionado
segn criterios formales por un programa informtico de estadstica),
siendo la amplitud de cada intervalo de 20000 ptas. La grfica 5 se basa
en 10 intervalos (amplitud 54000), la grfica 6 en 25 intervalos (amplitud
21600) y, finalmente, la grfica 7 con 50 intervalos de amplitud igual a
10800, cada uno de ellos.


Grfica 4 Grfica 5
Ingresos percibidos. Muestra EPF
5400000
5000000
4600000
4200000
3800000
3400000
3000000
2600000
2200000
1800000
1400000
1000000
600000
200000
400000
300000
200000
100000
0

Ingresos percibidos. Muestra EPF
5230000
4690000
4150000
3610000
3070000
2530000
1990000
1450000
910000
370000
600000
500000
400000
300000
200000
100000
0


Grfica 6 Grfica 7
Ingresos percibidos. Muestra EPF
5392000
4744000
4096000
3448000
2800000
2152000
1504000
856000
208000
300000
200000
100000
0

Ingresos percibidos. Muestra EPF
5014000
4474000
3934000
3394000
2854000
2314000
1774000
1234000
694000
154000
200000
100000
0



Observe que ni siquiera las grficas 4 y 6 (con 27 y 25 intervalos)
proporcionan una imagen idntica, detectndose una moda ms sealada en el
primer histograma. En la grfica 5 (con 10 intervalos) se recoge la imagen bsica
de la distribucin, siendo incluso suficiente para captar las grandes lneas de la
misma, caracterizada por ser una distribucin asimtrica hacia la derecha. Sin
embargo, si uno est interesado en detectar posibles modas y submodas (o
modas relativas) parecera ms adecuado el histograma basado en 50
intervalos.

Cuando se trabaja con histogramas, resulta recomendable experimentar
con el nmero de intervalos.



Ejemplo 3. Distribucin de los porcentajes de gasto en alimentacin y
vestido. En este ejemplo se consideran dos partidas del gasto en
consumo de una muestra de familias espaolas. Se van a analizar los
histogramas y las distribuciones de frecuencias de las proporciones de
gasto del consumo en alimentos y en vestido y calzado. Cada uno de
estos agregados tienen caractersticas distintas, que se reflejan en las
formas de sus distribuciones.


La muestra que seleccionamos corresponde a 271 hogares,
provenientes de la Encuesta Continua de Presupuestos familiares
(ECPF). La ECPF es una encuesta realizada por el INE desde el primer
trimestre de 1985, efectundose cada trimestre desde ese ao. La
encuesta recoge el origen y cuanta de las rentas familiares y su
concrecin en gastos de consumo (gastos trimestrales de ms de 200
bienes). La unidad bsica de la encuesta son los hogares, de los que se
seleccionan alrededor de 3200 de manera aleatoria, renovndose cada
trimestre el 12.5% de la muestra (como consecuencia de ello, un hogar
permanece en la encuesta como mximo ocho trimestres). Las 271
familias de nuestro ejemplo son las que cumplen su ltimo trimestre en la
encuesta en el cuarto trimestre de 1991.

Las variables son proporciones de gasto (en alimentacin, y en vestido y
calzado). Estas se han calculado, para cada bien y en cada familia como:

100
hogar del total consumo
i bien el en hogar del gasto
i bien el en gasto del proporcin


En las grficas 8 y 9 (alimentacin y vestido y calzado,
respectivamente) aparecen conjuntamente las distribuciones de las
proporciones de gasto y sus histogramas. Estos resultados se han
obtenido utilizando un programa informtico de estadstica y el nmero
de intervalos en los que deban dividirse las variables ha sido calculado
por el propio programa. En los resultados se ofrecen el histograma (con
las frecuencias relativas en el eje horizontal) y la distribucin de
frecuencias: FREQ. es la frecuencia absoluta, CUM. FREQ. la frecuencia
absoluta acumulada, PCT. la frecuencia relativa y CUM. PCT. la
frecuencia relativa acumulada. Los intervalos se definen por medio de su
marca de clase; recuerde que la marca de clase de un intervalo es su
punto medio, de manera que un valor de 4 al lado de uno de los
rectngulos del histograma indica que el intervalo correspondiente est
entre 0 y 8.



La primera impresin que se obtiene de los dos histogramas es la
de su diferente forma. Ambas son distribuciones unimodales (con un
intervalo definiendo la mxima frecuencia), aunque la distribucin
correspondiente a alimentacin presenta esa moda en el centro de los
valores que toma la variable, mientras que vestido y calzado tiene la
moda bastante desplazada del centro de la variable, muy cerca de sus

valores mnimos. Las distintas formas de las distribuciones son
importantes cuando se trata de describir el comportamiento de una
variable. Aunque ms adelante volveremos sobre ello, puede ya retener
que un tipo de distribucin como la de alimentos se conoce en estadstica
como distribucin simtrica, mientras que la de vestido y calzado se
conoce como distribucin asimtrica por la derecha, al tener muchos ms
valores alejados de la moda por la parte superior de la variable (una
distribucin asimtrica por la izquierda tendra la imagen contraria).


Qu nos aporta la informacin de las distribuciones?
Centrmonos en el gasto en alimentacin. El intervalo mnimo de la
variable tiene una marca de clase del 4% y el intervalo ms alto es igual
al 84%. El intervalo ms frecuente, que definira la moda, se sita en el
28% del gasto, cifra que identificara el 23.99% de las familias de la
muestra. Al tratarse del consumo de alimentos, parece que sera lgico
esperar que el porcentaje de gasto que stos representan en un hogar no
fuera muy elevado. La moda, con un valor alrededor del 28%, nos ofrece
una buena referencia de cul puede ser la proporcin esperada. Sin
embargo, en la distribucin destacan las observaciones que se sitan en
la parte superior de la variable. El porcentaje de familias que dedican
algo ms del 50% de su presupuesto a la alimentacin resulta
significativo. En concreto, por encima del intervalo cuya marca de clase
es 44 (40% a 48%) se sita el 100-90.04=9.96%, es decir que alrededor
de un 10% de las familias, consumen ms del 48% de su gasto total en
alimentacin. La mayora de hogares, sin embargo, limitan este
porcentaje, destacando que el 60.52% de los hogares tiene un porcentaje
de gasto inferior al 32%.


La descripcin de la segunda variable puede hacerse en trminos
parecidos. La moda, con un valor del 5%, nos define el valor ms
frecuente. La distribucin de este tipo de gasto es diferente a la de
alimentacin. El recorrido de la variable es bastante menor, situndose
tericamente entre el 0 y el 47.5% (valores inferior y superior del primer y
ltimo intervalo, respectivamente). El intervalo inferior tiene como punto
medio 0, y debe interpretarse como definido entre 0 y 2.5%, al no ser
posible definir un porcentaje de gasto negativo (intervalo entre 2.5 y
2.5). En este intervalo se sita el 22.88% de los hogares, de manera que
destaca de la distribucin el que el 50.18% de los hogares gasten menos
del 7.5% de su consumo trimestral en vestido y calzado. Los valores
superiores de la variable, sin embargo, no muestran frecuencias tan
altas. Por encima del 25% del gasto (y hasta un mximo del 47.5%) se
encontraran nada ms que alrededor del 7% de los hogares.



Grfica 8
ECPF. I V t r i me s t r e 1 9 9 1
FREQ.
CUM.
FREQ. PCT.
CUM.
PCT.
1 2 1 2 4 . 4 3 4 . 4 3
3 1 4 3 1 1 . 4 4 1 5 . 8 7
5 6 9 9 2 0 . 6 6 3 6 . 5 3
6 5 1 6 4 2 3 . 9 9 6 0 . 5 2
5 1 2 1 5 1 8 . 8 2 7 9 . 3 4
2 9 2 4 4 1 0 . 7 0 9 0 . 0 4
1 3 2 5 7 4 . 8 0 9 4 . 8 3
8 2 6 5 2 . 9 5 9 7 . 7 9
1 2 6 6 0 . 3 7 9 8 . 1 5
2 2 6 8 0 . 7 4 9 8 . 8 9
3 2 7 1 1 . 1 1 1 0 0 . 0 0 8 4
7 6
6 8
6 0
5 2
4 4
3 6
2 8
2 0
1 2
4
0 1 0 2 0 3 0
Pr o p o r c i n d e g a s t o e n a l i me n t a c i n
Fr e c u e n c i a s r e l a t i v a s




Grfica 9
ECPF. I V t r i me s t r e 1 9 9 1
FREQ.
CUM.
FREQ. PCT.
CUM.
PCT.
6 2 6 2 2 2 . 8 8 2 2 . 8 8
7 4 1 3 6 2 7 . 3 1 5 0 . 1 8
5 2 1 8 8 1 9 . 1 9 6 9 . 3 7
3 7 2 2 5 1 3 . 6 5 8 3 . 0 3
1 4 2 3 9 5 . 1 7 8 8 . 1 9
1 2 2 5 1 4 . 4 3 9 2 . 6 2
1 4 2 6 5 5 . 1 7 9 7 . 7 9
1 2 6 6 0 . 3 7 9 8 . 1 5
4 2 7 0 1 . 4 8 9 9 . 6 3
1 2 7 1 0 . 3 7 1 0 0 . 0 0 4 5
4 0
3 5
3 0
2 5
2 0
1 5
1 0
5
0
0 1 0 2 0 3 0
Pr o p o r c i n g a s t o e n v e s t i d o y c a l z a d o
Fr e c u e n c i a s r e l a t i v a s



Ejemplo 4. La influencia del salario mnimo en la desigualdad
salarial. El impacto que tiene el salario mnimo sobre la distribucin de
los salarios ha sido analizado con datos de la economa portuguesa por
Rute (1997). La legislacin sobre salario mnimo impone un efecto de tipo
igualitario en la estructura de salarios, al imponer restricciones en los

salarios pagados por los empleadores. En su trabajo discute diversos
histogramas que muestran la distribucin de los salarios en distintos
aos. El anlisis de los mismos se dirige especialmente a la deteccin de
los picos (modas o submodas) del salario mnimo, clarificando adems la
estructura de salarios que quiere describirse. En todos los histogramas
se seala la posicin de los salarios mnimos correspondientes a la
agricultura y al conjunto de actividades econmicas, excluyendo en este
caso la agricultura y el trabajo domstico (estas posiciones se identifican
en el eje horizontal con las letras A y M, respectivamente).

En la grfica 18 se muestra el histograma de los salarios del ao
1983. En el mismo puede detectarse una moda en el salario mnimo
agrcola y una moda, ms importante, en el salario mnimo del resto de la
economa. Hasta 1986 (grfica 19), las relaciones econmicas se
endurecieron, contrayndose el nivel de empleo y aumentando el cierre
de empresas. La legislacin sobre salario mnimo hizo que ste fuera
mayor en relacin al salario medio en la economa. Esto tuvo un efecto
igualitario sobre la distribucin, al acercar los salarios ms bajos a los del
resto de trabajadores. Este efecto se dio tambin sobre los salarios
inferiores al mnimo legal, que se vieron arrastrados por el aumento del
salario mnimo. El histograma de los salarios del ao 1992 se muestra en
la grfica 20. En ese ao no se permitieron salarios legales por debajo
del mnimo, el pico correspondiente todava se detecta, pero la
concentracin por encima del mnimo aumenta.

Los picos detectados en las distribuciones ilustran la importancia
de la legislacin sobre salario mnimo y, en consecuencia, la importancia
de los factores institucionales en la distribucin de los salarios.

Grfica 18

Fraction
salarios base 1983
3000
39990
0
.078947
3000 A M


Grfica 19
Fraction
salarios base 1986
4000 68992
0
.102424
4000 A M



Grfica 20
Fraction
salarios base 1992
117000 176900
0
.101049
A=M



Las variables de tipo cuantitativo permiten un tratamiento ms completo
que el visto para las variables cualitativas. Adems de las distribuciones de
frecuencias, sus representaciones grficas y estadsticos como la moda y la
mediana, es posible calcular otras medidas numricas que de manera sencilla y
sinttica faciliten informacin de la distribucin de la variable. En el siguiente
captulo se van a discutir algunos de estos estadsticos.


CAPTULO III. ESTADSTICOS DESCRIPTIVOS de una VARIABLE
CUANTITATIVA



De manera tradicional se distingue entre los estadsticos bsicos que
intentan describir la posicin de la variable y los que miden su dispersin.
Tambin se presentan en un grupo diferenciado los estadsticos de forma, que
describen la asimetra o apuntamiento de la distribucin. Mantendremos aqu esta
distincin.

Denotaremos la variable a describir como X y a las observaciones de la
misma, desde i igual a 1 hasta n, como X
i
.



Medidas de posicin central


Moda y Mediana. Entre las medidas bsicas de posicin central se encuentran la
moda y la mediana, que ya han sido utilizadas en el anterior captulo.

La moda es aquel valor que presenta una frecuencia mayor. La mediana
es aquel valor que se sita en el punto medio de la distribucin, cuando los
valores estn ordenados de menor a mayor.

Supongamos que disponemos de los das de vacaciones que han
disfrutado nueve turistas: 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular la
mediana de estas observaciones, primero deben ordenarse los valores de menor a
mayor: 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el
valor que se sita en el centro de la distribucin, que en este caso sera el valor
17, que deja cuatro observaciones por debajo de l y cuatro observaciones por
encima. Si n, el nmero de observaciones, es impar, como en este ejemplo,
siempre ser inmediato detectar el valor de la mediana; bastar con localizar el
valor situado en el lugar ( ) 2 1 + n .

En el ejemplo anterior, con nueve observaciones, la mediana es el valor
situado en el quinto lugar. Si el nmero de observaciones es par esta regla
necesita modificarse. Supongamos que tenemos diez observaciones: 13, 14, 15,
16, 17, 25, 26, 26, 29, 31. Ninguna de ellas queda ahora exactamente en el centro
de la distribucin. El valor 17 deja por debajo cuatro observaciones y por encima
cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el
caso de tener un nmero n de observaciones par, se puede considerar que la

mediana es el promedio de estos dos valores: ( ) 21 2 25 17 + . Una posible
regla, cuando el nmero de observaciones es par es promediar los valores
situados en las posiciones 2 n y ( ) 1 2 + n . No obstante, existen tambin otras
formas de determinar el valor concreto de la mediana.

Otras medidas de uso comn son la media (aritmtica y geomtrica) y los
cuartiles y percentiles (stos ltimos como medidas generales de posicin).


Media Aritmtica: Como estadstico de posicin central se distingue de la
mediana en que utiliza en su clculo todas las observaciones de la muestra. Su
frmula para una variable X es la siguiente:
x
X
n
i
i
n

1


Es decir, la suma de los valores de todas las observaciones de la variable
dividida por el nmero total de observaciones.

La frmula de la media se modifica si de trabaja con datos agrupados,
que provienen de una distribucin de frecuencias. Entonces se tienen los distintos
valores que toma la variable y la frecuencia con la que lo hacen:

X
1
n
1
X
2
n
2
X
3
n
3
M M
X
p
n
p

En estas circunstancias, la media se expresa (para p valores diferentes)
como:
x
n X
n
i i
i
p

1


Las dos expresiones de la media son equivalentes, puesto que en ambos
casos en el numerador aparece la suma de todos los valores de la variable.



Ejemplo 1. A una muestra de 100 turistas de una zona se les
pregunta cuntas veces la han visitado. La distribucin de la variable se
muestra en el siguiente cuadro. Se desea calcular el valor medio y la
mediana de la distribucin.


El valor medio ser:
87 , 1
3 0 4 15 30 48
6 3 5 0 4 4 3 15 2 30 1 48

+ + + + +
+ + + + +
x

Dado que hay 100 observaciones (nmero par), la mediana ser
el promedio de los valores en las posiciones 50 y 51. En la distribucin
de frecuencias acumuladas las dos posiciones corresponden a 2 visitas,
que ser por tanto la mediana de la distribucin.


Ejemplo 2. En ocasiones la informacin disponible de una variable
est nicamente en intervalos. Por ejemplo, la informacin sobre el
nmero de das de estancia en el lugar de vacaciones puede presentarse
agrupada en intervalos:


Si se desea conocer los das medios de estancia, se calcula la media
tomando como valores de la variable las marcas de clase (los puntos medios de
los lmites de cada intervalo: 4, 11, 18 y 26):

3 , 8
24 172 2422 1991
26 24 18 172 11 2422 4 1991

+ + +
+ + +
x

Tambin para la mediana debe aplicarse alguna regla especial. La
mediana debe estar en el intervalo 8-14. Si se quiere dar un valor concreto se
aplica la siguiente frmula:
amplitud
n
N
n
L Mediana
intervalo
inferior
inferior

+
2

Nmero visitas 1 2 3 4 5 6
Frecuencia absoluta 48 30 15 4 0 3
Frecuencia
acumulada
48 78 93 97 97 100
Das de estancia 1-7 8-14 15-21 22-30
Frecuencia absoluta 1991 2422 172 24

donde:

inferior
L lmite inferior del intervalo que acumula el 50% de
observaciones.

inferior
N frecuencia acumulada hasta el intervalo anterior al que contiene
la mediana.

intervalo
n frecuencia absoluta del intervalo que contiene la mediana.
amplitud amplitud del intervalo que contiene la mediana.

En nuestro ejemplo:
8 , 8 6
2422
1991
2
4609
8

+ Mediana


Propiedades de la media

(1) Como estadstico de posicin central la media tiene como principal
caracterstica la siguiente:
( ) X x
i
i
n

0
1

Es decir, la suma de las desviaciones de los valores con respecto a la
media es igual a cero.

(2) Si a los valores de la variable se les suma una constante ( ) c X
i
+ , la
media de los valores transformados se incrementa en esa cantidad:
x
c X
n
c X
n
nc X
n
c
X
n
c x
c X
i
i
n
i
n
i
i
n
i
i
n
i
i
n
+

+
+ +

( )
1 1 1 1 1


(3) Si los valores de la variable se multiplican por una constante ( ) c X
i
,
la media de los valores transformados es la media de la variable
original multiplicada por la misma constante:
x
c X
n
c X
n
c x
cX
i
i
n
i
i
n



1 1
.



Media ponderada. Es frecuente trabajar tambin con la media ponderada, en la
que los valores promediados son ponderados mediante un peso determinado. Si
tenemos p valores distintos de la variable X
i
y a cada uno de ellos se le da un
peso w
i
, la media ponderada se define como:

p
i
i
p
i
i i
w
w
X w
x
1
1


Si, por ejemplo, las observaciones de una variable se ponderan por sus
frecuencias relativas: n n w
i i
, es decir, por la importancia relativa de cada
valor en la distribucin, se tendra (suponiendo p valores distintos):

n
X n
n
X n
n
n
X
n
n
x
p
i
i i
p
i
i
p
i
i i
p
i
i
p
i
i
i
w


1
1
1
1
1


que es la frmula que hemos empleado para la media en el caso de datos
agrupados.

En ocasiones, la ponderacin tiene que ver con el peso en la poblacin de
las distintas observaciones. Suponga, por ejemplo, que dispone de la renta
familiar per capita mensual de tres familias pertenecientes cada una de ellas a
uno de los tres municipios de una regin. Las rentas son de 2000, 2000 y 1000
euros y los tamaos de los municipios son: 10000, 20000 y 1000000 habitantes,
respectivamente. Si se le pidiese estimar la renta familiar per capita media para
toda la regin una opcin directa sera la siguiente:
67 , 1666
3
1000 2000 2000

+ +
x

El inconveniente de este clculo es que no tiene en cuenta que cada
familia representa un municipio de diferente tamao. Resultara lgico utilizar
una media ponderada, donde la renta de cada familia fuera representativa de
todas las familias de su municipio:
13 , 1029
1000000 20000 10000
1000000 1000 20000 2000 10000 2000

+ +
+ +
x


Tiene sentido ponderar, porque cada observacin es representativa de un
nmero de familias distinto.

Imagine, por ejemplo, que la informacin censal le permite conocer la
distribucin de una poblacin en zonas rurales y urbanas (60% y 40%). El
resultado de una muestra aleatoria simple no tiene por qu respetar esta
distribucin, especialmente si el tamao muestral no es muy elevado. Una
alternativa podra ser seleccionar una m.a.s. y ponderar las observaciones segn
provengan de una zona rural o urbana. Lo normal, en este caso, sera calcular dos
medias, una con las
rural
n observaciones rurales y otra con las
urbana
n
observaciones urbanas, calculando la media global como:

urbana rural
x x x 40 , 0 60 , 0 +

Esto sera lo mismo que ponderar las observaciones de manera diferente,
segn sea su origen rural (
rural
n ) o urbano (
urbana
n ), empleando como
ponderaciones de la zona rural
rural
n / 60 , 0 y de las urbanas
urbana
n / 40 , 0 :

( ) ( )

+
+ + + + + + +

urbana
urbana
rural
rural
urbana n urbana urbana
urbana
rural n rural rural
rural
w
n
n
n
n
x x x
n
x x x
n
x
40 , 0 60 , 0
40 , 0 60 , 0
, , 2 , 1 , , 2 , 1
K K

( ) ( ) + + + + + + +
urbana n urbana urbana
urbana
rural n rural rural
rural
x x x
n
x x x
n
, , 2 , 1 , , 2 , 1
40 , 0 60 , 0
K K

,
_

+ + +
+

,
_

+ + +

urbana
urbana n urbana urbana
rural
rural n rural rural
n
x x x
n
x x x
, , 2 , 1 , , 2 , 1
40 , 0 60 , 0
K K

urbana rural
x x 40 , 0 60 , 0 +


Media ponderada y muestreos complejos. Comentaremos a continuacin el
empleo de la media ponderada cuando se dispone de informacin proveniente de
muestreos complejos. Cuando se trabaja con informacin muestral se dispone,
por ejemplo para una variable, de los valores de n individuos. Si el muestreo
realizado es del tipo denominado muestreo aleatorio simple (m.a.s.) cada uno de
los individuos de la poblacin ha tenido igual probabilidad de ser seleccionado
para formar parte de la muestra. Supongamos que el tamao de la poblacin es de

N 100 y se toma una muestra aleatoria simple de 20 observaciones. La
probabilidad de aparecer en la muestra es la misma para todos los individuos e
igual a 20/100. Otra manera de expresar esta informacin es decir que cada
individuo de la muestra, al ser seleccionado, representa a cinco individuos de la
poblacin (100/20, ya que cada uno de los 20 elementos de la muestra representa
por igual a 5 individuos de la poblacin). Si queremos calcular la media de la
variable podramos plantearnos ponderar cada observacin por el nmero de
elementos a los que representa en la poblacin:

20
...
5 20
5 ... 5 5 5
20 3 2 1 20 3 2 1
1
1
X X X X X X X X
w
X w
x
p
i
i
p
i
i i
w
+ + + +

+ + + +



El resultado, como puede comprobarse, no modifica el que se obtendra
si empleramos la frmula de x , sin ponderar las observaciones, ya que al ser las
ponderaciones iguales las frmulas son equivalentes.

Sin embargo muchas muestras se elaboran de manera que cada elemento
representa un nmero distinto de individuos en la poblacin. Para mejorar la
representatividad de la muestra y tambin para reducir los costes, muchas
encuestas modifican el esquema de m.a.s. de manera que los individuos de la
poblacin ya no tienen la misma probabilidad de ser seleccionados. La existencia
de diversas categoras (conglomerados o estratos) en la poblacin, se suele
aprovechar para seleccionar las muestras con el mnimo nmero de individuos y
la mxima representatividad. Es normal que las grandes encuestas ofrezcan junto
a la informacin de inters de los individuo un factor de elevacin poblacional,
que indica a cuntos elementos representa ese individuo a nivel de la poblacin.



El factor de elevacin poblacional indica a cuntos individuos de la poblacin
representa cada uno de los individuos de la muestra.

El factor de elevacin poblacional se calcula como la inversa de la probabilidad
de ser seleccionado en la muestra y debera utilizarse como peso del individuo al
calcular los estadsticos representativos de la poblacin.

Si se trabaja con un muestreo aleatorio simple, para una poblacin de N
individuos y una muestra de tamao n, cada uno de los elementos muestrales ser
representativo de N/n individuos en la poblacin. Por tanto, cada individuo
muestral tendra el mismo factor de elevacin poblacional. Si el diseo muestral

es ms complejo, cada uno de los individuos tendr un factor de elevacin
poblacional distinto.


Suponga, por ejemplo, que debe extraer una muestra de tamao 10 de
una poblacin dividida en dos clases, la primera consta de 100 individuos y la
segunda de 40. Rechaza hacer un m.a.s. puesto que en ese caso podra ocurrir que
las diez observaciones correspondieran a individuos de la primera clase,
perdindose con ello la informacin del segundo grupo. Decide hacer dos
selecciones aleatorias, una en cada grupo. Por cuestiones de coste se seleccionan
6 elementos en la primera subpoblacin y 4 en la segunda. Supongamos que los
resultados son los que aparecen en el cuadro 1. En la primera fila aparece la clase
a la que pertenecen las observaciones, en la segunda los valores que ha tomado la
variable.

Cuadro 1
Muestra: Clase 1 Clase 2
Variable: 110 120 130 140 150 160 70 80 90 95

Si calculase la media nicamente a partir de los valores muestrales, el
resultado es el siguiente:
5 , 114
10
95 90 130 120 110
1

+ + + +

K
n
X
x
n
i
i


La alternativa es ponderar las observaciones teniendo en cuenta la
probabilidad de seleccin. Cada uno de los elementos del primer grupo tena una
probabilidad igual a 6/100 de ser seleccionado, mientras que los del segundo
grupo tenan una probabilidad de 4/40. La propuesta es multiplicar cada valor por
la inversa de esa probabilidad (16,67 y 10, respectivamente), con el siguiente
resultado:
( ) ( )
36 , 120
140
95 80 70 10 160 120 110 67 , 16
1
1

+ + + + + + +

K K
n
i
i
n
i
i i
w
w
X w
x

Cuando se pondera una observacin por la inversa de la probabilidad de
seleccin, se est multiplicando esa observacin por lo que representa al nivel de
la poblacin.



Ejemplo 3. Los resultados que se obtienen segn se utilicen o no
los factores de elevacin pueden implicar una diferencia relevante.
Basndonos en informacin de 21155 familias de la EPF-90 se ha
calculado la media del gasto familiar, empleando y sin emplear los
factores de ponderacin que elabora el INE y que acompaan a los
resultados de la encuesta. En el primer caso, la media es igual a
2527105, mientras que sin ponderar las observaciones, la media es de
2419553. Si al analizar una encuesta no dispone de los factores de
elevacin o desconoce las probabilidades de seleccin de los individuos,
puede calcular la media no ponderada. No obstante, si su anlisis quera
referirse a toda la poblacin, sus conclusiones pueden verse limitadas.


Representatividad de la media. La media es muy sensible a la presencia en la
muestra de observaciones extremas. Cuando existen observaciones extremas
(tambin llamadas atpicas), la mediana o la moda son buenas alternativas al
empleo de la media, al tratarse de estadsticos que no son tan sensibles a la
presencia de valores en los lmites de la distribucin.

La siguiente representacin ejemplifica de una manera visual y clara el
impacto de una sola observacin extrema sobre la media.

__X
1
____X
2
__X
3
_____X
4
_ x ______X
5
___X
6
_________X
7
__________________
_


__X
1
____X
2
__X
3
_____X
4
_________X
5
_ x X
6
_______________________X
7
____
_


La media es el centro de gravedad del conjunto de valores, por lo que el
desplazamiento de una nica observacin hacia la derecha arrastra el valor medio
en esa direccin. Sin embargo, la mediana de la distribucin no se alterar. En
ambos casos X
4
sera la mediana, el valor que deja por debajo igual nmero de
observaciones que por encima de l.

La media es un estadstico muy sensible a la existencia de valores extremos. La
moda y la mediana son una buena alternativa cuando existen observaciones
atpicas, al verse menos afectadas por su presencia.



Media cortada (Trimmed Mean). Algunos programas estadsticos incorporan
un clculo de la media menos sensible a las observaciones extremas. La media
cortada es un clculo ms robusto de la posicin central de las observaciones.
El calificativo de robusto debe entenderse en este caso como una menor
sensibilidad, como medida de posicin, a los valores atpicos. La media cortada
se calcula segn la expresin conocida de la media, pero suprimiendo un nmero
previo de observaciones en las colas superior e inferior de la variable. Pueden
suprimirse bien un nmero concreto de observaciones (1, 2, 3, , en cada una
de las colas) o bien un porcentaje del tamao de la muestra (0,5%, 1%, , en
cada cola). Si existen observaciones atpicas que corrompen el clculo de la
media, el empleo de la media recortada puede ser una solucin.


Ejemplo 4. Gasto familiar medio en energa elctrica. Una muestra del
impacto que tienen las observaciones extremas nos lo ofrece el anlisis
de una variable que puede obtenerse de la EPF-90. Se ha construido una
variable que pone el gasto en energa elctrica en relacin al gasto
familiar total. La variable, que denominaremos intensidad del consumo
elctrico (ice) se calcula como:
ice
Gasto familiar en electricidad
Gasto familiar total
100

La variable se ha construido como un porcentaje, multiplicando el
cociente de ambas cantidades por 100. En la grfica 1, adems del
histograma aparecen las frecuencias, frecuencias acumuladas,
frecuencias relativas y frecuencias relativas acumuladas. La mayor parte
de la distribucin se acumula en los intervalos con puntos medios de 1.25
y 3.75, presentndose en ellos prcticamente el 90% de las
observaciones. El histograma queda sin embargo distorsionado por la
necesidad de representar valores extremos, del orden del 20% hasta el
46% de gasto.


Grfica 1

FREQ.
CUM.
FREQ. PCT.
CUM.
PCT.
0 0 0.00 0.00
0 0 0.00 0.00
13357 13357 63.41 63.41
5562 18919 26.40 89.81
1323 20242 6.28 96.09
449 20691 2.13 98.22
180 20871 0.85 99.07
90 20961 0.43 99.50
42 21003 0.20 99.70
18 21021 0.09 99.79
14 21035 0.07 99.85
8 21043 0.04 99.89
9 21052 0.04 99.93
7 21059 0.03 99.97
0 21059 0.00 99.97
2 21061 0.01 99.98
2 21063 0.01 99.99
0 21063 0.00 99.99
2 21065 0.01 100.00
1 21066 0.00 100.00
0 21066 0.00 100.00
EEINMIDPOINT
46.25
43.75
41.25
38.75
36.25
33.75
31.25
28.75
26.25
23.75
21.25
18.75
16.25
13.75
11.25
8.75
6.25
3.75
1.25
-1.25
-3.75
FREQUENCY
0 2000 4000 6000 8000 10000 12000 14000



Vamos a comprobar el efecto que las observaciones extremas
tienen en la media. En el cuadro 2 aparece, en primer lugar, la media
calculada para todas las observaciones (21066 familias) y a continuacin
diversas medias cortadas: suprimiendo 1 observacin, 2, 3, 10 (en cada
una de las colas) y 105 (el 0.5% de cada una de las colas). El porcentaje
de gasto pasa de un 2.6% a un 2.52% cuando en el clculo se suprimen
210 individuos con valores extremos. Aunque el efecto no es importante,
muestra la influencia de unas pocas observaciones en la descripcin del
conjunto.


Cuadro 2
Media 2.6010
Medias cortadas
Observaciones suprimidas
(en cada cola):

1 2.5992
2 2.5974
3 2.5957
10 2.5867
105 2.5219



Media Geomtrica. La media geomtrica de n observaciones se define como:

g X X X
n
n

1 2
...

Si se emplea la notacin para valores agrupados segn su frecuencia, la
media geomtrica se define como:

g X X X
n n
p
n
n
p

1 2
1 2
...

La media geomtrica debe emplearse cuando se quieren promediar
porcentajes, tasas, tipos de inters, nmeros ndices, etc., es decir valores que
representan variaciones acumulativas, de un perodo respecto al anterior.

Como medida de posicin central, la media geomtrica es ms representativa
que la media aritmtica cuando la variable se define como variaciones
acumulativas.

Para valorar la importancia de este criterio vamos a discutir un ejemplo
basado en tasas de variacin. Supondremos que las observaciones de la variable
se realizan para un individuo a lo largo del tiempo, midindose el valor de la
variable en el momento 0, en el momento 1, ..., hasta el final del periodo, en el
momento T.

Dada una serie de valores de base temporal: X X X X
T 0 1 2
, , ,..., , la tasa
de variacin de un perodo a otro se define como:

x
X X
X
t t
t t
t
[ , ]


1
1
1


De manera que los valores de X
t
verifican:

X x X
t t t t
+

( )
[ , ]
1
1 1


denominndose a 1
1
+

x
t t [ , ]
factor de variacin unitaria.

La relacin entre el ltimo valor, X
T
, y el primero, X
0
, se puede obtener si
sustituimos de manera recurrente:

X x X x x X
T T T T T T T T T
+ + +

( ) ( ) ( ) ...
[ , ] [ , ] [ , ]
1 1 1
1 1 1 1 2 2


+ + + +

( ) ( )...( ) ( )
[ , ] [ , ] [ , ] [ , ]
1 1 1 1
1 1 2 2 1 1 0 0
x x x x X
T T T T


Si quisiramos definir una tasa media de variacin, x
TMV [ ]
, sta debera
satisfacer tambin la anterior relacin:

X x x x X
T TMV TMV TMV
+ + + ( )( )...( )
[ ] [ ] [ ]
1 1 1
0

+ ( )
[ ]
1
0
x X
TMV
T


La conclusin es, por tanto, que la tasa media debe verificar:
( ) ( ) ( )...( )
[ , ] [ , ] [ , ]
1 1 1 1
1 1 2 1 0
+ + + +

x x x x
TMV
T
T T T T


O, en otros trminos, la tasa media de variacin debe ser igual a la media
geomtrica de los factores de variacin unitarios, menos la unidad:

x x x x
TMV T T T T
T
+ + +

( ) ( )...( )
[ , ] [ , ] [ , ]
1 1 1 1
1 1 2 1 0


Tenga en cuenta que este mismo valor puede obtenerse ms fcilmente
cuando se dispone de los valores inicial y final de la serie, ya que a partir de la
relacin:
X x X
T TMV
T
+ ( )
[ ]
1
0
,
se tiene:
x
X
X
TMV
T
O
T
[ ]
1


Ejemplo 5. Tasa media de variacin. En el cuadro 3 aparecen el
nmero de horas trabajadas en la industria espaola de extraccin de
hullas, en el perodo 1987-1992. Se han calculado tambin las tasas de
variacin anuales y los factores de variacin unitaria y se desea obtener
la tasa de variacin media acumulativa.

Cuadro 3
Ao
Horas
Trabajada
s
Tasa de
variacin
Factor de
variacin
unitaria
1987 43088 - -
1988 43387 0,0069 1,0069
1989 42222 -0,0268 0,9731

1990 40453 -0,0419 0,9581
1991 33936 -0,1611 0,8389
1992 32126 -0,0533 0,9467
Media Geomtrica (factores de variacin unitaria): -
0,057
Media Aritmtica (tasas de variacin): -0,055


Dado que se dispone de los valores inicial y final de la serie, el clculo
puede basarse en la expresin:
,
x
X
X
TMV
T
O
T
[ ]
1
En nuestro caso:
057 , 0 1
43088
32126
5
] [

TMV
x

Si calcula la media aritmtica de las tasas de variacin el valor
que obtiene es igual a -0,055, algo diferente del valor buscado.



Si slo dispone de informacin de las tasas de variacin o de los factores de
variacin unitaria y debe calcular la tasa media de variacin lo correcto es
emplear la frmula de la media geomtrica sobre los factores de variacin
unitarios (sin olvidar adems restar la unidad).


Ejemplo 6. Rentabilidad media de una accin. Veamos otro caso en el
que tambin resulta adecuado el empleo de la media geomtrica. En el
cuadro 4 se recoge la rentabilidad mensual de una accin, definida como
una tasa de variacin mensual del precio de la accin:
r
p p
p
t
t t
t t
t
[ , ]
, ,..., .

1
1
1
1 12

Cuadro 4
Mes 1 2 3 4 5 6 7 8 9 10 11 12
Rentabilida
d
-0,13 0,00 0,29 0,06 0,19 -0,03 0,05 0,04 0,00 0,04 0,00 0,04



La caracterstica acumulativa de los datos hace que de nuevo para
obtener un valor promedio, sea ms adecuado el empleo de la media
geomtrica:
r r r r
TMV
+ + + ( ) ( )...( )
[ , ] [ , ] [ , ]
1 1 1 1
12 11 11 10 1 0
12


La rentabilidad media de ese ao ser, por lo tanto, igual a un
4,13%:

% 13 , 4 1 ) 04 , 0 1 ( )... 29 , 0 1 )( 00 , 0 1 ( ) 13 , 0 1 (
12
+ + +
TMV
r



Utilizacin de la media, moda y mediana para detectar la asimetra de una
distribucin. Las distribuciones de frecuencias se pueden caracterizar por su
forma, distinguindose bajo un criterio de simetra entre distribuciones simtricas
(como la representada en la grfica 2), asimtricas por la derecha (grfica 3) y
asimtricas por la izquierda (grfica 4). Las distribuciones representadas
muestran un nico intervalo modal, aunque tambin podramos contemplar la
simetra (asimetra) en distribuciones con ms de una moda. Se entiende que la
distribucin es simtrica si respecto a un eje vertical situado sobre la mediana de
la distribucin, su figura puede doblarse coincidiendo ambas partes. La
distribucin es asimtrica por la derecha si aparecen un nmero mayor de
valores de la variable en ese lado, mientras que la asimetra por la izquierda
acumulara un nmero mayor de valores en el lado izquierdo de la distribucin.




Grfica 2
FREQUENCY
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200




Grfica 3
FREQUENCY
0
1000
2000
3000



Grfica 4
FREQUENCY
0
100
200
300




Segn su forma, las distribuciones pueden dividirse en simtricas,
asimtricas por la derecha y asimtricas por la izquierda. Las distribuciones
simtricas tienen la misma forma a izquierda y derecha de la mediana. Las
distribuciones unimodales asimtricas por la derecha tienen ms valores a la
derecha del intervalo modal que a su izquierda. Una distribucin con la
forma contraria es asimtrica por la izquierda.

Como veremos, aunque existen estadsticos que describen la simetra (o
asimetra) de la distribucin, los valores de la media, mediana y moda de la
variable facilitan tambin esta informacin. En una distribucin simtrica la
media, la mediana y la moda tienden a coincidir, mientras que en las
distribuciones asimtricas se dispersan. Cuando la distribucin es asimtrica por
la derecha la relacin entre los estadsticos es la siguiente:

Moda Mediana Media


Y cuando la distribucin es asimtrica por la izquierda:

Media Mediana Moda

En funcin de su simetra o asimetra en las distribuciones unimodales se
verifican las siguientes relaciones:

Distribucin simtrica: Moda Mediana Media .
Distribucin asimtrica por la derecha: Moda Mediana Media .
Distribucin asimtrica por la izquierda: Media Mediana Moda .


Ejemplo 7. En el cuadro 5 se muestran la media y la mediana de tres
distribuciones. En la distribucin A coinciden el valor de la media y la
mediana, por lo que puede suponerse que se trata de una distribucin
simtrica. La distribucin B tiene la media a la derecha de la mediana, por
lo que en principio puede ser una distribucin asimtrica por la derecha. La
ltima distribucin es tambin asimtrica, al no coincidir media y mediana,
y por sus posiciones, la asimetra se produce por la izquierda.

Cuadro 5
Distribucin Media Mediana
A -4 -4,3
B 101 71
C -212 -62

Cuartiles, Deciles y Percentiles. Se ha definido la mediana como una medida
de posicin: se trata de aquella observacin que (cuando los valores se ordenan
de menor a mayor) se sita en el centro de la muestra. La mediana es, por tanto,
el valor que en la distribucin acumulada de frecuencias se sita en el 50%. Al
analizar una distribucin tambin se leen otros valores definidos por intervalos de
frecuencias distintos al 50%.

Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con
la variable ordenada de menor a mayor) dejan por debajo de su posicin el 25%,
50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles
dividen la variable en cuatro grupos con igual nmero de observaciones (el 25%
de valores ms bajos, el 25% siguiente,).

Para obtener los valores nos basaramos en una regla semejante a la
aplicada para la mediana. As, si el nmero de observaciones es impar, el primer

cuartil ocupar la posicin ( ) 4 1 + n ; el segundo cuartil ocupar la posicin
( ) 4 1 2 + n ; y el tercer cuartil la posicin ( ) 4 1 3 + n .

Con los siguientes siete datos (ya ordenados de menor a mayor): 9, 23,
25, 28, 32, 47 y 50, obtendremos los tres cuartiles. El primer cuartil es igual a 23
(el valor en el lugar 2 4 8 ); el segundo cuartil es 28 (ocupa la posicin
4 4 16 ); y el tercer cuartil es 47 (posicin 6 4 24 ).

Con los siguientes ocho datos (un nmero par de observaciones): 9, 23,
25, 28, 32, 47, 50 y 51 obtendremos de nuevo los cuartiles. El primer cuartil ser
el promedio de las posiciones 4 n y ( ) 1 4 + n , en este caso el promedio de las
posiciones 2 y 3, que ser el valor 24. El segundo cuartil ser el promedio de las
posiciones 4 y 5, siendo igual a 30. El tercer cuartil promedia los lugares 6 y 7,
siendo igual a 48,5.

Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90
por ciento. El primer decil ocupar la posicin 10 n ; el segundo decil ocupar la
posicin 10 2 n ; ... y el noveno la posicin 10 9 n .

Los percentiles amplan esta idea para definirse sobre porcentajes del 1,
2, 3, , hasta el 99 por ciento. El primer percentil ocupar la posicin 0 10 n ; el
segundo percentil la posicin 0 10 2 n ; ... y el 99 percentil la posicin
0 10 99 n .
Dadas las definiciones anteriores, en el cuadro 6 se ofrecen las obvias
equivalencias de definicin entre cuartiles y percentiles.

Cuadro 6
Mediana = Segundo Cuartil = 50 Percentil
Primer Cuartil = 25 Percentil
Tercer Cuartil = 75 Percentil


Ejemplo 8. Distribucin de la renta en Espaa. Pena et al. (1996) son
autores de un estudio sobre la distribucin personal de la renta en
Espaa en el que analizan los niveles de renta, su distribucin y la
desigualdad de la misma. De este estudio, en el cuadro 7 se recogen los
clculos de algunos percentiles de la renta per capita disponible para
toda Espaa en el ao 1990/1991 (Pena et al., 1986, pg. 503). En la
grfica 5 se representan los percentiles de la renta per capita.
Excluyendo la renta mnima, desde el 5
o
percentil hasta el 60
o
se tiene

una relacin de acumulacin de la distribucin distinta de la que se
observa a partir de ese tramo, en el que para acumular iguales
porcentajes de poblacin los incrementos en los valores de las rentas
son mucho mayores. Una distribucin asimtrica por la derecha acumula
ms observaciones en los valores inferiores de la variable, mientras que
los valores superiores seran menos frecuentes.

Cuadro 7
Percentil Renta p.c.
disponible
Renta mnima 0
5 270903
10 345497
15 403034
20 454221
25 501457
30 542498
35 585791
40 631359
45 681373
50 732524
55 781361
60 839756
65 904918
70 974001
75 1061552
80 1173166
85 1322099
90 1544322
95 1992821
Renta mxima 168572662
Fuente: Pena et al. (1996)

Grfica 5

percentiles
0
10
20
30
40
50
60
70
80
90
Renta p.c.
0 200000 400000 600000 800000 1000000 1200000 1400000 1600000 1800000 2000000



En ocasiones los percentiles de una variable se utilizan como referencia
sobre la que analizar el comportamiento de una segunda variable. Los percentiles
no se emplearan propiamente como estadsticos descriptivos de una variable,
sino que serviran para seguir el comportamiento de otra variable. Se trata, por
tanto, de definir relaciones bivariantes entre los percentiles (de una variable) y
otras variables. Los dos ejemplos siguientes ilustran este empleo de los
percentiles.


Ejemplo 9. La teora de Keynes sobre el consumo plantea una
relacin positiva entre el consumo y la renta disponible; esta relacin
debera cumplir diversas restricciones, entre ellas que la propensin
marginal al consumo (variaciones en el consumo consecuencias del
incremento en la renta) sea inferior a la unidad:
0 1 < <

C
Y
,
indicando C Y / la propensin marginal al consumo.

En el cuadro 8 se reproduce para las familias espaolas y con datos de
1995, la relacin entre el consumo y los ingresos familiares. Para reflejar la
incidencia del nivel de ingresos sobre el cociente consumo/ingresos, se han
dividido las familias en cuatro grupos. El primero tendra ingresos inferiores al
valor del primer cuartil, el segundo tendra ingresos entre el valor del primer y
segundo cuartil, y as sucesivamente. El cociente consumo/ingresos se ha
calculado para cada grupo de familias.




Cuadro 8
Grupos
segn
cuartiles
Ingresos
medios
(millones de
ptas)
consumo
/
ingresos
%
Primero
1,3 75,2
Segundo 2,0 67,1
Tercero 2,8 64,4
Cuarto 4,6 55,3
Total 2,7 62,2
Fuente: INE, 1995

Puede comprobar que a medida que los ingresos crecen el cociente entre gasto e
ingresos, mantenindose siempre inferior a la unidad, disminuye. El consumo representa
un 75,2% de los ingresos de las familias con menos ingresos, mientras que nicamente
supone el 55,3% de los ingresos de las familias situadas en la escala ms alta de riqueza.


Ejemplo 10. Desigualdad salarial y oferta de trabajo familiar. Juhn
y Murphy (1996) emplean datos del censo de EEUU para describir los
cambios en el empleo y en los ingresos de las parejas casadas. En 1969
los hombres en edad activa estaban empleados un 95% del ao y tenan
unos ingresos medios anuales de alrededor de 23000 dlares (todas las
referencias estn en dlares de 1982). Sus esposas, por otra parte,
estaban empleadas slo el 39% del ao e ingresaban nicamente 4000
dlares. Veinte aos ms tarde, en 1989, la situacin de los varones
casados era bastante parecida: en promedio, trabajaban un 93% del ao
y ganaban 25000 dlares. La situacin de las mujeres, sin embargo, era
muy diferente: las mujeres casadas en edad activa trabajaban el 66% del
ao y ganaban 9000 dlares anuales.

Hasta qu punto la disminucin del tiempo trabajado y el escaso
incremento salarial de los varones puede haber causado la entrada de
las mujeres casadas en el mercado laboral? Los autores analizan la
informacin del censo de EEUU en funcin de las decilas de salarios de
los maridos. Se consideran diez grupos distintos: el primero
correspondera al de varones casados con salarios inferiores a la primera
decila de ingresos, el segundo grupo incluira a los varones casados con
ingresos entre la primera y segunda decila, y as sucesivamente.

En las grficas 6 y 7 se muestran, por percentiles de ingresos salariales,
los valores medios de las tasas de variacin en los salarios por hora y en el

empleo, entre 1969 y 1989, para los varones casados. Puede comprobar que
cuanto menores son los ingresos mayores han sido el crecimiento del paro y la
disminucin de los salarios. Por el contrario, en los percentiles superiores, tanto
el empleo como los ingresos salariales han aumentado. Cmo responde la oferta
de trabajo de la familia a esta situacin?


Grfica 6
percentiles salarios de los maridos
100 90 80 70 60 50 40 30 20 10
V
a
r
i
a
c
i
o
n
e
s

s
a
l
a
r
i
o

h
o
r
a

m
a
r
i
d
o
s
,

1
9
6
9
-
1
9
8
9
,2
,1
,0
-,1
-,2
-,3


Grfica 7
percentiles salarios de los maridos
100 90 80 70 60 50 40 30 20 10
V
a
r
i
a
c
i
o
n
e
s

t
a
s
a

e
m
p
l
e
o

m
a
r
i
d
o
s
,

1
9
6
9
-
1
9
8
9
,0
0,0
,0
,0
-,1
-,1
-,1
-,1
-,1
-,2




En las grficas 8 y 9 aparecen las tasas de empleo y los ingresos
anuales de las mujeres casadas. Las variables estn medidas, tanto en
1969 como en 1989, sobre los diez niveles de ingresos salariales de los
hombres (se representan valores medios). De estas grficas pueden
derivarse las siguientes conclusiones:

En la grfica 8 (tasas medias de empleo de las mujeres casadas) se
detecta que el empleo ha crecido, entre 1969 y 1989, para todos los
niveles de salarios de los maridos, pero que el aumento es mayor en
los valores medios y altos de los ingresos. Mientras que en 1969
cuanto mayor era el salario del marido, menor era el nmero de
mujeres trabajando; en 1989, esta relacin desaparece, trabajando
mayor nmero de mujeres en la zona de matrimonios con salarios del
varn intermedios.

Respecto a los ingresos anuales (grfica 9), en 1969 los salarios
medios eran ms o menos similares para todos los percentiles.
Aunque las mujeres casadas con los hombres de mayores ingresos
trabajaban menos horas, lo hacan a un sueldo mayor,
mantenindose con ello los ingresos medios. En 1989 esta imagen se
rompe. Las mujeres casadas con varones de salarios altos trabajan el
mismo nmero de horas que las mujeres casadas con hombres con
ingresos bajos, pero sus salarios por hora son mucho mayores,
aumentando comparativamente sus ingresos anuales.

Grfica 8
percentiles salario de los maridos
100 90 80 70 60 50 40 30 20 10
T
a
s
a

E
m
p
l
e
o

M
u
j
e
r
e
s
8
7
6
5
4
3
2
1
0
1969
1989


Grfica 9

percentiles salarios de los maridos
100 90 80 70 60 50 40 30 20 10
I
n
g
r
e
s
o
s

A
n
u
a
l
e
s

(
$

1
9
8
2
)
1200
1000
800
600
400
200
1969
1989

En las dos dcadas analizadas, por tanto, se ha dado no slo un
aumento en las horas trabajadas y en los ingresos percibidos por las
mujeres casadas, sino que adems se ha producido una modificacin en
la estructura de su distribucin. Las mujeres casadas con hombres de
ingresos altos son las que mayor participacin laboral han conquistado,
acompaada adems de unos mayores ingresos. Los anteriores
resultados contradicen la hiptesis de que la mayor oferta laboral y
mayores ingresos de las mujeres, responderan a la necesidad de cubrir
los ingresos dejados de percibir por sus maridos.


Medidas de Dispersin: Rango, Rango intercuartlico, Varianza,
Desviacin estndar, Coeficiente de variacin

El rango de una variable es la diferencia entre el mayor y el menor valor
de las observaciones:
Rango X X
MAX MIN


Como medida de dispersin el rango es muy sensible a los valores
extremos.

El rango intercuartlico es la diferencia entre el tercer y primer cuartil de
la variable. En ese intervalo se incluyen, por tanto, el 50% de las
observaciones situadas en la zona central de la distribucin:
Rango Q Q
IQ

3 1


La varianza es el promedio de las desviaciones de la variable con respecto
a la media:

s
X x
n
x
i
i
n
2
2
1

( )


En ocasiones se define promediando no por n, sino por n-1.

La varianza es una medida de la dispersin de las observaciones con
respecto a su valor medio.

La desviacin estndar es la raz cuadrada de la varianza:
s
X x
n
x
i
i
n

( )
2
1


(O dividiendo por n-1 si ese ha sido el denominador empleado en la
varianza).

El coeficiente de variacin es el cociente entre la desviacin estndar y la
media de la variable, definido en general slo para variables positivas:

CV
s
x
x



Discusin y propiedades de la varianza, desviacin estndar y coeficiente de
variacin

Para visualizar el concepto de dispersin que se mide con la
varianza, pueden compararse los histogramas correspondientes a variables de
comportamiento semejante (igual media, unimodales, simtricas) pero con
varianza diferente. En la grfica 10 aparecen los histogramas de cuatro
distribuciones que multiplican por 2, 3 y 4, respectivamente, la varianza de una
primera variable. En cada uno de los histogramas (todos ellos con media igual a
cero) se ha dibujado la forma idealizada del mismo para facilitar la comparacin.

Grfica 10

0
.36
-10.3137 10
0
.36
-10.3137 10


Como medidas de dispersin la desviacin estndar (o la varianza)
muestran su utilidad especialmente cuando se emplean de manera comparativa.
Conocer el valor de la varianza de una distribucin no nos permite decir de
manera inmediata si sta es ms o menos dispersa, ya que su valor depende de la
unidad de medida de la variable. Se suele utilizar una referencia en relacin a la
cual se realiza la comparacin; en algunas ocasiones se emplea alguna
distribucin conocida, en otras la referencia es una distribucin emprica
diferente. Las distribuciones de la grfica 10 son ms o menos dispersas en
funcin de su comparacin mutua.

El coeficiente de variacin facilita la discusin de la importancia de
la dispersin de una variable. Resulta de especial inters en dos circunstancias:

(1) Cuando se quieren comparar distribuciones de variables con diferentes
unidades de medida, ya que la dispersin ser igual a un tanto por ciento
de la media de la variable, sin importar en que unidad se mide sta.

(2) Cuando se comparan distribuciones que, aun teniendo igual unidad de
medida, toman valores muy distintos. Por ejemplo, si se quieren
comparar las rentas de dos regiones, una muy rica y otra muy pobre,
podra no ser adecuado comparar directamente las varianzas. La regin
con renta media alta tender a presentar una varianza ms alta, por el
hecho de jugar con cifras absolutas mayores que la regin con rentas

bajas. Una manera de relativizar este efecto es el empleo del coeficiente
de variacin.


Propiedades de la varianza:

(1) La varianza no puede ser negativa al tratarse de un promedio de una
suma de cuadrados.

(2) Como la media, es sensible a valores extremos.

(3) Si a los valores de una variable se les suma una constante, c X
i
+ , la
varianza de la nueva variable no se modifica:

s
c X c x
n
X x
n
s
c x
i
i
n
i
i
n
x +

+ +


2
2
1
2
1 2
( ( )) ( )



(4) Al multiplicar los valores de una variable por una constante, c X
i
, la
nueva varianza se ve multiplicada por la misma cantidad elevada al
cuadrado,
2 2
x
s c (y la desviacin estndar se multiplica por la misma
constante,
x
s c ).

Esta propiedad es fcil de demostrar, teniendo en cuenta que al
multiplicar por una constante, la media de la variable transformada es la
media original multiplicada por la misma constante.

s
c X c x
n
c X x
n
c X x
n
c s
c x
i
i
n
i
i
n
i
i
n
x
2
2
1
2 2
1
2 2
1 2 2



( ) ( ) ( )


Y, por tanto, para la desviacin estndar:

s c s
c x x



(5) La varianza puede escribirse de manera equivalente como:
s
X
n
x
x
i
i
n
2
2
1 2

. La demostracin se basa en la siguiente equivalencia:





+ +
n
i
n
i
i i
n
i
i i
n
i
i
X x x n X x X x X x X
1 1
2 2
1
2 2 2
1
2 ) 2 ( ) (
+


X n x n x X n x
i
i
n
i
i
n
2 2 2
1
2 2
1
2

Con lo que se tiene:
2 1
2
1
2 2
1
2
2
) (
x
n
X
n
x n X
n
x X
s
n
i
i
n
i
i
n
i
i
x





(6) La varianza cumple:
( ) ( ) X x
n
X k
n
i
i
n
i
i
n

<



1
2
1
2

para cualquier otro valor de k x .
(7) Como en el caso de la media puede definirse una varianza ponderada, en
la que se de una mayor o menor importancia a las observaciones.

La varianza siempre es un nmero no negativo.
Al sumar a los valores de una variable una constante, su varianza no se
modifica.
Al multiplicar los valores de una variable por una constante, su varianza se
multiplica por el cuadrado de esa constante.
La desviacin estndar es la raz cuadrada de la varianza.


Ejemplo 11. Con los siguientes datos: {9, 23, 25, 28, 32, 47, 50}
calcularemos las diversas medidas de dispersin:
41 9 50
MIN MAX
X X Rango
24 23 47
1 3
Q Q Rango
IQ


Para calcular la varianza emplearemos los datos de la siguiente tabla, y
nos basaremos en su expresin:

2 1
2
2
x
n
X
s
n
i
i
x



i X
i
X
i
2
1 9 81
2 23 529
3 25 625
4 28 784
5 32 1024
6 47 2209
7 50 2500

7
1
214
i
i
X

7
1
2
7752
i
i
X
571 , 30
7
7
1

i
i
X
x 43 , 1107
7
1
2

n
X
i
i
84 , 172
2 1
2
2

x
n
X
s
n
i
i
x


La desviacin estndar ser, por tanto:

147 , 13 84 , 172
) (
1
2

n
x X
s
n
i
i
x


Y el coeficiente de variacin:

43 , 0
571 , 30
147 , 13

x
s
CV
x


Ejemplo 12. En el siguiente cuadro se muestran los valores de
algunos percentiles de la distribucin del gasto per capita realizado por
los visitantes de dos regiones tursticas:



Regin
1
Regin
2
Percentil 75
235 290
Mediana 100 100
Percentil
25
62 72


En funcin de estos resultados se puede afirmar que la dispersin
de la variable en las dos zonas es mayor en la segunda regin que en la
primera (rangos intercuartlicos iguales a 173 62 235 y
218 72 290 , respectivamente). Adems, puede observarse que el
25% de los turistas que gastan ms, en la regin 1 lo hacen por encima
de los 235 euros, mientras que en la regin 2 lo hacen por encima de los
290. Todo ello indica que aunque la medida representativa del gasto
pueda ser similar en ambas zonas (ya que tienen idntico valor de la
mediana) en la regin 2 existe una presencia de turistas con mayor
capacidad de gasto.


Ejemplo 13. El coeficiente de variacin como medida de dispersin. En
el cuadro 9 se muestran los datos de una variable X
i
y las
transformaciones necesarias para calcular la varianza.

Si los valores de la variable se multiplican por cien, la media y la
desviacin estndar de la variable transformada se multiplicarn tambin por
cien (ver cuadro 10).




Cuadro 9
i X
i
X
i
2
1 2,7 7,29
2 1,2 1,44
3 3,45 11,9025
4 4,03 16,2409
5 4,32 18,6624
6 5,4 29,16
7 3,5 12,25

7
1
6 , 24
i
i
X

7
1
2
9458 , 96
i
i
X
514 , 3
7
7
1

i
i
X
x 85 , 13
7
1
2

n
X
i
i

50 , 1
2 1
2
2

x
n
X
s
n
i
i
x




Cuadro 10
X
1
X
2

2,7 270
1,2 120
3,45 345
4,03 403
4,32 432
5,4 540
3,5 350
Media
3,514286 351,4286
Desviacin Estndar
1,322521 132,2521



El coeficiente de variacin en ambas variables proporcionara el
mismo valor: 0,3763, reflejando que la dispersin en trminos relativos es
idntica. En las grficas 11 y 12 se muestran las dos series de valores,
dibujndose una lnea de referencia sobre el respectivo valor medio.
Advierta que los ejes verticales de las dos grficas no son iguales, ya que
en la segunda grfica los valores estn multiplicados por 100 y, por tanto,
la dispersin numrica respecto a la media es mucho mayor en esta
variable. Sin embargo, las dos series presentan una imagen idntica.


Grfica 11

1 2 3 4 5 6 7
1
2
3
4
5



Grfica 12
1 2 3 4 5 6 7
100
200
300
400
500


Ejemplo 14. En una regin turstica se dispone, para cuatro
nacionalidades, de los valores medios y la desviacin estndar de su
gasto turstico per capita y da (en euros). Se est interesado en detectar
cul es la nacionalidad que presenta mayor dispersin en el gasto
realizado.


Media
Desviaci
n
Coeficiente
de

estndar variacin %
Alemana 60 22 36,67
Britnica 75 30 40
Espaola 60 31 51,67
Nrdicos 75 36 48

Si se juzga por el valor directo de la desviacin estndar la
nacionalidad con mayor dispersin en el gasto corresponde a los pases
nrdicos, seguida de la espaola y la britnica, sin embargo si se juzga
por el coeficiente de variacin la nacionalidad que presenta mayor
dispersin es la espaola, con una desviacin estndar igual al 51,67%
de su gasto medio.

Ejemplo 15. Una variable X tiene una desviacin estndar igual a 9
y una media igual a 10. Determine la media y desviacin estndar de la
variable Y, definida como:
Y
X

5
10

La nueva variable tambin puede expresarse como:
X Y
10
1
10
5
+ , presentndose como la variable original multiplicada por
una constante y a la que se le suma una cantidad (en este caso
negativa).

La media de la nueva variable ser (teniendo en cuenta que la
media de X es igual a 10):

,
_

+



n
X
n
Y
y
n
i
i
n
i
i
1 1
10
1
10
5

+

,
_

,
_



n
X
n
X n
n
i
i
n
i
i
1 1
10
1
10
5 10
1
10
5

5 , 0 10
10
1
10
5
10
1
10
5
+ + x

La varianza de la nueva variable ser:
( )

,
_

,
_

+ +

n
x X
n
y Y
s
n
i
i
n
i
i
Y
1
2
1
2
2
10
1
10
5
10
1
10
5


( ) ( )

,
_

,
_



n
x X
n
x X
n
i
i
n
i
i
1
2
2
1
2
10
1
10
1

81 , 0 9
100
1
2


Y, por tanto, la desviacin estndar ser igual a 0,9.

Ejemplo 16. Una variable X tiene una desviacin estndar igual a 9
y una media igual a 10. Determine la media y desviacin estndar de la
variable Y, definida como:
4
5 10 X
Y


La media de la nueva variable ser:
10 10
4
5
4
10
4
5
4
10
x y
Y la desviacin estndar:
25 , 11 9
4
5
4
5

X Y
s s

Ejemplo 17. Distribucin de los ingresos en las Comunidades
Autnomas. En el cuadro 11 aparecen la media, desviacin estndar, y
coeficiente de variacin (en porcentaje) de la renta per capita de las
Comunidades Autnomas en 1990/1991 (se excluyen Ceuta y Melilla.
Fuente: Pena, 1996, pgs. 502-503). Las comunidades han sido
ordenadas en funcin del valor de su desviacin estndar. La dispersin
de la renta sera utilizada como una medida de desigualdad: cuanto
mayor es la dispersin, mayores diferencias se darn en los ingresos. En
el cuadro 12 se muestran las posiciones (de mayor a menor: 1 indica la
cifra ms alta, 17 la cifra ms baja) que toman las Comunidades segn
se ordenen por su renta, su desviacin estndar o su coeficiente de
variacin.

Como medida de dispersin podemos utilizar la desviacin estndar, pero
tambin el coeficiente de variacin. La desviacin estndar se relativiza al
ponerla en relacin con la media. Los coeficientes de variacin que se recogen en
el cuadro 11 indican que la desviacin estndar de la Comunidad extremea es
0,76 veces su media (o en porcentaje, el 75,90%), la de Catalunya 0,72 veces su
media, la de Madrid 1,85 y la de Castilla-La Mancha 3,96.




Cuadro 11
x s
x
CV 100
Extremadura 659507 500588 75,90
Asturias 892325 535773 60,04
Cantabria 829755 548971 66,16
Canarias 767552 556265 72,47
Navarra 1051310 610642 58,08
Com. Valenciana 833886 612423 73,44
Baleares 975140 630351 64,64
Castilla-Len 866326 654448 75,54
Aragn 843630 659440 78,17
Rioja 870680 674107 77,42
Galicia 797931 732694 91,82
Catalunya 1091739 795740 72,89
Pas Vasco 990671 827134 83,49
Murcia 787525 961635 122,11
Andaluca 744389 1082408 145,41
Madrid 1130089 2099119 185,75
Castilla- La Mancha 724065 2868372 396,15

Cuadro 12
x s
x
CV 100
Navarra 3 13 17
Asturias 6 16 16
Baleares 5 11 15
Cantabria 11 15 14
Canarias 14 14 13
Catalunya 2 6 12
Com. Valenciana 10 12 11
Castilla-Len 8 10 10
Extremadura 17 17 9
Rioja 7 8 8
Aragn 9 9 7
Pas Vasco 4 5 6
Galicia 12 7 5
Murcia 13 4 4
Andaluca 15 3 3
Madrid 1 2 2
Castilla- La Mancha 16 1 1


En un anlisis comparativo de la distribucin de la renta puede
tener ms sentido emplear el coeficiente de variacin si se quiere
discutir, sobre niveles dados de renta, qu comunidad presenta mayor o
menor dispersin en esa variable. Observe que el orden de las
comunidades en funcin de la desviacin estndar o del coeficiente de
variacin no son totalmente coincidentes.


Ejemplo 18. Distribucin de ingresos de pensionistas, asalariados,
profesionales y empresarios. En el cuadro 13 aparecen la media,
desviacin estndar, varianza y coeficiente de variacin de la variable
ingresos familiares de cuatro colectivos (pensionistas, asalariados,
profesionales y empresarios) de una Comunidad Autnoma (Fuente:
muestra IRPF-1990).


Cuadro 13
Pensionistas Asalariados Profesionales Empresarios
x 1375919,81 1872897,97 2221962,38 2067427,89
s
x

393701,38 900167,565 1471118,41 1279698,30
s
x
2

1,550E+11 8,103E+11 2,164E+12 1,638E+12
CV 100 28,6137 48,0628 66,2081 61,8981


Los pensionistas son el colectivo con menores ingresos, seguido
de los asalariados, empresarios y profesionales, en este orden. Los
ingresos de los pensionistas muestran la menor dispersin, seguido de
los ingresos de los asalariados, empresarios y profesionales. La
desviacin estndar en el grupo de los pensionistas es 0,28 veces la
media, en el grupo de los asalariados 0,48 veces, en el de profesionales
el 0,66 y en el de los empresarios 0,62. Como medida sinttica de
dispersin permite ignorar cul es el valor medio de los ingresos al hacer
la comparacin de las dispersiones. La medida de dispersin confirma lo
que a priori podamos esperar: escasa dispersin en los colectivos cuyos
ingresos son fijos, con una mayor dispersin en los grupos con ingresos
flexibles.


Ejemplo 19. Volatilidad del precio de una accin. En el cuadro 14
se presenta la evolucin del precio de dos acciones (A y B). Sera
capaz de decidir, simplemente con esta informacin, la compra de una de
las dos acciones?


A partir de las dos series de precios se han calculado las rentabilidades
perodo a perodo. La rentabilidad media de la primera accin es algo menor que
la de la segunda, por lo que si la evolucin que usted espera que siga el mercado
es la de mantener la misma tendencia, podra ser ms atractiva la compra de la
primera accin. En la representacin de las series de rentabilidad (grficas 13 y
14) no se observa que ninguna de ellas crezca (o decrezca) de manera
sistemtica. Pero qu pasa con la diferente dispersin?



Cuadro 14
Perodo Precio A Rentabilidad
A
Precio B Rentabilidad
B
0 10 12
1 10 0,00 12 0,00
2 12 20,00 14 16,67
3 13 8,33 12 -14,29
4 13 0,00 11 -8,33
5 14 7,69 11 0,00
6 14 0,00 12 9,09
7 12,5 -10,71 9,5 -20,83
8 12 -4,00 9 -5,26
9 14 16,67 14 55,56
10 12 -14,29 13 -7,14
11 13 8,33 14 7,69
12 14 7,69 17 21,43
Media Aritm. 3,31 4,55
Tasa Media 2,84 2,95
Desv.
Estndar
10,17 20,23



En bolsa, cuando se invierte en un activo se valoran varios
factores, uno de ellos es la variabilidad que el precio del activo tiene con
respecto al valor medio. Este concepto es una medida de riesgo, puesto
que a para una misma rentabilidad media esperada ser preferible
aquella accin que se desve lo menos posible de la misma. Una buena
aproximacin a esta varianza esperada es el comportamiento histrico de
la varianza. El clculo de la varianza con datos de un perodo de tiempo
anterior puede ser una buena medida del riesgo que afronta al adquirir
una accin. El concepto de volatilidad es el empleado por los tcnicos
burstiles en lugar del de varianza. A igual valor esperado en el precio de

la accin ser ms deseable aquella accin con una menor varianza,
puesto que el riesgo de que el valor esperado se incumpla ser menor, al
oscilar en un recorrido menor sobre el valor medio. Dada la poca
diferencia que existe en las rentabilidades medias, la menor desviacin
estndar de la rentabilidad de la accin A hace que esta resulte ms
atractiva si se quiere enfrentar un menor riesgo.





Grfica 13
-60,00
-40,00
-20,00
0,00
20,00
40,00
60,00
1 2 3 4 5 6 7 8 9 10 11 12



Grfica 14
-60,00
-40,00
-20,00
0,00
20,00
40,00
60,00
1 2 3 4 5 6 7 8 9 10 11 12





Ejemplo 20. ndice de Sharpe. Cuando se invierte se intenta valorar
cul es el rendimiento esperado, resultando ms atractiva aquella
inversin que proporciona unos ingresos futuros mayores. El riesgo de la
inversin es, sin embargo, un parmetro que tambin debe tenerse en
cuenta, ya que, normalmente, ser preferible una cantidad segura a la
promesa de una cantidad aproximadamente igual, pero no garantizada
(en economa se habla de esta actitud como de aversin al riesgo).

Para valorar un conjunto de inversiones se han definido diversos ndices.
Uno de los ndices de rentabilidad-riesgo utilizado es el propuesto por Sharpe
(1966):
Indicede Sharpe
E R


donde:
E , es la rentabilidad media de la cartera en un perodo
determinado.
R , es la rentabilidad media de los activos considerados sin
riesgo.
, es la desviacin estndar de la rentabilidad de la cartera.

La desviacin estndar de la rentabilidad es una aproximacin al
riesgo asumido. La anterior expresin medira la prima de rentabilidad
que ofrece una cartera de valores por unidad de riesgo. Aunque en teora
el clculo de este ndice debera realizarse sobre valores esperados, su
clculo real se efecta a posteriori sobre los valores observados,
empleando para ello las expresiones de la media y de la desviacin
estndar.

Ferruz y Sarto (1997) analizan las rentabilidades trimestrales de
123 fondos de inversin en Espaa entre enero de 1990 y diciembre de
1995. Los resultados que obtienen para los diez fondos mejor
clasificados segn el ndice de Sharpe se ofrecen en el cuadro 15. El
activo que los autores han considerado sin riesgo (necesario para poder
calcular el ndice) ha sido el rendimiento efectivo trimestral promedio de
las Letras del Tesoro (rentabilidad media igual a 2,65%).


Cuadro 15
Fondo de Inversin
Mobiliario
ndice de
Sharpe
Clasificaci
n
E
AB Fondo 0,07142 1 2,79 1,93
Fondonorte 0,03420 2 2,71 1,91
BSN Acciones 0.02936 3 2,93 9,50

Mutuafondo 0.02379 4 2,69 1,76
Baskinver 0.00604 5 2,66 1,80
BSN Renta Fija -0.00947 6 2,63 2,61
Fondpostal -0.00975 7 2,62 3,57
Segurfondo Divisas -0.01193 8 2,54 2,53
AB Ahorro -0.01309 9 2,63 1,87
BK Fondo -0.02220 10 2,61 1,89


Ejemplo 21. Evolucin de la desigualdad salarial. En muchas
economas industrializadas se ha producido un incremento de la
desigualdad en la distribucin de los salarios desde los aos ochenta,
especialmente con un incremento ms fuerte en los salarios mayores.
Para mostrar esta evolucin pueden emplearse el coeficiente de
variacin y la posicin de algunos percentiles.

Para un pas europeo, en la grfica 17 se ofrecen los coeficientes de
variacin de los salarios entre 1983 y 1992, que han aumentado un 26% en el
perodo y son, por tanto, un claro sntoma del crecimiento de la desigualdad
salarial. Para describir si la desigualdad crece ms en la parte baja o en la parte
alta de la distribucin, se utilizan el cociente entre el percentil 90 y la mediana
(Q90/Q50) y la mediana y el percentil 10 (Q50/Q10) (representados tambin en
la grfica 15). Mientras que el cociente Q90/Q50 pasa de un valor igual a 2.35 a
2.7 (un incremento del 14,8%), el cociente Q50/Q10 se mantiene estable,
sufriendo incluso una pequea disminucin entre 1983 y 1986. Ello indicara que
la dispersin en la parte superior de la distribucin se ha ampliado en una
proporcin importante, mantenindose estable la dispersin en la parte inferior.

Grfica 15

periodo
coeficiente de variacin Q50/Q10
Q90/Q50
1983 1986 1989 1992
.5
1
1.5
2
2.5
.7818
.8281
.9027
.9819
1.6
1.5
1.56 1.58
2.35
2.43
2.56
2.7



Ejemplo 22. Convergencia econmica en la OCDE entre 1950 y
1988 (-convergencia). Friedman (1992) sugiere que la evolucin de la
renta de un conjunto de pases puede seguirse analizando las
transformaciones del coeficiente de variacin a lo largo del tiempo. El
coeficiente de variacin es una medida de dispersin. Si se calcula para
un conjunto de pases en distintos momentos del tiempo y se detecta que
su valor disminuye, se tendr un indicador de convergencia en sus
niveles de renta. En el caso de que este coeficiente aumentara en el
tiempo, se detectara la divergencia de las economas. Este tipo de
convergencia se denomina -convergencia.

En Boyle y McCarthy (1997) se analiza la convergencia de la
renta per capita en los pases de la OCDE. Para seguir su evolucin
emplean el concepto de -convergencia, calculando los coeficientes de
variacin del PIB per capita en estos pases. En el cuadro 16 se
reproducen los resultados de su trabajo (tomando como referencia el
valor 1 para el ao 1950, es decir, que todos los coeficientes se han
dividido por su valor en 1950).

La representacin de la serie de coeficientes de variacin (grfica
16) permite detectar que se ha producido un proceso continuado de
convergencia entre 1950 y los primeros aos de la dcada de los
setenta. Alrededor de 1972 el proceso se estabiliza, pudindose concluir

que en los ltimos aos del perodo analizado la convergencia del PIB
per capita prcticamente se haba detenido.

Cuadro 16
Ao
x s
x

Ao
x s
x

Ao
x s
x

1950 1,0000 1963 0,7616 1976 0,5753
1951 0,9598 1964 0,7545 1977 0,5807
1952 0,9491 1965 0,7458 1978 0,5840
1953 0,9331 1966 0,7349 1979 0,5841
1954 0,9004 1967 0,7194 1980 0,5806
1955 0,8942 1968 0,7071 1981 0,5874
1956 0,8879 1969 0,6896 1982 0,5700
1957 0,8600 1970 0,6634 1983 0,5870
1958 0,8257 1971 0,6511 1984 0,6037
1959 0,8326 1972 0,6273 1985 0,6037
1960 0,8204 1973 0,6116 1986 0,6146
1961 0,7896 1974 0,5966 1987 0,6116
1962 0,7828 1975 0,5799 1988 0,6091

Grfica 16
1
9
8
8
1
9
8
6
1
9
8
4
1
9
8
2
1
9
8
0
1
9
7
8
1
9
7
6
1
9
7
4
1
9
7
2
1
9
7
0
1
9
6
8
1
9
6
6
1
9
6
4
1
9
6
2
1
9
6
0
1
9
5
8
1
9
5
6
1
9
5
4
1
9
5
2
1
9
5
0
S
i
g
m
a
-
c
o
n
v
e
r
g
e
n
c
i
a
1,1
1,0
,9
,8
,7
,6
,5



Ejemplo 22. Efectos intrada y da de la semana en la Bolsa de
Madrid. El efecto del da de la semana en los mercados financieros es
una regularidad emprica estudiada en economa financiera. Los
rendimientos de los activos que cotizan en bolsa son distintos segn el

da de la semana que se considere, se habla, por ejemplo, del efecto
lunes para referirse a los rendimientos negativos observados en este da
de la semana.
Camino (1997) estudia las pautas diarias de la Bolsa de Madrid,
utilizando para ello las cotizaciones del ndice IBEX-35 entre febrero de
1992 y diciembre de 1993. Para cada uno de los das de la semana ha
calculado la rentabilidad media del ndice. En la grfica 17 se ilustra la
informacin del cuadro 18.

Cuadro 18
Rendimientos Medios IBEX-35
Da Cierre-
Apertura
Apertura-
Cierre
Cierre-Cierre
Lunes -0,1933 0,0015 -0,1908
Martes -0,0457 0,1578 0,1127
Mircoles -0,1670 0,0863 -0,0803
J ueves -0,0522 0,2733 0,2235
Viernes -0,0424 0,2617 0,2192


Grfica 17
viernes jueves mircoles martes lunes
R
e
n
d
i
m
i
e
n
t
o

m
e
d
i
o
,3
,2
,1
,0
-,1
-,2
-,3
cierre-apertura
apertura-cierre
cierre-cierre



Las conclusiones que se obtienen son las siguientes:
Las cotizaciones del IBEX-35 son efectivamente diferentes en
los distintos das de la semana.

El efecto lunes queda claramente detectado, ya que los
rendimientos del IBEX-35, desde el cierre del viernes al cierre
del lunes son negativos (0,1908).
Como un resultado distinto al encontrado en estudios con
otros mercados, se destaca la presencia de rendimientos
negativos entre el cierre del martes y el cierre del mircoles.
En los resultados destaca tambin cmo entre el cierre de un
da y la apertura del siguiente aparecen rendimientos
negativos, al contrario que en horas de mercado, en donde los
rendimientos son positivos todos los das de la semana.
El rendimiento positivo en horas de mercado es suficiente
para que los resultados de cierre a cierre sean positivos,
excepto los lunes y mircoles.

Las explicaciones sobre el efecto lunes no estn claras. Se ha
sugerido, por ejemplo, que puede existir un sistemtico cierre al alza los
viernes, que se compensara con la bajada de los lunes. Tambin se ha
discutido la existencia de informacin no pblica, que se difundira fuera
de horas de mercado.

Respecto a la volatilidad, medida por la desviacin estndar del
ndice IBEX-35, tambin presenta unas pautas sistemticas. En la grfica
18 se representan las desviaciones estndar, calculadas en tramos de 15
minutos, para cada da de la semana. Veamos algunas de las
conclusiones:

La forma que muestran las volatilidades tiene forma de U, con una
reduccin muy importante en la volatilidad en la primera hora que
transcurre desde la apertura.
Las desviaciones estndar toman a continuacin un valor de
alrededor del 10%, incrementndose ligeramente antes del cierre.
El comportamiento de la volatilidad es similar en todos los das de
la semana.

Camino apunta como explicacin al exceso de volatilidad en la
primera hora del da a la llegada de informacin acumulada durante la
noche, es decir, sera consecuencia de la informacin que fluye durante
el perodo en el que el mercado permanece cerrado, manifestndose en
las primeras dos horas de la apertura. Las razones de una mayor
volatilidad al final de la jornada deberan buscarse, segn Camino, en la
necesidad de algunas grandes empresas por maquillar artificialmente
sus cotizaciones.


Grfica 18
HORA
17.00 16.30 16.00 15.30 15.00 14.30 14.00 13.30 13.00 12.30 12.00 11.30 11,00
,7
,6
,5
,4
,3
,2
,1
0,0
Desviacin Estndar
Lunes
Martes
Mircoles
Jueves
Viernes


Relacin entre media y desviacin estndar: Desigualdad de Chebychev. La
desigualdad de Chebychev afirma que, para cualquier variable, la proporcin de
observaciones situadas en el intervalo:[ , ] x k s x k s
x x
+ es como mnimo:
2
1
1
k


Aplicado el teorema a distintos valores de k tendremos, por ejemplo:

La proporcin de observaciones en el intervalo [ , ] x s x s
x x
+ 2 2 es, como
mnimo del 75% de los datos.
La proporcin de observaciones en el intervalo [ , ] x s x s
x x
+ 3 3 es, como
mnimo del 89% de los datos.
La proporcin de observaciones en el intervalo [ , ] x s x s
x x
+ 4 4 es, como
mnimo del 93,75% de los datos.

Por tanto, si se quiere definir un intervalo centrado en la media que
comprenda, como mnimo, el 75% de las observaciones de la variable deber
calcularse x s
x
t2 . Si el intervalo debe comprender como mnimo el 89% de las
observaciones se construir como x s
x
t3 . Este tipo de clculos se puede realizar
de manera exacta cuando se conoce la distribucin de la variable, sea utilizando
la distribucin de frecuencias emprica sea a partir de una distribucin terica. El
inters de la desigualdad de Chebychev es que no precisa del conocimiento de la
distribucin, siendo vlidos los intervalos construidos para cualquier variable.
Tiene el inconveniente de ser una aproximacin que define los intervalos de una
manera conservadora (como mnimo). Desde el punto de vista del anlisis
descriptivo la desigualdad de Chebychev proporciona una nueva perspectiva al
concepto de desviacin estndar.


Ejemplo 23. Se desea detectar, empleando la desigualdad de
Chebychev, la existencia de observaciones atpicas en una variable X,
que toma los siguientes valores {27 25 26 28 25 24 27}. La media de
la variable es:
26
7
182
1

n
X
x
n
i
i


Y su desviacin estndar:

31 , 1 26
7
4744
2 2 1
2

x
n
X
s
n
i
i
x


Puesto que como mnimo un 75% de las observaciones estarn
en el intervalo
x
s x t , podemos considerar observaciones extraas
aquellas que superen esos lmites. En este caso:

'

t
38 , 23
62 , 28
31 , 1 2 26
Por lo que puede considerarse que no hay observaciones
extremas.


Ejemplo 24. Dispersin de los ingresos. En el cuadro 19 se
recogen los ingresos anuales (en euros) de tres colectivos (pensionistas,
asalariados y empresarios). Empleando la desigualdad de Chebychev
calcularemos para cada colectivo el intervalo que comprendera, como
mnimo, el 75% de las observaciones.

Cuadro 19

Pensionista
s
Asalariados
Empresario
s
x 9735 12236 13150
s
x
2300 5400 5537

La proporcin de observaciones en el intervalo [ , ] x s x s
x x
+ 2 2
es, como mnimo del 75% de los datos. Para cada categora tendremos,
por tanto:

'

t
5135
14335
2300 2 9735
;

'

t
1436
23036
5400 2 12236
;

'

t
2076
24224
5537 2 13150


Para los pensionistas, con una media de ingresos de 9735 euros
podemos afirmar que, como mnimo, el 75% de los pensionistas ingresan
entre 5135 y 14335 euros. En los restantes grupos los resultados
pueden leerse de manera similar.



Ejemplo 25. Control de calidad. En la ltima etapa de control de
calidad de una empresa se quiere analizar el comportamiento de sus
cadenas de produccin. Durante un perodo de una semana se recoge
en las cinco cadenas de produccin existentes en la empresa,
informacin del nmero de unidades defectuosos detectadas sobre el
total producido. En el cuadro 20 se recoge la informacin del nmero de
unidades defectuosas, la cadena de produccin y el da de la semana.

Cuadro 20
% Cadena A Cadena B Cadena C Cadena D Cadena E
Lunes 160 158 170 160 149
Martes 159 157 150 158 150
Mircoles 158 150 159 157 152
Jueves 160 150 180 156 157
Viernes 159 157 150 158 158
Sbado 158 156 140 149 159
Domingo 160 158 170 160 160


La desigualdad de Chebychev puede emplearse para detectar en
qu da o en qu cadena se produce un nmero de piezas defectuosas
especial. Sabemos que como mnimo el 75% de los casos estar
comprendidos en el intervalo x s
x
t2 . Las observaciones que superen
estos lmites se considera que toman valores relativamente extremos. La
representacin grfica de los valores de la variable y los lmites basados
en la desigualdad facilita su deteccin. El nmero medio de piezas
defectuosas es:
2 , 157
35
5502
1

n
X
x
n
i
i


Y la desviacin estndar:
828 , 6 2 , 157
35
866546
2 2 1
2

x
n
X
s
n
i
i
x


Los lmites de la desigualdad sern:

'

t
143
171
828 , 6 2 2 , 157


En la grfica 19 aparecen en el eje vertical el nmero de unidades
defectuosas y en el eje horizontal los siete das de cada una de las
cadenas, destacando el comportamiento de la cadena C, en la que se
producen fuertes oscilaciones en el nmero de piezas anmalas.






Grfica 19

G r f i c a d e c o n t r o l : D E F E C T O S
L m i t e s b a s a d o s e n l a r e g l a d e C h e b y c h e v
E E E E E E E D D D D D D D C C C C C C C B B B B B B B A A A A A A A
1 9 0
1 8 0
1 7 0
1 6 0
1 5 0
1 4 0
1 3 0
L m i t e S u p .
P r o m e d i o
L m i t e I n f .
D E F E C T O S







El Diagrama de Caja. Los diagramas de cajas son representaciones grficas que
muestran la mediana, el rango intercuartlico, los valores atpicos y los casos
extremos de la variable. Son especialmente tiles cuando se trata de comparar
distintas variables o el comportamiento sobre una misma variable de distintos
grupos. El diagrama de caja aporta informacin conjunta de medidas de
posicin y de dispersin. En la grfica 20 se muestra un ejemplo de diagrama de
caja correspondiente a una variable con 25 observaciones.



El diagrama de caja presenta las siguientes caractersticas:

El eje vertical corresponde a los valores de la variable.

En el interior del rectngulo (con una lnea ms gruesa) se seala la
mediana de la variable.

Los bordes superior e inferior del rectngulo coinciden con el tercer y
primer cuartiles, respectivamente (75 y 25 percentiles). La amplitud
de ese intervalo define el rango intercuartlico (rango
IQ
), que
coincidir visualmente, por tanto, con la altura del rectngulo (el 50%
de las observaciones centrales se encuentran dentro del rectngulo; un
25% de las observaciones restantes estarn por encima y el otro 25%
por debajo).

Para detectar la existencia de observaciones atpicas, desde las cajas
se definen, tanto por arriba como por abajo, dos lmites formales (que
no se representan), ambos basados en la amplitud del rectngulo, es
decir en el rango intercuartlico de la distribucin. El primer lmite se
obtiene como 1,5 veces el rango
IQ
, el segundo lmite se sita en 3
veces la amplitud del rectngulo. En la grfica se sealan como
observaciones atpicas (outliers) aquellas que superan el lmite de 1,5
veces el rango
IQ
sin exceder el lmite superior de 3 veces el rango
IQ

(observacin 18 en la grfica). Si la observacin supera el lmite
superior se sealan con otro smbolo, considerndose observaciones
extremas (observacin 19). No todos los programas estadsticos
distinguen entre observaciones atpicas y extremas, sealndose en
ocasiones de manera general aquellas que superan 1,5 veces el
rango
IQ
.

Los lmites a los que se ha hecho referencias no son visibles en las
grficas, por lo que si no existen observaciones que los superen no se
visualizar ninguna seal.

Se representan en las grficas dos lneas perpendiculares a los bordes
del rectngulo, que llegan hasta la observacin ms alejada (en ambas
direcciones) pero que no puede definirse como outlier (inferior a 1,5
veces el rango
IQ
).

En comparaciones entre diferentes variables o, especialmente, de la
misma variable en diversos grupos, resulta interesante disponer de una
referencia visual del nmero de observaciones implicadas (el nmero
de individuos que forman parte de cada grupo). Esto se consigue

haciendo que el rea de los rectngulos sea proporcional al tamao del
grupo.


En un diagrama de caja deben visualizarse la mediana, la amplitud
(rango y rango intercuartlico) y la existencia de observaciones atpicas y/o
extremas.


Grfica 20
25 N =
DIAGRAMA DE CAJA
20
10
0
-10
18
19




Diagrama de caja. Ayudas para su interpretacin:


La lnea que seala la mediana no tiene por qu aparecer en el centro
del rectngulo. Aparecer en el medio cuando la distribucin sea
simtrica, mientras que si es asimtrica por la derecha aparecer ms
cerca del lmite inferior que del superior. Al contrario ocurrir en una
distribucin asimtrica por la izquierda.
Si se comparan distribuciones, aquella que muestre un rectngulo de
mayor amplitud corresponder a la distribucin con mayor dispersin
(medida por el rango
IQ
).
Si no existen outliers u observaciones extremas los lmites inferior y
superior vendrn sealados por las lneas externas al rectngulo.

Muchos programas facilitan la lectura de un identificador de las
observaciones atpicas o extremas.


En las grficas 21, 22 y 23 se muestran los diagramas de caja que
corresponden a tres distribuciones: simtrica, asimtrica por la derecha y
asimtrica por la izquierda, respectivamente. En la distribucin simtrica la
mediana se sita de manera equilibrada entre el tercer y primer cuartil; en la
distribucin asimtrica por la derecha, la mediana se encuentra ms cerca del
primer cuartil que del tercero; mientras que en la distribucin asimtrica por la
izquierda la mediana se acerca al tercer cuartil. La deteccin de observaciones
atpicas en la parte superior o inferior de la caja suele coincidir tambin con la
direccin de la asimetra.


Grfica 21
1000 N=
4
2
0
-2
-4
465
998
792
999




Grfica 22

10000 N =
X3
10
8
6
4
2
0
-2
2715 3043 7972 6859 4724 5210 1670 8503 3310 7868 8082 4312 5582 7492 6618 1261 170 9902 4019 6125 108 9237 571 968 4412 2835 5796 6757 2450 2153 8790 4440 1055 3769 9085 8706 8615 76 7447 167 5077 7540 7168 1356 944 9491 5195 6561 5982 9215 4300 7305 5128 136 7246 7715 9563 578 3100 2867 1698 541 7854 5645 1864 83 4438 2929 4949 7572 1428 1676 2318 7172 2101 4111 8643 3884 7455 4123 5861 8654 3282 4865 5502 8822 2602 5732 4078 7699 9209 4296 8300 8542 6193 1462 5899 5619 6017 3911 9805 4946 6397 2424 89 5155 1393 7522 7820 9609 872 5843 9226 1229 5275 7438 1109 482 4997 2693 5865 5900 9906 5788 7458 4722 1641 707 6621 4816 945 3984 6093 4582 1653 8686 9822 1839 6239 4749 7079 4870 8594 763 8683 6735 4661 6551 6820 6151 8627 6834 2472 6366 804 8326 8066 4107 9404 2070 9829 8960 8918 2002 21 855 7773 4285 7862 9554 7865 3976 6489 471 414 8336 6433 7071 3483 7141 5716 9300 1924 7661 6754 1749 2077 420 3136 9700 7355 9689 6485 1435 6953 7117 7380 7712 2106 8946 9483 5875 9927 9095 6196 8075 7931 1291 3675 5186 18 243 9680 1334 1445 4185 2948 5074 4521 5092 4118 7440 3371 1058 4595 5448 4041 5617 5592 9770 5049 1970 1398 5085 8881 8498 3302 2185 8800 4239 1448 6592 3294 9285 1420 5104 7042 5376 7100 5942 2935 7978 2333 5834 3240 4360 2163 8151 999 8435 9489 3638 6897 3894 1738 6734 5624 3547 7489 1552 9615 9714 9018 6700 6934 5770 4812 8490 9925 5954 9984 9521 9340 1611 4487 9004 7539 7736 9198 1960 5410 9622 3682 8832 6107 4081 8540 3486 2395 3999 3798 3527 8890 8048 5583 6990 6765 6963 7536 3473 926 6396 6030 3049 5279 67 4358 6236 8907 5087 5801 4916 2576 2011 9996 7182 7520 5806 3003 3950 2995 1040 1805 8185 35 6317 4408 1361 8813
238 6020 4105 6722 6259 8718 4246 3130 7330 52411 91 9835 8725 1473 929 3844 2887 6059 6048 1077 6814 1728 845 5557 8655 4617 466 9308 1337 5803
1145 3350
5536 1160 7030 7650 262 4688
7698 7742 8443 2258 8979 2974 275 2977 4431 313 688 2441 5185 236 3314 6608 927 5413 8682 7343 3773 259 1891 1023 5562 2899 8334 5673 6870 7643 7619
6445 7792 5219 3980
7989 9292 7088 218 4499
932 8710 5646
6685
4678 7988 699 5755 9861 5475 3061 5871 8577 9634
4446
1136
6907 4888 4620 178
947
4930
2756
2427



Grfica 23
1000 N =
X5
10
0
-10
-20
136 239 707 21 730 571 555 763 243 482 108 266 83 167 471 466
76 91 414 238
262 926 5
845 927 35 67
259 929
313 236
218
275
688
932 178
699
947




Ejemplo 26. El primer y tercer cuartiles de una variable se sitan
en los valores 8 y 36, respectivamente. Un diagrama de caja declarara
como observaciones atpicas aquellas situadas por debajo de 34 o por
encima de 78:


( )
( )

'

+

78 8 36 5 , 1 36
34 8 36 5 , 1 8



Ejemplo 27. En la grfica 24 se reproduce el diagrama de caja
correspondiente a los siguientes datos {9, 23, 25, 28, 32, 47, 50}.

En un ejemplo anterior ya se haban obtenido los valores de los
tres cuartiles: 23, 28 y 47. Estos valores definiran la altura del rectngulo
(el rango intercuartlico es 24) y la posicin de la mediana. Se declararan
observaciones atpicas las que superaran 1,5 veces el rango
intercuartlico. Al restar esa cantidad (36) al primer cuartil y sumrsela al
tercer cuartil se obtienen valores (13 y 83) que superan el mnimo y
mximo de la variable. No existen, por tanto, observaciones extremas y
las prolongaciones de la caja llegan al mnimo y mximo de la variable.





Grfica 24
7 N =
60
50
40
30
20
10
0



Ejemplo 28. En un estudio de una muestra de familias espaolas
se ha analizado el nivel de ingresos de las familias, teniendo en cuenta
cul es la categora profesional del sustentador principal. Se distingui
entre pensionistas, asalariados, profesionales y empresarios,
obtenindose los resultados que se muestran en el cuadro 21 y en la

grfica 25. Los diagramas de caja se han construido imponiendo que el
tamao de la caja sea proporcional al nmero de observaciones.

Cuadro 21
Pensionista
s
Asalariado
s
Profesionale
s
Empresario
s
x 8255 11236 13331 12404
Mediana 7739 9497 10628 12633
Rango
IQ 2608 6237 13282 6681


Grfica 25

343
45000
ingresos
Pension. Asalaria. Profes. Empres.


Las caractersticas que destacan de las cuatro distribuciones de
ingresos son las siguientes:

Los ingresos parecen aumentar, medidos por la mediana,
segn el orden pensionistas, asalariados, profesionales y
empresarios.

La dispersin de la variable aumenta en el mismo orden que
el valor de la mediana para los colectivos de pensionistas,
asalariados y empresarios. El colectivo con mayor dispersin
es el de los profesionales.

La distribucin de la categora de jubilados es la ms
simtrica, con la mediana situada cerca del centro del
rectngulo, mostrando una ligera asimetra por la derecha. Las
restantes distribuciones son claramente asimtricas, aunque

dos lo son por la derecha (asalariados y profesionales) y una
por la izquierda. Esta ltima distribucin es la que muestra la
asimetra ms pronunciada, al situarse la mediana muy cerca
del tercer cuartil.

El nmero de observaciones atpicas es reducido, excepto en
el caso de los asalariados.



Ejemplo 29. El crecimiento de los pases de la OCDE. En este ejemplo
se compara el PIB per capita de los pases de la OCDE en 1960 y 1990. En el
cuadro 22 se muestran unos ndices del PIB per capita, que toman como
referencia el PIB per capita de EEUU. Por ejemplo, el valor de Espaa en 1960
de 31,76 se obtiene de dividir el PIB per capita espaol por el correspondiente a
EEUU (ambos en dlares) e indica que el PIB per capita espaol era el 31,76%
del de EEUU.


En la grfica 26 reproducimos los diagramas de caja del ndice en los
dos aos. La posicin central de la distribucin de 1990 (medida por la mediana)
es muy superior a la de 1960. Ello indica que para el conjunto de pases se ha
producido una aproximacin a los niveles de riqueza de EEUU. La dispersin de
la distribucin (medida por el rango intercuartlico) es mucho menor, sealando
una cierta convergencia en los niveles de riqueza de todos los pases.


En el diagrama de caja correspondiente a 1990 se detectan tres
observaciones atpicas: Portugal, Grecia y, especialmente, Turqua, cuyos
ndices del PIB per capita son bastante inferiores. Dado que no se detectaban
como atpicos en 1960, debe inferirse que el nivel de convergencia econmica
alcanzado en estos pases es inferior al de los restantes miembros de la OCDE.
Destaca tambin la posicin de EEUU por la parte superior del diagrama. A
pesar de la convergencia en las sendas de crecimiento, este pas se ha
separado de los dems en la riqueza alcanzada. As por ejemplo, Suiza, que es
el pas que sigue a EEUU en el valor del PIB per capita pasa de tener un valor
del ndice igual a 97,20 a situarse en 95,85.




Cuadro 22
pas
PI B per capita
1960
(USA=100)
PI B per capita
1990
(USA=100)
Alemania 67,73 83,61

Australia 67,25 73,07
Austria 52,03 75,63
Blgica 53,27 74,59
Canad 66,59 86,86
Dinamarca 63,17 75,73
Espaa 31,76 53,66
Finlandia 48,57 75,53
Francia 58,81 79,13
Grecia 18,97 33,83
Holanda 63,50 72,77
I rlanda 31,22 49,14
I slandia 50,05 76,22
I talia 47,23 73,20
J apn 29,91 80,63
Luxemburgo 75,18 91,16
N. Zelanda 75,13 61,86
Noruega 50,10 73,27
Portugal 20,77 38,24
Reino Unido 67,85 72,56
Suecia 67,26 77,16
Suiza 97,20 95,85
Turqua 17,43 23,36
EEUU 100 100










Grfica 26

24 24 N =
PIB per capita, 1990 PIB per capita, 1960
120
100
80
60
40
20
0
Portugal
Grecia
Turqua
EEUU






Ejemplo 30. Empleando los catlogos del ao 2000 publicados por
diversos tour operadores britnicos se recogieron los precios de las
ofertas que realizan para una estancia de una semana en las Islas
Baleares (en la primera semana de agosto y saliendo del aeropuerto de
Gatwick). Para cada grupo de tour operadores (Airtours, Cosmos, First
Choice, Thomas Cook, Thomson y Virgin) se ha construido su diagrama
de caja con los precios de las ofertas de estancias a media pensin en
habitacin doble en un hotel de tres estrellas, con el resultado que se
muestra en la grfica 27. En esta grfica, el tamao de las cajas se ha
dibujado de manera que sea proporcional al nmero de ofertas que
realiza el tour operador. As, First Choice y Thomson seran los grupos
con ms ofertas.

La comparacin de los precios, a partir de la mediana permite detectar
importantes diferencias de precios entre los tour operadores, que posiblemente
reflejaran un poder de mercado diferente. Airtours presenta los precios ms altos,
seguida de Virgin y Thomas Cook y, en un tercer nivel, Thomson, Cosmos y
First Choice. La visin de los diagramas de caja facilita la comparacin de las
distribuciones.



Grfica 27

98281.8
198967
precio ptas
airtours cosmos firtst ch thomas co thomson virgin




Ejemplo 31. Se quiere analizar si la repeticin de la visita a una
zona implica una modificacin del gasto realizado por el turista. A partir
de un muestra de turistas alemanes se comparan los diagramas de caja
del gasto per capita y da de los que vienen por primera vez, segunda
vez, tercera vez y cuarta o ms veces. En la grfica 28 se reproducen los
diagramas correspondientes.


Grfica 28
800.974
42110.8
total def pc/da
una vez dos veces tres vece 4 o ms v



La imagen comparativa muestra la igualdad de las distribuciones,
tanto en su posicin central, como en los cuartiles (y rango
intercuartlico), mximos y mnimos.


Medidas de Asimetra y Curtosis

Existen medidas de forma que proporcionan informacin numrica sobre
dos caractersticas de la distribucin, su simetra y su apuntamiento o curtosis.
El concepto de simetra de una distribucin ha sido ya comentado y hemos visto
algunos ejemplos, aunque no hemos dado ninguna medida cuantitativa directa.
Discutiremos aqu los coeficientes de asimetra de Fisher y de Pearson. La idea
de apuntamiento o curtosis de una distribucin se refiere a la importancia de la
concentracin de las observaciones en la zona central de la variable, mostrndose
con ello una distribucin ms o menos apuntada.


Medida de asimetra de Fisher. En una distribucin simtrica las observaciones
de la variable tienden a situarse en igual proporcin a ambos lados del valor
medio. Cualquier medida que recoja alteraciones de esta situacin proporcionar
una cuantificacin de la asimetra de la distribucin. Una primera propuesta
podra ser la siguiente:
( ) X x
n
i
i
n

1

en tanto que define un promedio de las desviaciones de la variable con respecto
al valor medio. En el caso de que se dieran muchas observaciones por encima de
la media se esperara un valor positivo, mientras que una mayor proporcin de
valores por debajo de la media proporcionara un valor negativo. Es posible que
ya se haya dado cuenta de que esta propuesta, si no se modifica, es inservible,
puesto que por definicin siempre ( ) X x
i
i
n

0
1
.

Una alternativa es tomar las desviaciones de la variable respecto a la
media pero elevadas a alguna potencia. Al elevar las desviaciones al cuadrado se
obtiene la expresin de la varianza, una medida de dispersin de los valores
respecto a la media, pero que no ayuda a sealar la posicin de las observaciones
a derecha o izquierda de la medida de posicin central. El cubo de las
desviaciones, al respetar el signo de la diferencia X x
i
s permite promediar
tanto la importancia de la desviacin, como su direccin. Se utilizara, por tanto,

un estadstico conocido como el momento de orden tres con respecto a la media
(m
3
):

m
X x
n
i
i
n
3
3
1

( )


O, si los datos estn agrupados en frecuencias, como:
m
n X x
n
i i
i
p
3
3
1

( )


En funcin del signo de
3
m puede determinarse si la asimetra es por la
derecha o por la izquierda (segn un nmero relativamente elevado de
observaciones tomen valores en la parte derecha o izquierda de la distribucin).
Tambin de habla de asimetra positiva (por la derecha) o asimetra negativa (por
la izquierda). Una distribucin simtrica tender a un valor de
3
m igual a cero.
Por tanto tendremos:

m
3
0 : Simetra.
m
3
0 > : Asimetra positiva o por la derecha.
m
3
0 < : Asimetra negativa o por la izquierda.

El estadstico de asimetra de R.A. Fisher se define a partir del anterior
estadstico, plantendose como una normalizacin del mismo para evitar que la
medida vare si se produce un cambio de escala. El coeficiente se define como:

g
m
s
x
1
3
3


Normalizndose, por tanto, mediante el cubo de la desviacin estndar.
Advierta que las caractersticas del signo no varan con respecto a lo ya expuesto.

g
1
0 : Simetra.
g
1
0 > : Asimetra positiva o por la derecha.
g
1
0 < : Asimetra negativa o por la izquierda.


Medida de asimetra de Pearson. Recuerde que hemos planteado una relacin
entre media, moda y mediana que permita definir la simetra o asimetra de una
distribucin. En una distribucin simtrica los tres valores tienden a coincidir,
mientras que en una distribucin asimtrica se presentan con un orden distinto.
Pearson propuso el siguiente estadstico:

AS
x Moda
s
x




AS 0 , la distribucin es simtrica.
AS >0 , la distribucin es asimtrica por la derecha.
AS <0 , la distribucin es asimtrica por la izquierda.


Medidas de apuntamiento o curtosis. Se aplican a distribuciones simtricas y
unimodales, pretenden medir hasta qu punto las observaciones de la variable se
acumulan en la parte central de la distribucin. Para medir esta acumulacin de
las frecuencias se emplea como medida cuantitativa la siguiente:

Curtosis
X x n
s
m
s
i
i
n
x x

( ) /
4
1
4
4
4


donde m
4
definira el momento de orden cuatro respecto a la media.

El empleo de este estadstico (o el equivalente si los datos se presentan
agrupados) se justifica porque facilita la comparacin con lo que sera una
imagen que se considerara la referencia de una distribucin ni muy achatada ni
muy picuda. La distribucin utilizada es la de una variable denominada
normal, que ser el punto de referencia para la comparacin. En la grfica 29 se
representan los histogramas de cuatro variables que siguen este tipo de
distribucin (superpuesta aparece la forma idealizada del histograma).

Es con referencia a esta imagen con respecto a la que se compara el
apuntamiento de la distribucin de una variable. Si se calcula el coeficiente de
curtosis en una distribucin de tipo normal el valor que se obtiene es igual a 3,
como consecuencia de la relacin que existe en esta distribucin concreta entre el
valor m
4
y s
x
:

m s
x 4
4
3


Este tipo de distribucin normal se estudia desde un punto de vista
matemtico dentro de la estadstica no descriptiva, en un marco en el que las
distribuciones de las variables se analizan desde su idealizacin matemtica.


Grfica 29
Histogramas Normal
0
.089626
0
.089626




Las distribuciones bsicas que se pretenden detectar se corresponden a
tres tipos de imagen. La primera sera la de una distribucin normal, la segunda
la de una distribucin algo ms achatada y la tercera la correspondiente a
distribuciones con mayor frecuencia en los valores centrales. Las distribuciones
se califican de una manera especfica segn este criterio, las distribuciones
parecidas a la normal se denominan mesocrticas, las distribuciones achatadas
se denominan platicrticas (vea las grficas 30 y 31), y aquellas que muestran
ms apuntamiento se denominan leptocrticas (vea las grficas 32 y 33). En
los histogramas correspondientes suele dibujarse en ocasiones la forma terica
que correspondera a una distribucin normal, con respecto a la cual se est
haciendo la comparacin.



Grfica 30

-.1 2.6
0
.057



Grfica 31
-2.38555 5.84201
0
.08








Grfica 32
-16.758 16.5001
0
.1403



Grfica 33
-7.59041 8.28189
0
.1142




Es frecuente en los programas estadsticos que el coeficiente de curtosis
que se ofrezca en los resultados sea el siguiente:


g
m
s
x
2
4
4
3

que permite la comparacin directa con la distribucin normal

Con ello se tiene el siguiente criterio:



Ejemplo 32. A partir de la informacin del cuadro 23 sobre la
distribucin de la variable X, obtendremos los valores de la desviacin
estndar y del coeficiente de asimetra de Fisher.

Cuadro 23
i
X
i
n
i i
n X x X
i


( )
2
x X
i


( )
i i
n x X
2
( )
i i
n x X
3

0
1
2
3
4
4
5
2
2
1
0
5
4
6
4
-1,36
-0,36
0,64
1,64
2,64
1,84
0,13
0,41
2,70
6,98
7,37
0,64
0,83
5,40
6,98
-10
-0,23
0,53
8,87
18,46

14 n

19
4
1

i
i i
n X
357 , 1 x

( ) 21 , 21
4
1
2

i
i i
n x X

( ) 63 , 17
4
1
3

i
i i
n x X



La desviacin estndar ser, por tanto:

( )
231 , 1
14
21 , 21
1
2

n
n x X
s
p
i
i i
x



Y el coeficiente de asimetra de Fisher:
g
2
0 , distribucin mesocrtica (normal).
g
2
0 < , distribucin platicrtica (achatada).
g
2
0 > , distribucin leptocrtica (apuntada).


( )
67 , 0
231 , 1
14 63 , 17
3 3
3
1

x
s
m
g



Ejemplo 33. A partir de la informacin de la distribucin de la
variable X que se muestra en el cuadro 24 obtendremos los valores del
coeficiente de curtosis.

Cuadro 24
i
X
i
n
i i
n X x X
i

( )
i i
n x X
2
( )
i i
n x X
4

0
1
2
3
4
4
5
2
2
1
0
5
4
6
4
-1,36
-0,36
0,64
1,64
2,64
7,37
0,64
0,83
5,40
6,98
13,57
0,08
0,34
14,57
48,79

14 n

19
4
1

i
i i
n X
357 , 1 x

( ) 21 , 21
4
1
2

i
i i
n x X

( ) 35 , 77
4
1
4

i
i i
n x X


( )
231 , 1
14
21 , 21
1
2

n
n x X
s
p
i
i i
x


( )
59 , 0 3
231 , 1
14 35 , 77
3
4 4
4
2

x
s
m
g


Ejemplo 34. En un estudio del ndice de ocupacin de la isla de
Tenerife se analizan las variaciones del ndice desde enero de 1978
hasta abril de 1996, calculando las variaciones mensuales del mismo. En
el cuadro 25 aparece un anlisis descriptivo de la Variacin del ndice de
ocupacin. El histograma de la serie de variaciones del ndice se
reproduce en la grfica 34.


Cuadro 25
Variacin
ndice de
n x
s
x
Mnimo Mximo Asimetra Curtosis

ndice de
ocupaci
n
219 0,009 0,136 -0,381 0,452 0,351 0,60

Grfica 34
Frequency
Variacin ndice de ocupacin
-40 -20 0 20 40
10
20
30
40



Las conclusiones que pueden extraerse de esta informacin son
las siguientes:

La media de las tasas de variacin est prxima a cero,
indicando con ello que la serie no ha sufrido en el perodo
analizado un crecimiento (o decrecimiento) sistemtico.

El valor de la desviacin estndar de la Variacin del ndice de
ocupacin es elevado.

El coeficiente de asimetra est cercano a cero, coincidiendo
con el valor esperado en una distribucin simtrica de tipo
normal.

El coeficiente de curtosis, con un valor tambin cercano a cero,
indica que la distribucin tiene el mismo tipo de apuntamiento
que correspondera a la distribucin normal.


La semejanza de la distribucin a la de tipo normal queda
tambin confirmada grficamente con el histograma y la
estilizacin correspondiente a la distribucin terica normal.


Ejemplo 35. El histograma de la grfica 35 corresponde al gasto
(per capita y da) de una muestra de turistas de nacionalidad espaola en
una zona turstica.


Grfica 35
210,0
190,0
170,0
150,0
130,0
110,0
90,0
70,0
50,0
30,0
10,0
nacionalidad espaola
F
r
e
c
u
e
n
c
i
a
70
60
50
40
30
20
10
0



La distribucin no se aleja demasiado de la que correspondera a una
normal, aunque aparece algo ms apuntada en los valores centrales y con una
cierta asimetra por la derecha. El clculo de los coeficientes de asimetra y
curtosis confirma esta impresin, con valores iguales a 1,348 (ligera asimetra
positiva) y 3,035 (distribucin leptocrtica).


Ejemplo 36. Caractersticas distribucionales de los rendimientos de
los mercados emergentes. Bekaert et al. (1998) analizan los beneficios
que se obtienen como consecuencia de invertir en nuevos mercados. Se
trata de mercados con gran variabilidad, poco ligados a los mercados
desarrollados, propios de inversiones que proporcionan altos beneficios
con un horizonte temporal a ms largo plazo. Este tipo de mercado es
tambin ms sensible a las crisis polticas, devaluaciones de la moneda y

regulaciones legislativas. Los mercados emergentes no pueden
caracterizarse nicamente mediante la media y la desviacin estndar de
los rendimientos, sino que deben contemplarse adems la asimetra y la
curtosis de la distribucin.

Como caso particular Bekaert et al. (1998) comparan los
histogramas de la distribucin de los beneficios del mercado argentino y
del mercado americano (grficas 36 y 37, respectivamente). El perodo
seleccionado para recoger la informacin es desde abril de 1987 a marzo
de 1997. En el histograma de los rendimientos del mercado argentino
resalta una cierta asimetra, as como una curtosis elevada. Las cifras de
EEUU, por el contrario, estn ms prximas a la imagen idealizada de la
distribucin normal.

Como parte de su anlisis Bekaert et al. (1998) ofrecen diversos
estadsticos descriptivos de los rendimientos totales en distintos
mercados emergentes. Parte de esta informacin se reproduce en el
cuadro 26. Sobre estas cifras, los autores destacan que de veinte
pases, diecisiete muestran una asimetra positiva, mientras que
diecinueve tienen un exceso de curtosis. La idea de una distribucin de
tipo normal (simtrica y con curtosis cero) en la distribucin de los
rendimientos no parece, por tanto, adecuada.

Estos parmetros de simetra y curtosis deberan tenerse en
cuenta al decidir las inversiones, puesto que, por ejemplo, puede
suponerse que los inversores preferirn rendimientos que presenten
asimetra por la derecha que por la izquierda. La principal propuesta de
los autores se realiza en el mbito del diseo de una cartera de
inversiones, proponiendo un mtodo por el que la informacin sobre los
momentos de tercer y cuarto orden de la distribucin entran a formar
parte de los parmetros del problema de asignacin.




Grfica 36

Fraction
ARGENTINA, rendimientos mensuales
-70 -50 -30 -10 10 30 50 70 90 110 130 150 170
0
.174051








Grfica 37
Fraction
EEUU, rendimientos mensuales
-30 -10 10 30 50
0
.223881




Cuadro 26
Pas
Media
aritmtica
(%)
Media
geomtric
a (%)
Desviacin
estndar
Asimetr
a
Curtosis
Argentina 56.8 27.2 87.9 3.32 20.22
Brasil 42.6 22.1 63.9 0.25 1.09
Chile 32.2 28.2 27.6 0.28 -0.07
Colombia 32.7 28.0 31.5 1.63 4.14
Grecia 21.6 14.0 41.2 1.76 6.33
India 11.7 6.3 33.8 0.72 1.11
Jordania 5.9 4.6 15.9 0.17 1.53
Malasia 17.3 13.9 25.2 -0.86 2.79
Mjico 29.2 17.2 45.4 -1.01 5.41
Nigeria 32.6 18.1 52.3 1.49 19.64
Paquistn 14.7 11.1 27.4 1.23 4.27
Filipinas 23.4 17.7 34.1 0.67 3.69
Portugal 15.7 9.0 39.2 2.35 12.91
Corea del Sur 6.6 2.8 28.0 0.59 0.42
Taiwan 30.4 17.2 52.4 0.59 1.45
Tailandia 20.5 15.0 32.7 -0.19 1.81
Turqua 41.9 19.7 70.5 0.97 1.04
Venezuela 23.9 12.9 46.9 0.25 2.23
Zimbaue 25.4 21.0 29.3 0.02 1.25


CAPTULO IV. Anlisis BIVARIANTE de VARIABLES CUALITATIVAS



El anlisis del comportamiento de una variable casi siempre implica
discutir sobre su relacin con otras variables. A continuacin se estudiarn
dos tipos de relaciones bivariantes. El primer tipo comprende la relacin
entre dos variables de tipo cualitativo, incluyendo en ellas variables
cuantitativas cuyo tratamiento efectivo la asimila una variable cualitativa
ordinal. El segundo, en el prximo captulo, se refiere a la relacin entre dos
variable cuantitativas. En ambos contextos se estudia la asociacin entre dos
variables, aadiendo a la cuestin de su deteccin y medicin, la posible
determinacin de una relacin de dependencia.

La definicin estadstica de una relacin de dependencia entre dos
variables (sean stas cualitativas o cuantitativas) intenta establecer cul es la
variable (independiente) que influye en la otra (dependiente). En el lenguaje
estadstico tambin se habla de una variable explicativa y una variable explicada.
La idea de causalidad supone algo ms que la asociacin entre ellas, puesto que
impone una relacin de dependencia entre las variables, debiendo plantear qu
variable es dependiente y qu variable es independiente. Desde el punto de vista
estadstico existen tcnicas para establecer la direccin e importancia cuantitativa
de la causalidad, pero su aplicacin adquiere pleno sentido cuando se acompaa
de algn tipo de hiptesis terica, aunque sea al nivel puramente exploratorio de
los datos.



Distribucin conjunta de variables. Tabla de contingencia


Al tratar de describir la relacin entre dos variables cualitativas, que
denotaremos A y B, la principal herramienta de anlisis es la tabla de frecuencias
conjunta o tabla de contingencia. Se considera que cada una de las variables
puede tomar una serie de valores mutuamente excluyentes, de manera que sobre
cada individuo de la muestra puede observarse cules son las categoras a las que
pertenece en cada una de las variables. Como en el caso de la estadstica
univariante, la primera manera de resumir la informacin es el puro cmputo.
Empleando una tabla de doble entrada se muestran todas las posibles
combinaciones de las categoras de las dos variable, anotando en cada una de las
celdas resultantes el nmero de casos que pertenecen a las dos categoras. La
presentacin usual de este tipo de tablas, representando su distribucin conjunta,
se muestra en el cuadro 1.

Cuadro 1
B
1
B
2
B
J

A
1
n
11
n
12
n
1J

A
2
n
21
n
22
n
2J


A
I
n
I1
n
I2
n
IJ



En la anterior tabla se relacionan las dos variables indicadas como A y B,
cada una de ellas con un nmero de atributos o categoras igual a I y J,
respectivamente (A
i
, i=1,,I; B
j
, j=1,, J); n
ij
indica el nmero de observaciones
que presentan simultneamente las caractersticas i y j de las variables A y B. El
tratamiento ms elemental de esta informacin es la obtencin de las distintas
frecuencias. En las tablas de contingencia se muestran las frecuencias (absolutas
o relativas) en las que ocurren las categoras de filas y columnas. La notacin
empleada no debe provocarle ninguna dificultad, aunque dado que la lectura de
los subndices siempre resulta algo engorrosa piense que lo que se est
definiendo como tratamientos de la tabla de distribucin conjunta es la
formalizacin de una lectura natural de la tabla: como frecuencias absolutas,
como frecuencias relativas respecto al total de observaciones y como frecuencias
relativas respecto a cada uno de los lados de la tabla.

(i) Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada
una de las variables. Para ello es suficiente con sumar todas las celdas
correspondientes a cada una de las filas o de las columnas. En el cuadro 2 se
muestra la tabla de contingencia cuando se incluyen las distribuciones
marginales. En la misma,
n n
i ij
j
J
.

1
, n n
j ij
i
I
.

1


Cuadro 2
B
1
B
2
B
J

Distribucin
marginal de
A
A
1
n
11
n
12
n
1J
n
1.

A
2
n
21
n
22
n
2J
n
2.


A
I
n
I1
n
I2
n
IJ
n
I.

Distribucin
marginal de
B
n
.1
n
.2
n
.J
n

(ii) Distribucin de frecuencias relativas. Son las frecuencias relativas de cada
una de las celdas respecto al total de observaciones (cuadro 3).

Cuadro 3
B
1
B
2
B
J

Distribucin
marginal de
A
A
1

n
n
11

n
n
12


K
n
n
J 1

n
n
. 1

A
2

n
n
21

n
n
22


K
n
n
J 2

n
n
. 2

M M
K
M M
A
I

n
n
I1

n
n
I 2


K
n
n
IJ

n
n
I .

Distribucin
marginal de
B
n
n
1 .

n
n
2 .


K
n
n
J .


1


(iii) Perfiles fila. Corresponde a la tabla en la que aparecen las frecuencias
relativas de cada una de las celdas con respecto al total de las filas (cuadro 4).

Cuadro 4
B
1
B
2
B
J

A
1

. 1
11
n
n
. 1
12
n
n
K
. 1
1
n
n
J
1
A
2

. 2
21
n
n
. 2
22
n
n
K
. 2
21
n
n
1
M M
K
M M
A
I

.
1
I
I
n
n
.
2
I
I
n
n

K
. I
IJ
n
n
1
Distribucin
marginal de
B
n
n
1 .
n
n
2 .
K
n
n
J .
1

(iv) Perfiles columna. Muestra las frecuencias relativas de cada una de las celdas
con respecto al total de las columnas (cuadro 5).

Cuadro 5
B
1
B
2
B
J

Distribucin
marginal de
A
A
1

1 .
11
n
n

2 .
12
n
n
K
J
J
n
n
.
1
n
n
. 1

A
2

1 .
21
n
n

2 .
22
n
n
K
J
J
n
n
.
2
n
n
. 2

M M
K
M M
A
I

1 .
1
n
n
I

2 .
2
n
n
I
K
J
IJ
n
n
.
n
n
I .

1 1 1 1


Ejemplo 1. Diferencias en el tamao de las empresas industriales.
Para el sector industrial espaol se desea analizar si existe alguna
relacin entre el tamao de las empresas y el sector concreto al que
pertenecen. Empleando un ao de la Encuesta Industrial se ha recogido
para 610 empresas, informacin consistente en el sector al que
pertenece la empresa (Metal, Qumica, Alimentacin, Confeccin,
Madera, Papel, Minerales no metlicos, Construccin) y su tamao,
medido en tres intervalos: de 20 a 99 empleados, de 100 a 499 y de ms
de 500. Los resultados del cruzamiento de estas dos variables (sector y
tamao) se ofrecen en el cuadro 6 (frecuencias absolutas).

Cuadro 6
20/99 100/499 ms 500 Totale
s
Metal 50 73 90 213
Qumica 13 31 15 59
Alimentacin 14 15 9 38
Confeccin 33 48 8 89
Madera 20 3 1 24
Papel 9 10 4 23
Minerales 11 9 5 25
Construcci
n
80 31 28 139

Totales 230 220 160 610


En el cuadro 7 se muestran los porcentajes, respecto al total de
empresas considerado en la muestra, de cada una de las celdas de la
tabla. La tabla puede representarse en un espacio de tres dimensiones
para facilitar su lectura. En la grfica 1 se ofrece esa representacin,
indicndose con la serie numrica 1 a 8 los sectores productivos
correspondientes.

Cuadro 7
20/99 100/499 ms 500 Totales
Metal 8,20 11,97 14,75 34,92
Qumica 2,13 5,08 2,46 9,67
Alimentacin 2,30 2,46 1,48 6,23
Confeccin 5,41 7,87 1,31 14,59
Madera 3,28 0,49 0,16 3,93
Papel 1,48 1,64 0,66 3,77
Minerales 1,80 1,48 0,82 4,10
Construccin 13,11 5,08 4,59 22,79
Totales 37,70 36,07 26,23 100,00



Grfica 1
1
2
3
4
5
6
7
8
20 a 99
100 a 499
ms 500
0,00
5,00
10,00
15,00



Sea a travs de la tabla de frecuencias conjunta o por medio de
su representacin puede obtenerse una visin de la importancia de cada
de los sectores y su distribucin en funcin del tamao de las empresas.
En un problema como el planteado aqu, en el que interesa destacar la

distribucin de cada sector segn el tamao, sera de ms ayuda la tabla
de perfiles fila que se muestra en el cuadro 8. En la misma es fcil
detectar que el sector del metal sera el representativo de las grandes
empresas, mientras que los sectores de la madera, construccin y
minerales no metlicos estaran caracterizados por un mayor nmero de
empresas pequeas. El sector de la confeccin y el qumico se
caracterizaran por tener empresas de tamao mediano, mientras que el
sector del papel acumulara empresas pequeas y medianas. El sector
de la alimentacin, por ltimo, sera el que mantendra un equilibrio
mayor entre los tres tipos de tamao. La conclusin general es, por tanto,
que efectivamente existen claras diferencias en el tamao de las
empresas segn el sector productivo, habiendo ayudado la estructura de
perfiles fila a describir la distribucin particular de cada uno de los
sectores.

Cuadro 8
20 a 99 100 a 499 ms 500 Totales
Metal 23,47 34,27 42,25 100,00
Qumica 22,03 52,54 25,42 100,00
Alimentacin 36,84 39,47 23,68 100,00
Confeccin 37,08 53,93 8,99 100,00
Madera 83,33 12,50 4,17 100,00
Papel 39,13 43,48 17,39 100,00
Minerales 44,00 36,00 20,00 100,00
Construccin 57,55 22,30 20,14 100,00
Totales 37,70 36,07 26,23 100,00


Advierta, sin embargo, que la lectura de la tabla en trminos de
los perfiles fila, no anula los comentarios que pueden realizarse cuando
se toma la tabla en la direccin de las columnas. Aunque resulta obvio, el
hecho de que el sector de la madera sea representativo de las empresas
de pequeo tamao, su menor nmero en el total de la muestra hace que
en trminos de la distribucin de las empresas de este tamao entre
sectores (perfiles columna) su importancia sea pequea (vase cuadro
9). Si se quisiese incidir de manera global en este tipo de empresas los
sectores de la construccin y el metal seran los de mayor peso. Una
discusin similar podra realizarse para las restantes columnas.

Cuadro 9
20/99 100/499 ms 500 Totales
Metal 21,74 33,18 56,25 34,92
Qumica 5,65 14,09 9,38 9,67

Alimentacin 6,09 6,82 5,63 6,23
Confeccin 14,35 21,82 5,00 14,59
Madera 8,70 1,36 0,63 3,93
Papel 3,91 4,55 2,50 3,77
Minerales 4,78 4,09 3,13 4,10
Construccin 34,78 14,09 17,50 22,79
Totales 100,00 100,00 100,00 100,00


La interpretacin de los resultados de una tabla de contingencia obliga a
una lectura cuidadosa de los porcentajes de filas y columnas, al ofrecer diferentes
perspectivas de la misma informacin.

Ejemplo 2. Baleares como segunda residencia. Con el objetivo de
conocer la evolucin y estructura del gasto turstico, el Govern Balear
realiza anualmente una encuesta sobre el gasto turstico en las Islas
Baleares. Entre la informacin que se publica para el ao 1990 aparece
el deseo que los turistas tienen de seleccionar Baleares como una
posible segunda residencia. Considerando que este deseo puede estar
en funcin de la zona en donde se ha realizado la estancia, las
respuestas a la cuestin deseara escoger Baleares como segunda
residencia? se han cruzado con el lugar de estancia. Las posibles
respuestas a la pregunta son: (i) no; (ii) s, en los prximos aos; (iii )s,
cuando me jubile, (iv) no lo sabe. Los lugares de estancia se han
clasificado en las siguientes zonas: (1) Palma; (2) Costa de Ponent; (3)
Costa de Tramuntana; (4) Badia de Pollena; (5) Badia dAlcudia; (6)
Costa de Llevant; (7) Platja de Palma-SArenal; (8) Menorca; (9) Eivissa-
Formentera. La informacin correspondiente a los turistas llegados a la
isla en temporada alta se recoge en el cuadro 10. La distribucin de
porcentajes fila y columna se muestran en los cuadros 11 y 12,
respectivamente.

Cuadro 10
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 88 524 36 97 395 593 358 200 520 2812
S, prx.aos 25 143 8 37 100 182 120 94 148 856
S, jubilacin 16 148 8 48 167 233 102 90 157 968
NS/NC 34 211 19 39 212 249 118 115 181 1178
Totales 163 1026 71 221 874 1257 698 498 1006 5814

Cuadro 11
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales

No 3,13 18,63 1,28 3,45 14,05 21,09 12,73 7,11 18,49 100
S, prx.aos 2,92 16,71 0,93 4,32 11,68 21,26 14,02 10,98 17,29 100
S, jubilacin 1,65 15,29 0,83 4,96 17,25 24,07 10,54 9,30 16,22 100
NS/NC 2,89 17,91 1,61 3,31 18,00 21,14 10,02 9,76 15,37 100
Totales 2,80 17,65 1,22 3,80 15,03 21,62 12,01 8,57 17,30 100

Cuadro 12
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 53,99 51,07 50,70 43,89 45,19 47,18 51,29 40,16 51,69 48,37
S, prx.aos 15,34 13,94 11,27 16,74 11,44 14,48 17,19 18,88 14,71 14,72
S, jubilacin 9,82 14,42 11,27 21,72 19,11 18,54 14,61 18,07 15,61 16,65
NS/NC 20,86 20,57 26,76 17,65 24,26 19,81 16,91 23,09 17,99 20,26
Totales 100 100 100 100 100 100 100 100 100 100

En el cuadro 11 puede observarse la distinta afluencia de
turistas segn las zonas, las que reciben mayor afluencia de visitantes
son la zona 2 (Costa de Ponent, 18%) zona 5 (Badia dAlcudia, 15%),
zona 6 (Costa de Llevant, 22%) y zona 9 (Eivissa-Formentera, 17%),
mientras que la zona 3 (Costa de Tramuntana, 1%) y la zona 4 (Badia de
Pollena, 4%) son las que menos turistas reciben. En el cuadro 12
pueden leerse los porcentajes totales de aceptacin: el 48% de los
encuestados no elegiran las islas como segunda residencia, mientras
que el 32% s lo hara, el 15% en los prximos aos y el 17% en la
jubilacin. Los porcentajes segn el lugar de estancia no varan en
exceso, aunque pueden observarse dos zonas en las que claramente se
supera el valor medio de aceptacin: la zona 4 (Badia de Pollena, para
la que el 39% de los turistas visitantes de la zona escogeran las Islas) y
la zona 8 (Menorca, con el 37% de sus visitantes). Entre las zonas donde
se observa un rechazo a esta seleccin destaca la ciudad de Palma
(54% de respuestas negativas).

En los siguientes apartados se tratan algunos estadsticos de asociacin
para variables de tipo cualitativo. Los dos primeros se centran en algunos
coeficientes de asociacin para variables nominales u ordinales (Chi-cuadrado, C
de contingencia y lambda), mientras que en el tercero se explican algunas
medidas de asociacin para cualitativas ordinales (gamma, tau-b y tau-c).



Chi-Cuadrado y C de contingencia



La lectura de los porcentajes de una tabla de frecuencias permite
averiguar si existe algn tipo de asociacin entre las diversas categoras de las
variables, verificando si el hecho de pertenecer a alguna de las categoras de una
de las variables permite asegurar una frecuencia mayor o menor de la esperada
respecto a las categoras de la otra variable. Retomemos el ejemplo anterior en el
que se analiza las respuestas de los turistas de Baleares a la pregunta deseara
escoger Baleares como segunda residencia?, teniendo en cuenta la zona en la
que han pasado sus vacaciones en las islas. El total de turistas que contestan
No a esta pregunta es aproximadamente del 48%. En el caso de que el lugar de
estancia no tuviese una especial influencia en esta opinin, el porcentaje de
noes esperado sera el mismo independientemente de la zona de vacaciones. Es
decir, tanto en la zona 1 como en la zona 2, etctera, esperaramos un porcentaje
de respuestas negativas muy cercano al 48%. Al observar una zona con un
porcentaje distinto (sea mayor o menor) que el calculado sobre toda la muestra es
cuando se detecta una asociacin entre las dos variables cualitativas. Si la
distribucin de frecuencias se modifica en funcin de la zona de estancia
podemos hablar de una asociacin entre las dos variables.

Una medida sinttica del grado de asociacin se calcula a partir de la
comparacin entre los valores observados y los valores que uno esperara
encontrar en el caso de inexistencia de asociacin. Si no se esperase ninguna
asociacin entre el lugar de estancia y la posible segunda residencia, la
distribucin de frecuencias relativas en trminos de los perfiles columna sera la
reproducida en el cuadro 13.

Cuadro 13
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37
S, prx.aos 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72
S, jubilacin 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65
NS/NC 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26
Totales 100 100 100 100 100 100 100 100 100 100


Es decir, todos los perfiles columna seran iguales a la distribucin
marginal. En trminos de las frecuencias absolutas los resultados que
esperaramos encontrar (frecuencias esperadas, e
ij
) seran los del cuadro 14.

Cuadro 14
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 79 496 34 107 423 608 338 241 487 2812
S, prx.aos 24 151 10 33 129 185 103 73 148 856
S, jubilacin 27 171 12 37 145 209 116 83 167 968

NS/NC 33 208 14 45 177 255 141 101 204 1178
Totales 163 1026 71 221 874 1257 698 498 1006 5814

Cada una de las celdas de la tabla se obtiene aplicando el porcentaje de
los totales de la ltima columna al nmero de personas que han estado en cada
zona, por ejemplo:

e e
11 12
2812
5814
163 79
2812
5814
1026 496 ; ; ...

e e
21 22
856
5814
163 24
856
5814
1026 151 ; ; ...

Si las cifras observadas son parecidas a las esperadas suponiendo
independencia de las respuestas, las diferencias entre los valores observados n
ij
y
los esperados e
ij
estaran prximas a cero. El estadstico de asociacin chi-
cuadrado,
2
, resume esta posible discrepancia para el conjunto de las celdas de
la tabla:

( )

2
2
1 1




n e
e
ij ij
ij j
J
i
I


Este estadstico suma para todas las celdas la discrepancia, elevada al
cuadrado, entre la frecuencia observada y la esperada; normalizando esa cifra
mediante el valor esperado.

Si no existe ningn grado de asociacin entre las variables cualitativas
los valores esperados seran iguales a los valores observados, con lo que el valor
del estadstico en este caso sera igual a cero.

Inexistencia de asociacin entre las variables
( )

2
2
1 1
0



n e
e
ij ij
ij j
J
i
I



En el cuadro 15 se leen las cifras correspondientes a las diferencias
( )
n e
e
ij ij
ij

2


del ejemplo de segunda residencia.

Cuadro 15
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9
No 1,1 1,6 0,1 0,9 1,8 0,4 1,3 7 2,3
S, prx.aos 0,0 0,4 0,6 0,6 6,4 0,1 2,9 5,7 0,0
S, jubilacin 4,6 3,1 1,2 3,4 3,1 2,6 1,8 0,6 0,7
NS/NC 0,0 0,0 1,5 0,7 6,9 0,1 3,9 1,9 2,5


La suma de todas estas cantidades proporciona el valor del estadstico
chi-cuadrado, que en este caso es igual a 71,87. Dado que este valor no est
cercano a cero, puede afirmarse que existe algn tipo de asociacin entre las dos
variables. Dicho de otra manera, puede afirmarse que lo que se opina sobre
Baleares como segunda residencia tiene algn tipo de relacin con la zona de
estancia de las vacaciones.

El problema de este estadstico es que aunque tiene un lmite inferior con
una interpretacin muy clara, tal como est definido no proporciona un lmite
superior que permita referirnos al grado de asociacin existente. Como ya se ha
comentado, muchos estadsticos tienen una mayor utilidad si definen lmites a los
que tomar como referencia. En este caso, el lmite inferior es cero e indica la
ausencia total de dependencia entre las dos variables, pero desconocemos el
lmite superior que puede tomar y, por tanto, no podramos afirmar si la
asociacin detectada es fuerte o dbil.

Como una opcin al estadstico chi-cuadrado, K. Pearson propuso el
coeficiente C de contingencia definido como:

2
2

n
C

El lmite superior de este estadstico no est, sin embargo, libre de
problemas. El coeficiente C toma su valor mnimo cuando
2
es cero, es decir si
entre las dos variables no existe asociacin. El valor mximo del coeficiente, que
se da cuando existe una asociacin completa entre las variables, depende del
nmero de modalidades de las variables. El mximo que puede alcanzar el
coeficiente es uno (correspondiente a dos variables con infinitas modalidades),
pero no siempre se alcanza. Por ejemplo, cuando se trata de una tabla cuadrada
I x I (igual nmero de filas que de columnas), el lmite superior es igual a
( ) I I 1 . En general, el lmite mximo del coeficiente es igual a:

( )
( ) 2 , ,
,
1
1 J I mn
J I mn



El coeficiente C de contingencia toma valores entre 0 y 1. Valores de C
cercanos a cero indican un grado de asociacin pequeo. Valores cercanos a uno
seran sntoma de asociacin entre las variables.



Ejemplo 3. Caractersticas de los hogares unipersonales. Se desea
conocer si los hogares unipersonales son caractersticos de las zonas
urbanas. Para ello y utilizando datos de la EPF-90 se cruza informacin
sobre estas dos caractersticas del hogar. La variable denominada
unipersonal toma dos posibles atributos segn el hogar sea o no sea unipersonal;
la variable zona indica si el hogar pertenece al medio rural o al medio urbano.
Los resultados del cruzamiento se ofrecen en los cuadros 16 (frecuencias
observadas) y 17 (porcentajes de filas, columnas y sobre el total, en este
orden).

Puede observar que los hogares unipersonales representan el 10,2% de
los hogares de la EPF-90, los porcentajes de este tipo de hogar segn se
distinga entre su pertenencia a zona rural o urbana no son muy distintos (10,5%
y 10%, respectivamente). Una informacin similar se obtiene analizando los
perfiles fila. Los hogares urbanos representan el 51,9% del total de hogares,
siendo el porcentaje igual a 50,6% cuando se consideran nicamente los
hogares unipersonales. La lectura de estos porcentajes, por lo tanto, no parece
indicar una asociacin importante entre las variables tipo de hogar (unipersonal
o no) y zona de residencia (rural o urbana).

Cuadro 16
Zona:
Unipersonal: Rural Urbana Totales
No 9070 9840 18910
S 1065 1091 2156
Totales 10135 10931 21066

Cuadro 17
Zona:
Unipersonal: Rural Urbana Totales

No
48%
89,5%
43,1%
52%
90%
46,7%

89,8%


S
49,4%
10,5%
5,1%
50,6%
10%
5,2%

10,2%
Totales 48,1% 51,9%

Cuadro 18
Zona:
Unipersonal: Rural Urbana Totales
No 73 , 9097 10135
21066
18910


27 , 9812 10931
21066
18910


18910
S 27 , 1037 10135
21066
2156


7 , 1118 10931
21066
2156


2156
Totales 10135 10931 21066


Para conocer el valor del estadstico de asociacin chi-cuadrado
deben obtenerse los valores esperados de cada celda, calculados segn
se muestra en el cuadro 18, siendo el valor del estadstico:

( ) ( ) ( ) ( )
59 , 1
7 , 1118
7 , 1118 1091
27 , 1037
27 , 1037 1065
27 , 9812
27 , 9812 9840
73 , 9097
73 , 9097 9070
2 2 2 2
2



Y el valor del coeficiente C:

0087 , 0
59 , 1 21066
59 , 1
2
2

n
C


El coeficiente C, al estar tan prximo a cero apunta la ausencia de
asociacin entre las dos variables.




Lambda


Este coeficiente se define tomando como base el concepto de prediccin.
Supongamos que queremos predecir la respuesta de un individuo a la pregunta de
una encuesta. Si no sabemos nada de ese individuo, una prediccin razonable
sera suponer que su respuesta coincidir con la opcin que ms gente haya
contestado. Al adoptar este criterio interpretaramos como valor ms probable

aquel que en la muestra se ha descubierto como el ms frecuente. As, por
ejemplo, si tuviramos que asignar una familia espaola a la categora de hogar
urbano o rural, empleando la informacin del cuadro 16, este criterio aconsejara
asignarlo a la categora ms frecuente, en este caso el hogar urbano. Obviamente,
existe la posibilidad de cometer un error. Puede medirse la importancia del
error? Si aplicsemos este criterio a las 21066 familias de la muestra EPF-90
realizaramos una prediccin correcta en 10931 casos (las familias que
efectivamente pertenecen a la opcin mayoritaria), mientras que cometeramos
un error en las 10135 familias restantes (las familias que no pertenecen a la moda
de la distribucin).

En el caso de disponer de informacin adicional, la prediccin podra
intentar mejorarse. Por ejemplo, si supiramos que la familia que queremos
asignar como hogar rural o urbano tiene alguna otra caracterstica, podramos
utilizar esa informacin en el proceso de asignacin. Supongamos que,
efectivamente, se conoce si en ese hogar existen o no personas con ms de 60
aos. Podramos mejorar el nmero de aciertos si utilizsemos esta
informacin?

En los cuadros 19 (frecuencias absolutas) y 20 (porcentajes fila) se
muestra el cruzamiento de las dos variables.



Cuadro 19
Zona:
mayores de 60 aos: Rural Urbana Totales
No 5318 6726 12044
S 4817 4205 9022
Totales 10135 10931 21066


Cuadro 20
Zona:
mayores de 60 aos: Rural Urbana Totales
No 44,2% 55,8% 100%
S 53,4% 46,6% 100%
Totales 48,1% 51,9% 100%


Si sabemos que en la familia hay miembros mayores de 60 aos
modificaramos la prediccin. La distribucin de la fila correspondiente a este
tipo de hogar entre rural y urbano es del 53,4% y 46,6%, respectivamente,

cuando en el total el porcentaje era del 48,1% y 51,9%. La prediccin, si
mantenemos el criterio de asignar la familia al atributo ms frecuente es distinta
ahora, al ser la caracterstica de hogar rural la ms frecuente entre aquellos
hogares con familias que tienen algn miembro mayor de 60 aos. Cul ser el
error que se cometera si se aplica la prediccin a todas las familias de la
muestra? Por un lado, si en la familia hay mayores de 60 aos, se asignaran
errneamente a zonas rurales las 4205 familias que viven en zonas urbanas. Por
otro lado, si sabemos que en la familia no existe ningn miembro de 60 aos,
cualquier familia para la que hagamos la prediccin la situaramos en zona
urbana, al tratarse de la categora ms frecuente (55,8% de los casos). El error
que cometeramos en este caso sera de 5318 familias. En total, por tanto, el error
global sera de 4205+5318 familias, igual a 9523.

Al considerar dos variables puede utilizarse una de ellas para facilitar la
prediccin de la otra. La prediccin de la variable dependiente se realiza
condicionada a los valores de la variable independiente.

Se ha mejorado la prediccin al tener en cuenta la variable mayores de
60 aos? Manteniendo siempre como criterio de prediccin la asignacin de un
individuo a la caracterstica ms frecuente, cuando no se ha tenido en cuenta esta
variable el error global era de 10135 familias y cuando se ha considerado, el error
global ha sido de 9523. En consecuencia, se ha mejorado la prediccin en slo
612 familias que ahora se asignaran correctamente. Porcentualmente puede
valorarse si se ha producido una mejora mediante la siguiente medida de
reduccin proporcional del error:

10135 9523
10135
0 06038 ,

Cmo debe leerse este estadstico? El valor obtenido indica que
sabiendo que en la familia viven una o ms personas por encima de los 60 aos el
error de la prediccin se reducira un 6,04%, en este caso una cifra pequea.

En general, el estadstico lambda se define como:


error no condicionado - error condicionado
error no condicionado


donde:
error no condicionado, es el error de prediccin cometido cuando las
predicciones para los atributos de la variable dependiente no estn condicionadas
a otra variable.

error condicionado, es el error de prediccin cometido cuando las
predicciones para los atributos de la variable dependiente se hacen condicionadas
a los atributos de una variable independiente.

El valor mnimo de lambda es cero y se dar cuando el error no
condicionado = error condicionado, es decir, cuando el error de la prediccin no
se mejora al tener informacin de la segunda variable. El valor mximo es igual a
1 y se da cuando el error condicionado se hace cero, es decir, cuando la
prediccin condicionada reduce el error totalmente.

El estadstico lambda toma valores entre cero y uno: 0 1 . Un
valor de lambda igual a cero quiere decir que la variable independiente no ayuda
a predecir la variable dependiente: no se reduce el error de prediccin cuando se
usan los valores de una variable para predecir la otra; el valor de lambda igual a 1
indica una prediccin condicionada que reduce el error original en un 100%.

Al cruzarse dos variables, el estadstico lambda puede calcularse de dos
maneras distintas, alternando la definicin de cul de las dos variables se
considera independiente. Es decir, que se obtiene un valor de lambda distinto
segn se considere la prediccin de una u otra variable. En el ejemplo numrico
al que estamos haciendo referencia hemos planteado la prediccin de las
frecuencias de la variable urbano condicionadas a la variable mayores de ms de
60 aos. De una forma alternativa podramos haber planteado la prediccin de
mayores de 60 aos condicionada a los valores de la variable urbano. Como
veremos a continuacin, el valor de lambda que se obtiene es distinto.

La prediccin no condicionada nos llevara a un error (error no
condicionado) igual a 9022. Al darse una mayor frecuencia de familias con
ningn miembro de ms de 60 aos (12044 familias) frente a las que tienen uno o
ms de uno (9022 familias) el criterio de prediccin que hemos definido nos
conducira a asignar a una familia al grupo mayoritario, lo que supondra (en caso
de aplicarse en la propia muestra) realizar una asignacin incorrecta en 9022
familias. El error que cometemos al predecir de manera condicionada es la suma
de dos cantidades: si supisemos que el hogar est en una zona rural
predeciramos para cualquier familia que no hay ningn individuo de ms de 60
aos, cometiendo un error en la muestra de 4817 familias; si consideramos que el
hogar est en una zona urbana, la prediccin (al ser tambin la frecuencia
mayoritaria) es la misma y el error igual a 4205 familias. El estadstico lambda
ser por tanto:

+

9022 4817 4205


9022
0
( )



En consecuencia, tener informacin sobre la variable mayores de 60 aos
no mejora en nada la prediccin de la variable urbano.

El estadstico lambda ofrece resultados distintos segn cul de las dos
variables de la tabla de contingencia se utilice como variable dependiente.

Una sntesis de los dos estadsticos lambda es el denominado lambda
simtrico definido como una combinacin de los dos anteriores. En nuestro
ejemplo tomara el siguiente valor:

+
+

( ) ( )
,
10135 9523 9022 9022
10135 9022
0 03195

El estadstico lambda simtrico se define como la combinacin de los
lambdas simples y resume la reduccin del error de prediccin cuando no existe
ninguna razn para considerar a una de las dos variables como dependiente.

Ejemplo 4. Nivel de estudios y categora socioeconmica. El nivel de
estudios alcanzado por un individuo puede entenderse como una
inversin en capital humano que debe tener su recompensa en su nivel
de ingresos o en la categora social en la que se inserta. Como una
manera de valorar esta hiptesis se han cruzado dos variables de la
EPF-90, la primera recoge el nivel de estudios del sustentador principal
(SP), la segunda recoge su categora socioeconmica.

Las categoras de las variables se recogen a continuacin:

Nivel de estudios del SP:

1. Analfabeto o sin estudios.
2. Primarios, EGB o FP-1.
3. BUP, COU, FP-2.
4. Diplomado universitario o equivalente.
5. Estudios superiores o equivalentes.

Categora socioeconmica:

1. Empresarios y directivos agrarios.
2. Resto de trabajadores y miembros de cooperativas agrarias.
3. Empresarios, profesionales y trabajadores independientes no
agrarios.
4. Directores profesionales y jefes administrativos por cuenta
ajena.

5. Resto del personal de servicios y profesionales de las Fuerzas
Armadas.
6. Contramaestres, operarios cualificados y miembros de
cooperativas no agrarias.
7. Operarios sin especializacin, no agrarios.
8. No clasificables.


Los resultados del cruzamiento de estas dos variables se
muestran en el cuadro 21 (frecuencias absolutas, porcentajes fila,
columna y totales). El clculo de algunos de los estadsticos de
asociacin de esta tabla son los siguientes: chi-cuadrado igual a
11231,389; coeficiente C de contingencia igual a 0,58970; lambda
simtrica igual a 0,07016; lambda con categora socioeconmica como
variable dependiente 0,04047; lambda con nivel de educacin como
dependiente 0,09137. Qu conclusiones pueden obtenerse de estas
cifras?


El clculo de los estadsticos muestra que efectivamente existe
una asociacin importante entre las dos variables, mostrando el
coeficiente C de contingencia un valor alejado del cero y relativamente
prximo al valor terico mximo del estadstico (igual a uno). Este grado
de asociacin, sin embargo, no se ve reflejado en el estadstico lambda.
En concreto, dado que la relacin de dependencia que nosotros hemos
planteado a priori implica una dependencia de la categora
socioeconmica del nivel de estudios del individuo, debemos leer la cifra
correspondiente a lambda con la categora socioeconmica como
variable dependiente, que es igual a 0,04047. El error de prediccin se
reduce, por tanto, slo en un 4,05% cuando se emplea el nivel de
estudios como variable dependiente.


Cuadro 21
Categora socioeconmica del sustentador principal (SP):
Nivel de
estudios
del SP:
1 2 3 4 5 6 7 8 9 Totales
1
259
4,8
33,2
1,2
383
7,0
50,6
1,8
247
4,5
11,7
1,2
3
0,1
0,2
0,0
256
4,7
8,2
1,2
645
11,8
14,8
3,1
113
2,1
30,9
0,5
44
0,8
26,3
0,2
3500
64,2
44,8
16,6
5450
25,9
2 489 345 1434 228 1828 3252 235 98 3693 11602

4,2
62,7
2,3
3,0
45,6
1,6
12,4
67,9
6,8
2,0
14,4
1,1
15,8
58,5
8,7
28,0
74,6
15,4
2,0
64,2
1,1
0,8
58,7
0,5
31,8
47,3
17,5
55,1
3
22
1,1
2,8
0,1
22
1,1
2,9
0,1
253
12,3
12,0
1,2
276
13,5
17,4
1,3
751
36,6
24,0
3,6
402
19,6
9,2
1,9
13
0,6
3,6
0,1
16
0,8
9,6
0,1
297
14,5
3,8
1,4
2052
9,7
4
6
0,6
0,8
0,0
6
0,6
0,8
0,0
78
7,4
3,7
0,4
506
48,1
31,9
2,4
191
18,2
6,1
0,9
51
4,9
1,2
0,2
3
0,3
0,8
0,0
7
0,7
4,2
0,0
203
19,3
2,6
1,0
1051
5,0
5
4
0,4
0,5
0,0
1
0,1
0,1
0,0
99
10,9
4,7
0,5
573
62,9
36,1
2,7
99
10,9
3,2
0,5
12
1,3
0,3
0,1
2
0,2
0,5
0,0
2
0,2
1,2
0,0
119
13,1
1,5
0,6
911
4,3
Totales
780
3,7
757
3,6
2111
10,0
1586
7,5
3125
14,8
4362
20,7
366
1,7
167
0,8
7812
37,1
21066


Estos resultados son llamativos puesto que mientras que, por un
lado, se detecta una asociacin de dependencia mediante el estadstico
chi-cuadrado, por otro, el estadstico lambda sugiere la ausencia de
mejora en la prediccin cuando se utiliza una de las variables como
dependiente. Si se invierte la relacin de dependencia tampoco mejorara
el resultado, al calcularse lambda igual a 9,14%. La razn de esta
aparente contradiccin es que ambos estadsticos miden el grado de
asociacin con un objetivo diferente. Los valores observados y los
valores esperados bajo la hiptesis de independencia pueden ser muy
distintos, detectndose por ello un grado de asociacin alto mediante el
estadstico chi-cuadrado, pero ello no tiene por qu suponer que el
conocimiento de una de las variables mejore la prediccin de los valores
de la otra, al menos bajo el criterio utilizado en el estadstico lambda.
Para ilustrar esta circunstancia, Norusis (1991, pg. 320) presenta el
ejemplo que reproducimos en el cuadro 22.

Cuadro 22
variable dependiente:
variable independiente: 1 2 3 Totales
1 19 20 1 40
2 10 20 10 40
3 1 20 19 40
Totales 30 60 30 120



El valor del estadstico chi-cuadrado en esta tabla es igual a 32,4,
con una C de contingencia igual a 0,46, lo que sugiere algn grado de
asociacin. Para calcular el estadstico lambda con respecto a la variable
dependiente observemos que la prediccin no condicionada llevara a un
error global igual a 30+30=60, al ser la categora ms frecuente la 2.
Para realizar la prediccin condicionada debemos considerar para cada
uno de sus atributos cul es la categora ms frecuente. En los tres
casos coincide que se trata de la 2. El error total que se cometera sera,
por tanto, la suma de las frecuencias en las categoras menos frecuentes
(19+1)+(10+10)+(1+19)=60. El estadstico lambda, por tanto, proporciona
un valor igual a cero. Con ello se seala que el conocimiento de la
variable independiente, bajo el criterio establecido de prediccin, no
disminuira el error.

Puede existir una asociacin entre dos variables (medido por el
estadstico chi-cuadrado), sin que el conocimiento de la variable independiente
disminuya el error en la prediccin (medido por el estadstico lambda).



Gamma, Tau-b y Tau-c


Se trata de estadsticos de asociacin para variables cualitativas de tipo
ordinal. Cuando se trabaja con variables ordinales las categoras de las variables
pueden ordenarse, en algn sentido, de menos a ms. Las medidas a las que se
hace referencia aqu permiten detectar adems si la asociacin existente es
positiva o negativa.

Los estadsticos gamma, tau-b y tau-c se utilizan como medidas de
asociacin de variables cualitativas ordinales.

Pares concordantes y discordantes. Para definir los nuevos estadsticos se
deben emplear los conceptos de par concordante y par discordante. Utilizaremos
para ello un ejemplo con dos variables cualitativas de tipo nominal, que
recogeran la edad y los ingresos de una muestra de individuos. Tanto la edad
como los ingresos se pueden medir en escala continua o en escala ordinal,
considerndose en este caso como variables cualitativas. Supongamos que la
edad est definida en 9 intervalos (1, desde 20 a 25 aos; 2, de 25 a 30; 3, de 30 a
35; ; 8, de 55 a 60; 9, ms de 60), los ingresos en 10 intervalos (1, menos de un
milln; 2, de uno a dos millones; ; 10, ms de 10 millones) y que disponemos
de nueve observaciones, con los valores del cuadro 23.


En el ejemplo aparecen nueve individuos, cada uno en un intervalo de
edad distinto (desde 1 hasta 9) y distintos niveles de ingresos. La muestra se
puede ordenar en funcin de los valores de una de las dos variables, por ejemplo
la edad. El resultado sera el que se observa en el cuadro 24.

Cuadro 23
individuo edad ingresos
1 4 4
2 2 3
3 3 2
4 5 5
5 1 2
6 6 10
7 9 9
8 8 4
9 7 1

Cuadro 24
individuo edad ingresos
5 1 2
2 2 3
3 3 2
1 4 4
4 5 5
6 6 10
9 7 1
8 8 4
7 9 9


Dos individuos de la muestra se definen como pares concordantes si los
valores que toma uno de los individuos en las dos variables son mayores que los
que toma el otro individuo. As el individuo 5 y el 2 forman un par concordante,
al tomar el individuo nmero 2 en las variables edad e ingresos valores iguales a
2 y 3, mayores que 1 y 2, del individuo 5. El siguiente par que puede detectarse
como concordante sera el correspondiente a los individuos 5 y 1, ya que los
valores que toma este ltimo son superiores en ambas variables a los del
individuo 5.

Dos individuos definen un par discordante si los valores que toma uno
de los individuos en una de las variables son mayores que los del otro, pero esa

relacin se invierte en la segunda variable. As, el par formado por los casos 5 y 9
sera discordante, al tomar el individuo 9 un valor mayor en la variable edad,
pero un valor menor en los ingresos. Los individuos 2 y 3, por ejemplo, seran
tambin un par discordante al invertirse el orden de los valores en las dos
variables.

En el caso de que los valores de una o ambas variables coincidieran el
par no se considerara ni concordante ni discordante. El par 5, 3, por ejemplo,
sera un par igualado, ni concordante ni discordante, al tomar el mismo valor en
la variable ingresos.

Un par de observaciones se considera como un par concordante si los
valores que toma una de las observaciones en las dos variables son mayores que
los que toma la otra observacin. Un par de observaciones se considera como un
par discordante si los valores que toma una de las observaciones en una de las
variables son mayores que los de la otra observacin, pero esa relacin se invierte
en la segunda variable. En el caso de que los valores de una o ambas variables
coincidieran, el par se considerara como un par igualado.


Al comparar dos casos pueden darse, por tanto, cinco posibilidades:
concordancia, discordancia, igualdad en la primera variable, igualdad en la
segunda variable o igualdad en ambas variables.

Para todas las parejas de observaciones puede definirse el par como
concordante, discordante o igualado. Si muchas de las parejas son concordantes
la relacin entre las dos variables deber interpretarse como positiva, mientras
que la abundancia de pares discordantes indicar que la asociacin es negativa. Si
ninguno de estos dos tipos de pareja es preponderante supondremos que no existe
asociacin entre ambas variables.

Cuando se trabaja con una tabla de doble entrada es fcil controlar
el nmero de pares concordantes o discordantes. Imaginemos una tabla
como la que aparece en el cuadro 25, en la que A, B, , I simbolizan las
frecuencias absolutas en cada celda.

Cuadro 25
Y
X 1 2 3
1 A B C
2 D E F
3 G H I


Los individuos cuyos valores son (X=1, Y=1) mostraran valores
inferiores a aquellos individuos con valores (X=2, Y=2), (X=2, Y=3), (X=3,
Y=2), (X=3, Y=3), segn se indica en el cuadro 26. Para todos los pares de
individuos formados a partir de alguno perteneciente al conjunto con valores
(X=1, Y=1) y otro con valores en el rango (X2, Y2) nos
encontraremos pares concordantes.

Cuadro 26
Y
X 1 2 3
1


2

3


El nmero de pares concordantes detectados en este caso sera igual a:
A E A F A H A I + + +

Otros pares concordantes se darn para otros rangos de valores. Los
individuos con valores (X=1, Y=2) tendran valores estrictamente inferiores a
aquellos individuos con (X=2, Y=3) o (X=3, Y=3), segn se indica en el cuadro
27, formando tambin pares concordantes.

Cuadro 27
Y
X 1 2 3
1


2

3


Aqu el nmero de pares concordantes sera:
B F B I +

Para acabar contabilizando todos los pares concordantes deberamos
adems contar los pares que se reflejan en los cuadros 28 y 29.


Cuadro 28
Y
X 1 2 3
1
2


3





Cuadro 29
Y
X 1 2 3
1
2


3


De igual manera pueden calcularse fcilmente los pares discordantes y
los igualados.

Medidas basadas en pares concordantes y discordantes. Hemos sealado
cmo la deteccin de un nmero proporcionalmente elevado de pares
concordantes ser indicativa de una asociacin positiva: cuando los valores de
una variable crecen, tambin lo hacen los valores de la otra variable. Un
razonamiento similar sirve para detectar una asociacin negativa o la ausencia de
asociacin. Para obtener medidas de asociacin basadas en estos conceptos se
consideran las diferencias entre el nmero de pares concordantes (C) y el nmero
de pares discordantes (D).

Gamma. El estadstico gamma (debido a Goodman y Kruskal) se define
como:
D C
D C
+



Si todas las parejas son concordantes ( 0 D ), el valor de gamma sera
igual a 1, coincidiendo con el grado de asociacin positivo ms alto entre las dos
variables. En el caso contrario, cuando todos los pares son discordantes ( 0 C ),
el estadstico nos proporcionara un valor igual a -1, que coincidira por tanto con
el grado de asociacin ms alto de tipo negativo. Si el nmero de parejas
concordantes y discordantes estuviese igualado, el estadstico estara cercano a
cero.


El estadstico gamma proporciona valores entre -1 y 1. El grado ms alto
de asociacin positiva entre dos variables se da cuando 1 . El grado ms alto
de asociacin negativa se da cuando 1 . Finalmente, 0 se interpreta
como la ausencia de asociacin.



Tau-b. Trata de normalizar el mismo numerador que el coeficiente gamma
pero incluyendo en el denominador el nmero de pares igualados (ni
concordantes ni discordantes) en una de las dos variables (no considera los pares
en los que se da la igualdad en ambas variables). Su expresin es:
) ( ) (
Y X
b
T D C T D C
D C
+ + + +



indicando T
X
, T
Y
el nmero de pares igualados en las variable X o Y. Tau-b toma
valores -1 o 1 slo en tablas cuadradas.


Tau-c. Se define como:
) 1 (
) ( 2
2

m n
D C m
c


donde n es el tamao de la muestra y m es el nmero menor de las filas y
columnas de la tabla. El estadstico puede alcanzar los valores lmites de -1 y 1
en tablas de cualquier tamao.



Ejemplo 5. Existe relacin entre la rentabilidad y el riesgo
empresarial? En una muestra de empresas se ha obtenido su
rentabilidad media y la desviacin estndar de su rentabilidad en los
ltimos diez aos (esta ltima como una medida de riesgo). Las
empresas se han clasificado en cuatro grupos, segn los rendimientos y
riesgo de la empresa sean inferiores o superiores a la mediana de toda la
muestra. En el cuadro 30 se muestran la tabla de contingencia que se
correspondera con la definicin de los cuatro grupos.

Cuadro 30
Riesgo inferior Riesgo superior Total
Rendimiento inferior 66 68 134
Rendimiento
superior
68 65 133
Total 134 133 267


La informacin de los cuatro grupos puede analizarse como el
resultado del cruzamiento de dos variables cualitativas, rendimiento y
riesgo, con dos categoras cada una de ellas. Aunque la informacin de
la tabla muestra claramente la ausencia de relacin entre el rendimiento

y el riesgo, calcularemos los estadsticos chi-cuadrado y gamma. Para
obtener el estadstico chi-cuadrado en el cuadro 31 se calculan las
frecuencias esperadas.

Cuadro 31
Riesgo inferior Riesgo superior
Tota
l
Rendimiento inferior 2509 , 67
267
134
134 749 , 66
267
134
133 134
Rendimiento
superior
749 , 66
267
133
134 2509 , 66
267
133
133 133
Total 134 133 267


Los estadsticos de asociacin Chi-cuadrado y C de contingencia
se muestran a continuacin:

( )
( ) ( )

2
2
1 1
2 2
66 67 2509
67 2509
68 66 749
66 749


+

+


n e
e
ij ij
ij j
J
i
I
,
,
,
,

( ) ( )
+

+

68 66 749
66 749
65 66 2509
66 2509
0 09378
2 2
,
,
,
,
,

01874 , 0
09378 , 0 267
09378 , 0
2
2

n
C


El estadstico gamma en esta tabla de orden 2x2 es muy rpido
de calcular:

03747 , 0
68 68 65 66
68 68 65 66

+

D C
D C



Cuadro 32
Chi-cuadrado
C de contingencia gamma
0,09378 0,01874 -0,03747



Los resultados del cuadro 32 confirman la impresin de la tabla de
contingencia, no detectndose en la muestra ninguna asociacin entre la
rentabilidad y el riesgo empresarial.

Ejemplo 6. Beneficios empresariales y nivel de concentracin. En el
campo de la economa industrial es objeto de discusin la relacin
existente entre los beneficios empresariales y los niveles de
concentracin sectorial. Segn algunos autores, los beneficios
empresariales seran mayores en mercados con unos pocos productores
responsables de las ventas, que podran ponerse de acuerdo al margen
de los mecanismos del mercado (hiptesis de colusin), favoreciendo
precios y beneficios ms altos.

Con una muestra de empresas se intenta detectar la existencia de una
asociacin entre los niveles de concentracin y los beneficios empresariales. Las
empresas se clasifican en tres niveles de beneficios (bajo, medio y alto) y en tres
niveles de concentracin de su mercado (bajo, medio y alto). Entre las dos
variables se efecta un cruzamiento obtenindose la tabla de contingencia que
se muestra en el cuadro 33.


Cuadro 33
Nivel de Beneficios
Nivel de
concentracin
Bajo Medio Alto Total
Bajo 120 114 46 280
Medio 64 74 88 226
Alto 68 44 137 249
Total 252 232 271 755



Dado que las dos variables son de tipo ordinal puede calcularse el
estadstico gamma, para ello deben obtenerse el nmero de pares
concordantes y de pares discordantes:

( ) ( ) ( ) 88532 137 74 137 44 64 137 88 114 137 44 88 74 120 + + + + + + + + C
( ) ( ) ( ) 41436 68 74 44 68 88 68 64 114 44 68 74 64 46 + + + + + + + + D

Y, por tanto:
3624 , 0
41436 88532
41436 88532

D C
D C



El valor de gamma es igual a 0.36, al tratarse de un valor positivo
se estara detectando un grado de asociacin positiva entre ambas
variables. El valor mximo se da cuando gamma es igual a 1, por lo que
puede aceptarse una asociacin positiva moderada.

El estadstico lambda, tomando como variable dependiente el
nivel de beneficios, sera:

do condiciona no error
do condiciona error - do condiciona no error
beneficios

[ ] ( ) ( ) ( ) [ ]
[ ]
15 , 0
484
410 484
232 252
44 68 74 64 46 114 232 252

+
+ + + + + +


Tambin puede calcularse el estadstico lambda invirtiendo la
relacin de dependencia, es decir, planteando como variable
dependiente el nivel de concentracin, que sera consecuencia de los
niveles de beneficio alcanzado por algunas empresas:

do condiciona no error
do condiciona error - do condiciona no error
in concentrac

[ ] ( ) ( ) ( ) [ ]
[ ]
19 , 0
475
384 475
249 226
88 46 44 74 68 64 249 226

+
+ + + + + +



Los valores de lambda indican que el error de prediccin del
nivel de beneficios si se tiene informacin del nivel de concentracin del
mercado, se reducira en un 15% e invirtiendo la relacin de dependencia
el error de prediccin se reducira en un 19%. El estadstico lambda
simtrico sera igual a:

( ) ( )
172 , 0
475 484
384 475 410 484

+
+

simtrico


confirmando la existencia de una relacin de dependencia moderada
entre las dos variables.


Ejemplo 7. Satisfaccin y calidad del establecimiento hotelero. En
una encuesta realizada a una muestra de turistas en un municipio
turstico se les ha solicitado cul es el nivel de satisfaccin de su
estancia. La respuesta poda establecerse en tres niveles: baja
satisfaccin, media y alta. Se desea analizar el grado en el que la

categora del hotel en el que se ha alojado ha podido influir en el nivel de
satisfaccin. Para ello se realiza el cruzamiento de las dos variables,
obtenindose las frecuencias que se muestran en el cuadro 34. Existe
asociacin entre el nivel de satisfaccin y la categora del hotel? Para
responder a esta pregunta se calculan los estadsticos de asociacin chi-
cuadrado y gamma.

Cuadro 34

Categora Hotel

Nivel de
Satisfaccin
* ** *** **** Totales
Bajo 43 36 48 63 190
Medio 12 25 57 67 161
Alto 8 23 22 40 93
Totales 63 84 127 170 444


Para calcular el estadstico chi-cuadrado deben obtenerse, en
primer lugar, los valores esperados bajo la hiptesis de que no hay
asociacin (vase el cuadro 35).


Cuadro 35
Categora Hotel
Nivel de
Satisfaccin
* ** *** ****
Totale
s
Bajo

96 , 26 63
444
190


95 , 35 84
444
190



35 , 54 127
444
190



75 , 72 170
444
190


190
Medio

84 , 22 63
444
161


46 , 30 84
444
161



05 , 46 127
444
161



64 , 61 170
444
161


161
Alto

20 , 13 63
444
93


59 , 17 84
444
93



60 , 26 127
444
93



61 , 35 170
444
93


93
Totales 63 84 127 170 444




Teniendo en cuenta estos valores, el estadstico chi-cuadrado se
calcula:

( ) ( ) ( ) ( )
83 , 25
61 , 35
61 , 35 40
60 , 26
60 , 26 22
95 , 35
95 , 35 36
96 , 26
96 , 26 43
2 2 2 2
2

+ +

K


Y el estadstico C de contingencia:
234 , 0
83 , 25 444
83 , 25
2
2

n
C

El valor mximo de este estadstico poda llegar a ser:
( )
816 , 0
3
1
1
,
1
1
J I mn


por lo que C alcanza en este anlisis el 28,7% de su posible mximo,
sealando con ello que existe una relacin moderada entre el nivel de
satisfaccin y la categora del hotel de estancia.


El clculo del estadstico gamma confirma que la asociacin es
moderada y, adems, que es de tipo positivo:

1754 , 0
18763 26744
18763 26744

D C
D C



Finalmente, puede intentar establecerse la capacidad de prediccin que
tiene la categora del hotel en el nivel de satisfaccin del turista:


do condiciona no error
do condiciona error - do condiciona no error
n satisfacci

[ ] ( ) ( ) ( ) ( ) [ ]
[ ]

+
+ + + + + + + +

93 161
40 63 22 48 23 25 8 12 93 161

0512 , 0
254
241 254



El bajo valor de lambda seala que la categora hotelera no ayuda
a la prediccin del nivel de satisfaccin, puesto que el error de prediccin
empleando esta informacin slo se reducira en un 5%.



Ejemplo 8. Toma de decisiones familiares en la adquisicin de bienes de
consumo. En un estudio se intenta determinar quin o quines son los
responsables de las decisiones de consumo dentro de las familias. Se
realiza, para ello, una encuesta a 557 matrimonios, preguntndoles a
cada miembro de la pareja quin toma las decisiones sobre los productos
que se compran. Las posibles respuestas a esta pregunta eran que las
decisiones las toma el hombre, la mujer o ambos. En el cuadro 36 se
cruzan el sexo del encuestado con la respuesta de quin influye ms en
la compra de los automviles.

Cuadro 36
Las decisiones las toma:
Miembro de la
pareja:
Hombre Ambos Mujer Total
Hombre 179 356 22 557
Mujer 356 178 23 557
Total 535 534 45 1114


Para el conjunto de encuestados, el 48% consideraba que las
decisiones las tomaban los hombres, el 48% que la decisin era conjunta
y slo un 4% afirmaba que la decisin la tomaba la mujer. Sin embargo,
si se consideran separadamente las respuestas dadas por los hombres y
las mujeres, estos porcentajes difieren radicalmente. Existe relacin
entre la respuesta dada a la pregunta y el sexo del individuo que la
contesta?

El estadstico chi-cuadrado se basa en los valores esperados que
se muestran en el cuadro 37.

Cuadro 37
Las decisiones las toma:
Miembro de la
pareja:
Hombre Ambos Mujer Total
Hombre

5 , 267 535
1114
557


267 534
1114
557


5 , 22 45
1114
557


557

Mujer

5 , 267 535
1114
557


267 534
1114
557


5 , 22 45
1114
557


557
Total 535 534 45 1114


El valor del estadstico chi-cuadrado ser:

( ) ( ) ( ) ( )
91 , 117
5 , 22
5 , 22 23
267
267 178
267
267 356
5 , 267
5 , 267 179
2 2 2 2
2

+ +

K


Y el estadstico C de contingencia:
31 , 0
91 , 117 1114
91 , 117
2
2

n
C

El mximo de C podra ser:
( )
707 , 0
2
1
1
,
1
1
J I mn


por lo que alcanza el 44% de su posible valor mximo, mostrando que la
opinin sobre quin influye ms en la compra de un automvil es muy
dependiente de cul es el sexo de la persona que responde.

El clculo del estadstico lambda ser:


do condiciona no error
do condiciona error - do condiciona no error
decisin

[ ] ( ) ( ) [ ]
[ ]
30 , 0
579
402 579
45 534
23 178 22 179 45 534

+
+ + + +


El valor de lambda seala que el sexo del miembro de la pareja
ayuda a la prediccin de la respuesta a quin toma la decisin, con una
reduccin en el error de prediccin del 30%.


Ejemplo 9. Especializacin de los tour operadores. Para valorar el
grado de especializacin de tres tour operadores de una zona turstica,
se han recogido las ofertas que realizan en sus catlogos en funcin de
las distintas categoras hoteleras (una a cuatro estrellas). En el cuadro 38

se muestra la tabla de contingencia que cruza la informacin de estas
dos variables cualitativas y entre parntesis los valores esperados bajo la
hiptesis de inexistencia de asociacin.

Cuadro 38
Categora Hotel
Tour
Operador
* ** *** **** Total
A
21
(17,84)
37
(28,96)
137
(126,29)
49
(70,91)
244
B
32
(27,49)
52
(44,63)
179
(194,61)
113
(109,26)
376
C
24
(31,66)
36
(51,40)
229
(224,11)
144
(125,83)
433
Total 77 125 545 306 1053

Los resultados de aplicar el estadstico chi-cuadrado:

( ) ( ) ( ) ( )
997 , 22
83 , 125
83 , 125 144
11 , 224
11 , 224 229
96 , 28
96 , 28 37
84 , 17
84 , 17 21
2 2 2 2
2

+ +

K


Lo que lleva a un estadstico C de contingencia:
146 , 0
997 , 22 1053
997 , 22
2
2

n
C

El mximo de C podra ser:
( )
816 , 0
3
1
1
,
1
1
J I mn


alcanzando, por tanto, el 18% de su valor mximo. En consecuencia, no
parece, existir asociacin entre los tour operadores y la categora de la
oferta que realizan.

CAPTULO V. EL COEFICIENTE DE CORRELACIN



Cuando se dispone de dos variables cuantitativas y continuas basadas en
escala de intervalo o de cociente (en adelante variables cuantitativas) las
medidas de asociacin estudiadas hasta ahora suelen ser inaplicables,
esencialmente porque el nmero de valores que toman este tipo de variable hace
que carezca de sentido el cmputo de frecuencias de todas las combinaciones
posibles. Aunque siempre es posible convertir estas variables cuantitativas en
variables cualitativas ordinales (construyendo intervalos), resulta adecuado
utilizar otro tipo de coeficientes de asociacin. El estadstico ms comnmente
empleado es el coeficiente de correlacin lineal simple (o abreviadamente, el
coeficiente de correlacin). Se trata de una medida sinttica del grado de
asociacin lineal entre dos variables cuantitativas.

El coeficiente de correlacin lineal simple mide el grado de asociacin
lineal entre dos variables. Se aplica sobre variables cuya escala es de intervalo o
cociente.

Existe una segunda idea que destaca en el propio nombre del estadstico,
se trata de la palabra simple. Circunscrito al concepto de linealidad el calificativo
de simple se opone a la idea de asociacin mltiple entre variables. Mediante este
coeficiente se analiza la relacin entre dos variables X e Y, sin considerar la
existencia de otras variables que puedan estar relacionadas con ellas, ni la posible
incidencia de las mismas en esa relacin. Por ejemplo, supongamos que tanto la
variable X como la variable Y varan cuando lo hace una tercera variable Z. El
coeficiente de correlacin entre la variable X e Y revelara una asociacin entre
estas dos variables, pero nada dir el coeficiente de la existencia de la tercera
variable, ni de su capacidad de explicar las variaciones de X e Y.

El coeficiente de correlacin lineal simple refleja de manera directa la
asociacin entre dos variables y no tiene en cuenta que esa relacin pueda
enmarcarse en un entorno de relaciones ms complejo.


Asociacin lineal entre dos variables

Cuando se habla de una relacin lineal entre dos variables se est
haciendo referencia a una relacin que puede representarse aproximadamente
como una lnea recta. Denotando a las dos variables como X e Y, la existencia de
una relacin lineal exacta entre las dos variables podra ser la siguiente:


Y a b X i n
i i
+ 1, ...,

donde a y b son constantes que pueden tomar cualquier valor, excluyendo para b
el valor de 0.

No debe confundirse la existencia de una relacin lineal con la
existencia de una relacin causal. La relacin lineal entre dos variables es
compatible tanto con una relacin causal en la que se enuncie que X es
causa de Y, como con la relacin contraria, en la que Y es causa de X o
incluso con la inexistencia de una relacin causa-efecto. El coeficiente de
correlacin slo detecta la existencia (y grado) de la asociacin entre dos
variables, sin implicar la presencia de algn tipo de relacin causal.
Podemos, por tanto, detectar una relacin lineal entre dos variables sin que
exista una relacin causal entre ellas: X no es causa de Y y tampoco Y es
causa de X. Simplemente existira una relacin lineal entre ellas, no estando
definida la direccin causal.


La deteccin de una asociacin lineal entre dos variables no implica que
entre ellas exista una relacin causal.



Asociacin lineal positiva o negativa

Entre dos variables pueden detectarse dos tipos de asociacin lineal:
positiva y negativa. Visualmente estas dos situaciones quedan reflejadas en las
grficas 1 y 2.

Grfica 1
X
3 2 1 0 -1 -2 -3
Y
3
2
1
0
-1
-2
-3



Grfica 2
X
3 2 1 0 -1 -2 -3
Y
3
2
1
0
-1
-2
-3



Las dos grficas anteriores muestran relaciones lineales exactas entre dos
variables, X e Y. Cuando se da una relacin positiva la pendiente de la recta es
positiva, mientras que una relacin negativa entre las dos variables se refleja en
una pendiente de la recta negativa. El signo del valor del parmetro b de la recta
reflejara, por tanto, el sentido de la asociacin (positiva o negativa) entre las dos
variables.

Tambin pueden existir relaciones exactas entre dos variables que sean
de tipo no lineal, como por ejemplo las representadas en las grficas 3 y 4. En
estas grficas se muestran relaciones exactas de tipo cuadrtico y cbico,
respectivamente. La asociacin entre las dos variables es exacta en ambas
grficas. El coeficiente de correlacin no tiene por qu detectar este tipo de
relacin, puesto que est diseado con la intencin de medir asociaciones
lineales.

Grfica 3
X
3 2 1 0 -1 -2 -3
Y
10
0
-10
-20
-30



Grfica 4
X
3 2 1 0 -1 -2 -3
Y
40
20
0
-20
-40
-60
-80
-100



Aunque los ejemplos anteriores se refieren a relaciones exactas entre
variables, el coeficiente de correlacin no slo sirve para detectar si la asociacin
es positiva o negativa, sino que tambin mide el grado, la importancia, de la
misma. Las relaciones exactas sealan los grados mximos de correlacin, pero
existen otros niveles menores de asociacin. Por ejemplo, si se calcula el
coeficiente de correlacin para las variables de la grfica 5, ste nos informar de
la existencia de una asociacin positiva, permitindonos valorar hasta qu punto
esa asociacin est cercana a la definida por una relacin exacta.

Grfica 5
X
6000 5000 4000 3000 2000 1000 0 -1000
Y
6000
5000
4000
3000
2000
1000
0
-1000
-2000




Estadstico de covarianza

El coeficiente de correlacin se puede definir a partir de otro estadstico,
el coeficiente de covarianza. En general, se habla de la covarianza entre dos
variables, X e Y, y se define formalmente como:

( ) ( )
s
X x Y y
n
XY
i i
i
n

1

(o dividiendo por n-1).

El sentido del estadstico resultar ms claro si utilizamos la
representacin grfica de una base de datos concreta. Para ello hemos simulado
cien observaciones de dos variables X e Y, representndolas en el grfico 6. La
asociacin entre las dos variables, aunque no es exacta, es de tipo positivo:
cuando los valores de una de las dos variables aumentan, tambin lo hacen los de
la otra variable. Las medias de las variables X e Y son iguales a 10,09 y 13,14,
respectivamente. En la grfica 7 se han marcado dos lneas de referencia que
corresponden a estos valores medios. Qu ocurre si en lugar de expresar los
valores de las variables en sus cifras originales ( X
i
, en niveles), las expresamos
en diferencias respecto a la media ( X x
i
)? Las lneas de referencia que
aparecan dibujadas en la grfica 7 sern ahora los nuevos ejes de coordenadas.
El punto medio (10,09; 13,14) ser ahora el punto (0;0) y un punto cualquiera
( X Y
i i
; ) ser ahora el punto ( X x Y y
i i
; ).

Grfico 6.
X
13 12 11 10 9 8 7 6 5 4 3 2 1 0
Y
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0



Grfico 7.
X
13 12 11 10 9 8 7 6 5 4 3 2 1 0
Y
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0



El empleo de las variables en desviaciones respecto a la media equivale a
una traslacin de los ejes de coordenadas, que pasan de estar centrados en el
punto (0;0) a estarlo en el punto ( x y ; ). Al expresar los valores de las variables
en desviaciones, el centro de coordenadas se sita ahora en el centro de la nube
de puntos.

En la grfica 8 se muestra la apariencia de la nueva representacin (con
las variables en desviaciones). El nuevo punto (0;0) en las antiguas coordenadas
es el punto ( x y ; ).

Volvamos ahora al estadstico de covarianza. El signo y valor de este
estadstico depende, esencialmente, de la suma de los productos
( )( ) X x Y y
i i
, para todas las observaciones (i=1,,n). Centrmonos en el
signo. En el producto, el signo final depende la posicin de la observacin en los
cuadrantes de los ejes de coordenadas.

Las observaciones que se sitan en los cuadrantes I y III (vase la grfica
9) proporcionarn productos positivos (+ por + en el primer cuadrante y por
en el tercero). En el primer cuadrante, esto coincide con las observaciones que
tienen un valor superior a la media en ambas variables, mientras que en el tercero
se encuentran las observaciones con valores inferiores a la media, en las dos
variables. Las observaciones que se sitan en los cuadrantes II y IV tendrn un

producto negativo ( por + en el segundo cuadrante y + por en el cuarto). En el
segundo cuadrante, esto coincide con las observaciones que tienen un valor
inferior a la media en la variable X y superior a la media en la variable Y. En el
cuarto cuadrante, la relacin se invierte.


Grfico 8.
X en desviaciones
3 2 1 0 -1 -2 -3
Y

e
n

d
e
s
v
i
a
c
i
o
n
e
s
4
3
2
1
0
-1
-2
-3
-4



Grfico 9.
3 2 1 0 -1 -2 -3
4
3
2
1
0
-1
-2
-3
-4
II
III IV
I




El signo (y valor) de la covarianza depende del nmero de observaciones
que aparezcan en cada uno de los cuadrantes. Un nmero de observaciones
relativamente elevado en los cuadrantes I y III proporcionar, en la suma global,
una covarianza positiva; mientras que una mayora de las observaciones en los
cuadrantes II y IV conducir a una covarianza negativa.

En la grfica 10 se muestra la imagen de dos variables asociadas
negativamente, es decir, cuya covarianza sera negativa como consecuencia de la
acumulacin de puntos en los cuadrantes II y IV.

Debe entenderse que en el signo de la covarianza se refleja la relacin
existente entre las dos variables. Si la covarianza es positiva, sabemos que
cuando un individuo tiene un valor por encima de la media en una de las dos
variables ser fcil que tambin se encuentre por encima de la media en la otra
variable. En el caso de una covarianza negativa, este estadstico de asociacin
nos indica que el ubicarse por encima del valor medio en un variable implicar,
en general, estar por debajo en la otra (o viceversa).

Grfica 10
X en desviaciones
3 2 1 0 -1 -2 -3
Y

e
n

d
e
s
v
i
a
c
i
o
n
e
s
4
3
2
1
0
-1
-2
-3
-4



Junto a la existencia de asociacin positiva o negativa, cabe la
posibilidad de que no exista una asociacin clara entre las dos variables. Esta
sera la situacin que se describe visualmente en la grfica 11, en la que el
conjunto de observaciones se dispersa de manera ms o menos homognea sobre
los cuatro cuadrantes.



Grfica 11
X
3 2 1 0 -1 -2 -3 -4
Y
1,5
1,0
,5
0,0
-,5
-1,0




Entre dos variables X e Y pueden establecerse cualquiera de las
siguientes asociaciones:

Covarianza positiva s
XY
>0 Asociacin lineal positiva.
Covarianza negativa s
XY
<0 Asociacin lineal negativa.
Covarianza nula s
XY
0 Asociacin lineal inexistente.



Resaltemos de nuevo la idea de linealidad. Cuando se utiliza el
estadstico de covarianza se mide el grado de asociacin lineal entre dos
variables. Si existe una relacin no lineal entre dos variables, sta no tiene
por qu detectarse mediante el estadstico de covarianza.

El valor del coeficiente de covarianza depende, entre otras cosas, de las
unidades de medida de las variables. En el cuadro 1 se muestra el clculo del
coeficiente de covarianza de dos variables, de las que se dispone de diez
observaciones. Su representacin se ofrece en la grfica 12. La covarianza es
igual a 11,67; la asociacin entre las dos variables es, por lo tanto, positiva. El
valor absoluto, sin embargo, no nos aade en este caso ms informacin. Es el

grado de asociacin alto o bajo? O dicho de otra manera, la asociacin se acerca
mucho o poco a lo que sera una asociacin positiva de tipo exacto? El problema
de la covarianza como medida de asociacin es que depende de las unidades de
medida de las variables, no pudindose comparar rpidamente con una cifra
estndar que permita hablar de mucha o poca asociacin.


Cuadro 1
i X
i
Y
i
X x
i
Y y
i

( )( ) X x Y y
i i

1 12 14,55 -1,7 -2,233 3,7961
2 10 12,85 -3,7 -3,933 14,5521
3 11 13,3 -2,7 -3,483 9,4041
4 13 13,53 -0,7 -3,253 2,2771
5 15 18,18 1,3 1,397 1,8161
6 14 18,94 0,3 2,157 0,6471
7 12 16,11 -1,7 -0,673 1,1441
8 11 13,82 -2,7 -2,963 8,0001
9 19 23,53 5,3 6,747 35,7591
10 20 23,02 6,3 6,237 39,2931
x
y
s
XY

13,7 16,783 11,67


Grfica 12
X
22 20 18 16 14 12 10 8 6 4 2 0
Y
24
22
20
18
16
14
12
10
8
6
4
2
0




Si multiplicamos las variables del cuadro 1 por una constante (dos, por
ejemplo) y calculamos la nueva covarianza, tal como aparece en el cuadro 2, la
cifra de la nueva covarianza se ha multiplicado por cuatro, siendo ahora igual a
46,68. Implica esta cifra un mayor grado de asociacin? La respuesta es
negativa. Observe la representacin de las dos nuevas variables que se ofrece en
la grfica 13. La forma de la nube de puntos es la misma que en la grfica 12, no
presentando una asociacin ms fuerte entre las nuevas variables.

Cuadro 2
i X
i
*
Y
i
*
X x
i
* *
Y y
i
* *

( )( ) X x Y y
i i
* * * *

1 24 29,1 -3,4 -4,466 15,1844
2 20 25,7 -7,4 -7,866 58,2084
3 22 26,6 -5,4 -6,966 37,6164
4 26 27,06 -1,4 -6,506 9,1084
5 30 36,36 2,6 2,794 7,2644
6 28 37,88 0,6 4,314 2,5884
7 24 32,22 -3,4 -1,346 4,5764
8 22 27,64 -5,4 -5,926 32,0004
9 38 47,06 10,6 13,494 143,0364
10 40 46,04 12,6 12,474 157,1724

x
*
y
*

s
X Y
* *

27,4 33,566 46,68

Grfica 13
X*
50 40 30 20 10 0
Y
*
50
40
30
20
10
0




La covarianza, como medida de asociacin lineal tiene el inconveniente
de estar afectada por las unidades de medida de las variables.

Un mayor valor absoluto de la covarianza no puede, en consecuencia,
interpretarse de manera automtica como sinnimo de mayor asociacin. Deber
tenerse en cuenta el valor medio de las variables y las unidades en las que son
medidas.



Propiedades de la covarianza

(1) La covarianza puede calcularse a partir de la siguiente equivalencia
de su numerador:
( )( ) X x Y y X Y n x y
i i
i
n
i i
i
n



1 1
.


(2) Si se suma a la variable X una constante b y a la variable Y una
constante c, la covarianza entre las dos nuevas variables
transformadas ser igual a la covarianza original:
( ) ( ) ( ) ( ) ( ) ( ) ( )( )
s
X b x b Y c y c
n
X x Y y
n
s
X b Y c
i i
i
n
i i
i
n
XY + +

+ + + +


,
1 1


(3) Si se multiplica la variable X por una constante b y la variable Y por
una constante c, la covarianza entre las dos nuevas variables
transformadas ser igual a la covarianza original multiplicada por las
constantes bc:
( )( ) ( )( )
s
bX bx cY cy
n
bc X x Y y
n
bc s
bX cY
i i
i
n
i i
i
n
XY ,



1 1


(4) La covarianza entre una variable y una constante es cero:

( )( )
s
X x a a
n
X a
i
i
n

1
0


Coeficiente de correlacin lineal

El coeficiente de correlacin lineal, tambin llamado coeficiente de
correlacin de Pearson, lo notaremos como r
XY
y se define como:

( )( )
( ) ( )
r
s
s s
X x Y y
X x Y y
XY
XY
X Y
i i
i
n
i
i
n
i
i
n



1
2
1
2
1


El coeficiente de correlacin lineal entre dos variables es, por tanto, igual
a su covarianza dividida por el producto de desviaciones estndar de las dos
variables.

El signo del coeficiente de correlacin ser igual al signo de la
covarianza. Si entre dos variables existe una asociacin lineal positiva el
coeficiente de correlacin ser positivo. En el caso de una asociacin negativa, el
coeficiente de correlacin ser negativo. En el caso de ausencia de asociacin, el
coeficiente de correlacin ser cero:

Asociacin lineal positiva entre las dos variables s
XY
>0 r
XY
>0.
Asociacin lineal negativa entre las dos variables s
XY
<0 r
XY
<0.
Ausencia de asociacin lineal entre las dos variables s
XY
0 r
XY
0.

Al estandarizar la covarianza mediante las desviaciones estndar se
suprime el problema de las unidades de medida. En el caso de multiplicar las
variables por cualquier constante, el numerador de r
XY
se multiplicar por esas
constantes, pero tambin en el denominador se producirn transformaciones:

( )( )
( ) ( )
r
bX bx cY cy
bX bx cY cy
bX cY
i i
i
n
i
i
n
i
i
n
,



1
2
1
2
1


( ) ( )
( ) ( )


b X x c Y y
b X x c Y y
i i
i
n
i
i
n
i
i
n
1
2
2
1
2
2
1

( )( )
( ) ( )


bc X x Y y
b X x c Y y
bc s
b s c s
r
i i
i
n
i
i
n
i
i
n
XY
X Y
XY
1
2
1
2
1



El valor numrico del coeficiente de correlacin entre dos variables no se
modifica si una (o ambas) variables se multiplica por una constante.

Una de las consecuencias ms importantes de esta estandarizacin de la
covarianza es que el coeficiente de correlacin toma valores en el intervalo 1 y
1. Los lmites superior o inferior se alcanzan cuando entre las dos variables se da
una relacin exacta del tipo:

Y a b X i n
i i
+ 1, ..., .

Se puede comprobar fcilmente que si entre dos variables se da una
relacin lineal exacta, su coeficiente de correlacin ser igual a uno (en valor
absoluto), sustituyendo esa relacin en la propia definicin del coeficiente.
Supongamos, en primer lugar que el parmetro b de la relacin lineal es positivo:

( ) ( )
( ) ( )
r
s
s s
X x Y y
X x Y y
XY
XY
X Y
i i
i
n
i
i
n
i
i
n



1
2
1
2
1

( ) ( ) ( )
( ) ( ) ( )

+ +
+ +


X x a b X a b x
X x a b X a b x
i i
i
n
i
i
n
i
i
n
1
2
1
2
1


( ) ( )
( ) ( )


X x b X x
X x b X x
i i
i
n
i
i
n
i
i
n
1
2
1
2
2
1

( )
( ) ( )


b X x
b X x X x
i
i
n
i
i
n
i
i
n
2
1
2
1
2
1
1


En el caso de que el parmetro b sea negativo, podemos definir la
relacin lineal como: Y a b X
i i
, con lo cual se tendra:
( ) ( )
( ) ( )
r
s
s s
X x Y y
X x Y y
XY
XY
X Y
i i
i
n
i
i
n
i
i
n



1
2
1
2
1

( ) ( ) ( )
( ) ( ) ( )


X x a b X a b x
X x a b X a b x
i i
i
n
i
i
n
i
i
n
1
2
1
2
1

( )( )( )
( ) ( ) ( )


X x b X x
X x b X x
i i
i
n
i
i
n
i
i
n
1
2
1
2 2
1

( ) ( )
( ) ( )


b X x
b X x X x
i
i
n
i
i
n
i
i
n
2
1
2
1
2
1
1

Cuando el coeficiente toma un valor igual a +1 o 1 se habla de
correlacin exacta entre las dos variables. En el primer caso de correlacin
positiva exacta, en el segundo de correlacin exacta negativa. Entre los dos
lmites, -1 y 1, el coeficiente puede tomar cualquier valor. Valores cercanos a los

lmites indicarn la existencia de asociaciones fuertes o altas entre las variables.
El valor que toma el coeficiente de correlacin cuando no existe una relacin
lineal entre las variables ser el mismo que el que toma la covarianza en igual
situacin: cero. Valores del coeficiente de correlacin cercanos a cero, por tanto,
sealan la ausencia de asociacin lineal entre las variables.


+ 1 1 r
XY

r
XY
+1 Asociacin lineal exacta de tipo positivo.
r
XY
1 Asociacin lineal exacta de tipo negativo.
r
XY
0 Ausencia de asociacin lineal.


Propiedades del coeficiente de correlacin


(1) El valor numrico del coeficiente de correlacin entre dos variables
no se modifica si una (o ambas) variables se multiplica por una
constante.

(2) El coeficiente de correlacin toma valores en el intervalo 1 y 1. Los
valores mximo y mnimo se alcanzan cuando se da una relacin
lineal exacta entre las dos variables, de tipo positivo o de tipo
negativo, respectivamente.

(3) Valores del coeficiente prximos a 1 indican la existencia de una
asociacin positiva fuerte entre las variables; valores cercanos a 1
indican la existencia de una asociacin negativa fuerte entre las
variables; valores cercanos a cero sealan la ausencia de una
asociacin lineal.

(4) El coeficiente de correlacin puede calcularse como:
r
X Y n x y
X n x Y n y
XY
i i
i
n
i
i
n
i
i
n


1
2 2
1
2 2
1


Matriz de correlaciones

Es frecuente analizar la relacin existente entre un conjunto de variables,
de manera que estemos interesados en las correlaciones entre todos los pares

posibles. Una forma de presentar estos resultados es una matriz de correlaciones,
R, definida como una matriz simtrica, con la siguiente presentacin:
R
r r r
r r
r
k
k
k

1
]
1
1
1
1
1
1
1
1
1
1
12 13 1
23 2
3
K
K
K
O M


donde r
ij
indica la correlacin entre la i-sima y la j-sima variables.


Algunos errores en la interpretacin del coeficiente de correlacin

Aunque el resultado del clculo de un coeficiente de correlacin resulta
fcil de interpretar, debe tenerse cuidado de no emplearlo de manera errnea. En
este apartado se hace hincapi en algunas incorrecciones que pueden cometerse
en un uso poco riguroso del coeficiente.

La deteccin de asociaciones lineales entre dos variables NO SUPONE la
existencia de una relacin causal.

Una correlacin alta (positiva o negativa) entre dos variables no es
indicativa de una relacin causal entre ellas. Son muchos los pares de variables
para los cuales pueden calcularse coeficientes de correlacin altos, mostrando
con ello la existencia de algn grado de asociacin y que, sin embargo, sera
disparatado intentar vincular por medio de algn tipo de relacin causa-efecto.
Incluso aunque la relacin causal pueda existir, este estadstico descriptivo no
pretende detectar ni su existencia ni la direccin de la causalidad.

El coeficiente de correlacin lineal TAMBIN PUEDE detectar la existencia
de relaciones no lineales entre dos variables.

Es cierto que los valores (absolutos) mximos del coeficiente de
correlacin se alcanzan cuando se da una relacin lineal exacta, sin embargo, es
posible encontrar coeficientes de correlacin entre dos variables distintos de cero
(incluso prximos a la unidad) que reflejen la existencia de una relacin no
lineal. En la grfica 14 reproducimos una relacin no lineal exacta entre dos
variables. Resulta evidente que si se calcula la correlacin lineal, el coeficiente
tendr un valor cercano a la unidad (de hecho, el coeficiente de correlacin entre
esas dos variables es igual a 0,9139). La explicacin se encuentra en la propia
definicin del coeficiente de correlacin, por lo que debe tenerse en cuenta que
aunque una asociacin lineal implica un coeficiente de correlacin alto (en valor

absoluto), lo contrario no es cierto: un coeficiente de correlacin alto no siempre
se corresponde con una relacin lineal entre las variables.

Grfica 14
X
30 20 10 0
Y
30000
20000
10000
0
-10000




El coeficiente de correlacin entre dos variables SE VE AFECTADO por la
existencia de otras variables.

Cuando se mide el grado de asociacin entre un par de variables se debe
tener en cuenta que el movimiento conjunto que puede detectarse en ellas
puede ser consecuencia de una tercera variable (o terceras variables). Esta
situacin se denomina de correlacin espuria, caracterizada por la existencia de
una tercera variable (o terceras), que influira simultneamente en los valores de
las variables analizadas. En situaciones de correlacin espuria debe tenerse en
cuenta que la asociacin se mide correctamente, pero que tendr mayor
capacidad explicativa cualquier discusin que incida en las verdaderas relaciones
de dependencias entre las variables.


NO SIEMPRE tiene sentido calcular el coeficiente de correlacin entre una
variable X y otras variables compuestas del tipo X Y + o X Y .

Por ejemplo, si se calcula el coeficiente de correlacin entre una variable
X y otra variable W, definida como Y X W + , puede ocurrir que aun cuando las
variables X e Y no estn correlacionadas, obtengamos valores altos de la

correlacin entre X y X+Y. El resultado depende de las varianzas de las variables
X, Y: cuanto mayor sea la varianza de X en relacin a la de Y, mayor ser el
coeficiente de correlacin entre X y X+Y.

Un fenmeno parecido de correlacin espuria se produce cuando se
calcula el coeficiente entre la variable X y un cociente como X/Y. Un caso usual,
por ejemplo, es la definicin de cantidades per capita, en las que las cifras de dos
variables X, Y medidas por ejemplo a nivel nacional, se dividen por el nmero de
individuos en la poblacin. En general, si calculamos proporciones de la forma
X/Z, Y/Z, fcilmente se producirn correlaciones espurias entre las dos variables
transformadas. Incluso si las variables X e Y no estuviesen correlacionadas, el
coeficiente de correlacin sera significativo, como consecuencia del papel de la
variable del denominador. Tambin es posible el fenmeno contrario: entre dos
variables con un cierto grado de asociacin, la estandarizacin puede disminuirla.
Por ello, debe tenerse un cierto cuidado cuando se trabaja con cocientes o
ndices, para tener en cuenta estos posibles efectos perversos.

El coeficiente de correlacin NO ES VLIDO si las observaciones procedan
de POBLACIONES DIFERENTES.

Existe una tendencia a aplicar las tcnicas estadsticas de manera ms o
menos automtica: si se dispone de informacin de dos variables para un
conjunto de individuos, nada impide calcular el coeficiente de correlacin entre
ambas. En ocasiones, sin embargo, es necesario tener en cuenta el origen de esas
observaciones. Al estar interesados en la relacin entre las dos variables, es
deseable que las observaciones provengan de un conjunto homogneo de
individuos, ya que lo contrario puede provocar una distorsin de la relacin entre
las variables. Una imagen explicar claramente el problema.

En la grfica 15 se muestran la situacin en el plano X, Y de 30
observaciones. Puede ver que existen dos grupos diferentes de observaciones:
respecto a los valores medios de las variables, uno se situara en el segundo
cuadrante, mientras que el otro grupo se localiza en el cuarto cuadrante.
Obviamente el coeficiente de correlacin, calculado sobre el conjunto de 30
observaciones, ser negativo (concretamente es igual a 0,9413). Si
conociramos que el origen de las observaciones no es una poblacin
homognea, sino dos poblaciones diferentes, estaramos ms interesados en
calcular dos coeficientes de correlacin, uno para el primer grupo de
observaciones y otro para el segundo. De hecho, si se calculan los coeficientes de
correlacin separadamente, las cifras que se obtienen son iguales a 0,763 y 0,686
(segundo y cuarto cuadrantes, respectivamente), es decir, que presentaran
correlacin positiva de parecida intensidad. El problema que se plantea es
importante, puesto que, si se tiene en cuenta la existencia de dos tipos de
observaciones, entre las dos variables se da una asociacin de tipo positivo,

mientras que cuando se agrupan todas ellas sin distincin, se consigue un
coeficiente negativo.

Grfica 15
X
70 60 50 40 30 20 10
Y
140
120
100
80
60
40
20



Piense que situaciones como la descrita pueden ser muy comunes. Por
ejemplo, suponga que estudia la relacin entre superficie de la vivienda y su
precio. Para ello toma informacin de diversas viviendas, sin distinguir si stas se
encuentran en una zona rural o urbana. Es posible que la posicin de las
observaciones sea similar a la representada en la grfica 15, siendo X la
superficie de la vivienda e Y el precio de la misma. El grupo del primer
cuadrante respondera a las viviendas de tipo urbano (con una baja superficie
media y alto precio), mientras que en el cuarto cuadrante apareceran las
viviendas de tipo rural, con una mayor superficie y un menor precio medio. Sin
distincin de su ubicacin, la asociacin entre las dos variables sera negativa: a
mayor superficie, menor precio; sin embargo, con ello se ocultara la relacin
fundamental entre las dos variables: cuanto mayor es la superficie, mayor es el
precio de la vivienda, aunque deba tenerse en cuenta la situacin geogrfica para
entender que los niveles en los que se establece esa relacin difieren segn se
trate de zonas urbanas o rurales.

Situaciones similares pueden darse combinando diversas posiciones de
los grupos. Puede existir una relacin esencial negativa entre las variables y que
por la existencia de grupos de individuos se detecte una correlacin positiva, o no
existir asociacin y detectarse con cualquier signo, etc. Como un segundo
ejemplo, observe la grfica 16. En la misma aparecen dos grupos de
observaciones. Si se calcula el coeficiente de correlacin, sin distincin de

grupos, se obtendr un valor positivo y posiblemente elevado. Sin embargo, las
formas de las dos nubes en el grfico hacen sospechar que la asociacin entre las
dos variables, en el caso de anlisis separados, sera nula.

Grfica 16
X
60 50 40 30 20 10
Y
60
50
40
30
20
10



El coeficiente de correlacin de rangos de Spearman

El coeficiente de correlacin se puede calcular para cualquier tipo de
variable cuantitativa de tipo continuo. Una aplicacin comn del mismo, sin
embargo, es sobre el el clculo del coeficiente sobre dos variables que indican,
cada una de ellas, cul es la posicin de la observacin en el conjunto de la
muestra, cuando la variable se ordena de menor a mayor. Por ejemplo, los valores
de la variable X en la segunda columna del cuadro 4, ordenados de menor a
mayor proporcionaran el orden que aparece en la cuarta columna (rango de X).
El valor menor es el correspondiente a la observacin 4, el siguiente a la
observacin 1, etctera. La misma ordenacin se puede realizar para la variable
Y. Entre estas dos ordenaciones se puede calcular el coeficiente de correlacin.
Con ello se obtiene una medida de asociacin en los posicionamientos de las dos
variables.

Mientras que el coeficiente de correlacin sobre las variables originales
X e Y indica el grado de asociacin en los valores de las dos series de
observaciones, el coeficiente de correlacin de rangos (o coeficiente de
correlacin de Spearman) mide el grado de asociacin del orden de las
observaciones en las dos variables.


Cuadro 4
i X Y Rango de X Rango de Y
1 4 10 2 2
2 5 11 3 3
3 7 9 4 1
4 3 15 1 5
5 8 13 5 4

Difiere el grado de asociacin segn se utilice el coeficente de Pearson
(el coeficiente calculado sobre los valores originales) o el coeficiente de
Spearman (sobre los rangos de las observaciones)? En el cuadro 5 se muestran
las cifras necesarias para calcular ambos estadsticos.

Cuadro 5
Valores originales de las variables Rangos de las variables
X
i
Y
i
X Y
i i

X
i
2
Y
i
2

X
i
Y
i
X Y
i i

X
i
2
Y
i
2

4 10 40 16 100 2 2 4 4 4
5 11 55 25 121 3 3 9 9 9
7 9 63 49 81 4 1 4 16 1
3 15 45 9 225 1 5 5 1 25
8 13 104 64 169 5 4 20 25 16


x

y
X Y
i i
i
n

1

X
i
i
n
2
1


Y
i
i
n
2
1



x

y
X Y
i i
i
n

1

X
i
i
n
2
1

Y
i
i
n
2
1


5,4 11,6 307 163 696 3 3 42 55 55


El coeficiente de correlacin de Pearson ser:
r
X Y n x y
X n x
Pearson
i i
i
n
i
i
n

1
2 2
1
2 2
307 5 5 4 116
163 5 5 4 696 5 11 6
0 3104
, ,
, ,
,

Y el coeficiente de Spearman:


r
X Y n x y
X n x
Spearmn
i i
i
n
i
i
n

1
2 2
1
2 2
42 5 3 3
55 5 3 55 5 3
0 3 ,

En este caso, por tanto, ambos coeficientes proporcionan valores
similares. Esta concidencia, sin embargo, no siempre se mantiene. Por ejemplo,
los datos del cuadro 6 mantienen la misma relacin de rangos que el ejemplo
anterior, pero con distintos valores de las variables. El coeficiente de correlacin
de Pearson es ahora igual a 0,153, valor ya alejado del 0,3 del coeficiente de
Spearman.

Cuadro 6
i X Y Rango de X Rango de Y
1 19 73 2 2
2 55 110 3 3
3 110 9 4 1
4 3 230 1 5
5 220 150 5 4

Si existen observaciones empatadas (dos valores de X idnticos) sus
rangos se obtendran promediando las observaciones empatadas. Por ejemplo, si
aparecen tres valores iguales a 19, y los rangos que le corresponden son 2, 3 y 4,
asignaramos el rango 3 a todas ellas. La siguiente observacin tendra un valor
del rango igual a 5. Si dos observaciones toman un valor igual y sus rangos son 2
y 3, se les asignara el rango 2,5 y a la siguiente observacin se le asignara el
rango 4.

Dadas las caractersticas numricas del coeficiente de Spearman (por
ejemplo, las sumas de cuadrados de las desviaciones son iguales en ambas
variables) en ocasiones (y si no hay empates en las observaciones) se utiliza
como frmula de clculo la siguiente:
r
d
n n
Spearman
i
i
n

1
6
1
2
1
2
( )
,
donde ( ) ( ) d Rango X Rango Y
i i i
.




Ejemplo 1. La fiscalidad sobre el trabajo y el desempleo en la
OCDE. Bajo este ttulo Domnech et al. (1997) analizan la relacin entre
las tasas de desempleo en los pases de la OCDE y el crecimiento de la
fiscalidad sobre el trabajo. La coincidencia entre las altas tasas de
desempleo y los impuestos sobre el trabajo han llevado a estudiar la
posible reduccin del paro al disminuir estos impuestos.

Como parte de su trabajo estudian la relacin entre la tasa de
desempleo de diversos pases y la brecha entre el coste laboral real (a
precios de produccin) y el salario real neto (a precios de consumo). La
diferencia esencial entre los dos conceptos salariales es lo que los
autores denominan cua fiscal, que incluye los tipos efectivos de las
cotizaciones sociales del empleador y a cargo del asalariado, la
imposicin indirecta y la imposicin directa sobre el factor trabajo (la cua
fiscal se define, por tanto, como la suma de estos cuatro tipos
impositivos). Para diversos pases, en el cuadro 7 se muestran los
valores medios en el perodo 1965-1992 de la tasa de paro y de la cua
impositiva (fuente: Domnech et al. 1997).

Los datos de los valores medios de las dos variables se han
reproducido en la grfica 17. Puede observar que no existe una relacin
clara entre la cua fiscal y la tasa de desempleo. Como indican
Domnech et al. (1997, pg. 183 y siguientes):

Los pases no europeos de la OCDE presentan una cua fiscal
inferior a la de los pases europeos, sin que, sin embargo, se
detecten tasas de desempleo sistemticamente inferiores.

EEUU con una cua fiscal inferior a la de Francia o
Dinamarca, tiene una tasa de desempleo promedio muy
similar.

Dos de los pases con mayor cua fiscal (Suecia y Noruega)
tienen unas tasas de desempleo menores que las de otros
pases con menor cua fiscal.

Espaa tiene una cua fiscal similar a la de Portugal o Nueva
Zelanda, pero su tasa de desempleo es muy superior.

Si se excluyen de la grfica las observaciones de Japn, Suiza
y Nueva Zelanda, la imagen de una relacin negativa entre las
variables parece que se refuerza.


De hecho, una manera sinttica de medir la asociacin entre las
dos series de valores es el coeficiente de correlacin, que pasamos a
calcular a partir de la informacin del cuadro 8.




Cuadro 7
Pas
Tasa de
desempleo
Cua
impositiva
Alemania 2,6 0,8
Austria 5,6 0,35
Blgica 7,3 0,87
Canad 7,9 0,53
Dinamarca 6,4 1
EEUU 6,6 0,4
Espaa 10,6 0,47
Francia 6,4 0,85
Grecia 5,5 0,63
Holanda 5,2 0,89
Irlanda 10,4 0,61
Italia 8,4 0,62
Japn 2,4 0,31
Noruega 2,7 1,03
Nueva Zelanda 3,3 0,46
Portugal 5,8 0,45
Suecia 2,4 1,1
Suiza 0,8 0,39
UK 6 0,52


Grfica 17

t
a
s
a

d
e

d
e
s
e
m
p
l
e
o
cua impositiva
.2 .4 .6 .8 1 1.2
0
2
4
6
8
10
12
Espaa
Irlanda
Italia
Canad
Blgica
EEUU
Francia Dinamarc
UK
Portugal
Austria
Grecia
Holanda
Nueva Ze
Noruega
Alemania
Japn Suecia
Suiza

Cuadro 8
X
i
Y
i

X
i
2
Y
i
2

X Y
i i

2,6 0,8 6,76 0,64 2,08
5,6 0,35 31,36 0,1225 1,96
7,3 0,87 53,29 0,7569 6,351
7,9 0,53 62,41 0,2809 4,187
6,4 1 40,96 1 6,4
6,6 0,4 43,56 0,16 2,64
10,6 0,47 112,36 0,2209 4,982
6,4 0,85 40,96 0,7225 5,44
5,5 0,63 30,25 0,3969 3,465
5,2 0,89 27,04 0,7921 4,628
10,4 0,61 108,16 0,3721 6,344
8,4 0,62 70,56 0,3844 5,208
2,4 0,31 5,76 0,0961 0,744
2,7 1,03 7,29 1,0609 2,781
3,3 0,46 10,89 0,2116 1,518
5,8 0,45 33,64 0,2025 2,61
2,4 1,1 5,76 1,21 2,64
0,8 0,39 0,64 0,1521 0,312
6 0,52 36 0,2704 3,12

X
i
i
n

1
Y
i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1

X Y
i i
i
n

1


106,3 12,28 727,65 9,0528 67,41
x y
5,5947 0,64632


El coeficiente de correlacin es:
r
X Y n x y
X n x Y n y
XY
i i
i
n
i
i
n
i
i
n


1
2 2
1
2 2
1




67 41 19 5 5947 0 64632
727 65 19 5 5947 9 0528 19 0 64632
0 1062
2 2
, , ,
, , , ,
,

Entre las dos variables, por tanto, no parece existir ningn tipo de
asociacin, pudindose incluso hablar de una pequea asociacin negativa,
cuando se utiliza la informacin promedio del perodo 1965-1992.

Ejemplo 2. Los costes del despido en Europa. Los costes del
despido en los pases de la Unin Europea (UE) se contabilizan por
meses de salario, que varan en funcin de la antigedad del trabajador
en la empresa. En el cuadro 9 se muestran los costes de despido en los
diversos pases de la UE en 1996, para un trabajador con veinte aos de
antigedad (Fuente: Layard et al., 1996), distinguiendo entre despidos
procedentes y despidos improcedentes. A partir de esta informacin se
desea conocer si en el conjunto de pases de la UE exista (los costes se
han modificado para algunos pases, entre ellos Espaa) algn tipo de
asociacin entre los costes de despido procedente e improcedente.

Cuadro 9
Costes de despido
Despidos
procedentes
Despidos
improcedentes
Austria 14 20
Belgica 9 12,5
Dinamarca 5,2 9
Finlandia 5,2 6
Francia 4,2 15
Alemania 3,4 18
Irlanda 5,4 24

Italia 19,6 32,5
Holanda 4 5,3
Portugal 16,1 20
Espaa 8,3 30
Suecia 5 16
UK 6,7 11
UE 8,1 16,8
Fuente: Layard et al. (1996)


La representacin de los costes de despido para el conjunto de
pases se muestra en la grfica 18. En la imagen ya se detecta la
asociacin positiva entre ambos tipos de costes: los pases con un coste
alto en los despidos procedentes tienen, en general, costes tambin
relativamente altos en los despidos improcedentes. Destaca la posicin
de Italia, con costes muy elevados en ambos tipos de despido, y de
Espaa, con un alto coste en el despido improcedente (segundo mayor
coste) pero con un coste en el despido procedente similar al de la media
de la UE.



Grfica 18
d
e
s
p
i
d
o
s

p
r
o
c
e
d
e
n
t
e
s
despidos improcedentes
5.3 32.5
3.4
19.6
Austria
Belgica
Dinamarc Finlandi
Francia
Alemania
Irlanda
Italia
Holanda
Portugal
Espaa
Suecia
UK
UE


Cuadro 10
X
i
Y
i

X
i
2
Y
i
2

X Y
i i


14 20 196 400 280
9 12,5 81 156,25 112,5
5,2 9 27,04 81 46,8
5,2 6 27,04 36 31,2
4,2 15 17,64 225 63
3,4 18 11,56 324 61,2
5,4 24 29,16 576 129,6
19,6 32,5 384,16 1056,25 637
4 5,3 16 28,09 21,2
16,1 20 259,21 400 322
8,3 30 68,89 900 249
5 16 25 256 80
6,7 11 44,89 121 73,7

X
i
i
n

1
Y
i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1

X Y
i i
i
n

1

106,1 219,3 1187,59 4559,59 2107,2
x
y
8,1615
16,8692
3

Para calcular el coeficiente de correlacin entre las dos variables
aplicaremos explcitamente la expresin:
r
X Y n x y
X n x Y n y
XY
i i
i
n
i
i
n
i
i
n


1
2 2
1
2 2
1


Utilizando los valores que aparecen en el cuadro 10, el coeficiente de
correlacin entre los dos tipos de costes confirma numricamente la asociacin
que detectbamos al visualizar los datos:
r
X Y n x y
X n x Y n y
XY
i i
i
n
i
i
n
i
i
n


1
2 2
1
2 2
1




2107 2 13 8 1615 16 86923
1187 59 13 8 1615 4559 59 13 16 86923
0 6034
2 2
, , ,
, , , ,
,


La correlacin entre ambos tipos de costes es positiva y
relativamente alta, aunque su valor implica que cualquier comentario
sobre la importancia de los costes de despido en estos pases debe
distinguir entre los despidos procedentes y los improcedentes.


Ejemplo 3. Transformacin de variables. Para dos variables X e Y
se conoce su coeficiente de correlacin lineal, siendo igual a 0,9. Se
desea conocer el coeficiente de correlacin lineal entre las variables X
*
=
3X-4 e Y
*
= 4Y-3.

El coeficiente de correlacin entre las variables transformadas de
definir a partir de las reglas que se aplican para sus covarianzas y
desviaciones estndar, por lo que se tendr:
9 , 0
4 3
4 3
* *
* *


XY
Y X
XY
Y X
XY
Y X
Y X
XY
r
s s
s
s s
s
s s
s
r

Es decir, que la correlacin entre dos variable que se han
modificado a partir de transformaciones lineales directas de otras dos, no
modifica el valor del coeficiente.


Ejemplo 4. Beneficios de las compaas areas. Se desea conocer
si existe relacin entre el volumen de ventas de las compaas areas y
su nivel de beneficios. Para ello tiene la informacin del cuadro 11, donde
aparecen los valores medios de diversas compaas norteamericanas en
el periodo 1987-1996 (en miles de dlares).


Cuadro 11
X
i

Ventas
Y
i

Beneficios
X Y
i i

X
i
2
Y
i
2

1239 31,3 38781 1535121 980
13212 18,1 239137 174556944 328
6867 9 61803 47155689 81
9023 379,4 3423326 81414529 143944
6286 503 3161858 39513796 253009
10258 14,8 151818 105226564 219
9854 55,4 545912 97101316 3069
4200 71 298200 17640000 5041
10199 115,1 1173905 104019601 13248
7736 42,3 327233 59845696 1789

5272 96,1 506639 27793984 9235
5485 912,1 5002869 30085225 831926
1799 103,8 186736 3236401 10774
4603 567,5 2612203 21187609 322056
3826 212,8 814173 14638276 45284
12242 128,9 1577994 149866564 16615
6442 171,5 1104803 41499364 29412

x

y
X Y
i i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1


6973 202
2122738
9
101631667
9 1687012


El coeficiente de correlacin ser:

n
i
i
n
i
i
n
i
i i
XY
y n Y x n X
y x n Y X
r
1
2 2
1
2 2
1

197 , 0
202 17 1687012 6973 17 1016316679
202 6973 17 21227389
2 2






Es decir, que cuanto mayor es el volumen de ventas, menor
parece ser el nivel de beneficios.


Ejemplo 5. Riqueza y consumo turstico. En una discusin sobre la
importancia de las vacaciones en las familias europeas, se defiende que
los determinantes del consumo turstico no son slo econmicos, sino
culturales. Para justificar este argumento se calcula la correlacin entre
un indicador de riqueza y la proporcin de la poblacin que hace
vacaciones. En el cuadro 12 se muestra la informacin utilizada (datos de
1990).

Cuadro 12
Pas
X
i

Consumo
per capita
(euros)
Y
i

% poblacin
que hace
vacaciones
X Y
i i

X
i
2
Y
i
2


Espaa 6172 53,4 329585 38093584 2852
UK 8440 61 514840 71233600 3721
Holanda 8646 69,9 604355 74753316 4886
Italia 9199 57,2 526183 84621601 3272
Blgica 9872 56 552832 97456384 3136
Francia 9977 59,1 589641 99540529 3493
Alemani
a
10141 68,2 691616 102839881 4651

x

y
X Y
i i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1



8921 60,69
3809051,9
0
568538895
26010,4
6

El coeficiente de correlacin es igual a:

n
i
i
n
i
i
n
i
i i
XY
y n Y x n X
y x n Y X
r
1
2 2
1
2 2
1

38 , 0
69 , 60 7 26010 8921 7 568538895
69 , 60 8921 7 3809052
2 2





Del resultado se deduce que existe una relacin entre el nivel de
riqueza del pas y la cantidad de personas que hacen vacaciones, aunque
el bajo valor del coeficiente seala que deben influir tambin otros
factores.

Ejemplo 6. Correlaciones de los gastos familiares. Sobre una
muestra de 271 familias espaolas se desea analizar las asociaciones
existentes entre su gasto familiar total, sus ingresos familiares y varias
categoras de gasto. Para cada familia se ha tomado como periodo de
referencia el trimestre anterior a la encuesta. Se han agregado los gastos
familiares correspondientes a las siguientes categoras: alimentacin,
vestido y calzado, bienes no duraderos (vivienda, calefaccin y
alumbrado, medicinas, seguros, enseanza, etctera) y bienes
duraderos (muebles y accesorios fijos, aparatos de calefaccin y
cocina, vehculo de transporte, aparatos de radio y televisin, etctera).
La matriz de correlaciones entre estas partidas de gasto, el gasto total y
el ingreso familiar se muestra en el cuadro 13.

Cuadro 13

Alimentacin Vestido No duraderos Duraderos Gasto I ngresos
Aliment. 1 0,22 0,25 0,09 0,50 0,26
Vestido 0,22 1 0,43 0,13 0,60 0,34
No durad. 0,25 0,43 1 0,14 0,86 0,61
Durad. 0,09 0,13 0,14 1 0,51 0,16
Gasto 0,50 0,60 0,86 0,51 1 0,59
I ngresos 0,26 0,34 0,61 0,16 0,59 1


La relacin entre los ingresos y los gastos totales es, obviamente,
positiva (en la grfica 19 se muestra la relacin entre las dos variables) y
relativamente alta (con un valor igual a 0,59). Esa relacin, sin embargo,
no se mantiene cuando se desglosan las diversas componentes del gasto
total. Mientras que la relacin entre ingresos y los gastos no duraderos
proporciona un valor similar, la relacin de los niveles de ingreso y el
gasto en alimentacin es muy bajo (0,25), siendo el valor del coeficiente
del gasto en vestido y calzado algo mayor (0,34). Estos valores se
corresponden con los valores esperados: tanto la partida de alimentacin
como la de vestido pueden considerarse bienes de consumo necesarios
y, en consecuencia, resulta lgico que, aunque con una asociacin
positiva, unos mayores ingresos no supongan un gasto en alimentacin
proporcional. Es, sin embargo, llamativo el que el coeficiente de
correlacin entre los ingresos y el gasto en bienes duraderos sea tan
bajo. Lo que parecera normal esperar es que, al tratarse de un tipo de
bien no necesario, un nivel alto de ingreso estuviera asociado a un alto
nivel de consumo. O dicho de otra manera, que al ir situndonos en
niveles de renta ms altos, tambin se observarn niveles de consumo en
bienes duraderos por encima de la media. Esto ocurre as, por ejemplo,
con el gasto en bienes no duraderos, para el que el coeficiente de
correlacin con los ingresos es igual a 0,61. Por el contrario, el
coeficiente asociado a los bienes duraderos es el ms bajo de todos
(0,16). La visualizacin de los datos nos ayudar a entender lo que
ocurre.

En la grfica 20 se puede observar que un importante nmero de
familias, en cualquier nivel de ingresos, no realizan ningn consumo de
bienes duraderos. La razn es que muchos de sus productos tienen una
frecuencia de compra que no abarca el trimestre. Muchas de las 271
familias encuestadas no han realizado en ese trimestre ningn gasto en
este tipo de bienes, por lo que su respuesta en esta partida es de
consumo cero. Como consecuencia de ello, el valor medido del
coeficiente de correlacin no recoge la expectativa a priori sobre el
mismo. El problema de frecuencia de compra es uno de los que deben

enfrentarse cuando se desean analizar los patrones de consumo
individuales.



Grfica 19
0
1000000
2000000
3000000
0 1000000 2000000 3000000
Gasto familiar total
Ingresos familiares


Grfica 20
0
100000
200000
300000
400000
500000
600000
700000
800000
900000
1000000
1100000
1200000
1300000
0 1000000 2000000 3000000
Gasto en bienes duraderos
Ingresos familiares



Ejemplo 7. Por qu son ms pobres los pensionistas ms viejos?
En Johnson y Stears (1998) se estudia la relacin que existe entre los
ingresos de los pensionistas y su edad. En muchas economas los
pensionistas aparecen entre los grupos ms pobres, pero tambin entre
ellos parecen existir fuertes diferencias. Uno de los fenmenos ms

curiosos es la relacin negativa que existe entre la edad y los ingresos de
los pensionistas. Se ha comprobado que cuanto mayor es la edad del
pensionista, menores son sus ingresos. Una primera explicacin ha
justificado esta relacin por el hecho de que entre los pensionistas de
mayor edad el porcentaje de mujeres es mayor (al tener una mayor
esperanza de vida). Para comprobar la validez de esta explicacin, los
autores han analizado los ingresos de los pensionistas de sexo
masculino, con relacin a su edad. Los autores emplean informacin de
una encuesta anual de gastos familiares en el Reino Unido (Family
Expenditure Surveys, FES), que recoge informacin sobre ingresos y
gastos de unas 7000 familias. En el cuadro 14 se recogen los ingresos
totales medios de los pensionistas varones entre 65 y 85 aos, en
1992/1993. Se trata de ingresos semanales, medidos en libras constantes
de enero de 1995.

Cuadro 14
Edad 65 66 67 68 69 70 71 72 73 74 75
Renta 197 193 184 172 166 177 172,5 164 150 152 156
Edad 76 77 78 79 80 81 82 83 84 85
Renta 153 149 144 143 138 139 130 130,5 125 124


En la grfica 21 se ilustra la relacin entre las dos series. Resulta
evidente a partir de la misma que la asociacin entre ambas variables es
negativa y alta en valor absoluto. El coeficiente de correlacin
proporciona el siguiente resultado:
r
X Y n x y
X n x Y n y
XY
i i
i
n
i
i
n
i
i
n


1
2 2
1
2 2
1




241825 21 75 1551905
118895 21 75 515066 5 21 1551905
0 9716
2 2
,
, ,
,

Grfica 21

edad del pensionista
85 80 75 70 65
r
e
n
t
a

m
e
d
i
a
200
180
160
140
120


El clculo del coeficiente confirma la impresin visual, con un alto
valor negativo igual a 0,9716, dado que los datos slo incluyen a los
varones pensionistas, no parece que la relacin negativa entre edad e
ingresos dependa del sexo.

Ejemplo 8. Correlacin en el mercado mundial de acciones. Las
carteras internacionales de acciones se caracterizan hoy por su
diversificacin. La diversificacin internacional de la inversin supone una
reduccin del riesgo y un aumento de los beneficios esperados. Estos
estmulos a la diversificacin dependen, no obstante, del grado de
correlacin de los distintos mercados, ya que si los mercados siguen una
evolucin similar, los incentivos de la diversificacin disminuyen. Debe
tenerse en cuenta, adems, la estabilidad a lo largo del tiempo de esas
asociaciones, ya que si stas son constantes el inversor tendr una
garanta adicional. Michaud et al. (1996) analizan el grado de correlacin
existente entre el mercado de acciones de EEUU y distintos mercados
mundiales, calculando los coeficientes de correlacin entre un ndice
representativo de la evolucin del mercado de EEUU e ndices de 15
pases. Los ndices empleados son los de Morgan Stanley Capital
International (MSCI) para los distintos pases. Las correlaciones se han
calculado con informacin de dos perodos de tiempo, el primero entre
1959 y 1973, el segundo entre 1976 y 1995. En el cuadro 15 se
reproducen los resultados que ofrecen los autores, junto con el orden en
funcin del valor del coeficiente (desde el valor ms alto del coeficiente
hasta el valor menor), para cada perodo.


Cuadro 15

Correlaciones
con el mercado de
EEUU
Orden de la
correlacin
(de mayor a menor) Mercado
1976-
1995
1959-
1973
1976-1995
1959-
1973
Australia
0,40 0,23 7 9
Austria 0,12 0,12 15 13
Blgica 0,40 0,46 8 4
Canad 0,68 0,80 1 1
Dinamarca 0,32 0,04 11 14
Francia 0,42 0,25 6 8
Alemania 0,33 0,38 10 5
Italia 0,20 0,21 14 10
J apn 0,23 0,13 13 12
Holanda 0,58 0,61 2 2
Noruega 0,47 0,17 4 11
Espaa 0,29 0,04 12 14
Suecia 0,39 0,33 9 6
Suiza 0,46 0,49 5 3
UK 0,50 0,29 3 7
Del anlisis de los coeficientes de correlacin se extraen las siguientes
conclusiones:

Los mercados con las correlaciones ms altas en el perodo 1959-
1973 (Canad, Holanda y Suiza) tienen correlaciones numricamente
inferiores en el segundo perodo. Por el contrario, mercados como el
de Espaa y Dinamarca, apenas correlacionados con el de EEUU en
la primera etapa, presentan correlaciones algo ms altas en las
ltimas dos dcadas.
Si se calcula el coeficiente de correlacin entre los rangos de las
correlaciones de los dos perodos se obtiene un valor igual a 0,71.
Esto es indicativo de que efectivamente parece haberse dado una
continuidad importante en las relaciones a largo plazo entre estos
mercados de acciones.
No parece existir evidencia, por lo tanto, de cambios importantes en
la correlacin del mercado de EEUU con los principales mercados
mundiales. Este resultado entrara en contradiccin con la creencia de
que los mercados de acciones han incrementado su sincronizacin,
siendo ms sensibles a la influencia de factores comunes.



Ejemplo 9. Correlacin entre Bolsas Mundiales A quin sigue el
IBEX? Martnez y Cabezas (1997) intentan contestar a esta pregunta
calculando los coeficientes de correlacin entre el ndice IBEX y seis
ndices internacionales, empleando para ello datos diarios de cierre
durante el perodo 1/1/1985 al 1/1/1996. Los ndices considerados son los
siguientes:

DAX 30 (Alemania).
CAC 40 (Francia).
FT SE 100 (Inglaterra).
S&P 500 (EEUU).
NIKKEI 225 (Japn).

Los coeficientes de correlacin no se calculan directamente sobre los
ndices, sino sobre las rentabilidades logartmicas, definidas como:
log
p
p
t
t

_
,

1

donde p
t
indica el valor del ndice en el da t.

Los coeficientes de correlacin se calculan separadamente en
cuatro perodos:

Primer perodo: Enero de 1985 a octubre de 1987. En octubre de
1987 se produce una importante crisis burstil.
Segundo perodo: Octubre de 1987 a agosto de 1990. En agosto
de 1990 tiene lugar la guerra de Kuwait, que provoc una crisis en
las bolsas.
Tercer perodo: Agosto de 1990 a junio de 1992. Este perodo
abarca desde la crisis de Kuwait al no dans a Maastricht.
Cuarto perodo: Junio de 1992 a diciembre de 1996. Abarca desde
el referndum dans hasta la ltima fecha analizada.

En el cuadro 16 se muestran los coeficientes de correlacin
obtenidos por los autores, entre el IBEX y los cinco restantes ndices
mundiales.

Cuadro 16
Correlaciones con el IBEX
Perodo 85-87 87-90 90-92 92-96
DAX 30
-0,1 0,3 0,4 0,5
CAC 40 -0,1 0,3 0,4 0,6

FT SE 100 0,0 0,1 0,3 0,5
S&P 500 0,0 0,0 0,3 0,2
NIKKEI 225 0,0 0,2 0,2 0,2

Los autores obtienen las siguientes conclusiones:

Coincidiendo con las crisis burstiles ms importantes de los ltimos
12 aos, la correlacin del IBEX con las restantes bolsas ha ido
aumentando con el tiempo.
La crisis de octubre de 1987 inicia la conexin del mercado burstil
espaol con los de Alemania y Francia.
La crisis de 1992 relaciona el mercado espaol con el mercado
europeo.
Las bolsas que mantienen una mayor relacin con la espaola son la
francesa y alemana, estando ms alejadas las bolsas de Japn y
EEUU. Este proceso sera resultado del proceso de convergencia de
la unin monetaria europea.

Ejemplo 10. Riesgo de una cartera. La rentabilidad de un activo de
renta variable puede definirse de distintas maneras. Hemos utilizado
anteriormente un concepto habitual de rentabilidad simple:
r
Precio Precio
Precio
it
it it
it

1
1

que supone que en los precios ya se incorporan dividendos, derechos y
otras remuneraciones.

Cuando se trabaja con una nica accin, una medida del riesgo la
constituye la varianza de su rentabilidad. Se trata ahora de generalizar el
concepto de riesgo de un activo al de una cartera de activos. Para ello,
definiremos en primer lugar la rentabilidad de una cartera. Una cartera es
una combinacin de ttulos, en la que cada uno de ellos participa con un
porcentaje determinado. La rentabilidad de la cartera se define como una
media ponderada de las rentabilidades individuales, en la que la
ponderacin viene dada por el porcentaje que representa en el valor total
de la cartera. As, si definimos por w
i
el porcentaje que representa un
activo i en el valor total de la cartera, la rentabilidad de la cartera ser
(teniendo en cuenta que la suma de las ponderaciones es la unidad):
R
w r
w
w r
ct
i it
i
i
i
i it
i




El riesgo de una cartera se puede definir empleando de nuevo el
concepto de varianza. Para T observaciones de la rentabilidad de la cartera:

( )
( )
var R
R R
T
ct
ct c
t
T

2
1

donde R
c
indica la media de la rentabilidad de la cartera en el perodo:
R
R
T
w r
T
w r
T
w
r
T
w r
c
ct
t
T
i it
i t
T
i it
t
T
i
i
it
i
T
i i
i i




1 1 1 1


Supongamos que la cartera est compuesta nicamente de dos
activos, cada uno de ellos con una importancia w
i
y
verificando: w w
1 2
1 + . El numerador de la varianza podra reescribirse
de la siguiente manera:
( ) ( ) ( )
R R w r w r w r w r
ct c t t
t
T
t
T
+ +


2
1 1 2 2 1 1 2 2
1
2
1

( ) ( ) ( )
+

w r r w r r
t t
t
T
1 1 1 2 2 2
2
1

( ) ( ) ( ) ( ) ( )
( )
+ +

w r r w r r w w r r r r
t t t t
t
T
1
2
1 1
2
2
2
2 2
2
1 2 1 1 2 2
1
2
( ) ( ) ( )( ) ( )
+ +


w r r w r r w w r r r r
t
t
T
t
t
T
t
T
t t 1
2
1 1
2
1
2
2
2 2
2
1
1 2
1
1 1 2 2
2
( ) ( ) ( )( ) ( )
+ +


w r r w r r w w r r r r
t
t
T
t
t
T
t
T
t t 1
2
1 1
2
1
2
2
2 2
2
1
1 2
1
1 1 2 2
2

Como consecuencia, la varianza de la rentabilidad de la cartera
ser:
( )
( )
var R
R R
T
ct
ct c
t
T

2
1

( ) ( ) ( )( ) ( )



w
r r
T
w
r r
T
w w
r r r r
T
t
t
T
t
t
T
t t
t
T
1
2
1 1
2
1
2
2
2 2
2
1
1 2
1 1 2 2
1
2
( ) ( ) ( ) + + w var r w var r w w covar r r
1
2
1 2
2
2 1 2 1 2
2


Denotando var(a) la varianza de a y covar(a,b) la covarianza entre
a y b. La expresin anterior puede generalizarse a carteras de ms de
dos activos. Para k activos:
( ) ( ) ( )
var R w var r w w covar r r
c i i
i
k
i j i j
j
i j
k
i
k
+

<


2
1 2 1
1
2
O si se quiere, puede expresarse en funcin del coeficiente de
correlacin (indicando en esta notacin correl(a,b) la correlacin entre los
rendimientos de los activos a y b)
1
:

( ) ( ) ( ) ( ) ( )
var R w var r w w var r var r correl r r
c i i
i
k
i j i j i j
j
i j
k
i
k
+

<


2
1 2 1
1
2

Fjese que el riesgo de la cartera depende de k varianzas y de k(k-
1)/2 covarianzas. De manera que cuanto mayor es el valor de k, mayor
ser la importancia relativa de las covarianzas para determinar el riesgo
de la cartera. Si k=6, el nmero de covarianzas distintas ser de 15; si
k=12, el nmero de covarianzas es de 66.

Al aumentar el nmero de activos de la cartera, el riesgo global se
aproxima a una media ponderada de las covarianzas.

De nuevo para nicamente dos activos:
( ) ( ) ( ) ( ) ( ) ( ) var R w var r w var r w w var r var r correl r r
c
+ +
1
2
1 2
2
2 1 2 1 2 1 2
2

Este resultado permite observar que el riesgo global de una
cartera depende del riesgo de cada uno de los activos que la forman
(ponderados segn la importancia de su participacin) y de un riesgo
comn. Esta ltima componente del riesgo de la cartera juega un papel
importante para lograr disminuir el riesgo global. La situacin ideal ser
aquella en la que la correlacin sea negativa, pues con ello disminuir la
varianza del rendimiento de la cartera definida por la ponderacin simple
de las varianzas:


1
Teniendo en cuenta que el coeficiente de correlacin entre dos variables X e Y se define
como:
r
s
s s
XY
XY
X Y


( ) ( ) ( ) ( ) ( ) ( ) var R w var r w var r w w var r var r correl r r
c
+
1
2
1 2
2
2 1 2 1 2 1 2
2
Sin embargo, la correlacin de tipo positivo entre los activos ser
el valor ms frecuente, al incidir el riesgo de mercado sobre todas ellas.
Respecto a una correlacin positiva exacta, una correlacin positiva e
inferior a la unidad, disminuir comparativamente el riesgo global de la
cartera.

Ejemplo 11. Valoracin de una cartera con dos acciones. En este
ejemplo vamos a aplicar directamente lo explicado en el ejemplo anterior
a una cartera con dos acciones. En el cuadro 17 se muestran las
cotizaciones de las dos series durante 12 perodos. A partir de las
mismas se han calculado los rendimientos de cada perodo, los valores
medios y desviaciones estndar, la covarianza y el coeficiente de
correlacin de las dos series de rendimientos.

Cuadro 17
t p
At
p
Bt
r
p p
p
At
At At
At

1
1
r
p p
p
Bt
Bt Bt
Bt

1
1

0 11 12 - -
1 12 10 0,091 -0,167
2 13 9,5 0,083 -0,05
3 12,5 10 -0,038 0,053
4 13 9 0,04 -0,1
5 13,5 10 0,038 0,111
6 14 12 0,037 0,2
7 14,7 13 0,05 0,083
8 15 15 0,021 0,154
9 16 16 0,067 0,067
10 16,3 17 0,019 0,063
11 16,4 16,5 0,006 -0,029
r
A
r
B

( ) var r
A
( ) var r
B

0,0375 0,0349 0,0348 0,1052
( ) covar r r
A B
( ) correl r r
A B

-0,001395 -0,38



Mediante los estadsticos de resumen podemos observar que las
dos acciones tienen un rendimiento similar, aunque superior para la
accin A. El riesgo de la accin B (medido por su desviacin estndar) es

mayor que el de la accin A. El signo negativo de la correlacin entre las
dos series de rendimientos indica que su combinacin en una cartera
puede resultar adecuada, aunque su valor absoluto, sin embargo, est
alejado de una correlacin exacta.

Con la anterior informacin podemos ahora calcular los
rendimientos medios y el riesgo global de una cartera que combine de
manera diferente ambas acciones. En el cuadro 18 se muestran posibles
combinaciones de las dos acciones (en las columnas w
1
,1
1
w ). Para
cada una de ellas se ha calculado el rendimiento medio de la cartera y el
riesgo global, segn las frmulas:

R w r w r
c A A B B
+

( ) ( ) ( ) ( ) ( ) ( ) var R w var r w var r w w var r var r correl r r
c A A B B A B A B A B
+ +
2 2
2

Cuadro 18
w
1
1
1
w
Rendimiento
medio de la
cartera
Orden
Rendimiento
(ms a
menos)
Riesgo
global
Orden
Riesgo
(menos a
ms)
0,75 0,25 0,0369 4 0,00084 3
1 0 0,0376 1 0,00121 5
0 1 0,0349 12 0,01107 12
0,9 0,1 0,0373 2 0,00084 2
0,8 0,2 0,0370 3 0,00077 1
0,7 0,3 0,0368 5 0,00100 4
0,6 0,4 0,0365 6 0,00153 6
0,5 0,5 0,0362 7 0,00237 7
0,4 0,6 0,0359 8 0,00351 8
0,3 0,7 0,0357 9 0,00495 9
0,2 0,8 0,0354 10 0,00669 10
0,1 0,9 0,0352 11 0,00873 11


La opcin de mayor rendimiento (1, 0) sera la que opta por invertir
todo en la accin A, que es la que tiene mayor rendimiento individual y
menor riesgo. Sin embargo, esta opcin no la sita entre las mejores a
nivel del riesgo global. Respecto a este concepto, esta combinacin sera
la quinta mejor opcin. La explicacin de ello se encuentra en la
correlacin negativa entre las dos series, que hace que algunas de las

combinaciones de las dos acciones permitan reducir el riesgo global por
debajo de lo que individualmente pueda alcanzar cualquiera de las dos
acciones. Una opcin que ponderase en (0,90 y 0,1) o (0,80 y 0,20)
parecera adecuada para mantener una buena combinacin de beneficio
y riesgo.


Ejemplo 12. Actividades de los turistas. En el cuadro 19 se
muestran el porcentaje de turistas que han realizado distintas actividades
durante sus vacaciones en una regin. La informacin distingue entre
turistas que han estado por primera vez y turistas que repiten sus
vacaciones en el lugar.


Cuadro 19
activida
d
%
participacin
primeros
visitantes
rango
primeros
visitante
s
%
participaci
n visitantes
repetidores
rango
repetidore
s
A 58,8 1 34,7 1
B 58,6 2 27,3 3
C 51,7 3 31,7 2
D 47 4 18,9 7
E 42,1 5 17 8
F 39,6 6 21,4 6
G 37,3 7 13,8 10
H 34,1 8 25,2 4
I 31,2 9 16,4 9
J 28,1 10 12,5 11,5
K 26,1 11 11,4 13
L 24,9 12 12,5 11,5
M 24,1 13 22,6 5
N 13,2 14 10,3 14
12,9 15 6,9 15


Los porcentajes de participacin en las diferentes actividades son
muy elevados en el caso de los primeros visitantes, mientras que entre
los repetidores se detecta una limitacin en las actividades.
Adicionalmente, se desea conocer si las actividades en las que los
turistas participan son muy diferentes, para lo que se han obtenido los
rangos de cada grupo. Una informacin til en este contexto es la

obtencin del coeficiente de correlacin de rangos entre ambas
variables:
( )
794 , 0
1 15 15
5 , 115 6
1
) 1 (
6
1
2 2
1
2

n n
d
r
n
i
i
Spearman


Aunque la importancia de la participacin en las actividades sea
diferente entre los dos tipos de turistas la importancia relativa en las
mismas es bastante parecida, dado el elevado valor del coeficiente de
correlacin de rangos.
Ejemplo 13. Segmentacin e inversin internacional en los
mercados de valores. El caso de Benetton. Los inversores
internacionales han buscado mercados poco integrados con el resto del
mundo. Las razones para ello son, en primer lugar, porque las
oportunidades de obtener beneficios, en ocasiones, son mayores en
estos mercados aislados; en segundo lugar, porque invirtiendo en ellos
se puede reducir el riesgo de una cartera de inversin. Akdogan (1997)
analiza el valor de las acciones de la empresa Benetton, una compaa
italiana dedicada a la produccin y distribucin de artculos de moda.
Akdogan discute el grado de asociacin que tiene la evolucin del precio
de las acciones de este grupo con la de diversos mercados nacionales
(incluyendo el propio mercado italiano). Con ello desea valorar, desde el
punto de vista del impacto que el mercado mundial puede tener en ella,
el nivel de seguridad de esta accin. Entre otros anlisis, Akdogan
calcula la matriz de correlaciones entre las variaciones del precio de las
acciones de Benetton y las variaciones de los ndices de cotizaciones de
diversos pases.

En el cuadro 20 aparecen las correlaciones de las cotizaciones
del grupo Benetton (BEN.) y los ndices de mercado de Blgica, Europa,
Francia, Alemania, Italia, Holanda, Espaa, Suecia, Suiza, UK, EEUU y
un ndice mundial, calculadas con informacin diaria del ao 1994. Las
correlaciones entre las cotizaciones de la empresa y los distintos
mercados nacionales son muy bajas, lo que tambin ocurre incluso con
respecto a la propia bolsa italiana. Dos de las correlaciones (con los
ndices de Japn y Suiza) presentan signos negativos. Si nada ms
tuvisemos en cuenta estos resultados, podra aceptarse que las
cotizaciones de Benetton son una buena opcin para diversificar una
cartera de inversiones, al encontrarse su cotizacin aislada de la
evolucin de los mercados internacionales.


Cuadro 20


Blg. BEN. Euro. Fran. Alem. Italia Japn Holanda Espaa
Blgica
1,00
BENETTON
0,04 1,00
Europa
0,65 0,06 1,00
Francia
0,53 0,10 0,82 1,00
Alemania
0,58 0,03 0,80 0,60 1,00
Italia
0,11 0,03 0,07 0,06 0,03 1,00
Japn
0,17
-
0,19
0,28 0,14 0,33 0,02 1,00
Holanda
0,61 0,02 0,86 0,70 0,71 0,02 0,32 1,00
Espaa
0,40 0,00 0,69 0,67 0,45 0,10 0,15 0,56 1,00
Suecia
0,45 0,03 0,67 0,53 0,47 0,08 0,15 0,56 0,54
Suiza
0,06
-
0,09
0,01
-
0,02
-
0,00
0,22
-
0,02
0,00 0,01
UK
0,40 0,12 0,81 0,65 0,45 0,08 0,15 0,63 0,56
EEUU
-
0,03
0,07 0,15 0,15 0,00 0,03
-
0,06
0,11 0,29
Mundo
0,35
-
0,05
0,66 0,49 0,54 0,05 0,73 0,62 0,52



Cuadro 20 (continuacin)

Suecia Suiza UK EEUU Mundo
Blgica

BENETTON

Europa

Francia

Alemania

Italia

Japn

Holanda

Espaa

Suecia
1,00
Suiza
0,03 1,00
UK
0,48
-
0,03
1,00
EEUU
0,11
-
0,07
0,29 1,00
Mundo
0,42
-
0,07
0,55 0,49 1,00


CAPTULO VI. AJUSTE DE UNA RECTA



El coeficiente de correlacin mide la asociacin existente entre dos
variables continuas. Hemos insistido en que la asociacin entre dos variables no
implica causalidad entre ellas y que proponer una relacin causal supone aadir
una hiptesis adicional a la descripcin de las variables. Esta hiptesis puede
plantearse, especialmente, apoyndose en algn tipo de argumentacin terica.

Si disponemos de una hiptesis de causalidad, cuando escribimos la
relacin:
Y a b X i n
i i
+ 1,...,

ya no slo se tratar de una manera de describir la forma de una nube de puntos.
Ahora, adems, deber entenderse que esa expresin matemtica tcitamente est
afirmando que cuando la variable X vara, ocasiona variaciones en la variable
Y, o, de manera ms breve, que X causa Y. La relacin Y a b X
i i
+ nos
definir a partir de ahora una relacin causal entre las variables X e Y.






La variable Y se denomina variable endgena, variable explicada o
variable dependiente, mientras que la variable X se denomina variable exgena,
variable explicativa o variable independiente.

Si se dispone de n > 2 observaciones de X e Y es posible ajustar una recta
como la definida por Y a bX
i i
+ a esos puntos. Ajustar una recta supone
determinar de alguna manera los valores de a y b. La recta que se quiere ajustar
se conoce en estadstica como recta de regresin simple.

La idea de ajustar una recta lleva implcito el supuesto de que los
puntos no se encontrarn de una manera exacta sobre ella. Al aceptar la existencia
de una relacin causal entre dos variables debemos suponer que la situacin
normal ser que la relacin no sea exacta. Las observaciones se pueden llegar a
situar ms o menos sobre una recta, aunque difcilmente lo harn de manera
perfecta. Esto hace que en el modelo debamos distinguir entre los valores
observados de Y
i
y los valores que le correspondern en el ajuste: a bX
i
+ , que
Y a b X
i i
+ X Y


no tienen por qu coincidir. La diferencia entre el valor observado y el valor
ajustado define el error del ajuste:
e Y a b X
i i i


En funcin de este criterio de aproximacin (de ajuste) de la recta al
conjunto de los puntos, la relacin causal la podemos escribir con mayor sentido
de la realidad como:

Y a bX e
i i i
+ +

donde el ltimo trmino define la discrepancia entre el valor observado y la recta
ajustada.

En este marco de causalidad resulta necesario disponer no slo de una
medida del grado de asociacin (el coeficiente de correlacin lineal), sino adems
de los valores numricos de a y b. Estos parmetros tienen un inters especial en
las relaciones econmicas, especialmente el segundo. La pendiente de la recta, b,
mide el impacto que una variacin en una unidad de la variable X tiene sobre la
variable Y. Matemticamente podemos escribir:

Y
X
b
i
i
.

En trminos discretos, se entiende que b, la pendiente de la recta, mide la
variacin que sufre Y, como consecuencia de la variacin en una unidad de X.

El valor de a no es ms que el valor que toma la variable Y cuando el
valor de X es cero. Se conoce como trmino independiente de la regresin.

En la grfica 1 se muestra, para una recta con pendiente positiva, cules
son las interpretaciones grficas de a y b. El trmino independiente es la distancia
desde el centro de coordenadas al punto de corte del eje de ordenadas. La
pendiente de la recta mide la importancia de los cambios de Y consecuencia de las
variaciones de X. En el caso de una asociacin negativa entre las dos variables, el
valor de b sera inferior a cero, para proporcionar una pendiente negativa. En este
caso, al aumentar en una unidad el valor de X, Y disminuira en una cantidad igual
a b. Si la pendiente de la regresin tomara un valor igual a cero, la relacin causal
no existira, puesto que variaciones de la variable exgena no afectaran a la
variable endgena y la recta adoptara una posicin horizontal.


Grfica 1

X
32 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0
Y
100
90
80
70
60
50
40
30
20
10
0
b
a




De la propuesta de causalidad a la recta de regresin. El ejemplo ms
utilizado en economa para ilustrar una relacin causal sencilla es la existente
entre consumo y renta. La teora del consumidor ms bsica propone una relacin
del tipo:
( ) Consumo f Renta
i i
,
en la que se enuncia que, para un consumidor i, sus niveles del consumo
dependen de su nivel de renta. Esta relacin puede desear medirse. El primer paso
ser definir una forma funcional concreta. Si se visualizan los datos para distintas
observaciones puede comprobarse si una forma lineal resulta adecuada. En ese
caso (y slo en ese caso) la relacin entre las variables podr escribirse
empleando la recta de regresin:

Consumo a b Renta
i i
+

El coeficiente b es, en este caso, la propensin marginal al consumo
(pmgc), que tendr el mismo valor para todas las observaciones:
pmgc
consumo
renta
b
i
i



Desde la perspectiva de la teora econmica, la pmgc de un bien normal
debe ser positiva, e inferior a la unidad. Con ello se afirma que al incrementar en
una unidad la renta, el consumo tambin aumentar, pero lo har en menos de una
unidad, es decir, que el incremento es menos que proporcional. Para un
economista, disponer de estimaciones de la pmgc (del clculo de b en una

muestra de observaciones) resultar interesante por diversas razones. Confirmar,
por ejemplo, si sus expectativas tericas sobre el valor del parmetro se cumplen.
Le permitir hacer predicciones sobre en cunto aumentar el consumo de un
bien si aumenta la renta. O le permitir clasificar los bienes en funcin del valor
calculado de b. Veamos otros ejemplos.

Un analista puede estar interesado en valorar cmo afectan a las ventas
de su empresa las fluctuaciones cclicas de la economa. La hiptesis de
causalidad que establece es que el ciclo econmico tiene un efecto directo en las
fluctuaciones de las ventas de su empresa. Esta relacin causal la puede
establecer relacionando las variaciones de las series del pib nacional y las tasas de
variacin de las ventas:
ventas ventas
ventas
f
pib pib
pib
t t
t
t t
t

_
,

1
1
1

De nuevo, una manera de valorar esta relacin causal puede ser la de
concretarla en una forma lineal:
ventas ventas
ventas
a b
pib pib
pib
t t
t
t t
t

_
,
+

_
,

1
1
1


De manera que b definira el impacto, si es que efectivamente existe, de
las fluctuaciones de la economa en la evolucin de las ventas de la propia
empresa.

Otra relacin a la que los economistas prestan especial atencin es la
existente entre la cantidad consumida de un bien y el precio del mismo. La teora
establece que la relacin causal es la siguiente:
( ) q f p
d
A A

en donde q
d
A
indicara la cantidad demandada del bien A y p
A
el precio del
mismo. La relacin funcional es de tipo inverso: a mayor precio del bien, menor
ser la cantidad demandada del mismo. Normalmente, la representacin terica
de esta relacin es la de una curva como la de la grfica 2. Con ello se quiere
reflejar que las respuestas a variaciones en los precios no son uniformes. Si el
precio es muy bajo, las cantidades demandadas son altas y pequeos aumentos en
los precios producirn importantes disminuciones de la demanda. Por el
contrario, cuando el precio es muy alto, fuertes variaciones en el mismo
provocarn impactos relativamente poco importantes en las cantidades
demandadas. Desde el punto de vista de nuestro actual planteamiento estadstico,
deberamos conformarnos con ajustar una lnea recta a esta curva. Se trata de una
aproximacin incorrecta, pero que puede ser vlida en el tramo central de la
curva. Este intervalo ser probablemente para el que dispondremos de
observaciones muestrales reales.


Grfica 2
p
q



Puede ser aceptable, por tanto, ajustar en una muestra concreta de
observaciones la relacin lineal:
q a b p
d
A A
+

El parmetro b medir ahora el impacto que una variacin unitaria en el
precio tiene sobre la cantidad demandada. La medida de este efecto es importante
como informacin del comportamiento del propio mercado de una empresa, a la
vez que el ajuste puede permitir hacer predicciones de cul es la cantidad
demandada que uno puede esperar para un nivel determinado del precio.

Una empresa puede estar interesada en analizar la relacin existente
entre los costes en uno de sus inputs productivos y el volumen de produccin. En
general, los costes en un input pueden descomponerse en una parte fija, que no
depende del nivel de produccin, y de una parte variable, que dependera del
volumen de actividad:
costes CF CV +
donde CF indicara los costes fijos y CV los costes variables. Esta ltima cantidad
podra, por tanto, expresarse como:

( ) produccin f CV

Si la relacin entre costes variables y el volumen de produccin es
proporcional, es decir, si al aumentar la produccin los costes variables aumentan
proporcionalmente, se tendr:

produccin CVMe CV ,


siendo CVMe un parmetro constante, que definira los costes variables medios
(los costes variables por unidad de producto, que seran constantes fuese cul
fuese la cantidad producida). Bajo esta hiptesis, podra calcularse la siguiente
regresin:
produccin b a costes +

en donde a seran los costes fijos y b estimara los costes variables medios. Esta
informacin le facilitar (siempre que realmente los costes variables medios sean
constantes) el impacto que futuros aumentos en la produccin ocasionarn en los
costes variables asociados a cada uno de los inputs.



Obtencin de a y b por mnimos cuadrados ordinarios. Mnimos cuadrados
ordinarios (mco) es un criterio estadstico que permite obtener valores de a y b en
una muestra concreta. La idea de este criterio, en general, es que si se desea
calcular el valor de un parmetro, y se dispone nicamente de una muestra de
observaciones, se utilizar como una aproximacin a ese parmetro (una
estimacin del parmetro) aquel valor que, de alguna manera, minimice el error
global (el error al cuadrado o la suma de errores elevados al cuadrado) que se
comete. En este apartado explicaremos la aplicacin de esta criterio en el caso de
la regresin lineal simple.

Suponga que disponemos de una muestra con n=10 observaciones de las
variables X e Y, y que a partir de ella queremos averiguar los valores de a y b.
Para seguir nuestra argumentacin nos basaremos en las observaciones recogidas
en el cuadro 1. La nube de puntos que forman estas observaciones es la que se
muestra en la grfica 3.

Cuadro 1
X 17 20 23 24 24 25 25 26 28 30
Y 59 71 72 79 77 81 79 89 95 93




Grfica 3

X
32 30 28 26 24 22 20 18 16
Y
100
90
80
70
60
50



Si calculamos el coeficiente de correlacin entre las dos variables X, Y el
resultado que se obtiene muestra la fuerte correlacin positiva, con un valor igual
a 0,9567. La forma de la nube y el alto coeficiente de correlacin sugieren que
sera apropiada una relacin lineal entre las dos variables. Supongamos que
establecemos la existencia de una relacin causal entre X e Y, en la que X causa
Y:
Y a b X i
i i
+ 1 10 ,...,

Cmo podemos calcular los valores de a y b? La manera de hacerlo es
establecer un criterio estadsticamente lgico para ajustar la recta y derivar a
partir de l las expresiones matemticas, que podrn aplicarse en cada muestra
concreta.

El criterio que se va a exponer aqu se conoce como mnimos cuadrados
ordinarios y aunque puede justificarse de manera ms o menos formal,
emplearemos aqu una argumentacin muy sencilla.

Si queremos ajustar una recta en la nube de puntos de la grfica 3
podramos imaginar por dnde debera pasar esa recta. De una manera visual, si
tuviramos que trazar una recta sobre los puntos, intentaramos que la recta se
asentara de manera equilibrada sobre ellos. En la grfica 4 se dibujan tres
posibles rectas. Resulta obvio que ni la recta 1 ni la 2 son alternativas atrayentes.
Ninguna de ellas es representativa de la nube de puntos, al contrario que la 3, que
parece ajustarse razonablemente bien a la nube.


Esta impresin visual puede formalizarse algo ms. Lo que hace que una
de las rectas resulte mejor que las otras es la impresin que uno recibe de que
pasa ms cerca de la mayora de los puntos. Si los puntos no estn alineados de
manera exacta sobre una recta, ningn ajuste conseguir pasar por todos ellos,
pero puede ajustarse una recta que pase lo ms cerca posible de todos los puntos.


Grfica 4
X
32 30 28 26 24 22 20 18 16
Y
100
90
80
70
60
50
3
1
2



Para concretar esta idea de mxima proximidad de la recta al conjunto de
los puntos retomemos el concepto de error del ajuste. Para una observacin
concreta, el error del ajuste lo hemos definido como la distancia desde un punto a
la recta, en el sentido en que se representa en el grfico 5, en el que e
i
indicara el
error en el ajuste de la observacin i-sima.


Si para la observacin i-sima se observa el par ( ) X Y
i i
, , la recta de
regresin asignara a esa observacin el par ( )
i i
X b a X + , .

El error del ajuste,
i
e , se define como la distancia entre el valor
observado de la variable endgena para un individuo, Y
i
, y el valor que la recta
asignara a ese individuo: a b X
i
+ .




Grfica 5
X
32 30 28 26 24 22 20 18 16
Y
100
90
80
70
60
50
e
i
e
i



Para las n observaciones se producir un error. Nuestro objetivo es que,
globalmente, el conjunto de los errores sea mnimo. Formalmente:

Una manera de reducir el error global de un ajuste es emplear los valores
de a y b que minimizan la siguiente expresin:
( ) e Y a b X
i
i
n
i i
i
n
2
1
2
1





Este es un problema que, matemticamente, no resulta difcil de resolver.
Se trata de obtener el mnimo de una funcin. Los parmetros a y b deben
elegirse para que se alcance el mnimo de la suma de cuadrados de los errores:

( )
b a
X b a Y e mnimo
n
i
i i
n
i
i
,
1
2
1
2





Derivando la funcin con respecto a los parmetros a y b, igualando a
cero y resolviendo el sistema obtendremos los valores que minimizan la suma de
los errores elevados al cuadrado. Este principio se denomina de mnimos
cuadrados ordinarios (mco) y las frmulas para a y b se conocen, en un contexto
estadstico ms amplio que el que contemplamos ahora, como estimadores por
mnimos cuadrados ordinarios.


(Un parntesis para la recta de regresin poblacional. En la introduccin de este
libro hemos discutido brevemente la diferencia entre un parmetro y un
estadstico. Por parmetro, decamos, se entiende cualquier caracterstica
numrica de una poblacin que la determina en algn sentido: indicando su
posicin central, su dispersin, simetra, etc. Estas caractersticas numricas
pueden calcularse tambin en una muestra, en un conjunto de observaciones
representativas de la poblacin, calificndolas normalmente como estadsticos.
Estos estadsticos (por ejemplo la media o la varianza muestrales) pretenden ser
buenas aproximaciones a los valores de los parmetros, de manera que muchas
veces nos referimos a los estadsticos del anlisis muestral como estimadores de
los parmetros poblacionales. La media muestral sera un estimador de la media
poblacional, la varianza muestral lo sera de la varianza poblacional. De la misma
manera, la recta de regresin que ajustamos en un conjunto de observaciones
muestrales podra considerarse como una estimacin de una recta poblacional.
Dicho de otra manera, si dispusiramos de todas las observaciones de la
poblacin podramos establecer los valores de a y b vlidos para toda la
poblacin. Si slo disponemos de una muestra nos deberemos contentar con
estimar esos parmetros. En este sentido se ha empleado en el prrafo anterior la
palabra estimadores para referirnos a los valores de a y b que minimizan la suma
de cuadrados de los errores).


Derivacin de las expresiones de mco para a y b. Obtendremos ahora las
expresiones de a y b que verifican el objetivo de minimizar la suma de cuadrados
de los errores:

( )
b a
X b a Y e mnimo
n
i
i i
n
i
i
,
1
2
1
2






La suma anterior se puede expresar como:
( ) e Y a bX
i
i
n
i i
i
n
2
1
2
1


( ) + + +

Y a b X aY bX Y abX
i i i i i i
i
n
2 2 2 2
1
2 2 2
+ + +


Y na b X a Y b X Y ab X
i i i i i i
i
n
i
n
i
n
i
n
i
n
2 2 2 2
1 1 1 1 1
2 2 2


Las condiciones de primer orden para un mnimo sern:
0
1
2

a
e
n
i
i

0
1
2

b
e
n
i
i



Que se concretan en el siguiente sistema:

e
a
na Y b X
e
b
b X X Y a X
i
i
n
i i
i
n
i
n
i
i
n
i i i i
i
n
i
n
i
n
2
1
1 1
2
1 2
1 1 1
2 2 2 0
2 2 2 0


+
+

'




Este sistema se conoce como sistema de ecuaciones normales. A partir
de la primera ecuacin podemos obtener el valor de a en funcin del an
desconocido b:
2 2 2 0
1 1
na Y b X
i i
i
n
i
n
+



na Y b X
i i
i
n
i
n
+


0
1 1

a
Y
n
b
X
n
i
i
n
i
i
n
+


1 1
0
a y b x + 0

a y b x


La solucin depende de un valor de b. Para obtenerlo sustituiremos la
anterior solucin en la segunda ecuacin:
2 2 2 0
2
1 1 1
b X X Y a X
i i i i
i
n
i
n
i
n
+





Dividiendo por dos:
b X X Y a X
i i i i
i
n
i
n
i
n
2
1 1 1
0 +




Sustituyendo el valor de a y b x :
( ) b X X Y y bx X
i i i i
i
n
i
n
i
n
2
1 1 1
0 +




Reordenando trminos y sacando factor comn de b:
b X X Y y X b x X
i i i i i
i
n
i
n
i
n
i
n
2
1 1 1 1
0 +



b X x X X Y y X
i i
i
n
i
n
i i i
i
n
i
n
2
1 1 1 1
0

_
,

+



b X x X X Y y X
i i
i
n
i
n
i i i
i
n
i
n
2
1 1 1 1

_
,




Y teniendo en cuenta que X n x
i
i
n

1
:
b X n x X Y n y x
i
i
n
i i
i
n
2 2
1 1

_
,




Se obtiene:

b
X Y n y x
X n x
i i
i
n
i
i
n

1
2 2
1











Una expresin alternativa para b es la siguiente:
Las expresiones mco de a y b son:
a y b x ; b
X Y n y x
X n x
i i
i
n
i
n

1
2 2



( )( )
( )
b
X x Y y
X x
i i
i
n
i
i
n

1
2
1


Que se deriva inmediatamente a partir de las equivalencias de los
siguientes sumatorios:
( )( ) X x Y y X Y n x y
i i i i
i
n
i
n



1 1

( ) X x X nx
i i
i
n
i
n



2
2 2
1 1


Advierta que b puede tambin escribirse en relacin a dos estadsticos
conocidos, la covarianza entre las variables X e Y y la varianza de la variable X:


( )( )
( )
( )
( )
b
X x Y y n
X x n
covar X Y
var X
s
s
i i
i
n
i
i
n
xy
x

1
2
1
2
,



(Para que efectivamente estemos obteniendo expresiones de a y b que
minimizan la suma de cuadrados de los errores, deberamos tambin demostrar
que efectivamente se trata de un mnimo, es decir, que las segundas derivadas son
mayores que cero. Este resultado queda como ejercicio para el lector interesado).


Ejemplos de clculo de la recta de regresin. Retomemos los datos del cuadro
1 para aplicar las frmulas que hemos obtenido de a y b. Fjese que tal como se
han definido las frmulas, primero ser preciso calcular b y, a partir de su valor,
aplicar la frmula para a. Con las observaciones originales precisaremos calcular
previamente: x , y , X Y
i i
i
n

1
, X
i
i
n
2
1

.


Cuadro 2

X
i
Y
i
X Y
i i

X
i
2

17 59 1003 289
20 71 1420 400
23 72 1656 529
24 79 1896 576
24 77 1848 576
25 81 2025 625
25 79 1975 625
26 89 2314 676
28 95 2660 784
30 93 2790 900
X
i
i
n

1
Y
i
i
n

1
X Y
i i
i
n

1
X
i
i
n
2
1


242 795 19587 5980
x y
24,2 79,5


Una vez obtenidos los sumatorios y valores medios, la aplicacin de las
expresiones es inmediata:
b
s
s
X Y n x y
X n x
xy
x
i i
i
n
i
i
n

2
1
2 2
1
2
19587 10 24 2 79 5
5980 10 24 2
2 815534
, ,
,
,
a y b x 79 5 2 815534 24 2 11 36408 , , , ,

En la grfica 6 se muestra el ajuste de la recta, manteniendo idntica
escala en los dos ejes.

El punto de corte de la recta con el eje de coordenadas es
aproximadamente igual a 11, siendo el valor de la pendiente de la recta alto,
cercano a tres. Una recta que definiera un ngulo de 45 describira una relacin
causal en la que el aumento de una unidad en la variable exgena supondra el
aumento de una unidad en la variable exgena. Un valor de 2,8, como el
calculado aqu, supone que la respuesta en la variable endgena ser
comparativamente ms fuerte. La mayor pendiente de la recta refleja esa reaccin
superior.
Grfica 6

Y
0
10
20
30
40
50
60
70
80
90
100
X
0 10 20 30 40 50 60 70 80 90 100


Para familiarizarnos con las expresiones de clculo de la recta de
regresin se presentan a continuacin un par de ejercicios numricos adicionales.

Nuestro primer ejemplo utiliza los datos del cuadro 3.
Cuadro 3
X 17 20 23 24 24 25 25 26 28 30
Y -21 -20 -23 -24 -30 -31 -25 -18 -27 -29

Es recomendable representar los datos, para valorar si es adecuado ajustar
una recta. En la grfica 7 se puede observar la representacin de los puntos. La
relacin entre las dos variables muestra una pendiente negativa, aunque el ajuste
de una recta no parece tan adecuado como en el anterior ejemplo. Los datos
necesarios para calcular a y b aparecen en el cuadro 4.

Grfica 7
x
32 30 28 26 24 22 20 18 16
y
-16
-18
-20
-22
-24
-26
-28
-30
-32




Cuadro 4
X
i
Y
i
X Y
i i

X
i
2

17 -21 -357 289
20 -20 -400 400
23 -23 -529 529
24 -24 -576 576
24 -30 -720 576
25 -31 -775 625
25 -25 -625 625
26 -18 -468 676
28 -27 -756 784
30 -29 -870 900
X
i
i
n

1
Y
i
i
n

1
X Y
i i
i
n

1
X
i
i
n
2
1


242 -248 -6076 5980
x y
24,2 -24,8



A partir de los mismos:

( )
b
s
s
X Y n x y
X n x
xy
x
i i
i
n
i
i
n

2
1
2 2
1
2
6076 10 24 2 24 8
5980 10 24 2
0 60194
, ,
,
,

a y b x 24 8 0 60194 24 2 10 233 , ( , ) , ,


El ajuste de la recta se visualiza en la grfica 8. La pendiente estimada es
negativa e inferior, en valor absoluto, a la unidad. Un incremento en una unidad
en la variable exgena disminuira en 0,6 unidades el valor de la variable
endgena. Sin embargo, como se intua al representar las observaciones, la
imagen final no presenta un ajuste lineal tan apropiado como en el caso anterior.



Grfica 8

Y
- 40
- 30
- 20
- 10
0
X
0 10 20 30 40



El siguiente ajuste se realiza sobre los datos del cuadro 5, representados en
la grfica 9.

Cuadro 5
X 17 20 23 24 24 25 25 26 28 30
Y 2 6 6 2 7 5 3 4 6 6


Grfica 9
x
32 30 28 26 24 22 20 18 16
y
8
7
6
5
4
3
2
1





La nube de puntos hace poco apropiado el ajuste lineal. Las estimaciones
del modelo se obtienen a partir del cuadro 6:

b
s
s
X Y n x y
X n x
xy
x
i i
i
n
i
i
n

2
1
2 2
1
2
1160 10 24 2 4 7
5980 10 24 2
0 182848
, ,
,
,

a y b x 4 7 0 182848 24 2 0 275081 , , , ,



Cuadro 6
X
i
Y
i
X Y
i i

X
i
2

17 2 34 289
20 6 120 400
23 6 138 529
24 2 48 576
24 7 168 576
25 5 125 625
25 3 75 625
26 4 104 676
28 6 168 784
30 6 180 900

X
i
i
n

1
Y
i
i
n

1
X Y
i i
i
n

1
X
i
i
n
2
1


242 47 1160 5980
x y
24,2 4,7




La pendiente de la recta tiene un valor cercano a cero, indicando con ello
que las variaciones en la variable exgena no afectan de una manera importante a
la variable endgena. En la grfica 10 se muestra la imagen del ajuste.





Grfica 10
Y
0
5
10
15
20
25
30
35
X
0 5 10 15 20 25 30 35



Ajustes no lineales. A pesar de la insistencia en la forma lineal del modelo de
regresin, es posible ajustar relaciones no lineales utilizando este modelo lineal.
Esta aparente paradoja es sencilla de deshacer si pensamos en que las variables X,
Y del modelo pueden ser cualquier valor numrico. Si definimos X como la
inversa de una variable, por ejemplo Z:
X
Z

1

la relacin lineal que calcularemos:
Y a b X
i i
+
expresara tcitamente la siguiente:
Y a b
Z
i
i
+

_
,

1
.
Una relacin de econmica de este tipo es la denominada curva de
Phillips, que relaciona las tasas de variacin de los salarios con las tasas de
poblacin en paro:
0 ,
1
<

,
_

+ b
paro de Tasa
b a salarios variacin de Tasa
t
t


La relacin indicara que a medida que crece la tasa de desempleo, la tasa
de variacin de los salarios disminuira (ya que se supone una pendiente
negativa), hasta alcanzar un valor mnimo, situado en a.

Otros ejemplos de relaciones no lineales, que pueden linealizarse de
manera inmediata son los siguientes:




b
i i
X a Y

( ) ( ) ( )
i i
X log b a log Y log +


i
X b a
i
e Y
+

( )
i i
X b a Y log +


i
X
b a
i
e Y
1
+

( )
i
i
X
b a Y log
1
+


Siempre es posible un buen ajuste? Un buen ajuste responde a la idea de
conseguir una recta que genere un error global reducido. El criterio de mco
garantiza que el dibujo de la recta pasa lo ms cerca posible de todos los
puntos, pero, an as, el error que se comete puede ser importante. Es preciso
medir de alguna manera si el ajuste es correcto, es decir, si la recta ha conseguido
una descripcin suficiente de la nube de puntos. Antes de hacerlo, sin embargo,
resulta conveniente considerar algunas de las razones por las que no siempre se
consigue una descripcin adecuada:

(1) La existencia de una relacin no lineal. Antes de realizar el clculo de la
recta es necesario representar los datos para valorar si un ajuste lineal tiene
sentido. Si la relacin es no lineal (cuadrtica, cbica, etc.) no ser lgico ajustar
una recta.

(2) Elementos que perturban la relacin causal. Al iniciar el modelo de ajuste
lineal ya hemos aceptado que difcilmente encontraremos los puntos sobre una
recta y que, por ello, era preciso definir una forma de aproximarnos a ella. Las
observaciones se sitan de una manera ms o menos errtica con referencia a lo
que sera la relacin determinista definida por el ajuste. El error del ajuste (la
diferencia entre el valor observado y el valor ajustado) proviene de diversas
fuentes: el hecho de que la relacin entre las variables no es exacta, el trabajar
con una muestra y no con la poblacin, la aproximacin a la forma funcional, etc.
Como consecuencia de todo ello, el ajuste no es todo lo bueno que uno podra
desear.

(3) La existencia de otras variables exgenas. La regresin lineal que hemos
estudiado la hemos denominado regresin lineal simple. El calificativo pretende
incidir en que se supone que nicamente una variable es la causa de las
variaciones de la variable endgena. Es obvio que esto no ser cierto en muchas
ocasiones. El modelo ms general que uno puede encontrar definir diversas
variables causales. En un contexto de linealidad hablaramos de un modelo de
regresin mltiple en el que k variables influiran en la endgena:


Y a a X a X a X
i i i k ki
+ + + +
0 1 1 2 2
...


Y


X
1
X
2
X
k



Si la relacin causal es ms compleja de la que se disea en el modelo
simple, el ajuste resultar incompleto, ya que todas las variables causa no
contempladas pasaran a formar parte del ruido de la relacin, produciendo una
descripcin insuficiente de la asociacin causal.


Y


X
1
X
2
X
k




De las tres causas responsables de un mal ajuste, tanto la primera (la
forma funcional es no lineal) como la ltima (hay ms variables causales) seran
fruto de una equivocacin y, por tanto, deben eludirse. La forma de evitar el
primer error puede ser plantear algn ajuste no lineal entre las variables. Si el
problema es la existencia de mltiples causas, la alternativa debera ser el ajuste
de una regresin mltiple.

El modelo de regresin lineal simple supone la existencia de una relacin
causal de tipo lineal entre nicamente dos variables. Si la relacin causal incluye
ms variables o si la relacin no es lineal, el modelo est incorrectamente
especificado y, en consecuencia, las conclusiones que se extraigan del ajuste no
sern fiables.
Aceptando que los factores de ruido en el modelo son de carcter no
sistemtico y que por su propio contexto siempre van a estar presentes, se hace
precisa una medida de la bondad del ajuste, un estadstico que nos permita valorar
hasta qu punto la recta que dibujamos es aceptable en cuanto a la descripcin
que hace de los datos. Antes de centrarnos en esta medida destacaremos algunas
caractersticas del error del ajuste.



Algunas propiedades del error del ajuste. El error del ajuste se ha definido
como:

e Y a bX
i i i
.

Si los valores de a y b se obtienen por mco, el error tiene dos
caractersticas especiales. La primera es que la media del error, para todas las
observaciones muestrales, es cero. La segunda, que la covarianza entre la variable
exgena y el error es tambin igual a cero. Las dos propiedades se deducen del
sistema de ecuaciones normales, a partir del cul se han obtenido las expresiones
de mco.

Las caractersticas del error del ajuste cuando a y b se calculan
basndonos en mco son:

(1) La media del error del ajuste es cero:
e
e
n
i
i
n

1
0.
(2) El error del ajuste tiene covarianza nula con la variable exgena:
( )( )
s
X x e e
n
xe
i i
i
n

1
0 .




Medida de bondad del ajuste: Coeficiente de determinacin R
2


La medida ms comn de bondad del ajuste es el coeficiente de
determinacin o coeficiente de bondad del ajuste y se simboliza como R
2
. Este
estadstico mide hasta qu punto la variable exgena de la regresin determina la
evolucin de la variable endgena. Su definicin se basa en los conceptos de
variacin total, variacin explicada y variacin no explicada.

La variacin total (VT ) se define como ( ) Y y
i
i
n

2
1
, y es la variacin
total de la variable dependiente. Esta cantidad se puede descomponer en dos
partes: (1) la variacin explicada (VE ), que es la parte de la variacin total que

el modelo de regresin es capaz de explicar; (2) la variacin no explicada (VE ),
que es aquella parte de la variacin total que la relacin causal no es capaz de
explicar:

VT VE VE +

La interpretacin de esta descomposicin es la siguiente. La variable
endgena presenta una variacin total (una dispersin respecto a su valor medio),
que se desea explicar mediante una relacin causal. El modelo supone que las
variaciones de la variable exgena explican las variaciones de la endgena. De
hecho, el modelo se puede escribir:

'

+
+ +
x b a y
e bX a Y
i i i
( ) Y y b X x e
i i i
+

Cuando X vara (respecto a su valor medio) se produce como efecto una
variacin en Y (tambin medida respecto a su media). El valor y signo del
impacto depender del valor y signo de b. Junto a esta variacin explicada por la
relacin causal, en e
i
existe una parte de la variacin total de Y que no puede
explicarse por las variaciones de X: es la variacin no explicada por el modelo.

En la grfica 11 se muestran los datos del cuadro 1. Las lneas de
referencia en el espacio de coordenadas se corresponden a la media de cada una
de las variables X e Y. La idea que subyace a la relacin causal es la de que
cuando una observacin se sita, por ejemplo, por encima de la media de la
variable exgena, la consecuencia de ello ser que la variable endgena se alejar
tambin de su valor medio. Si la asociacin entre las variables es positiva
(pendiente positiva), un valor por encima (por debajo) de la media en X se
acompaar de un valor por encima (por debajo) de la media en Y. Si la pendiente
es negativa, un valor por encima (por debajo) de la media de X se acompaar de
un valor por debajo (por encima) de la media de Y.


Grfica 11

Y y
i

y

X x
i

x
x
32 30 28 26 24 22 20 18 16
y
100
90
80
70
60
50


El modelo de regresin estructura una relacin lineal sobre la nube de
puntos, pudindose distinguir entre la distancia vertical desde el punto a la recta
de ajuste y la distancia desde la recta al punto medio. La distancia desde el punto
al valor medio, y Y
i
, se vera as descompuesta, como se muestra en la grfica
12, en un componente de error,
i
e , y una parte de la variacin explicada por la
recta, ( ) x X b
i
.

Grfica 12
e
i
( ) x X b
i

x
32 30 28 26 24 22 20 18 16
y
100
90
80
70
60
50


El coeficiente de determinacin se define como la proporcin entre la
variacin explicada y la variacin total:

VT
VE
R
2


O dicho de otra manera, como el porcentaje en que el ajuste de la recta
explica las variaciones de la endgena. As, por ejemplo, un valor del
2
R igual a
0,60, indicar que el ajuste explica el 60% de la variacin total de la variable
endgena.

El clculo de la variacin explicada y de la variacin no explicada se
basa en la siguiente igualdad (que no demostraremos aqu), que relaciona la VT ,
la VE y la VE .

( ) ( ) Y y b X x e
i
i
n
i
i
n
i
i
n
+


2
1
2
2
1
2
1


donde las variaciones explicada y no explicada son:
( ) VE b X x
i
i
n

2
2
1
VE e
i
i
n

2
1


El coeficiente de bondad del ajuste puede calcularse, por tanto, como:

( )
( )
R
VE
VT
b X x
Y y
i
i
n
i
i
n
2
2
2
1
2
1



Tambin se expresa en funcin de la variacin no explicada:

VT
E V
VT
E V VT
VT
VE
R

1
2



Lmites del coeficiente de determinacin. Por la propia definicin del
coeficiente de determinacin, ste tiene como lmites 0 y 1. Se trata de dos
situaciones extremas: el lmite inferior 0
2
R corresponde a un modelo en el que

la variacin explicada sera cero, mientras que el lmite superior 1
2
R
correspondera a un modelo capaz de explicar toda la variacin de la endgena.


1 0
2
R
O EXPLICATIV es NO modelo El R 0
2

Y de variacin la toda EXPLICA modelo El R 1
2



La interpretacin de estos lmites resulta clara si tenemos en cuenta la
definicin del coeficiente. Si la variable X no explica las variaciones de Y ser
porque el parmetro b es igual a cero:
( ) Y y b X x e
i i i
+
( )
i i i
e x X y Y + 0
i i
e y Y

De manera que toda la variacin respecto al valor medio quedara
definida como error del ajuste: la recta no tiene pendiente y las variaciones de X
no van acompaadas de variaciones de Y.

Si las variaciones de X explican completamente las variaciones de Y ser
porque no existe error del ajuste:
( ) Y y b X x
i i


Y, como consecuencia, la variacin total ser igual a la variacin
explicada:
( ) ( ) Y y b X x
i i
i
n
i
n



2
2
2
1 1


El siguiente cuadro resume estas conclusiones.


{ } 0 0
2
R E V VT VE
{ } 1 0
2
R VE VT E V

La imagen de un ajuste que no explica nada es la de una recta plana,
con pendiente nula, en la que las variaciones de X no causaran variaciones en Y.

En las grficas 13 y 14 se muestran dos ajustes que presentaran una pendiente
nula y cuyo coeficiente de determinacin sera cero.


Grfica 13 Grfica 14
x
32 30 28 26 24 22 20 18 16
y
26
24
22
20
18
16
14

x
32 30 28 26 24 22 20 18 16
y
26
24
22
20
18
16
14



El coeficiente de determinacin igual a 1 se dar cuando los puntos estn
situados de manera exacta sobre una recta con pendiente distinta de cero. No
importa si la pendiente de la recta es positiva o negativa. Lo que es importante es
que se tratara de situaciones en las que de manera exacta se cumplira:

Y a b X b
i i
+ , 0

siendo los errores de ajuste igual a cero, para todas las observaciones. Ya hemos
indicado que esta circunstancia de correlacin exacta es difcil encontrarla con
variables econmicas reales, aunque no es extrao encontrarse con variables que
mantienen una relacin casi perfecta.

De hecho es en los valores intermedios del intervalo 1 0
2
R en donde
nos encontraremos normalmente el coeficiente de determinacin de nuestros
modelos. Cuanto ms cerca de cero se encuentre el valor del coeficiente, peor
consideraremos el ajuste realizado. Cuanto ms cerca se encuentre el
2
R de la
unidad, mejor ser el ajuste. Existe una cierta ambigedad con relacin al valor
del
2
R a partir del cul considerar que el modelo tiene un buen ajuste. Es
suficiente con que el modelo explique un 40% de la variacin total de Y, o es
necesario que como mnimo explique un 70%? Un porcentaje de variacin
explicada igual al 10%, debe interpretarse como que el modelo es inservible?

En principio, como para otros estadsticos, no se debe pretender que stos
puedan dar ms informacin que la que contienen. El porcentaje de variacin que
el analista puede considerar como suficiente (tanto para declarar que tiene un
buen ajuste, como para decidir que se trata de un mal ajuste) depende del
problema y de la muestra que se est analizando.


Anlisis grfico de los errores del ajuste. Si se est interesado en comprobar
que el ajuste de una recta ha sido adecuado, la representacin de los errores del
ajuste, con respecto a la variable exgena puede ayudar a ello. La idea es que si
una recta es una forma funcional adecuada, los errores del ajuste se comportarn
de una manera no sistemtica, mientras que si la forma funcional no es correcta o
si existen otras variables causales que se han omitido, el error del ajuste tendr un
comportamiento sistemtico.

En las grficas 15 a 18 se muestran varias grficas que relacionan los
errores con la variable exgena de diversas regresiones. Advierta que en las dos
ltimas se puede detectar un comportamiento sistemtico en la posicin de los
errores. La presencia de errores sistemticos debera ponernos en la pista de
algn error en los supuestos del modelo (bien en la forma funcional, bien en la
existencia de otras variables causales).


Grfica 15 Grfica 16
x
32 30 28 26 24 22 20 18 16
E
r
r
o
r
e
s

d
e
l
a
ju
s
t
e
6
4
2
0
-2
-4
-6

x
32 30 28 26 24 22 20 18 16
E
r
r
o
r
e
s

d
e
l
a
ju
s
t
e
8
6
4
2
0
-2
-4
-6




Grfica 17 Grfica 18
x
32 30 28 26 24 22 20 18 16
E
r
r
o
r
e
s

d
e
l
a
ju
s
t
e
60
40
20
0
-20
-40

x
32 30 28 26 24 22 20 18 16
E
r
r
o
r
e
s
d
e
l a
ju
s
te
4
2
0
-2
-4
-6
-8




Existe alguna relacin entre el coeficiente de correlacin y el coeficiente de
determinacin? El coeficiente de determinacin mide la bondad del ajuste de
una recta a una nube de puntos. El coeficiente de correlacin lineal mide el grado
de asociacin lineal entre dos variables. Un coeficiente de correlacin lineal igual
a 1 o 1 indica que los puntos estn situados sobre una recta (con pendiente
positiva o negativa, respectivamente) y esta situacin se reflejara en el
coeficiente de determinacin con un valor igual a 1 (ajuste perfecto de la recta).
Si el coeficiente de correlacin lineal o el coeficiente de determinacin son
iguales a 0, no existir una relacin lineal entre las dos variables.

Se da, por lo tanto, una relacin entre r
xy
y R
2
, que formalmente es la
siguiente:

R r
xy
2 2
R r
xy
2



Si no existe una relacin lineal entre X e Y : r
xy
0 y R
2
0 .
Si se da una relacin positiva exacta: r
xy
1 y R
2
1 .
Si se trata de una relacin negativa exacta: r
xy
1 y R
2
1 .


Dos ejemplos numricos sobre el coeficiente de determinacin


En el cuadro 7 aparecen los datos sobre los que queremos ajustar la recta de
regresin.

Cuadro 7
X 17 20 23 24 24 25 25 26 28 30
Y 48 60 68 71 66 70 74 83 83 89

La imagen de las observaciones se muestra en la grfica 19. Dada su
posicin en el plano, la intencin de ajustar una recta a estos datos resulta
apropiada. Los datos necesarios para realizar el ajuste y obtener la medida del
coeficiente de determinacin se ofrecen en el cuadro 8.




Grfica 19

x
32 30 28 26 24 22 20 18 16
y
90
80
70
60
50
40



Cuadro 8
X
i
Y
i

X
i
2
Y
i
2

X Y
i i

17 48 289 2304 816
20 60 400 3600 1200
23 68 529 4624 1564
24 71 576 5041 1704
24 66 576 4356 1584
25 70 625 4900 1750
25 74 625 5476 1850
26 83 676 6889 2158
28 83 784 6889 2324
30 89 900 7921 2670

X
i
i
n

1
Y
i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1

X Y
i i
i
n

1

242 712 5980 52000 17620

x y
24,2 71,2




El clculo de los parmetros de la recta ser:
( )( )
( )
b
X x Y y
X x
X Y n x y
X n x
i i
i
n
i
i
n
i i
i
n
i
i
n

1
2
1
1
2 2
1
2
17620 10 24 2 71 2
5980 10 24 2
389 6
123 6
31521
, ,
,
,
,
,

a y b x 71 2 31521 24 2 5 0809 , , , ,

Empleando el valor de b puede obtenerse la variacin explicada y el
coeficiente de determinacin:
( ) ( ) 06 , 1228 2 , 24 10 5980 1521 , 3
2 2
1
2
1
2 2 2 2

,
_




n
i
n
i
i i
x n X b x X b VE
( )



n
i
n
i
i i
y n Y y Y VT
1 1
2 2 2
2
6 , 1305 2 , 71 10 52000
R
2
1228 06
1305 6
0 9406
,
,
,
El R
2
indica que la variacin explicada en el ajuste representa una
proporcin del 94,06% de la variacin total, por lo que debe concluirse que la
recta describe bien el comportamiento de la variable endgena. La pendiente de la
recta es positiva y mayor que uno: un aumento en una unidad en la variable
exgena ocasionar un incremento en algo ms de tres unidades en la endgena.

Para comprobar que no nos pasa desapercibida alguna irregularidad en la
regresin se han representado los errores del ajuste en la grfica 20, no
detectndose en ellos ningn comportamiento de tipo sistemtico.

Grfica 20
x
32 30 28 26 24 22 20 18 16
E
r
r
o
r
e
s

d
e
l

a
j
u
s
t
e
8
6
4
2
0
-2
-4
-6


Realizaremos un nuevo clculo numrico con los datos del cuadro 9. La
representacin de las variables (en la grfica 21) ilustra una relacin negativa.
Dada la dispersin de los datos, el ajuste no deber ser especialmente correcto,
puesto que los puntos se alejan de la imagen ideal de la recta. En el cuadro 9 se
muestran tambin los valores precisos para realizar los clculos del modelo.

Cuadro 9
X
i
Y
i

X
i
2
Y
i
2

X Y
i i

17 35 289 1225 595
20 34 400 1156 680
23 32 529 1024 736
24 30 576 900 720
24 31 576 961 744
25 33 625 1089 825
25 35 625 1225 875
26 33 676 1089 858
28 31 784 961 868
30 28 900 784 840
X
i
i
n

1
Y
i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1

X Y
i i
i
n

1

242 322 5980 10414 7741
x y
24,2 32,2


Grfica 21
x
32 30 28 26 24 22 20 18 16
y
36
34
32
30
28
26


El clculo de los parmetros de la recta ser:

( )( )
( )
b
X x Y y
X x
X Y n x y
X n x
i i
i
n
i
i
n
i i
i
n
i
i
n

1
2
1
1
2 2
1
2
7741 10 24 2 32 2
5980 10 24 2
51 4
123 6
0 41586
, ,
,
,
,
,
a y b x + 32 2 0 41586 24 2 42 264 , , , ,

Y para obtener la variacin explicada, la variacin no explicada y el
coeficiente de determinacin:
( ) ( ) ( ) 3753 , 21 2 , 24 10 5980 41586 , 0
2 2
1
2
1
2 2 2 2

,
_




n
i
n
i
i i
x n X b x X b VE
( )



n
i
n
i
i i
y n Y y Y VT
1 1
2 2 2
2
6 , 45 2 , 32 10 10414
VE VT VE 45 6 21 3753 24 225 , , ,
R
2
21375
45 6
0 4687
,
,
,
El modelo explica el 46,87 % de la variacin total de la endgena.

La representacin de los errores aparece en la grfica 22. La imagen
muestra una cierta componente sistemtica, al aparecer dos series de errores
continuas con el mismo signo (primero negativos y despus positivos). Esta
forma de los residuos podra sealar la omisin de alguna variable causal que no
se ha tenido en cuenta en el modelo simple.

Grfica 22
x
32 30 28 26 24 22 20 18 16
E
r
r
o
r
e
s

d
e
l

a
j
u
s
t
e
4
3
2
1
0
-1
-2
-3




Ejemplo 1. En la grfica 23 se muestra la serie de turistas
alemanes que han visitado una determinada zona turstica durante los
ltimos once aos. En la grfica adems de la serie histrica se muestra
el ajuste de una recta por mco. La serie muestra una clara tendencia
lineal, que aunque no pueda extrapolarse hacia un futuro lejano, permite
realizar una prediccin para el ao siguiente. Para ello deben, en primer
lugar, calcularse los valores a y b de la recta de regresin. En el cuadro
10 aparece la informacin necesaria.

Grfica 23
ao
11 10 9 8 7 6 5 4 3 2 1
N

m
e
r
o

d
e

t
u
r
i
s
t
a
s

a
l
e
m
a
n
e
s

(
e
n

m
i
l
e
s
)
5000
4000
3000
2000
1000


Cuadro 10
X
i
Y
i
X Y
i i

X
i
2
Y
i
2

1
1897,6 1897,6 1 3600885,76
2
2054,3 4108,6 4 4220148,49
3
2063,2 6189,6 9 4256794,24
4
2231,2 8924,8 16 4978253,44
5
2682,2 13411 25 7194196,84
6
2868,3 17209,8 36 8227144,89
7
3130,7 21914,9 49 9801282,49
8
3339,4 26715,2 64 11151592,4
9
3635,5 32719,5 81 13216860,3
10
4008 40080 100 16064064
11
3934,2 43276,2 121 15477929,6

x

y X Y
i i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1




6 2894,96 216447,2 506 98189152,4


Los coeficientes de la recta sern:

( ) ( )
( )

2
1
2 2
1
1
2
1
6 11 506
96 , 2894 6 11 2 , 216447
n
i
i
n
i
i i
n
i
i
n
i
i i
x n X
y x n Y X
x X
y Y x X
b
726 , 230
110
84 , 25379


604 , 1510 6 726 , 230 96 , 2894 x b y a

Y las variaciones explicada, total y el coeficiente de bondad del ajuste:
( )
,
_




n
i
n
i
i i
x n X b x X b VE
1
2
1
2 2
2
2

( ) ( ) 6 , 5855793 6 11 506 726 , 230
2 2


( )



n
i
n
i
i i
y n Y y Y VT
1 1
2 2 2
2
983 , 6000424 96 , 2894 11 4 , 98189152

976 , 0
983 , 6000424
6 , 5855793
2

VT
VE
R

El alto valor del coeficiente de determinacin confirma el buen
ajuste de la tendencia lineal.

La prediccin para el ao siguiente, el ao 12, ser:

316 , 4279 12 726 , 230 604 , 1510
12
+
prediccin
Y

Que el resultado de la prediccin sea correcto depender del
mantenimiento de la tendencia. Normalmente mtodos de prediccin de este tipo
pueden ser tiles si la prediccin es a corto plazo, pero no tendra sentido hacer
predicciones a medio o largo plazo con esta tcnica.




Ejemplo 2. En la grfica 24 se relaciona el nmero de turistas de
una nacionalidad llegados al Reino Unido con la evolucin del tipo de
cambio entre sus monedas. El ndice del tipo de cambio se ha definido
con base 100 en 1990, respecto al mismo, un valor de 90 indicara que la
libra est ms barata para los turistas, mientras que un valor de 110
correspondera a una libra ms cara. En la grfica se representa el ajuste
lineal, mostrando cmo cuando la libra se fortalece el nmero de turistas
disminuye.

Grfica 24
ndice del tipo de cambio
130 120 110 100 90
N

m
e
r
o

T
u
r
i
s
t
a
s
1200000
1100000
1000000
900000
800000



Cuadro 11
X
i
Y
i
X Y
i i

X
i
2
Y
i
2

100 1176 117600,00 10000,00 1382976
95,12 1117 106249,04 9047,81 1247689
92,68 1137 105377,16 8589,58 1292769
97,56 1058 103218,48 9517,95 1119364
109,76 1019 111845,44 12047,26 1038361
124,39 1039 129241,21 15472,87 1079521
129,27 901 116472,27 16710,73 811801
126,83 862 109327,46 16085,85 743044
114,63 862 98811,06 13140,04 743044
109,76 823 90332,48 12047,26 677329

X
i
i
n

1
Y
i
i
n

1
X Y
i i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1


1100 9994 1088474,60 122659,356 10135898
x y
110 999,4
Si se quiere cuantificar cul es el efecto de las variaciones del tipo
de cambio, podemos aproximar la relacin mediante un ajuste lineal y
discutir el valor de su pendiente. En el cuadro 11 se ofrecen los datos
necesarios y sus transformaciones (el nmero de turistas se presenta en
miles).

( ) ( )
( )

n
i
i
n
i
i i
n
i
i
n
i
i i
x n X
y x n Y X
x X
y Y x X
b
1
2 2
1
1
2
1
54796 , 6
356 , 1659
4 , 10865
110 10 356 , 122659
4 , 999 110 10 6 , 1088474
2





6756 , 1719 110 54796 , 6 4 , 999 + x b y a

( )

,
_




n
i
n
i
i i
x n X b x X b VE
1
2
1
2 2 2 2

( ) ( ) 183 71146 110 10 356 122659 54796 6
2 2
, , ,
( )



n
i
n
i
i i
y n Y y Y VT
1 1
2 2 2 2
4 , 147894 4 , 999 10 10135898

48 , 0
4 , 147894
183 , 71146
2

VT
VE
R

El incremento en una unidad del ndice del tipo de cambio supone
una disminucin de 6,55 en la variable endgena o, dado que el nmero
de turistas est medido en miles, de 6547 turistas de esa nacionalidad.



Ejemplo 3. Para valorar el servicio de restaurante de un hotel, se
ha realizado una pequea encuesta en la que se ha solicitado el nivel de
satisfaccin respecto al servicio de restaurante (1-nada satisfactorio, 10-

muy satisfactorio) y el nmero de veces que lo haban utilizado. Se desea
valorar si existe una relacin positiva entre el nivel de satisfaccin y el
grado de repeticin. En el cuadro 12, X es el nmero de veces que ha
usado el restaurante e Y el nivel de satisfaccin. Se propone realizar el
ajuste de una recta.







Cuadro 12
X
i
Y
i
X Y
i i

X
i
2
Y
i
2

3 9 27 9 81
2 7 14 4 49
3 8 24 9 64
3 7 21 9 49
1 7 7 1 49
1 5 5 1 25
1 5 5 1 25
1 7 7 1 49
2 5 10 4 25
X
i
i
n

1
Y
i
i
n

1
X Y
i i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1


17 60 120 39 416
x y
1,889 6,667


El clculo de los parmetros de la recta ser:
( ) ( )
( )
967 , 0
8851 , 6
6543 , 6
889 , 1 9 39
667 , 6 889 , 1 9 120
2
1
2 2
1
1
2
1


n
i
i
n
i
i i
n
i
i
n
i
i i
x n X
y x n Y X
x X
y Y x X
b
84 , 4 889 , 1 967 , 0 667 , 6 x b y a

Aunque la regresin no puede interpretarse como una relacin causal
estricta, el valor de la pendiente permite una descripcin til de lo que ocurre en
la muestra. La pendiente indica que la relacin entre las dos variables es

positiva, puesto que el aumento en una unidad del nmero de visitas incrementa
en casi un punto el nivel de satisfaccin de la estancia.

La variacin explicada, variacin no explicada y el coeficiente de
determinacin sern:

( ) ( ) ( ) 438 , 6 889 , 1 9 39 967 , 0
2 2
1
2
1
2 2 2 2

,
_




n
i
n
i
i i
x n X b x X b VE
( )



n
i
n
i
i i
y n Y y Y VT
1 1
2 2 2 2
96 , 15 667 , 6 9 416
522 , 9 438 , 6 96 , 15 VE VT E V

403 , 0
96 , 15
438 , 6
2
R

El modelo explica el 40,3 % de la variacin total de la endgena,
sealando con ello que el grado de satisfaccin estara asociado al nivel de
repeticin, pero que sera preciso tener en cuenta otros factores explicativos.

Ejemplo 4. Anlisis de las caractersticas de los mercados
burstiles emergentes. Las distribuciones de los beneficios de los nuevos
mercados burstiles presentan formas ms asimtricas y con mayor
curtosis que las de los mercados consolidados. Bekaert et al. (1998), con
informacin de distintos mercados (vase el cuadro 13), plantean la
relacin entre el coeficiente de asimetra y dos variables que pueden
explicar su evolucin: el crecimiento de la economa del pas (medido por
el PIB, 1987:04-1997:03) y el valor de su mercado de capitales (millones
de $ USA, 1987:03).


Cuadro 13
Pas
Coeficiente de
Asimetra
Tasa de
Crecimiento
PI B
Mercado
Capitales
Argentina 3,30 0,30 1,214
Brasil 0,20 3,70 6,555
Chile 0,30 3,40 2,219
Colombia 1,60 4,10 0,677
Grecia 1,80 1,90 0,824
I ndia 0,70 4,50 5,373
J ordania 0,20 6,90 1,240
Malaisia -0,90 5,50 11,969

Mxico -1,00 3,70 5,611
Nigeria 1,50 -0,60 0,576
Paquistn 1,20 6,50 0,643
Filipinas 0,70 1,80 1,495
Portugal 2,40 2,80 1,591
Corea sur 0,60 7,70 6,490
Taiwan 0,60 8,60 7,267
Tailandia -0,20 6,40 2,004
Turqua 1,00 4,10 0,487
Venezuela 0,20 0,70 1,298
Zimbabwe 0,00 3,00 0,200
Para describir las relaciones se utiliza el modelo de regresin
simple. En las grficas 25 y 26 se muestran las nubes de puntos y la lnea
ajustada por mco.


Grfica 25
crecimiento pib
10 8 6 4 2 0 -2
a
s
i
m
e
t
r

a
4
3
2
1
0
-1
-2
zimbabwe
venezuela
turquia
tailandia
taiwan corea sur
portugal
f ilipinas
paquistn
nigeria
mxico
malaysia
jordania
india
grecia
colombia
chile
brasil
argentina




Grfica 26

mercado de capitales
14 12 10 8 6 4 2 0
a
s
i
m
e
t
r

a
4
3
2
1
0
-1
-2
babwe
venezuela
turquia
tailandia
taiwan corea sur
portugal
f ilipinas
paquistn
nigeria
mxico
malasia
jordania
india
grecia
colombia
chile
brasil
argentina




Los valores de la pendiente de las regresiones simples y los coeficientes
de determinacin se derivan empleando las cantidades del cuadro 14.

Cuadro 14
Coeficiente
asimetra
Y
i

PIB
X
i

Mercado
Capitales
Z
i


X Y
i i


X
i
2


Z Y
i i


Z
i
2


Y
i
2

3,3 0,3 1,214 0,99 0,09 4,006 1,474 10,89
0,2 3,7 6,555 0,74 13,69 1,311 42,968 0,04
0,3 3,4 2,219 1,02 11,56 0,666 4,924 0,09
1,6 4,1 0,677 6,56 16,81 1,083 0,458 2,56
1,8 1,9 0,824 3,42 3,61 1,483 0,679 3,24
0,7 4,5 5,373 3,15 20,25 3,761 28,869 0,49
0,2 6,9 1,240 1,38 47,61 0,248 1,538 0,04
-0,9 5,5 11,969 -4,95 30,25 -10,772 143,257 0,81
-1 3,7 5,611 -3,7 13,69 -5,611 31,483 1
1,5 -0,6 0,576 -0,9 0,36 0,864 0,332 2,25
1,2 6,5 0,643 7,8 42,25 0,772 0,413 1,44
0,7 1,8 1,495 1,26 3,24 1,046 2,235 0,49
2,4 2,8 1,591 6,72 7,84 3,818 2,531 5,76
0,6 7,7 6,490 4,62 59,29 3,894 42,120 0,36
0,6 8,6 7,267 5,16 73,96 4,360 52,809 0,36
-0,2 6,4 2,004 -1,28 40,96 -0,401 4,016 0,04

1 4,1 0,487 4,1 16,81 0,487 0,237 1
0,2 0,7 1,298 0,14 0,49 0,260 1,685 0,04
0 3 0,2 0 9 0 0,04 0
y
x z X Y
i i
i
n

1
X
i
i
n
2
1

Z Y
i i
i
n

1
Z
i
i
n
2
1

Y
i
i
n
2
1


0,74737 3,94737 3,0386 36,23 411,76 11,275 362,068 30,9


Los clculos correspondientes a las respectivas pendientes sern:

b
X Y n x y
X n x
x
i i
i
n
i
i
n

1
2 2
1
2
36 23 10 3 94737 0 74737
411 76 19 3 94737
0 1713
, , ,
, ,
,
b
Z Y n z y
Z n z
z
i i
i
n
i
i
n

1
2 2
1
2
11 275 10 3 0386 0 74737
362 068 19 3 0386
0 17077
, , ,
, ,
,

Y los de los coeficientes de determinacin:

( ) ( )
16739 , 0
287 , 20
396 , 3
74737 , 0 19 9 , 30
94737 , 3 19 76 , 411 1713 , 0
2
2 2
1
2 2
1
2 2 2
2


,
_

n
i
i
n
i
i
x
y n Y
x n X b
VT
VE
R

( ) ( )
R
VE
VT
b Z n z
Y n y
z
i
i
n
i
i
n
2
2 2 2
1
2 2
1
2
2
2
0 17077 362 068 19 3 0386
30 9 19 0 74737
5 4428
20 287
0 2683

_
,

, , ,
, ,
,
,
,


Como conclusin, parece que, efectivamente, la caracterstica de
asimetra de los rendimientos es especfica de un tipo de mercado. Al
aumentar el grado de desarrollo del pas y/o aumentar la importancia del
mercado de capitales, la asimetra de la distribucin se corrige,
aproximndose a coeficientes de asimetra cercanos a cero o incluso
negativos. Una informacin que ofrecen los autores es que en el perodo
1971-1977, la media del coeficiente de asimetra en todos los mercados
mundiales era igual a 0,23. La tendencia de los mercados emergentes
debera ser, por tanto, hacia esta ligera asimetra negativa. Esta tendencia

estara marcada, entre otros, por factores como el crecimiento econmico
del pas y del propio mercado de capitales.



Ejemplo 5. Estructura del paro femenino: empleo a tiempo parcial.
El aumento del nmero de trabajadores con dedicacin parcial puede
haber tenido un efecto positivo en la reduccin del paro en la Unin
Europea (UE). Esta hiptesis puede ser cierta especialmente en el caso
de las mujeres, las principales demandantes de este tipo de empleo. Las
diferentes regulaciones del empleo a tiempo parcial (sobre todo en cuanto
a su nivel de proteccin frente al despido) no permiten, a priori, asegurar
la validez de esta hiptesis. Molt y Uriel (1997) analizan la relacin entre
la tasa de paro y la tasa de empleo a tiempo parcial, en ambos casos
para la poblacin femenina, empleando informacin del perodo 1987-
1995. La relacin entre las dos variables y el ajuste por mco se muestra
en la grfica 27.




Grfica 27
tasa empleo tiempo parcial
70 60 50 40 30 20 10 0
t
a
s
a

p
a
r
o

f
e
m
e
n
i
n
o
30
20
10
0
Reino Unido
Portugal
Italia
Irlanda
Holanda
Grecia
Francia
Espaa
Dinamarca
Blgica
Alemania




La recta ajustada es la siguiente:


( ) ( ) Tasa Paro Femenino Tasaempleo femeninoa tiempo parcial 16 66 0 1513 , ,

El valor del coeficiente de determinacin es igual a 0,20, es decir, que las
variaciones de las tasas de paro femenino vendran explicadas en un 20% por
las variaciones en la tasa de empleo con dedicacin parcial. Una conclusin que
parece desprenderse del anterior anlisis es la de que un aumento de la
flexibilidad del mercado laboral, favoreciendo el empleo a tiempo parcial, tendra
un impacto positivo, al reducir la tasa de paro femenina.



Ejemplo 6. Relacin entre el crecimiento del PIB de las Comunidades
Autnomas y el crecimiento espaol y comunitario. Raymond (1994) analiza la
evolucin del PIB de las Comunidades Autnomas espaolas (CCAA) con
relacin al crecimiento del PIB nacional y europeo. Una de las cuestiones que
plantea en su trabajo es hasta qu punto la evolucin de las CCAA es ms
sensible a lo que sucede en la Unin Europea, que a lo que ocurre en el conjunto
nacional. Su hiptesis inicial es que debera darse un esquema causal en el que
los shocks de crecimiento en el mbito europeo se trasladaran a la economa
espaola de una manera global. En una segunda etapa, la definicin de una
poltica coyuntural espaola afectara a las diecisiete autonomas. Su propuesta
para valorar esta hiptesis es la de realizar dos regresiones simples para cada
autonoma. En cada regresin, la variable endgena sera el crecimiento del PIB
(a precios constantes) de cada comunidad y, como variable explicativa,
apareceran bien el crecimiento del PIB nacional, bien el europeo (tambin a
precios constantes). En el caso de que su hiptesis sea cierta, el crecimiento de
las CCAA estara mejor explicado por el crecimiento espaol que por el europeo.
Los resultados que obtiene se reproducen en el Cuadro 15.



Cuadro 15

Crecimiento PIB CCAA
CCAA ( ) f Crecimiento PIBespaol

( ) f Crecimiento PIBeuropeo

Pendiente Correlacin Pendiente Correlacin
Andaluca 0,92 0,92 1.36 0,79
Aragn 0,96 0,89 1,43 0,77
Asturias 0,83 0,91 1,18 0,75
Baleares 1,24 0,74 2,34 0,82
Canarias 0,98 0,66 2,11 0,84
Cantabria 0,70 0,79 1,13 0,75
Castilla-La Mancha 0,99 0,90 1,45 0,77
Castilla-Len 0,81 0,79 1,03 0,58
Catalunya 1,21 0,98 1,72 0,81

C. Valenciana 0,82 0,81 1,41 0,83
Extremadura 0,55 0,49 0,91 0,48
Galicia 0,74 0,92 1,13 0,82
Madrid 1,23 0,92 1,66 0,73
Murcia 0,95 0,86 1,56 0,82
Navarra 1,04 0,90 1,46 0,74
Pas Vasco 1,18 0,88 1,44 0,62
La Rioja 0,67 0,73 1,16 0,74



Como principales conclusiones Raymond (1994) apunta las siguientes:

Las CCAA, en general, presentan un alto grado de dependencia, tanto del
PIB nacional como europeo.

Las correlaciones entre el crecimiento del PIB de las CCAA y el crecimiento
del PIB espaol son superiores a las mantenidas con respecto a la Unin
Europea.

Baleares y Canarias son las nicas excepciones claras. Su dependencia del
turismo justificara este efecto especfico.

Entre las regresiones sobre el PIB espaol, las de Baleares, Catalunya,
Madrid, Navarra y el Pas Vasco presentan un coeficiente b superior a la unidad.
Esto debe interpretarse como que el efecto del crecimiento nacional tiene en
estas comunidades un impacto an mayor. Raymond (1994, pg. 56) sugiere
que para cada una de estas comunidades existe una explicacin individualizada.
As, en el caso del Pas Vasco puede ser la existencia de un fuerte sector
industrial ligado a la industria pesada; en Catalunya, la importancia de un sector
industrial muy sensible a la coyuntura econmica; en el caso de Madrid, la
existencia de un sector servicios dependiente de la evolucin del sector
industrial.


En consecuencia, puede afirmarse que las CCAA son altamente
dependientes de las fluctuaciones econmicas a escala nacional y europea. Al
ser las correlaciones con Espaa superiores, debe interpretarse que este es el
efecto principal, aunque ello no implica que el crecimiento europeo no deba ser
tambin una referencia en la evolucin de las CCAA.



Ejemplo 7. El crecimiento de los pases de la OCDE. Con datos de los
pases de la OCDE en el perodo 1960-1990, en este ejemplo se analiza si existe
alguna relacin entre el crecimiento del PIB y la posicin inicial de riqueza de la

que se parte. Aunque en este perodo se ha dado un proceso de convergencia
en los niveles de riqueza, no todos los pases han crecido con igual intensidad.
Son precisamente algunos de los pases que partan de posiciones no
especialmente buenas en el ndice PIB pc del ao 1960, los que han conseguido
las mejores tasas de crecimiento.

En el cuadro 16 se recoge un ndice del PIB per cpita del ao 1960 y las
tasas de crecimiento de esta variable entre 1960 y 1990. El ndice del PIB per
capita toma como referencia a EEUU, siendo el resultado de dividir el PIB per
capita de cada pas por el correspondiente a EEUU (ambos en dlares).

Para valorar la relacin entre la posicin relativa de riqueza y el
crecimiento econmico, se ajusta la siguiente regresin simple:

pc PIB b a pc PIB Tasa +


Los datos necesarios para el clculo se presentan en el cuadro 17.





Cuadro 16

pas
PI B per capita
1960
(USA=100)
Tasa
crecimiento
PI B per capita
1960-1990
Alemania 67,73 2,65
Australia 67,25 2,22
Austria 52,03 3,21
Blgica 53,27 3,08
Canad 66,59 2,84
Dinamarca 63,17 2,56
Espaa 31,76 3,75
Finlandia 48,57 3,45
Francia 58,81 2,94
Grecia 18,97 3,96
Holanda 63,50 2,40
I rlanda 31,22 3,49
I slandia 50,05 3,44
I talia 47,23 3,44
J apn 29,91 5,39
Luxemburgo 75,18 2,62

N. Zelanda 75,13 1,31
Noruega 50,10 3,23
Portugal 20,77 4,08
Reino Unido 67,85 2,16
Suecia 67,26 2,40
Suiza 97,20 1,89
Turqua 17,43 2,96
EEUU 100 1,94



Cuadro 17
x
y
X
i
i
n
2
1

Y
i
i
n
2
1

X Y
i i
i
n

1

55,041 2,975 84019,975 229,493 3581,841




Los coeficientes del ajuste sern:
( ) ( )
( )
0307 , 0
695 , 11311
086 , 348
041 , 55 24 975 , 84019
975 , 2 041 , 55 24 841 , 3581
2
1
2 2
1
1
2
1

n
i
i
n
i
i i
n
i
i
n
i
i i
x n X
y x n Y X
x X
y Y x X
b
665 , 4 041 , 55 0307 , 0 975 , 2 + x b y a

Y el coeficiente de determinacin:
( ) ( ) ( ) 661 , 10 041 , 55 24 975 , 84019 0307 , 0
2 2
1
2
1
2 2 2 2

,
_




n
i
n
i
i i
x n X b x X b VE
( )



n
i
n
i
i i
y n Y y Y VT
1 1
2 2 2 2
078 , 17 975 , 2 24 493 , 229
624 , 0
078 , 17
661 , 10
2
R

En la grfica 28 se representa el ajuste de la tasa de crecimiento del PIB
per capita respecto al ndice de 1960. La posicin de partida describe, por tanto,
bastante bien cul es la tasa de crecimiento que los pases han alcanzado en el
perodo. Cuanto mejor situado estaba el pas en 1960, menor ha sido su tasa de
crecimiento en los siguientes aos. Resulta llamativo observar que de los seis
pases en peor posicin en 1960 (Espaa, Irlanda, Japn, Portugal, Grecia y
Turqua) cinco de ellos se encuentran entre los primeros en su tasa de

crecimiento (Japn, 1; Portugal, 2; Grecia, 3; Espaa, 4; Irlanda, 5).
Curiosamente, es EEUU, el pas con mayor nivel de riqueza, el que presenta una
de las menores tasas de crecimiento en el perodo.

Grfica 28
PIB per capita, 1960 (USA=100)
120 100 80 60 40 20 0
t
a
s
a

c
r
e
c
i
m
i
e
n
t
o

P
I
B

p
e
r

c
a
p
i
t
a
6
5
4
3
2
1


Ejemplo 8. Convergencia econmica. Barro (1991) para valorar
empricamente la existencia de convergencia en los niveles de renta de
distintos pases, propuso realizar una regresin entre sus tasas de
crecimiento y los niveles de renta de los que partan:
( ) ( ) Tasa de crecimiento de la renta Nivel de renta
i i
+
para i = 1,,n regiones.

Si el coeficiente es negativo (y normalmente inferior en valor
absoluto a uno) se podr interpretar que cuanto mayor es el nivel de renta
de un pas, menor ser su tasa de crecimiento. Dicho de otra manera, las
regiones ms pobres creceran ms que las ms ricas, obtenindose como
resultado final una convergencia en sus niveles de renta. Por el contrario,
si es mayor que la unidad, cuanto mayor fueran los niveles de variable,
mayores seran sus tasas de crecimiento. Para diversos pases y distintos
perodos de tiempo se han calculado unas tasas de convergencia bastante
parecidas (Sala-i-Martin, 1994), de alrededor del 2% anual (coeficiente
igual a -0,02).

Para cualquier variable, el concepto de -convergencia se puede definir
sobre un modelo como el siguiente:
( ) ( ) ( ) log y log y a blog y e
it it t it
+ +
1 1

La hiptesis de -convergencia estara de acuerdo con un valor de
la pendiente negativo. Indicando que la tasa de crecimiento de la variable

(el incremento de la variable en logaritmos) depende negativamente de
su nivel en el momento inicial del tiempo. Cuanto mayor sea el valor de la
pendiente (en trminos absolutos) mayor ser la tendencia hacia la
convergencia.

Friedman (1992) sugiere que la evolucin de la renta de un
conjunto de pases puede seguirse mejor analizando las
transformaciones del coeficiente de variacin a lo largo del tiempo. El
coeficiente de variacin es una medida de dispersin. Si se calcula para
un conjunto de pases en distintos momentos del tiempo y se detecta que
su valor disminuye, se tendr un indicador de convergencia en sus
niveles de renta. Sala-i-Martin (1994) denomina a este tipo de
convergencia -convergencia, mostrando cmo ambos conceptos estn
relacionados.

La relacin entre -convergencia y -convergencia se puede establecer, en primer
lugar, modificando el modelo de regresin de la siguiente manera:
( ) ( ) ( ) log y log y a blog y
it it t
+
1 1

( ) ( ) ( ) log y a blog y log y
it t t
+ +
1 1

( )
( )
( ) log y a b log y
it t
+ +

1
1


En segundo lugar, definiremos la varianza sobre la variable
transformada en logaritmos:
( ) ( )
( )
s
n
log y log y
t it t
i
n
2
1
2
1



Sustituyendo en ella la expresin del logaritmo de la variable (y de su
valor medio), tendremos:
( ) ( )
( )
s
n
log y log y
t it t
i
n
2
2
1
1


( )
( )
( )
( )
( )
+ + +

1
1 1
1 1
2
1
n
a b log y a b log y
it t
i
n

( )
( )
( )
( )
( )
+ + +

1
1 1
1 1
1
2
n
a b log y a b log y
it t
i
n

( )
( ) ( )
( ) ( )
+

1
1
1 1
1
2
n
b log y log y
it t
i
n


( ) ( ) ( )
( )
+

b
n
log y log y
it t
i
n
1
1
2
1 1
1
2

( ) +

b s
t
1
2
1
2


Es decir que la varianza en un momento del tiempo t se puede
expresar en funcin de la varianza en el momento t-1. La pendiente b,
que define la convergencia en la regresin aparece tambin en la
relacin. Puede comprobarse que cuanto ms prximo este b a 1, ms
rpida ser la convergencia, puesto que menor ser la dispersin de la
variable en el tiempo. Si b fuese positiva no se dara -convergencia y
tampoco convergeran las varianzas, pues cada vez sera mayor la
dispersin de la variable en el tiempo.



Ejemplo 9. Anlisis del cambio en el salario medio industrial de las
regiones espaolas: 1978-1990. En este ejemplo reproduciremos parte
del trabajo de Prez Domnguez (1995) que analiza la convergencia de
los salarios en las comunidades autnomas espaolas. En el cuadro 18
se muestra un ndice de los salarios industriales medios del ao 1978
para las comunidades espaolas (media nacional igual a 100). Se
dispone tambin de la tasa de variacin de esta variable, para el perodo
1978-1990 y se desea comprobar si ha existido en esta etapa un proceso
de convergencia.

El ajuste por mco del modelo que nos permitir verificar si se ha
producido la convergencia en los salarios industriales ser el siguiente:
( ) Tasa variacion salario a b Salario
i
i
+

Los resultados necesarios para el clculo de a y b y el
correspondiente coeficiente de determinacin se ofrecen en el cuadro 19.

Cuadro 18



CCAA
Salario
industrial
medio 1978
(media
nacional
igual a 100)


Tasa de
variacin
1978-1990
Asturias 127,97 2,827
Pas Vasco 123,31 2,966

Madrid 111,74 3,119
Cantabria 106,11 2,869
Catalunya 103,86 2,979
Navarra 103,22 2,858
Aragn 96,46 3,104
Castilla-Len 94,05 3,136
Andaluca 89,87 2,870
Canarias 88,91 2,732
Galicia 88,59 2,824
Valencia 85,37 2,693
La Rioja 82,32 2,688
Murcia 76,05 2,590
Baleares 74,28 2,962
Castilla La Mancha 73,15 2,740
Extremadura 62,70 2,873
Fuente: Prez Domnguez (1995), empleando la
Encuesta Industrial del INE.

Cuadro 19
X Y
i i
i
n

1
X
i
i
n
2
1

Y
i
i
n
2
1



x

y
4578,949 153395,785 140,657 93,409 2,872

Los valores de b y a sern:
b
X Y n x y
X n x
i i
i
n
i
i
n

1
2 2
1
2
4578 949 17 93 409 2 872
153395 785 17 93 409
0 0036
, , ,
, ,
,
a y b x 2 872 0 0036 93 409 2 5357 , , , ,

Y el coeficiente de determinacin ser:

( )
R
VE
VT
b X n x
Y n y
i
i
n
i
i
n
2
2 2 2
1
2 2
1
2 2
2
0 0036 153395 785 17 93 409
140 657 17 2 872
0 15

_
,

, , ,
, ,
,

El ajuste explica un 15% de la variacin total, con un parmetro b
positivo. En la grfica 29 se representan las observaciones y la recta

ajustada. La conclusin que se deriva del anlisis es la de que, durante
este perodo, no se ha producido en las comunidades autnomas una
convergencia en los salarios de la industria.


Grfica 29
Salario medio (1978)
140 130 120 110 100 90 80 70 60 50
C
r
e
c
i
m
i
e
n
t
o

s
a
l
a
r
i
o

m
e
d
i
o

(
1
9
7
8
-
1
9
9
0
)
3,2
3,1
3,0
2,9
2,8
2,7
2,6
2,5
Extremadura
Cast.-Mancha
Baleares
Murcia
La Rioja
Valencia
Galicia
Canarias
Andaluca
Cast.-Len
Aragn
Navarra
Catalunya
Cantabria
Madrid
Pas Vasco
Asturias




Ejemplo 10. Esperanza de vida en la OCDE. En el cuadro 20 se
dispone de la informacin de la esperanza media de vida en los distintos
pases de la OCDE (calculada en el ao 1989). La intensidad de la
inversin sanitaria en cada pas puede ser un factor explicativo de las
diferentes esperanzas de vida. Como variables cercana a ese concepto,
en el cuadro 20 aparece el nmero de camas por mil habitantes. Se
plantea explicar la esperanza de vida en funcin del nmero de camas.
En el cuadro 21 se muestran los valores necesarios para realizar el
ajuste, que finalmente se representa en la grfica 30.
Cuadro 20

Pas
Esperanza
de vida
Camas por
mil
habitantes
Australia 76,70 9,90
Austria 75,60 10,70
Blgica 74,80 8,30
Canad 76,80 6,90
Dinamarca 75,10 6,10

Finlandia 74,90 13,50
Francia 77,10 10,20
Alemania 75,90 10,90
Grecia 76,20 5,20
I slandia 77,20 14,80
I rlanda 74,40 6,40
I talia 76,00 7,50
J apn 78,70 15,60
Luxemburgo 74,60 12,50
Holanda 77,10 11,70
Nueva Zelanda 74,50 9,00
Noruega 76,20 15,30
Portugal 74,10 4,70
Espaa 76,40 4,40
Suecia 77,20 13,30
Suiza 77,60 9,90
Turqua 75,40 2,10
UK 75,90 6,50
EEUU 75,00 5,10

Cuadro 21
x
y
X
i
i
n
2
1

Y
i
i
n
2
1

X Y
i i
i
n

1

9,1875 75,975 2355,21 138564,7 16799,23


Los valores de b y a sern:
142 , 0
366 , 329
7425 , 46
1875 , 9 24 21 , 2355
975 , 75 1875 , 9 24 23 , 16799
2
1
2 2
1


n
i
i
n
i
i i
x n X
y x n Y X
b
67 , 74 1875 , 9 142 , 0 975 , 75 x b y a

Y el coeficiente de determinacin:

( )
21 , 0
975 , 75 24 7 , 138564
1875 , 9 24 21 , 2355 142 , 0
2
2 2
1
2 2
1
2 2 2
2

,
_

n
i
i
n
i
i
y n Y
x n X b
VT
VE
R



Grfica 30
Camas (por mil habitantes)
17 15 13 11 9 7 5 3 1
E
s
p
e
r
a
n
z
a

d
e

v
i
d
a
79
78
77
76
75
74
EEUU
UK
Turqua
Suiza
Suecia
Espaa
Portugal
Noruega
N. Zelanda
Holanda
Luxemburgo
Japn
Italia
Irlanda
Islandia
Grecia
Alemania
Francia
Finlandia
Dinamarca
Canad
Blgica
Austria
Australia




Segn este anlisis descriptivo, el aumento del nmero de camas
por cada mil habitantes estara asociado a una mayor esperanza de vida.
Como conclusin del anlisis deberamos extraer que, efectivamente,
parece existir una relacin positiva entre la esperanza de vida y la
inversin del pas en sanidad si se mide sta mediante el nmero de
camas por mil habitantes. Incrementar en 10 las camas por cada mil
habitantes tendra como consecuencia el aumento de 1,42 aos en la
esperanza de vida.


BIBLIOGRAFA


Akdogan, H., 1997, International security selection under segmentation: Theory
and application, The Journal of Portfolio Management, vol. 24, n. 1, pgs. 82-
92.

Barro, R.J., 1991, Economic growth in a cross section of countries, Quaterly
Journal of Economics, n. vol. 106, n. 2, pgs. 407-443.

Bekaert, G., C.B. Erb, C.R. Harvey y T.E. Viskanta, 1998, Distributional
Characteristics of Emerging Market Returns and Asset Allocation, The Journal
of Portfolio Management, vol. 24 n. 2, Winter, pgs. 102-116.

Boyle, G.E. y T.G. McCarthy, 1997, A simple measure of -convergence,
Oxford Bulletin of Economics and Statistics, vol. 59, n. 2, pgs.257-264.

Camino, D., 1997, Efectos intrada y da de la semana en la Bolsa de Madrid.
Informacin y Volumen de contratacin, Revista Espaola de Financiacin y
Contabilidad, vol. XXVI, n 90, pgs. 51-75.

Domnech, R., M. Fernndez y D. Taguas, 1997, La fiscalidad sobre el trabajo y
el desempleo en la OCDE, Papeles de Economa Espaola, n. 72, pgs. 178-
191.

Ferruz, L. y J.L. Sarto, 1997, Revisin crtica de las medidas clsicas de
performance de carteras y propuesta de ndices alternativos. Aplicacin a fondos
de inversin espaoles (1990-1995), Boletn de Estudios Econmicos, vol. LII,
n. 162, Diciembre, pgs. 549-573.

Friedman, M., 1992, Do old fallacies ever die?, Journal of Economic
Literature, vol. 30, pgs. 2129-2132.

Govern Balear, 1991, El gasto turstico 1990, Direcci General dEconomia,
Palma de Mallorca.

Johnson, P. y G. Stears, 1998, Why are older pensioners poorer?, Oxford
Bulletin of Economics and Statistics, vol. 60, n 3, pgs. 271-290.

Juhn, C. y K.M. Murphy, 1996, Wage inequality and family labor supply,
Working Paper 5450, NBER Working Paper Series, Cambridge, MA.


Layard, R., S. Nickell y R. Jackman, 1996, Combating unemployment: is
flexible enough?, CEP Working Paper, 293, London School of Economics.

Martnez Abascal, E. y C. Cabezas, 1997, Correlacin entre Bolsas Mundiales.
A quin sigue el IBEX?, Anlisis Financiero, n. 73, 3
er
cuatrimestre, pgs. 34-
42.

Michaud, R.O., G.L. Bergstrom, R.D. Frashure y B.K. Wolahan, 1996, Twenty
years of International Equity Investing, The Journal of Portfolio Management,
vol. 23, n. 1, pgs. 9-22.

Molt, M.L. y E. Uriel, 1997, El problema del paro en la Unin Europea por
sexos, Papeles de Economa Espaola, n. 72, pgs. 122 a 136.

Norusis, M.J., 1991, The SPSS Guide to Data Analysis for SPSS/PC+, 2
nd

Edition, SPSS Inc., Chicago.

Pena, B., J. Callealta, J.M. Casas, A. Merediz y J. Nuez, 1996, Distribucin de
la Renta en Espaa, Ediciones Pirmide, Madrid.

Prez Domnguez, C., 1995, Cambios en el salario industrial medio de las
regiones espaolas: Un anlisis para el perodo 1978-1990, Boletn de Estudios
Econmicos, Vol. L, n. 155, agosto, pgs. 239-262.

Raymond, J.L., 1994, Condicionantes externos de la evolucin de la economa
espaola, Documentos de Trabajo n. 104/1994, Fundacin FIES.

Rute, A., 1997, Workers or employers: Who is shaping wage inequality?,
Oxford Bulletin of Economics and Statistics, vol. 59, n 4, pgs. 523-547.

Sala-i-Martin, X., 1994, Apuntes de Crecimiento Econmico, Antoni Bosch,
editor, Barcelona.