Sei sulla pagina 1di 173

Introduccin a la Estadstica Econmica

Rigoberto Prez, Covadonga Caso, Mara Jess Ro y Ana Jess Lpez


rigo@uniovi.es,ccaso@uniovi.es,mjrio@uniovi.es,anaj@uniovi.es,
Dpto. de Economa Aplicada, Campus del Cristo. Universidad de Oviedo
https://sites.google.com/a/uniovi.es/libros/iee
Enero 2011
A nuestras familias
ISBN13 978-84-693-9868-5
Depsito Legal: AS-6241-2010
Edicin 2010
Revisin V.1.0
This work is licensed under a Creative Commons Attribution-NonCommercial-
NoDerivs 3.0 Unported License.
2
Breve resea de autores
Los autores de libro son profesores del Departamento de Economa Aplicada de la
Universidad de Oviedo (Unidad de Estadstica y Econometra).
Rigoberto Prez Surez es Catedrtico de Universidad y su
amplia experiencia docente incluye asignaturas de Estadstica
Econometra y Series temporales tanto en primer y segundo ci-
clo como en doctorados y msteres. Es autor de varios libros de
texto (Nociones Bsicas de Estadstica, Anlisis de datos econ-
micos I: Mtodos descriptivos, Anlisis de datos econmicos II:
Mtodos inferenciales) y del software docente ADE+, as como
de numerosas publicaciones relativas a la innovacin educativa y
el e-learning.
Tambin ha sido Director de Area de Innovacin de la Universi-
dad de Oviedo (2000-2006) y Director del Campus Virtual Com-
partido del grupo G9 (2004-2006).
En el mbito investigador es autor de diversas publicaciones en
revistas de impacto y ha dirigido numerosas tesis doctorales y
proyectos de investigacin, generalmente referidos a la predic-
cin econmica y al anlisis de la desigualdad.
Covadonga Caso Pardo es Profesora Titular de Universidad
y su docencia est centrada en asignaturas de Estadstica de
licenciaturas y grados, y en cursos de postgrado de Anlisis
Multivariante. Es una de las autoras del manual Anlisis de
datos econmicos I: Mtodos descriptivos.
Mara Jess Ro Fernndez es Profesora Titular de Escuela
Universitaria y su experiencia docente incluye diversas asig-
naturas de Estadstica en primer y segundo ciclo. Es autora
del manual Anlisis de datos econmicos I: Mtodos descriptivos.
Ana Jess Lpez Menndez es Profesora Titular de Univer-
sidad y su docencia abarca asignaturas de Estadstica, Econo-
metra y Series temporales. Es autora de los manuales Anlisis
de datos econmicos I: Mtodos descriptivos y Anlisis de da-
tos econmicos II: Mtodos inferenciales, as como de numerosas
publicaciones relativas a la innovacin educativa y el e-learning.
En el mbito investigador es autora de diversos artculos publi-
cados en revistas de impacto, ha dirigido seis tesis doctorales y
ha participado en numerosos proyectos de investigacin.
3
ndice general
1. Organizacin y presentacin de los datos. Fuentes estadsticas 9
1.1. Origen de la informacin: censos y muestras . . . . . . . . . . . . . . . 9
1.2. Tipos de informacin estadstica . . . . . . . . . . . . . . . . . . . . . 11
1.3. Presentacin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Tabulacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.2. Representaciones grcas . . . . . . . . . . . . . . . . . . . . . 16
1.4. Organismos y fuentes estadsticas de informacin econmica . . . . . . 21
1.4.1. Organizacin estadstica ocial . . . . . . . . . . . . . . . . . . 21
1.4.2. Algunas estadsticas econmicas . . . . . . . . . . . . . . . . . . 24
2. Medidas de posicin 30
2.1. Medidas de posicin central: promedios . . . . . . . . . . . . . . . . . . 31
2.1.1. La media aritmtica . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.2. La media ponderada . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.3. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.1.4. La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.1.5. Otros promedios: media geomtrica y media armnica . . . . . 39
2.1.6. Ventajas e inconvenientes de los promedios . . . . . . . . . . . 41
2.2. Medidas de posicin no central: cuantiles . . . . . . . . . . . . . . . . . 42
3. Medidas de dispersin y forma 44
3.1. Medidas de dispersin absolutas . . . . . . . . . . . . . . . . . . . . . . 44
3.1.1. Varianza y desviacin tpica . . . . . . . . . . . . . . . . . . . . 46
3.2. Medidas de dispersin relativas . . . . . . . . . . . . . . . . . . . . . . 49
3.2.1. Coecientes de variacin basados en desviaciones cuadrticas . 50
3.2.2. Coecientes de variacin basados en desviaciones absolutas . . 51
3.2.3. Representatividad de los promedios . . . . . . . . . . . . . . . . 52
3.3. Variable tipicada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4. Desigualdad y pobreza 58
4.1. La desigualdad econmica . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2. La curva de Lorenz y el ndice de Gini . . . . . . . . . . . . . . . . . . 60
4.2.1. La curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.2. El ndice de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3. Medidas descomponibles . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4. La pobreza y su medicin . . . . . . . . . . . . . . . . . . . . . . . . . 69
4
ndice general
5. Anlisis conjunto. Asociacin y correlacin 72
5.1. Distribuciones bidimensionales . . . . . . . . . . . . . . . . . . . . . . 72
5.2. Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . . 74
5.3. Dependencia e independencia estadstica . . . . . . . . . . . . . . . . . 78
5.4. Medidas de asociacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.5. La correlacin y su medida . . . . . . . . . . . . . . . . . . . . . . . . 83
6. Regresin lineal simple 90
6.1. Correlacin y regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.2. Rectas de regresin mnimo cuadrticas . . . . . . . . . . . . . . . . . 91
6.3. Anlisis de la bondad de modelos . . . . . . . . . . . . . . . . . . . . . 97
6.4. Prediccin con modelos causales . . . . . . . . . . . . . . . . . . . . . . 102
7. Regresin lineal mltiple 105
7.1. Planteamiento de la regresin mltiple . . . . . . . . . . . . . . . . . . 105
7.2. Plano de regresin mnimo cuadrtico . . . . . . . . . . . . . . . . . . 107
7.3. Anlisis de la bondad de modelos mltiples . . . . . . . . . . . . . . . 109
8. Nmeros ndices y tasas 112
8.1. ndices simples y tasas . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
8.2. ndices sintticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.3. Propiedades de los ndices . . . . . . . . . . . . . . . . . . . . . . . . . 118
9. Nmeros ndices: Frmulas habituales, variacin y repercusin 122
9.1. Frmulas habituales de precios y cantidades . . . . . . . . . . . . . . . 122
9.2. ndices de valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.3. Deactacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9.4. ndices encadenados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.5. Variacin de un ndice y repercusin . . . . . . . . . . . . . . . . . . . 131
10.El ndice de Precios de Consumo y sus aplicaciones 134
10.1. El ndice de Precios de Consumo (IPC) . . . . . . . . . . . . . . . . . 134
10.2. El IPC armonizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
10.3. Aplicaciones econmicas del IPC . . . . . . . . . . . . . . . . . . . . . 140
11.Series temporales: planteamiento y tendencia 142
11.1. Evolucin temporal de magnitudes . . . . . . . . . . . . . . . . . . . . 142
11.2. Componentes de una serie temporal . . . . . . . . . . . . . . . . . . . . 145
11.3. Anlisis de la tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . 152
11.3.1. Mtodo de las medias mviles . . . . . . . . . . . . . . . . . . . 153
11.3.2. Alisado exponencial . . . . . . . . . . . . . . . . . . . . . . . . 155
11.3.3. Mtodo de ajuste lineal . . . . . . . . . . . . . . . . . . . . . . 156
12.Series temporales: estacionalidad y prediccin 158
12.1. Anlisis de la estacionalidad . . . . . . . . . . . . . . . . . . . . . . . 158
5
ndice general
12.2. Desestacionalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
12.3. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Bibliografa 170
ndice alfabtico 171
6
ndice general
Presentacin
La elaboracin de un manual universitario es una experiencia de gran inters e
intensidad que conlleva un proceso previo de reexin sobre el papel de la asignatura,
sus contenidos y la metodologa docente.
En nuestro caso esta experiencia fue abordada hace ya casi veinte aos por un
conjunto de profesores ante la puesta en marcha en la Universidad de Oviedo de
las licenciaturas en Economa y Administracin y Direccin de Empresa. En aquella
ocasin, armbamos que nuestro manual Anlisis de datos econmicos pretenda
aproximar nuestros programas a las necesidades reales de nuestros alumnos, tratando
de compatibilizar la exposicin amena e intuitiva de problemas con un tratamiento
serio de los contenidos. Con este objetivo, el texto inclua varias novedades como
la utilizacin de tres niveles diferenciados de lectura, la incorporacin de numerosas
ilustraciones y un disquette con ejemplos resueltos con hoja de clculo.
Transcurrido el tiempo y agotadas varias ediciones de aquel manual, en la actualidad
nos situamos en un nuevo contexto, caracterizado por la puesta en marcha de los
nuevos grados universitarios adaptados al Espacio Europeo de Educacin Superior, en
los que se contempla un papel ms activo del estudiante, tal y como reeja la denicin
del crdito europeo ECTS, que computa el nmero de horas de trabajo requeridas
para la adquisicin por los estudiantes de los conocimientos, capacidades y destrezas
correspondientes, por lo que en su asignacin debern estar comprendidas las horas
correspondientes a las clases lectivas, tericas o prcticas, las horas de estudio, las
dedicadas a la realizacin de seminarios, trabajos, prcticas o proyectos, y las exigidas
para la preparacin y realizacin de los exmenes y pruebas de evaluacin.
Por otra parte, la constante evolucin de las Tecnologas de la Informacin y la
Comunicacin (TIC) abre nuevas posibilidades para la generacin y transmisin del
Conocimiento. De ah, que en este libro, por una parte, hayamos cambiado el formato
impreso por el digital y por otra, nos hayamos centrado en los contenidos docentes, que
sern complementados con materiales online, tanto de acceso libre (en la web del libro)
como restringidos a los estudiantes de nuestras asignaturas (accesibles en el campus
virtual de la Universidad de Oviedo, http://www.campusvirtual.uniovi.es)
Con este planteamiento, presentamos Introduccin a la Estadstica Econmica,
texto que se adapta a la asignatura del mismo nombre incluida en el primer curso
de los grados de Economa, Administracin y Direccin de Empresas, Contabilidad y
Finanzas y Relaciones Laborales y Recursos Humanos de la Universidad de Oviedo.
A lo largo de doce temas presentamos de forma sencilla pero con rigor los conceptos
y resultados relativos a los principales mtodos estadsticos descriptivos.
En los temas iniciales se analiza el origen, organizacin y resumen de la informacin,
presentando las principales fuentes de informacin econmica y su representacin me-
diante tablas y grcos (tema 1), as como las principales medidas de posicin (tema
2), dispersin y forma (tema 3) y desigualdad y pobreza (tema 4).
A continuacin se aborda el anlisis conjunto de variables, estudiando las principales
medidas de correlacin y asociacin (tema 5) y las tcnicas de regresin lineal tanto
simple (tema 6) como mltiple (tema 7).
7
ndice general
Los contenidos ms especcos de estadstica econmica incluyen los nmeros ndices
y tasas (tema 8), los principales ndices econmicos de precios, cantidades y valor (tema
9) y el Indice de Precios de Consumo (IPC) con sus principales aplicaciones (tema
10).
Por ltimo, los temas nales estudian la evolucin temporal de las magnitudes
econmicas. El tema 11 describe las series temporales y los mtodos de aproximacin
de su tendencia, mientras el tema 12 analiza la estacionalidad y la elaboracin de
predicciones a partir de modelos temporales.
Como ya hemos anticipado, este libro se publica en formato PDF y est disponible
en la Red para que cualquier persona pueda descargarlo de forma libre y gratuita. La
ltima versin de este libro y material complementario se encuentra en:
https://sites.google.com/a/uniovi.es/libros/iee
Conamos en que este material pueda resultar de utilidad y agradecemos de ante-
mano vuestros comentarios y sugerencias.
8
1 Organizacin y presentacin de los
datos. Fuentes estadsticas
El anlisis estadstico de cualquier problema econmico requiere en una primera
etapa determinar los objetivos y el colectivo informante. A modo de ilustracin, su-
pongamos que se desea hacer un estudio estadstico sobre el sector sanitario en Espaa.
Quin suministrar la informacin que necesitamos? Los hospitales o centros de sa-
lud, el personal sanitario o la poblacin espaola en general. Las conclusiones que
se obtengan, a qu colectivo afectarn? La informacin necesaria para alcanzar los
objetivos del estudio posiblemente se transmitir por un cuestionario o acudiremos
a bases de datos ya elaboradas por algn organismo, pero la recogeremos de forma
cualitativa o cuantitativa? Una vez recabada la informacin y como fase previa a la
aplicacin de las tcnicas estadsticas pertinentes se proceder a la organizacin de los
datos y se presentarn una serie de tablas y grcos con un resumen de la informacin
disponible.
A lo largo de este tema se introducirn los conceptos bsicos vinculados a esta
fase inicial de un estudio estadstico. Asimismo se ofrecer una panormica de los
principales organismos y fuentes que proporcionan informacin estadstica.
1.1. Origen de la informacin: censos y muestras
Denicin 1.1. Se denomina poblacin o universo al conjunto de personas o cosas a
las que va referida una investigacin estadstica.
Desde el punto de vista estadstico, el trmino poblacin puede aludir tanto a per-
sonas como a hogares, hospitales o empresas. Cada una de las personas o cosas que
integran la poblacin recibe el nombre de elemento y el nmero total de elementos
que la integran se denomina tamao poblacional.
La recogida de informacin se realiza, generalmente, por medio de cuestionarios,
siendo el entrevistado o informador una especie de socio annimo de todo el proceso
estadstico. En su sentido ms amplio, entendemos por encuesta el procedimiento
global que se sigue para la recogida de informacin. Su extensin, es decir, el conjunto
de elementos de la poblacin a los que se solicita informacin unidades informantes
da lugar a dos tipos de encuestas: censales y muestrales.
Denicin 1.2. Una encuesta censal o censo es aqulla que se realiza a todos los
componentes de la poblacin.
Los distintos pases llevan a cabo peridicamente recuentos exhaustivos de sus habi-
tantes, viviendas, explotaciones agrarias, ..., conocidos como Censos de Poblacin, de
9
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Viviendas, Agrario, ... . Histricamente, los recuentos de poblacin son el primer tipo
de estadstica del que se tiene noticia. Los gobiernos de las civilizaciones antiguas ya
realizaban este tipo de recuentos con el n de recaudar tributos y de reclutar hombres
aptos para la guerra.
El anlisis exhaustivo de poblaciones no es la forma ms habitual de desarrollar
encuestas. A pesar de que los avances informticos permiten procesar volmenes de
informacin que hace unos aos resultaban impensables, hay dos razones fundamen-
tales para ello:
1. La necesidad de limitar recursos -motivada por los elevados costes de los censos-
2. La rapidez en la obtencin de resultados.
Estos argumentos conducen a plantear estudios parciales, llevando a cabo posterior-
mente una generalizacin de los resultados obtenidos. En este contexto surgen los
conceptos de subpoblacin y muestra.
El hecho de trabajar con encuestas censales no garantiza la ausencia de errores en los
resultados, pues siempre pueden aparecer errores vinculados al proceso de observacin:
preguntas confusas, errores de memoria por parte del entrevistado, negativas a respon-
der, etc.
Denicin 1.3. Una subpoblacin es una parte de la poblacin integrada por un
conjunto de elementos que presentan alguna caracterstica comn.
Los centros sanitarios de titularidad pblica o los hospitales ubicados en la Comuni-
dad de Madrid son ejemplos de subpoblaciones en un estudio sobre el sector sanitario
en Espaa. Pueden generalizarse a toda la poblacin los resultados obtenidos a partir
de la informacin proporcionada por los elementos de una subpoblacin? En principio
la respuesta es negativa pues slo hay garantas de que representen a la subpoblacin
en cuestin y no a todo el colectivo. La alternativa ser considerar estudios basados
en muestras.
Denicin 1.4. Una muestra es una parte de la poblacin cuyos elementos se eligen
de modo que sean representativos de todo el colectivo. Las encuestas basadas en
muestras se denominan encuestas muestrales.
El concepto de muestra abre algunos interrogantes importantes: qu signica re-
presentativa?, cmo garantizar que una muestra sea representativa? Una muestra
ser representativa cuando constituya una rplica a escala de la poblacin. Cmo
podramos denir nosotros la rplica? Una muestra de hospitales debera tener el mis-
mo porcentaje que la poblacin de centros pblicos y privados, el mismo porcentaje
por provincias, por nmero de empleados, por gastos, ... . En realidad, sern muchas
las caractersticas a tener en cuenta para que la muestra pueda ser calicada como
una rplica de la poblacin. La estadstica proporciona mtodos para la seleccin de
muestras, en su mayor parte basados en la eleccin de sus elementos al azar, lo cual
garantizar la imparcialidad en el proceso de seleccin.
10
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Las encuestas muestrales presentan ciertas ventajas frente a las censales. Por una parte,
hay que notar el ahorro considerable tanto monetario como de tiempo que puede supo-
ner el tener que entrevistar slo a unos pocos individuos de una poblacin numerosa.
Pero adems, el hecho mismo de poder trabajar con muestras de tamao relativamente
pequeo permite, a su vez, anar en la calidad de los datos y, en consecuencia, con-
trolar la abilidad de los resultados. Obviamente, no todo son ventajas, pues el hecho
de trabajar con informacin parcial, proporcionada por una pequea parte de la po-
blacin, puede generar errores en los resultados, cuya magnitud estar estrechamente
relacionada con la representatividad de la muestra.
Ambos tipos de encuesta -censal y muestral- deben convivir en una especie de sim-
biosis, complementndose mutuamente. En algunos casos es conveniente la utilizacin
de muestras, en otros resulta imprescindible, y en cualquiera de ellos el censo corres-
pondiente proporciona el marco de referencia.
1.2. Tipos de informacin estadstica
Uno de los aspectos importantes en el diseo de una encuesta es la elaboracin
de un cuestionario, mediante el cual se recoger la informacin necesaria sobre los
rasgos o caracteres de inters para el estudio, que pueden ser tanto cuantitativos
como cualitativos.
Denicin 1.5. Los caracteres cuantitativos, expresados mediante nmeros, reciben
el nombre de variables y se representan habitualmente mediante maysculas X, Y , ...
Los resultados de la observacin de una variable se denominan valores y se designan
por las correspondientes letras minsculas x
1
, x
2
, . . . ; y
1
, y
2
, . . . Dependiendo de los
valores que puedan presentar se distinguen a su vez dos tipos de variables:
Discretas: Variables que slo pueden tomar cierto nmero de valores aislados o,
de forma equivalente, si el nmero de valores diferentes que pueden asumir es
nito o innito numerable.
Continuas: Variables que pueden tomar cualquiera de los innitos valores de
uno o varios intervalos de la recta real.
El nmero de asignaturas matriculadas en un grado o el nmero de empleados de una
empresa son ejemplos de variables discretas que pueden tomar valores 1,2,3, ... La
altura de los estudiantes, el tiempo diario de estudio o el coste de las materias primas
en una industria son ejemplos de variables continuas.
Cuando observamos en concreto el valor de una variable continua anotaremos una serie
de valores aislados; por ejemplo, la altura ser 155, 165 o 180 cm, es decir, su cuanti-
cacin tendr una precisin limitada, determinada por la unidad de medida que pueda
captar el observador segn el instrumento utilizado. Con ello queremos expresar que,
desde un punto de vista emprico, las variables presentan un comportamiento discre-
to, para sealar tambin inmediatamente que la distincin entre variables continuas y
discretas es muy importante desde la perspectiva terica, esto es, el concepto de con-
tinuidad garantiza el paso al lmite y como consecuencia permite aplicar una potente
11
1 Organizacin y presentacin de los datos. Fuentes estadsticas
metodologa matemtica -el clculo diferencial e integral -. Por tanto, es conveniente
distinguir el carcter continuo o discreto de una variable porque condicionar el modelo
terico a aplicar para su estudio y para ello atenderemos a su naturaleza y no a los
resultados de su observacin emprica.
Denicin 1.6. Los caracteres cualitativos, expresados mediante palabras, reciben
el nombre de atributos. Los resultados de la observacin de un atributo se denominan
modalidades o categoras.
Ejemplos de atributos son los estudios de grado realizados (con categoras economa,
derecho, medicina, ...), el sexo, el estado civil, la nacionalidad, ...; el sector de actividad,
el municipio de ubicacin de una empresa, ...
Denicin 1.7. En general, denominamos serie estadstica, o sencillamente estadsti-
ca, a la informacin o coleccin de datos disponible. Estas series pueden ser clasicadas
en diferentes categoras que pasamos a examinar a continuacin.
Segn el nmero de caracteres estudiados, se distingue entre:
Estadsticas univariantes: son aqullas que se obtienen cuando se estudia
un nico carcter.
Estadsticas multivariantes: analizan de forma conjunta varios caracteres,
opcin que resulta adecuada cuando puede existir alguna relacin en su
comportamiento.
Segn la ptica del estudio se distingue entre:
Estadsticas temporales o de corte longitudinal, cuando se toma el tiempo
como referencia y se analiza la evolucin temporal de una o varias variables.
Estadsticas de corte transversal , que aparecen cuando se abandona la p-
tica temporal y el estudio se efecta sobre distintos individuos o unidades
espaciales en un momento del tiempo concreto.
Datos de panel , que se corresponden con situaciones en las que se dispone
de datos que combinan ambas perspectivas, longitudinal y transversal.
1.3. Presentacin de datos
1.3.1. Tabulacin
Una vez recogida la informacin, debemos preocuparnos de su presentacin, procu-
rando que sta sea til y manejable a efectos de su anlisis estadstico. El proceso de
ordenacin y agrupacin de los datos se denomina tabulacin, y su resultado ser una
tabla estadstica.
En este tema se presentarn las tablas correspondientes a estadsticas univariantes,
posponiendo a los temas especcos la presentacin de las tablas para estadsticas
multivariantes.
12
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Tablas estadsticas univariantes (datos no agrupados)
Sea X una variable que puede tomar k valores diferentes designados por x
1
, x
2
, . . . , x
k
,
que se asumen ordenados en sentido creciente y para la que se dispone de un total de
N observaciones.
Denicin 1.8. Se denen los siguientes tipos de frecuencias asociados a cada valor
x
i
(i = 1, . . . , k) de una variable X:
1. Frecuencia absoluta n
i
: nmero de observaciones en las que se presenta el valor
x
i
.
2. Frecuencia relativa f
i
: proporcin de observaciones en las que se presenta el valor
x
i
; se obtiene como cociente entre su frecuencia absoluta y el nmero total de
datos f
i
=
n
i
N
. Se expresa habitualmente en trminos porcentuales (f
i
100).
3. Frecuencia absoluta acumulada N
i
: nmero de observaciones menores o iguales
que x
i
; se obtiene como N
i
= n
1
+ +n
i
=
i

j=1
n
j
.
4. Frecuencia relativa acumulada F
i
: proporcin de observaciones menores o iguales
que x
i
; se obtiene como cociente entre su frecuencia absoluta acumulada y el n-
mero total de datos F
i
=
N
i
N
. Se expresa habitualmente en trminos porcentuales
(F
i
100).
El conjunto de los diferentes valores asumidos por una variable junto con cualquiera
de las frecuencias correspondientes se denomina distribucin de frecuencias y, genri-
camente, se representa por (x
i
, n
i
) o (x
i
, f
i
). Suele representarse mediante tablas del
tipo siguiente:
x
i
n
i
x
1
n
1
x
2
n
2
.
.
.
.
.
.
x
k
n
k
x
i
f
i
x
1
f
1
x
2
f
2
.
.
.
.
.
.
x
k
f
k
Las deniciones anteriores, a excepcin de las frecuencias acumuladas, son aplicables
tambin para el caso de caracteres cualitativos.
Propiedad 1.1. Propiedades de las frecuencias
a) 0 n
i
N;
k

i=1
n
i
= N
b) 0 f
i
1;
k

i=1
f
i
= 1
c) 0 N
i
N; N
k
= N.
Frmula de recurrencia: N
1
= n
1
, N
i
= N
i1
+n
i
, i = 2, . . . , k
13
1 Organizacin y presentacin de los datos. Fuentes estadsticas
d) 0 F
i
1; F
k
= 1; F
i
=
i

j=1
f
j
Demostracin. La mayor parte de las propiedades son consecuencia inmediata de la
propia denicin de las frecuencias. Nos centraremos en la demostracin de las pro-
piedades b) y d).
b) Dado que por la propiedad a) se tiene que 0 n
i
N y teniendo en cuenta
que f
i
=
n
i
N
, se deduce que 0 f
i
1. Por otra parte, para demostrar que la suma
de las frecuencias relativas es siempre la unidad (o 100 si se expresan en trminos
porcentuales), basta considerar la denicin de frecuencia relativa y sacar factor comn
el denominador N en el operador suma:
k

i=1
f
i
=
k

i=1
n
i
N
=
k

i=1
n
i
N
=
N
N
= 1
d) La primera parte es consecuencia inmediata a partir de la propiedad c). Por
otra parte, las frecuencias relativas acumuladas pueden obtenerse mediante sumas
acumuladas de frecuencias relativas, ya que:
F
i
=
N
i
N
=
i

j=1
n
j
N
=
i

j=1
n
j
N
=
i

j=1
f
j
Tablas estadsticas univariantes (datos agrupados en intervalos)
En los estudios empricos se dispone habitualmente de un nmero de observaciones
elevado, para las que las variables estudiadas pueden presentar muchos valores diferen-
tes. En otras ocasiones, a lo anterior debe aadirse que la variable puede ser clasicada
como continua. Estas dos razones, conjuntamente o por separado, dan lugar a que las
tablas estadsticas que manejamos puedan ser de gran tamao y, por consiguiente,
poco manejables. En estos casos es habitual clasicar los datos en intervalos o clases.
Supongamos que los valores de la variable X estn agrupados en k intervalos que
denotamos por L
i1
L
i
, donde L
i1
es el extremo inferior de cada intervalo y L
i
el extremo superior (i = 1, . . . , k). La frecuencia absoluta n
i
, asociada al intervalo
i-simo (i = 1, . . . , k), se obtendr como suma de las frecuencias correspondientes a
los valores pertenecientes a dicho intervalo. Se obtienen as tablas de datos agrupados
en intervalos del tipo siguiente:
L
i1
L
i
n
i
L
0
L
1
n
1
L
1
L
2
n
2
.
.
.
.
.
.
L
k1
L
k
n
k
14
1 Organizacin y presentacin de los datos. Fuentes estadsticas
La amplitud de un intervalo se denota por a
i
y viene dada por la diferencia entre
los valores extremos de dicho intervalo: a
i
= L
i
L
i1
.
La marca de clase x
i
es un valor que representa al intervalo. Puesto que en las
tablas agrupadas se desconocen los valores que se presentan en cada intervalo, suele
asumirse que los valores se reparten de modo uniforme dentro del mismo y, por lo
tanto, quedarn bien representados por el valor situado en el centro, lo que conduce
a tomar como marca de clase el punto medio del intervalo: x
i
=
L
i1
+L
i
2
.
El agrupamiento de datos presenta algunos puntos de discusin acerca de los que
no hay criterios unnimes; entre ellos destacaremos los referentes a:
Nmero de intervalos.- La determinacin del nmero de intervalos suele efec-
tuarse intentando buscar un equilibrio entre la prdida de informacin que se
deriva de la agrupacin y la operatividad. As, la consideracin de muchos in-
tervalos presenta la ventaja de respetar la informacin inicial, pero en cambio
no simplica el estudio. Por el contrario, si se opta por agrupar los datos en po-
cos intervalos la ventaja sera la sntesis y operatividad conseguida pero llevara
asociado el inconveniente de una prdida excesiva de informacin.
Amplitud de los intervalos.- La amplitud puede ser constante para todos los
intervalos, lo cual simplica el tratamiento de los datos, o bien variable segn el
recorrido, opcin que permite una mejor adecuacin a las caractersticas de la
variable en estudio.
Extremos que se incluyen en cada intervalo.- Habitualmente se consideran inter-
valos contiguos y pueden presentarse observaciones coincidentes con los extremos
de los intervalos, por lo que es necesario establecer si los intervalos incluyen el
extremo inferior o el superior, es decir, si son semiabiertos del tipo [L
i1
, L
i
)
o (L
i1
, L
i
]. Por otra parte, los intervalos extremos pueden ser no acotados del
tipo Menos de 150 cm o Ms de 2 metros.
Tablas temporales
Sea Y una variable que se observa a lo largo de distintos periodos de tiempo t (aos,
meses, etc.), siendo Y
t
el valor observado en el periodo t. La descripcin numrica de
una variable de este tipo puede realizarse a travs de una tabla con dos columnas, una
para el tiempo (t) y otra para las observaciones (Y
t
). A continuacin se muestra una
tabla temporal con datos (en tantos por mil) de la tasa de natalidad en Espaa en el
periodo 2000-2009:
15
1 Organizacin y presentacin de los datos. Fuentes estadsticas
t Y
t
2000 9,85
2001 9,95
2002 10,11
2003 10,49
2004 10,61
2005 10,71
2006 10,92
2007 10,94
2008 11,37
2009 10,73
1.3.2. Representaciones grcas
En un sentido amplio, entendemos por representacin grca de una serie estadstica
cualquier tipo de dibujo que nos permita detectar a primera vista algunas de sus ca-
ractersticas ms notables, esto es, que nos ofrezca una visin general del fenmeno en
estudio. La representacin grca es un instrumento que ayuda a resumir o desglosar
la informacin que se encuentra contenida en la tabla estadstica y al mismo tiempo
puede descubrir una parte de esa informacin que est oculta en la representacin
numrica.
Aqu estudiaremos algunos de los grcos usuales para estadsticas univariantes, que
sern complementados en temas posteriores con las representaciones grcas asociadas
a estadsticas multivariantes.
Grcos para informacin cualitativa
Diagrama de sectores. El esquema bsico de esta representacin consiste en divi-
dir un crculo en tantos sectores como modalidades tenga el atributo, de manera
que el rea de cada sector sea proporcional a la frecuencia de la modalidad que
representa. El diagrama de sectores de la gura 1.1 reeja la distribucin por
sectores de actividad de la poblacin ocupada en una regin.
Diagrama de rectngulos. Sobre un par de ejes cartesianos se trazan tantos rec-
tngulos como modalidades tenga el atributo, todos con idntica base, situada
en el eje de abscisas, y con altura proporcional a la frecuencia de la modalidad
correspondiente. [Figura 1.2]
Grcos para informacin cuantitativa
Diagrama de barras. Es la representacin grca de la distribucin de frecuen-
cias (absolutas o relativas) de una tabla de datos no agrupados. En un plano
de coordenadas, se representan en el eje de abscisas los distintos valores de la
16
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Figura 1.1: Diagrama de sectores. Poblacin ocupada
Figura 1.2: Diagrama de rectngulos. Poblacin ocupada
variable y en el eje de ordenadas las frecuencias correspondientes, obtenindose
los puntos (x
i
, n
i
) o (x
i
, f
i
); para realzar la representacin se traza el segmento
vertical que une cada punto con su abscisa. De esta manera el dibujo consiste
en una serie de barras verticales cuya altura reeja la importancia del valor al
que estn asociadas. [Figura 1.3]
Diagrama en escalera. Es la representacin grca de la distribucin de frecuen-
cias acumuladas (absolutas o relativas) de una tabla de datos no agrupados.
En un plano de coordenadas se asigna a cada observacin x
i
una altura igual
a su frecuencia acumulada N
i
, punto que se une mediante un trazo horizontal
a la ordenada del valor siguiente. El grco se completa asignando el valor 0
hasta llegar al primer valor de la variable (x
1
) y el valor N (o 1 en el caso de
17
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Figura 1.3: Grco de barras
frecuencias relativas acumuladas) a partir del ltimo valor (x
k
). Se obtiene as
la representacin grca de una funcin que asigna a cada nmero real su fre-
cuencia acumulada, con discontinuidades en cada uno de los k valores diferentes
observados de la variable x
i
, siendo la altura de cada salto coincidente con su
frecuencia absoluta n
i
(o relativa f
i
). [Figura 1.4]
Figura 1.4: Diagrama en escalera
Histograma. Es la representacin grca de la distribucin de frecuencias ab-
solutas (o relativas) para tablas de datos agrupados en intervalos. Se obtiene
construyendo sobre cada intervalo L
i1
L
i
, representado en el eje de abscisas,
un rectngulo cuya base es igual a la amplitud del intervalo a
i
y cuya altura h
i
18
1 Organizacin y presentacin de los datos. Fuentes estadsticas
se determina de forma que el rea del rectngulo sea proporcional a su frecuen-
cia n
i
, para lo cual bastar calcular la altura mediante la expresin: h
i
=
n
i
a
i
(o
h
i
=
f
i
a
i
en el caso de frecuencias relativas). [Figura 1.5]
Figura 1.5: Histograma
Dado que el rea de cada rectngulo coincide con la frecuencia de un intervalo,
el rea total del grco se identicar con el nmero total de datos N (o ser
1 si se representan las frecuencias relativas). As, la forma del histograma nos
indicar cmo se distribuyen las observaciones a lo largo de todo el recorrido de
la variable:
Figura 1.6: Curva normal
Un histograma con forma de campana reejar una situacin en la que la
mayor parte de los datos se concentran en la parte central, con un peso
19
1 Organizacin y presentacin de los datos. Fuentes estadsticas
relativo muy pequeo de los datos en los extremos y repartidos adems de
forma simtrica a ambos lados. Un grco de este tipo se identica con la
conocida distribucin normal o de Gauss, que juega un papel central en los
desarrollos de la Inferencia Estadstica. [Figura 1.6]
Un histograma con forma de U se identicar con situaciones en las que la
parte central tiene poca importancia, mientras que la mayor parte de las
observaciones se concentran en ambos extremos del recorrido.
Polgono de frecuencias acumuladas. Es la representacin grca de la distribu-
cin de frecuencias acumuladas en tablas de datos agrupados en intervalos. Este
grco muestra cmo se van acumulando paulatinamente las observaciones, para
lo cual se asocia al extremo superior de cada intervalo su frecuencia acumulada
(absoluta o relativa) y se unen todos estos puntos mediante una lnea poligonal,
teniendo en cuenta adems que la frecuencia acumulada correspondiente a cual-
quier valor anterior al extremo inferior del primer intervalo (L
0
) es nula y que
la correspondiente a valores superiores al extremo superior del ltimo intervalo
(L
k
) es N (o 1 si se trata de frecuencias relativas). [Figura 1.7]
Figura 1.7: Polgono de frecuencias acumuladas
Grco temporal . Para representar grcamente una serie temporal utilizaremos
un plano de coordenadas en el que a cada unidad temporal t en el eje de abscisas
se asigna una ordenada que se identica con el valor de la variable observado
en el periodo t, Y
t
. Normalmente, al objeto de hacer ms visible la evolucin
temporal de la variable, se unen los puntos (t, Y
t
). [Figura 1.8]
20
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Figura 1.8: Serie temporal
1.4. Organismos y fuentes estadsticas de informacin
econmica
El Estado, como administrador de los intereses de los ciudadanos, precisa de infor-
macin estadstica para desarrollar sus funciones y planicar sus polticas en materia
econmica y social en general (etimolgicamente el trmino estadstica deriva de la
palabra estado). El gobierno precisa de cifras estadsticas de subida de los precios
para revisar las pensiones, negociar los salarios en convenios colectivos, ..., necesita
disponer de datos estadsticos sobre natalidad para prever la dotacin de plazas es-
colares, sobre incidencia de ciertas enfermedades para planicar las infraestructuras
sanitarias, etc. En este apartado se ofrece una panormica de los principales orga-
nismos ociales dedicados a la elaboracin y publicacin de estadsticas, tanto en el
mbito nacional como internacional. Asimismo, se presenta un resumen de las prin-
cipales caractersticas de algunas de las estadsticas de uso ms generalizado en el
mbito econmico.
1.4.1. Organizacin estadstica ocial
Sistema estadstico nacional: el INE
Dentro de la organizacin de la Administracin General del Estado y con el n
de cubrir sus propias necesidades de informacin para la toma de decisiones existen
servicios dedicados a la produccin de estadsticas, que en su conjunto constituyen
el Sistema Estadstico Nacional . La actividad del Sistema Estadstico Nacional est
regulada por una serie de normas legales cuyo punto de partida es la Constitucin
Espaola de 1978, que en el artculo 149.1.31 establece que la Estadstica para nes
21
1 Organizacin y presentacin de los datos. Fuentes estadsticas
estatales es competencia exclusiva del Estado. Sin embargo, esta competencia debe
ser considerada desde una perspectiva ms amplia a distintos niveles administrativos
(Comunidades Autnomas y Ayuntamientos). Por otra parte, la Unin Europea tam-
bin legisla en materia estadstica a travs de reglamentos, decisiones y directivas de
cumplimiento obligatorio para los pases miembros.
En la actualidad, el marco legal vigente es la Ley de la Funcin Estadstica Pblica
(LFEP) de 9 de mayo de 1989. Entre los aspectos regulados por la LFEP se encuentran
la recogida de datos, el secreto estadstico, la difusin y conservacin de la informacin
estadstica y los Servicios Estadsticos del Estado.
La garanta del secreto estadstico, regulada por la LFEP, resulta especialmente im-
portante en la sociedad actual, en la que existe una preocupacin permanente por
salvaguardar los derechos fundamentales de los individuos y, en particular, el de intimi-
dad en lo que concierne a informacin privada de las unidades informantes (personas,
hogares, empresas, etc.).
La organizacin de la produccin de estadsticas para nes estatales tiene como pilar
bsico el Instituto Nacional de Estadstica (INE), creado en 1945 con el n de ser
la ocina central de estadstica, y que en la actualidad es un organismo autnomo
adscrito al Ministerio de Economa y Hacienda. En la LFEP de 1989 se describe todo
el conjunto de funciones encomendadas al INE, y que pueden ser resumidas en las
siguientes grandes lneas de actuacin:
Ser el principal productor de estadsticas para nes estatales
Ocuparse de la coordinacin y planicacin del Sistema Estadstico Nacional
Adems, el INE debe proponer normas metodolgicas (sobre conceptos, unidades es-
tadsticas, clasicaciones, etc.), que sern de uso comn en todos los servicios esta-
dsticos con el n de garantizar la homogeneidad y comparabilidad de los resultados.
Asimismo, son competencia del INE las relaciones en materia estadstica con los or-
ganismos internacionales especializados y, en particular, con la Ocina de Estadstica
de la Unin Europea (EUROSTAT).
En el desarrollo del Sistema Estadstico Nacional estn tambin implicados los ser-
vicios estadsticos de las distintas Administraciones del Estado, entre los que cabe
destacar los correspondientes a los distintos ministerios, encargados de elaborar esta-
dsticas relativas a las actividades de su competencia, y el Banco de Espaa, institucin
que cuenta con servicios estadsticos responsables de la elaboracin de las estadsticas
monetarias y nancieras.
En cuanto a los servicios estadsticos de las administraciones regionales, la mayor
parte de las comunidades autnomas cuentan con una regulacin y un instituto de
estadstica propios, si bien en algunos casos dichos servicios estn vinculados directa-
mente a la administracin regional.
22
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Sistema estadstico europeo: EUROSTAT
El proceso de integracin de los distintos pases en la Unin Europea ha venido
acompaado de una demanda creciente de informacin estadstica. La elaboracin de
polticas comunitarias ha de estar apoyada en estadsticas que sean comparables entre
los distintos pases miembros. As, las estadsticas regionales europeas sirven para
orientar a la Comisin Europea en la asignacin de fondos regionales, las estadsticas
de precios armonizados juegan un papel clave en la poltica monetaria de los Bancos
Centrales, etc.
Las estadsticas europeas pueden contribuir a describir al ciudadano medio europeo
1
:
En el caso de la mujer, tendra 42 aos de edad, y podra llegar a vivir otros 41
aos. Tendra unos 28 aos de edad cuando tuvo su primer hijo y tendra menos
de dos nios. Trabaja en los servicios pblicos o sociales alrededor de 33 horas a
la semana y ha completado al menos la educacin secundaria superior.
El hombre tendra 39 aos de edad y una esperanza de vida de otros 39 aos.
Trabaja en el sector de servicios de mercado alrededor de 40 horas a la semana y
ha completado al menos la educacin secundaria superior.
El pilar bsico del sistema estadstico europeo es la Ocina de Estadstica de la Unin
Europea, tambin conocida como EUROSTAT. Se trata de un organismo dependiente
de la Comisin Europea, cuya misin fundamental es proporcionar a las instituciones
europeas estadsticas ables y comparables entre pases y regiones miembros de la
Unin Europea, pases candidatos y pases de la Asociacin Europea de Libre Comer-
cio (AELC). EUROSTAT trabaja en estrecha colaboracin con los institutos nacio-
nales de estadstica con el n de desarrollar un sistema estadstico europeo integrado,
estableciendo un lenguaje comn, en cuanto a conceptos y metodologa en general,
entre los sistemas estadsticos nacionales de los pases miembros y garantizar as la
comparabilidad de los resultados.
En el marco de sus competencias, Eurostat public en el ao 2005 el Cdigo de bue-
nas prcticas de las estadsticas europeas, documento que constituye un instrumento
fundamental de la armonizacin estadstica europea y en el que se recogen una serie
de quince principios que se comprometen a respetar las autoridades estadsticas nacio-
nales y comunitarias. Algunos de estos principios se reeren a aspectos institucionales
y organizativos (por ejemplo, independencia profesional, condencialidad estadstica,
imparcialidad y objetividad), un segundo bloque se reere a aspectos metodolgicos
de la elaboracin de estadsticas y, en tercer lugar, se sealan una serie de principios
relativos a la produccin de estadsticas con el n de garantizar que las estadsti-
cas elaboradas satisfagan las necesidades de los usuarios (por ejemplo, oportunidad y
puntualidad, coherencia y comparabilidad, accesibilidad y claridad).
Otros organismos internacionales
En el mbito internacional, cabe destacar el papel relevante de la Organizacin de
Naciones Unidas (ONU). Su Divisin de Estadstica constituye en la actualidad la
1
Eurostat News Release 154/2010
23
1 Organizacin y presentacin de los datos. Fuentes estadsticas
mayor autoridad en el mundo en materia de estadstica con una importante labor en
materia de coordinacin estadstica internacional. Entre sus funciones se encuentra el
desarrollo de directrices y normativas comunes de actuacin en materia estadstica,
una labor de apoyo a los pases para fortalecer sus sistemas estadsticos nacionales y la
recopilacin y difusin de informacin estadstica global. En relacin con este ltimo
punto, la Divisin de Estadstica de Naciones Unidas coordina UNdata, un servicio de
base de datos on-line a nivel mundial, que permite conocer cifras ociales por pases
sobre un amplio rango de temas: agricultura, poblacin, educacin, empleo, energa,
medio ambiente, salud, industria, tecnologa, desarrollo humano, ...
Adems, numerosos organismos internacionales desarrollan trabajos en materia es-
tadstica y en sus pginas web ofrecen informacin estadstica de diferentes mbitos a
nivel mundial: la Organizacin Internacional del Trabajo (OIT), la Organizacin para
la Cooperacin y el Desarrollo Econmico (OCDE) o la Organizacin Mundial de la
Salud (OMS), entre otros.
1.4.2. Algunas estadsticas econmicas
Por lo general, los usuarios del mbito econmico no realizan encuestas para obte-
ner la informacin estadstica que precisan, sino que utilizan estadsticas elaboradas
por distintos organismos: el INE, las ocinas regionales de estadstica, EUROSTAT,
etc. Basta consultar INEbase, la base de datos temtica del INE, para comprobar la
amplia disponibilidad de estadsticas sobre los temas ms diversos: cifras de pobla-
cin, precios, costes laborales, ocupacin hotelera, hipotecas, ... Dentro del amplio
abanico de estadsticas disponibles se presentan a continuacin las caractersticas fun-
damentales de dos estadsticas demogrcas de tipo censal, el Padrn Municipal y los
Censos Demogrcos y de dos estadsticas muestrales dirigidas a hogares, la Encuesta
de Poblacin Activa (EPA), que es la principal referencia para conocer la dinmica del
mercado laboral a nivel nacional, y la Encuesta de Presupuestos Familiares (EPF),
enfocada al estudio de los gastos de los hogares espaoles.
2
El Padrn Municipal
El Padrn Municipal es un registro administrativo donde constan los vecinos de un
municipio, constituyendo prueba de residencia en el municipio y del domicilio habitual
en el mismo. Toda persona que viva en Espaa est obligada a inscribirse en el padrn
del municipio en el que resida habitualmente (quien viva en varios municipios debe
inscribirse nicamente en el que habite durante ms tiempo al ao). Se trata por tanto
de un registro permanentemente actualizado de los residentes en un municipio.
La informacin recogida en los padrones es muy reducida, la estrictamente necesa-
ria para la gestin municipal, y contiene como obligatorios slo los siguientes datos
de cada vecino: nombre y apellidos, sexo, domicilio habitual, nacionalidad, lugar y
2
La descripcin de estas estadsticas es un resumen de las metodologas detalladas que estn dispo-
nibles en la web del INE www.ine.es.
24
1 Organizacin y presentacin de los datos. Fuentes estadsticas
fecha de nacimiento y nmero de Documento Nacional de Identidad o, tratndose de
extranjeros, del documento que lo sustituya.
Todos los aspectos relativos a la elaboracin del Padrn y sus usos administrativos y
estadsticos estn regulados por la Ley 4/1996, por la que se modica la Ley 7/1985,
Reguladora de las Bases del Rgimen Local.
La elaboracin de los padrones es responsabilidad de los ayuntamientos, con la coor-
dinacin y supervisin del INE. A partir de la revisin de los padrones a 1 de enero de
cada ao, el INE publica las cifras de poblacin declaradas ociales por el Gobierno
y que sirven de base para aspectos tales como la toma de decisiones que afectan a
la nanciacin y competencia de los municipios o la determinacin del nmero de
diputados por circunscripcin en los procesos electorales. Asimismo, los padrones mu-
nicipales constituyen el documento base para la elaboracin del Censo Electoral .
Los Censos Demogrcos
Los Censos Demogrcos constituyen el proyecto estadstico de mayor envergadura
que deben acometer peridicamente los ocinas de estadstica de cualquier pas. Bajo
esta denominacin se engloban realmente tres censos diferentes: el Censo de Poblacin,
que es el de mayor repercusin y tradicin, el Censo de Viviendas y el Censo de
Edicios.
Los Censos Demogrcos se denen como el conjunto de operaciones estadsticas
que permiten determinar el nmero de habitantes, viviendas y edicios del Estado y
sus distintas reas geogrcas (comunidades autnomas, provincias y municipios).
En particular, el Censo de Poblacin permite conocer caractersticas demogrcas
y sociales de la poblacin, tales como su estructura por sexo y edad, el estado civil,
los movimientos migratorios, los estudios, la situacin laboral, etc.
El primer censo moderno de poblacin en Espaa fue realizado en 1768 por el Conde
de Aranda, bajo el reinado de Carlos III. Tras varios censos realizados en los siglos
XVIII y XIX, desde el ao 1900 vienen realizndose censos ociales de poblacin de
forma ininterrumpida con periodicidad decenal. El cuadro adjunto permite comprobar,
a travs de las cifras de los censos, el importante incremento de la poblacin espaola
desde el Censo de Aranda.
Ao Poblacin
1768 9.309.804
1900 18.830.649
2001 40.847.371
La informacin de los censos es de gran valor para la toma de decisiones en temas tan
importantes para la vida cotidiana como dnde construir nuevos colegios, hospitales
o residencias, cmo disear incentivos a la natalidad, cmo mejorar el transporte
pblico..., adems de la asignacin de recursos econmicos del Estado o la Unin
Europea a Comunidades y Ayuntamientos para desarrollo rural, fomento del empleo,
etc.
25
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Los Censos en Espaa son realizados por el INE cada 10 aos, siendo las ltimas
cifras publicadas las correspondientes al Censo de 2001. El prximo Censo de Poblacin
tiene como fecha de referencia el 1 de noviembre de 2011 y en l se incluirn todas las
personas con residencia habitual en el territorio nacional.
Hasta el ao 2001 los censos de poblacin eran operaciones exhaustivas en las que
agentes censales del INE visitaban todas las viviendas del pas para distribuir y recoger
los cuestionarios censales. Gracias a los avances metodolgicos y tecnolgicos, el Censo
de 2011 se basar en la combinacin de registros y encuestas por muestreo:
En primer lugar, se elaborar un chero precensal realizado a partir de un
aprovechamiento mximo de los registros administrativos disponibles, tomando
como base el Padrn.
En segundo lugar, se realizar un trabajo de campo con dos grandes operaciones:
Un Censo de Edicios exhaustivo que permita la georreferenciacin de todos
los edicios.
Una encuesta por muestreo para conocer las caractersticas de las personas
y las viviendas. El tamao muestral ser de aproximadamente dos millo-
nes y medio de viviendas y la seleccin muestral se basar en mecanismos
aleatorios. Los hogares seleccionados podrn responder por Internet o por
correo y los agentes censales nicamente acudirn a los domicilios que no
respondan por alguna de las vas mencionadas.
La nueva metodologa para la elaboracin de los Censos Demogrcos de 2011 presenta
numerosas ventajas. El aprovechamiento de la informacin ya existente en mltiples
registros administrativos y el porcentaje de respuestas que se obtendrn por canales
diferentes al de la entrevista tradicional conllevarn una menor carga de trabajo. Esto
permitir al INE trabajar con una organizacin ms reducida y por tanto mejorar su
formacin y control contribuyendo as a incrementar la calidad y puntualidad de los
resultados, con unos costes ms reducidos (se estima que con la nueva metodologa se
precisar un 90 % menos de personal que en el ao 2001).
Puede sustituir el Padrn Municipal al Censo de Poblacin?
Tanto el Padrn Municipal como el Censo de Poblacin son recuentos de habitantes y
el Padrn ser el punto de partida para la elaboracin del Censo en 2011, pero no son
fuentes de informacin sustitutivas ya que dieren entre s en cuanto a su nalidad y
contenido.
El Censo de Poblacin es un documento estadstico que se realiza cada diez aos y que
no permite la difusin de los datos personales de los ciudadanos (nombre, apellidos,
DNI), con el n de preservar el secreto estadstico. Todo lo contrario que el Padrn, que
es un documento administrativo que se actualiza permanentemente y en el que los datos
nominales de los residentes en el muncipio son imprescindibles. En resumen, el Censo
de Poblacin es una foto ja de la poblacin que incluye muchos datos pero totalmente
annimos; en cambio, el Padrn es un registro vivo que contiene menos informacin
pero perfectamente identicada.
26
1 Organizacin y presentacin de los datos. Fuentes estadsticas
Una representacin grca asociada habitualmente a los datos demogrcos de cen-
sos y padrones es la pirmide de poblacin. Se trata de una representacin de tipo
mixto mediante la que se analizan conjuntamente la variable edad (agrupada en
intervalos) y el atributo sexo, cuya construccin se basa en la consideracin de los
histogramas de edad separadamente para las poblaciones masculina y femenina.
La pirmide de poblacin se utiliza en demografa para tener una visin global de
la poblacin de un pas o regin por sexos y edades, analizando las tendencias de
crecimiento o estancamiento de la poblacin. La forma de la pirmide reeja tenden-
cias poblacionales y as, bases amplias junto con vrtices apuntados son sntomas de
poblaciones expansivas mientras que si la base es pequea en trminos relativos y la
cspide achatada, la poblacin se encuentra en fase de envejecimiento. Ejemplos de
ambas situaciones quedan reejados en las pirmides de la gura 1.9, correspondientes
a la poblacin espaola segn la informacin de los Censos de los aos 1900 y 2001.
Figura 1.9: Pirmides de la poblacin espaola (INE)
La Encuesta de Poblacin Activa
La Encuesta de Poblacin Activa (EPA) es una investigacin que viene realizando
el INE desde 1964, cuya nalidad principal es conocer la actividad econmica en lo
relativo a su componente humano, proporcionando datos sobre las principales catego-
ras poblacionales en relacin con el mercado de trabajo (ocupados, parados, activos
e inactivos).
La EPA es una investigacin por muestreo de periodicidad trimestral, dirigida a la
poblacin que reside en viviendas familiares. Para garantizar que la situacin laboral
de las personas que integran la muestra represente adecuadamente a la de toda la
poblacin espaola de 16 y ms aos, el proceso de seleccin es aleatorio y se reali-
za en dos etapas: en la primera se eligen al azar zonas geogrcas de los municipios
(denominadas secciones censales
3
) y, a continuacin, en la segunda etapa, se eligen
3
Las secciones censales se corresponden con las secciones electorales, se trata de reas geogrcas
de un municipio con un tamao entre 500 y 2.000 electores
27
1 Organizacin y presentacin de los datos. Fuentes estadsticas
viviendas de las zonas seleccionadas previamente. Cada trimestre se entrevistan por
va telefnica 65.000 hogares, lo que supone aproximadamente 200.000 personas. Cada
trimestre se renueva una sexta parte de la muestra, de modo que los hogares seleccio-
nados colaboran durante seis trimestres consecutivos.
En la Encuesta de Poblacin Activa se clasica en varias categoras a la poblacin
de 16 y ms aos, que es la que est capacitada legalmente para poder trabajar:
Poblacin econmicamente activa, constituida por las personas que durante la
semana de referencia suministran mano de obra para la produccin de bienes y
servicios econmicos o que estn disponibles y hacen gestiones para incorporarse
a dicha produccin. Comprende a las personas de al menos 16 aos que satisfacen
las condiciones necesarias para ser consideradas ocupadas o paradas:
Se dene como ocupada toda persona, de al menos 16 aos, que tiene un
trabajo por cuenta ajena o ejerce actividad por cuenta propia.
Se clasica como parada toda persona de al menos 16 aos que cumple
simultneamente los requisitos de estar sin empleo, disponible para tra-
bajar y busca activamente empleo. Siguiendo la normativa de la Unin
Europea, en la actualidad se consideran mtodos activos de bsqueda de
empleo, entre otros, estar en contacto con una ocina -pblica o privada-
de empleo con el n de encontrar trabajo, anunciarse o responder a anun-
cios de peridicos, participar en una prueba o entrevista en el marco de
un procedimiento de contratacin ... Por tanto, la mera inscripcin como
demandante de empleo en las ocinas de empleo pblicas, no supone la
clasicacin de una persona como parado.
Poblacin econmicamente inactiva, integrada por el resto de personas, excluidas
del mercado laboral. As, por ejemplo, pertenecen a esta categora personas que
se ocupan exclusivamente de su hogar, estudiantes, jubilados e incapacitados
para trabajar.
Los principales resultados de la encuesta son estimaciones trimestrales, tanto nacio-
nales como desagregadas por comunidades autnomas, del nmero total de activos,
ocupados y parados, e inactivos, que son clasicados, a su vez, atendiendo a caracte-
rsticas demogrcas (sexo y edad), de ndole cultural (nivel de estudios, formacin
profesional, etc.) y econmica (profesin, rama de actividad, etc.). Se calculan adems
dos indicadores adicionales, de gran trascendencia para el anlisis de la coyuntura
econmica: la tasa de actividad, denida como cociente del nmero total de activos
entre la poblacin de 16 aos y ms, y la tasa de paro, que se dene como el cociente
del nmero de parados entre el de activos.
La Encuesta de Presupuestos Familiares
La Encuesta de Presupuestos Familiares (EPF) es una investigacin realizada por
el INE con el objetivo de proporcionar informacin sobre la naturaleza y destino de
28
1 Organizacin y presentacin de los datos. Fuentes estadsticas
los gastos de consumo de los hogares para el conjunto nacional y para las comunida-
des autnomas. Por tanto, la variable central de la encuesta es el gasto de consumo,
entendiendo como tal tanto el ujo monetario que destina el hogar al pago de determi-
nados bienes y servicios de consumo nal, como el valor de determinados consumos no
monetarios efectuados por los hogares (entre los que se incluyen el salario en especie
o el alquiler estimado de la vivienda en propiedad en la que reside el hogar).
La EPF es una encuesta muestral de periodicidad anual. El procedimiento de selec-
cin muestral es similar al de la EPA, considerndose en este caso muestras de 24.000
hogares, que colaboran durante un periodo de dos aos. Cada hogar seleccionado pres-
ta su colaboracin durante dos semanas consecutivas al ao en las que debe informar
sobre todos los bienes y servicios consumidos.
La encuesta anual viene realizndose desde el ao 2006. Con anterioridad el INE reali-
zaba con periodidad trimestral la Encuesta Continua de Presupuestos Familiares, que
sirvi de referencia para la elaboracin del ndice de Precios de Consumo base 2006.
La informacin sobre el gasto que aporta la EPF constituye el elemento bsico
para la estimacin del Consumo Privado en el Sistema de Cuentas Nacionales y para
establecer la cesta de la compra y la estructura de ponderaciones del ndice de Precios
de Consumo. La EPF publica resultados relativos al gasto medio por hogar y por
persona segn grupos de gasto, caractersticas de los hogares (tamao y tipo de hogar
o principal fuente de ingresos, por ejemplo) y del sustentador principal (sexo, edad,
situacin laboral, nivel de formacin, etc.). Asimismo se proporcionan datos sobre el
consumo en cantidades fsicas de determinados bienes alimenticios, bebidas, tabaco y
combustibles.
29
2 Medidas de posicin
La informacin contenida en una tabla estadstica puede ser resumida mediante
algunos valores que proporcionen una visin global del comportamiento de la variable.
Estos valores sintticos son representantes de la distribucin y se denominan medidas
de posicin central o promedios.
Sin duda, el promedio ms habitual es la media aritmtica. No obstante, podemos
plantear situaciones muy diversas en las que esta medida no es la idnea para resu-
mir la informacin. Por ejemplo, si observamos la edad del conjunto de estudiantes
matriculados en un centro universitario, seguramente no ser aconsejable aplicar la
media aritmtica sino determinar la edad ms frecuente. Sin embargo, si disponemos
de informacin sobre el gasto semanal en ocio de los estudiantes, para resumir este
conjunto de datos sera preferible elegir aquel valor central que se sita justo en el
medio: una mitad de los estudiantes gasta menos de esa cantidad y la otra mitad gasta
ms.
Actualmente los valores medios relacionados con la conducta humana son habituales;
sin embargo, en sus inicios no pareca que el clculo de promedios fuese un instrumento
adecuado en este tipo de anlisis. El primero en realizar este tipo de estudios fue Jacques
Quetelet (1796-1874), quien introdujo el concepto de hombre medio, partiendo de que
todo hombre era el resultado de la actuacin de causas constantes.
Quetelet desarroll numerosos estudios sobre estatura, peso, capacidad torcica, etc.,
comprobando que, para grupos cuantiosos de personas, sus valores se hallaban dis-
tribuidos de forma simtrica respecto a la media aritmtica. Estos estudios, que hoy
podramos considerar como habituales, fueron duramente criticados en sus comienzos.
Se crea que el estudio estadstico de la conducta humana no tena sentido, porque sta
se ve inuenciada por alguna actuacin divina.
Quetelet es recordado adems de por lo sealado en los prrafos anteriores, por el
enorme impulso que proporcion a las estadsticas ociales en Europa
Las tres opciones presentadas no son las nicas a la hora de buscar un representante
de la distribucin. A lo largo del tema se desarrollarn otras medidas que tambin
son necesarias, bien porque ninguna de las anteriores se adapta al planteamiento del
problema, o bien porque la informacin disponible exige alguna consideracin que
cualquiera de las anteriores no tiene en cuenta.
Los promedios proporcionan valores que ocupan un lugar central en la distribucin.
No obstante, resulta tambin de inters determinar otros valores que ocupan una
posicin sealada aunque no sea central, por ejemplo la renta mxima por debajo
de la cual se encuentra el 10 % de hogares ms pobres. En general, estos valores se
denominan medidas de posicin no central o cuantiles y sern introducidos al nal del
tema.
30
2 Medidas de posicin
2.1. Medidas de posicin central: promedios
2.1.1. La media aritmtica
Denicin 2.1. Dada una variable estadstica X, que toma un conjunto de valores
x
1
, x
2
, . . . , x
k
, con frecuencias absolutas n
1
, n
2
, . . . , n
k
,
_

k
i=1
n
i
= N,
_
llamamos
media aritmtica de X, que denotamos por x, al valor de la siguiente expresin:
x =
k

i=1
x
i
n
i
N
(2.1.1)
En otros trminos, la media aritmtica es el resultado de dividir la suma de todos
los valores entre el nmero total de datos.
Dado que f
i
=
n
i
N
, la media aritmtica puede expresarse tambin como:
x =
k

i=1
x
i
f
i
Para calcular la media aritmtica de una distribucin con datos agrupados los va-
lores de x
i
representan las marcas de clase de los intervalos.
Propiedad 2.1. La suma de las desviaciones de los valores de una variable respecto
a su media es cero:
k

i=1
(x
i
x) n
i
= 0
Demostracin. Teniendo en cuenta la denicin de la media aritmtica y operando
con el primer miembro de la ecuacin se obtiene que:
k

i=1
(x
i
x)n
i
=
k

i=1
x
i
n
i
x
k

i=1
n
i
= N
k

i=1
x
i
n
i
N
xN = N x xN = 0
Esta propiedad permite interpretar la media aritmtica como centro de gravedad
de la distribucin en el sentido de que, al resumir toda la informacin en este valor,
se compensan los errores que se puedan cometer por exceso y por defecto.
Propiedad 2.2. Si todos los valores de una variable se incrementan en una misma
cantidad c (cambio de origen), la media tambin se incrementa en esa constante, esto
es:
x

i
= x
i
+c; i = 1, 2, . . . , k

x

= x +c
31
2 Medidas de posicin
Si todos los valores de una variable experimentan un cambio proporcional, es decir,
se multiplican por una misma cantidad c (cambio de escala), la media tambin se
multiplica por esa constante, esto es:
x

i
= c x
i
; i = 1, 2, . . . , k

x

= c x
Demostracin. Representemos por (x
i
, f
i
) la distribucin inicial y por (x

i
, f
i
) la dis-
tribucin resultante de un cambio de origen. Dado que x

i
= x
i
+c se verica que:

=
k

i=1
x

i
f
i
=
k

i=1
(x
i
+c)f
i
=
k

i=1
(x
i
f
i
+cf
i
) = x +c
k

i=1
f
i
= x +c
Anlogamente, si ahora representamos por (x

i
, f
i
) la distribucin resultante de un
cambio de escala, se cumple que x

i
= cx
i
, de donde se deduce que:

=
k

i=1
x

i
f
i
=
k

i=1
(cx
i
)f
i
= c
k

i=1
x
i
f
i
= c x
Propiedad 2.3. (Propiedad de descomponibilidad) Si se divide una poblacin de ta-
mao N en p subpoblaciones de tamaos N
1
, N
2
, . . . , N
p
,
_

p
j=1
N
j
= N
_
y medias
x
1
, x
2
, . . . , x
p
, la media poblacional se relaciona con las medias de las subpoblaciones
mediante la expresin:
x =
x
1
N
1
+ x
2
N
2
+ + x
p
N
p
N
Demostracin. Efectuaremos la comprobacin para el caso de dos subpoblaciones. Pa-
ra ello representemos por (x
i
, n
i
) la distribucin poblacional y designemos por n
i1
y n
i2
la frecuencia absoluta de x
i
en cada subpoblacin; estas frecuencias estn relacionadas
mediante la expresin n
i1
+n
i2
= n
i
.
El tamao de las subpoblaciones ser N
1
=

k
i=1
n
i1
y N
2
=

k
i=1
n
i2
y las respec-
tivas medias vendrn dadas por las expresiones:
x
1
=
k

i=1
x
i
n
i1
N
1
; x
2
=
k

i=1
x
i
n
i2
N
2
En consecuencia:
x
1
N
1
+ x
2
N
2
N
=
k

i=1
x
i
n
i1
+
k

i=1
x
i
n
i2
N
=
k

i=1
(x
i
n
i1
+x
i
n
i2
)
N
=
k

i=1
x
i
(n
i1
+n
i2
)
N
= x
32
2 Medidas de posicin
Ejemplo 2.1. Supongamos que los estudiantes matriculados en cierta asignatura
estn divididos en dos grupos. En el primer grupo se presentaron al examen nal
40 estudiantes siendo la nota media del grupo 6, mientras que en el otro grupo se
presentaron 60 alumnos y la nota media es 7,5. A partir de esta informacin, aplicando
la ecuacin 2.3, podemos calcular la nota media de todos los estudiantes como sigue:
x =
x
1
N
1
+ x
2
N
2
N
=
6 40 + 7, 5 60
100
= 6, 9
2.1.2. La media ponderada
En algunas situaciones la importancia que tiene un valor dentro del conjunto viene
reejada mediante informacin complementaria, que se cuantica a travs de ponde-
raciones o pesos.
Por ejemplo, si las materias primas de una empresa son importadas en un 20 %
y nacionales en el 80 % restante, para calcular el coste medio debemos utilizar una
media ponderada, donde las ponderaciones o pesos reejan la importancia relativa de
cada tipo de procedencia geogrca. De modo anlogo, si conocemos la estructura del
presupuesto de las familias (25 % dedicado a alimentacin, 10 % a vestido y calzado,
15 % a transporte...) estas ponderaciones reejan la importancia relativa de cada tipo
de gasto y debern ser tenidas en cuenta, por ejemplo, para calcular la subida media
de precios (de hecho, como veremos ms adelante, esto es lo que se hace en el Indice
de Precios de Consumo, IPC) .
Denicin 2.2. Dada una variable estadstica X, que toma un conjunto de valores
x
1
, x
2
, . . . , x
k
, cuya importancia es conocida y viene dada por los pesos o ponderaciones
w
1
, w
2
, . . . , w
k
, llamamos media ponderada de X, que denotamos por x
w
, al valor de
la siguiente expresin:
x
w
=
k

i=1
x
i
w
i
k

i=1
w
i
(2.1.2)
En la prctica, el mayor problema a la hora de aplicar esta medida surge por las di-
cultades de conocer, en muchos casos, las ponderaciones. Estos pesos suelen obtenerse
a partir de encuestas o de informaciones complementarias sobre la variable.
Ejemplo 2.2. En el ltimo semestre un estudiante se ha examinado de varias asigna-
turas cuyo nmero de crditos es diferente. En esta situacin, dado que las asignaturas
no tienen la misma importancia en el expediente acadmico, para calcular la nota me-
dia se deber tener en cuenta el nmero de crditos de cada asignatura. A partir de
los datos recogidos en la tabla siguiente:
33
2 Medidas de posicin
Asignatura Nota (x
i
) N crditos (w
i
)
Matemticas 5 6
Microeconoma 9 10
Introduccin al Derecho 7 4,5
Estadstica 6 6
Historia Econmica 9 9
Sociologa 7 4,5
se obtiene que la nota media del estudiante es 7,5. Este resultado es una media
ponderada de las notas, donde el peso de cada asignatura viene determinado por el
nmero de crditos.
Algunas propiedades de la media aritmtica podran ser estudiadas como casos ponde-
rados. As, por ejemplo, al obtener la media de una poblacin a partir de las medias de
varias subpoblaciones, la expresin de clculo no es ms que una media ponderada de
stas donde las ponderaciones resultan ser los tamaos de las distintas subpoblaciones.
La media aritmtica puede ser considerada como el centro de gravedad de la distri-
bucin; los valores bajos llevan a la media a tomar un valor bajo y los altos la llevan
a valores altos, de manera que cuando el conjunto de valores es bastante uniforme
se compensarn las dos fuerzas y la media resultar representativa. En consecuencia,
para aquellas distribuciones que presenten valores anormalmente extremos, es muy
probable que la media aritmtica supere o quede muy por debajo de la mayora de las
observaciones. En estos casos sera conveniente buscar un representante de la distri-
bucin con mayor capacidad descriptiva que la media aritmtica.
Los promedios que estudiamos a continuacin -mediana y moda- sern complemen-
tarios de la media aritmtica a la hora de sintetizar la informacin contenida en una
distribucin.
2.1.3. La mediana
Denicin 2.3. Dada una variable estadstica X, que toma un conjunto de valores
x
1
, x
2
, . . . , x
k
, ordenados de forma creciente (x
1
< x
2
< . . . < x
k
), con frecuencias
absolutas n
1
, n
2
, . . . , n
k
, llamamos mediana, que denotamos por Me, a un valor que
divide a la distribucin en dos partes iguales, esto es, que deja tantas observaciones a
su izquierda como a su derecha.
Supongamos que las notas obtenidas por los 15 estudiantes que han aprobado un
examen son las siguientes:
34
2 Medidas de posicin
Notas N estudiantes
5 1
6 5
7 3
8 3
9 2
10 1
Si se ordenan los datos en sentido creciente: 5, 6, 6, 6, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9,
10, se puede identicar que el valor 7 ocupa la posicin central dejando tanto a su
izquierda como a su derecha el mismo nmero de datos. Dicho valor es la mediana de
la distribucin.
En este caso resulta inmediato localizar la mediana, pues se dispone de un nmero
impar de datos y, una vez ordenados stos en forma creciente, se determina fcilmente
el valor que ocupa el lugar central.
En general, dada una distribucin de datos no agrupados, si el nmero de datos N es
impar, existe un nico valor central. Sin embargo, cuando N es par se tienen dos valores
centrales; si stos no coinciden puede decirse que hay innitos valores medianos, todos
los comprendidos entre los dos valores centrales, aunque suele tomarse como mediana
la media aritmtica de stos.
Por otro lado, cuando se tiene un gran nmero de observaciones no resultar ope-
rativo hacer una ordenacin como la del ejemplo, siendo pues necesario utilizar otro
sistema para determinar la mediana. En consecuencia, el mtodo general de clculo
de la mediana de una distribucin con datos no agrupados ser como sigue:
Si no existe ningn valor de la distribucin cuya frecuencia acumulada coincida
con
N
2
, la mediana ser el menor valor de la variable que presenta una frecuencia
acumulada mayor que
N
2
. En particular, esta situacin se dar siempre que N
sea impar puesto que en ese caso el valor de
N
2
no es entero.
Si
N
2
coincide con la frecuencia acumulada de un valor x
i
, la mediana est
indeterminada entre los valores x
i
y x
i+1
. En tal caso se tomar como mediana
la media aritmtica de ambos, esto es, Me =
(x
i
+x
i+1
)
2
. Esta situacin solamente
puede aparecer si N es par.
En general, para distribuciones con datos agrupados en intervalos, el mtodo anterior
conduce a identicar el intervalo mediano: ser aqul que presenta la primera fre-
cuencia acumulada mayor o igual que
N
2
. En el caso de que la frecuencia acumulada
del i-simo intervalo coincida con
N
2
, la mediana ser el extremo superior de dicho
intervalo, L
i
. En otro caso, una vez localizado este intervalo, una primera alternativa
sera tomar su marca de clase como mediana, sin embargo se puede obtener una mejor
aproximacin aplicando el razonamiento que describimos a continuacin.
Para determinar cul es el valor dentro del intervalo mediano que corresponde a
la mediana se puede suponer que las observaciones estn uniformemente distribuidas
35
2 Medidas de posicin
a lo largo del mismo. Entonces utilizando la representacin del polgono de frecuen-
cias acumuladas en el tramo que corresponde al intervalo mediano y la semejanza de
tringulos (vase gura 2.1) se puede aproximar la mediana como:
Me = L
i1
+d
Figura 2.1: Mediana
Para determinar d debemos tener en cuenta la semejanza de los tringulos ABC y
ADE, de la que se deriva que:
DE
AD
=
BC
AB
de donde, a su vez, teniendo en cuenta la longitud de los lados, se obtiene que:
N
2
N
i1
d
=
N
i
N
i1
L
i
L
i1
Finalmente, despejando d en la igualdad anterior y sustituyendo, se llega a la si-
guiente expresin:
Me = L
i1
+
N
2
N
i1
n
i
a
i
(2.1.3)
Propiedad 2.4. Si la variable X experimenta un cambio de origen, la mediana de la
variable transformada (X

= X +c) ser Me

= Me +c
Si la variable X se ve afectada por un cambio de escala, la mediana de la variable
transformada (X

= cX) ser Me

= cMe.
36
2 Medidas de posicin
Demostracin. Dada la distribucin inicial (x
i
, n
i
), un cambio de origen supone ni-
camente una traslacin de los valores sin afectar a las respectivas frecuencias, esto es,
la distribucin transformada ser (x

i
= x
i
+c, n
i
) donde c es una constante arbitraria.
En consecuencia, dicha transformacin no altera la posicin que ocupan los valores
dentro de la distribucin y por lo tanto si Me es la mediana de la distribucin inicial,
Me

= Me +c ser la mediana de la distribucin transformada.


El mismo tipo de razonamiento es aplicable a los cambios proporcionales. Ahora la
distribucin transformada ser (x

i
= cx
i
, n
i
) y su mediana vendr dada por Me

=
cMe.
2.1.4. La moda
Al representar grcamente un conjunto de datos, mediante un diagrama de barras
(si no estn agrupados) o mediante un histograma (si estn agrupados en intervalos),
la caracterstica que ms resalta a primera vista posiblemente sea su mximo. En este
sentido el valor de la variable que determina dicho mximo en la representacin grca
resume la informacin inicial.
Denicin 2.4. Dada una variable estadstica X, que toma un conjunto de valores
x
1
, x
2
, . . . , x
k
, con frecuencias absolutas n
1
, n
2
, . . . , n
k
, se dene la moda, que deno-
tamos por Mo, como aquel valor de la variable que ms veces se repite, esto es, que
presenta mayor frecuencia.
Su clculo es inmediato cuando los datos estn sin agrupar, salvo que haya ms de
un valor con esta frecuencia mxima, en cuyo caso se podra hablar de distribuciones
bimodales, trimodales, ..., plurimodales en general.
Para distribuciones con datos agrupados, antes de determinar el valor de la moda
habr que localizar el intervalo que la contiene, que llamamos intervalo modal, que
ser aqul que presenta mayor frecuencia por unidad de amplitud, es decir, el que tiene
mayor altura
_
h
i
=
n
i
a
i
_
en el histograma. En lugar de tomar como valor aproximado
de la moda la marca de clase del intervalo modal, asumiremos que la moda se aproxima
ms al intervalo contiguo de mayor altura (vase gura 2.2).
Este planteamiento supone que las distancias de la moda a los intervalos contiguos
son inversamente proporcionales a sus alturas. Entonces, si denotamos por a y b las
distancias a los intervalos anterior y posterior respectivamente, se cumplir que:
ah
i1
= bh
i+1
Aplicando una propiedad de las proporciones se tiene:
a
h
i+1
=
b
h
i1
=
a +b
h
i1
+h
i+1
de donde:
a =
h
i+1
(a +b)
h
i1
+h
i+1
=
_
h
i+1
h
i1
+h
i+1
_
a
i
37
2 Medidas de posicin
Figura 2.2: Moda
Finalmente, dado que Mo = L
i1
+a, se tiene:
Mo = L
i1
+
h
i+1
h
i1
+h
i+1
a
i
(2.1.4)
Si los datos estn agrupados en intervalos de la misma amplitud, el intervalo o clase
modal coincide con el que presenta mayor frecuencia y el valor de la moda puede ser
calculado a partir de las frecuencias absolutas por medio de la siguiente expresin:
Mo = L
i1
+
n
i+1
n
i1
+n
i+1
a
i
Propiedad 2.5. Si la variable X experimenta un cambio de origen, la moda de la
variable transformada (X

= X +c) ser Mo

= Mo +c
Si la variable X se ve afectada por un cambio de escala, la moda de la variable
transformada (X

= cX) ser Mo

= c Mo
Demostracin. La demostracin resulta evidente sin ms que tener en cuenta que en
ambos casos las frecuencias de los valores no se modican. As pues, si x
i
es el valor
modal de la distribucin inicial (x
i
, n
i
), x
i
+ c lo ser de la distribucin resultante
tras un cambio de origen, cumplindose que Mo

= Mo + c. Anlogamente, cx
i
ser
el valor modal de la distribucin transformada tras un cambio de escala.
Ejemplo 2.3. Se ha observado la produccin de leche de vaca obtenida el ltimo mes
en 100 explotaciones ganaderas, obteniendo la siguiente distribucin:
38
2 Medidas de posicin
Produccin de leche
(miles de litros)
N de explotaciones
5-10 5
10-15 10
15-20 15
20-30 15
30-50 35
50-70 15
70-80 5
Dado que se trata de una distribucin con datos agrupados, para calcular la me-
diana debemos localizar en primer lugar el intervalo mediano, es decir, la clase cuya
frecuencia acumulada supera por primera vez a
N
2
.
En este caso
N
2
= 50; si observamos las frecuencias acumuladas recogidas en la
tercera columna de la tabla siguiente podemos concluir que el intervalo mediano es el
quinto (30-50):
Produccin de leche
(miles de litros)
N de explotaciones N
i
h
i
5-10 5 5 1
10-15 10 15 2
15-20 15 30 3
20-30 15 45 1,5
30-50 35 80 1,75
50-70 15 95 0,75
70-80 5 100 0,5
Tabla 2.1: Produccin de leche
Finalmente, aplicando la frmula propuesta anteriormente para el clculo de la
mediana con datos agrupados obtenemos que Me = 32, 857. Este resultado nos indica
que la mitad de las explotaciones han producido el mes pasado 32.857 litros o menos.
Calculemos ahora la moda de la distribucin, para lo cual debemos identicar pre-
viamente el intervalo modal, esto es, la clase que presenta mayor altura. Observando
las alturas recogidas en la ltima columna de la tabla anterior podemos comprobar
que el intervalo modal es el tercero (15-20). A su vez, aplicando la frmula propuesta
anteriormente para el clculo de la moda con datos agrupados, se llega al siguiente
resultado: Mo = 17, 143, que indica que la produccin lctea mas frecuente es de
17.143 litros.
2.1.5. Otros promedios: media geomtrica y media armnica
Aunque los promedios denidos hasta aqu (media aritmtica, mediana y moda)
son las medidas aplicadas habitualmente para resumir un conjunto de datos, existen
39
2 Medidas de posicin
situaciones en que la propia naturaleza de la informacin conduce a otro tipo de
medidas como son la media geomtrica y la media armnica.
Denicin 2.5. Dada una variable estadstica X, que toma un conjunto de valores
x
1
, x
2
, . . . , x
k
, con frecuencias absolutas n
1
, n
2
, . . . , n
k
, se dene la media geomtrica,
que denotamos por G, como el valor dado por la siguiente expresin:
G =
N
_
x
n
1
1
x
n
2
2
x
n
k
k
(2.1.5)
En otros trminos, la media geomtrica es la raz N-sima del producto de todas las
observaciones.
Para situaciones en que la variable de inters presente variaciones acumulativas, la
media geomtrica ser el promedio adecuado para resumir su comportamiento. As, en
el tema 8, aplicaremos esta medida para calcular ndices o tasas medias de variacin
de una magnitud econmica (precios, salarios, ...) en un periodo temporal dado.
Si la variable presenta valores positivos y negativos, no tiene sentido calcular la
media geomtrica; tampoco si alguna observacin es nula.
Denicin 2.6. Dada una variable estadstica X, que toma un conjunto de valores
x
1
, x
2
, . . . , x
k
, con frecuencias absolutas n
1
, n
2
, . . . , n
k
, se dene la media armnica,
que denotamos por H, como el valor dado por la siguiente expresin:
H =
N
n
1
x
1
+ +
n
k
x
k
(2.1.6)
La media armnica no se puede calcular si la variable presenta algn valor nulo.
Ejemplo 2.4. Un automovilista hizo el recorrido entre dos ciudades en 4 etapas; en la
tabla siguiente se indica la distancia recorrida y la velocidad empleada en cada etapa:
Etapa V elocidad
(km/h)
Distancia
(km)
1 60 45
2 80 70
3 100 200
4 70 85
A partir de estos datos podemos plantearnos calcular la velocidad media v del reco-
rrido total. Teniendo en cuenta el concepto de velocidad (espacio/tiempo), el tiempo
empleado en cada etapa lo obtendremos a partir de los datos anteriores como cocien-
te de la distancia reccorrida y la velocidad correspondientes y, en consecuencia, la
velocidad media vendr dada por la siguiente expresin:
v =
espacio
tiempo
=
400
45
60
+
70
80
+
200
100
+
85
70
= 82, 66
40
2 Medidas de posicin
As pues para calcular la velocidad media hemos aplicado el concepto de media
armnica.
La media armnica de una variable X coincide con la inversa de la media arimtica de la
variable inversa de X,
1
X
.
Las medias armnica, geomtrica y aritmtica estn relacionadas por las siguientes desigual-
dades: H G x. La demostracin puede consultarse en [2] pp. 76-77.
2.1.6. Ventajas e inconvenientes de los promedios
Con el n de resumir un conjunto de datos hemos denido distintas medidas de
tendencia central o promedios, lo que nos indica que no existe una que sea idnea
en todas las situaciones. Cada promedio presenta ventajas e inconvenientes que harn
aconsejable o no su aplicacin como representante segn el tipo de problema a resolver.
Sealamos a continuacin las caractersticas bsicas de estas medidas.
Media aritmtica: Su clculo es sencillo y en el mismo intervienen todas las
observaciones; sin embargo, su resultado es sensible ante la presencia de valores
extremos (anormalmente bajos o altos). En consecuencia, su aplicacin ser
aconsejable cuando los datos son bastante homogneos.
Mediana: Es una medida ms robusta que la media aritmtica, es decir, menos
sensible ante la presencia de valores extremos; ahora bien, presenta el inconve-
niente de que en su clculo no intervienen todas las observaciones sino nicamen-
te las observaciones centrales. Por consiguiente ser recomendable su utilizacin
cuando los datos son irregulares, es decir, aparecen observaciones anormalmente
bajas o altas.
Moda: Presenta las mismas ventajas e inconvenientes que la mediana. Su aplica-
cin es apropiada cuando algn valor absorbe la mayor parte de las frecuencias,
esto es, la mayora de las observaciones son iguales entre s. Sin embargo, a los
inconvenientes aadiremos que en una distribucin pueden existir varios valores
modales.
Media geomtrica: es una medida apropiada cuando la variable tiene carcter
acumulativo. Por otra parte, como hemos sealado anteriormente, carece de sen-
tido si hay algn valor nulo o si se presentan simultneamente valores positivos
y negativos.
Media armnica: Su interpretacin no es tan clara como la de las anteriores.
Aunque utiliza todos los datos, presenta el inconveniente de que es muy sensible
ante la presencia de valores bajos. Adems, no est denida cuando alguna
observacin es nula.
Dada la importancia del problema, en el tema siguiente deniremos medidas especcas
para analizar la representatividad de los promedios.
41
2 Medidas de posicin
2.2. Medidas de posicin no central: cuantiles
Los cuantiles constituyen un grupo de medidas de signicado anlogo al de la me-
diana, con la diferencia de que en vez de apuntar al centro de la distribucin, ahora
el objetivo es determinar valores que la dividan en unas cuantas partes iguales.
Entre los cuantiles podemos citar, por ser de uso ms frecuente, los cuartiles, los de-
ciles y los centiles o percentiles. Los cuartiles son tres puntos (Q
1
, Q
2
, Q
3
) que dividen
a la distribucin en cuatro partes iguales, es decir, en cuatro intervalos en cada uno
de los cuales est incluido, respectivamente, un 25 % de los valores de la distribucin.
Los deciles son nueve valores (D
r
, r = 1, . . . , 9) que dividen a la distribucin en 10
partes tales que dentro de cada intervalo est incluido un 10 % de las observaciones.
Siguiendo el mismo esquema de denicin diremos que los centiles son 99 nmeros
(C
r
, r = 1, . . . , 99) que se obtienen al dividir la distribucin en 100 partes iguales.
Denicin 2.7. Dada una variable estadstica X, cuyos valores suponemos ordenados
en sentido creciente, se denen distintos tipos de cuantiles como sigue:
El cuartil de orden r, que designamos por Q
r
, es un valor que divide a la distri-
bucin en dos partes, dejando a su izquierda r
N
4
observaciones (r = 1, 2, 3)
El decil de orden r, que designamos por D
r
, es un valor que divide a la distri-
bucin en dos partes, dejando a su izquierda r
N
10
observaciones (r = 1, 2, . . . , 9)
El centil de orden r, que designamos por C
r
, es un valor que divide a la distribu-
cin en dos partes, dejando a su izquierda r
N
100
observaciones (j = 1, 2, . . . , 99)
Cabe destacar que, por la propia denicin de estas medidas, existen coincidencias
entre diversos cuantiles. As, el segundo cuartil coincide con la mediana de la distribu-
cin; asimismo, el primer decil es igual al centil de orden 10, el quinto decil coincide
con el segundo cuartil y con la mediana, etc.
En general, el procedimiento de clculo de un cuantil es anlogo al descrito para
la mediana anteriormente. En particular, detallaremos a continuacin las expresiones
correspondientes a los cuartiles.
En una distribucin de datos sin agrupar, para calcular el cuartil Q
r
habr que
buscar el valor de la variable que corresponde a la primera frecuencia acumulada
mayor o igual que r
N
4
. Como en el caso de la mediana, si r
N
4
coincide con la frecuencia
acumulada de algn valor x
i
de la variable, se tomar como valor del cuartil la media
aritmtica de este valor y el que le sigue en la ordenacin creciente, esto es, Q
r
=
(x
i
+x
i+1
)
2
.
Para distribuciones con datos agrupados en intervalos, el primer paso ser identicar
el intervalo que contiene al cuartil y el valor de ste vendr dado por la siguiente
expresin:
Q
r
= L
i1
+
r
N
4
N
i1
n
i
a
i
, (r = 1, 2, 3) (2.2.1)
42
2 Medidas de posicin
Anlogamente, las expresiones de clculo de deciles y centiles para distribuciones
con datos agrupados son las siguientes:
D
r
= L
i1
+
r
N
10
N
i1
n
i
a
i
, (r = 1, . . . , 9)
C
r
= L
i1
+
r
N
100
N
i1
n
i
a
i
, (r = 1, . . . , 99)
Ejemplo 2.5. Retomemos el ejemplo 2.3 sobre produccin de leche para determinar
el tercer cuartil.
Dado que 3
N
4
= 75, observando las frecuencias acumuladas calculadas en la tercera
columna de la tabla 2.1, podemos concluir que el tercer cuartil se encuentra en el quinto
intervalo (30-50) y, aplicando la frmula 2.2.1, se obtiene su valor Q
3
= 47, 143. Este
resultado indica que el 75 % de las explotaciones han producido 47.143 litros de leche
como mximo.
El diagrama de cajas
El diagrama de cajas es una representacin grca basada en los cuartiles y en los
valores extremos (mnimo y mximo) de la distribucin. La denominacin del grco
se debe a que est compuesto por una caja cuya altura viene determinada por el
primer cuartil Q
1
y el tercero Q
3
y de la que salen dos lneas verticales, la inferior
limitada por el valor mnimo y la superior por el mximo.
Figura 2.3: Diagrama de cajas
43
3 Medidas de dispersin y forma
Los promedios o medidas de posicin central, estudiados en el tema anterior, son
nmeros que tratan de representar a un conjunto de datos. De ah que sea necesario
tambin analizar su grado de representatividad, problema del que nos ocuparemos en
este tema y que resolveremos mediante las medidas de dispersin.
3.1. Medidas de dispersin absolutas
Las medidas de dispersin tratan de sintetizar en un nico nmero la separacin
entre los distintos valores de una variable, es decir, su objetivo es cuanticar la va-
riabilidad de un conjunto de datos. Por consiguiente, una primera aproximacin a la
dispersin vendr dada por la diferencia entre las observaciones extremas.
Denicin 3.1. Dada una variable estadstica X, con distribucin de frecuencias
(x
i
, f
i
), se dene el recorrido o rango, que denotamos por R, como la diferencia entre
el mayor y el menor valor de la variable:
R = max
i
(x
i
) mn
i
(x
i
) (3.1.1)
Esta medida presenta la ventaja de que su clculo es sencillo; sin embargo, al basarse
exclusivamente en los valores extremos puede inducir a una sobrevaloracin de la
variabilidad en la medida en que esos valores sean anmalos, es decir, estn alejados
del resto de las observaciones. Asimismo, otro inconveniente a destacar es que en su
denicin no interviene ningn promedio.
Las distribuciones representadas en los diagramas de cajas de la Figura 3.1 presentan
el mismo recorrido, sin embargo se puede apreciar que la variabilidad del 50 % de los
valores centrales es signicativamente menor en la distribucin A, puesto que la altura
de la caja correspondiente es ms pequea.
Denicin 3.2. Dada una variable estadstica X, se dene el recorrido intercuartlico,
que denotamos por R
I
, como la diferencia entre el tercero y el primero de los cuartiles
de la distribucin:
R
I
= Q
3
Q
1
(3.1.2)
Este resultado nos indica la amplitud del intervalo en el que estn comprendidos el
50 % de los valores centrales de la distribucin, evitando as el problema de las obser-
vaciones anmalas. En el diagrama de cajas, el recorrido intercuartlico se identica
con la altura de la caja (distancia entre el primer cuartil y el tercero).
44
3 Medidas de dispersin y forma
Figura 3.1: Recorrido
Ahora bien, como hemos sealado anteriormente, el principal objetivo que perse-
guimos al estudiar la dispersin es analizar la representatividad de los promedios,
problema que no podemos resolver aplicando ninguna de estas dos medidas. La repre-
sentatividad de un promedio P depender del grado de dispersin que presenten los
datos con respecto a dicho valor, y por tanto es necesario denir medidas de dispersin
que tengan en cuenta al promedio.
Para determinar el grado de dispersin de los valores respecto a un promedio (P)
habr que medir las desviaciones de los valores respecto a ese valor de referencia,
(x
i
P), y utilizar alguna medida de sntesis de estas desviaciones. Para ello una
primera medida que podemos considerar es la suma

k
i=1
(x
i
P)n
i
. Ahora bien, si
tenemos en cuenta que el signo de las desviaciones puede ser positivo o negativo, el
resultado de la suma puede ser un valor muy pequeo y, no obstante, existir grandes
desviaciones en la distribucin. En particular, si el promedio de referencia fuese la
media aritmtica, la suma de todas las desviaciones resultara siempre nula con inde-
pendencia de la distribucin de partida. El problema en la medida propuesta es que
aparecen desviaciones con distinto signo. Sin embargo, para medir la dispersin debe-
mos tener en cuenta la cuanta de esta desviacin y no su signo ya que ste reeja slo
un carcter cualitativo respecto a la aproximacin que el promedio P hace del valor
x
i
: si es por exceso, (x
i
< P), el signo es negativo y en caso contrario ser positivo.
Para solucionar este inconveniente (evitar la inuencia del signo), consideraremos dos
posibilidades: elevar al cuadrado las desviaciones o tomar el valor absoluto de stas.
Denicin 3.3. Llamamos desviacin absoluta media respecto a un promedio P, que
denotamos por D
P
, al valor de la siguiente expresin:
D
P
=
k

i=1
|x
i
P|f
i
As pues, esta medida se obtiene como la media aritmtica de las desviaciones
45
3 Medidas de dispersin y forma
absolutas de los valores de la variable con respecto al promedio P.
En particular, por ejemplo, la desviacin absoluta media con respecto a la media
aritmtica vendr por la siguiente expresin:
D
x
=
k

i=1
|x
i
x|f
i
Denicin 3.4. Dada una variable estadstica X, con distribucin de frecuencias
(x
i
, f
i
), se dene la desviacin cuadrtica media respecto a un promedio P, que deno-
tamos por D
2
P
, como la siguiente expresin:
D
2
P
=
k

i=1
(x
i
P)
2
f
i
As pues, se trata de una medida de dispersin respecto al promedio P que consiste
en calcular la media aritmtica de las desviaciones cuadrticas. En particular, si el
promedio considerado es la media aritmtica, se obtiene la varianza, que es la medida
de dispersin ms importante por su uso generalizado.
3.1.1. Varianza y desviacin tpica
Denicin 3.5. Llamamos varianza, que denotamos por S
2
X
, a la desviacin cuadr-
tica media respecto a la media aritmtica de los valores de la variable:
S
2
X
=
k

i=1
(x
i
x)
2
f
i
(3.1.3)
Propiedad 3.1. La varianza toma valores no negativos, es decir, S
2
X
0. Adems
S
2
X
= 0 si y solo si todas las observaciones son iguales.
Demostracin. De la propia denicin se desprende de forma inmediata que la varian-
za no puede ser negativa puesto que los sumandos que intervienen en ella solamente
pueden tomar valores no negativos.
Por otra parte, si S
2
X
= 0 ha de cumplirse para cada uno de los sumandos que
(x
i
x)
2
f
i
= 0. Dado que f
i
= 0, de la igualdad anterior se deriva que x
i
= x,
i = 1, . . . , k, es decir, todas las observaciones son iguales.
En sentido contrario, si todas las observaciones son iguales entre s, la media arit-
mtica tambin ser igual, de donde se deriva de forma inmediata que la varianza es
nula.
Propiedad 3.2. La varianza de una distribucin se puede expresar como:
S
2
X
=
k

i=1
x
2
i
f
i
x
2
(3.1.4)
46
3 Medidas de dispersin y forma
Demostracin. En efecto, partiendo de la denicin de la varianza y operando se llega
a la siguiente expresin:
S
2
X
=
k

i=1
(x
i
x)
2
f
i
=
k

i=1
(x
2
i
+ x
2
2x
i
x)f
i
=
k

i=1
x
2
i
f
i
+ x
2
=1
..
k

i=1
f
i
2 x
= x
..
k

i=1
x
i
f
i
=
k

i=1
x
2
i
f
i
x
2
Esta propiedad proporciona una expresin alternativa que tiene mucho inters desde
el punto de vista prctico, pues facilita el clculo de la varianza.
Propiedad 3.3. Si todos los valores de una variable se incrementan en una misma
cantidad c, la varianza no vara, es decir, S
2
X+c
= S
2
X
. En otros trminos, la varianza
no se ve afectada por cambios de origen.
Si todos los valores de una variable se multiplican por una misma cantidad c, la
varianza se multiplica por el cuadrado de esa constante, es decir, S
2
cX
= c
2
S
2
X
.
Demostracin. Sea (x
i
, f
i
) la distribucin de la variable X; entonces la distribucin de
la variable X+c, resultante del cambio de origen, ser (x
i
+c, f
i
) cuya media aritmtica,
teniendo en cuenta el comportamiento de la media ante este tipo de cambio, ser x+c
(propiedad 2.2). As pues se vericar que:
S
2
X+c
=
k

i=1
[(x
i
+c) ( x +c)]
2
f
i
=
k

i=1
(x
i
x)
2
f
i
= S
2
X
Anlogamente, la distribucin de la variable cX, resultante del cambio de esca-
la, ser (cx
i
, f
i
) cuya media aritmtica ser c x (propiedad 2.2). En consecuencia se
cumplir que:
S
2
cX
=
k

i=1
(cx
i
c x)
2
f
i
=
k

i=1
c
2
(x
i
x)
2
f
i
= c
2
k

i=1
(x
i
x)
2
f
i
= c
2
S
2
X
La desviacin cuadrtica media respecto a cualquier otro promedio P (mediana,
moda) se comporta de igual modo que la varianza ante cambios de origen y de escala.
Propiedad 3.4. La media de las desviaciones cuadrticas de los valores de una va-
riable respecto a una constante cualquiera c se hace mnima cuando dicha constante
es igual a la media aritmtica, es decir, c = x:
47
3 Medidas de dispersin y forma
mn
c
k

i=1
(x
i
c)
2
f
i
=
k

i=1
(x
i
x)
2
f
i
Demostracin. La funcin G(c) =
k

i=1
(x
i
c)
2
f
i
es de tipo parablico y toma solamente
valores no negativos, por tanto presenta un valor mnimo.
Atendiendo a la condicin necesaria de ptimo, el valor de c para el que se alcanza
el mnimo ha de cumplir la condicin siguiente:
G(c)
c
= 2
k

i=1
(x
i
c)f
i
= 0
de donde se obtiene:
k

i=1
(x
i
c)f
i
= 0
k

i=1
x
i
f
i
= c
k

i=1
f
i
c = x
Esta propiedad signica que la varianza es la medida cuadrtica de dispersin p-
tima, en el sentido de que la media de las desviaciones cuadrticas respecto a un
promedio toma el valor ms pequeo cuando se toma como referencia la media arit-
mtica.
La desviacin tpica
La varianza viene expresada en las mismas unidades que la variable pero elevadas
al cuadrado, lo que supone una dicultad para su interpretacin. Para salvar este in-
conveniente introduciremos otra medida que venga expresada en las mismas unidades
que la variable.
Denicin 3.6. Llamamos desviacin tpica o desviacin estndar, que denotamos
por S
X
, a la raz cuadrada de la varianza tomada con signo positivo:
S
X
= +
_
S
2
X
(3.1.5)
El trmino desviacin tpica fue introducido por Karl Pearson (1857-1936), considera-
do padre de la ciencia de la Estadstica en el siglo XX. Entre las numerosas aportaciones
de Pearson podemos destacar algunos conceptos que estudiaremos posteriormente, co-
mo su coeciente de asimetra, el coeciente chi-cuadrado y la distribucin asociada que
tiene gran importancia en los anlisis inferenciales.
Propiedad 3.5. La desviacin tpica satisface las siguientes propiedades:
a) S
X
0.
48
3 Medidas de dispersin y forma
b) La desviacin tpica es invariante ante cambios de origen: S
X+c
= S
X
.
c) La desviacin tpica se modica ante cambios de escala: S
cX
= |c| S
X
.
Demostracin. Estas propiedades se derivan de forma inmediata de las propiedades
de la varianza 3.1 y 3.3.
Determinada la desviacin tpica de una distribucin se puede analizar el riesgo que
supone sintetizar la informacin mediante x.
En general, para cualquier distribucin, se puede armar que al menos el 75 % de los
datos se desvan de la media como mucho 2 desviaciones tpicas; en otros trminos, al
menos el 75 % de los valores se encuentran en el intervalo [ x2S
X
, x+2S
X
]. Asimismo,
ms el 88,8 % lo estn en el intervalo [ x 3S
X
, x + 3S
X
]. Estos resultados se derivan
de un teorema, conocido como desigualdad de Chebyshev.
Para una distribucin normal,, segn reeja la gura 3.2, es posible medir an con
mayor precisin el porcentaje de valores situados en intervalos determinados por cierto
nmero de desviaciones tpicas.
Figura 3.2: Distribucin normal. Intervalos en torno a la media
En trminos generales, decimos que un valor es atpico si se trata de una observacin
extrema, es decir, distante del resto de los datos. Ahora bien, teniendo en cuenta los
comentarios anteriores, esta idea podemos precisarla del modo siguiente: un valor x es
atpico si su desviacin respecto a la media de la distribucin es superior a cierto nmero
k de desviaciones tpicas, esto es, |x x| > kS
X
, donde suele ser habitual tomar k = 3
o k = 4.
3.2. Medidas de dispersin relativas
El principal objetivo que perseguimos con las medidas de dispersin es analizar la
representatividad de los promedios, nalidad que no podemos alcanzar en general con
las medidas introducidas en el apartado anterior porque sus resultados dependen de
las unidades de medida.
49
3 Medidas de dispersin y forma
Consideremos dos embalses con tamaos muy diferentes, tales que el nivel medio de
agua sea de 6 y 500 millones de metros cbicos. Supongamos que en ambos casos el
nivel de agua embalsada presenta la misma desviacin tpica, por ejemplo, 3 millones
de metros cbicos. A pesar de esta coincidencia, dado que la cantidad de agua embal-
sada ser signicativamente menor en el embalse pequeo que en el grande, no tiene
la misma importancia que la dispersin sea de 3 millones de metros cbicos respecto
a un nivel medio de agua de 6 millones que con respecto a una media de 500 millones.
Por tanto, el valor de la desviacin tpica no permite hacer armaciones sobre el nivel
de dispersin ya que es necesario tener en cuenta las unidades de medida de la variable
y el orden de magnitud de los valores.
Para solventar estos inconvenientes se emplearn una serie de coecientes que miden
la dispersin en trminos relativos y que, como consecuencia, sern medidas adimen-
sionales (es decir, que no estn afectadas por las unidades de la variable), con las que
se podr comparar la representatividad de los promedios.
3.2.1. Coecientes de variacin basados en desviaciones cuadrticas
La idea de un coeciente de dispersin que permita cuanticar la representativi-
dad de un promedio deber basarse en el promedio considerado y en una medida de
dispersin absoluta que incluya en su denicin a dicho promedio. As, si queremos
determinar la representatividad de P (siendo P = 0), consideraremos la dispersin
respecto a este parmetro, para lo cual podemos tomar la media de las desviaciones
cuadrticas respecto a P.
Denicin 3.7. Llamamos coeciente de variacin respecto a un promedio P, que
denotamos por V
P
, al resultado de la siguiente expresin:
V
P
=
_
D
2
P
| P |
=

i=1
(x
i
P)
2
f
i
| P |
El resultado de esta frmula carece de unidades puesto que numerador y denomi-
nador vienen expresados ambos en las mismas unidades que la variable, es decir, se
trata de una medida adimensional.
El coeciente V
P
puede utilizarse con cualquier tipo de promedio P, siempre que
P = 0, pues si el promedio es nulo dicho coeciente no est denido.
Si para una distribucin el coeciente de variacin toma el valor 0,25 interpretaremos
que la dispersin en torno al promedio considerado representa el 25 % del valor del
mismo.
El coeciente de variacin toma solamente valores no negativos. Si una distribucin
tiene dispersin nula, el numerador del coeciente ser nulo y, por tanto, su valor
tambin; por el contrario, dado un promedio concreto, cuanto mayor sea la dispersin
absoluta, mayor ser el coeciente de variacin.
50
3 Medidas de dispersin y forma
Un caso especialmente interesante del coeciente de variacin V
P
, por ser de uso
generalizado, corresponde a la media aritmtica y a la desviacin tpica como medida
de dispersin.
Denicin 3.8. Llamamos coeciente de variacin de Pearson al cociente entre la
desviacin tpica y el valor absoluto de la media aritmtica de una distribucin:
V
x
=
S
X
| x |
(3.2.1)
Propiedad 3.6. El coeciente de variacin respecto a un promedio P es invariante
ante cambios de escala.
El coeciente de variacin respecto a un promedio P se modica ante cambios de
origen.
Demostracin. Representemos por (x
i
, f
i
) la distribucin inicial y por (x

i
, f
i
) la dis-
tribucin resultante de la transformacin proporcional, donde x

i
= cx
i
. Considerado
un promedio cualquiera P de la variable X, sabemos que ante un cambio de escala su
valor se transforma en P

= cP. Por otra parte, teniendo en cuenta la propiedad de


la desviacin cuadrtica media ante cambios de escala, se obtiene que:
V
P
=
_
D
2
P

| P

|
=
_
c
2
D
2
P
| cP |
=
_
D
2
P
| P |
= V
P
Anlogamente, sea (x

i
, f
i
) la distribucin resultante de la transformacin lineal,
siendo x

i
= x
i
+c. Considerado un promedio cualquiera P de la variable X, sabemos
que ante un cambio de origen su valor se transforma en P

= P +c. Si adems tenemos


en cuenta que la desviacin cuadrtica media respecto a P es invariante ante cambios
de origen, se deduce que:
V
P
=
_
D
2
P

| P

|
=
_
D
2
P
| P +c |
=
_
D
2
P
| P |
V
P
= V
P
3.2.2. Coecientes de variacin basados en desviaciones absolutas
El procedimiento aplicado para denir los coecientes de variacin anteriores puede
utilizarse tambin para construir otros coecientes, tomando como medida de dis-
persin absoluta la desviacin absoluta media respecto al promedio P considerado.
Bajo este nuevo planteamiento el coeciente de variacin vendr dado por la siguiente
expresin:
V
P
=
D
P
|P|
=
k

i=1
|x
i
P|f
i
|P|
51
3 Medidas de dispersin y forma
Este coeciente puede utilizarse con cualquier tipo de promedio, y las interpretacio-
nes comentadas en el apartado anterior para los coecientes basados en desviaciones
cuadrticas siguen siendo vlidas.
3.2.3. Representatividad de los promedios
Los coecientes de variacin son medidas de dispersin que permiten analizar la
representatividad de los promedios, bien sea para comparar la representatividad de
varios promedios de una misma distribucin, o para comparar la representatividad de
un promedio en varias distribuciones.
En el tema 2 hemos analizado las ventajas e inconvenientes de los promedios. Ahora
bien, si a priori fuera indiferente aplicar cualquiera de estas medidas, entonces podemos
utilizar los coecientes de variacin para determinar el promedio ms representativo:
ser aquel cuyo coeciente de variacin presente menor valor.
As, dada una distribucin, si calculamos los coecientes de variacin respecto a
algunos promedios, podemos comparar el grado de representatividad de los mismos; si
para la media se obtiene 0,2 y para la mediana 0,4 signica que la dispersin relativa
respecto a la media es del 20 %, mientras que para la mediana tal dispersin es del
40 %; por tanto, la media representar mejor el conjunto de datos de la distribucin
que la mediana.
Razonablemente, para que los resultados anteriores puedan ser comparabIes, las
medidas con que hayan sido obtenidos deben ser homogneas; esto es, si hemos tra-
bajado con coecientes de tipo cuadrtico, stos deben ser considerados en todos los
indicadores de dispersin empleados y lo mismo en el caso de medidas de tipo absoluto.
De la misma forma, para comparar la representatividad de un promedio en varias
distribuciones, tendremos que calcular un coeciente de variacin respecto a ese pro-
medio en cada una de ellas, siendo ms representativo en aqulla para la que dicho
coeciente presente menor valor.
Hasta aqu hemos contemplado que la representatividad de un promedio depende
de la dispersin. Si bien es cierto que ste es un factor determinante, es conveniente
sealar tambin la importancia del nmero de datos en dicho anlisis. Supongamos,
por ejemplo, que al estudiar los salarios de los trabajadores en dos empresas, se ob-
tiene el mismo resultado para el coeciente de variacin de Pearson. Si el nmero de
trabajadores es signicativamente distinto, el salario medio resultar ms robusto en
la empresa grande.
3.3. Variable tipicada
Los coecientes de variacin sirven para comparar la representatividad de los pro-
medios; sin embargo, hasta el momento, no hemos diseado ningn instrumento que
nos permita comparar valores cualesquiera de dos distribuciones.
Para poder comparar dos distribuciones, o ms concretamente algunos de sus valo-
res, stos deben trasladarse a una misma escala. Para ello debemos tener en cuenta
52
3 Medidas de dispersin y forma
una medida de posicin central y otra de dispersin; de esa forma, si calculamos la dis-
tancia de cada valor al promedio que se tome como referencia y luego dividimos entre
una medida de dispersin respecto a dicho promedio, obtendremos la posicin relativa
del mismo. Existen numerosas formas de reducir a una misma escala las variables, no
obstante la ms habitual se basa en tomar como referencia la media aritmtica y la
desviacin tpica.
Denicin 3.9. Llamamos variable tipicada a aqulla que tiene media cero y va-
rianza uno.
Dada una variable estadstica X, podemos obtener una tipicacin de la misma
mediante la siguiente transformacin:
Z =
X x
S
X
(3.3.1)
Propiedad 3.7. La nueva variable Z es una variable tipicada, esto es, su media es
0 y su varianza es 1.
Demostracin. En efecto, de las propiedades de cambio de origen y de escala de la
media aritmtica se deriva de forma inmediata que:
z =
x x
S
X
= 0
Anlogamente, teniendo en cuenta el comportamiento de la varianza ante cambios
de origen y de escala, se tiene que:
S
2
Z
=
1
S
2
X
S
2
X
= 1
El valor tipicado indica el nmero de desviaciones tpicas que est por encima o por
debajo de la media un valor determinado. Una vez tipicados, los valores superiores
a la media tienen signo positivo mientras que el signo de los inferiores ser negativo.
Retomemos el ejemplo de los embalses y supongamos ahora que en el embalse pe-
queo el nivel medio de agua es de 6 millones de metros cbicos con una desviacin
tpica de 2 millones, mientras que en el grande el nivel medio es de 500 millones con
desviacin tpica de 150 millones. Si la primavera ha sido especialmente lluviosa y al
nalizar esa estacin el nivel de agua alcanzado fue de 10 millones de metros cbicos
en el embalse pequeo y de 665 millones en el grande, para determinar a cul de los
dos embalses ha beneciado ms la abundancia de lluvias debemos expresar el nivel
de agua embalsado en la misma escala, es decir, debemos tipicar los valores. Para el
embalse pequeo el valor tipicado resultante es z = 2 mientras que para el grande es
z = 1, 1. Dado que corresponde al embalse pequeo un valor tipicado mayor, pode-
mos concluir que, en trminos relativos, la abundancia de lluvias ha beneciado ms
al embalse pequeo.
53
3 Medidas de dispersin y forma
3.4. Medidas de forma
Las medidas de forma hacen referencia a la asimetra y al apuntamiento o kurtosis,
que son las principales caractersticas de la representacin grca de una distribucin.
Denicin 3.10. Una distribucin se dice simtrica si su representacin grca lo es
respecto a la perpendicular trazada por su valor central.
En otras palabras, si tomamos esa perpendicular como eje de simetra, la distribu-
cin es simtrica si hay el mismo nmero de valores a ambos lados del eje, equidistantes
dos a dos, y cada par de valores equidistantes tienen la misma frecuencia.
Figura 3.3: Distribucin simtrica
Se denomina asimetra a la falta de simetra en la distribucin. La asimetra puede
ser positiva o a la derecha y negativa o a la izquierda, segn que sea en la cola derecha
o izquierda del eje donde se encuentre un mayor peso de la distribucin.
En el mbito econmico encontramos magnitudes cuyo comportamiento es clara-
mente asimtrico. En general, variables que representan riqueza (tales como renta,
salario, benecios, ...) suelen presentar asimetra positiva o a la derecha.
En una distribucin simtrica unimodal todos los valores centrales (media, moda y
mediana) coinciden. Dada una distribucin arbitraria, partiendo de la posicin de los
promedios se puede indicar, aunque no siempre, el tipo de asimetra. As, generalmente,
se cumple que si x Mo > 0 la distribucin es asimtrica a la derecha mientras que
si x Mo < 0 es asimtrica a la izquierda.
En el caso de distribuciones unimodales, es frecuente que la mediana est com-
prendida entre la media y la moda, cumplindose entonces que Mo < Me < x si la
distribucin es asimtrica a la derecha y x < Me < Mo cuando es asimtrica a la
izquierda.
Denicin 3.11. El coeciente de asimetra de Pearson se dene mediante la expre-
54
3 Medidas de dispersin y forma
Figura 3.4: Tipos de asimetra
sin:
A
P
=
x Mo
S
X
(3.4.1)
cuyo resultado es nulo para distribuciones simtricas, positivo en el caso de distribu-
ciones con asimetra a la derecha y negativo para distribuciones con asimetra a la
izquierda.
Las principales ventajas de esta medida son su facilidad de clculo e interpretacin.
Sin embargo, dado que el anlisis de la forma se basa en la comparacin de promedios,
puede ser poco adecuada en el caso de asimetras leves.
Otra alternativa para determinar el grado de asimetra que presenta una distribucin
es cuanticar a travs de alguna medida el mayor o menor agrupamiento de los datos a
cada lado de uno de sus promedios, a partir de las desviaciones (x
i
P). En particular,
el promedio de referencia ms habitual es la media aritmtica.
Ahora bien, dado que la suma de las desviaciones respecto a la media es siempre
igual a cero, debemos tomar alguna potencia de (x
i
x). La alternativa de considerar
la suma de los cuadrados no es adecuada pues interesa tener en cuenta el signo de
las desviaciones. As pues, la posibilidad ms sencilla consiste en utilizar la suma de
las desviaciones elevadas al cubo. Si el resultado es positivo sern las desviaciones
positivas las que tienen mayor peso (asimetra a la derecha), al revs si es negativo.
Nuestro objetivo es determinar el grado de asimetra de una distribucin y com-
parar la asimetra de distintas distribuciones, por lo tanto es necesario construir una
medida relativa, es decir, que no se vea afectada por las unidades de la variable. Para
normalizar la expresin anterior tendremos que dividir por una medida de dispersin
respecto a la media.
Denicin 3.12. Dada una variable X, con distribucin de frecuencias (x
i
, f
i
), se
dene el coeciente de asimetra de Fisher, que denotamos por g
1
, como el valor de
la siguiente expresin:
55
3 Medidas de dispersin y forma
g
1
=
k

i=1
(x
i
x)
3
f
i
S
3
X
(3.4.2)
Si g
1
= 0, la distribucin es simtrica; si g
1
> 0, la distribucin es asimtrica a la
derecha y si g
1
< 0 es asimtrica a la izquierda. Adems, cuanto mayor sea la cuanta
del coeciente ms marcada ser la asimetra en el sentido indicado por su signo.
Sir Ronald Aylmer Fisher (1890-1962) es autor de aportaciones estadsticas de gran
trascendencia, que contribuyeron en gran medida al desarrollo de esta disciplina. Entre
ellas destacan los coecientes de asimetra que llevan su nombre, el mtodo de mxima
verosimilitud y el desarrollo de la inferencia estadstica.
El anlisis del apuntamiento o kurtosis tiene por objeto bsicamente comparar el
de la distribucin con el de la curva normal (de igual media y desviacin tpica),
que se toma como patrn. Este tipo de anlisis se aplica sobre todo a distribuciones
unimodales de tipo campaniforme.
Si tratamos de medir el apuntamiento de una distribucin debemos tener en cuen-
ta que el mismo est inversamente relacionado con la dispersin. Adems, ahora no
interesa que se compensen desviaciones positivas y negativas, por lo tanto una alterna-
tiva puede consistir en sumar las desviaciones elevadas a una potencia par. Igualmente,
como la medida debe ser adimensional, el resultado anterior debe ser normalizado me-
diante una medida de dispersin. Finalmente, se resta el valor 3 para asignar valor
nulo al modelo normal, que se toma como referencia.
Denicin 3.13. Dada una variable X, con distribucin de frecuencias (x
i
, f
i
), se
dene el coeciente de apuntamiento de Fisher, que denotamos por g
2
, como el valor
de la siguiente expresin:
g
2
=
k

i=1
(x
i
x)
4
f
i
S
4
X
3 (3.4.3)
Si g
2
= 0 el grado de apuntamiento de la distribucin coincide con el de la nor-
mal y se dice que la distribucin es mesocrtica. Si g
2
> 0, la distribucin es ms
apuntada que la normal (leptocrtica) y si g
2
< 0 es menos apuntada que la normal
(platicrtica).
56
3 Medidas de dispersin y forma
Figura 3.5: Tipos de apuntamiento
57
4 Desigualdad y pobreza
4.1. La desigualdad econmica
La desigualdad en el reparto de la riqueza es uno de los problemas econmicos ms
importantes en las sociedades actuales, por lo que su estudio viene siendo objeto de
atencin por parte de los gobiernos nacionales y tambin por distintos organismos in-
ternacionales. Los estudios orientados a conocer la situacin de los ms desfavorecidos
permiten analizar la incidencia de la pobreza. A su vez, el estudio de la desigual-
dad en la distribucin de la renta entre personas u hogares permite analizar el grado
de bienestar de los ciudadanos de un pas. Asimismo, el estudio de la desigualdad
en el reparto de la riqueza entre pases o regiones presenta gran inters de cara al
establecimiento de medidas de poltica econmica por parte de distintos organismos
internacionales (Unin Europea, Fondo Monetario Internacional, Banco Mundial, ...)
para tratar de corregir los desequilibrios territoriales.
El Informe sobre desarrollo humano elaborado anualmente por Naciones Unidas, los
estudios sobre pobreza y desigualdad de gnero realizados por Social Watch y los es-
tudios sobre desigualdad en la distribucin del ingreso del Banco Mundial son claros
exponentes de la importancia que tiene la cuanticacin de la desigualdad econmica y
la pobreza.
El ndice de Desarrollo Humano (IDH), elaborado por el Programa de Desarrollo de
Naciones Unidas desde 1970, es un indicador basado en tres dimensiones: esperanza de
vida, educacin e ingresos, y se calcula como media geomtrica de los ndices de las tres
componentes.
Los anlisis de la distribucin de la renta no son estrictamente econmicos sino que
tienen tambin implicaciones sociolgicas, polticas, ticas ... . No obstante, desde una
perspectiva estadstica, nos ocuparemos nicamente de cuanticar la desigualdad para
lo cual utilizaremos medidas de desigualdad o concentracin, evitando llevar a cabo
juicios normativos sobre la equidad o justicia de las situaciones consideradas.
Actualmente los anlisis distributivos ocupan un papel muy relevante en los estudios
econmicos. De hecho, en la propia evolucin de la teora econmica puede apreciarse
que. frente a etapas anteriores en las que el objetivo prioritario era el crecimiento, a lo
largo de la segunda mitad del siglo XX se fue consolidando una importante corriente
dedicada al anlisis sobre bienestar y equidad distributiva, en la que pasan a ocupar
un papel dominante los anlisis del desarrollo econmico, trmino que incorpora al
concepto de crecimiento connotaciones sobre equidad en la distribucin.
Las aproximaciones conceptuales al estudio de la desigualdad -cuyos antecedentes pue-
den encontrarse en algunos economistas clsicos como Adam Smith o Ricardo- aparecen
con las obras de Lorenz (1880-1962) y Gini (1884-1965).
58
4 Desigualdad y pobreza
Ms recientemente cabe destacar las importantes aportaciones del profesor Amartya Sen
(India 1933-), a quien fue concedido el premio Nobel de Economa en el ao 1998 por sus
contribuciones a la economa del bienestar. En particular, el profesor Sen ha realizado
valiosas aportaciones en el campo de la medicin de la desigualdad y la pobreza y su
conexin con las funciones de bienestar social.
En el contexto actual de la sociedad del conocimiento, resulta indudable el impacto
que tienen las nuevas tecnologas de la informacin y comunicacin sobre el crecimiento
y el desarrollo, motivo por el cual el concepto de desigualdad ha rebasado el mbito
puramente econmico para extenderse a otros mbitos. En particular, el anlisis de la
desigualdad en cuanto a acceso y uso de las TIC ha dado lugar a lo que habitualmen-
te se conoce como brecha digital, trmino que segn la OCDE, hace referencia a la
brecha entre individuos, hogares, negocios y reas geogrcas a diferentes niveles socio-
econmicos, en relacin tanto a sus oportunidades de acceso a las TIC como al uso de
Internet para una amplia variedad de actividades.
En trminos generales, las medidas de desigualdad o concentracin indican el grado
de desigualdad en el reparto del valor total de una variable entre los elementos que
componen la poblacin.
Ejemplo 4.1. Supongamos que un millonario deja una herencia de 110 millones de
euros a repartir entre un total de 11 herederos. Puede resultar interesante conocer
hasta qu punto la distribucin que el fallecido hace de su fortuna benecia a todos
por igual, o bien discrimina a algunos parientes en favor de otros.
Una primera opcin consistira en repartir la herencia a partes iguales, lo que su-
pondra asignar 10 millones de euros a cada uno de sus 11 herederos. Se trata entonces
de una situacin de equidistribucin o concentracin mnima. En el extremo opuesto,
si uno solo de los herederos recibiese toda la herencia (110 millones) y los otros diez no
heredasen nada, entonces el reparto presentara mxima desigualdad o concentracin.
Entre estos dos casos extremos, se pueden plantear muy diversas situaciones inter-
medias que implicarn diferentes grados de desigualdad en el reparto de la herencia.
As, un posible reparto podra ser el siguiente: 1, 1, 1, 1, 1, 1, 1, 2, 2, 2 y 97.
En este caso uno de los herederos recibe una cantidad -97 millones- muy supe-
rior a los restantes, que reciben 1 o 2 millones, es decir, se aprecia que existe cierto
desequilibrio en el reparto de la herencia, aunque la situacin no es de desigualdad
mxima. Se trata por tanto de denir indicadores que nos permitan conocer el grado
de desequilibrio que existe en el reparto.
Una primera aproximacin al estudio de la desigualdad viene dada por la disper-
sin entre los cuantiles de la distribucin. En particular, dicho anlisis suele basarse
habitualmente en el cociente entre el noveno y el primer decil, que cuantica en qu
medida la renta media del 10 % ms rico de la poblacin estudiada supera a la renta
del 10 % ms pobre. Como consecuencia, cuanto ms elevado sea este resultado ms
desigualdad existir en la distribucin de renta.
As, en el ejemplo anterior de las herencias los deciles primero y noveno seran
respectivamente D
1
= 1 y D
9
= 2 con lo cual el cociente sera 2, indicando un elevado
nivel de desigualdad (la cantidad heredada por el 10 % ms beneciado duplica la del
10 % menos favorecido).
59
4 Desigualdad y pobreza
4.2. La curva de Lorenz y el ndice de Gini
Las medidas de desigualdad o concentracin son indicadores que resumen el des-
equilibrio existente en el reparto del valor total de una magnitud econmica que ge-
nricamente denominamos riqueza o renta. Dado que la situacin econmica de las
personas, empresas, etc. se aproxima habitualmente a travs de salarios, rentas fami-
liares, benecios, ingresos ..., en la prctica aplicaremos dichas medidas a este tipo de
variables econmicas.
4.2.1. La curva de Lorenz
Una primera aproximacin al estudio de la concentracin viene dada por una re-
presentacin grca denominada curva de Lorenz . Supongamos un conjunto de N
individuos, a cada uno de los cuales corresponde una renta x
i
, y consideremos la
distribucin de rentas (X) con los valores ordenados en sentido creciente, esto es,
x
1
x
2
x
N
.
Para cada i = 1, . . . , N se denen los siguientes ratios:
La proporcin acumulada de rentistas p
i
, como:
p
i
=
i
N
En trminos generales, el valor de p
i
nos indica la proporcin que suponen res-
pecto al total los i rentistas que perciben rentas ms pequeas, esto es, cuya
renta es menor o igual que x
i
.
La proporcin acumulada de rentas q
i
, dada por la siguiente expresin:
q
i
=
A
i
A
N
donde A
i
=
i

j=1
x
j
es la renta acumulada por los i primeros individuos y A
N
=
N

j=1
x
j
es la renta total.
En general, el valor de q
i
nos indica la proporcin sobre el valor total de la
renta acumulada por los i primeros individuos, es decir, recoge la participacin
que el grupo formado por los i individuos con rentas inferiores o iguales a x
i
(i individuos menos ricos) tiene sobre el valor total de la renta. Por su propio
signicado, la parte de renta q
i
acumulada por la proporcin p
i
de individuos
menos ricos nunca superar el valor p
i
.
En el ejemplo 4.1 se obtiene p
7
= 63, 6 %, q
7
= 6, 4 %, lo que signica que el 6,4 % de
la herencia es recibido conjuntamente por los 7 herederos que reciben individualmente
las cantidades ms pequeas (1 milln cada uno), y que constituyen el 63,6 % de la
60
4 Desigualdad y pobreza
poblacin. De forma anloga resulta p
9
= 90, 9 %, q
9
= 11, 8 %, lo que nos indica que
en conjunto los herederos cuya herencia individual es menor o igual que 2 millones
(90,9 % de la poblacin) reciben un 11,8 % del valor total de la herencia.
Propiedad 4.1. Los ratios p
i
y q
i
verican la siguiente desigualdad:
q
i
p
i
, i = 1, . . . , N
Adems, por denicin, se cumplir que p
N
= q
N
= 1 (100 %) puesto que el 100 %
de los rentistas percibir el 100 % de la renta total. Asimismo, mayores diferencias
entre ambas proporciones reejarn mayores desequilibrios en el reparto.
Denicin 4.1. Considerado un sistema de ejes cartesianos, se denomina curva de
Lorenz a la lnea que partiendo del origen de coordenadas une los pares (p
i
, q
i
), i =
1, . . . , N.
Como consecuencia de la propiedad 4.1, la curva de Lorenz se situar siempre por
debajo de la diagonal del cuadrado de lado unidad (recta p = q) y cuanto mayores
sean las diferencias p
i
q
i
la curva estar ms alejada de la diagonal.
Figura 4.1: Curva de Lorenz
En una situacin de equidistribucin (concentracin mnima) todos los rentistas
perciben la misma renta, por lo que al acumular resulta evidente que el 10 % de
los rentistas percibirn el 10 % de la renta, el 20 % de los rentistas percibirn el
20 % de la renta etc., es decir, en tal caso se cumple que:
q
i
= p
i
, i = 1, . . . , N
y, en consecuencia, la curva de Lorenz coincide con la diagonal del cuadrado de
lado unidad (bisectriz del primer cuadrante), a la que por este motivo se conoce
como recta de equidistribucin.
61
4 Desigualdad y pobreza
En el otro extremo, es decir, en situacin de mxima desigualdad, la renta se
concentrara en un nico individuo, de modo que q
i
= 0, i = 1, . . . , N 1. Por
consiguiente, en este caso la curva de Lorenz se aproximar a la curva formada
por los lados OA y AB del cuadrado.
Figura 4.2: Concentracin mnima y mxima
Adems de analizar la desigualdad de una distribucin, otro objetivo de inters es
la comparacin de la desigualdad de diferentes situaciones distributivas. Partiendo de
las respectivas curvas de Lorenz, en casos como los representados en la gura 4.3 se
dice que la distribucin A es ms igualitaria que B ya que en todo su recorrido la curva
correspondiente a la distribucin A se sita ms cerca de la diagonal, lo que signica
que para cualquier proporcin de rentistas p
i
la proporcin de renta acumulada q
i
es
superior en el caso A que en B. En este tipo de situaciones, se dice que A domina a
B en el sentido de Lorenz.
Ahora bien, existirn muchas situaciones en que el criterio de Lorenz no puede ser
aplicado debido a que las curvas se entrecruzan y por lo tanto no es posible establecer
entre ellas relaciones de dominacin.
4.2.2. El ndice de Gini
Adems de representar las situaciones distributivas, la curva de Lorenz permite
construir una medida, basada en las diferencias p
i
q
i
, que resume el nivel de de-
sigualdad o concentracin de la distribucin. Esta medida, conocida como ndice de
Gini, compara por cociente el rea situada entre la recta de equidistribucin y la cur-
va de Lorenz de la distribucin con el rea correspondiente a la situacin de mxima
desigualdad (rea del tringulo OAB):
Denicin 4.2. Para una distribucin de N rentas (X) con los valores ordenados en
62
4 Desigualdad y pobreza
Figura 4.3: Criterio de dominacin de Lorenz
sentido creciente, esto es, x
1
x
2
. . . x
N
, el ndice de Gini , que denotamos por
I
G
, viene dado por la siguiente expresin:
I
G
=
N1

i=1
(p
i
q
i
)
N1

i=1
p
i
(4.2.1)
En su formulacin original, el ndice de Gini se basaba en los valores absolutos de las
diferencias entre todos los pares de rentas |x
i
x
j
| . Sin embargo, en la bsqueda de
una interpretacin grca para este indicador, se lleg posteriormente a establecer su
relacin con la curva de Lorenz y obtener su expresin en trminos de las diferencias
p
i
q
i
, formulacin que resulta ms intuitiva.
El ndice de Gini es uno de los indicadores aplicados habitualmente en los estudios
de desigualdad realizados por distintos organismos internacionales tales como Banco
Mundial, Naciones Unidas o Social Watch.
Asimismo, en la actualidad se aplica tambin al estudio de la desigualdad en otros
mbitos como, por ejemplo, la cuanticacin de la brecha digital. Algunos organismos
como Naciones Unidas utilizan la curva de Lorenz y el ndice de Gini para analizar el
nivel de desequilibrio en el reparto de diversas magnitudes relacionadas con las TIC
(acceso a Internet, acceso mediante banda ancha, uso de telfono mvil, ...) entre la
poblacin mundial.
Propiedad 4.2. El ndice de Gini est acotado entre 0 y 1, es decir, se cumple que:
0 I
G
1
63
4 Desigualdad y pobreza
Figura 4.4: rea de concentracin
Adems, el ndice de Gini toma el valor mnimo (0) en caso de equidistribucin (m-
nima concentracin) y toma el valor mximo (1) en situacin de mxima desigualdad
o concentracin.
Demostracin. Dado que 0 p
i
q
i
p
i
, i = 1, . . . , N 1, se verican las siguientes
desigualdades:
0
N1

i=1
(p
i
q
i
)
N1

i=1
p
i
de donde se deriva de forma inmediata la acotacin propuesta.
Por otra parte, en situacin de equidistribucin se cumple que q
i
= p
i
, i = 1, . . . , N,
con lo cual el numerador de la expresin 4.2.1 toma el valor 0 y, en consecuencia, el
ndice tambin vale 0.
A su vez, en caso de desigualdad mxima se cumple que q
i
= 0, i = 1, . . . , N1, con
lo cual el numerador y el denominador de la expresin son iguales y, en consecuencia,
el ndice toma el valor 1.
En general, para situaciones distributivas intermedias, el valor del ndice de Gini
estar ms prximo a 1 cuanto mayor sea el nivel de concentracin o desigualdad y
viceversa.
En la ilustracin de la herencia, el resultado del indicador para el reparto analizado
es I
G
= 0, 889, lo que permite concluir que el grado de desigualdad de dicho reparto
es elevado.
Adems de las propiedades bsicas anteriores, el ndice de Gini satisface tambin
otras propiedades que son especialmente relevantes por estar directamente relaciona-
das con los efectos que pueden tener sobre el nivel de desigualdad distintas polticas
distributivas de la renta.
64
4 Desigualdad y pobreza
Propiedad 4.3. El ndice de Gini es invariante ante cambios proporcionales, es decir,
si una variable X sufre una transformacin proporcional, siendo la nueva variable
X=cX donde c es constante, se verica que el ndice de Gini toma el mismo valor en
ambas situaciones: I
X
= I
X
.
Demostracin. Designemos por p

i
y q

i
los ratios asociados a la nueva variable X

.
Los cambios de escala no afectan a las frecuencias, por tanto el ratio p

i
es idntico
a p
i
, i = 1, . . . , N.
Por otra parte, dado que x

i
= cx
i
, la renta acumulada A

i
asociada a x

i
est relacio-
nada con A
i
, renta acumulada correspondiente a x
i
, a travs de la siguiente expresin:
A

i
=
i

j=1
x

j
= c
i

j=1
x
j
= cA
i
En consecuencia se obtiene que:
q

i
=
A

i
A

N
=
cA
i
cA
N
= q
i
Por tanto:
I
X
=
N1

i=1
(p

i
q

i
)
N1

i=1
p

i
=
N1

i=1
(p
i
q
i
)
N1

i=1
p
i
= I
X
Esta propiedad signica que cambios proporcionales en la renta no alteran el nivel
de desigualdad puesto que las participaciones relativas de los rentistas en el reparto
se mantienen.
Propiedad 4.4. El ndice de Gini es decreciente ante aumentos constantes de renta,
es decir, si todos los valores de la variable X aumentan en la misma cantidad c (c > 0),
siendo la nueva variable X

= X + c, se verica que el ndice de Gini asociado a la


variable X

es menor que el asociado a la variable X: I


X
< I
X
.
Por el contrario, si la constante c es negativa (c < 0), entonces el ndice de Gini
aumentar.
Demostracin. Designemos por p

i
y q

i
los ratios asociados a la nueva variable X

.
Los cambios de origen no afectan a las frecuencias, por tanto el ratio p

i
es idntico
a p
i
, i = 1, . . . , N.
Por su parte, la renta acumulada A

i
asociada a x

i
est relacionada con A
i
, renta
acumulada correspondiente a x
i
, a travs de la siguiente expresin:
A

i
=
i

j=1
x

j
=
i

j=1
(x
j
+c) =
i

j=1
x
j
+ic = A
i
+ic
65
4 Desigualdad y pobreza
de la cual se deriva que:
q

i
> q
i
, i = 1, . . . , N 1
Supongamos lo contrario, esto es, que q

i
< q
i
; entonces se cumplira que:
A

i
A

N
<
A
i
A
N

A
i
+c i
A
N
+cN
<
A
i
A
N
operando en la segunda desigualdad se llega a:
i
N
<
A
i
A
N
p
i
< q
i
Sin embargo, por su propio signicado, debe cumplirse siempre que p
i
q
i
, y por
tanto la hiptesis adoptada q

i
< q
i
no es vlida.
Esta propiedad pone de maniesto el efecto positivo que tienen los aumentos cons-
tantes de renta ya que stos benecian ms a las rentas ms bajas y, en consecuencia,
el nivel de desigualdad relativa se reduce. Este tipo de efecto redistributivo se puede
generalizar a situaciones en que se produce una transferencia de renta desde un in-
dividuo ms privilegiado a otro en peor situacin, siendo conocido como principio de
transferencias progresivas o condicin de Pigou-Dalton.
Propiedad 4.5. El ndice de Gini satisface la condicin de Pigou-Dalton, es decir,
si un individuo con renta x
j
transere una cantidad a otro que percibe una renta
inferior x
i
, tal que 0 < < (x
j
x
i
)/2, se verica que el ndice de Gini asociado a
la nueva situacin distributiva (Y ) es inferior al correspondiente a la situacin inicial
(X), esto es, I
Y
< I
X
.
Adems de las propiedades anteriores debemos destacar tambin ciertas limitaciones
del ndice de Gini. Una de ellas es que un mismo valor del indicador puede ir asociado
a distribuciones con estructura muy diferente e interpretaciones distintas. De hecho,
en cualquier situacin de equidistribucin el valor del ndice es 0, con independencia
del nmero de componentes de la poblacin. As, a modo de ejemplo, una vez que
sabemos que en cierto mercado todas las empresas tienen igual cuota de participacin
(y existe, por tanto, concentracin nula) resulta relevante la informacin sobre el
nmero de empresas existentes, ya que podra ayudarnos a distinguir situaciones de
oligopolio, un nmero reducido de empresas que se reparten la industria, de otras en
que el nmero es muy elevado, tratndose entonces de una situacin de competencia
perfecta.
Clculo aproximado del ndice de Gini
Hasta ahora, para obtener los ratios p
i
y q
i
hemos considerado la renta de cada
uno de los N individuos por separado calculando as un total de N pares (p
i
, q
i
). Si
el nmero de rentas (N) es elevado, se suele partir de la tabla de frecuencias (x
i
, n
i
),
donde se recogen los diferentes valores de la renta (k < N), ordenados en sentido
66
4 Desigualdad y pobreza
creciente, x
1
< x
2
< . . . < x
k
y sus respectivas frecuencias. Con respecto a este
planteamiento conviene sealar que conduce a un clculo aproximado del ndice
de Gini, pudiendo proporcionar resultados bastante alejados del valor exacto del
indicador (la calidad de la aproximacin depende del nmero de repeticiones).
Bajo este segundo planteamiento obtenemos un total de k pares (p
i
, q
i
), donde los
ratios se calcularn como sigue:
p
i
=
N
i
N
, N
i
= n
1
+n
2
+. . . +n
i
es decir, p
i
representa la proporcin de rentistas cuya renta es menor o igual que x
i
.
Por otra parte:
q
i
=
A
i
A
k
donde A
i
=
i

j=1
x
j
n
j
es la renta acumulada por los N
i
primeros individuos y A
k
=
k

j=1
x
j
n
j
es la renta total.
En general, el valor de q
i
nos indica la proporcin del valor total de la renta acu-
mulada por los N
i
primeros individuos, es decir, recoge la participacin que el grupo
formado por los N
i
individuos con rentas inferiores o iguales a x
i
(N
i
individuos menos
ricos) tiene sobre el valor total de la renta.
Finalmente, el ndice de Gini se calcula como:
I
G
=
k1

i=1
(p
i
q
i
)
k1

i=1
p
i
(4.2.2)
Aplicando este procedimiento al reparto de la herencia, donde hay 7 herederos que
reciben 1 milln y otros 3 que perciben 2 millones, el resultado aproximado del ndice
de Gini es 0,882 mientras que el valor exacto es 0,889.
La utilizacin de algn procedimiento automtico como una hoja de clculo nos permi-
tir calcular con exactitud los ratios y el ndice de Gini sin gran esfuerzo, con indepen-
dencia del nmero de rentas observadas (N).
Finalmente, si la informacin disponible sobre la distribucin de rentas viene dada
en forma de tabla con datos agrupados en intervalos, entonces el clculo del ndice de
Gini se basar en la marca de clase y la frecuencia de cada intervalo y, en consecuencia,
se obtendr una aproximacin al verdadero valor del ndice de Gini.
Aunque, sin lugar a dudas, uno de los indicadores ms utilizados en los estudios de
desigualdad es el ndice de Gini, en la literatura econmica se han ido introduciendo
otros tipos de medidas de desigualdad, basadas en funciones de bienestar social, en
medidas de entropa, ... .
67
4 Desigualdad y pobreza
4.3. Medidas descomponibles
El fenmeno de la desigualdad, entendido como desequilibrio global en una po-
blacin, aparece conectado con las distintas unidades que la componen. Cuando la
poblacin aparece dividida en unidades complementarias (estratos o subpoblaciones
en general) resulta deseable obtener el valor de desigualdad poblacional a partir de
los valores de desigualdad cuanticada en cada estrato.
Supongamos que la poblacin est dividida en p subpoblaciones. El ndice I(X) ser
aditivamente descomponible si la desigualdad global de la poblacin se puede expresar
como suma de dos componentes:
I(X) =
p

j=1
w
j
I
j
+I
0
donde I
j
representa el ndice de desigualdad de la subpoblacin j y w
j
es un factor de
ponderacin, que depende del tamao y de las rentas medias de las subpoblaciones y
de la poblacin; a su vez I
0
es la desigualdad entre las subpoblaciones, que es calculada
considerando cada subpoblacin como un individuo que percibe una renta igual a la
media de su grupo. En sntesis, el primer componente resume las desigualdades dentro
de las subpoblaciones (desigualdad intra-grupos) y el segundo recoge la desigualdad
entre las diferentes subpoblaciones (desigualdad inter-grupos).
El requisito de descomponibilidad, deseable tanto desde el punto de vista conceptual
como operativo, no es satisfecho por el ndice de Gini, hecho que constituye uno de
los principales inconvenientes de este indicador y que justica el xito alcanzado por
la familia de medidas aditivamente descomponibles de aparicin ms reciente.
Denicin 4.3. Dada una variable X, a la que genricamente denominamos renta,
con distribucin (x
i
, f
i
), en condiciones generales establecidas por D. Zagier (1983),
una medida de desigualdad aditivamente descomponible viene dada por una expresin
del tipo:
I

(X) =
k

i=1

_
x
i
x
_
f
i
donde

(x) es una funcin denida para cada real como:

(x) =
_

_
x

1, < 0
log x, = 0
1 x

, 0 < < 1
xlog x, = 1
x

1, > 1
La expresin anterior toma siempre valores no negativos, aumentando a medida que
la distribucin presenta mayores desequilibrios en el reparto.
Entre los indicadores pertenecientes a esta familia destacaremos dos casos particu-
lares, correspondientes a los valores del parmetro = 1 (ndice de Theil) y = 1
(ndice de desigualdad colectiva).
68
4 Desigualdad y pobreza
Denicin 4.4. Dada una distribucin de rentas (x
i
, f
i
), con x
i
> 0, (i = 1, . . . , k),
se dene el ndice de Theil , que designamos por T, mediante la siguiente expresin:
T =
k

i=1
_
x
i
x
_
log
_
x
i
x
_
f
i
(4.3.1)
Este indicador viene siendo aplicado desde hace aos tanto en trabajos empricos como
en estadsticas ociales. El origen de esta medida, propuesta por Theil en 1967, est en
el concepto de entropa de Teora de la Informacin.
Denicin 4.5. Dada una distribucin de rentas (x
i
, f
i
), con x
i
> 0, (i = 1, . . . , k), se
dene el ndice de desigualdad colectiva, que designamos por D, mediante la siguiente
expresin:
D =
k

i=1
_
x
x
i
1
_
f
i
(4.3.2)
Este indicador, propuesto por Lpez y Prez (1991), puede ser obtenido como sntesis
de desigualdades individuales.
4.4. La pobreza y su medicin
La pobreza es un fenmeno complejo en el que inuyen multitud de factores y
cuyo anlisis puede ser planteado desde diferentes enfoques. En particular, aqu nos
referiremos al enfoque objetivo, dentro del cual se enmarcan aquellos estudios de
pobreza que utilizan informacin recogida mediante variables que son directamente
observables por el investigador (principalmente se trata de variables monetarias tales
como ingresos, gastos, ...).
En los estudios sobre pobreza un problema bsico es identicar el colectivo de
pobres, para lo cual se introduce el concepto de lnea o umbral de pobreza.
Denicin 4.6. En trminos generales, se entiende por lnea de pobreza el nivel de
renta requerido para cubrir las necesidades consideradas bsicas. En consecuencia, un
individuo es pobre si su renta es inferior a ese umbral.
Para establecer el umbral es necesario especicar el concepto de pobreza, para lo
cual se plantean bsicamente dos alternativas: pobreza absoluta y pobreza relativa.
Se entiende por pobreza absoluta una situacin en la que no estn cubiertas las
necesidades bsicas del individuo, es decir, existe carencia de bienes y servicios
bsicos (normalmente relacionados con la alimentacin, la vivienda y el vestido).
En otros trminos, se trata de una situacin en que la persona no dispone de
recursos indispensables para la subsistencia.
Una lnea de pobreza absoluta es aqulla que cuantica en trminos monetarios la
cantidad mnima de subsistencia, es decir, se trata de un umbral basado en la sa-
tisfaccin de las necesidades bsicas exclusivamente. En el mbito internacional
suelen considerarse actualmente umbrales de 1$, 1,25$ ... 2$ diarios.
69
4 Desigualdad y pobreza
A su vez, se entiende por pobreza relativa una situacin en la que el individuo no
tiene lo suciente para vivir una vida que es considerada normal en la sociedad.
En otros trminos, desde esta perspectiva, se considera que una persona es pobre
cuando se encuentra en una situacin de clara desventaja respecto al resto de
personas de su entorno, esto es, no dispone de recursos sucientes para alcanzar
un nivel de vida mnimamente adecuado. Esta concepcin de la pobreza est
muy ligada a la nocin de desigualdad.
Para establecer una lnea de pobreza relativa se considera una variable monetaria
(ingresos, gastos, ...) y se ja el umbral como un porcentaje de un promedio de
la distribucin (generalmente la media o la mediana). Actualmente se utiliza la
mediana ya que as se evita que los resultados se vean muy afectados por la
presencia de valores extremos que no reejan la realidad de la mayora de la
poblacin. El umbral se ja en el 40, 50, 60 % ... de la mediana segn el grado
de severidad que se quiera contemplar; algunos organismos como EUROSTAT,
OCDE, INE consideran el 60 % de la mediana.
Denicin 4.7. Llamamos tasa de pobreza, que designamos por H, a la proporcin
de personas pobres, esto es, que se encuentran por debajo del umbral de pobreza en
la poblacin total considerada:
H =
q
N
(4.4.1)
donde q es el nmero de pobres y N el tamao poblacional.
Si se considera una lnea de pobreza relativa el nmero de pobres depende de la
posicin relativa de cada individuo en la sociedad. As pues, si se produce una variacin
proporcional de los ingresos de todos los individuos, la mediana, y por tanto tambin
la lnea de pobreza variarn en la misma proporcin pero la tasa de pobreza no se
modicar, ya que las frecuencias permanecen invariantes.
Se pueden calcular tasas de pobreza para diferentes grupos de poblacin, segn
variables demogrcas o socioeconmicas, tales como sexo, edad, nivel de estudios,
etc.
En la Encuesta de Condiciones de Vida elaborada por el INE se calculan diversas tasas
de pobreza (por sexo, edad, etc.). En la gura 4.5 se recogen las tasas de pobreza por
Comunidades Autnomas en 2009.
La tasa de pobreza es una medida muy sencilla; ahora bien reeja lo que se conoce
como incidencia de la pobreza pero no su intensidad, es decir, proporciona informa-
cin sobre la cantidad de personas que padecen pobreza pero no sobre el grado de
pobreza que sufren los afectados. Para estudiar este aspecto es necesario denir otros
indicadores.
Denicin 4.8. Dado un umbral de pobreza z y conocida la renta media del colectivo
de pobres ( x
q
), se dene la brecha de renta, que designamos por I, como:
I =
z x
q
z
(4.4.2)
70
4 Desigualdad y pobreza
Figura 4.5: Tasas de pobreza, 2009
Dado que el numerador es la diferencia entre el umbral de pobreza y la renta media
que perciben los pobres, la expresin anterior se puede interpretar como la proporcin
de la cantidad z necesaria por trmino medio para que un individuo pobre deje de
serlo, esto es, abandone la situacin de pobreza. As pues el cociente anterior es un
indicador de la intensidad de la pobreza. Por ejemplo, un resultado I = 0, 25 reeja que
sera necesario aumentar por trmino medio la renta de una persona en una cantidad
igual a la cuarta parte del umbral z para que sta abandonase la situacin de pobreza.
A partir de la tasa de pobreza y de la brecha de renta se puede establecer un nuevo
indicador que tiene en cuenta ambos aspectos, incidencia e intensidad de la pobreza.
Denicin 4.9. Se dene la brecha de pobreza, que designamos por HI, como el
producto de la tasa de pobreza (H) y la brecha de renta (I), esto es:
HI =
q
N
z x
q
z
(4.4.3)
71
5 Anlisis conjunto. Asociacin y
correlacin
Al analizar la realidad socioeconmica encontramos informacin sobre caractersti-
cas que generalmente estn relacionadas. En algunos casos esta relacin ser directa,
como sucede si por ejemplo estudiamos conjuntamente el Producto Interior Bruto
(PIB) y el empleo, variables que habitualmente varan en el mismo sentido (crecen o
decrecen a la vez). En cambio, en otras ocasiones podra existir una relacin inversa,
cuando las variables varan en sentido contrario (esto sucedera si por ejemplo so-
bre un conjunto de productos estudiamos conjuntamente sus precios y sus cantidades
vendidas).
Tambin podran presentarse situaciones que no se corresponden con ninguno de los
casos anteriores, por no existir relacin entre los caracteres analizados, que podran
ser independientes. De hecho la idea de independencia tiene gran inters en el anlisis
estadstico.
En este tema vamos a examinar las relaciones existentes entre varios caracteres,
para lo cual comenzaremos planteando un anlisis conjunto de dos variables y la
correspondiente notacin.
5.1. Distribuciones bidimensionales
Consideremos la distribucin conjunta (X, Y ) de dos variables o atributos X e Y ,
que toma los valores o modalidades (x
i
, y
j
), (i = 1, ..., k; j = 1, ..., m). Denominaremos
frecuencia absoluta conjunta n
ij
al nmero de repeticiones del par (x
i
, y
j
). Si N es el
nmero total de observaciones, se verica:
k

i=1
m

j=1
n
ij
= N
La frecuencia relativa conjunta f
ij
, se obtiene como: f
ij
=
n
ij
N
, (i = 1, . . . , k; j =
1, . . . , m), y se interpreta como la proporcin del total de las observaciones en las que
se observan conjuntamente los valores (x
i
, y
j
). Como consecuencia de esta denicin
se verica:

k
i=1

m
j=1
f
ij
= 1
Denicin 5.1. Una distribucin bidimensional viene dada por las observaciones
conjuntas de dos caracteres con sus frecuencias correspondientes, que representaremos
genricamente por (x
i
, y
j
, n
ij
) o (x
i
, y
j
, f
ij
), (i = 1, ..., k; j = 1, ..., m).
Las distribuciones bidimensionales suelen representarse mediante tablas del tipo:
72
5 Anlisis conjunto. Asociacin y correlacin
X\Y y
1
y
2
y
m
x
1
n
11
n
12
n
1m
x
2
n
21
n
22
n
2m
.
.
.
.
.
.
.
.
.

.
.
.
x
k
n
k1
n
k2
n
km
o bien, como caso particular cuando las frecuencias son unitarias, por tablas de dos
columnas:
X Y
x
1
y
1
x
2
y
2
.
.
.
.
.
.
x
N
y
N
Si se trata de caracteres cuantitativos o variables las tablas anteriores se denominan
tablas de correlacin. La grca ms habitual en este caso es la nube de puntos, que
consiste en representar en un sistema de coordenadas cartesianas los pares de valores
(x
i
, y
j
).
Figura 5.1: Nube de puntos X-Y
Ejemplo 5.1. Las variables renta familiar (X) y gasto en viajes (Y ), ambas expre-
sadas en miles de euros, pueden ser representadas mediante una tabla del siguiente
tipo:
X\Y 2 4 10
24 4 1
30 2 5 1
50 1 6
73
5 Anlisis conjunto. Asociacin y correlacin
En el caso del estudio conjunto de dos caracteres cualitativos o atributos, las tablas
resultantes reciben el nombre de tablas de contingencia.
Ejemplo 5.2. La tabla siguiente representa la informacin relativa al sexo (X) y la
situacin de actividad (Y ) de 30 personas:
X\Y Ocupados Parados Inactivos
Hombres 12 4 2
Mujeres 2 4 6
Tambin existen distribuciones mixtas, en las cuales una caracterstica es cuanti-
tativa y otra cualitativa, como la clasicacin de los habitantes de un pas segn la
edad y el sexo. Este tipo de representacin resulta muy habitual por aparecer estre-
chamente ligado a las pirmides de poblacin. La pgina web del Instituto Nacional
de Estadstica (www.ine.es) en el apartado dedicado a Censos de Poblacin permite
construir tablas como la siguiente:
En este tema nos centraremos principalmente en el estudio conjunto de caracteres
cuantitativos o variables, que es el caso ms habitual. Una visin intuitiva del com-
portamiento conjunto de dos variables puede obtenerse a partir de la correspondiente
nube de puntos que, como hemos visto anteriormente, es una representacin grca
sencilla consistente en representar las variables en un sistema de ejes cartesianos. Tal y
como puede verse en la gura 5.1, los pares de valores dan lugar a una serie de puntos
sobre el plano que se corresponden con las observaciones, y la forma de la nube de
puntos puede resultar de gran utilidad para analizar la forma en que se relacionan las
variables estudiadas y la intensidad de la relacin existente entre ellas.
5.2. Distribuciones marginales y condicionadas
Supongamos que a partir de la distribucin conjunta sobre renta y gasto en viajes
nos interesa estudiar aisladamente la renta o el gasto en viajes. En tal caso tendremos
que considerar distribuciones unidimensionales que sern las distribuciones marginales
de las variables X e Y respectivamente. As, la distribucin marginal de la renta (X)
se obtiene considerando los valores que toma esa variable, as como sus respectivas fre-
cuencias independientemente de los valores del gasto en viajes (Y ) con los que aparece.
Ms concretamente, sobre el ejemplo anterior se tendra la siguiente distribucin:
Valores X Frecuencias
24 5
30 8
50 7
74
5 Anlisis conjunto. Asociacin y correlacin
De manera anloga se obtiene la distribucin marginal del gasto en viajes (Y )
Valores Y Frecuencias
2 6
4 7
10 7
Como se puede observar, en ambos casos analizamos el comportamiento de una de
las variables ignorando, en cierto modo, el de la otra.
Denicin 5.2. Dada una distribucin bidimensional (x
i
, y
j
, n
ij
); i = 1, . . . , k, j =
1, . . . , m, la distribucin marginal de X es una distribucin unidimensional que vendr
dada por los pares (x
i
, n
i.
), i = 1, , k donde n
i.
es la frecuencia marginal del valor
x
i
, obtenida como suma de la i-sima la de frecuencias absolutas conjuntas, es decir
n
i.
=

m
j=1
n
ij
.
Siguiendo esta denicin, en la tabla de correlacin aparecen las frecuencias margi-
nales n
1.
, n
2.
, , n
k.
X\Y y
1
y
2
y
m
n
i.
x
1
n
11
n
12
n
1m
n
1.
x
2
n
21
n
22
n
2m
n
2.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
x
k
n
k1
n
k2
n
km
n
k.
n
.j
n
.1
n
.2
n
.m
N
La distribucin marginal de X puede venir tambin dada por (x
i
, f
i.
), donde la
frecuencia relativa f
i.
es el cociente entre el nmero de veces que aparece el valor x
i
y
el nmero total de observaciones (N), es decir: f
i.
=
n
i.
N
.
Dado que las distribuciones marginales son distribuciones unidimensionales, es po-
sible calcular sobre ellas todas las medidas estudiadas en temas anteriores, tales como
media, mediana, moda, varianza, medidas de desigualdad, etc. La media y la varianza
marginal de la variable X vienen dadas por las expresiones:
x =
k

i=1
x
i
f
i.
=
k

i=1
m

j=1
x
i
f
ij
S
2
X
=
k

i=1
(x
i
x)
2
f
i.
=
k

i=1
m

j=1
(x
i
x)
2
f
ij
De modo anlogo se podra denir la distribucin marginal de Y como (y
j
, n
.j
)
o (y
j
, f
.j
) con n
.j
=

k
i
n
ij
, calculando sobre la misma la media marginal u otros
promedios y la varianza marginal.
75
5 Anlisis conjunto. Asociacin y correlacin
Ejemplo 5.3. A modo de ilustracin, partiendo de la tabla de correlacin entre renta
y gasto en viajes (Ejemplo 5.1) se obtienen las siguientes medidas marginales:
x = 35, 5 ; S
2
X
= 118, 75
y = 5, 5 ; S
2
Y
= 11, 55
Adems del anlisis marginal anteriormente descrito, a partir de una distribucin
bidimensional es posible llevar a cabo un anlisis condicionado, estudiando de qu
modo una de las variables estudiadas inuye o condiciona a la otra.
Ejemplo 5.4. Supongamos que a partir de los datos anteriores sobre renta y gasto
en viajes queremos conocer el comportamiento del gasto en viajes para las familias
con determinado nivel de renta. Este planteamiento nos conduce a la distribucin de
Y condicionada a un valor de X. As por ejemplo, la tabla nos muestra los valores y
frecuencias del gasto en viajes condicionado a una renta de 24.000 euros (es decir, la
distribucin de Y condicionada a X = 24, en el Ejemplo 5.1):
Valores Y/X=24 Frecuencias
2 4
4 1
10 0
De esta manera tenemos la distribucin del gasto en viajes para una subpoblacin
de la poblacin global: el colectivo de familias que perciben una renta de 24.000 euros.
Anlogamente, se podra obtener la distribucin de la renta condicionada a algn valor
del gasto en viajes.
Denicin 5.3. Dada una distribucin bidimensional (x
i
, y
j
, n
ij
), i = 1, . . . , k , j =
1, . . . , m, la distribucin de X condicionada a y
j
es una distribucin unidimensional
que se denota por X/y
j
, j = 1, , m y viene dada por:
(x
i
, n
ij
), i = 1, . . . , k
o bien en trminos de frecuencias relativas por: (x
i
, f
i/j
), i = 1, . . . , k, donde la
frecuencia relativa f
i/j
que tambin se denota por f(x
i
/y
j
) se obtiene como cociente
entre la frecuencia conjunta del par (x
i
, y
j
), y la frecuencia marginal del valor y
j
, es
decir:
f
i/j
=
n
ij
n
.j
=
f
ij
f
.j
Denicin 5.4. Dada una distribucin bidimensional (x
i
, y
j
, n
ij
), i = 1, . . . , k, j =
1, . . . , m la distribucin de Y condicionada a x
i
, i = 1, . . . , k, viene dada por:
(y
j
, n
ij
), j = 1, . . . , m
o bien, en trminos de frecuencias relativas, por: (y
j
, f
j/i
), j = 1, . . . , m donde
f
j/i
=
n
ij
n
i.
=
f
ij
f
i.
, expresin que puede tambin denotarse como f(y
j
/x
i
).
76
5 Anlisis conjunto. Asociacin y correlacin
Las distribuciones condicionadas, al igual que las marginales, son distribuciones
unidimensionales para las cuales se pueden calcular todas las medidas denidas en
temas previos.
Las medias y las varianzas de las distribuciones condicionadas anteriores vienen
dadas por las expresiones siguientes:
Media condicionada Varianza condicionada
x/y
j
=
k

i=1
x
i
f
i/j
S
2
X/y
j
=
k

i=1
(x
i
x/y
j
)
2
f
i/j
y/x
i
=
m

j=1
y
j
f
j/i
S
2
Y/x
i
=
m

j=1
(y
j
y/x
i
)
2
f
j/i
Propiedad 5.1. La media marginal de X puede ser obtenida como media de las
medias de X condicionadas a los distintos valores de Y .
Demostracin.
m

j=1
( x/y
j
) f
.j
=
k

i=1
m

j=1
x
i
f
i/j
f
.j
=
k

i=1
m

j=1
x
i
n
ij
n
.j
n
.j
N
=
k

i=1
x
i
m

j=1
n
ij
N
=
k

i=1
x
i
f
i.
= x
En otros trminos, si consideramos las medias de X condicionadas a todos los po-
sibles valores de Y , x/y
1
, x/y
2
, . . . , x/y
m
, la situacin sera equivalente a considerar
distintas subpoblaciones de una poblacin total. Como consecuencia podramos apli-
car la propiedad ya estudiada que permite obtener la media global a partir de las
medias de subpoblaciones.
Anlogamente se puede demostrar que la media marginal de Y puede obtenerse a
partir de las medias de Y condicionadas a distintos valores de X:
k

i=1
( y/x
i
) f
i.
= y
Ejemplo 5.5. A modo de ilustracin, podemos calcular las medias de gasto en viajes
condicionadas a los distintos valores de la renta:
( y/X = 24) = 2, 40
( y/X = 30) = 4, 25
( y/X = 50) = 9, 14
Y a partir de todas ellas es posible obtener la media marginal de Y :
y =
k

i=1
( y/x
i
) f
i.
= 2, 4 0, 25 + 4, 25 0, 4 + 9, 14 0, 35 = 5, 5
77
5 Anlisis conjunto. Asociacin y correlacin
5.3. Dependencia e independencia estadstica
Al llevar a cabo un anlisis conjunto de variables resulta interesante examinar las
posibles relaciones de dependencia existentes entre ellas, que pueden ser de muy diverso
tipo, tal y como ilustran los siguientes ejemplos:
Ejemplo 5.6. En un surtidor de gasolina se observa determinado da el nmero de
litros de cierto tipo de combustible (X) y el importe pagado por los clientes (Y ), cuya
distribucin conjunta se representa en una nube de puntos. Como se puede apreciar
en la gura 5.2 es posible trazar una lnea recta que pasa por todos esos puntos, y que
explica el importe pagado en funcin de la cantidad de combustible.
Figura 5.2: Nube de puntos consumo de combustible-importe pagado
As pues, ste es un caso de dependencia funcional : la variable Y depende fun-
cionalmente de X puesto que existe una aplicacin unvoca que expresa la relacin
entre ambas variables y permite obtener los importes pagados a partir de la cantidad
de combustible (Y = kX, siendo k el precio del litro de combustible el da en que
realizamos las observaciones).
Se observa adems que en este ejemplo tambin X depende funcionalmente de Y ,
puesto que existe una funcin que permite obtener la cantidad de combustible a partir
del importe abonado (X =
Y
k
).
Ejemplo 5.7. La informacin relativa a renta familiar y gasto en viajes puede ser
representada mediante una nube de puntos como en la gura 5.3, donde se aprecia que
si bien no existe una funcin que explique de forma exacta el gasto en viajes a partir
de la renta, las observaciones tienden a agruparse alrededor de una lnea y podemos
aproximarlas mediante una recta, pudiendo resultar de inters tratar de obtener aque-
lla recta que mejor explique, basndose en estos datos, el gasto en viajes a partir de la
renta. Es necesario notar que conceptualmente no tendra sentido considerar en este
caso una recta para explicar la renta a partir del gasto en viajes.
78
5 Anlisis conjunto. Asociacin y correlacin
Figura 5.3: Nube de puntos renta familiar-gasto en viajes
Ejemplo 5.8. De modo similar, si consideramos informacin para los tcnicos de una
empresa sobre su experiencia (X, en aos) y el tiempo medio tardado en realizar una
tarea (Y , en minutos), la nube de puntos de la gura 5.4 muestra que tampoco en este
caso existe una funcin que exprese de manera exacta el tiempo medio empleado a
partir de la experiencia, pero estos datos pueden ser aproximados por una hiprbola,
resultando de inters tratar de obtener, basndonos en las observaciones, aqulla que
mejor explique el tiempo medio tardado a partir de la experiencia.
Figura 5.4: Nube de puntos experiencia-tiempo para realizar una tarea
Ejemplo 5.9. Por ltimo, si representamos la altura (X, en m) y la renta disponible
anual (Y , en miles de euros), la distribucin conjunta da lugar a la nube de puntos
de la gura 5.5, donde las observaciones no presentan relacin alguna y no es posible
encontrar una funcin que aproxime los datos y nos permita obtener la renta disponible
79
5 Anlisis conjunto. Asociacin y correlacin
a partir de la altura.
Figura 5.5: Nube de puntos altura-renta disponible
En sntesis, los ejemplos anteriores recogen los distintos tipos de relacin existente
entre variables, desde la dependencia funcional (cuando existe una funcin que expresa
de manera exacta la relacin entre las variables, como en el caso del consumo de
combustible y su importe), hasta la independencia (como el caso de altura y renta),
pasando por las situaciones de dependencia estadstica. La independencia estadstica
se presentar cuando entre las variables consideradas no exista ningn tipo de relacin.
Intuitivamente diremos que dos variables son independientes si los valores que adopta
cada una de ellas no estn inuenciados por los valores que toma la otra.
Denicin 5.5. Dada una variable bidimensional (X, Y ) se dice que X es indepen-
diente de Y cuando las distribuciones de X condicionadas a cualquier valor de Y
coinciden, siendo adems iguales a la distribucin marginal de X, esto es, cuando:
f(x
i
/y
j
) = f(x
i
/y
h
) = f
i.
, i = 1, . . . , k; j, h = 1, . . . , m
La denicin anterior implica que las frecuencias no se ven afectadas por los valores
a los que se condiciona la variable X.
De manera anloga, la variable Y es independiente de X cuando las distribuciones
de Y condicionadas a cualquier valor de X coinciden con la distribucin marginal de
Y , es decir, cuando:
f(y
j
/x
i
) = f(y
j
/x
r
) = f
.j
, j = 1, . . . , m; i, r = 1, . . . , k
La independencia es un concepto relativo, por lo que si se habla de variables indepen-
dientes conviene preguntarse respecto a qu. El concepto que acabamos de introducir
se reere a la independencia en trminos de frecuencias, tambin conocido como in-
dependencia estadstica pero pueden plantearse otras deniciones: independencia en
probabilidad, independencia en informacin, etc.
80
5 Anlisis conjunto. Asociacin y correlacin
Propiedad 5.2. ( Condicin de independencia) Si una variable X es independiente de
otra variable Y , la frecuencia relativa conjunta de todos los pares de valores ser igual
al producto de las frecuencias relativas marginales de los valores correspondientes, es
decir, X es independiente de Y , si y solo si, se cumple:
f
ij
= f
i.
f
.j
, i = 1, . . . , k; j = 1, . . . , m
Demostracin. Dado que X es independiente de Y , se tiene: f
i/j
= f
i.
y, por denicin,
f
i/j
=
f
ij
f
.j
, por tanto, f
ij
= f
i.
f
.j
, i = 1, . . . , k; j = 1, . . . , m.
Procediendo de forma anloga en sentido contrario deducimos el recproco.
La condicin de independencia resulta de gran utilidad en la prctica ya que, si se
quiere comprobar a partir de una tabla de correlacin si dos variables son indepen-
dientes, en general resultar ms cmodo realizar la comprobacin de dicha igualdad
que comprobar si todas las distribuciones condicionadas de una variable coinciden con
la marginal. La condicin de independencia es una relacin simtrica por lo que si X
es independiente de Y , se verica la condicin permutando las variables, es decir, se
cumple tambin que Y es independiente de X. La independencia entre variables es,
pues, un concepto recproco sin implicaciones en el orden de independencia.
En las tablas de correlacin aparecen a menudo frecuencias absolutas, resultando
conveniente expresar la condicin de independencia en trminos de stas, es decir:
f
ij
= f
i.
f
.j
n
ij
=
n
i.
n
.j
N
; i = 1, . . . , k; j = 1, . . . , m
Entre los dos casos extremos de dependencia funcional e independencia estadsti-
ca pueden existir muchas situaciones intermedias, caracterizadas porque existe una
cierta relacin entre las variables que no puede ser expresada mediante una funcin;
son casos de dependencia estadstica. En general, los fenmenos econmicos no suelen
ser deterministas, no vienen especicados por leyes rgidas que conducen a resulta-
dos exactos; por el contrario, ms bien podemos armar que existe una importante
conexin entre diferentes fenmenos econmicos, pero que no admite una expresin
exacta o funcional; por tanto, la forma de representar esa conexin ser mediante una
dependencia estadstica.
5.4. Medidas de asociacin
Cuando disponemos de informacin referida a dos caracteres cualitativos recogida
en una tabla de contingencia podemos determinar si estos dos atributos son o no
independientes mediante la condicin de independencia, puesto que en dicha condicin
no intervienen los valores, sino nicamente las frecuencias con las que stos aparecen.
Una vez comprobado que dos atributos son dependientes podemos cuanticar el gra-
do de asociacin o dependencia entre ellos a travs de diversas medidas de asociacin
entre las que destacan los coecientes de Pearson y Kendall.
81
5 Anlisis conjunto. Asociacin y correlacin
El coeciente chi-cuadrado de Pearson compara la distribucin observada con la
que se habra obtenido en el supuesto de que los atributos fuesen estadsticamente
independientes.
Como ya hemos visto, en condiciones de independencia las frecuencias conjuntas n
ij
se obtendran a partir de las marginales, segn la condicin de independencia, como:
n
i.
n
.j
N
.
Denicin 5.6. El coeciente chi-cuadrado de Pearson es una medida de la distancia
entre dos distribuciones, que viene dada por la expresin siguiente:

2
=
k

i=1
m

j=1
_
n
ij

n
i.
n
.j
N
_
2
n
i.
n
.j
N
(5.4.1)
Este coeciente mide, en trminos relativos, cunto dista la distribucin conjunta
de los atributos de la situacin de independencia; por tanto, un valor ms elevado de

2
indica un mayor grado de asociacin entre los atributos mientras que en caso de
independencia este coeciente ser nulo.
Propiedad 5.3.
2
= 0 si y slo si X e Y son independientes
Demostracin. Dado que todos los sumandos que intervienen en el coeciente chi-
cuadrado son no negativos, si
2
= 0 entonces todos y cada uno de dichos trminos
deben ser nulos y, en consecuencia, los respectivos numeradores tambin, con lo cual
se cumplir la condicin de independencia. Anlogamente, en sentido contrario, par-
tiendo de la condicin de independencia se deducir que en tal situacin el coeciente
chi-cuadrado toma valor nulo.
Esta medida no presenta una cota absoluta sino que su valor mximo depende del
nmero de las y columnas de la distribucin sobre la que se calcule. No obstante, su
gran ventaja es que para tamaos grandes desde un enfoque probabilstico se conoce
su distribucin (denominada chi-cuadrado de Pearson), que nos permite asignar una
abilidad en trminos de probabilidad a nuestras conclusiones sobre la dependencia
de las variables o atributos.
Denicin 5.7. Llamamos coeciente de contingencia de Pearson, C, al valor posi-
tivo de la siguiente expresin:
C =


2
N +
2
(5.4.2)
El resultado de C est acotado entre 0 y 1, correspondiendo el valor nulo al caso de
independencia entre los atributos, y aumentando el valor de C con la intensidad de la
asociacin entre atributos. Puede comprobarse que el valor 1 no se alcanza nunca y
para una tabla cuadrada de dimensin mm la cota superior que se puede alcanzar
es
_
m1
m
.
82
5 Anlisis conjunto. Asociacin y correlacin
En el caso de que sea posible establecer una ordenacin natural en las modalidades
de los atributos, para medir el grado de asociacin entre los mismos se pueden emplear
medidas de correlacin por rangos entre las que destaca el coeciente de Kendall.
En general, si se parte de una distribucin conjunta como la representada en la
tabla:
X Y
x
1
y
1
x
2
y
2
.
.
.
.
.
.
x
N
y
N
la medida de Kendall se construye analizando los pares de observaciones (x
i
, y
i
)
(x
j
, y
j
) que se clasican en concordantes y discordantes. Se dice que dos pares de
observaciones (x
i
, y
i
) (x
j
, y
j
) son concordantes si los rangos de sus dos elementos
coinciden, es decir si se cumple x
i
> x
j
, y
i
> y
j
o bien x
i
< x
j
, y
i
< y
j
. En cambio, se
dice que los pares son discordantes si se cumple x
i
> x
j
, y
i
< y
j
o bien x
i
< x
j
, y
i
>
y
j
. Por ltimo, en caso de igualdad x
i
= x
j
o y
i
= y
j
los pares no son ni concordantes
ni discordantes (se dice que hay un empate).
Denicin 5.8. El coeciente de Kendall se dene mediante la expresin:
=
(nmero de pares concordantes)-(nmero de pares discordantes)
N(N1)
2
(5.4.3)
El coeciente de Kendall est acotado entre -1 y 1, tomando el valor 0 en caso de
independencia, el valor 1 cuando la asociacin es mxima (es decir, coinciden las dos
ordenaciones) y -1 cuando las dos ordenaciones son inversas.
5.5. La correlacin y su medida
La dependencia estadstica, que es el tipo de relacin ms habitual entre variables
econmicas, admite diferentes grados, ya que puede presentarse una asociacin ms o
menos intensa entre variables. De ah el inters de denir medidas que cuantican el
grado de dependencia entre dos variables.
Si consideramos la nube de puntos asociada a la distribucin de renta y gasto en
viajes (gura 5.4), se puede apreciar que las variables X e Y estn relacionadas posi-
tivamente, pues a valores altos de renta corresponden valores altos de gasto en viajes.
Las comparaciones sobre las variables no suelen plantearse en trminos absolutos,
pues si se produce un cambio de dimensionalidad en las unidades de las variables, sta
puede distorsionar el verdadero grado de asociacin existente entre ellas.
Como primera etapa en la construccin de una medida, tomaremos los valores nor-
malizados respecto a sus medias; esto es, en vez de considerar los valores originales de
83
5 Anlisis conjunto. Asociacin y correlacin
las variables los consideraremos centrados respecto a su media. Si consideramos ahora
el producto de estas desviaciones: (x
i
x)(y
j
y), un signo positivo indica que los
valores de ambas variables se sitan por debajo o por encima de la media, mientras un
signo negativo seala un cambio de sentido de modo que mientras una de las variables
se sita por encima de la media, la otra est por debajo.
Este producto de desviaciones nos permite hacer comparaciones para cada par de
valores de la distribucin. Sin embargo, lo que pretendemos es construir una medida
que facilite un valor nico para el conjunto de todos los datos y con este objetivo
podemos construir un promedio del producto de desviaciones teniendo en cuenta sus
correspondientes frecuencias.
Denicin 5.9. Dada una variable bidimensional (X, Y ), se denomina covarianza,
que se denota por S
XY
, al valor de la expresin:
S
XY
=
k

i=1
m

j=1
(x
i
x) (y
j
y) f
ij
(5.5.1)
La covarianza es una medida de variacin conjunta de dos variables que indica
nicamente el signo de su relacin lineal, ya que como observamos en su expresin
relaciona las desviaciones de orden 1 en X con las del mismo orden en Y .
Si consideramos la covarianza de una variable consigo misma, obtenemos la varianza
de esa variable, que adopta siempre un valor no negativo (puesto que al comparar
una variable consigo misma siempre varan en la misma direccin). Sin embargo la
covarianza entre dos variables distintas puede tener signo positivo o negativo indicando
dicho signo la direccin de la relacin.
Ms concretamente, teniendo en cuenta la denicin anterior, un signo positivo de
la covarianza signica que al promediar pesan ms los sumandos positivos que los
negativos, de modo que cuando una variable aumenta por encima de su media, la otra
lo hace tambin, situacin representada en la nube de puntos de la gura 5.6.
Teniendo en cuenta los cuadrantes denidos por las medias marginales x e y, en la
gura 5.6, se observa que un punto (x
i
, y
j
) situado en el cuadrante superior derecho
tiene desviaciones positivas respecto a las medias x e y, por lo que el producto de
ambas desviaciones ser tambin positivo. De modo anlogo, para los pares de valores
situados en el cuadrante inferior izquierdo las desviaciones respecto de las medias
marginales sern ambas negativas, y el producto de ambas adoptar nuevamente signo
positivo. Como consecuencia, si -como sucede en la gura 5.6- la mayora de los puntos
de la nube estn en los cuadrantes superior derecho e inferior izquierdo entonces la
covarianza ser positiva porque la mayora de los sumandos tendrn ese signo.
Ejemplo 5.10. A modo de ejemplo, sta sera la situacin observada al analizar con-
juntamente la renta y el gasto en viajes, ya que generalmente cuando la renta supera al
valor medio tambin el gasto en viajes se encontrar por encima del gasto medio. Co-
mo consecuencia, la covarianza entre ambas variables presentar signo positivo. Ms
concretamente, partiendo de la tabla de correlacin de la renta y el gasto en viajes
del ejemplo 5.1 se llega al resultado S
XY
= 30, 15.
84
5 Anlisis conjunto. Asociacin y correlacin
Figura 5.6: Anlisis del signo de la covarianza
La situacin opuesta se presenta cuando la mayor parte de las observaciones corres-
ponden a los cuadrantes superior izquierdo e inferior derecho, en los que una de las
variables adopta valores superiores a su media marginal mientras la otra se sita en
valores inferiores a la media. En este caso, las desviaciones tienen signos opuestos y su
producto dar un resultado negativo. Como consecuencia, la covarianza ser negativa,
indicando la existencia de una relacin lineal inversa entre las variables. Este tipo de
situaciones se presentar por ejemplo al analizar conjuntamente la experiencia y el
tiempo empleado en realizar una tarea, como se puede observar en la nube de puntos
representada en la gura 5.4, que presenta pendiente negativa. Por ltimo, en el caso
de que la nube de puntos observada se repartiese homogneamente entre los cuatro
cuadrantes, la covarianza adoptara un valor aproximadamente nulo (ya que los pro-
ductos de desviaciones de signo positivo se compensaran con los de signo negativo).
Esta situacin (similar a la representada en la nube de puntos de la gura 5.5) estara
indicando que no existe relacin lineal entre las variables (como por ejemplo sucedera
al analizar conjuntamente la renta y la altura).
Propiedad 5.4. Si dos variables X e Y son independientes entonces la covarianza
entre X e Y es nula
Demostracin. Para X e Y independientes se verica f
ij
= f
i.
f
.j
y, en consecuencia:
85
5 Anlisis conjunto. Asociacin y correlacin
S
XY
=
k

i=1
m

j=1
(x
i
x)(y
j
y)f
ij
=
k

i=1
m

j=1
(x
i
x)(y
j
y)f
i.
f
.j
=
k

i=1
(x
i
x)f
i.
. .
=0
m

j=1
(y
j
y)f
.j
. .
=0
= 0
donde la ltima igualdad es consecuencia de la propiedad 2.1 de la media aritmtica,
aplicada a las distribuciones marginales de X e Y .
Conviene sealar que sin embargo, el recproco de esta propiedad no es cierto, esto
es, existen variables cuya covarianza es nula y que no son independientes. Este hecho
se debe a que la covarianza es una medida de dependencia lineal, y por tanto cuando
proporciona resultados nulos permite nicamente asegurar que las variables analizadas
no presentan relacin lineal entre s, es decir, son incorreladas.
Ejemplo 5.11. Si el precio (X, en euros) y la demanda (Y , en miles de unidades) de
cierto producto presentan la siguiente distribucin conjunta:
X Y
20 1
30 5
50 4
70 2
se puede comprobar fcilmente que S
XY
= 0 y sin embargo no se cumple la condicin
de independencia ya que se tiene n
11
N = 4 y en cambio n
1.
n
.1
= 1.
Propiedad 5.5. La covarianza se puede obtener como diferencia entre la media del
producto de las variables y el producto de las medias, esto es:
S
XY
=
k

i=1
m

j=1
x
i
y
j
f
ij
x y
Demostracin. Partiendo de la denicin de la covarianza se obtiene:
86
5 Anlisis conjunto. Asociacin y correlacin
S
XY
=
k

i=1
m

j=1
(x
i
x) (y
j
y) f
ij
=
k

i=1
m

j=1
x
i
y
j
f
ij
x
k

i=1
m

j=1
y
j
f
ij
y
k

i=1
m

j=1
x
i
f
ij
+ x y
k

i=1
m

j=1
f
ij
=
k

i=1
m

j=1
x
i
y
j
f
ij
x
m

j=1
y
j
f
.j
y
k

i=1
x
i
f
i.
+ x y
k

i=1
m

j=1
f
ij
=
k

i=1
m

j=1
x
i
y
j
f
ij
x y
Esta expresin resulta de gran utilidad prctica, pues facilita los clculos al permitir
trabajar con las variables originales, sin necesidad de realizar una transformacin en
desviaciones.
Propiedad 5.6. La covarianza es invariante ante cambios de origen, es decir, dadas
X

= X +a e Y

= Y +b se cumple S
X

Y
= S
XY
Demostracin.
S
X

Y
= S
X+a,Y +b
=
k

i=1
m

j=1
[x
i
+a ( x +a)] [y
j
+b ( y +b)] f
ij
=
k

i=1
m

j=1
(x
i
x)(y
j
y)f
ij
= S
XY
Esta propiedad indica que un cambio de origen en una o ambas variables supone
una traslacin de los datos que no afecta a la relacin lineal, en cambio no sucede lo
mismo con los cambios de escala, ya que stos afectan a las unidades de las variables
y por tanto a su covarianza.
Propiedad 5.7. La covarianza viene afectada por cambios de escala. Si se tiene X

=
cX e Y

= dY la covarianza de las nuevas variables vendr dada por la expresin:


S
X

Y
= (cd)S
XY
Demostracin.
S
X

Y
= S
cX,dY
=
k

i=1
m

j=1
(cx
i
c x)(dy
j
d y)f
ij
= cd
k

i=1
m

j=1
(x
i
x)(y
j
y)f
ij
= cdS
XY
87
5 Anlisis conjunto. Asociacin y correlacin
A pesar de sus muchas ventajas, la covarianza tiene tambin algunas limitaciones
importantes. Por una parte, como ya hemos comentado esta medida recoge nicamente
la dependencia que afecta a la componente lineal de la relacin entre variables. Por
tanto, es posible obtener distribuciones de variables que guardan relacin exacta y
presentan covarianza nula (ste sera el caso por ejemplo, en situaciones del tipo y =
x
2
, donde x adopta valores positivos y negativos simtricos).
Adems, la covarianza presenta el inconveniente de ser una medida absoluta, ya que
depende de las unidades de medida de las variables y por lo tanto no permite comparar
la intensidad de la dependencia lineal de distribuciones que vienen expresadas en
unidades diferentes. Como consecuencia, la covarianza no est acotada y por tanto no
indica el grado de dependencia lineal entre dos variables, sino nicamente su signo.
De ah la conveniencia de denir un coeciente que, respetando las ventajas de la
covarianza, solucione esta limitacin.
Denicin 5.10. El coeciente de correlacin lineal de Pearson se dene como el
cociente entre la covarianza de X e Y y el producto de las desviaciones tpicas de
ambas variables, es decir:
r
XY
=
S
XY
S
X
S
Y
(5.5.2)
Como consecuencia de su denicin, el coeciente de correlacin lineal mantiene el
signo de la covarianza que lleva en su numerador (ya que el denominador es siempre
positivo al ser producto de desviaciones tpicas). As pues, para variables con relacin
lineal directa el coeciente de correlacin lineal de Pearson ser positivo y para varia-
bles con relacin lineal inversa dicho coeciente adoptar signo negativo. Adems, ya
hemos comprobado que en caso de independencia la covarianza adopta valor nulo, y
por tanto tambin ser nulo en ese caso el coeciente de correlacin lineal de Pearson.
Propiedad 5.8. El coeciente de correlacin lineal es una medida acotada entre -1 y
1:
1 r
XY
1
Al tratarse de una medida acotada entre -1 y 1, el coeciente de correlacin lineal
de Pearson permite medir el grado de dependencia lineal entre dos variables. As, en
caso de relacin lineal directa, el coeciente se aproxima a 1 a medida que aumenta
la intensidad de dicha relacin, presentando valor unitario en el caso de dependencia
funcional lineal directa (como en el ejemplo 5.6 del consumo de combustible y el gasto
asociado). Obviamente se cumple tambin r
XX
= 1 ya que cada variable presenta
correlacin exacta consigo misma. De modo anlogo, en el caso contrario (correlacin
inversa) a medida que aumenta la intensidad el coeciente se acerca a -1 y se obtendra
r
XY
= 1 en caso de dependencia funcional lineal inversa.
Ejemplo 5.12. El coeciente de correlacin lineal de Pearson entre las variables
renta y gasto puede ser calculado a partir de su covarianza y las desviaciones tpicas
88
5 Anlisis conjunto. Asociacin y correlacin
marginales:
S
XY
= 30, 15
S
X
= 10, 9
S
Y
= 3, 4
As se llega al resultado
r
XY
=
S
XY
S
X
S
Y
= 0, 81
que detecta un alto nivel de correlacin positiva (81 %) entre la renta y el gasto en
viajes.
Conviene tener presente que la existencia de un elevado nivel de correlacin lineal
no siempre indica la existencia de relaciones de dependencia entre las variables anali-
zadas, ya que a menudo se presentan correlaciones espurias, en las que dos variables
que no tienen relacin de dependencia entre ellas presentan un elevado nivel de corre-
lacin, como consecuencia de su conexin con una tercera variable que en ocasiones se
denomina variable escondida o factor de confusin. Este sera el caso si por ejemplo
analizamos las ventas de helados y los ingresos hospitalarios en unidades respiratorias,
ya que ambas variables podran verse afectadas por las temperaturas.
Propiedad 5.9. El coeciente de correlacin lineal no se ve afectado por cambios
de origen en las variables, es decir, dadas X

= X + a e Y

= Y + b se cumple
r
X

Y
= r
XY
.
Propiedad 5.10. El coeciente de correlacin lineal viene afectado por cambios pro-
porcionales. Ms concretamente, si se produce un cambio de escala en las variables,
esto es, si X

= cX e Y

= dY entonces se cumple:
_

_
r
X

Y
= r
XY
si cd > 0
r
X

Y
= r
XY
si cd < 0
Ambas propiedades son consecuencia directa de las propiedades de la covarianza
(propiedades 5.6 y 5.7) y la desviacin tpica (propiedad 3.5).
89
6 Regresin lineal simple
Como ya hemos visto en el tema anterior, las relaciones entre variables estadsticas
pueden mostrar distintos niveles de intensidad y ser representadas mediante diferentes
formas funcionales (lineal, parablica, hiperblica, ...).
En este tema nuestro objetivo son las tcnicas de regresin simple, que permiten
construir modelos para representar la relacin existente entre dos variables. As, nos
planteamos buscar la lnea que mejor explique el comportamiento de una variable
dependiente (Y ) a partir de una variable explicativa (X) que suponemos causa de Y .
Esta lnea, que denominaremos lnea de regresin de Y sobre X (Y/X), corresponde
a un concepto ideal, al que trataremos de aproximamos con la informacin estadstica
disponible y sobre la base de algn criterio de optimalidad.
6.1. Correlacin y regresin
La existencia de un alto nivel de correlacin entre dos variables puede detectarse
a travs de la correspondiente nube de puntos y cuanticarse a partir del coeciente
de correlacin lineal, que como ya hemos visto permite conocer la intensidad y el
signo de la correlacin existente entre X e Y . Sin embargo es posible que se observen
altos niveles de correlacin en distintos tipos de situaciones y como consecuencia de
diferentes motivos, tal y como estudiaremos en los apartados que siguen.
El punto de arranque de los estudios sobre regresin y correlacin, est asociado al
nombre de Francis Galton (1822-1911), cuyas aportaciones a la estadstica surgieron en
conexin con sus estudios sobre herencia natural, tema muy de actualidad a nales del
siglo XIX a raz de la publicacin en 1859 de la obra de su primo Darwin, El origen
de las especies.
La nocin de correlacin, que hemos estudiado en el tema anterior, fue introducida
por Galton a raz de sus investigaciones sobre la identicacin de criminales segn las
relaciones entre diversas caractersticas antropomtricas, como la altura y la longitud
del antebrazo o de los dedos.
Su otra gran aportacin, la idea de lnea de regresin surgi al medir el tamao de las
semillas de plantas de guisantes madres y de sus descendientes y observar la estabilidad
de dicho tamao. Galton encontr la justicacin en que el tamao de las semillas hijas
reverta al tamao promedio (que l cuanticaba a travs de la mediana).
Denicin 6.1. Dada una variable bidimensional (X, Y ), se denomina lnea de re-
gresin a la funcin que asigna a cada valor x
i
de X, la correspondiente media condi-
cionada de Y , f(x
i
) = y/x
i
.
Ejemplo 6.1. A modo de ilustracin, si consideramos las variables Renta (X) y Gasto
en viajes (Y ), es evidente que para familias con una misma renta x
i
se pueden observar
90
6 Regresin lineal simple
niveles muy distintos del gasto en viajes. De ah que la lnea de regresin asigne a cada
valor de la renta la media de todos los gastos en viaje observados en ese caso, es decir,
la correspondiente media condicionada.
Propiedad 6.1. La lnea de regresin es ptima en el sentido mnimo cuadrtico, es
decir, de todas las posibles funciones de Y respecto a X, la que minimiza la suma de
los cuadrados de los errores es la que pasa por las medias condicionadas: f(x
i
) = y/x
i
.
Segn la propiedad 3.4, la varianza es una medida ptima de dispersin cuadrtica.
Por tanto si nos limitsemos a un solo valor x
i
y los errores se midiesen mediante
las desviaciones cuadrticas respecto al valor ideal por donde debe pasar esa lnea,
obtendramos que ese ptimo se alcanza en la media condicionada a x
i
.
Dado que en la prctica nicamente se dispone de un conjunto de observaciones
aisladas de X, asignando a cada valor x
i
la media de Y condicionada al mismo y/x
i
,
obtendramos la lnea de regresin para esos valores concretos. En cambio la lnea
de regresin es un concepto terico que resulta inalcanzable desde una ptica real y
emprica, pero podemos aproximarnos a ella mediante el ajuste mnimo cuadrtico,
cuyo planteamiento conlleva, en primer lugar, decidir cul ser la forma ms adecuada
de la funcin, para seguidamente obtener los parmetros que la caracterizan.
La representacin grca mediante la nube de puntos nos servir de orientacin
sobre la forma de la funcin que mejor aproxima las observaciones y as por ejemplo
la informacin sobre la renta (X) y el gasto en viajes (Y ) de un grupo de individuos
dara lugar a una nube de puntos creciente de forma aproximadamente lineal, que
sugiere el ajuste mediante una recta. En otros casos la informacin disponible y la
correspondiente representacin grca podrn aconsejar ajustes mediante funciones
parablicas, hiperblicas, exponenciales, etc.
6.2. Rectas de regresin mnimo cuadrticas
La regresin de mnimos cuadrados es el mtodo de utilizacin ms generalizada,
ya que otros procedimientos como el de ajuste ortogonal o el de los momentos no
garantizan las mismas propiedades que el ajuste minimo cuadrtico.
Dada una variable bidimensional (X, Y ) que toma valores (x
i
, y
j
) con frecuencias
n
ij
, i = 1, . . . , k, j = 1, . . . , m, la nube de puntos que representa su distribucin nos
permite decidir -o al menos intuir- cul puede ser la forma de la funcin que ajusta
esos datos. Esa funcin genrica depender de una serie de parmetros desconocidos
y nuestro objetivo ser obtener, a partir de los datos disponibles, una estimacin de
esos parmetros de manera que la funcin obtenida sea la que mejor aproxime las
observaciones.
As, para cada valor observado de la variable independiente X (x
i
) podemos consi-
derar dos valores de la variable dependiente Y : el valor observado y
j
y el valor terico
y
ti
, que se obtiene mediante la funcin de ajuste.
La diferencia entre el valor observado y el valor terico recibe el nombre de error o
residuo, que denotaremos por e
ij
= y
j
y
ti
y como puede apreciarse en la gura 6.1
91
6 Regresin lineal simple
nos proporciona la equivocacin cometida al estimar mediante la funcin de ajuste el
valor de la variable Y correspondiente a x
i
.
Figura 6.1: Recta de regresin
Parece razonable considerar como funcin de regresin o ajuste aqulla que propor-
ciona los errores ms pequeos, puesto que buscamos la lnea que mejor aproxima los
datos. Por tanto, los parmetros que la caracterizan debern ser los que minimicen
los errores de ajuste.
Una primera posibilidad podra ser minimizar la suma de los residuos, es decir:
k

i=1
m

j=1
e
ij
n
ij
Sin embargo siguiendo este camino surgen algunos inconvenientes, puesto que los errores
pueden ser positivos o negativos de modo que al sumarlos pueden cancelarse unos con
otros proporcionando una idea falsa sobre las equivocaciones realmente cometidas.
Una alternativa a esta situacin podra ser minimizar la suma de errores absolutos, es
decir:
k

i=1
m

j=1
|e
ij
| n
ij
De esta forma se considera nicamente la cuanta de los errores, eliminando su signo,
lo cual impide la cancelacin de errores opuestos. Sin embargo, este mtodo presenta
algunos inconvenientes, ya que no distingue una situacin en la que haya muchos errores
pequeos de otra situacin en la que se presenten pocos errores pero de gran magnitud.
Adems el mtodo de mnimos errores absolutos presenta dicultades desde el punto
de vista matemtico por requerir aplicar el clculo diferencial a expresiones con valores
absolutos y, al igual que en la minimizacin de la suma de errores, no proporcionar al
problema una solucin nica.
El mtodo utilizado ser el ajuste por mnimos cuadrados o mnimo cuadrtico y
consistir en minimizar la suma de los cuadrados de los errores, es decir:
92
6 Regresin lineal simple
k

i=1
m

j=1
e
2
ij
n
ij
En este caso, al elevar al cuadrado los errores individuales, se elimina el signo de los
residuos no pudiendo stos cancelarse y se penalizan ms aqullos que tienen mayor
cuanta. Adems, este sistema no presenta dicultades de clculo y proporciona una
solucin nica del problema.
Introducido por Carl Friedrich Gauss (1777-1855) en 1795 en el marco de sus estu-
dios sobre la distribucin de los errores, este mtodo fue tambin formulado de forma
independiente por Adrien Marie Legendre (1752-1833) en 1805.
Aunque inicialmente este procedimiento fue diseado por Gauss para minimizar los
errores de sus estudios astronmicos en la prctica es de aplicacin generalizada en
ciencias sociales y ms concretamente en el mbito econmico, gracias a la interpretacin
intuitiva de la que es susceptible y a las propiedades que lleva asociadas.
En el caso de que entre dos variables exista una relacin lineal, la funcin de ajuste
vendr dada por una recta y
ti
= b
0
+b
1
x
i
y por tanto el mtodo de mnimos cuadrados
nos llevara a determinar los coecientes b
0
y b
1
que minimizan la expresin:
E(b
0
, b
1
) =
k

i=1
m

j=1
e
2
ij
n
ij
=
k

i=1
m

j=1
(y
j
b
0
b
1
x
i
)
2
n
ij
La condicin necesaria de extremo exige que la derivada de la expresin respecto
a los parmetros sea nula; en este caso igualamos a cero las derivadas parciales de
E(b
0
, b
1
) respecto a los parmetros b
0
y b
1
, obteniendo las ecuaciones normales:
_

_
E(b
0
, b
1
)
b
0
= 2
k

i=1
m

j=1
(y
j
b
0
b
1
x
i
)n
ij
= 0
E(b
0
, b
1
)
b
1
= 2
k

i=1
m

j=1
(y
j
b
0
b
1
x
i
) x
i
n
ij
= 0
Aplicando propiedades del operador suma, el sistema de ecuaciones normales puede
ser expresado:
_

_
m

j=1
y
j
n
.j
..
k

i=1
n
ij
= b
0
N
..
k

i=1
m

j=1
n
ij
+b
1
k

i=1
x
i
n
i
.
..
m

j=1
n
ij
k

i=1
m

j=1
x
i
y
j
n
ij
= b
0
k

i=1
x
i
m

j=1
n
ij
+b
1
k

i=1
x
2
i
m

j=1
n
ij
93
6 Regresin lineal simple
_

_
m

j=1
y
j
n
.j
= b
0
N +b
1
k

i=1
x
i
n
i.
k

i=1
m

j=1
x
i
y
j
n
ij
= b
0
k

i=1
x
i
n
i.
+b
1
k

i=1
x
2
i
n
i.
y a partir de este sistema, dividiendo ambas ecuaciones por N y teniendo en cuenta
las expresiones de clculo abreviado de S
2
X
y S
XY
(propiedades 3.2 y 5.5), se obtienen
los coecientes b
0
y b
1
de la recta:
b
1
=
S
XY
S
2
X
; b
0
= y b
1
x
Como consecuencia, la recta de regresin mnimo cuadrtica viene dada por la
expresin:
y y =
S
XY
S
2
X
(x x) (6.2.1)
Ejemplo 6.2. A partir de la informacin sobre renta y gasto en viajes disponible en
el tema anterior podemos obtener la recta de regresin mnimo cuadrtica del gasto
respecto a la renta, teniendo en cuenta que:
x = 35, 5 y = 5, 5
S
XY
= 30, 15 S
2
X
= 118, 75
As pues, aplicando las expresiones mnimo cuadrticas anteriormente deducidas se
obtienen los coecientes
b
1
=
S
XY
S
2
X
= 0, 25; b
0
= 5, 5 0, 25 35, 3 = 3, 5
o equivalentemente a la recta mnimo cuadrtica de Y respecto a X
Y = 3, 5 + 0, 25X
cuya representacin grca aparece en la gura 6.2.
Resulta interesante interpretar los coecientes de la recta de regresin: el coeciente
b
0
es la ordenada en el origen, mientras el coeciente b
1
es la pendiente de la recta,
esto es: b
1
=
Y
X
y por tanto indica la variacin producida en la variable Y ante un
incremento unitario en la variable X.
94
6 Regresin lineal simple
Figura 6.2: Recta de regresin Renta/Gasto en viajes
Ejemplo 6.3. El coeciente de la variable X resulta especialmente interesante por
su interpretacin econmica, que habitualmente puede realizarse en trminos de un
efecto marginal. As, si planteamos una recta de regresin del consumo C respecto a
la renta R, el coeciente b
1
se interpreta como la Propensin Marginal al Consumo,
es decir, el incremento que se produce en el Consumo ante un aumento unitario en la
Renta disponible.
Por su parte, b
0
es el trmino independiente de la recta que en ocasiones puede ser
interpretado como un efecto jo (por ejemplo, en la recta de Consumo se correspon-
dera con el Consumo autnomo).
En nuestro ejemplo sobre renta y gasto en viajes, el coeciente estimado b
1
= 0, 25
indica que por cada euro adicional de renta las familias dedican a gasto en viajes 0,25.
Se observa adems que el trmino independiente estimado adopta signo negativo, ya
que no tiene sentido plantearse un gasto jo en viajes para familias de rentas nulas.
Denicin 6.2. La pendiente de la recta de regresin mnimo cuadrtica de Y sobre
X se denomina coeciente de regresin de Y sobre X, r
Y/X
.
Este coeciente puede ser interpretado como una medida de la sensibilidad de la
variable Y ante cambios unitarios de X, y est relacionado con la correlacin existente
entre X e Y .
Propiedad 6.2. El coeciente de regresin de Y sobre X puede ser expresado como:
r
Y/X
= r
XY
S
Y
S
X
Demostracin. Partiendo de la denicin del coeciente de regresin basta multiplicar
y dividir por la desviacin tpica de Y para a llegar la relacin anterior:
r
Y/X
=
S
XY
S
2
X
=
S
XY
S
2
X
S
Y
S
Y
=
S
XY
S
X
S
Y
S
Y
S
X
= r
XY
S
Y
S
X
95
6 Regresin lineal simple
Esta expresin muestra que existe una estrecha relacin entre el coeciente de re-
gresin y el de correlacin lineal, aunque ambas medidas no representan lo mismo. En
realidad el coeciente de correlacin lineal trata a las dos variables de forma simtrica
mientras el coeciente de regresin de Y sobre X analiza la respuesta de una variable
ante cambios en la otra. As pues, esta conexin entre el coeciente de regresin y
el de correlacin permite interpretar el primero como una extensin del segundo, que
aade a la idea de relacin lineal una aproximacin a la explicabilidad. Teniendo en
cuenta la interpretacin del coeciente de regresin como efecto marginal de X sobre
Y podemos establecer una conexin de este trmino con la elasticidad de Y respecto
a X, que cuanticar el cambio porcentual en la variable Y cuando el valor de X se
incrementa un 1 %. Teniendo en cuenta que la elasticidad punto viene dada por la
expresin:
E
y/x
=
Y
X
x
y
se observa que el primer factor coincide con el coeciente de regresin y bastara
sustituir los valores del par (x, y) en el que deseamos evaluar la elasticidad-punto para
obtener el correspondiente resultado. Como consecuencia, a lo largo de la recta de
regresin la pendiente permanece constante, en cambio la elasticidad vara en cada
punto.
Propiedad 6.3. La suma de errores mnimo cuadrticos es nula:
k

i=1
m

j=1
e
ij
n
ij
= 0
Esta propiedad garantiza que al realizar un ajuste mnimo cuadrtico los errores de
estimacin globalmente considerados se compensan unos con otros.
Demostracin. Su comprobacin es directa a partir de la primera ecuacin normal.
k

i=1
m

j=1
(y
j
b
0
b
1
x
i
) n
ij
= 0
Propiedad 6.4. La recta de ajuste mnimo cuadrtica pasa por el centro de gravedad
de la distribucin bidimensional, es decir, por el punto ( x, y).
Demostracin. Esta propiedad conduce a la igualdad: y = b
0
+b
1
x, que se demuestra
dividiendo por N la primera ecuacin normal.
Este resultado garantiza que, aunque existan errores en la funcin ajustada, sta
asocia al valor medio marginal de X la correspondiente media marginal de Y , conclu-
sin que claramente aparece relacionada con la ausencia de error promedio enunciada
en la propiedad anterior.
96
6 Regresin lineal simple
Teniendo en cuenta esta propiedad, la elasticidad media de Y respecto a X podr
ser obtenida como:
E
y/ x
=
Y
X
x
y
expresin que, partiendo del centro de gravedad de la recta ( x, y), cuantica el efecto
porcentual que se produce en Y ante un incremento de un 1 % en X. As, a modo de
ejemplo si a partir de la informacin anterior deseamos calcular la elasticidad media
del gasto en viajes respecto a la renta, se obtiene el resultado: E
y/ x
= 25
35,5
5,5
= 1, 6.
Propiedad 6.5. Si dos variables X e Y son incorreladas, la recta de regresin es
paralela al eje de abscisas: y = y.
Demostracin. La demostracin de esta propiedad es inmediata teniendo en cuenta
que si las variables X e Y son incorreladas su covarianza ser nula y por tanto tambin
ser nulo el coeciente de regresin r
Y/X
, obtenindose una recta de regresin paralela
al eje de abscisas.
r
XY
= 0 y = y
Esta propiedad resulta lgica teniendo en cuenta que la lnea de regresin se basa
en las medias condicionadas. Ahora bien, si la variable Y no est correlacionada con
X las medias condicionadas coincidiran con la marginal.
Si bien este tema va referido al modelo de regresin lineal, el planteamiento anterior
podra ser extendido a situaciones en las que se desea explicar una variable dependiente
Y a partir de una variable explicativa X mediante una funcin no lineal. As, si nos
interesa explicar la produccin de un output Y a partir de algn input X es posible que
la nube de puntos no muestre una forma lineal, sugiriendo por ejemplo el ajuste a una
funcin potencial tipo Cobb-Douglas. En este caso, el modelo podra ser formulado
como:
Y = b
0
X
b
1
expresin que puede ser linealizada mediante una transformacin logartmica, dando
lugar a:
log(Y ) = log(b
0
) +b
1
log(X)
siendo posible aplicar sobre este modelo linealizado las expresiones deducidas para la
recta de regresin mnimo cuadrtica.
Adems, es interesante destacar que en este caso la elasticidad es constante y adopta
valor b
1
, es decir, existe una respuesta porcentual constante de magnitud b
1
en el
output Y ante un incremento de 1 % en el input X.
6.3. Anlisis de la bondad de modelos
Una vez aplicadas las tcnicas del anlisis de regresin dispondremos de una fun-
cin que explica en cierta medida la variacin de la variable dependiente Y segn el
97
6 Regresin lineal simple
comportamiento de X. Si ahora nos preguntamos hasta qu punto esta funcin pro-
porciona una descripcin adecuada del comportamiento de las variables, para analizar
la bondad de ese modelo slo disponemos del conjunto de las observaciones (x
i
, y
j
).
En el peor de los casos, esto es, en aquellas situaciones en las que no se dispone
de informacin sobre ninguna variable relevante que nos ayude a explicar el compor-
tamiento de Y , podemos tomar como mejor explicacin de esta variable su media
aritmtica y. El error en que incurrimos como consecuencia de esta eleccin vendra
dado en funcin de las desviaciones de los valores observados respecto a la media:
(y
j
y) y tomando este extremo como referencia, la consideracin de un modelo ex-
plicativo y
t
= f(x) nos servir para reducir el error. Adems, esta reduccin se produce
en mayor medida cuanto mayor sea la bondad del ajuste.
Designando por y
ti
a los valores tericos sobre la funcin de ajuste, y
ti
= f(x
i
),
tendremos:
y
j
y =
e
ij
..
(y
j
y
ti
) +(y
ti
y)
es decir, la desviacin respecto a la media para cada observacin puede descomponerse
como suma del error que queda tras efectuar la regresin e
ij
= (y
j
y
ti
) y la desviacin
que es explicada por la regresin (y
ti
y).
Partiendo de la igualdad anterior y elevando al cuadrado los dos miembros se obtiene
al promediar:
k

i=1
m

j=1
(y
j
y)
2
f
ij
=
k

i=1
m

j=1
[(y
j
y
ti
) + (y
ti
y)]
2
f
ij
Desarrollando el cuadrado del segundo miembro se llega a:
k

i=1
m

j=1
(y
j
y)
2
f
ij
=
k

i=1
m

j=1
(y
j
y
ti
)
2
f
ij
+
k

i=1
m

j=1
(y
ti
y)
2
f
ij
+2
k

i=1
m

j=1
(y
j
y
ti
) (y
ti
y) f
ij
S
2
Y
=
k

i=1
m

j=1
e
2
ij
f
ij
+
k

i=1
(y
ti
y)
2
f
i.
+ 2
k

i=1
m

j=1
(y
ti
y) e
ij
f
ij
Tal y como hemos visto, el criterio mnimo-cuadrtico de estimacin de parmetros
trata de evitar incurrir en errores sistemticos, ya sean positivos o negativos, por lo
que habitualmente la media de los errores es nula. De hecho, siempre que el modelo
ajustado incluya trmino independiente, la primera ecuacin normal garantiza que
e = 0.
Teniendo en cuenta esta consideracin, el primer sumando de la expresin obtenida
corresponde a la varianza del error; el segundo se identica con la varianza de la
variable terica puesto que y
t
= y e = y, y el tercer sumando contiene a la covarianza
entre el error y la variable terica:
98
6 Regresin lineal simple
S
2
Y
= S
2
e
+S
2
Y
t
+ 2S
Y
t
,e
(6.3.1)
En los ajustes habituales la covarianza S
Y
t
,e
ser nula como consecuencia del propio
concepto de error, que no puede guardar relacin con la variable a explicar.
Denicin 6.3. Se denomina varianza residual y se denota por S
2
e
, al valor de la
expresin:
S
2
e
=
k

i=1
m

j=1
e
2
ij
f
ij
Denicin 6.4. Se denomina varianza explicada o debida a la regresin y se denota
por S
2
Y
t
, al valor de la expresin:
S
2
Y
t
=
k

i=1
(y
ti
y)
2
f
i.
(6.3.2)
Propiedad 6.6. En el caso de un ajuste lineal, la varianza de la variable dependiente
Y puede ser expresada como suma de la varianza explicada y la varianza residual, es
decir:
S
2
Y
= S
2
Y
t
+S
2
e
Esta igualdad se obtiene teniendo en cuenta que en el caso lineal S
Y
t
,e
= 0.
Demostracin.
S
Y
t
,e
=
k

i=1
m

j=1
e
ij
(y
ti
y) f
ij
=
k

i=1
m

j=1
[e
ij
(b
0
+b
1
x
i
y)] f
ij
= b
1
k

i=1
m

j=1
e
ij
x
i
f
ij
= 0
puesto que la ltima suma equivale a la segunda ecuacin normal del ajuste por
mnimos cuadrados.
Este resultado parece lgico puesto que en caso contrario nos encontraramos con
que an permanece cierta relacin lineal entre los errores y la variable terica, lo que
hara sospechar que la funcin lineal estimada podra ser mejorada.
La relacin obtenida nos permite interpretar la variacin de Y respecto a su valor
medio a travs de dos componentes, uno que nos indica la variacin de Y que es capaz
de explicar el modelo, y otro que representa la parte de variacin de Y que permanece
sin explicar.
Partiendo de la descomposicin anterior de la varianza de Y:
S
2
Y
= S
2
Y
t
+S
2
e
bastara dividir los dos miembros de la igualdad por S
2
Y
para obtener:
1 =
S
2
Y
t
S
2
Y
+
S
2
e
S
2
Y
(6.3.3)
99
6 Regresin lineal simple
Denicin 6.5. El coeciente de determinacin R
2
se dene como la proporcin de
variacin de Y explicada por el modelo terico y viene dado por la expresin:
R
2
=
S
2
Y
t
S
2
Y
= 1
S
2
e
S
2
Y
(6.3.4)
Propiedad 6.7. El coeciente de determinacin est acotado entre 0 y 1:
0 R
2
1
Demostracin. Dado que el coeciente de determinacin puede ser expresado como
un cociente de varianzas, su resultado es siempre no negativo.
Por otra parte, la relacin 6.3.3 indica que la suma de dos cuadrados -uno de los
cuales es R
2
- es unitaria, y en consecuencia el valor de dicho coeciente est acotado
superiormente por 1.
Ejemplo 6.4. A partir de nuestra informacin sobre renta y gasto en viajes, la varian-
za total de Y que adoptaba valor 11,55 puede descomponerse en varianza explicada y
residual cuyos resultados seran
S
2
Y
= 11, 55, S
2
Y
t
= 7, 65, S
2
e
= 3, 9
Como consecuencia se obtiene el coeciente de determinacin R
2
= 1
3, 9
11, 55
=
0, 66, que permite armar que un 66 % de las variaciones del gasto en viajes se explican
mediante la recta mnimo cuadrtica a partir de la renta. As pues, podemos concluir
que la recta estimada tiene una capacidad explicativa aceptable.
Propiedad 6.8. El coeciente de determinacin es nulo cuando el modelo no aporta
ninguna explicacin sobre el comportamiento de Y .
Demostracin. La propiedad se comprueba teniendo en cuenta que en este caso la
mejor explicacin de Y es su media y
ti
= y, de donde S
2
Y
t
= 0.
Propiedad 6.9. Cuando el ajuste es perfecto se obtiene R
2
= 1.
Demostracin. En este caso, todos los errores seran nulos y por tanto S
2
e
= 0.
Gracias a su interpretacin, el coeciente de determinacin permite evaluar la capa-
cidad explicativa o bondad de un modelo, aproximndose este coeciente a 1 a medida
que aumenta la proporcin de cambios en Y que son explicados por la variable X. No
obstante, debemos ser prudentes a la hora de realizar armaciones relativas a la cau-
salidad a partir de los resultados de este coeciente, ya que como hemos sealado en
el tema anterior, en ocasiones pueden observarse relaciones espurias entre X e Y , que
no se deben a la existencia de causalidad sino a la presencia de una tercera variable
relacionada con X e Y .
100
6 Regresin lineal simple
Un caso anecdtico de relacin espuria entre variables se debe a Jerzy Neyman (1894-
1981). Este estadstico de origen polaco analiz en 1952 la tasa de nacimientos y la
poblacin de cigeas en varias regiones, y encontr un alto coeciente de correlacin
entre estas variables. Lgicamente, esta elevada correlacin no permite armar que
las cigeas sean causa de los nacimientos, sino que se debe a la conexin de ambas
caractersticas con la renta, que actuara como "variable oculta".
Otras ilustraciones conocidas se deben a George Udny Yule (1871-1951) quien estudi
en Inglaterra y Gales la evolucin conjunta de la tasa de mortalidad y el porcentaje de
matrimonios, obteniendo coecientes de correlacin lineal de 0,95.
Propiedad 6.10. En el caso lineal el coeciente de determinacin coincide con el
cuadrado del coeciente de correlacin lineal; es decir, se cumple R
2
= r
2
XY
Demostracin. Teniendo en cuenta que en el caso lineal los valores tericos obtenidos
mediante la aplicacin del mtodo mnimo cuadrtico vienen dados por la expresin:
y
ti
= f(x
i
) = y +
S
XY
S
2
X
(x
i
x)
el coeciente de determinacin vendr dado por:
R
2
=
k

i=1
_
S
XY
S
2
X
_
2
(x
i
x)
2
f
i.
S
2
Y
=
S
2
XY
S
2
X
S
2
Y
= r
2
XY
Cuando tenemos nicamente dos observaciones y llevamos a cabo un ajuste lineal,
R
2
ser igual a 1 cualesquiera que sean las variables implicadas. Por tanto, a la hora de
extraer conclusiones sobre la validez de una recta de regresin a partir del coeciente
de determinacin, debemos tener en cuenta que el valor de este coeciente tendr ms
abilidad cuanto mayor sea el nmero disponible de datos.
Este aspecto enlaza con el concepto de grados de libertad en la determinacin de
modelos, que va referido al margen de eleccin de los valores de los parmetros a partir
del conjunto de datos disponible. En el caso extremo planteado, el nmero de grados
de libertad es 0, ya que se han estimado dos parmetros a partir de dos datos; en
general, el nmero de grados de libertad vendr determinado por la diferencia entre
el nmero de observaciones y el nmero de parmetros a estimar a partir de ellas.
Ejemplo 6.5. Supongamos que calicamos un trabajo realizado en equipo por cuatro
estudiantes, siendo la nota media del trabajo de 7,5. Podemos preguntarnos cuntos
grados de libertad tenemos para asignar las notas individuales. Supongamos que asig-
namos al primer estudiante un 8, al segundo un 7 y al tercero un 9; la nota del cuarto
ya no la podemos elegir, porque como su media es 7,5, se tendr:
7, 5 =
8 + 7 + 9 +x
4
de donde despejando, se tiene: x = 6, por lo tanto solo tenemos 3=4-1 grados de
libertad.
101
6 Regresin lineal simple
En general, por cada ecuacin o parmetro que tengamos que despejar, perderemos
un grado de libertad, de ah la frase anterior.
Parece lgico, por tanto, que cuanto mayor sea el nmero de grados de libertad ms
informativo sea el resultado aportado por el coeciente de determinacin R
2
.
En el contexto del anlisis de la bondad del modelo tiene inters dar una medida
del margen de error cometido al estimar los valores observados a travs de los tericos
y este objetivo puede alcanzarse tambin considerando la varianza residual S
2
e
o su
raz cuadrada. Cuanto ms alejadas estn las observaciones de la lnea estimada, o
equivalentemente, cuanto mayores sean los errores cometidos, mayor ser la varianza
residual.
Dado que esta medida se corresponde con la varianza del error, segn la interpretacin
de la desviacin tpica podemos establecer bandas en torno a la lnea estimada de radio
kS
e
, de modo que es posible asegurar que una cierta proporcin de observaciones quedan
dentro de esas bandas (por ejemplo, en la de radio 2S
e
se hallarn al menos el 75 % de
las observaciones).
6.4. Prediccin con modelos causales
La capacidad de efectuar pronsticos es un elemento clave tanto en el desarrollo
de polticas socioeconmicas como en la toma de decisiones empresariales ya que, en
la medida en que seamos capaces de anticipar comportamientos futuros, incremen-
taremos nuestras posibilidades de xito. ste sera el caso del gobierno, que necesita
disponer de previsiones sobre la demanda sanitaria y de educacin con el n de efec-
tuar las inversiones oportunas o de la direccin de una empresa que decidir reforzar
los recursos destinados a la produccin ante unas previsiones de fuertes alzas en las
ventas.
La carencia de predicciones, o la existencia de fallos acusados en las predicciones
disponibles pueden tener consecuencias graves tales como inversiones innecesarias o
excedentes de stock con las consiguientes prdidas econmicas. De ah la importan-
cia de cuidar la calidad de las predicciones, que depender tanto de la informacin
estadstica en la que se basan como de los instrumentos y tcnicas empleados.
Adoptando como referencia un modelo de regresin y asumiendo que la variable
explicativa X adopta un valor x
0
, la prediccin de Y se obtiene como el valor terico
de la variable Y condicionado a dicho valor de la variable explicativa, es decir, y
t0
=
b
0
+b
1
x
0
.
La existencia de relaciones causales entre varios caracteres proporciona un soporte
adecuado para la realizacin de predicciones, al permitirnos estimar el valor de la
variable efecto Y a partir de informacin referida a la causa X. En realidad, la pre-
diccin ana dos pticas: la estimacin de los parmetros del modelo considerado y la
cuanticacin del valor previsto, ya que los niveles en los que se siten las variables
explicativas condicionarn el resultado -y el riesgo- de la prediccin obtenida.
102
6 Regresin lineal simple
De ah que existan algunos rasgos diferenciales entre la regresin mnimo cuadrtica
que hemos visto en apartados anteriores y la prediccin asociada a estos modelos, en
la que debemos contemplar varias fuentes de riesgo:
Por una parte, la distancia que separa el modelo de la realidad (los errores de
la regresin e
ij
).
Por otra parte, los supuestos en los que se basa el mtodo de estimacin (mnimo
cuadrtica en general).
Por ltimo, la asignacin de un valor numrico determinado a la variable expli-
cativa X (ya que la prediccin ir condicionada a ese valor).
As pues, si nos planteamos qu garantas tienen nuestras previsiones, aunque somos
conscientes de que nunca podremos adivinar el verdadero valor de la variable Y ,
parece lgico pensar que, si asumimos modelos tericos adecuados y realizamos ajustes
ables de los mismos a partir de informacin estadstica de buena calidad, podremos
llegar a predicciones que nos merezcan un alto nivel de conanza.
Comenzando por el primero de estos aspectos, la validez conceptual, nos interesarn
desde el punto de vista estadstico nicamente las predicciones basadas en modelos,
de modo que exista algn supuesto terico o hiptesis que avale nuestras actuaciones.
Si la informacin de la que disponemos parece conrmar alguna hiptesis econmica,
plantearamos el correspondiente modelo para proceder a su estimacin. Sin embargo,
somos conscientes de que los errores y lagunas de la informacin econmica pueden
llegar a afectar a este planteamiento, encontrndonos en ocasiones con que no podemos
acceder a las cifras de la hipottica causa o bien que stas son escasamente ables.
Por lo que se reere a la bondad de ajuste, hemos visto anteriormente que la medida
ms habitual de la bondad es el coeciente de determinacin R
2
, que ser por tanto
un buen indicador de la abilidad de las predicciones.
Sin embargo, debemos tener presente que esta medida ha sido calculada a partir de
la informacin disponible en la muestra, por lo que no puede garantizarse su validez
cuando nos alejemos del recorrido de nuestra distribucin. As, en la gura 6.3, la
recta ha sido estimada con observaciones comprendidas entre 12 y 22, mientras las
predicciones se realizan para el valor X = 40 que se sita lejos de este recorrido y
podra en consecuencia no adaptarse al mismo patrn de comportamiento estimado (lo
mismo podra suceder si las predicciones van referidas a un valor bajo de X, pudiendo
incluso obtenerse predicciones negativas para Y ).
En denitiva, la utilizacin de un modelo perfecto desde el punto de vista terico y
con coeciente de determinacin elevado no nos autoriza a su utilizacin indiscrimi-
nada para nes predictivos.
Adems de acompaar cada prediccin de una medida de su abilidad, es aconsejable
proporcionar mrgenes de error o equivalentemente bandas de conanza entre cuyos
extremos se encontrar casi con total seguridad el valor verdadero. Este objetivo puede
conseguirse en el caso de los modelos causales utilizando S
e
, que es la raz cuadrada de
la varianza residual y puede ser interpretada como una medida de dispersin.
103
6 Regresin lineal simple
Figura 6.3: Prediccin
104
7 Regresin lineal mltiple
El mbito socioeconmico muestra una amplia diversidad de variables como renta,
gasto, precios, salarios, ... que presentan relaciones entre s. Como consecuencia resulta
prcticamente imposible aislar comportamientos ya que todo tiende a depender -en
mayor o menor grado- de todo.
Esta consideracin nos lleva a efectuar un planteamiento ms general de las tcnicas
de regresin y correlacin que permita tratar situaciones en las que haya ms de dos
variables implicadas. As, por ejemplo, el consumo no slo depender de la renta sino
tambin de los precios del bien analizado y otros bienes (tanto complementarios como
sustitutivos); las ventas de una empresa estarn relacionadas no slo con la inversin
en I+D sino tambin con la poltica de precios o el gasto en publicidad. De hecho,
parte del error que apareca en las regresiones lineales simples estudiadas en el tema
anterior podra deberse a la omisin de otras variables explicativas, y por tanto la
incorporacin de nuevas variables causales al modelo debera suponer una mejora
sustancial en su capacidad explicativa.
El procedimiento que seguiremos en este tema es una extensin del empleado en la
regresin simple, en el que surgen nuevos conceptos y problemas especcos, derivados
fundamentalmente de la existencia de correlacin entre las variables explicativas. Este
ltimo punto dar lugar a la introduccin de diferentes indicadores de correlacin
dependiendo de las variables consideradas.
Los mtodos de regresin y correlacin mltiple fueron introducidos por Karl Pearson,
y desarrollados posteriormente por su discpulo G. Udney Yule (1871-1951), a quien
se debe la conexin entre el concepto de regresin y la tcnica de ajuste por mnimos
cuadrados as como la denicin de los coecientes de correlacin parcial y mltiple.
A lo largo del captulo nos centraremos en el desarrollo de la regresin mltiple con
dos variables explicativas. La consideracin de un mayor nmero de variables, si bien
no supone ninguna diferencia sustancial desde el punto de vista conceptual, conlleva
un notable aumento en la complejidad de los clculos, que hace imprescindible el
empleo de notacin matricial.
7.1. Planteamiento de la regresin mltiple
El objetivo de la regresin mltiple ser construir un modelo explicativo de una
variable Y en trminos de un conjunto de variables causales que, sin prdida de gene-
ralidad, reduciremos a dos: X
1
, X
2
.
Nuestro planteamiento en este apartado constituye una generalizacin del efectuado
al introducir el anlisis de regresin simple: obtener el valor promedio de la variable
105
7 Regresin lineal mltiple
dependiente Y condicionado a ciertos comportamientos de las variables explicativas
X
1
y X
2
. Ello dar lugar a la denicin de la funcin de regresin mnimo-cuadrtica
Y = f(X
1
, X
2
) como aqulla que aproxima el verdadero valor de Y cuando X
1
= x
1i
y X
2
= x
2i
a travs de la media condicionada de las observaciones de Y : y/x
1i
, x
2i
.
Como puede observarse en la gura 7.1, esta denicin de f dara lugar a una
supercie en R
3
y si introducimos el supuesto de que las medias condicionadas se
encuentran sobre un plano, es decir, que la contribucin de cada variable independiente
a la explicacin de Y es de tipo lineal, la funcin de regresin ser de la forma:
y
ti
= f(x
1i
, x
2i
) = b
0
+b
1
x
1i
+b
2
x
2i
Figura 7.1: Hiperplano de regresin
De aqu en adelante nos centraremos en este tipo de funciones, ya sea porque la
regresin es lineal o porque mediante una transformacin de las variables es reducible
a lineal. De modo similar al visto en el tema anterior para la recta de regresin mnimo
cuadrtica, la forma de obtener esta funcin o plano de regresin consistir en buscar
aquellos parmetros b
0
, b
1
y b
2
que minimicen la suma de los errores cuadrticos.
Si en vez de tener dos variables independientes X
1
y X
2
se tienen m variables
(X
1
, X
2
, ..., X
m
) la funcin lineal de ajuste, que recibe el nombre de hiperplano de
ajuste, ser de la forma:
y
ti
= f(x
1i
, x
2i
, , x
mi
) = b
0
+b
1
x
1i
+b
2
x
2i
+... +b
m
x
mi
y se obtendr por el mtodo de mnimos cuadrados al igual que en los casos anteriores.
106
7 Regresin lineal mltiple
7.2. Plano de regresin mnimo cuadrtico
La funcin lineal que aproxima las observaciones de Y a partir de dos variables
explicativas X
1
y X
2
mediante la expresin y
ti
= b
0
+ b
1
x
1i
+ b
2
x
2i
recibe el nombre
de plano de ajuste. Para calcular los parmetros b
0
, b
1
, b
2
que determinan la ecuacin
del plano de regresin a partir de un conjunto de N observaciones con frecuencias
unitarias (x
1i
, x
2i
, y
i
) , i = 1, ..., N recurriremos a la tcnica de ajuste por mnimos
cuadrados. Los errores cometidos al aproximar los valores observados y
i
por los tericos
y
ti
vendrn dados por las desviaciones entre ambos:
e
i
= y
i
y
ti
= y
i
(b
0
+b
1
x
1i
+b
2
x
2i
)
Por tanto, el valor de los parmetros ser el resultado de minimizar:
E (b
0
, b
1
, b
2
) =
N

i=1
e
2
i
=
N

i=1
(y
i
b
0
b
1
x
1i
b
2
x
2i
)
2
problema que equivale a resolver el sistema de ecuaciones normales:
E(b
0
, b
1
, b
2
)
b
0
= 2
N

i=1
(y
i
b
0
b
1
x
1i
b
2
x
2i
) = 0
E(b
0
, b
1
, b
2
)
b
1
= 2
N

i=1
(y
i
b
0
b
1
x
1i
b
2
x
2i
)x
1i
= 0
E(b
0
, b
1
, b
2
)
b
2
= 2
N

i=1
(y
j
b
0
b
1
x
1i
b
2
x
2i
)x
2i
= 0
Sin ms que dividir por N las ecuaciones anteriores, la primera nos garantiza que el
error medio es nulo, e = 0, y nos permite obtener el valor del trmino independiente
una vez calculados b
1
y b
2
:
b
0
= y b
1
x
1
b
2
x
2
Sustituyendo este valor en las dos ecuaciones restantes se llega a las relaciones:
b
1
S
2
X
1
+b
2
S
X
1
,X
2
= S
Y,X
1
b
1
S
X
1
,X
2
+b
2
S
2
X
2
= S
Y,X
2
de donde se obtienen los coecientes b
1
y b
2
.
Denicin 7.1. Los coecientes de regresin parcial b
1
y b
2
vienen dados por las
expresiones:
107
7 Regresin lineal mltiple
b
1
=
S
2
X
2
S
Y,X
1
S
X
1
,X
2
S
Y,X
2
S
2
X
1
S
2
X
2
S
2
X
1
,X
2
b
2
=
S
2
X
1
S
Y,X
2
S
X
1
,X
2
S
Y,X
1
S
2
X
1
S
2
X
2
S
2
X
1
,X
2
La interpretacion de estos coecientes de regresin parcial resulta de inters, ya que
nos indican cul es el efecto marginal de cada variable explicativa sobre la variable
dependiente. As, si calculamos las derivadas parciales de Y respecto a las variables
explicativas X
1
y X
2
se tiene:
Y
X
1
= b
1
;
Y
X
2
= b
2
Ejemplo 7.1. Si realizamos una regresin mnimo cuadrtica de los gastos en funcin
de la renta X
1
y los precios X
2
, es de esperar que el coeciente b
1
presente signo
positivo (dado que la relacin entre gasto y renta es directa), mientras para b
2
se
espera signo negativo (recogiendo as la existencia de una relacin inversa entre gasto
y precios).
Ms concretamente, si la estimacin mnimo cuadrtica proporciona como resultado
los coecientes b
1
= 0, 7 y b
2
= 0, 3 podemos armar que ante un aumento unitario
en la renta (ceteris paribus los precios) se espera que el gasto aumente en 0,7 unidades.
De modo anlogo, se observa que un aumento unitario en los precios (ceteris paribus
la renta) origina una reduccin de 0,3 unidades en el gasto.
Propiedad 7.1. Los coecientes de regresin parcial pueden ser expresados como:
b
1
=
S
Y
S
X
1
_
r
Y,X
1
r
Y,X
2
r
X
1
,X
2
1 r
2
X
1
,X
2
_
b
2
=
S
Y
S
X
2
_
r
Y,X
2
r
Y,X
1
r
X
1
,X
2
1 r
2
X
1
,X
2
_
donde r
Y,X
1
y r
Y,X
2
son los coecientes de correlacin lineal entre Y y las variables
explicativas de la regresin:
r
Y,X
1
=
S
Y X
1
S
Y
S
X
1
; r
Y,X
2
=
S
Y X
2
S
Y
S
X
2
Los coecientes de regresin parcial reejan, por tanto, la transformacin de las uni-
dades de cada variable explicativa X
i
a la escala de variacin de la variable explicada
corregida por un factor indicador de la intensidad del efecto que cada X
i
tiene sobre
Y una vez eliminada la parte de inuencia comn con la otra variable independiente.
Estas expresiones justican tambin que los coecientes de regresin obtenidos en el
modelo mltiple no coincidan con los que se obtendran en los modelos simples que
108
7 Regresin lineal mltiple
incluyeran como explicativas las variables X
1
y X
2
respectivamente. Este resultado
es lgico, puesto que la omisin de una de las variables explicativas induce un sesgo
en el valor de los coecientes de regresin simple; nicamente dara lugar a resultados
coincidentes si la covarianza entre las variables explicativas fuera nula.
Propiedad 7.2. Si las variables explicativas no estn correlacionadas, los coecientes
de regresin parcial del modelo mltiple coinciden con los coecientes de regresin del
modelo lineal simple.
Demostracin. A partir de la expresin de los parmetros b
i
en trminos de los coe-
cientes de correlacin lineal se comprueba fcilmente que, si las dos variables explica-
tivas X
1
y X
2
estn incorreladas, entonces:
r
X
1
,X
2
= 0 b
1
=
S
Y
S
X
1
_
r
Y,X
1
1
_
=
S
Y,X
1
S
2
X
1
expresin que coincide con la vista en el tema anterior para el coeciente de regresin
en un modelo lineal simple.
Es necesario tener presente que, una vez obtenidos los dos coecientes de regresin
del modelo y
ti
= b
0
+ b
1
x
1i
+ b
2
x
2i
los resultados numricos de estos coecientes no
pueden ser comparados entre s, ya que las variables explicativas vendrn expresadas
generalmente en unidades diferentes. Para llevar a cabo este tipo de comparaciones
se introducen los coecientes beta mediante una estandarizacin de los coecientes de
regresin parcial:

i
=
b
i
S
X
i
S
Y
7.3. Anlisis de la bondad de modelos mltiples
El hecho de que en el anlisis de regresin mltiple se consideren modelos explica-
tivos en los que intervienen dos o ms causas da lugar a que puedan confundirse las
contribuciones de cada una de ellas a la explicacin del efecto o variable dependiente.
De ah que distingamos tres tipos de coecientes de determinacin asociados al anlisis
de regresin mltiple.
Comenzaremos introduciendo el coeciente de determinacin mltiple como una ge-
neralizacin del ya conocido para la regresin simple. Se trata de buscar una medida
del nivel de explicacin alcanzado a travs del modelo lineal gracias a la aportacin de
todas las variables explicativas consideradas conjuntamente. As, mediante un desa-
rrollo anlogo al efectuado en el tema anterior podemos descomponer la variacin total
de Y como suma de la parte explicada por el plano de regresin y la parte residual
que queda sin explicar:
S
2
Y
= S
2
Y t
+S
2
e
109
7 Regresin lineal mltiple
donde ahora los valores tericos son los obtenidos sobre el plano: y
ti
= b
0
+b
1
x
1i
+b
2
x
2i
y la varianza residual es la varianza de la variable error, que toma valores : e
i
= y
i
y
ti
.
Denicin 7.2. El coeciente de determinacin mltiple R
2
es la proporcin de
variacin de Y explicada por el modelo y viene denido por la expresin:
R
2
Y,X
1
,X
2
=
S
2
Y t
S
2
Y
(7.3.1)
cuyo resultado est acotado entre 0 y 1, acercndose a este ltimo valor cuanto mayor
sea la parte de variabilidad de Y que explica el modelo.
Las propiedades del coeciente de determinacin son similares a las vistas para el
modelo lineal simple. Al mismo tiempo R
2
Y,X
1
,X
2
puede ser considerado como una
medida de correlacin entre Y y las variables explicativas X
1
y X
2
en su conjunto.
Al introducir los coecientes de regresin parcial planteamos la comparacin entre
ambos y la denicin de los coecientes beta con el n de analizar qu variable tena
mayor importancia relativa a la hora de explicar el comportamiento de Y . Trataremos
ahora de cuanticar la aportacin de cada una de ellas.
Mediante el coeciente de determinacin mltiple anteriormente denido se cuanti-
ca la aportacin conjunta de la totalidad de variables explicativas sin distinguir qu
parte es debida a cada una de ellas. En este sentido, es posible tambin considerar los
coecientes de determinacin simples denidos en el captulo anterior.
R
2
Y,X
1
= r
2
Y,X
1
=
S
2
Y,X
1
S
2
Y
S
2
X
1
R
2
Y,X
2
= r
2
Y,X
2
=
S
2
Y,X
2
S
2
Y
S
2
X
2
Sin embargo, debemos tener presente que estos coecientes no aprovechan las ven-
tajas de la consideracin conjunta de las dos variables explicativas y que puede haber
una parte conjunta de aportacin de X
1
y X
2
a la explicacin de Y . Esto justi-
ca que si sumamos los dos coecientes de determinacin simples el resultado ser
generalmente superior al 100 %.
Los coecientes de determinacin simples slo reejarn la parte de variacin de Y
explicada exclusivamente por cada X
i
cuando no exista relacin lineal alguna entre
las variables causales, es decir, cuando r
X
1
,X
2
= 0 , ya que cuando las variables son
incorreladas, se obtiene:
R
2
Y,X
1
,X
2
= R
2
Y,X
1
+R
2
Y,X
2
Sin embargo, sta no es la situacin ms frecuente, ya que por lo general existir co-
rrelacin entre las variables independientes y parte de su contribucin a la explicacin
de Y ser comn. Ello nos lleva a introducir los coecientes de determinacin parcial,
que nos permitirn conocer el nivel de explicacin de cada una de las X
i
habiendo
eliminado la inuencia del resto.
110
7 Regresin lineal mltiple
Denicin 7.3. El coeciente de determinacin parcial entre Y y X
2
se dene como:
R
2
(Y, X
2
/X
1
) =
R
2
Y,X
1
,X
2
R
2
Y,X
1
1 R
2
Y,X
1
(7.3.2)
que representa la proporcin de variacin residual del modelo de regresin simple de Y
sobre X
1
que es explicada gracias a la inclusin de X
2
, y adopta valores comprendidos
entre 0 y 1.
Esta medida adopta como punto de partida la regresin simple de Y sobre X
1
y
analiza la ganancia de explicacin que se obtiene cuando adicionalmente se introduce
X
2
, esto es, S
Y
2
t
(X
2
/X
1
), que se obtendr como diferencia entre la varianza expli-
cada del modelo que incluye a las dos variables y la correspondiente al modelo que
nicamente incluye a X
1
:
S
2
Y
t
(X
2
/X
1
) = S
2
Y
t
(X
1
, X
2
) S
2
Y
t
(X
1
)
Puesto que la parte de variacin de Y no explicada por X
1
viene dada por la varianza
residual correspondiente S
2
e
(X
1
), podramos expresar la ganancia de explicacin en
trminos relativos mediante el cociente:
S
2
Y
t
(X
1
, X
2
) S
2
Y
t
(X
1
)
S
2
e
(X
1
)
expresin en la que, dividiendo numerador y denominador por S
2
Y
, se llega al coe-
ciente de determinacin parcial anteriormente denido.
Por lo que se reere a la acotacin, debemos tener en cuenta que lo peor que puede
ocurrir al incorporar X
2
al modelo de regresin es que esta nueva variable explicativa
no aporte nada nuevo a la explicacin de Y dada por X
1
con lo que S
Y
2
t
(X
1
)
S
Y
2
t
(X
1
, X
2
) y por consiguiente R
2
(Y, X
2
/X
1
) 0. Por otra parte, acudiendo a la
descomposicin de la variacin de Y en parte explicada y parte residual, se tiene:
S
2
Y
t
(X
1
, X
2
) S
2
Y
t
(X
1
) = S
2
Y
S
2
e
(X
1
, X
2
) S
2
Y
+S
2
e
(X
1
) S
2
e
(X
1
)
es decir, no podemos ganar en explicacin ms de lo que quedaba por explicar y, por
tanto, R
2
(Y, X
2
/X
1
) 1.
Anlogamente se dene el coeciente de determinacin parcial entre Y y X
1
cuando
se elimina la inuencia de X
2
como:
R
2
(Y, X
1
/X
2
) =
R
2
Y,X
1
,X
2
R
2
Y,X
2
1 R
2
Y,X
2
111
8 Nmeros ndices y tasas
El seguimiento de una economa se basa habitualmente en ndices, que recogen dis-
tintos aspectos de la actividad econmica: el ndice de Precios de Consumo (IPC), que
con periodicidad mensual recoge la evolucin de los precios de los principales productos
que consumen los hogares espaoles; el ndice de Produccin Industrial (IPI), referido
a la evolucin mensual del volumen de produccin de los establecimientos industriales
o el IBEX-35, que muestra la marcha diaria de la cotizacin burstil de las acciones
de las mayores empresas espaolas. Estos indicadores permiten hacer comparaciones
de los valores de una magnitud (precios, produccin, cotizaciones burstiles,...) entre
distintos periodos de tiempo y su rasgo distintivo es que efectan estas comparaciones
en trminos relativos, mediante cociente, permitiendo hacer armaciones del tipo: en
el ltimo mes los precios de consumo aumentaron un 0,2 % o en el da de ayer las
cotizaciones burstiles disminuyeron en un 0,5 %.
8.1. ndices simples y tasas
Denicin 8.1. Un nmero ndice es una medida estadstica de la variacin relativa
de una magnitud en el tiempo o en el espacio.
Los indicadores que cuantican las variaciones de una magnitud entre dos perio-
dos de tiempo reciben el nombre de ndices temporales, mientras que denominaremos
ndices espaciales a aquellos que permiten analizar variaciones entre reas geogrcas.
Denicin 8.2. Dada una magnitud X y dos periodos temporales, denominados
periodo base (0) y periodo actual (t), en los que X toma los valores x
0
y x
t
(con
x
0
= 0), el ndice simple temporal I
t,0
se dene como:
I
t,0
=
x
t
x
0
(8.1.1)
El resultado de I
t,0
permite estudiar la variacin relativa de X en el periodo actual
con respecto al periodo base:
I
t,0
> 1 indica que la magnitud ha aumentado en el periodo t con respecto al
periodo base 0.
I
t,0
= 1 indica que la magnitud no ha experimentado cambios entre los periodos
0 y t.
I
t,0
< 1 indica que la magnitud ha disminuido en el periodo t con respecto al
periodo base 0.
112
8 Nmeros ndices y tasas
En este texto se presentarn los resultados de los nmeros ndices expresados en tantos
por uno, puesto que ello facilita su utilizacin en aplicaciones posteriores. No obstante,
es habitual publicar los resultados de los nmeros ndices expresados en porcentaje,
resultados que se obtienen sin ms que multiplicar por 100 los valores en tantos por
uno.
Denicin 8.3. La tasa de variacin en trminos porcentuales r
t,0
, asociada a la
variacin de una magnitud X en un periodo t con respecto al periodo de referencia 0,
viene dada por el valor de la expresin:
r
t,0
=
_
x
t
x
0
x
0
_
100 (8.1.2)
Propiedad 8.1. La tasa de variacin r
t,0
puede calcularse a partir del ndice simple
I
t,0
mediante la expresin: r
t,0
= (I
t,0
1)100.
Ejemplo 8.1. Segn las cifras de la Encuesta Trimestral de Coste Laboral elaborada
por el INE, las cifras medias del coste laboral (c
t
) fueron de 2.431,92e en 2008 y de
2.516,82e en 2009. Por tanto, el ndice simple de 2009 tomando como referencia el
ao 2008 vendr dado por I
09,08
=
c
09
c
08
= 1, 035, lo que nos lleva a armar que el
coste laboral medio por trabajador y mes en Espaa en el ao 2009 aument un 3,5 %
respecto al ao 2008.
Denicin 8.4. Dada una magnitud X, una zona geogrca h y una zona de refe-
rencia z, en las que X toma los valores x
h
y x
z
(con x
z
= 0), el ndice simple espacial
I
h,z
se dene como:
I
h,z
=
x
h
x
z
(8.1.3)
El ndice espacial I
h,z
permite analizar la situacin relativa de la magnitud X en
una zona geogrca en relacin a una zona de referencia, siendo su interpretacin
equivalente a la de los ndices temporales: resultados unitarios indican valores coinci-
dentes en ambas zonas geogrcas y resultados mayores (inferiores) que 1 reejan que
el valor de X en la zona h supera (es inferior) al de la zona de referencia.
Ejemplo 8.2. En el contexto del ejemplo 8.1, podemos calcular ndices espaciales para
estudiar la situacin relativa de los costes laborales de las comunidades autnomas en
relacin a la media nacional. As, teniendo en cuenta que en el ao 2009 el coste
laboral medio en el Pas Vasco fue de 2.893,38e, el ndice espacial correspondiente
vendra dado por el cociente
c
PV
c
Nac
= 1, 15, lo que supone que el coste laboral medio en
el Pas Vasco fue un 15 % superior a la media nacional. De forma anloga, y teniendo
en cuenta que el coste laboral medio en Asturias fue de 2.502,68e, se obtiene un ndice
espacial 0,99, por lo que en el caso de Asturias el coste laboral se situ un 1 % por
debajo de la media nacional.
Un aspecto importante en el clculo de ndices temporales y espaciales es la eleccin
de la referencia. Una alternativa habitual es tomar una referencia ja, siempre y cuando
el valor correspondiente a dicho periodo o zona no sea atpico.
113
8 Nmeros ndices y tasas
El dato tomado como referencia en el clculo de ndices y tasas puede ofrecer resultados
engaosos. Es bien conocida la falacia basada en una noticia de prensa segn la cual
los homicidios cometidos en una ciudad haban aumentado un 60 % respecto al ao
anterior. El problema en este caso estaba en que el dato base era pequeo pues, tal y
como aclar posteriormente el peridico, el nmero de homicidios haba pasado en un
ao de 5 a 8.
Tambin es interesante sealar que, como consecuencia de su carcter multiplicativo,
una misma tasa aplicada a niveles diferentes de una magnitud da lugar a variaciones de
distinta cuanta. Un caso particular de esta situacin es el correspondiente a aplicar una
tasa positiva para a continuacin aplicar la misma tasa con signo negativo: pensemos,
por ejemplo, en un trabajador con un salario de 1.000e que el ltimo ao se increment
en un 10 %, pasando a ganar 1.100e y que, para el prximo ao disminuir en un 10 %,
lo que supondr que su nuevo salario pasar a ser de 990e, inferior a los 1.000e iniciales.
En el caso de datos temporales es habitual calcular tasas con periodo de referencia
variable, alternativa de especial inters cuando se dispone de datos con periodicidad
inferior a un ao (trimestres, meses, etc.). As, si se dispone de datos trimestrales, sien-
do x
t
el valor de una magnitud X en el trimestre t, la aplicacin de la expresin 8.1.2 a
los datos de dos trimestres consecutivos permite estudiar la variacin relativa respec-
to al trimestre anterior a travs de las tasas intertrimestrales r
t,t1
=
_
x
t
x
t1
x
t1
_
100.
Asimismo, es posible estudiar la variacin relativa respecto al mismo trimestre del
ao anterior (en un ao) a travs de las tasas interanuales r
t,t4
=
_
x
t
x
t4
x
t4
_
100.
De forma anloga pueden calcularse tasas asociadas a series mensuales, en cuyo caso
se obtienen tasas intermensuales, comparando las cifras del mes t con las del mes
inmediatamente anterior (t 1) y tasas interanuales, mediante la comparacin de las
cifras del mes t con las del mismo mes del ao anterior t 12.
Ejemplo 8.3. Consideremos ahora las cifras trimestrales procedentes de la Encuesta
Trimestral de Coste Laboral del INE reejadas en el cuadro adjunto. Comparando
la cifra del primer trimestre de 2009 con la correspondiente al cuarto trimestre de
2008, se obtiene una tasa intertrimestral negativa de -5,5 %, mientras que si se efecta
la comparacin respecto al primer trimestre de 2008, se obtiene una tasa interanual
positiva del 4,2 %.
Trimestre Coste laboral (en e)
2008.I 2.342,28
2008.II 2.451,40
2008.III 2.350,17
2008.IV 2.583,82
2009.I 2.440,54
La informacin que ofrecen las tasas interanuales e intertrimestrales (intermensua-
les) es complementaria. En general, para conocer la verdadera evolucin en el tiempo
de una magnitud suelen preferirse las cifras interanuales, que es el criterio adoptado
en el cuadro Datos principales de la web del INE. Pensemos, por ejemplo, en una
serie trimestral de ventas de helados: la tasa intertrimestral del tercer trimestre de
cada ao ofrecer siempre tasas positivas como consecuencia del incremento de las
114
8 Nmeros ndices y tasas
ventas en la temporada estival, mientras que el descenso del consumo tras el verano
justica que los cuartos trimestres ofrezcan siempre tasas intertrimestrales negativas;
en cambio, las tasas interanuales no se vern afectadas por la estacin del ao, dado
que comparan cifras de un mismo trimestre de aos diferentes.
Los ndices y tasas temporales calculados en esta seccin cuantican variaciones
exactas entre pares de periodos. As, en el ejemplo 8.3, se ha obtenido que los costes
laborales aumentaron un 4,2 % en un ao, desde el primer trimestre de 2008 al primer
trimestre de 2009. Si ahora nos preguntamos respecto a la tasa promedio de crecimiento
trimestral en dicho ao, podramos decir que ha sido la cuarta parte, es decir, del
1,05 % cada trimestre? La respuesta es negativa y ello es debido a que los crecimientos
trimestrales son acumulativos, es decir, si el primer trimestre los costes salariales
crecen un 1,05 %, la cifra base del coste salarial del trimestre siguiente sobre la que se
aplicara el 1,05 % sera mayor, lo que dara lugar a que la tasa nal resultante para
2009.I fuera superior al 4,2 %.
Propiedad 8.2. El ndice de crecimiento medio acumulativo entre los periodos 0 y t,
I
t,0
(m), se calcula como la media geomtrica de los ndices entre periodos consecutivos
a travs de la expresin:
I
t,0
(m) =
t

_
t

j=1
I
j,j1
Demostracin. El ndice de crecimiento medio acumulativo entre los periodos 0 y t,
I
t,0
(m), debe vericar: I
t,0
= (I
t,0
(m))
t
. Por otra parte, si I
j,j1
es el ndice del periodo
j con base j 1 (j = 0, . . . , t), aplicando la propiedad de circularidad de los ndices
simples se tiene: I
t,0
= I
t,t1
I
t1,t2
I
1,0
=
t

j=1
I
j,j1
. Finalmente, igualando ambas
expresiones se obtiene:
I
t,0
(m) =
t
_
I
t,0
=
t

_
t

j=1
I
j,j1
Propiedad 8.3. La tasa media de crecimiento acumulativo entre los periodos 0 y t,
r
t,0
(m), se calcula como el valor de la expresin:
r
t,0
(m) =
_
_
t

_
t

j=1
_
1 +
r
j,j1
100
_
1
_
_
100
Demostracin. La comprobacin es inmediata a partir de la propiedad anterior, sin
ms que tener en cuenta la relacin entre ndices y tasas de la propiedad 8.1.
Aplicando los resultados de la proposicin anterior a las cifras del ejemplo 8.3 se
obtiene una tasa media de crecimiento trimestral acumulativo del 1,03 %.
115
8 Nmeros ndices y tasas
8.2. ndices sintticos
El supuesto desarrollado en el apartado anterior no resuelve gran parte de las si-
tuaciones que se presentan en los estudios econmicos, en los que ms que estudiar
la evolucin de una nica magnitud (el precio de un bien, el salario de un sector de
actividad, . . . ) se precisa analizar la evolucin de magnitudes complejas (los precios
de un conjunto de n bienes, los salarios para un conjunto de n sectores productivos,
. . . ). Esta consideracin justica la necesidad de denir ndices sintticos o complejos,
que permitan resumir las variaciones temporales de los distintos componentes de una
magnitud compleja en una nica cifra para cada periodo.
Sea X una magnitud con n componentes X
i
(i = 1, ..., n), cuyos valores en los
periodos base y actual se designan respectivamente por x
i0
y x
it
(i = 1, ..., n). En
estas condiciones, es posible calcular un ndice simple asociado a cada componente
que permitir estudiar la variacin temporal del i-simo componente (i = 1, ..., n)
segn se resume en el cuadro 8.1.
Componente 1 i n
Valores periodo base 0 x
10
x
i0
x
n0
Valores periodo actual t x
1t
x
it
x
nt
ndices simples I
t,0
(1) =
x
1t
x
10
I
t,0
(i) =
x
it
x
i0
I
t,0
(n) =
x
nt
x
n0
Tabla 8.1: Informacin para el clculo de ndices sintticos
El mtodo ms habitual para sintetizar estos n ndices simples consiste en aplicar
un promedio, preferentemente la media aritmtica debido a sus ventajas operativas,
ya analizadas en el tema 2. De hecho, este promedio vendr justicado tericamente
cuando los n componentes de un ndice acten de forma aditiva, superponindose las
distintas variaciones independientes de stos. Sin embargo, hay que tener presente que
los distintos componentes pueden no tener la misma importancia y, por consiguiente,
sus variaciones no tendrn la misma inuencia en la variacin global. Ello justica
que en la mayor parte de las situaciones sea necesario asignar ponderaciones, que
cuantiquen la importancia relativa de cada componente, y utilizar como promedio la
media ponderada.
Denicin 8.5. Dada una magnitud X con n componentes, cada uno de los cuales
lleva asociado un ndice simple I
t,0
(i) (i = 1, ..., n) y un sistema de ponderaciones
w
i
(i = 1, ..., n), se dene el ndice sinttico media ponderada del periodo t con base
en el periodo 0 como la media ponderada de los ndices simples calculada a travs de
la expresin:
I
t,0
=
n

i=1
I
t,0
(i)w
i
n

i=1
w
i
=
n

i=1
x
it
x
i0
w
i
n

i=1
w
i
(8.2.1)
116
8 Nmeros ndices y tasas
Ejemplo 8.4. Si se dispone de cifras de salarios por sectores, pueden calcularse ndices
que muestren la evolucin global de los salarios aplicando un ndice media ponderada
de los ndices simples de cada sector. En la tabla adjunta se resumen los resultados
correspondientes a la aplicacin de la expresin 8.2.1, tomando como base el ao 2008
y como ponderaciones los pesos relativos del empleo en cada sector:
I
t,08
=
3

i=1
I
t,08
(i)w
i
3

i=1
w
i
=
I
t,08
(Ind)w
IND
+I
t,08
(C)w
C
+I
t,08
(S)w
S
w
Ind
+w
C
+w
S
Salarios (e)
Ao Industria (Ind) Construccin (C) Servicios (S)
2008 1.800 1.550 1.630
2009 1.850 1.580 1.650
2010 1.900 1.600 1.700
Empleo (w
i
) 20 % 10 % 70 %
ndices simples salarios nd.media
ponderada
Ao I
t,08
(Ind) I
t,08
(C) I
t,08
(S) I
t,08
2008 1 1 1 1
2009 1,028 1,019 1,012 1,020
2010 1,056 1,032 1,043 1,044
As, por ejemplo, en el ao 2010, se observa que los salarios de todos los sectores
no agrarios han aumentado respecto a 2008: un 5,6 % en el caso de la industria, un
3,2 % en construccin y un 4,3 % en servicios. Tras calcular el ndice media ponderada
de los ndices simples, se obtiene una cifra promedio de los aumentos salariales en el
conjunto de los sectores: la subida global de los salarios no agrarios en 2010 respecto
a 2008 fue del 4,4 %.
A la vista de la ilustracin surgen al menos dos interrogantes vinculados a la eleccin
de las ponderaciones en un ndice media ponderada. En primer lugar, la variable
adecuada para su determinacin, que depender del tipo de magnitud analizada. En
el estudio de salarios por sectores, una opcin adecuada es el peso relativo del empleo
de cada sector; en los temas siguientes se presentarn las ponderaciones utilizadas
habitualmente en los estudios de precios y cantidades, que se corresponden con el
valor de cada producto.
El segundo interrogante est relacionado con el periodo de referencia de las ponde-
raciones: son constantes en todo el mbito temporal del estudio o varan a lo largo del
tiempo? En funcin de la respuesta a esta pregunta se distingue entre ndices de base
ja, que son aqullos para los que la estructura de ponderaciones no depende del pe-
riodo temporal considerado y se mantiene constante a lo largo del tiempo (w
i
= w
i0
),
e ndices de base mvil , para los que dicha estructura de ponderaciones va cambiando
117
8 Nmeros ndices y tasas
a lo largo del periodo temporal considerado (w
i
= w
it
). La frmula utilizada en el
ejemplo es de base ja, puesto que se mantiene la misma distribucin de empleo por
sectores para los tres aos; para construir un ndice de base mvil se precisara dis-
poner de informacin sobre la distribucin sectorial del empleo para cada uno de los
aos incluidos en el estudio. La opcin de utilizar ndices de base ja tiene la ventaja
de ser menos exigente en cuanto a las necesidades de informacin para determinar
las ponderaciones, si bien este aspecto conlleva el inconveniente de que el sistema de
ponderaciones puede quedar obsoleto si se consideran periodos temporales muy am-
plios. La alternativa ser utilizar ndices de base mvil, opcin que resulta ventajosa
por su exibilidad y capacidad de adaptacin a la situacin de cada periodo, aunque
es de menor uso en la prctica como consecuencia del mayor volumen de informacin
estadstica requerida para su clculo.
Si bien los ndices sintticos tipo media ponderada son los ms utilizados, cabe la
posibilidad de denir otras frmulas, tales como los ndices agregativos, que presentan
un buen comportamiento en la prctica.
Denicin 8.6. Dada una magnitud X con n componentes, que toma valores x
i0
y x
it
(i = 1, ..., n) en los periodos base y actual, respectivamente, con un sistema
de ponderaciones asociado w
i
(i = 1, ..., n), se dene el ndice sinttico agregativo
del periodo t con base en el periodo 0 como el cociente entre los valores agregados
ponderados correspondientes a ambos periodos, calculado a travs de la expresin:
I
t,0
=
n

i=1
x
it
w
i
n

i=1
x
i0
w
i
(8.2.2)
8.3. Propiedades de los ndices
Con el n de establecer un marco de referencia para elegir entre distintas alternativas
de frmulas de clculo de ndices sintticos, se proponen a continuacin un conjunto
de cinco propiedades deseables, basadas en la propia interpretacin de los nmeros
ndices: identidad, inversin o reversin temporal, circularidad, proporcionalidad e
independencia de la escala de medida. Adems de la denicin de las cinco propiedades
bsicas, se aade la deduccin de una sexta propiedad, la de cambio de base, vinculada
directamente a las propiedades de inversin y circularidad.
La denicin de las propiedades deseables de los nmeros ndices tiene como punto de
partida los trabajos del economista estadounidense Irving Fisher (1867-1947). Fisher
fue pionero en los estudios sobre nmeros ndices, tanto en los aspectos tericos como
empricos. En su obra de 1922 The Making of Index Numbers. A study of their varieties,
tests and reliability[4], Fisher estableci el marco terico para la seleccin de frmulas
de clculo de nmeros ndices y propuso un indicador de precios, denominado ndice
ideal de Fisher, que ser introducido en el tema siguiente. En lo que se reere a
los aspectos empricos, Fisher cre en 1923 el Instituto de Nmeros ndices, que se
118
8 Nmeros ndices y tasas
convirti en el primer organismo en publicar de forma regular datos econmicos en
forma de nmeros ndices.
Denicin 8.7. Identidad: Si coinciden los periodos base y actual, el valor del ndice
debe ser la unidad (o 100 %): I
0,0
= I
t,t
= 1.
La lgica de esta propiedad se desprende del propio objetivo de los ndices ya que
se trata de medir variaciones entre dos periodos de tiempo y, por consiguiente, si los
periodos son coincidentes el ndice no debe reejar ninguna variacin.
Denicin 8.8. Inversin (reversin temporal): Si se permutan los periodos actual y
base de un ndice, el resultado debe ser el inverso del valor inicial: I
0,t
=
1
I
t,0
.
Esta propiedad se basa en la idea de que la variacin de una magnitud entre dos
periodos debe ser nica, independientemente de la ptica adoptada. Consideremos,
por ejemplo, un producto que vala 10e en el periodo 0 y 20e en el periodo 1. El
ndice del periodo 1 respecto al periodo base 0 indicar que el precio se ha duplicado
(I
1,0
= 2) y el ndice del periodo 0 tomando como base el periodo 1 debe indicar que
el precio es la mitad (I
0,1
= 1/2).
Denicin 8.9. Circularidad: Dado un periodo de tiempo t

(0 < t

< t), el ndice


entre los periodos 0 y t debe coincidir con el producto de los ndices calculados a travs
del periodo intermedio t, es decir, I
t,0
= I
t,t
I
t

,0
.
Esta propiedad se basa en la misma idea que la propiedad de inversin, en el sentido
de que la variacin de una magnitud entre dos periodos debe ser nica, en este caso
ante la consideracin de periodos intermedios. En el ejemplo anterior, si el producto
tambin duplica su precio en el periodo 2, pasando a valer 40e, el ndice del periodo 2
tomando como base el periodo 0 indicar que el precio se ha cuadruplicado, que ser
el resultado de multiplicar el ndice del periodo 1 base 0 (el precio se duplica entre
esos dos aos) por el ndice del periodo 2 con base 1 (periodos entre los que tambin
se duplica el precio del producto).
Denicin 8.10. Proporcionalidad: Si en el periodo actual todos los componentes
del ndice varan en una proporcin, el ndice debe experimentar la misma variacin
proporcional. Es decir, si x

t
= kx
t
(kR), entonces I

t,0
= kI
t,0
.
Dado que los ndices cuantican variaciones relativas, cabe esperar que reejen
cualquier variacin proporcional de la magnitud analizada en idntica proporcin.
Supongamos, por ejemplo, que los salarios de todos los sectores se incrementan en un
3 % respecto a la situacin del periodo actual, x

i,t
= 1, 03x
i,t
i, entonces el nuevo
ndice global de salarios deber ser tambin un 3 % superior al valor del ndice antes
de la subida.
Denicin 8.11. Independencia de la escala de medida (homogeneidad): El valor de
un ndice es invariante ante cambios en las unidades de medida, es decir, si Y =
kX (kR), entonces I
Y
t,0
= I
X
t,0
.
119
8 Nmeros ndices y tasas
Por tratarse de medidas relativas, los nmeros ndices son adimensionales y por lo
tanto no deben verse afectados por cambios en las unidades de medida (cambios de
escala). Como consecuencia de esta propiedad el resultado de un ndice que muestre
la evolucin de la cantidad producida de acero ser el mismo si la produccin se
expresa en kilogramos o en toneladas. Anlogamente, el resultado de un ndice de
salarios sera el mismo si stos se expresaran en euros o en miles de euros, pero podra
verse modicado si se expresaran en dlares. Los cambios de divisa son habituales en
economa, pero no se trata de simples cambios de escala, puesto que no son constantes
a lo largo del tiempo, por lo que no sera aplicable la propiedad de independencia de
la escala de medida.
En ocasiones interesa cambiar la ptica de referencia del estudio y se precisa trans-
formar la serie de ndices disponible de modo que las variaciones se midan respecto
a un periodo base diferente. La operacin requerida en este caso se denomina cambio
de base.
Propiedad 8.4. Dada una serie de ndices I
t,0
, calculada a partir de una frmula I
que verica las propiedades de inversin y circularidad, la serie referida a un nuevo
periodo base b puede calcularse a partir de la serie inicial, con base en el periodo 0, a
travs de la expresin: I
t,b
=
I
t,0
I
b,0
.
Demostracin. Se efectuar la demostracin en dos casos, segn el intervalo temporal
al que pertenezca la nueva base b:
Caso 1.- Supongamos que 0 < b < t. Entonces, aplicando la propiedad de circulari-
dad se tiene: I
t,0
= I
t,b
I
b,0
, de donde despejando el valor de I
t,b
, se obtiene la expresin
propuesta en el enunciado.
Caso 2.- Supongamos que b > t. Entonces por la propiedad de circularidad se tiene:
I
b,0
= I
b,t
I
t,0
, expresin en la que es posible despejar el valor de I
b,t
=
I
b,0
I
t,0
. Teniendo
en cuenta que, adems, por la propiedad de inversin I
b,t
=
1
I
t,b
e igualando ambas
expresiones se obtiene la expresin de clculo buscada para I
t,b
.
Una vez establecidas las propiedades deseables, la pregunta relevante se referir a
su vericacin por parte de las frmulas introducidas en este tema. La respuesta es
armativa para los ndices simples, segn se demuestra en la proposicin siguiente. Sin
embargo, la respuesta ya no es tan satisfactoria para otras frmulas; as, por ejemplo,
los ndices media ponderada no cumplen las propiedades de inversin y circular ni, por
consiguiente, la de cambio de base. A esta cuestin nos referiremos de manera ms
extensa en el tema siguiente, una vez se hayan introducido las frmulas de clculo
habituales para precios y cantidades.
Propiedad 8.5. Los ndices simples cumplen las propiedades de identidad, inversin,
circularidad, proporcionalidad e independencia de la escala de medida.
Demostracin. Sea I
t,0
=
x
t
x
0
el ndice simple del periodo t con base en el periodo 0. A
continuacin se comprobar que est frmula verica las propiedades del enunciado.
120
8 Nmeros ndices y tasas
Identidad. Si los periodos base y actual coinciden t 0, entonces: I
0,0
=
x
0
x
0
= 1,
por lo que queda comprobado que el ndice resultante es unitario.
Inversin. Si se intercambian los periodos base y actual, entonces: I
0,t
=
x
0
x
t
.
Para comprobar que se verica la propiedad de inversin y, como consecuencia,
el nuevo ndice es el inverso del ndice inicial I
t,0
, basta dividir numerador y
denominador por el valor en el periodo base X
0
: I
0,t
=
x
0
x
t
=
x
0
x
0
x
t
x
0
=
1
I
t,0
.
Circular. Si se considera x
t
, valor de la magnitud X en un periodo t

(0 <
t

< t), pueden calcularse los ndices simples I


t,t
=
x
t
x
t

e I
t

,0
=
x
t

x
0
. Entonces,
partiendo de la frmula del ndice simple I
t,0
y sin ms que multiplicar numerador
y denominador por x
t
: I
t,0
=
x
t
x
0
=
x
t
x
0
x
t

x
t

=
x
t
x
t

x
t

x
0
= I
t,t
I
t

,0
, por lo que queda
comprobado que el ndice simple del periodo t con base 0 puede obtenerse como
producto de los ndices calculados a travs del periodo intermedio t

.
Proporcionalidad. Si en el periodo actual la magnitud X experimenta una varia-
cin proporcional, con factor de proporcionalidad k, es decir, x

t
= kx
t
, el nuevo
ndice simple I

t,0
variar en la misma proporcin ya que: I

t,0
=
x

t
x
0
=
kx
t
x
0
= kI
t,0
Independencia de la escala de medida. Si la magnitud X experimenta un cambio
de unidades de medida que no depende del periodo temporal considerado, Y =
kX, entonces el ndice calculado en la nueva escala coincide con el inicial ya
que: I
Y
t,0
=
y
t
y
0
=
kx
t
kx
0
= I
X
t,0
. Sin embargo, en casos como los cambios de divisa,
que tienen la particularidad de que son variables a lo largo del tiempo, es decir,
en cada periodo t, y
t
= k
t
x
t
, se tiene que: I
Y
t,0
=
y
t
y
0
=
k
t
x
t
k
0
x
0
= I
TC
t,0
I
X
t,0
, donde
I
TC
t,0
es un ndice del tipo de cambio y no ser posible garantizar entonces el
cumplimiento de la propiedad de independencia de la escala de medida.
El planteamiento e interpretacin de las propiedades de los nmeros ndices se ha efec-
tuado desde la ptica temporal, pero sera extensible al caso espacial. As, por ejemplo,
el cumplimiento del requisito de inversin por parte del ndice simple I
hz
supone que
la posicin relativa de dos reas es nica llegndose a resultados inversos segn cul
de ellas sea adoptada como referencia; y la vericacin de la propiedad de circulari-
dad garantiza que la comparacin de dos regiones conduce a idntica conclusin tanto
si se efecta de modo directo como si se adopta un tercer territorio como referencia
intermedia.
121
9 Nmeros ndices: Frmulas
habituales, variacin y repercusin
9.1. Frmulas habituales de precios y cantidades
Entre los principales indicadores de la economa espaola destacados en la web del
INE guran dos ndices de precios, el ndice de Precios de Consumo (IPC) y el ndice de
Precios Industriales (IPRI), y un ndice cuntico, el ndice de Produccin Industrial
(IPI). Ello pone de maniesto el papel relevante del estudio de las variaciones de
precios y produccin en una economa y justica el inters de dedicar un apartado
especco a las frmulas ms utilizadas en este contexto.
Consideremos un conjunto de n bienes para los que se dispone de informacin sobre
sus precios (p) y cantidades (q) en los periodos base y actual, y para los que se han
calculado los correspondientes ndices simples de precios y cantidades, aplicando la
frmula introducida en el captulo anterior. La tabla siguiente resume la notacin
utilizada para el bien i-simo (i = 1, . . . , n).
PRECIOS CANTIDADES
Periodo base 0 p
i0
q
i0
Periodo actual t p
it
q
it
ndices simples I
P
t,0
(i) =
p
it
p
i0
I
Q
t,0
(i) =
q
it
q
i0
El mtodo habitual para calcular ndices que muestren la evolucin global de precios
o cantidades consiste en considerar ndices sintticos tipo media ponderada, tanto de
base ja como de base mvil. En cuanto al sistema de ponderaciones, suele considerarse
el valor de cada bien, calculado como producto de precio por cantidad w
i
= p
i
q
i
(i = 1, ..., n), como variable ms adecuada para reejar la importancia de la variacin
en el precio o la cantidad de los distintos bienes. Respecto al periodo temporal de
referencia de las ponderaciones, las opciones ms utilizadas son las correspondientes
a las frmulas de Laspeyres y Paasche: la primera es de base ja y utiliza como
ponderaciones los valores del periodo base, mientras que la segunda es de base mvil
y utiliza ponderaciones vinculadas al periodo actual.
Las frmulas de Laspeyres y Paasche deben su nombre a los economistas alemanes
Etienne Laspeyres (1834-1913) y Hermann Paasche (1851-1925).
122
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
Frmulas habituales de precios
Denicin 9.1. Dado un conjunto de n bienes con precios y cantidades en los periodos
0 y t {p
i0
, p
it
, q
i0
; i = 1, . . . , n}, se dene el ndice de precios de Laspeyres (L
P
) del
periodo t con base el periodo 0 como un ndice media ponderada de los ndices simples
de precios I
P
t,0
(i) con ponderaciones w
i0
= p
i0
q
i0
.
La expresin habitual de clculo de un ndice de Laspeyres de precios viene dada
por:
L
P
t,0
=
n

i=1
p
it
q
i0
n

i=1
p
i0
q
i0
(9.1.1)
que se obtiene de forma directa a partir de la expresin general de los ndices sintticos
media ponderada 8.2.1, sin ms que considerar los ndices simples de precios y como
ponderaciones, los valores del periodo base:
L
P
t,0
=
n

i=1
I
P
t,0
(i)w
i0
n

i=1
w
i0
=
n

i=1
p
it
p
i0
p
i0
q
i0
n

i=1
p
i0
q
i0
=
n

i=1
p
it
q
i0
n

i=1
p
i0
q
i0
Denicin 9.2. Dado un conjunto de n bienes con precios y cantidades en los periodos
0 y t {p
i0
, p
it
, q
it
; i = 1, . . . , n}, se dene el ndice de precios de Paasche (P
P
) del
periodo t con base el periodo 0 como un ndice media ponderada de los ndices simples
de precios I
P
t,0
(i) con ponderaciones w
it
= p
i0
q
it
.
La expresin habitual de clculo de un ndice de Paasche de precios viene dada por:
P
P
t,0
=
n

i=1
p
it
q
it
n

i=1
p
i0
q
it
(9.1.2)
que se obtiene tambin a partir de la expresin general de los ndices sintticos me-
dia ponderada tomando como ponderaciones las cantidades consumidas en el periodo
actual valoradas a precios del periodo base:
P
P
t,0
=
n

i=1
I
P
t,0
(i)w
it
n

i=1
w
it
=
n

i=1
p
it
p
i0
p
i0
q
it
n

i=1
p
i0
q
it
=
n

i=1
p
it
q
it
n

i=1
p
i0
q
it
Analizando las frmulas resultantes para los ndices de precios de Laspeyres y Paas-
che se observa que ambas se expresan como ndices agregativos que cuantican exclu-
sivamente variaciones en los precios de los bienes incluidos en el ndice: en el ndice
123
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
de Laspeyres se comparan valores agregados de los periodos actual y base, para una
distribucin constante en el tiempo de las cantidades {q
i0
}, mientras que la compara-
cin en el caso de la frmula de Paasche se efecta para unas cantidades variables a
lo largo del tiempo {q
it
}.
Ejemplo 9.1. Para estudiar la evolucin global de los precios de los carburantes
en una estacin de servicio en la que se comercializan dos tipos de combustible: sin
plomo 95 y gasleo, pueden utilizarse las frmulas de Laspeyres y Paasche. A partir
de las cifras de precios (en cntimos de e) y cantidades (en millones de litros) de la
tabla adjunta, se observa que los ndices de Laspeyres y Paasche ofrecen resultados
prcticamente coincidentes.
Sin plomo 95 Gasleo
Ao p q p q
2

i=1
p
it
q
i07
2

i=1
p
it
q
it
2

i=1
p
i07
q
it
L
P
t,07
P
P
t,07
2007 109 0,5 96 1,5 198,5 198,5 198,5 1 1
2008 124 0,48 129 1,45 255,5 246,57 191,52 1,287 1,287
2009 105 0,46 92 1,43 190,5 179,86 187,42 0,960 0,910
2010 119 0,5 110 1,42 224,5 215,7 190,82 1,131 1,130
Propiedad 9.1. El ndice de precios de Laspeyres verica las propiedades de identidad
y proporcionalidad y no cumple las propiedades de inversin, circularidad y homoge-
neidad.
Demostracin. La comprobacin de la propiedad de identidad es inmediata sin ms
que tener en cuenta que si el periodo base y actual coinciden p
it
= p
i0
y, por consi-
guiente, el valor del ndice calculado a travs de la expresin 9.1.1 es unitario.
En lo que respecta a la propiedad de inversin, si se invierten los periodos base y
actual en el ndice de Laspeyres de precios se obtiene el inverso del ndice de Paasche
de precios ya que:
L
P
0,t
=
n

i=1
p
i0
q
it
n

i=1
p
it
q
it
=
1
n

i=1
p
it
q
it
n

i=1
p
i0
q
it
=
1
P
P
t,0
Este resultado permite comprobar que la frmula de Laspeyres no cumple la pro-
piedad de inversin (y tampoco la de Paasche) y, como consecuencia, tampoco verica
la circularidad ni la propiedad de cambio de base.
Para comprobar la propiedad de proporcionalidad, supondremos que los precios de
los n bienes experimentan una variacin proporcional en el periodo actual, p

it
= kp
it
,
en cuyo caso el nuevo ndice de precios de Laspeyres vendr dado por:
124
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
L
P

t,0
=
n

i=1
p

it
q
i0
n

i=1
p
i0
q
i0
=
n

i=1
kp
it
q
i0
n

i=1
p
i0
q
i0
= kL
P
t,0
y, por tanto, el ndice de Laspeyres vara en la misma proporcin.
Por ltimo, no puede asegurarse que el ndice de precios de Laspeyres verique
la propiedad de independencia de la escala de medida. Como ilustracin, bastara
tener en cuenta las consideraciones ya efectuadas en el tema anterior respecto a la
variabilidad temporal de los cambios de divisa en los precios.
Respecto al ndice de precios de Paasche podra establecerse un resultado anlogo
al de la propiedad 9.1, con una consideracin adicional para el caso de la propiedad de
proporcionalidad. En efecto, por tratarse de un ndice de base mvil sus ponderaciones
dependen de las cantidades del periodo actual {q
it
} y cabe esperar que el consumidor
reaccione ante el encarecimiento de un bien sustituyendo su consumo, en la medida
de lo posible, por el de otros bienes sustitutivos, lo que conllevara un cambio en las
ponderaciones. Por tanto, desde una ptica econmica el ndice de precios de Paasche
no cumplira el requisito de proporcionalidad.
Propiedad 9.2. Generalmente, el ndice de precios de Laspeyres toma valores supe-
riores al ndice de Paasche: L
P
t,0
P
P
t,0
.
La relacin entre los ndices de precios de Laspeyres y Paasche se basa en la corre-
lacin entre los ndices simples de precios y de cantidades: cuando sta es negativa, el
ndice de Laspeyres supera al de Paasche y si es positiva el sentido de la desigualdad se
invierte. En la prctica, la situacin ms frecuente es la primera ya que ante aumentos
de los precios, los consumidores, como consecuencia del efecto sustitucin, tienden a
consumir otros productos de menor precio. Por este motivo, no puede asegurarse que
el sentido de la desigualdad en la relacin entre ambos ndices se cumpla siempre, pero
s que es el ms habitual.
La demostracin de esta propiedad que relaciona los ndices de Laspeyres y Paasche se
lleva a cabo mediante la frmula de Bortkiewicz (1923), en la que aparece la covarianza
entre precios y cantidades, que habitualmente presenta signo negativo
1
.
Ladislaus von Borkiewicz (1868-1932) fue un estadstico y economista ruso que realiz
importantes contribuciones al anlisis de nmeros ndices econmicos y tambin propuso
la denominada distribucin de Poisson asociada a sucesos de baja frecuencia o raros.
Teniendo en cuenta que las frmulas de Laspeyres y Paasche no verican algunos de
los requisitos tericos deseables de los nmeros ndices y que la primera generalmente
sobreestima las verdaderas variaciones de los precios, mientras que la segunda las
subestima, Fisher propuso el denominado ndice ideal como promedio de ambos
indicadores.
1
La demostracin de la propiedad que relaciona los ndices de Laspeyres y Paasche excede los
objetivos de este texto y puede consultarse en Calot [2]
125
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
Denicin 9.3. Se dene el ndice de precios de Fisher (F
P
) como la media geom-
trica de los ndices de precios de Laspeyres y Paasche, es decir,
F
P
t,0
=
_
L
P
t,0
P
P
t,0
(9.1.3)
Propiedad 9.3. El ndice de precios de Fisher cumple las propiedades de identidad,
inversin y circularidad.
Demostracin. Teniendo en cuenta la demostracin de la propiedad 9.1, se comprueba
que F verica la propiedad de inversin, ya que:
F
P
0,t
=
_
L
P
0,t
P
P
0,t
=

1
P
P
t,0
1
L
P
t,0
=
1
_
L
P
t,0
P
P
t,0
=
1
F
P
t,0
Asimismo, considerando un periodo intermedio t

(0 < t

< t) y aplicando las


expresiones correspondientes a las frmulas de Laspeyres y Paasche se comprueba el
cumplimiento de la propiedad de circularidad F
P
t,t

F
P
t

,0
= F
P
t,0
.
Las frmulas introducidas en este captulo se encuentran entre las ms utilizadas
para cuanticar las variaciones de precios y se plantea ahora la pregunta relativa a
cul de ellas es la ms adecuada. Aun cuando el ndice de Fisher goza de ciertas
propiedades tericas interesantes, su utilizacin en la prctica resulta compleja, en
parte relacionado con el hecho de que para su clculo se precisa informacin sobre un
doble sistema de ponderacin, correspondiente a los ndices de Laspeyres y de Paasche.
La eleccin entre los ndices de Laspeyres y Paasche se basa en la disponibilidad de
informacin para la actualizacin de las ponderaciones. Pensemos, por ejemplo, en un
ndice de Precios de Consumo: el clculo de un ndice de Paasche requerira conocer las
cantidades consumidas de los distintos bienes que integran el ndice en cada periodo,
lo cual no suele resultar factible por la gran cantidad de informacin estadstica que
es necesario recabar. La alternativa ser utilizar la frmula de Laspeyres, que asume
una estructura de consumo ja, y renovar la base del ndice con cierta frecuencia con
el n de que la estructura de ponderaciones pueda ir recogiendo los cambios en las
pautas de consumo de los hogares.
En la actualidad, la frmula de clculo del ndice de Precios de Consumo espaol se
basa en un ndice de Laspeyres con base en el ao 2006, en el que las ponderaciones
de los artculos incluidos en el ndice se determinan segn el gasto de los hogares en
el ao base. Asimismo, el ndice de Precios Industriales se calcula como un ndice de
Laspeyres base 2005, en el que las ponderaciones de los productos se determinan segn
el valor de produccin en el ao base.
Frmulas habituales de cantidades
Se introducen a continuacin las frmulas habituales para medir la variacin global
de las cantidades (en unidades fsicas) producidas o consumidas de un conjunto de n
bienes.
126
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
Denicin 9.4. Dado un conjunto de n bienes con precios y cantidades en los periodos
0 y t {p
i0
, q
i0
, q
it
; i = 1, . . . , n}, se dene el ndice cuntico de Laspeyres (L
Q
) del
periodo t con base el periodo 0 como un ndice media ponderada de los ndices simples
de cantidades I
Q
t,0
(i) con ponderaciones w
i0
= p
i0
q
i0
.
La expresin habitual de clculo de un ndice cuntico de Laspeyres viene dada por:
L
Q
t,0
=
n

i=1
p
i0
q
it
n

i=1
p
i0
q
i0
(9.1.4)
que se obtiene de forma directa como media ponderada de los ndices simples de
cantidades tomando como ponderaciones los valores del periodo base:
L
Q
t,0
=
n

i=1
I
Q
t,0
(i)w
i0
n

i=1
w
i0
=
n

i=1
q
it
q
i0
p
i0
q
i0
n

i=1
p
i0
q
i0
=
n

i=1
p
i0
q
it
n

i=1
p
i0
q
i0
Denicin 9.5. Dado un conjunto de n bienes con precios y cantidades en los periodos
0 y t {p
it
, q
i0
, q
it
; i = 1, . . . , n}, se dene el ndice cuntico de Paasche (P
Q
) del
periodo t con base el periodo 0 como un ndice media ponderada de los ndices simples
de cantidades I
Q
t,0
(i) con ponderaciones w
it
= p
it
q
i0
.
La expresin habitual de clculo de un ndice cuntico de Paasche viene dada por:
P
Q
t,0
=
n

i=1
p
it
q
it
n

i=1
p
it
q
i0
(9.1.5)
que se obtiene tambin a partir de la expresin general de los ndices sintticos media
ponderada tomando como ponderaciones las cantidades consumidas en el periodo base
valoradas a precios del periodo actual:
P
Q
t,0
=
n

i=1
I
Q
t,0
(i)w
it
n

i=1
w
it
=
n

i=1
q
it
q
i0
p
it
q
i0
n

i=1
p
it
q
i0
=
n

i=1
p
it
q
it
n

i=1
p
it
q
i0
De forma anloga a los ndices de precios, los ndices cunticos de Laspeyres y Paas-
che se expresan como ndices agregativos que cuantican exclusivamente variaciones
en las cantidades de los bienes incluidos en el ndice: en el ndice de Laspeyres se
comparan valores agregados de los periodos actual y base, para un sistema de precios
constante en el tiempo {p
i0
}, mientras que la comparacin en el caso de la frmula de
Paasche se efecta para unos precios variables a lo largo del tiempo {p
it
}.
127
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
Propiedad 9.4. El ndice cuntico de Laspeyres verica las propiedades de identi-
dad, proporcionalidad y homogeneidad y no cumple las propiedades de inversin y
circularidad.
Demostracin. La demostracin es anloga a la desarrollada en la propiedad 9.1 para
la frmula de precios. La nica salvedad se reere al cumplimiento en este caso de la
propiedad de homogeneidad, ya que al tratarse de un ndice cuntico no se presentan
problemas con los cambios de escala que varan en el tiempo.
Tambin es posible denir un ndice cuntico de Fisher como media geomtrica de
los ndices cunticos de Laspeyres y Paasche. Asimismo el tipo de consideraciones sobre
la adecuacin terica y los problemas de aplicacin prctica de los distintos indicadores
de precios se mantienen para el caso de los ndices cunticos, siendo el de Laspeyres
el ms utilizado. En particular, el ndice de Produccin Industrial elaborado por el
INE es un ndice cuntico de Laspeyres con base en el ao 2005 y con ponderaciones
de los productos segn el valor de produccin en el ao base.
9.2. ndices de valor
Las frmulas de ndices de precios introducidas en el apartado anterior permiten
estudiar variaciones exclusivamente en precios, mientras que las frmulas de ndices
cunticos permiten analizar las variaciones de cantidades. Sin embargo, en muchos
casos interesa estudiar la variacin de los valores v
i
= p
i
q
i
, (i=1,...,n), de un conjunto
de bienes.
Denicin 9.6. Dado un conjunto de n bienes con precios y cantidades en los periodos
0 y t {p
i0
, p
it
, q
i0
, q
it
; i = 1, . . . , n}, se dene el ndice de valor del periodo t con base
el periodo 0 como el ndice agregativo:
IV
t,0
=
V
t
V
0
=
n

i=1
p
it
q
it
n

i=1
p
i0
q
i0
(9.2.1)
A nivel individual se verica que la variacin en el valor de un bien puede obtenerse
como producto de la variacin en precio por la variacin en cantidad. Por ejemplo, si
este ao se triplica el precio de un bien y se duplica la cantidad consumida, su valor
se ver multiplicado por seis. La extensin de esta idea a un conjunto de n bienes da
lugar a la siguiente denicin.
Denicin 9.7. Dada una frmula de clculo (I) de ndices de precios y cantidades,
se dice que cumple el criterio de reversin de factores o compatibilidad si verica:
IV = I
P
I
Q
.
Propiedad 9.5. Las frmulas de Laspeyres y Paasche verican el criterio de reversin
de factores de forma cruzada, es decir: IV
t,0
= L
P
t,0
P
Q
t,0
= L
Q
t,0
P
P
t,0
.
128
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
Demostracin. Teniendo en cuenta las frmulas de clculo de Laspeyres y Paasche
podemos comprobar, por ejemplo, la primera parte de la identidad anterior:
L
P
t,0
P
Q
t,0
=
n

i=1
p
it
q
i0
n

i=1
p
i0
q
i0
n

i=1
p
it
q
it
n

i=1
p
it
q
i0
= IV
t,0
Por consiguiente las frmulas de Laspeyres y Paasche no cumplen la propiedad de
compatibilidad en un sentido estricto, sino de forma cruzada.
9.3. Deactacin
Las magnitudes econmicas valoradas en unidades monetarias de un periodo de
tiempo t se dice que estn expresadas en trminos monetarios nominales o a precios
corrientes del periodo t. La comparacin de valores de una magnitud a precios co-
rrientes de diferentes periodos de tiempo da como resultado una variacin aparente.
Dado que los precios varan con el paso del tiempo, una solucin para comparar va-
lores correspondientes a diferentes periodos sin que se vean afectados por los cambios
en los precios consiste en expresar dichos valores a precios constantes de un periodo
de referencia 0. La comparacin de valores de una magnitud a precios constantes del
periodo 0 da como resultado una variacin real.
Si se considera un valor agregado del tipo V
t
=
n

i=1
p
it
q
it
, podra expresarse a pre-
cios constantes de un periodo 0 de forma directa como
n

i=1
p
i0
q
it
. Pero no todas las
magnitudes monetarias son susceptibles de ser expresadas como agregados de precios
por cantidades o, en ocasiones, no se dispone de informacin de los precios del periodo
base, por lo que es preciso establecer un procedimiento general que permita transfor-
mar series a precios corrientes en series a precios constantes, descontando el efecto de
la variacin de los precios entre los dos periodos considerados.
Denicin 9.8. La deactacin es la operacin que permite transformar un valor
expresado a precios corrientes de un periodo t (x
t
) en otro a precios constantes de un
periodo de referencia 0, a travs de la expresin:
x
t
I
P
t,0
donde I
P
t,0
es un ndice de precios que reeja la variacin de los precios entre los
periodos 0 y t y que recibe el nombre de deactor.
La eleccin del deactor depender del problema al que nos enfrentemos en cada
caso concreto. No obstante, como criterio general interesar utilizar como deactor
un ndice de precios referido al periodo considerado y que incluya un conjunto de
129
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
bienes y/o servicios lo ms parecidos posible a los que integran la magnitud que se
desea deactar. En el caso de valores agregados el deactor adecuado sera el ndice
de precios de Paasche con la misma cobertura de bienes, ya que:
V
t
P
P
t,0
=
n

i=1
p
it
q
it
n

i=1
p
it
q
it
n

i=1
p
i0
q
it
=
n

i=1
p
i0
q
it
En la prctica es habitual acudir a ndices de precios publicados por organismos o-
ciales. As, para transformar la renta disponible de una familia a unidades monetarias
constantes de un determinado ao, el deactor adecuado ser el IPC, mientras que
para deactar el valor de un conjunto de productos industriales resulta ms adecuado
utilizar como deactor el ndice de Precios Industriales (IPRI).
9.4. ndices encadenados
Los ndices introducidos hasta el momento comparan directamente dos periodos
de tiempo, 0 y t. La idea que se plantea en este apartado consiste en fragmentar el
paso del periodo 0 al t mediante el encadenamiento de las variaciones parciales en los
periodos intermedios.
Denicin 9.9. Se dene el ndice encadenado o tipo cadena entre los periodos 0 y
t, asociado a la expresin de clculo I, como el valor de la expresin:
CI
t,0
= I
t,t1
I
t1,t2
I
1,0
=
t

k=1
I
k,k1
(9.4.1)
Esta expresin puede ser aplicada a cualquiera de las frmulas de clculo introdu-
cidas en el apartado 9.1 (Laspeyres, Paasche, etc.). As, por ejemplo, la expresin de
un ndice encadenado de precios de Laspeyres ser:
CL
P
t,0
= L
P
t,t1
L
P
t1,t2
L
P
1,0
=
t

k=1
n

i=1
p
i,k
q
i,k1
n

i=1
p
i,k1
q
i,k1
Los ndices encadenados han cobrado especial relevancia desde el ao 2001 en que
se renov la metodologa del IPC elaborado en Espaa, pasando a ser calculado en la
actualidad mediante un ndice encadenado de Laspeyres.
130
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
Ventajas e inconvenientes de los ndices encadenados
Los ndices cadena verican la propiedad de circularidad ya que si se considera un
periodo intermedio t

(0 < t

< t), entonces: CI


t,0
= (I
t,t1
I
t

+1,t
)(I
t

,t

1
I
1,0
) =
CI
t,t
CI
t

,0
. El cumplimiento de esta propiedad no depende de que la frmula de
clculo I verique el requisito de circularidad; no obstante, en el caso de que s lo
verique, la cifra de variacin proporcionada por el ndice encadenado coincidir
exactamente con la obtenida por comparacin directa entre los periodos 0 y t
mediante la frmula I.
Desde un punto de vista prctico tienen mayor exibilidad: la consideracin de
ndices en periodos intermedios permite compensar un posible envejecimiento
de la base del ndice as como ir introduciendo cambios en su composicin (por
ejemplo, la incorporacin de productos de nueva aparicin en el mercado).
Una limitacin prctica de este tipo de ndices es la necesidad de gran cantidad
de informacin estadstica. Pensemos por ejemplo en un ndice de precios de
Laspeyres: para la frmula directa es necesario conocer los precios en los periodos
0 y t y las cantidades tan solo en el periodo 0, mientras que para el clculo del
ndice encadenado se precisan adicionalmente los precios y las cantidades en
todos los periodos intermedios.
El resultado de la variacin global proporcionada por un ndice encadenado
depende generalmente del nmero de eslabones o periodos intermedios conside-
rados. De hecho, el sesgo asociado a la utilizacin de una expresin de clculo
determinada aumentar de dimensin cuanto ms larga sea la cadena.
9.5. Variacin de un ndice y repercusin
En el ejemplo 9.1 se obtuvieron las variaciones de los precios de los carburantes en el
periodo 2007-2010, tomando como referencia el ao 2007. La cuestin que surge ahora
es la siguiente: sera posible conocer a partir de dichos resultados la variacin de los
precios entre los aos 2009 y 2010? Para ello se introduce el concepto de variacin
relativa.
Denicin 9.10. Dada una serie de ndices calculados tomando como referencia el
periodo 0 {I
t,0
}, se dene la variacin relativa (en %) del ndice entre los periodos t y
t como el valor de la expresin:
V
tt
=
I
t

,0
I
t,0
I
t,0
100 (9.5.1)
La aplicacin de esta expresin a las cifras del ndice de precios de Laspeyres del
ejemplo nos lleva a concluir que los carburantes aumentaron su precio en un 17,9 %
entre los aos 2009 y 2010.
131
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
Las cifras de variacin entre dos periodos obtenidas a partir de ndices sintticos son
valores promedio de la variacin de los distintos componentes del ndice. Sera intere-
sante analizar separadamente los distintos efectos, pues una misma cifra de variacin
global puede responder a situaciones muy diferentes. Por ejemplo, una variacin nu-
la entre dos periodos puede ser consecuencia de que todos los componentes se han
mantenido constantes en el tiempo o, alternativamente, que unos han experimentado
cambios positivos y otros cambios negativos, que se han compensado entre s.
Denicin 9.11. La repercusin (en %) de un componente en la variacin relativa
del ndice general entre dos periodos se dene como la parte de la variacin o efecto
individual que corresponde a dicho componente.
Teniendo en cuenta esta denicin, la repercusin de un componente puede inter-
pretarse como la variacin del ndice si slo hubiera experimentado cambios dicho
componente. La expresin de clculo de la repercusin depende del tipo de frmula
utilizada. A continuacin se efecta la deduccin para el caso de un ndice tipo media
ponderada de base ja.
Propiedad 9.6. La repercusin de un componente i en la variacin de un ndice tipo
media ponderada de base ja con ponderaciones w
i0
(i = 1, ...n) al pasar de un periodo
t a un periodo t

viene dada por el valor de la expresin:


R
tt
(i) =
1
I
t0
_

_
(I
t

0
(i) I
t0
(i))
w
i0
n

i=1
w
i0
_

_
100 (9.5.2)
Demostracin. Sustituyendo la expresin de clculo de un ndice media ponderada en
el numerador de la frmula de la variacin relativa 9.5.1, se tiene que:
V
tt
=
I
t

,0
I
t,0
I
t,0
100 =
1
I
t,0
_

_
n

i=1
I
t

0
(i)w
i0
n

i=1
w
i0

i=1
I
t

0
(i)w
i0
n

i=1
w
i0
_

_
100
=
1
I
t,0
n

i=1
_

_
[I
t

0
(i) I
t0
(i)]
w
i0
n

i=1
w
i0
_

_
100
La expresin de la repercusin propuesta en el enunciado 9.5.2 se corresponde con
el sumando i-simo de la relacin anterior ya que si entre los periodos t y t

slo expe-
rimenta variaciones el componente i-simo, todas las diferencias de los ndices simples
entre corchetes sern nulas a excepcin de la correspondiente a dicho componente.
La expresin 9.5.2 puede aplicarse a los ndices de Laspeyres; en particular, si se
considera la frmula de precios con ponderaciones w
i0
= p
i0
q
i0
, se deduce fcilmente
la expresin de la repercusin para L
P
:
132
9 Nmeros ndices: Frmulas habituales, variacin y repercusin
R
tt
(i) =
_
I
P
t

0
(i) I
P
t0
(i)

p
i0
q
i0
n

i=1
p
i0
q
i0
L
P
t0
100 =
_
p
it

p
i0

p
it
p
i0
_
p
i0
q
i0
n

i=1
p
i0
q
i0
L
P
t0
100
=
[p
it
p
it
]
q
i0
n

i=1
p
i0
q
i0
L
P
t0
100
Tanto la variacin relativa de un ndice como las repercusiones pueden ser negativas,
positivas o nulas. Adems, de la propia denicin de la repercusin se desprende que
la suma de todas las repercusiones da como resultado la variacin del ndice, es decir:
n

i=1
R
tt
(i) = V
tt
.
En el ejemplo 9.1, el tipo de carburante con mayor efecto individual en la variacin
global de precios entre los aos 2009 y 2010 es el gasleo, con una repercusin del
12,6 %. O equivalentemente, si el precio de la gasolina sin plomo no hubiera cambiado
entre los aos 2009 y 2010, el ndice global de precios de los carburantes habra au-
mentado en un 14,2 %. De forma complementaria se obtiene que la repercusin de la
gasolina sin plomo fue del 3,7 %.
133
10 El ndice de Precios de Consumo y
sus aplicaciones
10.1. El ndice de Precios de Consumo (IPC)
El ndice de Precios de Consumo (IPC) es un indicador mensual elaborado por el
INE, cuyo objetivo es medir la evolucin del nivel de precios de los bienes y servicios
de consumo adquiridos por los hogares residentes en Espaa.
EL IPC es uno de los principales indicadores de la coyuntura econmica del pas,
utilizado principalmente como medida de la inacin. Pero tiene adems otras mu-
chas aplicaciones y de gran importancia en los mbitos econmico, jurdico y social:
revalorizacin de las pensiones, actualizacin del salario mnimo interprofesional y de
los sueldos de los funcionarios de las Administraciones Pblicas, revisiones salaria-
les pactadas en convenios colectivos, revisin de los contratos de arrendamiento de
inmuebles, etc.
La metodologa para la elaboracin del IPC es compleja y su diseo responde a la
necesidad de satisfacer dos requisitos bsicos
1
:
Representatividad. Dado que cada familia tiene sus propias pautas de consumo,
cmo ser posible obtener un indicador que represente adecuadamente los cam-
bios en los precios de los productos que consumen todas las familias? Para ello,
los artculos incluidos en el ndice deben ser los ms consumidos por la mayora
de la poblacin, los establecimientos donde se observan los precios deben ser los
ms visitados y las ponderaciones o pesos relativos de cada artculo en el ndice
deben responder a las tendencias de consumo de los hogares.
Medir las variaciones de precios puras, sin verse afectadas por cambios en la
calidad de los productos, ni en las pautas de consumo de los hogares, ni en la
metodologa de elaboracin del ndice,.... Es decir, se trata de que al comparar
las cifras de IPC de dos periodos de tiempo, la variacin obtenida sea debida
exclusivamente a cambios en los precios.
En este marco, un Sistema de ndices de Precios de Consumo consta de una serie
de elementos cuya determinacin viene guiada por los requisitos anteriores. Los ms
destacables son los siguientes:
El estrato de referencia, que es el grupo de poblacin cuya estructura de consumo
sirve de base para el clculo del ndice de Precios de Consumo.
1
Este apartado es un resumen de la metodologa detallada que est disponible en la web del INE
www.ine.es
134
10 El ndice de Precios de Consumo y sus aplicaciones
La cesta de la compra o conjunto de bienes y servicios que consumen habitual-
mente los integrantes del estrato de referencia y que, por tanto, sern objeto
de observacin para el clculo del ndice. Es conveniente tener presente que se
consideran nicamente bienes destinados al consumo, por lo que estn excludos,
entre otros, los gastos en bienes de inversin tales como la adquisicin de una
vivienda.
Las ponderaciones, que representan la importancia relativa que tiene cada ar-
tculo que compone la cesta de la compra frente a los dems. Tanto la cesta
de la compra como las ponderaciones se determinan a partir de la informacin
proporcionada por las encuestas de presupuestos familiares.
La muestra de municipios y establecimientos. Para elaborar el IPC se precisa
tambin disponer de informacin permanentemente actualizada de los precios de
los artculos que integran la cesta de la compra. Estos datos se obtienen mediante
una encuesta mensual realizada a una muestra de municipios y establecimientos
representativos en los que se observan los precios de dichos artculos.
La frmula de clculo. Dado que el objetivo del IPC es aislar los cambios en
los precios, su clculo se basa en un ndice de precios, generalmente mediante
frmulas de base ja, tipo Laspeyres.
El IPC base 2006
Los elementos que componen el Sistema de IPC deben permanecer estables a lo largo
del tiempo con el n conseguir la comparabilidad temporal de las variaciones en los
precios. No obstante, las pautas de consumo de los hogares van experimentando cam-
bios con el paso del tiempo: se reduce el consumo de algunos productos y, por otra
parte, aparecen nuevos productos en el mercado; pensemos por ejemplo en todos los
vinculados a las nuevas tecnologas tales como Internet de alta velocidad o la telefo-
na mvil, prcticamente desconocidos hace 15 aos. Por ello, es necesario revisar y
actualizar los componentes del IPC cada cierto tiempo, de modo que se garantice su
representatividad. En este sentido, el IPC espaol se renueva cada cinco aos, sien-
do la ltima renovacin realizada la correspondiente al ao 2006. A continuacin se
analizan los aspectos concretos del sistema de IPC con base en 2006:
El estrato de referencia del IPC base 2006 abarca a toda la poblacin residente
en viviendas familiares en Espaa. Por tanto, nicamente queda excluido el
gasto de los residentes en hogares colectivos (conventos, residencias de ancianos,
prisiones, ...), as como el de los residentes en el extranjero.
La composicin de la cesta de la compra y su estructura de ponderaciones se
basa en la informacin sobre gastos de consumo de los hogares proporcionada
por la Encuesta Continua de Presupuestos Familiares (concretamente se utili-
zaron los datos trimestrales de un periodo de dos aos, que van desde el primer
trimestre de 2004 hasta el cuarto trimestre de 2005). Para corregir el desfase
135
10 El ndice de Precios de Consumo y sus aplicaciones
Figura 10.1: Ponderaciones IPC 2006 (actualizacin 2010)
que se produca entre este periodo de referencia de las ponderaciones y el pe-
riodo de referencia de los precios (diciembre del ao 2006) se actualizaron las
ponderaciones mediante la utilizacin de informacin sobre evolucin de precios
y de cantidades, procedente del IPC y de otras fuentes. La cesta de la compra
del IPC base 2006 est integrada por artculos representativos de las diferentes
parcelas de consumo que superan el 0,3 por mil del gasto total de los hogares,
un total de 491 artculos.
La ponderacin asociada a cada uno de los artculos que forman parte de la cesta
de la compra representa la relacin entre el gasto realizado en dicho artculo y
el gasto total:
w
i
=
gasto realizado en las parcelas representadas por el artculo i
gasto total
Los artculos de la cesta de la compra se clasican en 12 grandes grupos de gasto,
de los que las mayores ponderaciones corresponden al grupo Alimentos y bebidas
no alcohlicas, seguido de Transporte. Las ponderaciones se actualizan cada ao
segn la ltima informacin anual disponible de la Encuesta de Presupuestos
Familiares.
Segn los datos recogidos en la gura 10.1, podemos interpretar que, por tr-
mino medio, una familia del estrato de referencia destinar de cada 1.000e de
su presupuesto para consumo, 184e a gastos de alimentacin y bebidas no al-
cohlicas, 145e a transporte, 120e a gastos relacionados con Hoteles, cafs y
restaurantes, etc.
136
10 El ndice de Precios de Consumo y sus aplicaciones
En el caso espaol, el Instituto Nacional de Estadstica ha elaborado a lo largo del
tiempo distintos sistemas de ndices de Precios de Consumo. El primero de ellos,
bajo el nombre de ndices de Coste de la Vida, se inici en 1939, tomando como
base el mes de julio de 1936. Las caractersticas de este ndice eran muy diferentes
a las del IPC actual: el estrato de referencia estaba constituido por las familias de
4 5 miembros con ingreso mensual de 600 pesetas (unos 705e de 2006) y la cesta
de la compra estaba integrada por una media de 115 artculos en cada capital de
provincia, clasicados en 5 grupos, de los que el grupo de alimentacin y bebidas
tena un peso del 60 %, en torno al triple que en el IPC base 2006.
Otro de los elementos que intervienen en el diseo del IPC es la muestra de mu-
nicipios y establecimientos. En el sistema base 2006, se han seleccionado hasta
177 municipios en el caso de los precios de los artculos del grupo de Alimenta-
cin, procurando tener una amplia cobertura de poblacin. En dichos municipios
se ha seleccionado una muestra de unos 33.000 establecimientos comerciales de
modo que estn representados todo tipo de establecimientos (hipermercados,
mercados, tiendas especializadas, ...) y de zonas comerciales y que, adems sean
los de mayor auencia de pblico y ventas de la localidad. Entre los das 1 y
22 de cada mes, agentes entrevistadores del INE acuden a los establecimientos
de la muestra y toman los precios de los artculos de la cesta de la compra con
las caractersticas especicadas previamente. Es importante este punto puesto
que, de no mantenerse las especicaciones de los productos todos los meses, se
estaran midiendo no slo los cambios en los precios sino tambin en la calidad.
De este modo, se recogen aproximadamente 220.000 precios cada mes.
Por ltimo, la frmula de clculo del IPC base 2006 es el ndice de precios de
Laspeyres encadenado. Esto signica que para comparar el periodo actual (t)
con el periodo base (0) se consideran otros periodos intermedios (k), que en el
sistema base 2006 corresponden a los meses de diciembre de todos los aos. As,
el ndice del mes m del ao t se obtendr como: IPC
mt,06
= IPC
mt,dic(t1)

IPC
dic(t1),06
. Una ventaja de la utilizacin de frmulas encadenadas es la po-
sibilidad de incorporar anualmente las actualizaciones de las ponderaciones, lo
que permite ir adaptando el IPC a los cambios del mercado y de los hbitos de
consumo en plazos muy breves de tiempo.
Los resultados del IPC de cada mes son dados a conocer en la primera quincena del
mes siguiente, de acuerdo con el calendario de disponibilidad establecido por el INE.
En la fecha prevista pueden consultarse en la web del INE los datos del IPC general
y con distintos niveles de desagregacin:
Desagregacin geogrca: adems del IPC general para el conjunto del territorio
nacional, se publican ndices por comunidades autnomas y por provincias.
Desagregacin funcional: se publican datos para los doce grandes grupos de
gasto, para grupos especiales y, ya ms especcos, para pequeos grupos o
rbricas de gasto.
137
10 El ndice de Precios de Consumo y sus aplicaciones
Figura 10.2: Tasas interanuales de inacin general e inacin subyacente
Adems de los ndices se publican distintas tasas de variacin, tanto globales como por
grupos, que para el mes m del ao t se calculan a travs de las siguientes expresiones:
Tasa intermensual o variacin sobre el mes anterior:
V
(m1)tmt
=
_
IPC
mt,06
IPC
(m1)t,06
1
_
100
Tasa acumulada o variacin en lo que va de ao (toma como referencia el mes
de diciembre del ao anterior):
V
dic(t1)mt
=
_
IPC
mt,06
IPC
dic(t1),06
1
_
100
Tasa interanual o variacin en un ao:
V
m(t1)mt
=
_
IPC
mt,06
IPC
m(t1),06
1
_
100
Como consecuencia de su denicin, la tasa acumulada (que cuantica la variacin
del IPC en lo que va de ao) coincidir en el mes de enero de cada ao con la tasa
intermensual y en el mes de diciembre con la tasa interanual.
Entre los grupos especiales cabe destacar, por su importancia en los anlisis econ-
micos, el resultado correspondiente a la inacin subyacente, que se obtiene a partir
del ndice General excluyendo los alimentos no elaborados y los productos energ-
ticos. La inacin subyacente suele tener un comportamiento ms estable como se
puede observar en el grco 10.2, dado que no incluye productos cuyos precios pueden
ser ms errticos por motivos climticos o estacionales (caso de algunos alimentos no
elaborados) o por tratarse de productos importados (caso del petrleo).
138
10 El ndice de Precios de Consumo y sus aplicaciones
Enlace de series
Cada vez que se lleva a cabo un cambio en la base del IPC, se produce una ruptura
en la continuidad de las series como consecuencia de los cambios introducidos en el
sistema: actualizacin de ponderaciones, nueva cesta de la compra y cambios metodo-
lgicos en general. En la prctica los usuarios precisan series continuadas y dado que
los cambios de base son inevitables, el INE ha diseado procedimientos que permiten
conocer la variacin de los precios entre dos meses cualesquiera, aunque correspondan
a sistemas de IPC calculados con distintas bases. Hasta que entr en vigor el sistema
de IPC base 2006, el INE publicaba unos coecientes de enlace entre las series de
distintas bases; as, por ejemplo, los coecientes de enlace correspondientes al paso de
base 1992 a base 2001, se obtuvieron a partir de las cifras de IPC de diciembre de 2001
calculadas segn ambas metodologas. A partir del ao 2006 no se precisan coecientes
de enlace ya que por ser la frmula del IPC un ndice encadenado, el propio mtodo
de clculo permite realizar el enlace con la serie base 2001.
El INE ha implementado en su pagina web una aplicacin que permite obtener de
forma inmediata la tasa de variacin del IPC entre meses de dos aos cualesquiera
desde 1961, respondiendo as a una de las demandas ms frecuentes por parte de los
usuarios.
10.2. El IPC armonizado
El ndice de Precios de Consumo Armonizado (IPCA) es un indicador cuyo objetivo
es proporcionar una medida comn de la inacin que permita realizar comparaciones
entre los pases miembros de la Unin Europea.
Se trata de un indicador fundamental para el funcionamiento de la Unin Europea
y muy especialmente para los pases que forman parte del euro: el artculo 127 del
Tratado de Funcionamiento de la Unin Europea establece que el objetivo principal
del Eurosistema ser mantener la estabilidad en precios ..., estabilidad en precios que
el Banco Central Europeo dene como un incremento interanual del ndice de Precios
de Consumo Armonizado (IPCA) para la zona euro inferior al 2 %.
Asimismo, el IPCA fue el indicador utilizado para examinar el cumplimiento del re-
quisito en materia de inacin establecido por el Tratado de Maastrich, segn el cual
los pases comunitarios que desearan formar parte de la Unin Econmica y Monetaria
deberan tener un ndice de precios al consumo no superior a 1,5 puntos porcentuales
del IPC medio de los tres pases con la inacin ms baja.
El IPCA se obtiene a partir de los IPC nacionales de cada Estado miembro de la
Unin Europea, mediante un proceso de armonizacin establecido por EUROSTAT.
En cada pas el IPCA cubre las parcelas de consumo que superan el uno por mil del
total de gasto de la cesta de la compra nacional y se realizan ajustes para conseguir la
comparabilidad deseada mediante determinadas inclusiones o exclusiones de partidas
de consumo. En el caso de Espaa, desde enero de 2001 la nica diferencia entre el
IPCA y el IPC en cuanto a cobertura de bienes y servicios se reere al tratamiento
139
10 El ndice de Precios de Consumo y sus aplicaciones
de los seguros y la compra de automviles usados. En lo que se reere a cobertura
de poblacin el IPCA incluye los gastos de los turistas en Espaa y excluye el de los
espaoles en el extranjero. En cambio, el IPC nacional slo contempla el gasto rea-
lizado por los hogares residentes en Espaa (independientemente del lugar en el que
se haya realizado); por ello, la principal diferencia en la estructura de ponderaciones
entre el IPC y el IPCA est en el grupo Hoteles, cafs y restaurantes con pondera-
ciones respectivas 12 % y 14,5 % (actualizacin de 2010). El IPCA se calcula mediante
la frmula del ndice de precios de Laspeyres encadenado, tomando como base el ao
2005.
Eurostat publica mensualmente las cifras del IPC armonizado de los 27 pases miem-
bros de la Unin Europea y de otros tres pases adicionales, Islandia, Noruega y Suiza.
Adems publica tres ndices agregados:
El ndice de Precios de Consumo de la Unin Monetaria, calculado como una
media ponderada de los IPCA de los 16 pases que integran la zona euro.
El ndice de Precios de Consumo Europeo, que es una media ponderada de los
IPCA de todos los pases de la UE.
El ndice de Precios de Consumo del rea Econmica Europea, que adems de
los pases de la UE incluye Islandia y Noruega.
Adems, desde el ao 2009 ha empezado a publicarse el IPCA a Impuestos Constantes
(IPCA-IC), que tiene como objetivo medir la evolucin de los precios de consumo pero
considerando que los impuestos permanecen constantes. De este modo la diferencia
entre el IPCA y el IPCA-IC representa el efecto de cambios en los impuestos.
10.3. Aplicaciones econmicas del IPC
La capacidad de los ndices de precios, y muy especialmente del IPC, para medir la
inacin justica su gran popularidad y el gran nmero de aplicaciones en el mbito
econmico, que centraremos en la deactacin y, en un sentido inverso, la indexacin.
El IPC es uno de los deactores ms utilizados. Su uso ser especialmente adecuado
cuando se trate de analizar la evolucin real de magnitudes monetarias vinculadas con
su cobertura, es decir, con todos aquellos valores relacionados con el consumo de los
hogares. El IPC ser por tanto el ndice de precios adecuado para deactar los gastos
a precios corrientes de los hogares o para conocer la evolucin de su poder adquisitivo
a travs del estudio de la evolucin real de las rentas salariales.
En un sentido inverso a la deactacin se plantea la indexacin o actualizacin
como un proceso mediante el cual se revisan determinados valores monetarios segn
la variacin experimentada por un ndice de precios. Este procedimiento se utiliza
habitualmente para actualizar ingresos monetarios tales como salarios, pensiones de
la Seguridad Social o pensiones alimenticias en sentencias de divorcio, con el n de
garantizar que se mantiene el poder adquisitivo de los perceptores. A modo de ilustra-
cin, se incluye a continuacin la legislacin relativa a algunas de estas actualizaciones
140
10 El ndice de Precios de Consumo y sus aplicaciones
en las que se utiliza el IPC: en primer lugar la revalorizacin de pensiones de la Segu-
ridad Social, en segundo lugar la actualizacin de contratos de arrendamiento y, por
ltimo, un ejemplo de incremento salarial en el convenio colectivo de un sector.
Las pensiones de la Seguridad Social en su modalidad contributiva, incluido el
importe de la pensin mnima, sern revalorizadas al comienzo de cada ao,
en funcin del correspondiente ndice de precios al consumo previsto para dicho
ao. [Ley 24/1997, de 15 de julio, de consolidacin y racionalizacin del Sistema
de Seguridad Social, Artculo 11].
Durante los cinco primeros aos de duracin del contrato, la renta slo podr ser
actualizada por el arrendador o el arrendatario en la fecha en que se cumpla cada
ao de vigencia del contrato, aplicando a la renta correspondiente a la anualidad
anterior la variacin porcentual experimentada por el ndice General Nacional
del Sistema de ndices de Precios de Consumo en un periodo de doce meses
inmediatamente anteriores a la fecha de cada actualizacin, tomando como mes
de referencia para la primera actualizacin el que corresponda al ltimo ndice
que estuviera publicado en la fecha de celebracin del contrato, y en las sucesivas
el que corresponda al ltimo aplicado. [Ley 29/1994 de 24 de Noviembre, de
arrendamientos urbanos, Artculo 18].
En lo que se reere al incremento salarial, se establece para el ao 2009 el
IPC real de dicho ao con un mnimo garantizado del 0,5 % sobre las tablas
salariales anejas a este convenio, con efectos a partir de 1 de enero de dicho ao.
[Convenio colectivo estatal para las empresas de publicidad, BOE 24/2/2010,
Artculo 28].
En el ltimo caso y teniendo en cuenta que la cifra interanual de inacin de 2009
(correspondiente al mes de diciembre) fue del 0,8 %, el convenio publicado garantiza
que un trabajador del sector de publicidad con un salario mensual de 1.000e en 2008
tendra un salario de 1.008e en 2009.
141
11 Series temporales: planteamiento y
tendencia
La comprensin de gran parte de los fenmenos de inters en economa se ver
notablemente facilitada si disponemos de informacin histrica sobre los mismos.
En efecto, en el mbito econmico-empresarial aparece frecuentemente la necesidad
de adoptar decisiones que se hallan condicionadas por el valor futuro de cierta carac-
terstica. La elaboracin de pronsticos para estos valores futuros exige disponer de
informacin sobre la evolucin histrica de las correspondientes magnitudes.
Este sera el caso si, por ejemplo, queremos elegir una opcin entre varias alterna-
tivas posibles de inversin cuya rentabilidad futura debemos estimar o si decidimos
adquirir un terreno bajo el supuesto de que la poblacin -y en consecuencia los pre-
cios del suelo- aumentarn en determinada zona. En cualquiera de estos supuestos
la decisin no se basar solamente en los valores actuales de la variable sino que se
fundamentar tambin en el anlisis de sus valores histricos as como en otras tcni-
cas, como la opinin de expertos, que proporciona informacin de tipo cualitativo o
el anlisis de la relacin con otras variables, a travs de los estudios de regresin.
La historia de una serie temporal y por tanto los periodos en los que se llevaron
a cabo las observaciones van a tener un papel relevante en su anlisis. Segn que la
perspectiva adoptada sea de corto, medio o largo plazo, nuestro anlisis se centrar
en distintos componentes de la serie.
El anlisis clsico de series temporales consiste en identicar en las mismas distintos
componentes que pueden ser aislados y analizados separadamente. De estos compo-
nentes el que tendr un mayor peso en la trayectoria de la serie ser la tendencia que
estudiamos en el apartado nal de este tema.
Este anlisis clsico es equiparable a una diseccin estadstica que se basa en
distintos instrumentos de anlisis y sirve de impulso a otras ramas de investigacin
como el anlisis de coyuntura.
11.1. Evolucin temporal de magnitudes
Denicin 11.1. Denominamos en trminos genricos, serie temporal (tambin de-
signada como serie histrica o cronolgica) a una sucesin de observaciones de una
variable a travs del tiempo.
Aunque este concepto conlleva la consideracin conjunta de dos variables que podran
admitir la interpretacin de variable dependiente en el caso de la magnitud analizada e
independiente el tiempo, esta traslacin de los conceptos de regresin no es totalmente
142
11 Series temporales: planteamiento y tendencia
vlida, resultando ms adecuado efectuar un planteamiento no causal en el que el tiempo
acta nicamente como referencia o soporte, siendo la magnitud analizada la nica
variable del estudio.
En este tipo de estudios denominados de corte longitudinal se recoge la evolucin
de una o varias magnitudes a lo largo del tiempo. La diferencia fundamental respecto
al anlisis causal presente en regresin es que la explicacin -y posteriormente la
realizacin de predicciones- se basar ahora en la informacin directa que el pasado
proporciona sobre el fenmeno que estamos estudiando.
La informacin inicial de un estudio temporal va referida a una magnitud econmica,
que puede pertenecer a dos modalidades: stock y ujo.
En las variables stock o nivel cada observacin se reere a un instante determi-
nado.
En el estudio de variables ujo las observaciones van referidas a un periodo de
tiempo.
Las categoras de variables stock y ujo aparecen claramente recogidas en la distincin
-apuntada ya en la obra de Adam Smith (1723-1790)- entre los conceptos de riqueza
y renta. El primero de ellos cuantica los fondos o sotcks de una nacin o sociedad
mientras el segundo se dene habitualmente como corriente de los bienes y servicios
generados en la sociedad durante un periodo de tiempo y pertenece, por tanto, a la
categora de ujo.
La notacin utilizada para el anlisis de series temporales depende de cmo estemos
considerando el periodo de observacin:
Periodos correlativos 1, , T, entonces se denota por Y
t
el valor de la magnitud
en el periodo t. En este caso la serie se representa:
Periodo Y
t
1 Y
1
2 Y
2
.
.
.
.
.
.
T Y
T
Si consideramos subperiodos, tendremos un doble subndice, i (i = 1, . . . , n)
que indica el periodo (generalmente el ao) y j (j = 1, . . . , m) que seala el
correspondiente subperiodo (habitualmente mes, trimestre, semestre,...). As,
para series mensuales denotamos por Y
ij
el valor de la magnitud en el mes j del
ao i, y la representacin de la serie completa sera:
Aos \ Meses 1 m
1 Y
11
Y
1m
2 Y
21
Y
2m
.
.
.
.
.
.
.
.
.
.
.
.
n Y
n1
Y
nm
143
11 Series temporales: planteamiento y tendencia
En el mbito econmico resulta necesario efectuar algunas consideraciones referidas
a la repeticin de la magnitud en el tiempo, la estabilidad de las estructuras que
condicionan su evolucin o la permanencia de su denicin, aspectos que resultan
claves para garantizar la comparabilidad temporal de la variable.
Usualmente supondremos que las observaciones se distribuyen regularmente en
el tiempo, pero en muchos casos este supuesto no garantiza la comparabilidad.
La presencia de estas mviles cada ao, la existencia de meses con distinto
nmero de das o de nes de semana, la existencia de fenmenos meteorolgicos,
... hacen que en algunos casos las observaciones no sean totalmente comparables.
As, por ejemplo los ndices de produccin estarn muy afectados por el nmero
de das laborables de cada mes.
En algunos casos se pueden aplicar ciertas soluciones que ayudan a depurar y
centrar mejor la serie.
Efecto calendario: podramos ajustar la duracin de cada mes a un periodo
de 30 das, corrigiendo, por ejemplo, la produccin de febrero mediante el
factor
30
28
, la de marzo con el factor
30
31
, etc., con el inconveniente de que el
total anual no coincidir con la suma de los doce meses as ajustados.
Existen otros mecanismos ms satisfactorios para corregir el efecto calen-
dario, excluyendo las estas nacionales, regionales o locales y considerando
tambin los nes de semana de cada mes. No obstante, estos mtodos re-
quieren un tratamiento ms avanzado al de este libro.
Tambin existen mtodos ms o menos sosticados para valorar impactos
como el Efecto Pascua (que es un efecto movible entre marzo y abril de
cada ao) o el Puente de la Constitucin (que es un efecto permanente en
el mes de diciembre). Como en el caso anterior, estos enfoques rebasan el
mbito de este libro.
Por lo que se reere a los cambios estructurales o coyunturales, que resultan
inevitables en las series de carcter histrico, pueden revestir diferentes niveles
de gravedad:
Cuando estos cambios se producen de forma lenta (alteracin de costum-
bres, modas, etc.) inuirn en el movimiento a largo plazo de la variable
considerada, y resultarn en consecuencia incluidos en alguno de los com-
ponentes de la serie.
En el caso de efectos bruscos y pasajeros (huelgas, catstrofes, accidentes,
cambios excepcionalmente extremos, ....) podra resultar conveniente, para
que no distorsionen el anlisis global del fenmeno, aminorar su impacto
considerando estos valores como impulsos o valores atpicos dentro de la
serie.
144
11 Series temporales: planteamiento y tendencia
Si, por el contrario, los cambios son bruscos y de carcter permanente pue-
den hacer aconsejable la consideracin de distintos subperiodos diferencia-
dos en el estudio del fenmeno, o bien tratar la serie completa incluyendo
un escaln en la misma.
Otro problema que se plantea a menudo en el estudio de series temporales es la
ausencia de homogeneidad en las observaciones, hecho que puede ser debido a
distintas razones, entre las que se encuentran la posible mejora de los mtodos
de observacin, las variaciones en las deniciones estadsticas o las alteraciones
en los productos o en la estructura social.
Aunque la permanencia de la denicin de la magnitud estudiada parece un requi-
sito terico imprescindible para el anlisis de su evolucin temporal, en la prctica
nos enfrentaremos a menudo con series en las que se han operado cambios meto-
dolgicos de diversa ndole (alteracin de unidades de medida, cambios de base en
ndices, actualizacin de ponderaciones o de las muestras de artculos considera-
dos, etc.) que -aunque incorporan mejoras en la abilidad de la variable- alteran
su carcter e invalidan las comparaciones.
Figura 11.1: Tasa de paro en Espaa ( %)
La gura 11.1 recoge la evolucin temporal de la tasa de paro en Espaa en los
ltimos aos segn los datos de la EPA. Llama la atencin el salto en la continuidad
de la serie que se produce en el ao 2002, justicado por un cambio en la denicin
de parado. En efecto, a partir de 2002 la clasicacin de una persona como
parada aade a los requisitos ya existentes la bsqueda activa de empleo, lo que
supuso que por motivos metodolgicos algunas personas consideradas paradas en
encuestas anteriores pasaran a la categora de inactivas.
11.2. Componentes de una serie temporal
La aproximacin inicial de un estudio temporal se efectuar mediante el anlisis
de sus datos numricos o del grco temporal que los representa. De este modo es
145
11 Series temporales: planteamiento y tendencia
posible apreciar las caractersticas ms sobresalientes del fenmeno en estudio, aunque
en etapas posteriores nos interesar profundizar ms en sus diferentes componentes.
Vamos a denir y posteriormente intentar separar distintos elementos que inuyen
en una serie temporal; pero queremos dejar claro que estos componentes no son obser-
vables, ya que la nica magnitud observable y por tanto la nica fuente de informacin
real es la serie temporal. La aproximacin de estos factores de la serie resulta til pa-
ra su anlisis e incluso para hacer predicciones, pero nunca podremos garantizar que
el componente es exactamente el estimado porque, al no ser observables sus valores
reales, nunca podremos contrastarlo.
En una primera aproximacin, el examen de cualquier serie cronolgica suciente-
mente amplia nos permitir apreciar un movimiento de carcter general, que llamamos
tendencia.
Denicin 11.2. Dada una serie temporal Y
t
(o Y
ij
), denominamos tendencia, T
t
(o
T
ij
) al movimiento general a largo plazo de la serie.
Este componente recoge la evolucin en plazos de 10, 20 o 30 aos y se obtiene
mediante ltros que proporcionan los patrones o pautas generales de comportamiento
de la serie.
En la prctica, y en especial en el mbito econmico, la tendencia aparece afectada
por oscilaciones de carcter no regular, que inciden en el valor de la magnitud anali-
zada en uno u otro sentido segn la fase econmica en la que nos encontremos. Este
componente se denomina factor cclico (C) y el tipo de variaciones que contempla han
sido estudiadas con xito en distintos campos.
Denicin 11.3. Dada una serie temporal Y
t
(o Y
ij
), denominamos ciclo o compo-
nente cclico, C
t
(o C
ij
) a las oscilaciones en torno a la tendencia que se producen en
un plazo medio de 3, 5, 8 o incluso ms aos.
Su identicacin resulta especialmente compleja en el contexto econmico debido a
la ausencia de regularidad y a la frecuente aparicin de distintos movimientos cclicos
superpuestos. Por este motivo muchas veces resulta interesante considerar conjunta-
mente los ciclos y la tendencia.
Denicin 11.4. Dada una serie temporal Y
t
(o Y
ij
), denominamos componente
extraestacional , E
t
(o E
ij
) a los movimientos a medio y largo plazo (superiores al ao),
que combinan los efectos de tendencia y de las variaciones cclicas. Este componente
se denomina tambin Tendencia-ciclo TC
t
(o TC
ij
) .
Adems de las oscilaciones cclicas, en las series temporales aparecen frecuentemente
una serie de movimientos a corto plazo (entendiendo como tales aqullos cuya duracin
es inferior a un ao).
Denicin 11.5. Dada una serie temporal Y
t
(o Y
ij
), denominamos componente
estacional , e
t
(o e
ij
), a las variaciones de carcter peridico en torno a la tendencia
que se producen en el corto plazo (periodos siempre inferiores al ao).
146
11 Series temporales: planteamiento y tendencia
En la grca del ndice de Produccin Industrial (IPI) observamos un comportamiento
sistemtico en determinados meses del ao. Podemos hacer un zoom y ampliar esta
grca para observar con mayor detalle ese comportamiento peridico.
Figura 11.2: Componentes de una serie temporal
147
11 Series temporales: planteamiento y tendencia
El origen de las variaciones de tipo estacional puede ser de carcter fsico-natural
(uctuaciones peridicas debidas a ciclos biolgicos, tiempo meteorolgico, etc.) o bien
institucional (calendarios laborales, horarios comerciales, etc.). En cualquier caso, su
rasgo denitorio es la periodicidad, que posibilita la cuanticacin de estas variaciones
e incluso su eliminacin de la serie original.
Parece razonable admitir por su propio carcter que, si la estacionalidad existe, s-
ta sea constante para cada poca considerada, hecho que facilitara notablemente su
aproximacin cuantitativa. Sin embargo, en algunas ocasiones se presentan patrones de
estacionalidad variable.
Por ltimo, conviene tener presente que las series temporales no presentan un com-
portamiento completamente sistemtico, sino que junto a las variaciones anteriores
existen otras de carcter irregular, accidental o residual.
Denicin 11.6. Dada una serie temporal Y
t
(o Y
ij
), denominamos componente
residual o accidental , u
t
(o u
ij
), a las variaciones irregulares, no controladas ni mode-
lizables que se van produciendo a lo largo del tiempo de manera no predecible.
Consideramos incluidos en este componente residual dos tipos de variaciones:
Las aleatorias, que recogen los pequeos efectos de carcter accidental y por
tanto no identicables, y
las errticas, que se producen como consecuencia de hechos no siempre previsi-
bles pero que pueden ser identicados a posteriori (es el caso de huelgas, cambios
institucionales, catstrofes naturales, etc.).
Existen diferentes hiptesis sobre la forma en que los diversos componentes de una
serie temporal interactan dando lugar a la observacin nal de la variable.
El componente residual es el nico que no es modelizable. As pues, si pudisemos
modelizar el resto de los componentes de la serie, y denotamos el efecto estimado por
f(t), entonces el valor residual en el periodo t podra calcularse como la diferencia
entre el valor registrado y el estimado en ese periodo: u
t
= Y
t
f(t). Por tanto el
componente residual tendr un efecto aditivo sobre la serie (los residuos no debern
estar relacionados con ningn otro componente de la serie temporal).
No obstante, ser necesario efectuar supuestos sobre las inuencias existentes entre
la tendencia, ciclos y variaciones estacionales (movimientos a largo, medio y corto
plazo, respectivamente), ya que estas interrelaciones condicionarn los mtodos para
su descomposicin y anlisis.
Si admitimos que las desviaciones respecto a la tendencia no se ven afectadas
por la magnitud de sta (es decir, bajo el supuesto de independencia entre la
tendencia y las uctuaciones de la serie), nos encontraremos ante una hiptesis de
composicin que llamaremos esquema aditivo. En este caso tendramos: f(t) =
T
t
+C
t
+e
t
, y por tanto:
Y
t
= T
t
+C
t
. .
E
t
+e
t
+u
t
= E
t
+e
t
+u
t
(11.2.1)
148
11 Series temporales: planteamiento y tendencia
donde en la ltima expresin hemos introducido la componente extraestacional.
Sin embargo la hiptesis anterior de independencia no resulta muy creble, es-
pecialmente en el campo econmico, donde parece que las uctuaciones deberan
tener un carcter relativo y ser mayores para valores altos de la serie y menores
para valores bajos. Este supuesto conduce a una hiptesis de composicin que
se denomina esquema multiplicativo, f(t) = T
t
Ic
t
Ie
t
= E
t
Ie
t
.
Respecto a la notacin anterior, hemos introducido una nueva terminologa, Ic
t
e Ie
t
que representan los ndices de variacin cclica y estacional, y cuantican
las variaciones relativas o proporcionales respecto al valor de la tendencia del
periodo. Se tiene:
Y
t
= E
t
Ie
t
+u
t
(11.2.2)
En ambos modelos el valor nal viene en las unidades de la magnitud considerada,
en un caso directamente como suma y en el otro al multiplicar las unidades por unas
tasas en tantos por uno.
Los esquemas de composicin propuestos suponen una considerable simplicacin de la
realidad ya que las relaciones que aparecen suelen ser imprecisas y es probable que no
se adapten a ninguna de las dos opciones. Sin embargo la experiencia nos dice que los
esquemas anteriores representan bien a una parte importante de las series temporales y
en particular la hiptesis multiplicativa es la ms habitual en economa, ya que equivale
a suponer que la relacin entre dos periodos cualesquiera resulta ms homognea en
trminos relativos que en trminos absolutos.
Generalmente las series temporales expresadas en magnitudes monetarias presentarn
esquema multiplicativo, mientras el esquema aditivo aparece en series de comporta-
miento muy estable. En el anlisis de series temporales resulta habitual realizar trans-
formaciones logartmicas, que atenan las oscilaciones de la serie inicial proporcionando
as un esquema aditivo.
La eleccin del esquema de composicin a considerar se efectuar en cada caso segn
consideraciones prcticas que resultan a menudo del examen grco de la serie. As, el
esquema aditivo se corresponde con variaciones de amplitud constante, mientras que
en el modelo multiplicativo la amplitud de la variacin es cambiante con la tendencia
tal y como se recoge en la gura 11.3.
Existen diversos procedimientos para determinar el esquema de composicin que
resulta ms adecuado. Muchos programas informticos (incluidos los que utilizan las
principales ocinas de estadstica del mundo), basndose en que la inmensa mayora de
las series econmicas tienen un efecto multiplicativo, toman este mtodo por defecto,
salvo que la serie contenga algn valor negativo o nulo.
Un procedimiento algo ms preciso podra consistir en analizar la dispersin exis-
tente entre los valores de la serie a medida que la tendencia va creciendo y asumir
una hiptesis aditiva si esta dispersin es ms o menos constante, o bien una hiptesis
multiplicativa si la dispersin aumenta o disminuye al aumentar la tendencia.
Dado que la tendencia de las series econmicas suele ser creciente (la produccin
va aumentando con los aos, los precios suben, al igual que los salarios o la renta
disponible, el comercio aumenta, tambin el turismo, etc.), nos bastar con calcular
149
11 Series temporales: planteamiento y tendencia
El grco inferior representa la evolucin de las colocaciones en Asturias y muestra una
dispersin creciente con la tendencia (esquema de composicin multiplicativo) mien-
tras el grco superior es su transformada logartmica y presenta dispersin estable
(esquema aditivo).
Figura 11.3: Grcos temporales. Hiptesis aditiva e Hiptesis multiplicativa
150
11 Series temporales: planteamiento y tendencia
la dispersin anual y ver si es aproximadamente constante o no. As pues, uno de los
algoritmos habituales consiste en calcular la media y la desviacin tpica anuales:
Aos \ Meses 1 m Media
Anual
Desv.Tipica
Anual
1 Y
11
Y
1m

Y
1
S
1
2 Y
21
Y
2m

Y
2
S
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n Y
n1
Y
nm

Y
n
S
n
Si a la vista de la tabla anterior podemos observar que la desviacin tpica anual
es ms o menos constante estaramos en condiciones de armar que la hiptesis es
aditiva. La situacin contraria es un poco ms complicada, puesto que a veces nos
puede parecer que las desviaciones tpicas van creciendo y sin embargo, cuando pro-
cedemos a su representacin grca podemos no tener esa percepcin. En estos casos
conviene aplicar algn mecanismo ms tcnico; por ejemplo, efectuar un ajuste mnimo
cuadrtico de las desviaciones tpicas sobre las medias anuales:
Desv.Tpica Anual = b
0
+b
1
MediaAnual
y analizar el coeciente b
1
. Si la desviacin tpica es casi constante (hiptesis aditiva),
la variacin de S por una unidad de variacin en la media sera prcticamente nula, y
por tanto b
1
0. Si por el contrario b
1
es signicativamente distinto de cero, entonces
la dispersin es proporcional a la tendencia (y por tanto la hiptesis multiplicativa).
Ahora el problema se centra en saber qu es signicativamente distinto de cero; en
el nivel de este libro todava no estamos en condiciones de aplicar criterios que nos
permitan contrastar esta situacin, y consideraremos que si |b
1
| > 0, 1 la hiptesis es
multiplicativa y en otro caso aditiva.
Ejemplo 11.1. Sobre la serie trimestral de viajeros en establecimientos hoteleros
espaoles es posible aplicar el mtodo anterior para analizar el tipo de hiptesis. A
partir de las medias y desviaciones tpicas anuales resumidas en la tabla se obtiene en
este caso:
Desv.Tpica Anual = 206, 96 + 0, 25MediaAnual
y al ser el coeciente b
1
= 0, 25 se concluye que la dispersin aumenta con la tendencia,
es decir, que el tipo de esquema de composicin de la serie de viajeros es multiplicativo.
151
11 Series temporales: planteamiento y tendencia
Figura 11.4: Representacin grca de la serie de miles de viajeros
Ao \ Trimestre I II III IV Media
Anual
Desv.Tipica
Anual
2002 3.713 5.419 6.672 4.153 4.989 1.335
2003 3.619 5.890 7.009 4.331 5.211 1.526
2004 3.953 6.109 7.468 4.747 5.569 1.548
2005 4.218 6.409 7.931 4.986 5.886 1.638
2006 4.826 7.681 9.064 5.715 6.822 1.913
2007 5.055 7.863 9.275 5.949 7.036 1.898
2008 5.395 7.682 9.178 5.411 6.917 1.851
2009 4.489 7.184 8.655 5.386 6.429 1.860
2010 4.713 7.590 9.315 5.766 6.846 2.030
11.3. Anlisis de la tendencia
La tendencia de una serie temporal es en muchos casos el componente de ms peso
que marca las pautas evolutivas de la variable, y en ocasiones puede enmascarar otras
oscilaciones a corto o medio plazo. Por este motivo resulta interesante cuanticar y
aislar la tendencia del resto de componentes de la serie temporal.
La tendencia representa la trayectoria general que sigue una serie. As pues se trata
de una lnea central a lo largo de la cual se van vertebrando los distintos picos u
oscilaciones de la serie.
Cmo determinar una tendencia? Existen distintas alternativas: grcos (una lnea
ms o menos intermedia), algn ltro de los datos que los haga converger hacia el
centro de la serie (un alisado o suavizado, una lnea de medias condicionadas -lnea
de regresin-, etc.).
Los mtodos grcos son utilizados con bastante generalidad como primera aproxi-
macin a la tendencia de una serie. Los ms habituales consisten en trazar una lnea
152
11 Series temporales: planteamiento y tendencia
Figura 11.5: Alisados de medias mviles
que suavice el perl inicial de la serie o la construccin de poligonales que unan pun-
tos mximos y mnimos, acotando as una banda en la que se halla comprendida la
tendencia.
11.3.1. Mtodo de las medias mviles
Denicin 11.7. Dada una serie Y
t
, con valores en distintos periodos de observacin
1, 2, ..., T, denominamos Media Mvil de periodo p, a la sucesin de valores MA(t, p)
obtenidos mediante la expresin:
MA(t, p) =
Y
t1
+Y
t2
+ +Y
tp
p
(11.3.1)
MA(t, p) es un suavizado o ltro de la serie, pues calcula una media de valores y
por lo tanto suaviza los valores ms altos o bajos. Cuanto mayor sea p, ms intenso
es el efecto de suavizado o ltrado.
A modo de ilustracin, este efecto de los alisados puede comprobarse en la gura
11.5, donde se representan la serie de viajeros con sus alisados por medias mviles de
orden p = 3 y p = 5.
Otra forma de interpretar la media mvil es pensar que el valor actual viene in-
uenciado por los p ltimos valores de la serie; y cuanto mayor sea p, mayor ser la
dependencia del pasado o la memoria de la serie.
Quizs uno de los puntos llamativos de este procedimiento es que las pondera-
ciones utilizadas son constantes, y por tanto asignamos la misma capacidad de in-
uencia sobre el valor presente de la serie al ltimo valor o al registrado p meses
antes. Estas limitaciones pueden ser superadas utilizando coecientes de ponderacin
w
i
, i = 1, , p ; (

p
i=1
w
i
= 1) funcin del orden del mes, en cuyo caso el procedi-
miento se denomina Medias Mviles Ponderadas.
153
11 Series temporales: planteamiento y tendencia
Qu valor de p debemos tomar? La respuesta no es simple, ya que depende del
tipo de serie y del nivel de alisado que queramos obtener; normalmente suelen usarse
valores de p = 5, 7, 9 o 12, siendo recomendable utilizar un periodo anual cuando se
quieren compensar las variaciones que se producen en periodos inferiores al ao. En
estadsticas ociales, muchas veces se toman medias mviles de periodo 23 o 25, y
as por ejemplo los algoritmos del mtodo X12Arima, utilizado en muchas ocinas de
estadstica, utilizan estos parmetros.
Este mtodo es fcil de aplicar y nos permite ir construyendo sucesivamente va-
lores futuros de la serie o predicciones, aunque cada vez se encontrarn ms y ms
suavizados convirtindose a medio plazo en una lnea plana o predicciones constantes.
Sin embargo, este sistema que es muy utilizado en predicciones, puede no ser muy
adecuado para analizar el perl de una serie, donde quizs sea ms realista pensar
que el valor actual no solo guarda relacin con sus valores pasados, sino tambin con
sus valores futuros. Es decir cada valor de la serie se interpola entre los que le rodean
y podemos plantear una media mvil que contemple los
p
2
valores anteriores y los
p
2
posteriores.
Denicin 11.8. Dada una serie Y
t
, con valores en distintos periodos de observa-
cin 1, 2, , T, denominamos Media Mvil Centrada o Media Mvil Exponencial de
periodo p, a la sucesin de valores MM(t, p) obtenidos mediante la expresin:
MM(t, p) =
_

_
Y
t
p
2
+ +Y
t
+ +Y
t+
p
2
p
Y
t
p1
2
+ +Y
t
+ +Y
t+
p1
2
p
Si pes par
Si pes impar
(11.3.2)
Al aplicar esta frmula el primer valor que podemos asignar es al periodo
p
2
+1, con
lo cual no podemos obtener la media mvil centrada para los
p
2
primeros meses, ni de
los
p
2
ltimos. Por este motivo, este procedimiento nos lleva a un suavizado centrado
de la serie original, que sera un buen mtodo para el anlisis y cuanticacin de la
tendencia, pero los valores que perdemos en la parte nal no nos permiten utilizarlo
con nes predictivos.
En la frmula anterior, tenemos la casustica de si p es par o impar; lo que hacen
las medias mviles centradas es asignar el valor resultante a la observacin central del
periodo. Pero cuando el periodo es par, no existe uno sino dos meses centrales, con lo
que podramos estar sesgando el alisado de la serie (mantendramos un cierto desfase).
En el caso de que p sea par, una buena solucin es aumentar el periodo en un mes
y utilizar una Media Mvil Centrada y Ponderada del tipo:
MM(t, p + 1) =
Y
t
p
2
1
+ 2Y
t
p
2
+ 2Y
t
p
2
+1
+ + 2Y
t+
p
2
1
+ 2Y
t
p
2
+Y
t
p
2
+1
2p
(11.3.3)
154
11 Series temporales: planteamiento y tendencia
Este procedimiento de clculo nos garantiza que el promedio resultante se asigna al
mes central sin ningn tipo de desfase.
Respecto a la amplitud del periodo son vlidas las reexiones anteriores, conside-
rndose en muchos casos el periodo anual.
Tambin en este caso podemos utilizar coecientes de ponderacin que asignen un
peso mayor a los meses ms prximos al actual y que vayan descendiendo a medida
que nos alejamos.
11.3.2. Alisado exponencial
Hemos considerado hasta aqu una ponderacin uniforme para la informacin sumi-
nistrada por cada observacin. Sin embargo, aunque nunca perdamos la memoria del
pasado, es habitual considerar que los valores ms recientes sean los que tienen una
mayor inuencia sobre los valores futuros.
Denicin 11.9. Dada una serie temporal Y
t
, denominamos Alisado Exponencial
Simple, que denotamos por ME
t
, a la serie obtenida como:
ME
t
= Y
t1
+ (1 )ME
t1
(11.3.4)
donde es un coeciente de alisado, 0 < < 1.
Si retrocedemos la funcin de alisado hacia atrs, sustituyendo en la ecuacin 11.3.4,
tendremos:
ME
t
= Y
t1
+ (1 )ME
t1
= Y
t1
+ (1 ) (Y
t2
+ (1 )ME
t2
)
= (Y
t1
+ (1 )Y
t2
) + (1 )
2
ME
t2
=
_
Y
t1
+ (1 )Y
t2
+ (1 )
2
Y
t3
+ + (1 )
t2
Y
1
_
+ (1 )
t1
ME
1
as pues, necesitamos un valor inicial del alisado que lo tomaremos como el primer
valor de la serie: ME
1
= Y
1
.
Los coecientes del alisado forman un sistema de ponderaciones, para lo que
debemos comprobar que su suma es la unidad:
+(1 ) +(1 )
2
+(1 )
3
+ =

i=0
(1 )
i
esta expresin es la suma de una serie geomtrica {a
i
= (1 )
i
} de razn
r = (1 ) < 1, con lo que el valor de la suma viene dado por
a
0
1r
, en nuestro
caso:

i=0
(1 )
i
=
1
1 (1 )
=
1

= 1
La variable as obtenida se denomina alisada, ya que suaviza o alisa las oscilacio-
nes que tiene la serie, al obtenerse como media ponderada de distintos valores.
155
11 Series temporales: planteamiento y tendencia
Por otra parte, el calicativo de exponencial se debe a que la ponderacin o peso
de las observaciones decrece exponencialmente a medida que nos alejamos del
momento actual t, concediendo poca importancia a las observaciones que estn
alejadas. El alisado ser ms fuerte o ms dbil, dependiendo del parmetro .
t-1 t-2 t-3 t-4 t-5 t-6 t-7
0,9 0,9 0,09 0,009 0,0009 0,00009 0,000009 0,000001
0,1 0,1 0,09 0,081 0,0729 0,06561 0,059049 0,053144
Tabla 11.1: Coecientes de ponderacin w
1
, . . . , w
7
La eleccin del coeciente de alisado debe acomodarse a cada serie en particular.
Debemos tener presente, como se observa en la tabla 11.1, que un valor pequeo
de indica que estamos dando mucho peso a las observaciones pasadas, mientras
que si, por el contrario, es elevado se otorga mayor importancia a los valores
recientes.
Un valor en torno a 0,2 resulta apropiado en muchas series para obtener una
lnea de tendencia; sin embargo, para obtener un perl ajustado a la serie, se
necesitan valores de superiores a 0,9.
Por ltimo, se emplea el calicativo de simple para distinguir este caso de otros
en los que una variable se somete a una operacin de doble alisado.
Cuando en algunas series adems de la tendencia, se superponen otras com-
ponentes, pueden utilizarse mtodos de alisados ms completos: doble alisado
exponencial, alisado de Holt-Winters con tendencia y/o estacionalidad, etc.
11.3.3. Mtodo de ajuste lineal
La aproximacin de la tendencia puede ser realizada mediante ajuste mnimo cua-
drtico a la nube de puntos que muestra los valores de Y en funcin del tiempo t.
Aunque la tcnica empleada sea coincidente con una regresin de Y sobre t, el
planteamiento es distinto, ya que no estamos analizando la capacidad explicativa del
tiempo. El supuesto ms habitual es el de tendencia lineal, si bien para ciertas mag-
nitudes econmicas su propio carcter -o su representacin grca- aconseja ajustes
de tipo parablico, exponencial, etc.
Ajuste lineal:
T
t
= b
0
+b
1
t
Teniendo en cuenta las expresiones obtenidas en la regresin lineal:
b
1
=
S
Y,t
S
2
t
; b
0
=

Y b
1

t
Si la tendencia fuese ajustada mediante un polinomio de grado 2 o superior, se tendra:
156
11 Series temporales: planteamiento y tendencia
Ajuste parablico: T
t
= b
0
+b
1
t +b
2
t
2
Polinomio de orden k: T
t
= b
0
+b
1
t +b
2
t
2
+ +b
k
t
k
157
12 Series temporales: estacionalidad y
prediccin
El movimiento general o tendencia de una variable econmica slo podr ser apre-
ciado con claridad si conseguimos eliminar las uctuaciones presentes en la serie que
encubren la evolucin real del fenmeno. De ah el inters del anlisis de la estacionali-
dad, que afecta a la casi totalidad de series econmicas, resultando incluso frecuente la
aparicin de varios movimientos estacionales de diferentes amplitudes que se presentan
superpuestos y que, en ocasiones, resulta difcil identicar.
El inters de aislar la componente estacional viene justicado por argumentos de
diversa ndole. As, por ejemplo, la estacionalidad no incide de igual modo sobre las
sucesivas etapas del proceso productivo, originando importantes desfases entre deman-
da y oferta (en procesos industriales, por ejemplo, aparecen a menudo volmenes de
produccin constantes frente a demandas sujetas a oscilaciones estacionales).
Aunque aislar las componentes de una serie temporal es importante para su anlisis,
el objetivo nal del estudio de series temporales es predecir los valores futuros de las
series a partir de la experiencia de los valores pasados, tal y como abordaremos en la
ltima parte del tema.
12.1. Anlisis de la estacionalidad
A menudo la presencia de estacionalidad puede ocultar al observador supercial
el verdadero movimiento econmico (por ejemplo, las cifras de paro laboral suelen
decrecer en los meses de julio y agosto en los pases donde el turismo es importante)
con el consiguiente riesgo de llegar a conclusiones equivocadas. De hecho, la existencia
de una uctuacin estacional puede llegar -en periodos de inestabilidad econmica-
a transformar la evolucin de la magnitud (por ejemplo, dentro de un movimiento
inacionista, un alza estacional de los precios reaviva el movimiento general alcista
pudiendo desencadenar una espiral de inacin).
Las variaciones estacionales pueden no ser nicas, apareciendo varios movimientos
estacionales superpuestos. Por ejemplo, si en el sector hostelero analizamos los ingresos
totales, se podra apreciar un movimiento estacional de periodo un ao (mayores
ingresos registrados en los meses veraniegos) superpuesto a otro de carcter semanal
(aumento de ventas los nes de semana) e incluso otro diario.
En lo que sigue vamos a suponer que tenemos una serie temporal Y
ij
, donde i =
1, . . . , n representa el ao y j = 1, . . . , m indica el mes o trimestre del ao.
No existe un esquema nico para la cuanticacin de la componente estacional; uno
de los mtodos ms utilizados para su determinacin ser el denominado de razn a
158
12 Series temporales: estacionalidad y prediccin
la media, en el que distinguiremos las siguientes etapas:
1. Determinacin del componente extraestacional
2. Eliminacin del componente extraestacional de la serie
3. Eliminacin del componente residual
4. Cuanticacin de la variacin estacional y en su caso elaborar los ndices de
variacin estacional.
Cuanticacin del componente extraestacional
Para la determinacin de E
ij
son a su vez posibles varios procedimientos alternati-
vos, correspondientes a los mtodos ya analizados para describir el movimiento general
de una serie: medias mviles y ajuste.
Dado que el componente estacional se produce en periodos inferiores al ao, para
recoger las variaciones sistemticas que se producen en periodos superiores (extraes-
tacionales), debemos tomar el ao como periodo de referencia para su cuanticacin.
Medias mviles
El nmero de meses o trimestres que se incluyen en el ao es par, y por lo tanto para
aplicar el mtodo de las medias mviles corrigiendo el periodo se utiliza la expresin
11.3.3.
Para series mensuales, se suavizara el valor actual teniendo en cuenta los 6 meses
anteriores y los 6 posteriores (en total se utilizan 13 meses en vez de 12). El sistema
de ponderacin para el clculo de las medias mviles sera:
1
24
,
2
24
, ,
2
24
. .
11 meses centrales
,
1
24
Para series trimestrales utilizaramos los dos trimestres anteriores y posteriores al
actual, con coecientes de ponderacin:
1
8
,
2
8
,
2
8
,
2
8
. .
3 trimestres centrales
,
1
8
Ajuste lineal
En este caso como la unidad temporal es el ao, cada mes j de un ao i puede ser
representado como: t = (i 1) +
j
m
As pues, utilizaremos la expresin del ajuste lineal de la tendencia:
E
t
= b
0
+b
1
t
donde t es el descrito anteriormente: t =
1
m
, ,
m
m
, 1 +
1
m
, , (i 1) +
m1
m
, i
159
12 Series temporales: estacionalidad y prediccin
Eliminacin del componente extraestacional
Una vez obtenidos -por cualquiera de los mtodos expuestos- los valores E
ij
, su
eliminacin de la serie inicial ser por diferencia o por cociente, dependiendo del tipo
de hiptesis de composicin:
Hiptesis aditiva
En este caso, partiendo de la expresin 11.2.1, se tiene:
Y
ij
= E
ij
+e
ij
+u
ij
en cuyo caso, la serie:
Y
ij
E
ij
= e
ij
+u
ij
no tiene componente extraestacional, y conseguimos nuestro objetivo. La serie resul-
tante contiene la variacin estacional (componente bruto de variacin estacional),
cuyos valores se encuentran contaminados por el componente accidental o residual.
Hiptesis multiplicativa
Partiendo de la ecuacin 11.2.2, podemos expresarla como:
Y
ij
= E
ij
Ie
ij
+u
ij
dividiendo por la componente extraestacional, se tiene:
Y
ij
E
ij
= Ie
ij
+
u
ij
E
ij
En el segundo miembro tenemos el ndice de variacin estacional y un residuo ami-
norado, porque hemos relativizado ese efecto accidental respecto a la lnea general de
la serie; por lo tanto se tratara de un nuevo residuo v
ij
, con las mismas propiedades,
pero con menor magnitud. As pues, como en el caso aditivo, la serie obtenida como
cociente, solo incluye la componente estacional (expresada como ndice) y el residuo.
Eliminacin del componente residual
La variacin residual puede introducir distorsiones en la serie, pero no tiene un
patrn de comportamiento con lo cual esperamos que la suma o la media de los
residuos a lo largo de un periodo de tiempo tengan un impacto nulo.
Denotamos por Y C
ij
la serie corregida del componente extraestacional, obtenida
anteriormente:
_

_
Y C
ij
= e
ij
+u
ij
Y C
ij
= Ie
ij
+v
ij
160
12 Series temporales: estacionalidad y prediccin
Si calculamos la media por aos, para cualquier mes j = 1, . . . , m, y teniendo en
cuenta el supuesto anterior sobre la media de los residuos, se tiene:
_

_
n

i=1
Y C
ij
n
=
n

i=1
e
ij
n
+
=0
..
n

i=1
u
ij
n
= e
.j
n

i=1
Y C
ij
n
=
n

i=1
Ie
ij
n
+
n

i=1
v
ij
n
. .
=0
=

Ie
.j
En el caso de esquema aditivo la nueva serie solo incluye la variacin estacional
media del mes j, y en el caso multiplicativo el ndice medio de variacin estacional del
mes j, habiendo eliminado ya el componente residual.
Cuanticacin de la estacionalidad
La serie obtenida anteriormente nos proporciona el componente estacional, pero
posiblemente no se encuentre normalizado para que tenga una interpretacin intuitiva.
Por este motivo, es necesario efectuar un ltimo ajuste, para garantizar que la media
del componente estacional sea nula en el caso aditivo, o bien la media de los ndices
de variacin estacional sea unitaria en el caso multiplicativo. Para conseguir este ob-
jetivo es necesario llevar a cabo una ltima transformacin consistente en comparar el
componente estacional de cada mes con su valor medio del ao (mediante desviaciones
en el caso aditivo y por cociente en el multiplicativo):
Esquema Aditivo Esquema Multiplicativo
Meses Comp.Estacional V e
j
Comp.Estacional IV E
j
1 e
.1
e
.1
e
..

Ie
.1

Ie
.1

Ie
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
m e
.m
e
.m
e
..

Ie
.m

Ie
.m

Ie
..
Media e
..
0

Ie
..
1
Observamos que cuando la hiptesis es aditiva, los componentes estacionales V e
j
son valores expresados en las mismas unidades que la magnitud estudiada, que reco-
gen saldos positivos si la estacionalidad genera aumentos respecto a la tendencia o
negativos en caso contrario.
Por el contrario, cuando la hiptesis es multiplicativa, la denicin de los ndices de
variacin estacional permite una interpretacin de los mismos en trminos de nmeros
ndices, cuanticando la proporcin o porcentaje en el que la estacionalidad acta
161
12 Series temporales: estacionalidad y prediccin
sobre las observaciones, haciendo que stas se desven (por exceso o por defecto) de
su tendencia.
El mtodo expuesto resulta adecuado bajo el supuesto de estacionalidad estable, esto
es, si admitimos que los coecientes de estacionalidad no se ven afectados por ninguna
tendencia. Podra ocurrir, sin embargo, que el efecto de la estacionalidad variase a lo
largo del tiempo (por ejemplo, las diferencias estacionales de precios hosteleros podran
irse atenuando progresivamente) resultando en este caso necesario modicar en cierta
medida el clculo de ndices.
Ejemplo 12.1. La aplicacin de este procedimiento sobre la serie de viajeros en
establecimientos hoteleros espaoles permitira cuanticar el componente estacional
de esta serie que, al presentar esquema de composicin multiplicativo, se calculara
mediante los ndices de variacin estacional.
Tal y como hemos descrito anteriormente, el primer paso sera la aproximacin del
componente extraestacional mediante el procedimiento de medias mviles o de ajuste
a la tendencia. En el segundo caso, la recta de ajuste anual vendra dada por la
expresin:
E
t
= 5. 083, 83 + 221, 09t
y sustituyendo t por los valores; t =
1
4
,
2
4
, 9 se llegara a los resultados de la tabla:
Ao \ Trimestre I II III IV
2002 5.139 5.194 5.250 5.305
2003 5.360 5.415 5.471 5.526
2004 5.581 5.637 5.692 5.747
2005 5.802 5.858 5.913 5.968
2006 6.023 6.079 6.134 6.189
2007 6.245 6.300 6.355 6.410
2008 6.466 6.521 6.576 6.631
2009 6.687 6.742 6.797 6.853
2010 6.908 6.963 7.018 7.074
A continuacin sera necesario dividir la serie inicial entre este componente extra-
estacional, obteniendo los resultados que siguen:
Ao \ Trimestre I II III IV
2002 0,72 1,04 1,27 0,78
2003 0,68 1,09 1,28 0,78
2004 0,71 1,08 1,31 0,83
2005 0,73 1,09 1,34 0,84
2006 0,80 1,26 1,48 0,92
2007 0,81 1,25 1,46 0,93
2008 0,83 1,18 1,40 0,82
2009 0,67 1,07 1,27 0,79
2010 0,68 1,09 1,33 0,82
Media 0,74 1,13 1,35 0,83
IVEj 0,73 1,12 1,33 0,82
162
12 Series temporales: estacionalidad y prediccin
A partir de dichos resultados podemos armar que el componente estacional acta a
la baja en el primer trimestre, ya que el nmero de viajeros en este periodo es un 73 %
del valor tendencial (por tanto se reduce un 27 %), mientras en el segundo trimestre la
estacionalidad se maniesta al alza aumentando las entradas de viajeros en un 12 %.
Este efecto de estacionalidad al alza es todava ms acentuado en el tercer trimestre, ya
que en este periodo los viajeros aumentan un 33 % respecto a la tendencia. En cambio,
en el ltimo trimestre de cada ao se observa una reduccin estacional de los viajeros,
que se sitan en el 82 % de su nivel tendencial (lo cual supone una disminucin del
18 %).
12.2. Desestacionalizacin
Inicialmente disponamos de una serie temporal Y
ij
, y a lo largo de los epgrafes
anteriores, hemos separado los componentes de tendencia o extraestacional y el com-
ponente estacional.
En muchos casos, las variaciones estacionales actan como agentes distorsionadores
que dicultan el anlisis de la evolucin de la serie. As, por ejemplo, si hablamos
de la evolucin de los ocupados, existen determinados meses en los que la ocupacin
aumenta o disminuye por un efecto estacional, y como consecuencia la seal de au-
mento o descenso en los ocupados, puede aparecer distorsionada. Lo mismo sucedera
si analizamos series sobre movimiento de pasajeros, ingresos por turismo, consumo,
produccin agraria, etc.
En estos casos nos va a interesar disponer de una serie temporal limpia de variaciones
estacionales y que nos permita una interpretacin directa de las variaciones de la serie.
Lgicamente, para eliminar la componente estacional debemos tener en cuenta el tipo
de composicin de la serie:
Aditiva:
Y
ij
V e
j
= E
ij
+u
ij
Multiplicativa:
Y
ij
IV E
j
= E
ij
+v
ij
Podemos observar que el procedimiento descrito consiste en eliminar del valor inicial
de la serie correspondiente al subperiodo j del ao i, la estacionalidad correspondiente
al subperiodo j. Esta eliminacin se lleva a cabo por diferencia o cociente, segn que
el esquema de la serie sea aditivo o multiplicativo.
Los valores resultantes de una serie desestacionalizada aparecern corregidos al alza
o la baja segn la estacionalidad tenga en ese mes una inuencia negativa o positiva
respectivamente.
Como hemos comentado, podra suceder que los datos estacionales se viesen afectados
de cierta tendencia, situacin que conducira a ndices de variacin estacional diferentes
163
12 Series temporales: estacionalidad y prediccin
Figura 12.1: Serie desestacionalizada
en cada periodo. Como consecuencia, en la desestacionalizacin le correspondera a cada
dato de la serie original un ndice de variacin estacional distinto.
Para resolver este problema han sido desarrollados varios procedimientos informticos,
siendo el ms conocido el Census Method 12, versin X-l2, desarrollado por Julius
Shiskin para el US Bureau of the Census y ampliamente utilizado en todo el mundo.
Ejemplo 12.2. La desestacionalizacin de la serie de viajeros estudiada podra ser
llevada a cabo mediante este procedimiento. As, por ejemplo, para el primer trimestre
del ao 2002 dividiramos el valor observado de viajeros en ese periodo (3.713) entre
el correspondiente ndice de variacin estacional (0,73), obteniendo el resultado 5.098,
que como podemos observar es superior al inicial ya que en este caso hemos eliminado
la estacionalidad que actuaba a la baja en el primer trimestre. De modo anlogo, en
los restantes trimestres del mismo ao la serie desestacionalizada proporcionara los
resultados:
Y
2002,II
IV E
II
=
5419
1, 12
= 4859;
Y
2002,III
IV E
III
=
6672
1, 33
= 5005;
Y
2002,IV
IV E
IV
=
4153
0, 82
= 5044
Como consecuencia de este proceso de desestacionalizacin se obtienen series con
menos oscilaciones que la inicial, tal y como podemos observar en la gura 12.1.
12.3. Prediccin
El principal objetivo del estudio de las series temporales es realizar predicciones
para anticipar valores futuros de variables que han sido observadas de forma temporal
en el pasado.
Las predicciones con mtodos descriptivos (que son los estudiados en este libro), se
vienen utilizando desde hace aproximadamente un siglo, ya que se vivi un periodo de
esplendor de estas tcnicas durante el periodo 1902-1950. Estos mtodos se pusieron en
duda cuando no fueron capaces de predecir la crisis de 1929, y como consecuencia se
164
12 Series temporales: estacionalidad y prediccin
realiz una crtica importante a las tcnicas de series temporales, porque no estaban
basadas en la teora econmica; es decir, no haba hiptesis tericas que justicasen su
comportamiento.
A partir de la dcada de 1950 se fueron incorporando nuevas tcnicas de prediccin
ms o menos revolucionarias que se suponan capaces de adelantar los periodos de crisis
y expansin, pero no lograron sus objetivos. Posteriormente, en el periodo 1950-1970
la investigacin se centr en la Econometra Aplicada, que introducida por el premio
Nobel de Economa Lawrence R. Klein (1920-), se sigue utilizando en la actualidad para
explicar y predecir mediante anlisis causal el comportamiento de distintas economas.
Estas tcnicas no fueron capaces de explicar la crisis de la dcada de 1970 y aparece una
nueva metodologa para el tratamiento de series temporales, denominada Box-Jenkins
en honor de sus autores, Georges E.P. Box (1919-) y Gwilym Meirion Jenkins (1933
1982). Esta tcnica se aplic durante mucho tiempo y sigue considerndose como un
mtodo de prediccin muy eciente a corto plazo, pero tampoco esta metodologa fue
capaz de adelantar la crisis de la dcada de 1990.
Ms recientemente se desarrollaron otras teoras, basadas en mtodos no lineales, dis-
tribuciones apriori, nmeros difusos, redes neuronales, etc. Lamentablemente ninguno
de stos mtodos fue capaz de predecir la crisis de 2007 y sin duda, en los prximos
aos se desarrollarn nuevas tcnicas de prediccin que debern ser contrastadas en las
prximas crisis.
La prediccin basada en el anlisis clsico, que es el estudiado en este tema, presu-
pone que una serie temporal se comportar en el futuro de modo anlogo al pasado
y aprovechar la experiencia de los datos para predecir los valores futuros, ceteris
paribus el resto de causas que pueden inuir en la series. As pues, aun asumiendo la
crtica de que el anlisis clsico de las series temporales no est basado en ninguna
teora econmica o hiptesis de comportamiento, esta tcnica puede resultar de gran
utilidad.
Resulta conveniente tener presente el riesgo inherente en toda prediccin temporal,
que aparece relacionado con el periodo de tiempo analizado. Cuanto ms amplia sea la
experiencia (o sea, mayor el nmero de datos disponibles), ms fcil ser determinar
las regularidades estadsticas de la serie y por tanto mejor sera nuestra prediccin.
As, aunque los algoritmos que usamos en el anlisis clsico de series temporales no
exigen un nmero mnimo de datos, conviene disponer de un tamao sucientemente
elevado para que los ltros tengan sentido y repartan las variaciones irregulares en los
distintos aos.
En trminos generales, para obtener una tendencia se recomendara disponer de al
menos 7 o 10 aos; al aplicar medias mviles debemos tener en cuenta que perdemos
un ao, y si queremos distribuir un efecto accidental parece razonable disponer de al
menos 6 aos. As pues orientativamente resulta conveniente disponer en series men-
suales de al menos 70 datos para el anlisis o la prediccin con mtodos descriptivos
de las series temporales.
Otra consideracin interesante es la referida al objetivo de la prediccin, ya que
podemos estar interesados en anticipar el valor exacto de una serie en determinado mes
de cierto ao, o bien en aproximar el componente tendencial e incluso extraestacional
de dicha serie.
Ejemplo 12.3. Supongamos que nuestro objetivo es predecir una serie temporal de
165
12 Series temporales: estacionalidad y prediccin
carcter socioeconmico como el nmero de ocupados o parados en Espaa. Dentro
de este mbito podemos tener diversos objetivos, y as podramos estar interesados
en anticipar el nmero de parados que se registrarn en el mes de mayo del prximo
ao (es decir, el valor Y
T+1,5
) o bien el valor tendencial de esta variable, que ven-
dra aproximado por el componente de tendencia, el extraestacional o incluso la serie
desestacionalizada.
Los ejemplos anteriores muestran distintos objetivos y como consecuencia podramos
contemplar diferentes mtodos de prediccin.
Predicciones sobre la tendencia: Si analizamos una serie Y
t
, y queremos obtener
una prediccin tendencial para el periodo T + 2, existen distintas alternativas.
Si la serie muestra una trayectoria lineal clara, el mtodo del ajuste lineal de la
tendencia puede resultar el mtodo ms adecuado:
T
T+2
= b
0
+b
1
(T + 2)
Si el perl de la serie es ms irregular, los mtodos ms adecuados para hacer
predicciones son el alisado exponencial y el de medias mviles, donde se predice
el valor futuro en funcin de sus valores pasados. El alisado exponencial que lleva
ponderaciones variables, ponderando ms los valores ms prximos y menos los
ms alejados, sera nuestra primera propuesta. Adems este mtodo tiene otras
dos ventajas: que se encuentra implementado en la mayor parte de las hojas de
clculo, y que existen variantes de este algoritmo que permiten perfeccionar el
mtodo incluyendo tendencia o componente estacional:
ME
T+1
= Y
T
+ (1 )ME
T
El procedimiento garantiza una buena prediccin para el periodo T + 1; para
valores superiores seguimos manteniendo el registro del periodo T y actualizamos
solo la parte de la prediccin:
ME
T+2
= Y
T
+ (1 )ME
T+1
Sabemos que cuanto ms bajo sea ms suave es la lnea y por lo tanto tendre-
mos una prediccin ms centrada y menos ajustada al valor puntual de un mes
concreto. Valores 0, 2 0, 3 pueden conseguir una buena aproximacin a la
tendencia-ciclo. La prediccin con medias mviles es menos habitual, aunque es
muy fcil de aplicar o implementar en una hoja de clculo:
MA
T+1
=
Y
T
+Y
T1
+ +Y
Tp
p
MA
T+2
=
ME
T+1
+Y
T
+ +Y
Tp+1
p
valores altos de p (superiores al periodo anual), consiguen predicciones tenden-
ciales aceptables.
166
12 Series temporales: estacionalidad y prediccin
Predicciones sobre la serie desestacionalizada: La serie desestacionalizada, como
hemos visto antes, se obtiene al eliminar de la serie original el componente estacional.
Esta serie tiene cierto paralelismo con la serie de tendencia o tendencia-ciclo, y existe
abundante literatura sobra la conveniencia de usar una u otra serie en determinados
anlisis como la extraccin de seales.
Sin embargo, existe una cierta diferencia conceptual entre ambas series: la tendencia-
ciclo realiza un ltrado de los componentes estacional y residual, de forma que en la
serie resultante sus efectos se habrn diluido sobre la tendencia; sin embargo, en la
serie desestacionalizada se ha eliminado el componente estacional y se ha suavizado
algo el residuo, pero probablemente la serie contiene una buena parte de este ltimo
componente. As pues, cuando hacemos predicciones sobre la serie desestacionalizada,
obtendremos valores ms ajustados a los observados que los que se obtienen mediante
la serie de tendencia.
Predicciones sobre valores futuros de la serie original: A la vista de las considera-
ciones anteriores, podemos contemplar bsicamente dos alternativas para predecir los
valores futuros de la serie:
Aprovechar los mtodos de prediccin de tendencia, con valores altos del par-
metro de alisado (0, 9 0, 999), en algunos casos los programas permiten
estimar el ptimo, que ofrecen una prediccin aceptable de los valores ob-
servados; o bien con valores bajos del periodo de la media mvil (aunque suele
conducir a mejores predicciones el mtodo del alisado).
Una segunda alternativa es hacer predicciones sobre la serie desestacionalizada
y posteriormente actualizar las predicciones incorporndoles el componente es-
tacional, para el que asumimos estabilidad en el futuro. Esta alternativa tiene
la ventaja de que podemos utilizar el mtodo del ajuste lineal en la prediccin
de la serie desestacionalizada (porque suele tener un perl suave). Sin embargo,
tiene el inconveniente de que las predicciones pueden tener mayor incertidumbre
puesto que repetimos varias veces el proceso de ltrado.
Cabe adems sealar que, tal y como hemos comentado al comienzo del tema anterior,
en muchas series temporales la existencia de valores extraos o atpicos, el efecto
calendario, etc. condicionan en alguna medida los datos y por tanto sus predicciones.
As pues el primer paso para mejorar las predicciones ser depurar bien los datos;
para ello consideraremos la serie tipicada Z
t
y llamaremos valores atpicos a aquellos
valores para los que |Z
t
| > k, con k = 3 o k = 4.
Una vez localizados los valores atpicos, podemos proceder a eliminarlos; para ello
comenzaremos por el valor atpico de mayor magnitud (que asumimos corresponde al
periodo t

) y aplicaremos algn tipo de ltrado, por ejemplo asignando a ese valor


la media de la serie, o la media del ao, o la de los dos valores consecutivos, o reali-
zando una interpolacin. Tambin es posible llevar a cabo una regresin, en la que se
167
12 Series temporales: estacionalidad y prediccin
introduce una variable dicotmica:
D
t
=
_
1 si t = t

0 en el resto
Entonces realizamos la regresin de Y
t
sobre D
t
, y obtenemos as el impacto del valor
atpico:
Y
t
= b
0
+b
1
D
t
Si ahora eliminamos de la serie original esta serie estimada obtendremos una nueva
serie que ya no tiene efectos de la inuencia del valor atpico.
Este proceso de eliminacin de valores atpicos podra repetirse tantas veces como
se considere necesario. Es decir, sobre la serie anterior volvemos a llevar a cabo la
tipicacin y comprobamos si existen valores atpicos. En caso armativo podemos
empezar por el que tiene mayor peso y repetir la operacin. El objetivo nal es con-
seguir una serie limpia de valores atpicos y que por tanto resulta ms adecuada para
realizar predicciones.
Evaluacin de las predicciones
Dado que no existe un mtodo que sea el ideal para utilizar con cualquier serie, sera
conveniente evaluar la capacidad predictiva de los distintos procedimientos. Para ello
vamos a comparar las predicciones con los datos registrados y comprobar el margen
de error que comete nuestro mtodo.
Denotaremos el error de prediccin por e
t
y como la suma de los errores tiende
a compensarse debido a su distinto signo, consideraremos medidas basadas en sus
valores absolutos o sus cuadrados:
Error absoluto medio
EAM =
T

t=1
|e
t
|
T
Error absoluto porcentual medio ( %)
EAPM =
1
T
T

t=1
|e
t
|
Y
t
100
Raz del error cuadrtico medio
RECM =

_
1
T
T

t=1
e
2
t
Raz del error cuadrtico porcentual medio
RECPM =

_
1
T
T

t=1
e
2
t
Y
2
t
168
12 Series temporales: estacionalidad y prediccin
As pues, cuando realicemos predicciones por varios mtodos, podemos calcular las
medidas anteriores, y adoptar como ms adecuado aquel mtodo que proporcione
unos resultados ms reducidos de estas medidas, que indican una mayor adecuacin
de las predicciones.
Nuestro objetivo es conseguir predicciones de la mejor calidad posible, para lo cual
como hemos visto resulta conveniente eliminar los valores atpicos de la serie original,
y seleccionar el mtodo de prediccin que en cada caso se considere ms adecuado.
As en algunas ocasiones los mtodos lineales resultan excesivamente simplistas, resul-
tando ms adecuado aplicar modelos de regresin ms ajustados a los datos: regresin
parablica, logartmica, etc.
Tambin podramos considerar algoritmos ms complejos que tuvieran en cuenta no
solo una ecuacin de alisado como la que hemos visto, sino con dos o tres ecuaciones
que sean capaces de recoger el efecto de distintos componentes.
Evidentemente, estos y otros mtodos ms complejos exceden el nivel de este libro,
pero su aplicacin ser necesaria cuando deseemos ir mejorando nuestra capacidad
predictiva.
169
Bibliografa
[1] F. Arnaldos, M.T. Daz, U. Faura, L. Molera, I. Parra. Estadstica Descriptiva
para Economa y Administracin de Empresas. AC, 2003.
[2] G. Calot. Curso de Estadstica Descriptiva. Paraninfo, Madrid, 1974.
[3] The Economist. Guide to Economic Indicators: Making Sense of Economics.
2007.
[4] I. Fisher. The Making of Index Numbers. Houghton Miin Company, 1922.
[5] FMI. Manual del ndice de Precios al Consumidor: Teora y Prctica. 2006.
[6] A. Garca Barbancho. Estadstica Elemental Moderna. Ariel, Barcelona, 1973.
[7] M.P. Martn-Guzmn,, F.J. Martn Pliego. Curso Bsico de Estadstica Econ-
mica. AC, Madrid, 1985.
[8] P. Martn-Guzmn, I. Toledo, F.J. Lpez Ortega, N. Bellido. Manual de Estads-
tica Descriptiva. Thomson Civitas, 2006.
[9] F.J. Martn-Pliego. Introduccin a la Estadstica Econmica y Empresarial. Teo-
ra y Prctica. Thomson, 2004.
[10] J.M. Montero. Estadstica para Relaciones Laborales. AC, Madrid, 2000.
[11] U. Nieto de Alba. Introduccin a la Estadstica. Aguilar, Madrid, 1975.
[12] A. Novales. Estadstica y Econometra. McGraw-Hill, 1996.
[13] R. Prez. Nociones Bsicas de Estadstica. [en lnea]
<https://sites.google.com/a/uniovi.es/libros/nociones-basicas-estadistica>,
2010.
[14] R. Prez, A.J. Lpez, M.J. Ro M.J., N. Muoz, C. Caso, M. Alvargonzlez, J.B.
Garca. Anlisis de datos econmicos I. Mtodos descriptivos. Pirmide, Madrid,
1997.
[15] A. Pulido. Estadstica y Tcnicas de Investigacin Social. Pirmide, Madrid,
1976.
[16] J.L. Snchez-Crespo, E. Garca Espaa. Estadstica Descriptiva. INE, Madrid,
1961.
170
ndice alfabtico
A
Ajuste mnimo cuadrtico, 91, 92
Alisado exponencial simple, 155
Amplitud, 15
Apuntamiento, 56
Asimetra
a la derecha (positiva), 54
a la izquierda (negativa), 54
Atributos, 12
B
Brecha
de pobreza, 71
de renta, 70
C
Cambio de base, 120
Censo, 9
de Poblacin, 25
Demogrco, 25
Electoral, 25
Centil, 42
Cesta de la compra, 135
Coeciente
de apuntamiento de Fisher, 56
de asimetra de Fisher, 55
de asimetra de Pearson, 54
de asociacin
chi-cuadrado de Pearson, 82
de Kendall, 83
de contingencia de Pearson, 82
de correlacin lineal, 88
de determinacin, 100
mltiple, 110
parcial, 111
simples, 110
de regresin, 95
de regresin parcial, 107
de variacin, 50
de Pearson, 51
Componente
cclico, 146
estacional, 146
extraestacional, 146
residual, 148
tendencia, 146
Condicin de independencia, 81
Correlacin
directa, 88
inversa, 88
Covarianza, 84
Cuantiles, 42
Cuartil, 42
Cuestionario, 11
Curva de Lorenz, 60, 61
D
Datos de panel, 12
Decil, 42
Deactacin, 129, 140
Deactor, 129
Dependencia
estadstica, 81, 83
funcional, 78
Desestacionalizacin, 163
Desviacin
absoluta media, 45
con respecto a la media aritm-
tica, 46
cuadrtica media, 46
estndar, 48
tpica, 48
171
ndice alfabtico
Diagrama
de barras, 16
de cajas, 43
de rectngulos, 16
de sectores, 16
en escalera, 17
Distribucin
bidimensional, 72
condicionada, 76
de frecuencias, 13
marginal, 75
normal, 20, 49
E
Efecto
calendario, 144
Pascua, 144
Encuesta, 9
censal, 9
muestral, 10
Encuesta de Poblacin Activa, 27
Encuesta de Presupuestos Familiares,
28
Enlace de series, 139
Error, 91
Esquema
aditivo, 148
multiplicativo, 149
Estadstica
de corte transversal, 12
multivariantes, 12
temporales, 12
univariantes, 12
Estrato de referencia, 134
F
Frecuencia
absoluta, 13
absoluta acumulada, 13
marginal, 75
relativa, 13
relativa acumulada, 13
G
Grados de libertad, 101
Grco temporal, 20
H
Hiperplano, 106
Histograma, 18
I
Independencia estadstica, 80
ndice
cuntico
de Fisher, 128
de Laspeyres, 127
de Paasche, 127
de base ja, 117
de base mvil, 117
de crecimiento medio acumulativo,
115
de precios
de Fisher, 126
de Laspeyres, 123
de Paasche, 123
de valor, 128
encadenado, 130
simple
espacial, 113
temporal, 112
sinttico
agregativo, 118
media ponderada, 116
Indice de desigualdad colectiva, 69
ndice de Gini, 63
ndice de Precios de Consumo, 134
Armonizado, 139
ndice de Theil, 69
Instituto Nacional de Estadstica (INE),
22
L
Ley de la Funcin Estadstica Pblica,
22
Lnea de pobreza, 69
Lnea de regresin, 90
M
Marca de clase, 15
172
ndice alfabtico
Media
aritmtica, 31
armnica, 40
condicionada, 77
geomtrica, 40
marginal, 75
ponderada, 33
Media mvil, 153
centrada, 154
exponencial, 154
ponderada, 153
Mediana, 34
Mtodo
de la razn a la media, 159
Moda, 37
Modalidades, 12
Muestra, 10
N
Nube de puntos, 73
Nmero ndice, 112
O
Ocina de Estadstica de la Unin Eu-
ropea (EUROSTAT), 22
P
Padrn Municipal, 24
Pirmide de poblacin, 27
Poblacin, 9
Polgono de frecuencias acumuladas, 20
Prediccin
modelos causales, 102
modelos temporales, 164
R
Rango, 44
Recorrido, 44
intercuartlico, 44
Regresin
ecuaciones normales, 93
Repercusin, 132
Representacin grca, 16
Residuo, 91
S
Serie
cronolgica, 142
histrica, 142
temporal, 142
tipo
ujo, 143
nivel, 143
stock, 143
Simetra, 54
Sistema Estadstico Nacional, 21
Subpoblacin, 10
T
Tabla
de contingencia, 74
de correlacin, 73
de datos agrupados, 14
Tabulacin, 12
Tasa
de pobreza, 70
de variacin, 113
interanual, 114
intermensual, 114
intertrimestral, 114
media de crecimiento acumulativo,
115
V
Valores, 11
atpicos, 49, 167
Variable, 11
continua, 11
discreta, 11
tipicada, 53
Variacin relativa, 131
Varianza, 46
condicionada, 77
explicada, 99
marginal, 75
residual, 99
173

Potrebbero piacerti anche