Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
por
RAMIRO LÓPEZ PAÑOS
Jefe del Servicio de Metodología
Área Estadísticas de Actividad, Empleo y Paro
INTRODUCCIÓN
Las encuestas por muestreo probabilístico están diseñadas para obtener esti-
maciones fiables de las principales variables de investigación con un mínimo de
precisión prefijada en agregados poblacionales definidos a priori.
Sin embargo, es frecuente que los utilizadores de las encuestas demanden da-
tos para agregados poblacionales de magnitud inferior a los considerados en el
diseño de la encuesta. Así, por ejemplo, pueden interesar estimaciones municipales
en una encuesta cuyo agregado poblacional mínimo considerado en el diseño sea
la provincia, o bien, estimaciones para la rama de actividad Transporte ferroviario
cuando el agregado mínimo correspondiente es el Transporte terrestre.
El problema que se plantea entonces es el de la insuficiencia del número de
puntos de muestreo o incluso ausencia total en algunos casos para poder dar
cualquier tipo de estimación fiable referida a estos ámbitos no previstos en el
diseño.
Ante esta situación, se puede ampliar el tamaño de muestra, lo cual no siempre
es aconsejable ni económicamente conveniente, o utilizar estimadores especial-
mente concebidos para dar estimaciones en dominios pequeños, con ayuda de
información auxiliar ajena a la encuesta.
#ITCFG\EQNCKPGUVKOCDNGC[WFCSWGJGTGEKDKFQFG(NQTGPVKPCNXCTG\NXCTG\5WDFK
TGEVQTC)GPGTCNFG'UVCFÈUVKECU&GOQIT¶HKECURCTCNCQDVGPEKÎPFGNCUVCDNCUFGTGUWNVCFQUEQP
RTQEGFKOKGPVQU+/.FGN5#5[RQTNCUWRGTXKUKÎPFGNCTVÈEWNQGPIGPGTCN
292 ESTADÍSTICA ESPAÑOLA
* PJ
* = Σ 2J
:
J R
J
∑:
K =
JK
donde
P̂h = proyección de la población residente en viviendas familiares en el estrato h.
ph = número de personas de la muestra en el estrato h.
nh = número de viviendas en el estrato h.
X hi = valor de la característica investigada en la vivienda iésima del estrato h.
El sumatorio h se extiende a todos los estratos de una provincia, una comunidad
autónoma o al total nacional.
Una exposición detallada del diseño de la EPA se puede consultar en el docu-
mento Informe técnico. Diseño de la EPA y evaluación de la calidad de los datos.
294 ESTADÍSTICA ESPAÑOLA
M
D= 5
N =
K
{ /
* = JL JL ∩ & ≠ }
Va a ser muy importante conocer con exactitud la afijación de la muestra, no
solamente en el dominio, sino también en los estratos que tienen parte común con
el dominio.
En el diagrama adjunto se tiene un ejemplo donde el diseño original ha estable-
cido cinco estratos a priori en la provincia, estando el dominio representado por la
región sombreada a caballo sobre los estratos 3, 4 y 5, que sólo tiene puntos de
muestreo en su parte común con los estratos 3 y 4; sin embargo el hecho de tener
intersección con el estrato 5 habrá de ser tenido en cuenta a la hora de construir los
estimadores para áreas pequeñas.
ESTIMACIONES PARA ÁREAS PEQUEÑAS 295
1 x
x
x
x
x
5
2
x
x
x
x
4 x
x x
x 3
x
x
x
−
En este ejemplo * =3, 4, 5.
Al existir puntos de muestreo en el dominio, la EPA permite obtener una estima-
ción directa para la variable de interés Y.
;* = ∑ ;* = ∑∑ ;*
J∈*
F
J
J I
F
JI
donde ;*JI
F
es la estimación obtenida para un estrato h y un determinado grupo de
clasificación o postestrato g en el dominio.
Los estimadores utilizados en la teoría de áreas pequeñas admiten distintos ti-
pos de clasificaciones según que la información sobre la variable de interés Y se
recabe exclusivamente del dominio D o rebase el ámbito de D; tenemos así estima-
dores directos e indirectos. También los estimadores pueden estar basados en la
pura reproducción o simulación de muestras o bien en modelos, por ejemplo de
regresión.
Los dos grupos de estimadores básicos que se proponen son:
Estimador a posteriori
;*JI
F
;*RQU = ∑∑
J∈* I
:
:F
*F JI
JI
296 ESTADÍSTICA ESPAÑOLA
Estimador sintético
;*JI
;*UKP = ∑∑ :*
J∈* I JI
F
:JI
;*JI
;*UKP = ∑∑
J I
4*JI : JI
F
donde 4*JI =
*
: JI
si tomamos esperanzas
( )
;*
' 4*JI = '
JI
' ;*
≠ JI( )
=
;JI
= 4JI
: *
JI
':
*
JI( ): JI
como
* −:
:
* =: +:
: * − : = : + JI JI
JI JI JI JI JI
: JI
* −:
: JI JI
Llamando &JI = se puede esperar que se cumpla que &JI < , por
: JI
tanto
;*JI − 4JI :
*
4*JI − 4JI =
JI
⋅
: JI + &JI
El factor se puede considerar como la suma de los términos de una
+ &JI
progresión geométrica de razón &JI < , o sea
;*JI − 4JI :
*
4*JI − 4JI =
: JI
JI
(
⋅ − &JI + &JI ( ) − (&JI ) )
298 ESTADÍSTICA ESPAÑOLA
;*JI − 4JI :
*
4*JI − 4JI ≅
JI
: JI
o sea
;*JI − 4JI :
*
4*JI ≅ 4JI +
JI
: JI
si tomamos esperanzas
( )
' 4*JI ≅ 4JI
: JI
;*RQU = ∑∑ 4*
J I
F F
JI : JI ,
al tomar esperanza
( ) ∑∑ '(4* ):
' ;*RQU = F
JI
F
JI ≅ ∑∑ 4 F F
JI : JI
J I J I
F
F
como 4JI =
;JI
F
:JI
, se obtiene ' ;*RQU ≅ ( ) ∑∑ ; F
JI ( )
= ; F o sea ' ;*RQU ≅ ; F valor
J I
verdadero poblacional en el dominio.
El cálculo del sesgo del estimador sintético sería por tanto
( )
' ;*UKP − ; F = '
∑∑ F
4*JI : JI
− ∑∑ 4 F F
JI : JI , o sea ∑∑ (4 JI
F
− 4JI) F
: JI
J I J I J I
ESTIMACIONES PARA ÁREAS PEQUEÑAS 299
F
Solamente en el caso en que se cumpliera 4 JI = 4 JI para cada estrato, se ten-
dría que el estimador sintético es insesgado, por lo cual no podemos esperar que lo
sea en general.
Vamos a calcular las varianzas de ambos estimadores y tendremos una inter-
F
pretación más intuitiva de la condición de homogeneidad 4JI = 4JI dentro del
estrato h.
( ) ∑∑ (
8CT ;*UKP ≅ '
F
4*JI − 4JI : JI
) ( )
ya que hemos supuesto que ' 4*JI ≅ 4JI
J I
dentro de cada estrato.
Para mayor simplicidad, consideremos el caso g=1, o sea la población de 16 y
más años, se tiene entonces
( ) ∑ '(4*
8CT ;*UKP ≅ J − 4J ) (: )
F
J
J
;*J − 4J :
*
J
En virtud del método de linealización anterior, se tiene 4*J − 4J ≅
:J
(
por lo cual ' 4*J − 4J )
≅
(
' ;*J − 4J :
*
J )
.
:J
Y tgα = R
h x h
x
X
h
cual ;*J − 4J :
* sería el residuo mínimo cuadrático para cualquier punto de la nube.
J
(
' ;*J − 4J :
*
J )
sería la varianza residual correspondiente al modelo
;J = 4J :J + ' dentro del estrato h.
Este mismo razonamiento sería válido para la varianza del estimador a posterio-
ri. En este caso, para cada estrato h, la varianza sería proporcional a ' 4*JF − 4JF y ( )
;*F − 4 F :
*F
como 4*JF − 4JF ≅ J FJ J se verificaría
:J
(
' 4*JF − 4JF )
≅
(
' ;*JF − 4JF :
*F
J )
(: )
F
J
x
d d
Yh tgα' = R h
x
x
α'
d
Xh
UGUIQ = ∑∑ (4
J I
JI
F
− 4JI) F
: JI
302 ESTADÍSTICA ESPAÑOLA
timador sintético la expresión del estimador del sesgo cambiado de signo, tendría-
mos
;* = ∑∑ 4*
J I
F
JI : JI − ∑∑ 4*
J I
*F
JI : JI + ∑∑ 4*
J I
F *F
JI : JI
El término ∑∑ 4*
J I
F *F
JI :JI sería la estimación directa ;*F , o sea,
;* = ;*F + ∑∑ 4* (:
J I
JI
F
JI
*F
−: JI )
;*)4') = ∑∑4*
J I
F
JI :JI + ∑∑ (;*
J I
F
JI − 4*JI :
*F
JI )
ESTIMADORES COMPUESTOS
α=
( )
'%/ ;*UKP
( )
'%/ ;*UKP + '%/ ;*RQU ( )
Un caso especial de estimador compuesto es el llamado estimador que depende
del tamaño de la muestra, donde se fija una constante - que toma generalmente
los valores 1 ó 0,5.
Dentro del estrato h y grupo g se hace
*F
:JI
αJI = UK ≥ Κ
:JI
:*F *F
:
JI JI
αJI = F
UK F
< Κ
- :JI :JI
;*JI
F
; *
;*QOD = ∑∑ α
J I
JI
:*F
JI
F
:JI + ∑ ∑ (− α ) :*
J I
JI
JI
JI
F
:JI
(1) ;*UKP = ∑$ Z
J
J
F
J ()
;J = : J$ J + 'J
;* = ∑∑ $*
J I
F
JI Z JI
tenemos
F F
'NUKIPKHKECFQFG Z J [ :J GUGSWKXCNGPVGGPCODCUGZRTGUKQPGUFGNGUVKOCFQTUKPVÃ
VKEQRGTQGP
UGQRVCRQTNCOKPÕUEWNCRCTCGXKVCTEQPHWUKQPGUEQPECTCEVGTGUSWGCRCTGEGP
GPNCGZRTGUKÎPOCVTKEKCNFG $ J
ESTIMACIONES PARA ÁREAS PEQUEÑAS 305
( ) ∑ 8CT ∑ $*
8CT ;* = F
JI Z JI
J I
Para un estrato h fijo, y recordando que en general se tiene para cualquier par
de variables aleatorias x e y
8CT
CZ + D[ = C 8CT
Z + D 8CT
[ + CD%QX
Z [
8CT
∑ $* F
JI Z JI
=
∑ (Z ) 8CT($* ) + ∑ (Z
F
JI JI
F F
JI Z JI )⋅ %QX($* *
JI $ JI )
I I I≠ I
( ) ( )
8CT $*JI y %QX $*JI $*JI se obtendrían a partir de la matriz de covarianzas de
$* que proporciona la teoría de la regresión.
La expresión general de esta matriz de dimensiones g×g es:
%QX
$*J = σ J
: J 9J :J −
PJ
∑ GK * 9
; − : $
;J − :J$ *
J J
σJ = K =
= J J J
PJ − I PJ − I
;*RQU = ∑$
J
F F
J ZJ
$ = UGUIQ = ∑ ($
J
J )
− $ JF Z JF y se estimaría a partir del modelo por
$* = ∑ ($* − $* ) Z
J
J
F
J
F
J
Estratos
Islas Total 1 4 5 6 7 8
Gran Canaria 62 35 6 8 5 7 1
Lanzarote 7 - - 5 - 2 -
Fuerteventura 3 - - - 1 - 2
Total Provincia 72 35 6 13 6 9 3
Para la provincia de Sta. Cruz de Tenerife se han tomado como áreas pequeñas
las islas de Tenerife, Palma, Gomera y Hierro. Igual que en el caso de Las Palmas,
se ha utilizado el diseño de EPA relativo al primer trimestre del 91 y el mismo tipo
de información auxiliar referida al Censo del 91. Para el total de la provincia, el
diseño muestreó un total de 72 secciones censales que se distribuyen por islas y
estratos según el cuadro adjunto.
Estratos
Islas Total 1 2 5 6 7 8
Tenerife 64 24 12 12 6 7 3
Palma 6 - - - 3 2 1
Gomera 2 - - - - - 2
Hierro - - - - - - -
Total Provincia 72 24 12 12 9 9 6
ESTIMACIONES PARA ÁREAS PEQUEÑAS 309
Por último, se ha ensayado para la provincia de Santa Cruz de Tenerife otra cla-
se de estimador sintético que utiliza como variable auxiliar la condición de deman-
dante o no demandante de empleo para cada sexo.
Se han utilizado los datos de EPA correspondientes al segundo trimestre del 96
por su cercanía con la fecha de realización del Padrón Municipal de habitantes.
Como fuente estadística auxiliar se ha utilizado el registro de demandantes de
empleo correspondiente a mayo de 1996. Los efectivos de no demandantes en
cada municipio se han obtenido como diferencia entre las cifras padronales y los
demandantes del registro.
La distribución de secciones por estratos e islas en el segundo trimestre del 96
era la siguiente:
;* ;*
;*UP = & + &
&* &
*
En las tablas 3.1 a 3.5 se comparan las estimaciones directas de EPA y las obte-
nidas con el estimador sintético para cada una de las islas y el total de la provincia.
Para la isla de Tenerife se observa una discrepancia grande para los parados
entre la estimación directa de EPA y el estimador sintético. Para los ocupados la
diferencia no es tan importante; esto se puede explicar por el hecho de que la
variable parados está muy influida por la variable explicativa demandantes y en los
estratos 1, 2 y 5 que son exclusivos de la isla de Tenerife existe bastante diferencia
entre la estimación proporcionada por la EPA y los efectivos que da el INEM. En
cambio, la variable ocupados depende sobre todo de los no demandantes para los
cuales la diferencia es mucho menor.
En la isla de La Palma, que tiene municipios en los estratos 6, 7 y 8, se observa
bastante similitud entre la estimación directa de la EPA y el estimador sintético.
En la isla de La Gomera no hay puntos de muestreo en la EPA por lo cual no
existe referencia alguna para comparar.
En la isla de Hierro, sólo hay un punto de muestreo en el estrato 8 y las cifras
son de muy poca magnitud para que la comparación sea significativa.
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
328 ESTADÍSTICA ESPAÑOLA
(*) La estimación proporcionada por el estimador sintético al utilizar como variable auxiliar la
población de 16 años y más, no ha de coincidir con la obtenida como suma de las estimaciones
correspondientes a cada sexo y grupo de edad por separado.
330 ESTADÍSTICA ESPAÑOLA
CONCLUSIONES
sintético (la varianza de éste, por sí sola, no da una buena idea de su precisión al
ser el estimador sesgado).
La elección de las variables explicativas puede ser muy determinante a la hora
de obtener las estimaciones y sus varianzas ya que cualquier modelo de regresión
que se utilice proporcionaría una varianza explicada y otra residual o no explicada
cuya magnitud dependerá del grupo de variables elegidas; a su vez una mayor
varianza residual influirá en una mayor varianza de la estimación, sin olvidar que el
poder explicativo de un grupo de variables auxiliares también dependerá de la
variable de interés considerada, así por ejemplo la variable población por grupos de
edad y sexo puede ser más idónea para la variable ocupados pero no para la
variable parados. También la varianza de las estimaciones así como las propias
estimaciones obtenidas a partir de los estimadores de regresión, vendrán influidos
por la diferencia entre los vectores de efectivos poblacionales que proporciona la
EPA y la fuente estadística auxiliar.
Como se dijo al principio del artículo, el área pequeña permite en muchos casos
realizar una estimación directa a partir del diseño original de EPA y por tanto puede
existir cierta preocupación en que no aparezca una discrepancia excesiva entre la
estimación directa y la obtenida mediante los estimadores de regresión. Esto en
principio no debe constituir un elemento de desconfianza hacia los estimadores
utilizados ya que precisamente se parte de la hipótesis de que el área pequeña no
tiene la representación muestral suficiente para dar una estimación fiable; sí puede
tener en cambio más sentido la comparación a nivel provincial de la estimación
directa y la obtenida utilizando información auxiliar. En este caso la discrepancia
entre las estimaciones también vendrá influida por la diferencia entre los vectores
efectivos provinciales que proporciona la EPA y la fuente auxiliar. Si esta diferencia
es sustancial, se pueden poner reservas hacia la fiabilidad de la información ajena
a la encuesta o hacia la verosimilitud de las estimaciones que proporciona el diseño
a nivel provincial lo cual sería más grave. A nivel de área pequeña, se puede
otorgar mayor confianza a la información auxiliar.
Todo lo expuesto anteriormente se podría resumir diciendo que la elección de
un determinado grupo de variables explicativas vendrá determinada por la disponi-
bilidad de información relativa a estas variables tanto en la encuesta como en una
fuente estadística ajena a la muestra como puede ser el Censo, el Padrón o un
Registro continuo. En segundo lugar interesa examinar a nivel de provincia la
diferencia existente entre los efectivos estimados por la encuesta y la fuente auxiliar
para el grupo de variables auxiliares elegidas y por último interesa ver el poder
explicativo del grupo de variables a través de la varianza residual resultante.
338 ESTADÍSTICA ESPAÑOLA
REFERENCIAS