Sei sulla pagina 1di 17
NUMERO DE ESPECIES: ‘TEORIA UNIFICADA DE MUESTREO PARA POBLACIONES INFINITAS Antonio Vargas Sabadéas Departament de Economia y Empresa. Facultad de Ciencias oreo Sociales Universidad de Casilla La Mancha (Canpue de Toledo) Palabras y frases claves: Procesos de punto, procesos de Poisson y de Polya. Muostreo socuencial. Nimeros de ocupscisn, Superposicién de procesos de punt. RESUMEN ‘Considerames una poblacisa en la que se ha establecido una partici ue lad deen S clases En numerosas ocasiones, interesaestimar, ms que el tamafiode las cla- ss el propio nimero S de clases. Ast, gedlogos y bislogos pueden tener inten's por averiguar el nimezo de especies de una poblacién de animales o plantas; ales lin- itistas les puede interesar conocer el tamafo del voeabulario de un autor. 21 nimero de componentes conectadas de un graf el nimero de errores de un programa infor- imtico,e! némero de ferismenos astronémicos desconocides,.son ejemplos de posi bles aplicaciones. Se han publicado numerosos trabajos para etimar el nimero de cla ses de una poblacién mediante diferentes procedimientos independientes, pero no se ha realizado ain un estudio unificado. Este problema, conocido como preblema del rnimero de especies, es ahora tratado como una superpesicién de S procesos homogé- neos independiente de Poisson P,..Ps de razones iy Ay, modelo que se gener para valores aleatorios de los. Cuando la poblacién es infnita, se desarofla una teoria unificeda de muestreo, que proporcionan estimador UMVUE de S, vid para tm esquema de umas secuencial esquema de contagio) y para los tipos de muestreo aleatorio con y sin teemplazamiento, obteniéndose asimismo una estimaci6a del error tipico de muestre. 1, INTRODUCCION ‘Supongamos una poblacién, entre cuyos elementos hay una parti- cién formada por $ clases, y nos interesa precisamente averiguar el propio nimero S de clases, que es desconocido, asf como se descono- ce a priori Ia identidad de cada clase. Seleccionamos una muestra de tamaiio T de la poblacién, admi tiendo que, una vez es seleccionado un elemento, la clase cocrespon- diente puede ser identificada, BI resultado del experimento estaré re- 319 320 presentado por el vector aleatorio N=(Ni,N2,..No), donde Nj represen- ta “el mimero de elementos de la clase j-ésima que forman parte de Ja muestra”, siendo D “el mimero de clases 0 especies diferentes que hay en Ia muestra” La dificultad radica en que la clase j-ésima puede no aparecer en la ‘muestra, en otras palabras: N no es observable, de modo que la clase j- ésima forma parte de la muestra si N>O. En lugar de trabajar con N, se trabaja con otro vector M=(Mi, Mb,...Mb), que sf es observable, y, donde M. representa “el ntimero de especies que aparecen r veces en la muestra”. Los M: son los “miimeros de ocupacién” o “frecuencias de frecuencias”, como los, amé Good. El problema fundamental es el de estimar S a partir de los M. La diversidad D y el tamafio muestral T se pueden expresar en fun- ci6n de los Me DeDM, y T=Yirm, ab Para precisar ideas, admitimos los siguientes axiomas: Axioma I; La poblacién consta de $ especies ($ es desconocido) con abundancias relativas PrewPs) ,donde Yop,=1, Opt (1.2) La abundancia relativa pes la probabilidad con que la clase j-ésima esti en la poblacién. Axioma IT; Se toma al azar una muestra de la poblacién, en Ia que Nirepresenta “el nimero de miembros de la j-0 (Bunge, 1993), sea Ns (1) “el ntimero de individuos de la especie Ik que hhan sido seleccionadas en el periodo (O,t”. Entonces se verifica la siguiente proposicic Proposicién 1: La variable aleatoria Ns (0) define un proceso de Poisson homogéneo de media fut. Se puede extender el muestreo de Poisson haciendo que los fa sean, fa su vez, variables aleatorias con una cierta distribucién, como puede ser Ia distribucién gamma. La eleccién de una distribucién gamma para los Ax nos va a conducit al modelo de Polya. ‘Axioma III: Los (2). son independientes y estén icéntica- mente distribuidos con una distribucién comtin gamma de parémetros (ALIA), es decir: 0) =A Ate M450, dsc, 1 10) = Ao 120, Octes, 0, as) ‘De este modo, ii es tal que E[AiJ=1 y Var[A]=1/A. La eleccién del axioma III nos Hleva al siguiente resultado conoci Proposicién 2: Si N(t) es una variable que sigue una distribucién de Poisson de media 2st, y suponemos que los 4, siguen una distribu- cién gamma T(A,1/A), entonces la distribucién compuesta es la bino- mial negativa de parimetros BN [A,A/t+A)], con aer-t)(_)( 44 vn“ a) ba 0.0) Al ser Ni (t) el niimero de individuos de la clase lk, Ns (t)+A repre- senta el ntimero de pruebas necesarias para obtener, por primera vez, A individuos de una clase distinta de L, lo que sucederé si, y $6.0, sien la diltima prueba se obtiene un individuo que no pertenece a la clase Is, y en las Nx (t)+A-1 pruebas anteriores habian aparecido Ni (t) indivi- duos de la especie lh, ‘Como se desconoce el ntimero de especies que no aparecen en la muestra, debemos tomar la distribucién truncada en cero, que es la dis- tribucién de Ni(t) condicionada por Ni(t)>0, puesto que la especie Ik estard representada en la muestra si Ne (t)>0: “Veal P= PIN = PIN =A, N(O>O] = 321 322 Se verifican las siguientes propiedades para P¥: A) (1.8) B) a9) Si no admitimos el axioma III, estamos ante un proceso puro de nacimiento, con tasa de crecimiento constante, mientras que admitir el axioma III nos Ileva también a un proceso de nacimiento puro, pero con tasa de crecimiento variable (Feller, 1993). La funcién generatriz. de probabilidades de la distribucién truncada es: gy-!_(_p )* 1, Yojol?) al } Ta) “Tawi Ost (10) Los momentos respecto al origen de Ia distribucién truncada correspondiente al proceso k-ésimo, se obtienen, por tanto, de multi- plicar los momentos respecto al origen de la distribucién no truncada por Re (Ltt) 44) a Se obtiene ast ©) £[xio] (1.12) D) Ver(wseo]= (1.13) ‘Una forma de estimar los pardmetros de la poblacién consiste en utilizar la media muestral como estimador de la media de la poblacién, La media muestral es: ¥ Siw, ata) que es la media de Ja distribuciéu uncada; luego: l= ols a (ts) El problema del “ntimero de especies” no es sino un caso particu- lar del clasico problema de “esquema de urnas” o de “ocupacién ale- atoria de S celdas por n bolas”. El esquema de umas es un modo de trabajo conceptual con distribuciones estadisticas. Se considera una poblacién de n individuos (bolas en una urna), que son idénticas salvo en el color. En una prueba simple, se selecciona una bola de la urna y se anota su color; la bola se devuelve entonces a la uma. Asf se realizan mas pruebas bajo condiciones idénticas a la primera. Si cada une de las bolas tiene la misma probabilidad de ser extrafda en cada prucba, el cexperimento corresponde al muestreo aleatorio con reemplazamiento. ‘Si modificamos las reglas del esquema de urnas anterior, de forma ‘que, cuando se selecciona una bola de un determinado color, se devuel- ven c+ bolas del mismo tipo a la uma, tenemos el “esquema de urnas de Polya”, que, segtin los distintos valores de c, da lugar a los diferentes tipos de muestreo (Stuart, 1987) a) el esquema de contagio: corresponde al caso c=1 y, cuando la poblacin es infinita, esta regido por la distribucién binomial nega- tivas b) el muestreo aleatorio con reemplazamiento: comtesponde a c=0 y, cuando la poblacién es infinita, esta regido por la distribucién de Poisson; ©) el muesireo aleatorio sin reemplazamiento: corresponde a que, si la poblacién es infinita, esta regido por la binomial. En vez de seleccionar una muestra de tamafio fijo, se puede alterar la regla de parada y elegir continuar con el muestteo hasta que se con- siga obtener por primera vez el A-ésimo éxito. Este es el método de muestreo secuencial: se trata de contar el ntimero de fracasos hasta que se obtiene el A-ésimo éxito. El tamafo muestral T es variable, y nos interesa conocer la distri- bucién del vector M. El problema es equivalente a distribuir al azar una de las n bolas en una de las $ celdas etiquetadas con los nimeros 1,2,...8, de modo que la probabilidad de que la bola caiga en la celda i-ésima es p. 2. DISTRIBUCION DE LOS NUMEROS DE OCUPACION Si definimos Ia funcién indicador I(t), que toma el valor 1 si la celda k est ocupada, y cero si no lo esti, se definen los “ntimeros de ‘ocupacién”, M., de Ia siguiente forma: M,= STOO =] Qa) Los ntimeros de ocupacién (ME) son variables aleatorias definidas a partir de la funcién indicador, que tienen una distribucién en el mues- {reo, que nos interesa conocer. Con este fin, vamos a estudiar su fun- cién generadora de probabilidades. 323 ‘Al ser las M. variables intercambiables, su funcién generadora de probabilidades sera: dee) eg ago p, Jon 2 {que se trata de una distribucién binomial de pardmetros D y P*. Como Ia funcién generadora de probabilidades determina, de ‘manera tinica, la distribucién, acabamos de demostrar la siguiente pro- posicién: Proposicién 3: Los ntimeros de ocupacién, M., son variables alea- torias independientes con una distribucién binomial de pardmetros B(D.PAL-P)), Como consecuencia de esta proposicén, se verifica el siguiente corolario’ Corolario 3.1: La distribucién del vector aleatorio M=(M..M: +Mb) condicionado por Mi+Mc+...tMo=D, es multinomial de paré- metros: M (DPUC1-Pi),.Po -P:)}=MDP'iy.P'0) Si estimamos P.* mediante, E[M.J/D, obtenemos una aproximacion de la funcién generadora de probabilidades de M,, que sigue una tibucién binomial de pardmetros B(D,.M/S). Se tienen, por tanto, las siguientes propiedades, donde las esperan- 3) Esta propiedad también es cierta para r=0, es decir: -SD 2. 4-2 4) Podlemos, entonces, enunciar la siguiente proposicién: icion 4: EM Proposicion 4: e un estimador insesgado de P.*. Designamos por 17, a E[M,] , ya que se trata de una variable alea- toria 3. En particular Aes 2.5) pa) (2.5) 3. ESTIMADOR DE MAXIMA VEROSIMILITUD Proposicién 5: D/(1-f,) es un estimador insesgado de S, bajo la distribucién truncada en cero, En efecto: E(D)=8(1-P)=D. G1) es un estimador insesgado de , cuya estmacién Teniendo en cuenta que la distribucién conjunta del vectror (M,,....Mo) condicionada por M:t...#Mo=D es multinominal de paré- ‘metros M(D,Pu/(1-Py),..Po/(1-Po)), la funeién de verosimilitud es o ag LPL Md | Foa=0) =H Fe @2) ‘Tomando logaritmos en los dos miembros de (3.2) se obtieae: Inb= So M,InP,-Diact-P,) @3) Si estimamos t por T/S en las expresiones de P: y Po, y derivamos con respecto a S, queda: G4) donde hemos llamado Desarrotlando (3.4), se obtiene: AaPal_D_ 65) ass (TF ‘Igualando a cero la derivada, resulta finalmente: Db an G6) ‘Tenemos, por tanto, la siguiente proposicién: Proposicién 6: D/(1-Po) es un estimador de maxima verosimilitud de 8. 325, La derivada del logaritmo de la funcién de verosimilitud para la distribucién truncada viene dada por la expresién (3.5), donde el pri- ‘mer factor es independiente de las observaciones, lo que nos permite afirmar que la cota de Cramer-Rao es accesible (Kendall, 1987) Se trata, por tanto, de un estimador uniformemente de minima varianza (UMVUE). Como es insesgado, Ia varianza coincide con el inverso del factor que multiplica a [D/(1-P,)-S] en (3.5), obteniéndose: e Var(S) Oar, (37) Hemos demostrado la siguiente proposicisn: Proposicién 7: Una estimacién del error tipico de muestreo del estimador de maxima verosimilitud de $ es egy stig) = im G8) En efecto, tomando 14, como estimador de AqPo en (3.7) y extra- yendo la raiz.cuadrada, resulta (3.8). 4, ESTIMADORES DE S EN FUNCION DEL PARAMETRO Antes de buscar estimadores de los parimetros que intervienen en esta distribucién, nos interesa establecer algunas relaciones entre ellos. sf son inmediatas las siguientes: L t__ 44 a AS-D) (42) 43) ‘Como consecuencia de la relacién (4.3) anterior, podemos enunciar la siguiente proposicién: Proposicién 8: En el muestreo por esquema de contagio, el esti- 326 mador de Good-Turing (Good, 1956), ses menor que Po. En efecto: Como O0 y w>0; para la bino- mial, -l0y O0, -w=g, con lo que p=1+w. Entonces el término (r+1)-ésimo del desarrollo de (1+w-w) (a+) que es la funci6n de cuantia de una distribucién binomial de paré- metros BA,g). Si estimamos 1/A a partir de (6.1), resulta 1, Dili ae ¥ podemos utilizar, como estimadores de S, las expresiones de (7.4) y a5). 3) Si el muestreo es completamente aleatorio con reemplazamien- to, A tiende a infinito, y, como estimador de S, resulta: (8.1). Este ‘modelo de mestreo corresponde al de Maxwell-Boltzman. Los distintos valores del pardmetro A nos permiten analizar tam- bién algunos otros casos particulares: a) A=1, que corresponde a la distribucién de Bose-Einstein, en cuyo caso ( 4 } 1 Se trata de una situacién particular de muestreo secuencial, con un nivel de heterogeneidad del 100%. b)A: caso , que corresponde al modelo de Esty (Esty, 1986a), en cuyo (9.2) ‘También corresponde a una situacién no homogénea con un nivel de heterogeneidad del 50%. ©) Si A=0, se estarfa en una situacién con grado méximo de hetero- geneidad, La distribucién adecuada es la de Ewens, y, como estimador de S, se puede utilizar: 9.3) 10. EJEMPLO ‘Vamos a aplicar estos resultados al ejemplo que plantea Fisher (Fisher, 1943), en que se pretende averiguar el numero de especies de mariposas en Malaya a partir de los siguientes datos: Neepee [| 23456) # ONDE NEKO Dam nM Wéscapcin [11a 42409 2209 ISM 62 699 6 WS 33 ‘Tenemos: Mi=118, Ms=74, D=501, T=3306 y R:=35350. De aqui se obtiene, como estimacién de A’ A=1'2954 ‘Vemos, en primer lugar, que no es admisible la hipétesis de homo- gencidad, ya que el cuadrado del coeficiente de variacién de Pearson 333 de las abundancias relativas se puede estimar por grt com = 9-008 i El coeficiente de variacién de Pearson, en porcentaje, es del 87°86%, lo que indica la heterogeneidad de la distribuci6n. ‘Como estimacién de S, obtenemos: 14 Si utilizamos la expresién (3.8),¢1 error tipico del estimador en el muestreo es aproximadamente igual a: 6y-SH4 -s0's2 Vie REFERENCIAS BIBLIOGRAFICAS BUNGE, J. y FITZPATRICK, M,(1993). “Estimating the Number of Species: A Review"; Journal of the American Statistical Association, Vol 88, N°#21. CHAO, A.(1981), “On Estimating the Probability of Discovering a New Species”, The ‘Annals of Statistics, 9, 1339-1342, (1984) “Nonparametric Estimation of the Number of Clases ina Population” ‘Scandinavian Joural of Statistics. Theory and Applications, 11, 265-270. 1987), “Estimating the Population Size for Captare-Recapture Data with ‘Unequal Catchabilty”. Biometrica, 43, 783791, CHAO, A. and LEB, 8.M,(1992), “Estimating the Number of Classes via Sample Coverage”, Journal of the American Statistical Association, Vol. 87, N° 417. CHAO, MIT. (1992) “From Animal Trapping to Type Token. Statistica Sinica, 2,189-201. COX, DR. and ISHAM, V(1992). “Point Processes", Chapman & Hall, Ipswich. DARROCH, 1.N.(1958) “The Multiple-Recapture Census. Stimations of a Close Populations”. Biometrica, 45, 43-359. DARROCH, INN, y Ratclif;D. (1980). “A Note on Capture-Recapture Estimation’, Biometics, 36, 149-153, ENGEN, S. (1977) “Comments on two different approaches tothe analysis of species frequenc data”, Biometrics, 33,205-213, ESTY, WW(1982), “Confidence Intervals for the Coverage of Low Coverage ‘Samples’, The Annals of Statistics, 10, 190-196. (1983). “A. Normal Limit Law for @ Nomparamettic Coverage Estimator” ‘Mathematical Scientist, 10, 41-50. 19868). “The Size of a Coinage”. Numismatic Chronicle, 146, 185-215, (19866). “The Efficiency of Good’s Nomparametic Coverage Estimator”, “The Annals of Statistics, 1, 1257-1260. FELLER, W.(1993). “Introduccién Ia Teoria de Probabilidades y sus Aplicaciones”, Ly IP, Bd, Limuse, México. FISHER, RA, Corbet.A.S. and Williams.C.B. (1943). “The Relation between the ‘Number of Species and the Number of Individuals in a Random Sample from an ‘Animal Population”. Journal of Animal Ecology, 12, 42-58, GOOD, 1.1(1950). “Probubylity and the Weigghing of Evidence, London. Charles Gaff, (1953). “On the Population Frequencies of Species and the Stimation of Population Parameters", Biometrika, 40, 237-264. GOOD, LJ. and TCULMIN, G.H(1956), “The Number of New Species and the Increase in Population Cove rage, When 85-63, HOLTS, L. (1981). “Some Assintotic Results for Incomplete Multinomial or Poisson ‘Samples”, Scandinavian Joumal of Statistics, 8, 243-246, 1986). “On Birthday, Collectors’, Occupaney and Others Classical Urn Problems”, Intemational Statistical Review, 54, 15-27. JOHNSON, N.L. and KOTZ, $1977) “Um Models and their Application, John Wiley, Nueva York. LO, $.(1992) “From Species Problem to & General Coverage Problem Via a New “Interpretation”, The Annals of Statistics, 20 1094-1109. ORD, J.K. and Whitmore,G.A.(1986). “The Poisson Inverse-Gaussian Distribution as ‘4 Model for Species Abundance”. Communications in Statisics, Part A. Theory and Methods, 15, 853-871 PARZEN, B. (1972), “Procesos Estocstcos", Ed, Paraninfo, Madi. PORT, $.C. (1993). “Theoretical Probability for Applications”. Iohn Wiley and Sons. ‘Now York. RAO, JIN.K. and Wa,CJ, (1988). “Resampling Inference with Complee Survey Data”. Journal ofthe American Statistical Assotiation, 83, 231-241, RAO, CR. (1965), “Linear Statistical Inference and its Applications”, Ed. John Wiley, Nuova York K, (1976) “An Introduction to Probability Theocy and Mathematical Ed, John Wiley, Nueva York, (1984), “Statistical Inference”, Ed, John Wiley, Nueva York. STUART, A & ORD J. K. (1987). “Kandal’s Advanced Theory of Statistics" Vol. 2. 17.17, Charles Grifia & Co Ltd. London. (4° Ed.) ‘ZELTERMAN, D. (1981), “Robust Estimation in Truncated Discrete Distibutions with Applications co Capture-Recapture Experiments". Journal of Statistical Planning and Inference, 18, 225-237, 335,

Potrebbero piacerti anche