Sei sulla pagina 1di 13

MUNICIPALIDAD DE SAN PEDRO SULA DEPARTAMENTO DE INVESTIGACIN Y ESTADISTICA MUNICIPAL

EL USO DEL ANLISIS DE CLUSTER PARA LA SEGMENTACION DE LOS BARRIOS Y COLONIAS DE SAN PEDRO SULA

San Pedro Sula, Honduras CA 2004


1

El presente artculo ha sido elaborado por JUAN MANUEL CIUDAD, Asesor del Departamento de Investigacin y Estadstica Municipal (DIEM), para que las autoridades y dependencias de la municipalidad cuenten con un instrumento tcnico que clasifique a los barrios y colonias de la ciudad de San Pedro Sula, por estrato socioeconmico.

El contenido de este documento son de entera responsabilidad del consultor.

EL USO DEL ANLISIS DE CLUSTER PARA LA SEGMENTACION DE LOS BARRIOS Y COLONIAS DE SAN PEDRO SULA

JUSTIFICACION San Pedro Sula es un municipio en constante crecimiento poblacional. A principios del siglo XX con la llegada del cultivo del banano por parte de compaas extranjeras se dio lugar a la inmigracin de pobladores provenientes de los diversos departamentos del pas, a tal grado que en 1900 la poblacin llegaba a 5 mil habitantes y en 1920 ya sobrepasaba las 10 mil personas. A partir de la dcada de los 50`s, la ciudad de San Pedro Sula, inicia un proceso de acelerado crecimiento demogrfico como consecuencia del desarrollo agrcola e industrial. Este impulso econmico, origino una fuerte inmigracin y sumado a la alta fecundidad existente dio como resultado altas tasas de crecimiento poblacional, pasando la ciudad de 21 mil personas en 1950 a 362 mil personas a mediados de 1992, concentrndose en 270 barrios / colonias. El crecimiento poblacional se incremento a partir de 1988, provocada por un aumento general de la actividad econmica de la ciudad y a las instalaciones de industria de la maquila en los municipios aledaos. Al 2004 cuenta con una poblacin estimada en 650 habitantes concentrados en 540 barrios / colonias que conforman la ciudad. Actualmente la ciudad de San pedro Sula es considerada como el centro urbano de mayor produccin manufacturera e industrial del pas y la segunda ciudad de importancia en Honduras, con una fuerte presencia de industrias, comercios y servicios. Si hay algo que caracteriza el perfil socioeconmico sampedrano es precisamente la falta de homogeneidad de su territorio, es decir, las diferencias que existen entre los pobladores que habitan en los distintos barrios y colonias de la ciudad sampedrana. El objetivo de este trabajo, es precisamente, tratar de identificar grupos de barrios / colonias que presenten caracteres socioeconmicos similares, con el fin de obtener una tipologa municipal que ilustre el anlisis y permita avanzar en el establecimiento de una zonificacin estadstica basada en aspectos socioeconmicos, til para usos generales y para usos especficamente estadsticos. En el municipio de San Pedro sula no existe una estratificacin comnmente aceptada de barrios y colonias, en general se utilizan criterios geogrficos subjetivos segn la temtica investigada, lo que imposibilita los anlisis de especto amplio. Para ello se estudiara el comportamiento de una serie de indicadores parciales a travs de un anlisis de cluster (o de conglomerados) que se aplicar a la totalidad de barrios y colonias de San Pedro Sula hasta obtener una tipologa municipal homognea. El Anlisis de Cluster o de Conglomerados es una tcnica multivariada que sirve para agrupar a los elementos investigados en grupos o estratos, denominados conglomerados

(municipios, barrios, colonias, abonados, consumidores, etc.), de modo que los que estn dentro de cada uno sean lo ms semejantes homogneos- posible con relacin a su probables respuestas de las variables investigadas. Los conglomerados entre si deben ser lo ms distintos heterogneos- posibles respecto a su respuesta probable. Este anlisis se conoce tambin como anlisis de clasificacin o taxonoma numrica. Esta tcnica opera en un espacio n-dimensional, siendo n es el nmero de barrios o colonias (localidades) de la ciudad de San Pedro Sula y p el nmero de variables que representan las caractersticas fsicas y de necesidades bsicas insatisfechas de las viviendas de cada localidad; la tabla de datos que contiene las n x p observaciones tendr n filas y p columnas. Cada fila puede ser considerada como un punto en un espacio de p dimensiones. Las coordenadas de cada punto se obtendrn a partir de los valores en las p variables de la localidad correspondiente. A partir de la representacin de los n puntosfilas, teniendo en cuenta la distancia entre ellos, trataremos de agrupar los estratos de tal forma que, por un lado, las distancias dentro de un mismo estrato sean pequeas y, por otro, las distancias entre estratos sean grandes.

FORMULACIN DEL PROBLEMA


Para agrupar los 540 barrios y colonias que conforman la ciudad de San Pedro Sula, se considero a un conjunto de 7 variables1 relacionadas con el desarrollo social y econmico como medidas del bienestar individual y que expresan el nivel de satisfaccin de cada necesidad del hogar, estas son las siguientes: material de las paredes, material del piso, forma de obtencin del agua, tipo de servicio sanitario, tenencia de aire acondicionado, tenencia de televisin con cable y cantidad de cuartos que utiliza exclusivamente como dormitorio. En este tipo de anlisis hay que ser especialmente cuidadoso en la eleccin de las variables que van ha caracterizar a cada barrio / colonia y6 que sirven de base para realizar agrupaciones. Todas las variables seleccionadas son binarias de forma que un valor mayor o igual que 1 significa que satisface el criterio exigido y 0 que no la satisface. Utilizndose algoritmos informticos se construyeron cuatro variables compuestas, partiendo de las 7 variables seleccionadas de manera que tuvieran las mejores probabilidades de agrupar las localidades, desde la ms carenciada hasta la menos carenciada. Tres de ellas permiten la medicin2 de NBI -Indicador de carencia en el hogar- y otra llamada complementaria Indicador de satisfaccin del hogar-, para el diagnstico global de los barrios y colonias. Se garantizo de que las variables compuestas expresen directamente ciertas situaciones de carencia, respecto a las condiciones y forma de ocupacin de los hogares en la vivienda, densidad de ocupacin de los espacios de la vivienda, aprovisionamiento de agua y
1

Estas variables fueron seleccionadas de la base de datos del Recuento Censal de Poblacin y Vivienda y Establecimientos Comerciales, realizado por el Departamento de Investigacin y Estadstica Social (DIEM) en 1999, en el marco del proyecto: prstamo BID-1024/SF-HO y del proyecto HON/96/P01 del Fondo de Poblacin de las Naciones Unidas (UNFPA). La medicin est referida a los hogares que habitan en viviendas particulares con ocupantes presentes, no incluye a las viviendas colectivas como hoteles, hospitales, crceles, etc. 4

disponibilidad de sistema de eliminacin de excretas; y el otro se refiere ms a los recursos del hogar para satisfacer sus necesidades en trminos de comodidad lucro. Las cuatros variables compuestas son las siguientes: 1) Caractersticas Fsicas Inadecuadas (MP): Expresa las carencias habitacionales referentes a las condiciones fsicas de las viviendas. En este sentido, el indicador Hogares en viviendas con caractersticas inadecuadas alude al material predominante en las paredes y pisos. De este modo, se clasificaron a aquellos hogares que habitan en viviendas cuyo material predominante en las paredes fuera distinto al ladrillo, piedra o bloque y/o piso de tierra, u otros materiales inservibles y a los hogares que habitan en viviendas improvisadas (cartn, desechos, lata, etc.). A estos hogares se les asigno un peso de cero (0) y aquellos hogares con caractersticas distintas a las anteriores se les asigno un peso hasta de tres (3). 2) Hogares en Viviendas sin Servicios Bsicos (SB): Dentro de la infraestructura de los servicios bsicos del hogar, la disponibilidad de servicios higinicos es esencial. Efectivamente, el disponer de servicio de agua potable, as como de un servicio higinico o de un lugar en la vivienda destinado a la disposicin de excretas (alcantarillado), asegura la posibilidad de evitar riesgos de contaminacin y la presencia de factores que atenten contra la salud. Por lo tanto, el indicador hogares en viviendas sin servicios bsicos considera a aquellos que no disponen de servicio higinico por red de tubera, tanque sptico o letrina hidrulica y/o el agua que utilizan proviene de pozo, ro o vertiente, quebrada o de la lluvia, asignndoseles un puntaje de cero (0) y aquellas que cuentan estos servicios se les asigno hasta dos (2) puntos, dependiendo del tipo de servicio higinico que tenga la vivienda. 3) Viviendas con Hacinamiento Crtico (HC): Se consideraron en esta situacin los hogares que habitan en viviendas con ms de dos personas por cuarto, utilizado exclusivamente como dormitorio. A los hogares con esta caracterstica se les asigno cero (0) puntos, en caso contrario, un (1) punto. 4) Comodidad (COM): En vista de que las variables expresadas anteriormente no cubren aspectos relacionados con la capacidad econmica y signos de comodidad de los hogares tenencia de artefactos y/o vehculos, etc.-, con el cual se busca identificar a aquellos que no disponen de los recursos suficientes para alcanzar niveles mnimos

de comodidad, se determino utilizar como variable proxi la tenencia televisin por cable y aire acondicionado, considerados elementos indirectos de la capacidad econmica de los hogares. En este sentido, se consider que no cumplan con los requisitos mnimos aquellos hogares que no cuentan con aire acondicionado ni televisin por cable en la vivienda, dndoseles el valor cero (0), y aquellos hogares que cuentan con estos artefactos en la vivienda se les asigno hasta dos (2) puntos. MEDIDA DE PROXIMIDAD Y DE DISTANCIA Una vez establecidas las variables y las localidades a clasificar, el siguiente paso consiste en establecer una medida de proximidad o de distancia entre ellas que cuantifique el grado de similitud entre cada par de localidades. Cada localidad puede ser considerado como un punto en el espacio de p = 4 dimensiones (una dimensin por cada variable). Ha partir de la representacin de las n = 438 localidades (puntos) se trata de, teniendo en cuenta las distancias entre ellos, agruparlos en conglomerados de forma tal que, respecto a la medicin de las caractersticas fsicas y necesidades bsicas insatisfechas de las viviendas, las localidades pertenecientes a un mismo conglomerado sean semejantes entre si y diferentes a los perteneciente a otros conglomerados. La medida de distancia utilizada entre dos localidades es la eucldea, que es la ms comn entre las disponibles, que es utilizada para medir variables cuantitativas. La distancia eucldea se define como la raz cuadrada de la suma de p cuadrados de las diferencias entre los valores observados en las p variables compuestas para las dos localidades correspondientes. En consecuencia, ser positiva cuando las dos localidades difieran en al menos un valor y nula cuando las dos localidades presenten exactamente los mismos valores en las p variables. As, dos localidades i y j pueden ser representado en el espacio de 4 dimensiones como dos puntos de la forma: i = (MPi, SBi, HCi, COMi) j = (MPj, SBj, HCj, COMj) donde cada coordenada es el resultado observado en la medida correspondiente. La distancia eucldea entre ellos se define como: d(i , j) = ((MPi - MPj )2 + +(COMi - COMj )2)1/2 PROCEDIMIENTO ESTADISTICO

Antes de empezar con el Anlisis de Cluster se obtuvieron resmenes de la media de cada variable seleccionada, los cuales representan la proporcin de hogares promedio con carencia que existen en los barrios y colonias de San Pedro Sula. En la siguiente a se aprecia que ms de la mitad de los hogares tienen algn tipo de material (piso y/o pared) inadecuado en sus viviendas, as como tambin, una alta proporcin de ellos no cuentan con comodidad (aire acondicionado y/o televisin por cable) adecuada: y cerca de la cuarta parte de los hogares no tienen el servicio de agua y/o alcantarillado sanitario en su vivienda.
Estadsticos descri ptivos de indicadores de carencia Desv iacin estandar 37.990 35.213 24.324 24.970

Serv icios bsicos Material inadecuado Hacinamiento crtico Comodidad Valid N (listwise)

N 478 478 478 478 478

Minimo .0 .0 .0 .0

Mximo 100.0 100.0 100.0 100.0

Media 29.312 64.086 52.045 83.378

En el siguiente diagrama se aprecia relativamente la falta de comodidad que tienen los hogares sampedranos, as como tambin de materiales adecuados para las viviendas, y en menor escala la carencia de servicios bsicos.
Di agram a de indi cadores de carencia
90

80

70

60

50

40

Promed io

30 20 Servicios Bsicos Hacinamiento Crtico Comodidad Material Inadecuado

En el Anlisis de Cluster se debe siempre demostrar que existen fuertes ligazones entre las variables que van a configurar el perfil de los clusters, ya que la inclusin de una o ms variables irrelevantes puede distorsionar una solucin de agrupacin que de otra forma podra ser til. Este proceso de comprobacin se realiza mediante el Anlisis de Correlaciones.

matriz de correlaciones SB 1.000 . 478 .576** .000 478 .641** .000 478 .412** .000 478 MP .576** .000 478 1.000 . 478 .845** .000 478 .758** .000 478 HC .641** .000 478 .845** .000 478 1.000 . 478 .755** .000 478 COM .412** .000 478 .758** .000 478 .755** .000 478 1.000 . 478

SB

MP

HC

COM

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is signif icant at the 0.01 lev el (2-t ailed).

En la matriz de correlaciones se observa de que existen significativas correlaciones entre cada par de variables investigadas, dado que el p-valor asociado al estadstico para contrastar la hiptesis nula de que no existe asociacin lineal es menor que 0.01 en todos los casos, por lo tanto, al nivel de significancia de 0.01 la hiptesis puede ser rechazada, por consiguiente, podemos afirmar que las cuatro variables estn correlacionadas en algn grado. En este sentido, las variables que indican las caractersticas fsicas de la vivienda (MP y SB) se hallan considerablemente correlacionadas (positivamente) entre s y altamente correlacionadas (positivamente) con las que indican la densidad de ocupacin de los espacios en la vivienda (HC), y medianamente correlacionadas con las variables que indican un comportamiento lucrativo (COM). Si no se observasen correlaciones entre las variables que formarn parte del Anlisis Cluster se podra entender que no tendra sentido realizar un proceso de Clustering.

PROCEDIMIENTO DE AGRUPACION
Se utilizo el mtodo no jerrquico de las K-medias para la formacin de conglomerados, el cual realiza una particin de los barrios y colonias en k grupos, donde k es un nmero que fue fijado a priori Este tipo de mtodo es conveniente utilizarlo cuando los datos a clasificar son muchos como en este caso que son 478 localidades. En particular, el procedimiento seguido por el mtodo de las K-medias en la agrupacin fue el siguiente: 1) Seleccionar k centroides, donde k es el nmero de conglomerados o grupos deseado. 2) Especificar los centros de los k conglomerados iniciales. 3) En funcin del centro ms prximo, agrupar a las localidades en conglomerados 4) Calcular los centros de los conglomerados obtenidos a partir de la agrupacin
8

5) Repetir los tem 3 y 4 hasta que se satisfaga un criterio de parada. Los resultados de aplicar el algoritmo de las k-medias implementado con el programa computacional SPSS, con 6 grupos o segmentos y tomando como punto de partida los centroides de los grupos obtenidos anteriormente, vienen dados en la siguiente tabla :
a Historial de Iteraciones

Iteracin
1 2 3 4 5 6 7 8 9 10

1 24.53 3.87 2.33 2.24 1.66 .00 1.38 .47 .00 .00

Cambios en los cent ros de los conglomerados 2 3 4 5 30.23 34.66 56.83 30.48 1.97 9.13 3.23 .78 1.24 2.72 3.01 .55 1.43 2.51 4.92 .58 1.80 2.38 2.38 .53 1.58 3.49 1.18 1.43 1.22 5.59 .00 1.65 .76 5.95 .88 1.35 .00 8.24 2.65 1.94 .38 6.52 2.32 3.03

6 48.74 3.57 4.79 9.27 4.51 1.49 .55 .36 .54 .52

a . La s ite rac iones se ha n dete nido por que se ha lle vado a c abo e l nme ro m xim o de itera cione s. La s ite rac iones no han conver gido. La dista nc ia m xima en la que han ca mbiado los ce ntros es, 5.553. La ite ra cin a ctua l es 10. La dista nc ia m nim a e ntre los ce ntros inic ia les e s 86.674.

El algoritmo converge en 10 iteraciones y obtiene 6 grupos de tamaos 61, 67, 71, 100, 96 y 83 localidades respectivamente. En los cuadros siguientes se observan los centros de los conglomerados finales y las distancias entre los centroides de cada grupo.
Ce n tros de l os co ng lo me rado s fi n ale s
Centroides Variable SB MP HC COM 1 .6 7.6 13.6 27.9 2 1.4 19.1 25.3 72.7 3 54.2 88.2 67.1 94.2 4 6.8 89.0 60.9 96.9 5 94.2 93.8 76.6 98.8 6 3.7 57.0 49.9 89.3

Di stanci a e ntre l os ce ntros de l os conglome rados fi n al es


Conglomerado 1 2 3 4 5 6 1 47.62 128.91 116.84 158.64 86.74 2 47.62 98.93 82.32 132.35 48.21 3 128.91 98.93 47.97 41.71 62.01 4 116.84 82.32 47.97 88.99 34.83 5 158.64 132.35 41.71 88.99 101.70 6 86.74 48.21 62.01 34.83 101.70

IN TE RP

RETACION Y PERFILES MEDIOS DE LOS GRUPOS Interpretar la clasificacin obtenida por un Anlisis Cluster requiere, en primer lugar, un conocimiento suficiente del problema analizado. Hay que estar abierto a la posibilidad de que no todos los grupos obtenidos tienen por qu ser significativos. Entre otros estadsticos, utilizaremos el Anlisis de Varianza (ANOVA), para ver qu grupos son significativamente distintos y en qu variables lo son. En el cuadro siguiente se muestran los resultados de aplicar un ANOVA para cada una de las

ANOVA
Conglomerado Mean Square df SB MP HC COM
131224.527 104399.053 44080.438 49539.882 5 5 5 5

Error Mean Square


68.455 147.190 130.970 105.312

df
472 472 472 472

F
1916.947 709.281 336.568 470.409

Sig.
.000 .000 .000 .000

Las pruebas F solo se pueden utilizar con una f inalidad descriptiv a puestos que los conglomerados han sido elegidos para maximizar las dif erencias entre los casos en dif erentes conglomerados. Los niv eles crt icos no son corregidos, por lo que no pueden interpretarse como pruebas de hiptesis de que los centros de los conglomerados son iguales.

variables analizadas, observndose de que existen diferencias significativas en todas las variables al 1 y 5%. El siguiente grfico muestra el perfil medio de cada grupo. Se observa que Las localidades de los grupos E y F poseen una mayor proporcin de viviendas con servicios bsicos deficitarios, as como tambin era de esperar que las localidades con mayor proporcin de viviendas con caractersticas fsicas inadecuadas, hacinamiento critico y carencia de comodidad se encuentran en estos mismos grupos; sin embargo, no existe mucha diferencia entre las localidades de los grupos D y E con relacin a los materiales de construccin inadecuados y a la falta de comodidad de las viviendas. Queda claramente de manifiesto que las familias que viven en las localidades que pertenecen a los grupos A y B tienen mejor nivel de vida que de los otros grupos por la cobertura de los servicios bsicos, la buena calidad de material que utilizan para la construccin de las viviendas, el uso optimo del dormitorio y la comodidad y equipamiento de los hogares. En menor jerarqua se concentran las localidades ubicadas en los grupos C y D.

10

Perfiles medios de cada grupo


3

Grupo A Grupo B

-1

Grupo C Grupo D

-2 Grupo E -3 ZSB ZMP HC COM Grupo F

Una vez obtenidos los grupos, se procedi a la validacin de los mismos con el fin de asegurar de que el comportamiento de las variables seleccionadas refleje la situacin carente de las localidades pertenecientes a cada grupo. Para ello se elaboraron cuatro grficos correspondientes a servicios bsicos, caractersticas fsicas inadecuadas, hacinamiento crtico y comodidades del hogar, donde se muestra en cada uno de ellos la distribucin de los barrios y colonias segn al grupo que pertenece. Como era de esperarse, la mayor parte de los barrios y colonias con problemas se servicios bsicos pertenecen al grupo F, cabe mencionar que muchas de estas localidades son conformadas por bordos, tramos carreteros y asentamientos humanos. Por otro lado, la mayor proporcin de barrios y colonias con material de construccin inadecuada en las viviendas se concentran en los grupos D, E y F. Las localidades con comodidad inadecuada en los hogares tambin se encuentran mayormente en estos tres grupos, tambin el grupo B concentra una proporcin significativa de barrios y colonias con esta carencia. Las diferencias que existen entre la proporcin de localidades con hacinamiento crtico de los grupos, estn en relacin con la carencia de servicios bsicos, materiales de construccin inadecuados y comodidad insatisfecha que presentan los hogares pertenecientes a las localidades de cada grupo.

11

Por sector geogrfico, las localidades ubicadas en los sectores Nor-Oeste y Sur-Oeste pertenecen mayormente al primer grupo y una proporcin importante al segundo grupo, las localidades de sector Nor-Este tienden a estar generalmente en los grupos B y C, mientras que las localidades del sector Sur-Este estn incluidos en los grupos C y D y en menor escala en el grupo B. Igualmente, parte importante de las localidades ubicadas en el sector Sub-Urbano Este se encuentran en los grupos C, D y F. Las localidades de los

12

sectores Sub-Urbano Nor-Este y Sub-Urbano Sur-Este tienen caractersticas similares, pues, ambos pertenecen mayoritariamente a los grupos D y F, y las localidades del sector Cofrada estn incluidos en los grupos E y F. Por lo tanto, Los grupos reflejan las diferencias existentes entre los diversos sectores geogrficos de San Pedro sula. En los siguientes cuadros se muestran las localidades que pertenecen a cada grupo (nivel de categora), junto con las distancias de cada localidad al centroide de su grupo. Se puede asumir de que las categoras A y B contienen los barrios y colonias de estratos altos, los grupos C y D estn compuestos por barrios y colonias de estratos medios y los grupos E y F contienen los barrios y colonias de estratos bajos.
Este estudio ha resultado esencial para establecer la estratificacin estadstica socioeconmica (seis estratos homogneos) de los barrios y colonias de San Pedro Sula, la misma que servir para el uso general de la municipalidad sampedrana.

13

Potrebbero piacerti anche