Sei sulla pagina 1di 21

1.1 Introduccin al anlisis de Cluster.

El anlisis de Cluster, tambin conocido como Anlisis de Conglomerados, Taxonomia Numrica o Reconocimiento de patrones, es una tcnica estadstica multivariante cuya finalidad es dividir un conjunto de objetivos en grupos, de forma que los perfiles de los objetivos en un mismo grupo sean muy similares entre si (cohesin interna del grupo) y los de los objetivos de clusters diferentes sean distintos (aislamiento externo del grupo). Acadmicos e investigadores de mercado a menudo encuentran la mejor solucin para resolver sus estudios mediante la definicin de grupos homogneos de objetos, ya sean ellos individuos, firmas, productos, o incluso comportamientos. Opciones estratgicas basadas en la identificacin de grupos dentro de la poblacin tales como la segmentacin o el marketing de objetivos no seran posibles sin un objetivo metodolgico. La misma necesidad nos la encontramos en otras reas, abarcando desde las ciencias fsicas (por ejemplo, clasificacin de varios grupos de animales, como insectos o mamferos) a las ciencias sociales (por ejemplo, anlisis de varios perfiles psiquitricos). En todos estos ejemplos, el analista trata de encontrar una estructura natural a travs de las observaciones basndose en un perfil multivariado.La tcnica ms comnmente usada para este propsito es el Anlisis de Conglomerados (Anlisis Cluster, AC, desde ahora). Conviene tener claro desde el principio: Que la tcnica no tiene vocacin / propiedades inferenciales Que por tanto, los resultados logrados para una muestra sirven slo para ese diseo (su valor atae slo a los objetivos del analista): eleccin de individuos, variables relevantes utilizadas, criterio similitud utilizado, nivel de agrupacin final elegido.... definen diferentes soluciones. Que Cluster y discriminante no tiene demasiado en comn: el discriminante intenta explicar una estructura y el Cluster intenta determinarla. Dos Objetivos Bsicos: Anlisis "taxonmico" con fines exploratorios o confirmatorios. Cambio (simplificacin) de la dimensin de los datos ( lo descrito al inicio de este documento: agrupacin de objetos individuales en nuevas estructuras de estudio (grupales)) 1.1.2. Qu es el Anlisis de Conglomerados?

El AC no es ms que un conjunto de tcnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogneos llamados conglomerados (Clusters). Los objetos en cada grupo (conglomerados) tienden a ser similares entre s (alta homogeneidad interna, dentro del Cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, ente Cluster) con respecto a algn criterio de seleccin predeterminado. De este modo, si la clasificacin es un xito, los objetos dentro del cluster estarn muy cercanos unos de otros en la representacin geomtrica, y los clusters diferentes estarn muy apartados. Este anlisis se conoce tambin como anlisis de clasificacin o taxonoma numrica. El AC tiene como propsito esencial, agrupar aquellos objetos que renan idnticas caractersticas, es decir, se convierte as en una tcnica de anlisis exploratorio diseada para revelar las agrupaciones naturales dentro de una coleccin de datos. Este anlisis no hace ninguna distincin entre variables dependientes (VD) y variables independientes (VI) sino que calcula las relaciones interdependientes de todo el conjunto de variables. El AC se utiliza en mercadotecnia para diversos propsitos, entre los que se encuentran: Segmentacin del mercado Por ejemplo, los consumidores pueden agruparse empleando como base los beneficios derivados de la compra de un producto. Cada grupo consistir en consumidores relativamente homogneos en trminos de los beneficios

que

buscan. del

Este

planteamiento

se del

conoce

como

segmentacin de los beneficios. Comprensin comportamiento comprador El AC puede utilizarse para identificar grupos de compradores homogneos. As, el comportamiento de cada grupo puede estudiarse por separado. Este anlisis tambin se utiliza para identificar la clase de estrategias que los compradores emplean para obtener informacin externa.

Identificacin

de

oportunidades

para

productos

nuevos

Al agrupar marcas y productos, pueden determinarse los conjuntos competitivos dentro del mercado. Las marcas en el mismo grupo compiten ms entre s que con las de los otros grupos. Una empresa puede analizar sus ofertas actuales en comparacin con aqullas de sus

competidores a fin de identificar las oportunidades potenciales de los nuevos productos.

Seleccin

de

mercados

de

prueba

Al dividir las ciudades en grupos homogneos, es posible seleccionar ciudades comparables a fin de probar diversas estrategias de mercadotecnia.

Reduccin

de

datos

El AC puede utilizarse como instrumento de reduccin general de datos a fin de desarrollar subgrupos de datos que sean ms fciles de manejar que las observaciones individuales. El anlisis multivariante subsecuente se realiza con base en los subgrupos, en lugar de las observaciones individuales. consumidores. Por ejemplo, para describir entre los las diferencias en el comportamiento de uso del producto, primero pueden agruparse los Las diferencias conglomerados pueden estudiarse con el uso del anlisis discriminante mltiple. El AC es una herramienta til a la hora de analizar datos en muy diversas situaciones. Por ejemplo, un investigador que est recogiendo datos por medio de un cuestionario podra encontrarse con un gran nmero de observaciones que no tienen significado a menos que se encuentren dentro de grupos manejables. El AC puede llevar a cabo esta agrupacin de datos de manera objetiva reduciendo la informacin de una poblacin entera o la muestra de informacin sobre pequeos grupos especficos. Por ejemplo, si nosotros podemos entender las actitudes de una poblacin identificando los grupos de mayor tamao dentro de la poblacin, entonces podemos reducir los datos de una poblacin entera dentro de un numeroso nmero de grupos. De esta forma el investigador logra una mayor concisin y una descripcin ms comprensible de las observaciones, con una mnima prdida de informacin. El AC puede usarse tambin cuando un investigador desea desarrollar hiptesis concernientes a la naturaleza de los datos. Por ejemplo, un investigador podra creerse las actitudes sobre la consumicin de refrescos bajos en azcar frente a los consumidores de refrescos normales podran ser usados para separar a los consumidores en grupos o segmentos lgicos. El AC puede clasificar a los consumidores de refrescos por las actitudes que adoptan frente a refrescos normales o frente a refrescos bajo en caloras, y los clusters resultantes pueden perfilarse a partir de las similaridades y de las diferencias demogrficas.

Con todo, no debe esperarse nunca una nica y definitiva solucin al problema de creacin de conglomerados. En la prctica, se considerarn varias soluciones derivadas de la aplicacin de las muchas tcnicas ofrecidas por este anlisis y, tras su correspondiente comparacin, nos inclinaremos por la ms til para el tipo de investigacin planteada. Los conocimientos del investigador sobre sus clientes, productos o servicios, jugarn un papel importante a la hora de decidir entre las diferentes soluciones alternativas. 1.1.3. Conceptos bsicos del Anlisis Cluster La mayora de los procedimientos utilizados en esta tcnica multivariante son relativamente sencillos, ya que no estn respaldados por el razonamiento estadstico. La mayor parte de los mtodos de agrupacin son heursticos, basados en algoritmos. De este modo, el AC presenta un fuerte contraste con el anlisis de la varianza, la regresin, el anlisis discriminante y el anlisis factorial, que se basan en un razonamiento estadstico. Los principios fundamentales implicados en cualquier AC son: Informe de Aglomeracin Ofrece informacin sobre los objetos o casos que se combinan en cada etapa de un proceso de agrupacin jerrquica.

Centroides objetos de un grupo particular.

de

Agrupamiento

Son los valores medios (medias) de las variables para todos los casos u

Centros

de

Agrupamiento

Son los puntos de partida iniciales en la agrupacin no jerrquica. Los grupos se construyen alrededor de estos centros o semillas.

Participacin Dendrograma

en

el

Grupo

Indica el grupo al que pertenece cada objeto o caso.

Llamado tambin grfica de rbol, es un dispositivo grfico para presentar los resultados del conglomerado. Las lneas verticales representan los grupos que estn unidos. La posicin de la lnea en la escala indica las distancias en las que se unieron los grupos. Se lee de izquierda a derecha.

Distancias

entre

Centros

de

Grupos

Indican la separacin existente entre los pares individuales de los grupos. Los grupos muy separados son distintos y, por tanto, deseables.

Diagrama

de

Carmbanos

Es una representacin grfica de los resultados del conglomerado, se llama as porque se asemeja a una hilera de carmbanos que pende del alero de una casa. Las columnas corresponden a los objetos que se agrupan y los renglones corresponden al nmero de conglomerados. Se lee de abajo hacia arriba.

Matriz

de

Coeficientes

de

Distancia/Similitud

Es una matriz de tringulo inferior que contiene las distancias en direccin pareada entre los objetos o casos. Pasos del Anlisis de Conglomerados

El primer paso consiste en formular el problema de agrupacin al definir las variables en las que se basa sta. Despus, debe seleccionarse una medida de distancia apropiada. La medida de distancia determina cmo de similares o diferentes son los objetos que se agrupan. Posteriormente, debe seleccionarse un procedimiento de agrupacin. Se dispone de varios, pero es labor del

investigador elegir aqul que mejor se ajuste al problema de investigacin propuesto. La decisin del nmero de conglomerados requiere del criterio del investigador. Los conglomerados obtenidos deben interpretarse en trminos de las variables sobresalientes adicionales. Por ltimo, es preciso que el investigador evale la validez del proceso de conglomerados. 1. Formulacin del Problema Quiz la parte ms importante de la formulacin del problema del AC sea la seleccin de las variables en las que se basa la agrupacin. La inclusin de una o ms variables irrelevantes puede distorsionar una solucin de agrupacin que de otra forma podra ser til. Bsicamente, el conjunto de variables seleccionado debe describir la similitud entre los objetos en trminos relevantes para el problema de investigacin de mercados. Las variables deben seleccionarse con base en la investigacin previa, la teora o una consideracin de las hiptesis que se prueban. En la investigacin exploratoria, el investigador debe poner en prctica el criterio y la intuicin. 2. Seleccin de una Medida de Similitud Ya que el objeto del conglomerado es agrupar objetos similares, se necesita alguna medida para evaluar las diferencias y similitudes entre objetos. El concepto de similaridad es fundamental en el Anlisis Cluster. La similaridad (similitud) es una medida de correspondencia o semejanza entre los objetos que van a ser agrupados. La estrategia ms comn consiste en medir la equivalencia en trminos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son ms parecidos entre s que aquellos que tienen distancias mayores y se agruparn, por tanto, dentro del mismo cluster. De esta manera, cualquier objeto puede compararse con cualquier otro objeto a travs de la medida de similaridad. En la medicin de la similitud entre los objetos de un AC existen tres mtodos: Medidas de Correlacin

Medidas de Distancia Medidas de Asociacin

Cada uno de estos mtodos representa una particular perspectiva de la similitud, dependiendo tanto de los objetivos como del tipo de datos. Las medidas de correlacin y las de distancia requieren datos mtricos, mientras que las medidas de asociacin requieren datos no mtricos. Muchos programas informticos han limitado la ayuda para las medidas de asociacin, y el investigador se ve forzado con frecuencia a calcular primero las medidas de similaridad y despus a introducir la matriz de similaridad dentro de un programa cluster.

3. Estandarizacin de Datos Una vez seleccionada la medida para cuantificar la similaridad entre pares de objetos, el investigador debe plantearse una ltima cuestin... deben estandarizarse los datos antes de calcular las similaridades?. Para poder responder a esta pregunta de forma adecuada, el investigador debe tener en cuenta que la mayora de las medidas de distancia son bastante sensibles a las diferencias de escalas o de magnitudes hechas entre las variables. En general, las variables con una gran dispersin (valores grandes de sus desviaciones tpicas) tienen ms impacto en el valor final de la similaridad. Consideremos como ejemplo que se quieren agrupar las individualidades de una serie de personas en tres variables, que son: actitud frente a un producto, edad e ingresos. Se supone que medimos la actitud en una escala de siete puntos de gusto-disgusto, mientras que la edad se meda en aos y los ingresos en dlares. Si representamos los resultados obtenidos de la pertinente encuesta en un grfico tridimensional, la distancia entre los puntos (y sus similaridades) estaran basadas casi totalmente en las diferencias de ingresos. La explicacin es bien sencilla, mientras que las posibles diferencias de actitud frente al producto se encuentran en un rango de actitudes que va de uno a siete, las producidas en los ingresos pueden tener un rango cien veces mayor. De este modo, no seramos capaces (grficamente) de observar ninguna diferencia en la dimensin asociada a la actitud frente al producto. Por este motivo, el investigador debe ser consciente del peso implcito de las variables que participan en el estudio de investigacin. La forma ms comn de estandarizacin es la conversin de cada variable en puntuaciones tpicas (tambin conocidas como puntuaciones Z). La forma de clculo es que se resta a cada observacin de cada variable su media correspondiente y se divide el resultado de esta operacin por la desviacin tpica (estndar) de la variable en cuestin. Este proceso convierte la puntuacin de cada dato original en un valor estandarizado con una media de cero y una desviacin tpica de uno. En definitiva, lo que se consigue con ello es eliminar, uno por uno, los prejuicios introducidos por las diferencias en las escalas de los distintos atributos (variables) usados en el anlisis. 4. Supuestos del Anlisis El AC es un objetivo metodolgico para cuantificar las caractersticas de un conjunto de observaciones. Por ello, tiene fuertes propiedades matemticas, pero no fundamentos estadsticos. Los requisitos de normalidad, linealidad y homocedasticidad (tan relevantes en otras tcnicas), tienen poca consistencia en el AC.

El investigador debe, sin embargo, centrar su atencin en otras dos cuestiones esenciales para este tipo de anlisis, como son: la representatividad de la muestra y la multicolinealidad. En muchas ocasiones se dispone de un censo de poblacin para hacer uso del anlisis cluster. Se obtiene entonces una muestra de casos y se espera que los cluster obtenidos de ella sean representativos de la estructura de la poblacin original. El analista debe tener siempre presente que el anlisis cluster ser tan bueno como lo sea la representatividad de la muestra. As, todos los esfuerzos deben centrarse en asegurar esa representatividad, para que los resultados puedan ser generalizables a la poblacin de inters. La multicolinealidad era un resultado en otras tcnicas multivariantes, ya que se haca difcil diferenciar el verdadero impacto de las variables multicolineales. En el anlisis cluster, en cambio, el efecto es diferente, ya que las variables multicolineales estn ponderadas, implcitamente, de un modo ms severo. Supongamos, por ejemplo, que se agrupan a los encuestados en diez variables relacionadas con un determinado servicio. Al examinar la multicolinealidad, apreciamos que realmente hay dos grupos de variables claramente diferenciados. El primero est compuesto por ocho elementos (variables) y el segundo de los dos restantes. Si lo que pretendemos es agrupar realmente a los encuestados en las dimensiones del servicio analizado (en este caso representado por los dos grupos de variables), no podremos considerar a las diez variables como un todo, ya que eso significara ponderar equitativamente cada variable. Es decir, al ponderar el anlisis cluster uniformemente cada variable, la primera dimensin tendra cuatro veces ms oportunidades (ocho tems frente a dos) de afectar a la medida de similaridad de las que tendra la segunda dimensin. As, el acto de la multicolinealidad es un proceso de ponderacin oculto al observador, pero que afecta, sin embargo, al anlisis. Por esta razn, el analista debe fomentar el estudio exhaustivo de las variables utilizadas en el anlisis cluster para poder hallar as la posible multicolinealidad. Si se encuentra multicolinealidad en las variables empleadas para el estudio, habr que conseguir igual nmero de ellas en cada conjunto o usar una de las medidas de distancia, como la Distancia de Mahalanobis, para compensar la correlacin existente descubierta. Una vez seleccionadas las variables y calculada la matriz de similaridades, comienza el proceso de particin. Primeramente el investigador debe seleccionar el algoritmo de agrupacin que se va a emplear para formar los clusters (grupos) y posteriormente tomar la decisin sobre el nmero de grupos que se quieren formar.

Ambas decisiones tienen substanciales implicaciones no solamente en los resultados que se obtengan, sino tambin en la interpretacin que pudiera derivarse de ellos. 5. Seleccin del Procedimiento de Agrupacin Hay dos tipos de procedimientos: los jerrquicos y los no jerrquicos. El conglomerado jerrquico se caracteriza por el desarrollo de una jerarqua o estructura en forma de rbol. Una caracterstica importante de los procedimientos jerrquicos es que los resultados de la primera etapa pueden estar anidados con los resultados de la ltima etapa, dando lugar a una similaridad parecida a la de un rbol. Por ejemplo, la solucin del cluster seis se obtienen gracias a la unin de dos de los clusters encontrados en la fase siete del cluster. De este modo, los clusters estn formados solamente por la unin de los grupos existentes, as cualquier miembro de un cluster puede trazar su relacin en un irrompible sendero que comenzara con una simple relacin. Los mtodos jerrquicos pueden ser por Aglomeracin o por Divisin. El conglomerado por aglomeracin empieza con cada objeto en un grupo separado. Los conglomerados se forman al agrupar los objetos en conjuntos cada vez ms grandes. Este proceso contina hasta que todos los objetos formen parte de un solo grupo. El conglomerado por divisin comienza con todos los objetos agrupados en un solo conjunto. Los conglomerados se dividen hasta que cada objeto sea un grupo independiente. Dentro de los conglomerados por aglomeracin, se encuentran los mtodos de conglomerados, que se utilizan con frecuencia en la investigacin de mercados. Consisten en mtodos de Enlace, mtodos de Varianza o de sumas de los cuadrados del error y el mtodo Centroide. Los Mtodos de Enlace incluyen el enlace sencillo, el completo y el promedio. El mtodo de enlace sencillo se basa en la distancia mnima o la regla del vecino ms prximo. Los primeros dos objetos conglomerados son aquellos que tienen la menor distancia entre s. La siguiente distancia ms corta se identifica, ya sea que el tercer objeto se agrupe con los dos primeros o que se forme un nuevo conglomerado de dos objetos. En cada etapa, la distancia entre dos conglomerados es la distancia entre sus dos puntos ms prximos.

En cualquier etapa, dos conglomerados surgen por el enlace sencillo ms corto entre stos. Este proceso contina hasta que todos los objetos se encuentren en un conglomerado. El mtodo del enlace sencillo no funciona adecuadamente cuando los conglomerados no estn bien definidos. El mtodo del enlace completo es similar al enlace sencillo, excepto que se basa en la distancia mxima o la estrategia del vecino ms lejano. En este caso, la distancia entre dos conglomerados se calcula como la distancia entre sus puntos ms lejanos. El mtodo del enlace promedio funciona de manera similar, pero en este mtodo, la distancia entre dos conglomerados se define como el promedio de las distancias entre todos los pares de objetos, donde se encuentra un miembro del par de cada uno de los conglomerados (Vase Figura Mtodos de Enlace para el Conglomerado). Como puede apreciarse, el mtodo del enlace promedio emplea la informacin sobre todos los pares de distancias, no slo las mnimas o mximas. Por esta razn, generalmente se prefiere a los mtodos de enlace sencillo y completo. Los Mtodos de Varianza tratan de generar conglomerados a fin de reducir la varianza dentro de los grupos. Un mtodo de la varianza que se utiliza con frecuencia es el Procedimiento de Ward. Para cada conglomerado, se calculan las medias para todas las variables. Despus, para cada objeto, se calcula la distancia euclidiana cuadrada para las medias de los grupos (Figura Otros mtodos de

Agrupacin por Aglomeracin); estas distancias se suman a todos los objetos. En cada etapa, se combinan los dos conglomerados con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados.

En el Mtodo Centroide, la distancia entre dos grupos es la distancia entre sus centroides (medias para todas las variables), como se muestra en la Figura Otros mtodos de Agrupacin por Aglomeracin. Cada vez que se agrupan los objetos, se calcula un centroide nuevo. De los mtodos jerrquicos, el mtodo de Enlace Promedio y el Procedimiento de Ward han demostrado un mejor desempeo que los otros. El segundo tipo de procedimientos de conglomerados, los mtodos de conglomerados no jerrquicos, con frecuencia se conocen como Agrupacin de K Medias. Estos mtodos incluyen el Umbral Secuencial, Umbral Paralelo y la Divisin para la Optimizacin. En el mtodo del Umbral Secuencial, se selecciona un centro de grupo y se agrupan todos los objetos dentro de un valor de umbral que se especifica previamente a partir del centro. Despus, se selecciona un nuevo centro o semilla de grupo y el proceso se repite para los puntos sin agrupar. Una vez que un objeto se agrupa con una semilla, ya no se considera para su conglomerado con semillas subsecuentes. El mtodo del Umbral Paralelo funciona de manera similar, excepto que se seleccionan simultneamente varios centros de grupo y se agrupan los objetos del nivel del

umbral dentro del centro ms prximo. El mtodo de Divisin para la Optimizacin difiere de los otros dos procedimientos de umbral en que los objetos pueden reasignarse posteriormente a otros grupos, a fin de optimizar un criterio general, como la distancia promedio dentro de los grupos para un nmero determinado de conglomerados. Existen dos formas bsicas de conocer el modo de agrupacin de los objetos en cuestin: Grfico de Carmbanos Sus columnas corresponden a los objetos que se agrupan (entrevistados,...) y las filas al nmero de grupos. Esta figura se lee de abajo hacia arriba. Inicialmente todos los casos se consideran como grupos individuales. En el primer caso, se combinan los dos objetos ms cercanos. Cada paso subsecuente lleva a la formacin de un nuevo grupo en una de las siguientes tres formas: (1) se agrupan dos casos individuales, (2) un caso se une a un grupo ya existente, (3) se unen dos grupos.

Dendrograma Se lee de izquierda a derecha. Las lneas verticales representan los grupos unidos. La posicin de la lnea en la escala indica las distancias en las que se unen los grupos. Debido a que, en las primeras etapas, muchas distancias tienen magnitudes similares, es difcil determinar la secuencia en la que se forman algunos de los primeros conglomerados. Sin embargo, es evidente que en las ltimas dos etapas, las distancias en las que se combinan los conglomerados son grandes. Esta informacin es til para decidir el nmero de conglomerados.

Tambin es posible obtener informacin sobre la participacin de los conglomerados de los casos si se especifica el nmero de grupos. Aun cuando esta informacin puede deducirse del trazo de carmbano, resulta til una representacin tabular. Mtodos Jerrquicos y No Jerrquicos 6. Decisin del Nmero de Conglomerados

Un gran problema en todas las tcnicas de aglomeracin es cmo seleccionar el nmero de grupos (clusters). Desgraciadamente, no existe un proceso objetivo de seleccin. Para el caso del anlisis cluster jerrquico, las distancias existentes entre los clusters reflejadas en las distintas etapas del proceso de aglomeracin pueden servirnos de gua til, el analista podra as establecer un tope para detener el proceso a su conveniencia (esta informacin puede obtenerse del programa de aglomeracin o del dendrograma). Por ejemplo, podra hacerlo cuando la distancia entre los grupos exceda un valor especfico o cuando las distancias sucesivas entre los pasos marquen un repentino salto. Sin embargo, la opcin ms utilizada es calcular distintas soluciones de aglomeracin (dos, tres, cuatro grupos, por ejemplo) para despus decidir entre las soluciones alternativas con ayuda de un criterio prefijado de antemano, del sentido comn, o de fundamentos tericos. Estas distancias reciben a menudo el nombre de medidas de variabilidad del error. Para el caso del anlisis cluster no jerrquico, se puede trazar un grfico que compare el nmero de grupos con la relacin entre la varianza total de los grupos y la varianza entre los grupos. El punto del grfico donde se presente un recodo o doblez marcado indicar el nmero apropiado de grupos. Por lo general, no merecer la pena aumentar el nmero de grupos ms all de este punto. Otra posibilidad para decidir el nmero ptimo de grupos es definir algn tipo de conceptualizacin intuitiva de la relacin terica de los datos. Los investigadores deben examinar la variacin producida entre los tamaos de los grupos desde una perspectiva conceptual, comparando los resultados obtenidos con las expectativas creadas en los objetivos del estudio. Otro problema que puede presentarse en este tipo de anlisis es la presencia de grupos unipersonales, es decir, clusters formados por un solo individuo. Son un problema porque podran ser outliers (valores atpicos) no detectados en el proceso de depuracin de nuestra fuente de datos. Si aparece un grupo de un solo miembro, el analista debe estudiar si representa un componente estructural vlido en la muestra o si, por el contrario, debiera suprimirse por no ser representativo. Si se suprime del anlisis alguna observacin, el investigador deber ejecutar de nuevo el anlisis cluster para las nuevas observaciones vlidas y conseguir as definir nuevos grupos. 7. Interpretacin y Elaboracin del Perfil de los Cluster La interpretacin y el perfil de los grupos comprende el anlisis de los centroides de grupo. Los centroides representan los valores medios de los objetos que contiene el grupo en cada una de las variables. Los centroides nos permiten describir cada grupo al asignarle un nombre o etiqueta. Si el programa de conglomerado no ofrece esta informacin, puede obtenerse por medio del anlisis discriminante.

El objetivo de esta etapa es, esencialmente, examinar la variacin de los clusters para asignar etiquetas que describan de un modo veraz su naturaleza. Resulta til elaborar el perfil de los grupos en trminos de las variables utilizadas para el conglomerado, como los datos demogrficos, los psicogrficos, uso del producto, uso de los medios u otras variables. Consideremos un ejemplo para poder comprender mejor el funcionamiento del proceso. Supongamos que estamos interesados en estudiar la dieta eficaz contra la ingesta regular de bebidas ligeras. Para ello, se confeccion una escala de evaluacin de la actitud del encuestado que se compona de siete aseveraciones diferentes. De este modo, los individuos entrevistados arrojaron valores de 1 a 7 puntos. Las afirmaciones que formaban parte de la escala de siete puntos eran del tipo: las bebidas ligeras dietticas saben ms fuerte, las bebidas dietticas son ms sanas, etc. Se convino en recoger los datos demogrficos y los datos de consumo de bebidas refrescantes por su relevancia para el estudio planteado. Como se dijo anteriormente, en esta fase se examinan los promedios de la puntuacin de los perfiles. Para nuestro caso concreto, basndonos en la escala de actitud diseada para cada grupo y poder asignar de esta manera una etiqueta descriptiva a cada uno de ellos. Supongamos que dos de los grupos resultantes del anlisis cluster tuvieran actitudes favorables hacia las bebidas dietticas ligeras y un tercer grupo actitudes negativas. Se podra manejar la posibilidad de que, de los dos grupos favorables en actitud, uno de ellos fuera favorable slo hacia las bebidas dietticas ligeras y el otro favorable tanto hacia refrescos ligeros como hacia refrescos normales. Evaluaramos entonces las actitudes de cada cluster y desarrollaramos interpretaciones substantivas para facilitar el etiquetado de cada grupo. Por ejemplo, uno de los cluster podra etiquetarse como individuos conscientes de la salud y las caloras y el otro como individuos indiferentes a una subida de azcar. Con respecto al perfilado de los conglomerados o grupos, cabe decir que no es ms que la descripcin de las caractersticas de cada cluster para explicar como podran inferir en dimensiones relevantes. Para conseguir esto, se recurre normalmente al empleo del Anlisis Discriminante o a algn otro estadstico apropiado. El analista utiliza los datos no incluidos previamente en el procedimiento de aglomeracin para perfilar las caractersticas de cada cluster. Estos datos suelen ser caractersticas demogrficas, perfiles psicogrficos, pautas de consumo, etc. Aplicando este proceso y extrapolndolo al ejemplo de las bebidas concluiramos que el cluster individuos conscientes de la salud y las caloras radica en una mejor educacin o en mayores ingresos profesionales al ser consumidores moderados de bebidas refrescantes. En resumen, el anlisis de perfiles se enfoca a describir no a lo que determinan directamente los clusters

sino (una vez se han determinado los distintos grupos) a sus caractersticas propias. Por ello, se hace especial nfasis en las caractersticas que definen los grupos y en la capacidad de los miembros de cada conglomerado para predecir una actitud particular del cluster en cuestin. 8. Validacin de Conglomerados Obtenidos Dados los criterios generales que comprende el AC , no debe aceptarse ninguna solucin de agrupacin sin una evaluacin de su confianza y validez. La validacin es el intento por parte del analista de asegurar que los clusters obtenidos sean representativos de la poblacin original y que sean generalizables a otros objetos y estables a lo largo del tiempo. Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los resultados de la agrupacin: Realizar el AC con los mismos datos y utilizar distintas medidas de distancia. Comparar los resultados con todas las medidas a fin de determinar la estabilidad de las soluciones.

Utilizar diversos mtodos de conglomerado y comparar los resultados. Dividir los datos a la mitad de forma aleatoria. Realizar el AC por separado en cada mitad (submuestra). Comparar las soluciones de los dos anlisis y evaluar la correspondencia de los resultados o bien comparar los centroides de grupo de las dos submuestras.

Eliminar las variables de forma aleatoria. Realizar la agrupacin basndose en el conjunto reducido de variables. Comparar los resultados basados en el conjunto completo con los que se obtuvieron al realizar el conglomerado.

En el conglomerado no jerrquico la solucin puede depender del orden de los casos en el conjunto de datos. Para estudiar sto, es recomendable llevar a cabo corridas mltiples y utilizar distintos rdenes de los casos hasta estabilizar la solucin.

1.2 Definicin de Variables

Se define como variables la propiedad que puede variar y cuya variacin es susceptible de medirse. Ejemplos: sexo, motivacin hacia el trabajo, personalidad, exposicin a una campaa, calidad del servicio.

En el trabajo con formulaciones hipotticas resulta de vital importancia la definicin del tipo de relaciones que se establecen entre las variables, puesto que la verificacin depende del grado en que se puedan demostrar esas relaciones. Esto exige mucha precisin en el uso de los trminos lgicos que enlazan a las variables, ya que una expresin mal utilizada puede desvirtuar completamente el sentido de la formulacin.

Las relaciones entre variables pueden clasificarse como sigue:

1.

Reversible: si X, entonces Y, y si Y entonces X,

o irreversible: si X, entonces Y, pero si Y, no hay conclusin respecto a X. 2. Determinista: si X, entonces siempre Y, o estocstica: si X, entonces probablemente Y. 3. Secuencial: si X, entonces ms tarde Y, o coexistente: si X, entonces tambin Y. 4. Suficiente: si X, entonces independientemente de otra cosa, Y, o contingente: si X, entonces Y, pero solo si Z. 5. Necesaria: si X, y solo X, entonces Y, o sustituible: si X, entonces Y, pero si Z, tambin Y. 6. Interdependiente: cuando en la relacin se combinan los atributos de reversibilidad, contingencia y secuencialidad, por ejemplo: si X, vara a Xi, Xii, Xiii...., entonces Y vara tambin a Yi, Yii, Yiii...., etctera. Una vez que se han establecido con precisin las relaciones entre las variables, es preciso realizar su operacionalizacin, o sea, identificar las dimensiones, indicadores, escalas y categoras con las que puede constatarse la presencia de la variable que interesa medir. En la teora investigativa se han definido tres tipos de variables, que corrientemente aparecen en los diseos hipotticos: variables dependientes, independientes y ajenas. No creemos necesario profundizar sobre las caractersticas de cada una, an cuando abundan los ejemplos en que se confunde la relacin entre las dos primeras o no se toman en consideracin las que actan paralelamente a la relacin principal.

En cualquier variable se pueden distinguir dimensiones cuantitativas y cualitativas. Las dimensiones de las variables tambin pueden ser espaciales y temporales. Otro tipo de dimensiones son las contextuales y situacionales, adems las dimensiones de la variable pueden ser individuales y grupales. Este asunto requiere de un profundo anlisis previo del objeto de estudio, para que puedan establecerse con exactitud todas las dimensiones e indicadores que identifican a la variable seleccionada. A partir de aqu podr elaborarse una hiptesis slida y verificable. En el siguiente esquema se presenta el anlisis de las dimensiones posibles para dos variables seleccionadas en un ejemplo de un grupo de estudiantes, donde se seleccionan el Rendimiento y la Disciplina escolar: Dimensiones Cuantitativa Cualitativa Objetiva Subjetiva Rendimiento Porcentaje de aprobados Calidad de las calificaciones Calificaciones Criterios sobre el redimiento (de los maestros, alumnos, padres, funcionarios y otros). En los exmenes, trabajos de clase, tareas extraclase y otros. Semanal, mensual, semestral, curso escolar, carrera, etc. En ejercicios programados o sorpresivos. En los controles Disciplina Cantidad de hechos Trascendencia, magnitud Sanciones y estmulos Criterios sobre la disciplina (de los maestros, alumnos, padres, funcionarios y otros). En el aula, taller, rea de deportes, biblioteca y otros. Semanal, mensual, semestral, curso escolar, carrera, etc. Bajo control del docente, o de otras personas. En las actividades docentes,

Espaciales

Temporales

Contextual

Situacional

Individual

Grupal

parciales, finales o de selectividad. Rendimiento individual, por asignatura, perodo y curso. Rendimiento grupal, por asignatura, perodo y curso.

extradocentes, recreativas, etc. Cumplimiento individual de las normas disciplinarias. Cumplimiento individual de las normas disciplinarias.

A partir de estos elementos estudiados se procede a la seleccin o definicin de variables, para ello se consultaron diversas bibliografas. Atendiendo a la relacin existente con la investigacin que se realiza y los elementos finales que perseguimos se seleccion un estudio realizado por Guimaraes, Sandy y McKeen (2003) para el Quality Managetmen Journal Vol.10. Issue4. October 2003, titulado "Comprobacin emprica de algunos factores relacionados con el desarrollo de sistemas de calidad", en el cual se realiza un profundo estudio con datos de ms de 228 sistemas de calidad para seleccionar variables que inciden en la calidad del servicio por ellos seleccionado, teniendo en cuenta los aspectos all tratados y tomados como base fundamental para la determinar las variables de esta investigacin se han definido como variables para realizar el Anlisis de Conglomerados las siguientes:

Cantidad de Auditoras que se realizan : Esta variable indica la cantidad de Auditoras realizadas por cada territorio teniendo en cuenta la dimensin de los mismos y sus caractersticas territoriales.

Cantidad de auditores con que cuenta el sistema: Nos permite saber los Recursos Humanos con que cuenta el sistema en los diferentes territorios, indica adems el dficit o satisfaccin de las necesidades de Recursos Humanos implicados en la prestacin del servicio.

Calificacin de los Auditores: Es la experiencia adquirida del proveedor del servicio, no todos los proveedores tienes la misma capacitacin. La experiencia del proveedor es obtenida a travs del adiestramiento en la preparacin de las tareas que deben realizar y en la ejecucin de las mismas.

Caractersticas del sistema empresarial: El sistema empresarial de los territorios puede ser homogneo o heterogneo, dependiendo de las caractersticas y el desarrollo de cada territorio esto implica que el servicio de Auditora que se presta sea diferente en cuanto a cantidad de Auditoras a realizar, el nmero de auditores implicados, los recursos que se comprometen, el tiempo de ejecucin de Auditoras, recalificacin y formacin de los Recursos Humanos.

Bibliografa:

Aiteco Consultores, http://www.aiteco.com/

Mtodos

Herramientas.

Disponible

en:

Barredo Prieto, Manuel. Filosofas de Calidad. Disponible en: www.monografias.com/trabajos15/filosofias-calidad/filosofias-calidad.shtml Benitez Miranda, Miguel Angel, Miranda Dearubas, Mara Victoria. Contabilidad y Finanzas para la formacin econmica de los cuadros de direccin /Angel Miguel Benitez Miranda, Maria Victoria Mirandas Dearubas. -Ministerio de la Industria Ligera, 1997. Blzquez Moral, Juan. Auditora. Juan Blzquez Moral. Editorial Nacional de Cuba, La Habana, 1965 Bolten, Steven E. Administracin Financiera. E. Steven Bolten. Editorial Limusa S.A. Balderas. Universidad de Houston. Mxico. DF, 1995. Cant. Desarrollo de una cultura de Calidad. Cant, H.D., Mc Graw_Hill. 2001. Colectivo de autores. CECOFIS. Diplomado en Auditora General. Manual de autoestudio. Tomo 1 y 2 del 2001 _______, Principios de la Auditora. Ciudad de La Habana. Cuba. _______, Regulaciones sobre Normas de Auditora. Oficina Nacional de Auditora. Cuba, 1999. Coln, Leticia. Las normas ISO 9000-2000 de Sistemas de Gestin de la Calidad Cook, John W. y Winkle, Gary M. Auditora, 3 Edicin, McGRAW-HILL, Buenos Aires-Argentina, 1987.

Cospin, M Oswaldo. 7 Herramientas bsicas para el control de calidad. Disponible en: www.monografias.com/trabajos7/herba/herba.shtml. De Miranda, Antonio; Torras, Oscar. Auditora de las empresas socialistas/ Antonio de Miranda, Oscar Torras. Universidad de la Habana. La Habana, 1974. Decreto Ley # 159 de Auditora. Oficina Nacional de Auditora. Cuba , 1995. Echevarra Hernndez, Rogelio. La Auditora Interna. Rogelio Echevarria Hernandez. Ministerio de Finanzas y Precios, 1994. Evans, James R. y Lindsay, William M. La Administracin y el Control de la Calidad. International Thomson Editores. Mxico, 2000 GestioPolis.com. Normas de calidad. Disponible en: www.gestiopolis.com/recursos/documentos/fulldocs/ger/normascalidad.htm Gmez Avils, Bismayda. Gestin de la calidad. Conceptos, terminologa y enfoques. Cuba, 2002 .. Guimaraes, Sandy y McKeen(2003) QMJ Vol.10 Issue 4. October 2003. Heckmann, Gerardo.Medicin de la Calidad de los Servicios, disponible en www.cema.edu.ar/postgrado/download/tesinas2003/MADE_Weil.pdf Hernndez, Hugo. Generaciones de la calidad. Disponible en: www.monografias.com/trabajos13/genecal/genecal.shtml Holmes, Arthur W.: Auditora: principios y procedimientos. W Arthur Holmes. Editorial Hispanoamrica. Mxico.1952 Internetworking Technologies Handbook. Captulo 49. Quality of Service Networking. ISO 9000- 2000. Sistemas de gestin de la calidad. principios y vocabulario. Juran, Joseph Moses. Manual de Control de la Calidad. Joseph Moses Juran. Graw_Hill. 5. Edicin. 2001. La Pgina de la Calidad. Las 7 Herramientas de la Calidad. Disponible en www.calidad.com.ar/calid112.html. Len Lefcovich, Mauricio. Kaizen La Mejora Continua aplicada en la Calidad, Productividad y Reduccin de Costos. Disponible en: www.monografias.com/trabajos14/kaizencostos/kaizencostos.shtml Mendoza Aquino, Jos Antonio. Medicin de la calidad del servicio. Disponible en: www.monografias.com/trabajos12/calser/calser.shtml Microsoft Corporation. Resumen de los mecanismos de QoS y cmo interoperan, 2004. Ministerio de Auditoria y Control. Manual del MAC. 2000 Moreno, Joaqun. Las Finanzas en la empresa. Cuarta Edicin. Mxico, 1989. Paton, W.A. Manual del contador. W. A. Paton. Mxico Utecha, 1943. Poblete, Fernando. Normas de Auditoria. Disponible en: www.eduardoleyton.com Pons Murgua, Ramn. Notas de clase Maestra Ing. Industrial. Conferencias impartidas por Dr. C. Ramn Pons Murgua Resolucin No. 2/97, Oficina Nacional de Auditora. Cuba, 1997 Revista " Auditoria y Control" Ministerio de Auditoria y Control.No 4 del 2001

Revista Auditoria y Control Ministerio de Auditoria y Control.No 8 Abril 2003 Revista Auditoria y Control Ministerio de Auditoria y Control. Volumen I, No 3. Edicin. Sanguinetti, Corabel. Anlisis y Diseo de Sistema. Disponible en: www.monografias.com/trabajos14/analisis-sistemas/analisis-sistemas.shtml Universitas Miguel Hernndez. Herramientas de la Calidad, disponible en: http://calidad.umh.es/es/herram.htm Vilar Barrio, Jos Francisco. Las 7 nuevas herramientas para la mejora de la calidad, 2 edicin. Weston, J. Fred y Capeland, Thomas E. Finanzas y Administracin. Novena Edicin. Mxico, 1996. Zabaro Babani, Len. Auditora y Control. Leon Zabaro Babani. Septiembre Diciembre, 2000. www.gestiopolis.com/recursos/documentos /archivodocs/degerencia/gerno2/herrbasisolprob.htm

Potrebbero piacerti anche