viernes, 19 de septiembre de 2008

Análisis cluster jerárquico y el no jerárquico .

Como preámbulo diremos que el análisis cluster, también conocido como análisis de conglomerados, es una técnica estadística multivariante cuya finalidad es formar grupos a partir de un conjunto de elementos de tal forma que estos grupos estén formados por elementos los más parecidos que sea posible (homogéneos) y a su vez lo más diferentes (heterogéneos) que sea posible entre los grupos. Los elementos en cada grupo (conglomerado) tienden a ser similares entre sí (alta homogeneidad interna, dentro del cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, entre clusters) con respecto a algún criterio de selección predeterminado. Por lo tanto, se convierte en una técnica de análisis exploratorio diseñada para revelar las agrupaciones naturales dentro de un conjunto de datos.

El análisis de cluster se utiliza en marketing para diversos propósitos, entre los que podemos destacar: segmentación del mercado, comprensión del comportamiento del comprador, identificación de oportunidades para productos nuevos, selección de mercados de prueba, reducción de datos, etc.

Como hemos comentado con anterioridad, el objetivo del análisis de cluster es la de agrupar a los individuos por su grado de homogeneidad. Existen distintas clasificaciones de este tipo de modelos, siendo la más usada los modelos jerárquicos frente a los no jerárquicos.

En el análisis de cluster jerárquico, pueden ser por aglomeración o por división, La diferencia entre formar los conglomerados por aglomeración o por división consiste en que el conglomerado por aglomeración empieza con tantos clusters como casos tenga el estudio, a partir de ellos, los conglomerados se empiezan a formar al agrupar los individuos que se asemejan más y así sucesivamente se van haciendo grupos cada vez más grandes y el número de clusters va disminuyendo hasta que se abarca a todas las observaciones en un solo conglomerado (es evidente que las dos decisiones que existen son: la determinación de la medida de distancia o proximidad a usar y el método que determina el modo de unión sucesiva de los distintos grupos entre sí). Por otra parte, en el conglomerado por división se empieza con un solo cluster y se va haciendo la división hasta que cada observación es un grupo independientese parte del número de elementos (países, empresas, individuos, comportamientos, etc.), y a partir de aquí se van uniendo entre sí en función de la mayor o menor proximidad de los elementos entre sí, formando grupos. Éstos a su vez se van uniendo entre sí hasta llegar aún único grupo,. La representación gráfica de este análisis recibe el nombre de dendrograma (ver figura final).

En el análisis de cluster no jerárquico, especialmente indicado para grandes tablas de datos. El objetivo de este análisis, es realizar una sola partición de los elementos en K grupos, lo que implica que previamente se debe fijar el número de grupos, lo que requiere un procedimiento interactivo de prueba y error, siendo esta interactividad el principal problema que presenta el análisis de cluster no jerárquico, así como la principal diferencia con relación al análisis de cluster jerárquico. Esta técnica de análisis multivariante está especialmente indicada para grandes tablas de datos. El gran problema que presentan estos métodos no jerárquicos es que al no generar un dendrograma no permiten hacerse una idea de la representación espacial, la cual suele ofrecer un conocimiento intuitivo de cómo analizar los datos.

En definitiva y de lo dicho hasta ahora, el análisis de cluster no jerárquico tiene dos desventajas importantes respecto a los jerárquicos:

- Que debe especificarse previamente el número de grupos, y
- Que la selección de los centros de cada grupo es arbitraria.

El análisis de cluster no jerárquico es más rápido que el análisis de cluster jerárquico y es apropiado cuando el número de objetos u observaciones es alto. Se ha sugerido que los métodos jerárquicos y no jerárquicos se utilicen uno después del otro para aunar los beneficios propios de cada uno. En primer lugar realizaríamos una clasificación jerárquica (que no necesita de una definición previa del número de grupos) para determinar el número idóneo de grupos, y posteriormente realizaríamos una clasificación no jerárquica (en la que propondríamos el número de grupos), a partir de la información suministrada por el primer método.

blogger templates | Make Money Online