Acessibilidade / Reportar erro

Análise de Clusters na Prática: Lidando com Outliers na Pesquisa Gerencial

RESUMO

Contexto:

nos últimos anos, a análise de clusters tem estimulado os pesquisadores a explorar novas maneiras para entender o comportamento dos dados. A facilidade computacional desse método e sua habilidade de gerar resultados consistentes, mesmo em bases de dados pequenas, explicam isso em certa medida. Entretanto, os pesquisadores frequentemente se equivocam ao sustentar que a clusterização é um território no qual vale tudo. A literatura mostra o oposto: eles têm que ser cuidadosos, especialmente em relação ao efeito dos outliers na formação dos clusters.

Objetivo:

neste artigo tutorial, nós contribuímos para essa discussão ao apresentarmos quatro técnicas de clusterização com suas respectivas vantagens e desvantagens no tratamento dos outliers.

Métodos:

para isso, nós trabalhamos com uma base de dados gerenciais, analisando-a por meio das técnicas k-means, PAM, DBSCAN e FCM.

Resultados:

nossas análises indicam que os pesquisadores têm diferentes técnicas de clusterização ao seu dispor para tratar os outliers adequadamente.

Conclusão:

nós concluímos que os pesquisadores precisam ter um repertório mais diversificado de técnicas de clusterização. Afinal, isso daria a eles duas alternativas empíricas relevantes: escolher a técnica mais apropriada para os objetivos das suas pesquisas ou adotar uma abordagem multimétodo.

Palavras-chave:
análise de clusters; outliers; k-means; DBSCAN; clusterização difusa

Associação Nacional de Pós-Graduação e Pesquisa em Administração Av. Pedro Taques, 294,, 87030-008, Maringá/PR, Brasil, Tel. (55 44) 98826-2467 - Curitiba - PR - Brazil
E-mail: rac@anpad.org.br