Introdução a Mineração de Dados Parte 3 – O Algorítimo de Cluster

Segue a terceira parte da tradução dos artigos do Daniel Calbimonte publicados originalmente no site SQLServerCentral.com, o original você pode encontrar AQUI.

Let´s go 😉

Essa é a parte 3 da série sobre Mineração de Dados. Se você procurar a parte 1 e a parte 2, você pode achar aqui:

No último capitulo, eu falei sobre o algorítimo da árvore de decisão. A árvore de decisão é o primeiro algoritmo que nós usamos para explicar o comportamento dos clientes usando Mineração de Dados.

Encontramos e prevemos alguns resultados usando esse algoritmo, mas as vezes há melhores algorítimos para prever o futuro.

3-1

Neste novo artigo eu vou introduzir um novo algorítimo.

Algorítimo Microsoft Cluster

O algorítimo Microsoft Cluster, é uma técnica de agrupar o objeto estudado de acordo com diferentes padrões. Ele é diferente da Árvore de Decisão por que a Árvore  de Decisão usa ramos para classificar a informação. O Microsoft Cluster é uma técnica de  segmentação que divide os clientes em diferentes grupos. Esses segmentos não são intuitivos para os seres humanos.

Por exemplo, uma vez que o Algoritimo de Mineração de Dados detecta que um jovem costuma comprar cerveja e fralda no supermercado. Ele vai agrupar os clientes de acordo com características diferentes, como idade, salário, número de carros, etc.

3-2

A figura acima mostra um cluster. É um segmento de 7 clientes agrupados.

Neste tutorial nós vamos criar um algorítimo de cluster que cria diferentes grupos de pessoas de acordo com suas caracteristicas. A imagem abaixo é uma amostra de grupos.

3-3

Você pode está se perguntando. Quando eu devo usar a árvore de decisão e quando eu devo usar o algorítimo de cluster ? Há um gráfico de precisão bom que o SQL Server Analysis Services (SSAS) utiliza para medir isso. Vou explicar esse gráfico em outro artigo.

Agora vamos começar a trabalhar com o algorítimo de cluster e verificar como ele funciona.

Requisitos

Para esse exemplo, eu vou usar o projeto do AdventureWorks Multidimensional e o banco de dados do AdventureWorksDW. Você pode fazer o download do projeto e do banco de dados aqui:

http://msftdbprodsamples.codeplex.com/releases/view/55330

Começando

Abra o projeto Multidimensional do AdventureWorksDW. Se não estiver processado, processe.

3-4

Abra o TargetedMailing.dmm

3-5

Neste exemplo, nós vamos trabalhar com a estrutura do TargetedMailing.dmm. Duplo clique. Agora clique em na aba Mining Models e você terá algo como a imagem abaixo.

3-6

Em Mining Models, contém todos os modelos usados para simular o comportamento do cliente. Neste exemplo nós usamos a árvore de decisão (explicado na parte 3 dessa série). As árvores de decisão e o cluster recebe as mesmas informações. Essa informação é a view chamada vTargetMail. Essa view contem informações sobre o cliente como o e-mail, nome, idade, salário e assim por diante.

Na parte 1 do tutorial na seção Data Mining Model você encontra os passos para criar uma estrutura de Data Mining. Essa estrutura pode ser usada por outros algorítimos. Em outras palavras, uma vez que você você já criou uma estrutura nos modelos, você não precisa criar novamente.

Neste exemplo, o algorítimo de Cluster já está criado. Se ele não foi criado, você pode criar um modelo clicando no ícone relacionado.

3-7

Você apenas precisa especificar o nome e escolher o algorítimo. Nesse caso, escolho Microsoft Clustering. Note que você não precisa especificar valores de entrada e previsão, por que isso já foi feito quando criamos o modelo na parte 1 e 2 dessa série.

3-8

Você vai receber a mensagem para reprocessar o modelo, pressione em Yes.

3-9

Na próxima janela pressione Run para processar o modelo.

3-10

Uma vez finalizado, a estrutura de Mineração irá mostrar a hora de inicio e a duração do processo.

3-11

Vá agora na aba Mining Model Viewer e selecione MyClusterModel para visualizar o algorítimo de cluser. Como você pode ver, é um algorítimo que cria grupos diferentes para todos os clientes. Os grupos são denominados de grupo 1, grupo 2 e assim por diante. Os clusters criam grupos de pessoas baseados em suas características.

Por exemplo o cluster 1 contém as pessoas da Europa com salário entre 10000 e 35000 $us enquanto no cluster 2 contém pessoas da América do Norte com salário entre 40000 e 17000000 $us. Na imagem abaixo você pode

3-12

Existem diferentes cores para os nós. As cores mais escuras são usadas para clusters de maior densidade. Nesse caso, as cores correspondem à População. Ele é a variável sombreamento. Você pode alterar a variável de sombreamento e as cores mudam de acordo com o valor selecionado.

Se você clicar nos perfis de fragmentação, você vai encontrar as diferentes variáveis e da população para cada cluster. A população total é de 18484. O cluster 1 é o aglomerado mais populoso e o cluster 2 é a segundo. Em outras palavras, os números agregados são agrupados de acordo com a população

3-13

As variáveis mostram características dos clientes, como a idade, salário e você pode encontrar a população com cores diferentes para cada característica. Você pode encontrar mais informações interessantes aqui.

3-14

Você também pode clicar na aba Cluster Characteristics  e localizar as características por cluster. Nesse exemplo, nós vamos selecionar o cluster 1.

3-15

No cluster 1 a principal característica é que as pessoas são da Europa. Isso significa que um segmento importante de pessoas que compram motos são europeus. A segunda característica é a receita anual. temos o salário que é realmente importante.

Note e compare a informação a partir da árvore de decisão (no tutorial  2)  e do cluster. As informações fornecidas são realmente diferentes. Nós não podemos dizer que a informação da árvore de decisão é melhor do que o modelo do cluster. Podemos dizer que a informação é complementar.

Temos também a aba Cluster Discrimination. Com essas informações você pode encontrar visualmente as diferenças entre os dois clusters. Por exemplo, selecione o Cluster 1 e o Cluster 2.

3-16

 

Como pode ver a renda anual é uma grande diferença entre os dois clusters. O cluster 2 ganha mais dinheiro do que o cluster 1. O mesmo para a região, o cluster 2 não vive na Europa como o cluster 1. Eles são principalmente americanos e ganham mais dinheiro.

Como você pode ver, você pode trabalhar com diferentes promoções para os diferentes grupos com estratégias específicas.

Finalmente vamos prever a probabilidade do cliente comprar uma moto. A seção de previsão é a mesma que as árvores de decisão. Podemos dizer que o Data Mining poderia ser usado como uma caixa preta para prever as probabilidades. Neste exemplo, vamos encontrar a probabilidade do cliente comprar uma moto.

Clique na aba Mining Model Prediction. Em Mining Model, pressione o botão Select Model.

3-17

Em Select Mining Model, selecione o modelo criado no inicio do artigo  (MyClusterModel)

3-18

Eu não vou explicar em detalhes os passos para selecionar a Singleton Query por que eu já expliquei na parte 1, em “prevendo o futuro”.

Na parte 1 nós usamos o algorítimo da árvore de decisão para prever o comportamento de um cliente com características específicas para comprar uma moto.

Neste exemplo vamos repetir os mesmos passos, mas usando o novo modelo de cluster criado. Na etapa 7 vamos usar diferentes características.

3-19

O que estamos fazendo aqui é questionar  ao algorítimo de cluster a probabilidade de alguém que viaje uma distancia de 5 a 10 milhas com ensino médio, do sexo feminino, proprietário de uma casa, solteira com 3 carros, uma criança e trabalha na América do Norte para comprar uma casa. Estamos usando o modelo de cluster chamado MyClusterModel criado e nós estamos usando a função PredictHistogram, a função retorna 0 e 1

Nós vamos ver finalmente os resultados da consulta.

3-20

Nos resultados nós vamos que a probabilidade de comprar uma moto é de 0,505 (51%) e a probabilidade de que o usuário não vai comprar é de 0,494 (49%)

3-21

 

Conclusão

Neste capitulo nós usamos o novo algorítimo ou método chamado Microsoft Cluster. A maneira que organiza a informação é diferente, mas com a entrada utilizada é a mesma da Árvore de Decisão.

A saída exibida pela Mineração de Dados é a mesma independente do algorítimo usado. Os resultados serão diferentes de acordo com a precisão do algorítimo. Vamos falar sobre a precisão nos últimos capítulos.

Referências

http://msdn.microsoft.com/en-us/library/ms174879.aspx

Imagens

http://userwww.sfsu.edu/art511_h/acmaster/Project1/project1.html

http://www.iglesiadedios.info/maranatha/2012/julio/eligiendo_c01.html

Anúncios
Introdução a Mineração de Dados Parte 3 – O Algorítimo de Cluster

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s