Introdução a Mineração de Dados – Parte 2

Dando continuidade a série de traduções de alguns artigos do Daniel Calbimonte publicados originalmente no SQLServerCentral esse é o segundo artigo escrito sobre Mineração de Dados, espero que gostem !

Let´s go.. 😉

Em meu primeiro artigo sobre Mineração de dados, nós falamos sobre Mineração de Dados usando um exemplo clássico chamado de AdventureWorks. Nesse exemplo, eu vou complementar o primeiro artigo e falar sobre árvore de decisão. Vamos a um resumo em algumas palavras sobre como a Mineração de Dados trabalha.

A mineração de dados é um sistema especialista. Ele aprende com a experiencia, a experiencia pode ser obtida a partir de uma tabela, uma view ou um cubo. No nosso exemplo o modelo de mineração de dados aprendeu com uma view chamada de dbo.vTargetMail. Essa view continha as informações do cliente.

2-1

 

As pessoas normalmente pensam que precisam de cubos para trabalhar com Mineração de Dados. Nós trabalhamos com o Business Intelligence Development Studio ou com o SQL Server Data Tools (no SQL 2012), mas nós não usamos cubos, dimensões ou hierarquias (nós podíamos usar, mas isso não seria obrigatório) . nós simplesmente usamos uma view.

Se nós executássemos a seguinte query na view, nós teríamos 18484 linhas como resultado.

SELECT count(1) FROM dbo.vtargetmail

Algo importante sobre Mineração de Dados que devemos notar é que precisamos de uma grande quantidade de dados para prever o futuro. Se tivermos algumas linhas na visão o modelo de minera será impreciso, portanto quanto mais dados você tiver, mais preciso será o modelo.

Outro problema sobre a Mineração de Dados é como podemos determinar quais dados inseridos são efetivamente importantes para o modelo de mineração ? Podemos adivinhar um pouco.

Vamos retornar a Companhia AdventureWorks e vamos pensar nos clientes que queiram comprar uma moto. O salário é importante para comprar a moto. Se você não tem dinheiro para comprar a moto, você não vai comprar-la. O número de carros é importante. Se você tem 5 carros você não vai querer a moto por que você prefere dirigir seus carros.

Existem alguns dados que podem ser úteis para prever se o cliente vai ou não comprar a moto. Como podemos determinar quais colunas com dados são importantes ou não ? Para iniciar, podemos pensar nisso: é importante para o modelo o endereço ou o e-mail dos clientes ?

Pode não ser importante, especialmente o e-mail. Será que alguém com Hotmail tem menos chance de comprar uma moto do que uma pessoa com Gmail ? Eu não acho. Esses são alguns dados de entrada que poderíamos remover a partir do modelo de forma intuitiva. No entanto, a ferramente de Data Mining permite determinar quais são as colunas que afetam ou não a decisão de comprar uma moto nova.

A Rede de Dependências

No modelo de Data Mining. vá na aba Mining Model Viewer, vá na aba Dependency Network. A oval Bike Buyer é a análise que estamos fazendo. Queremos analisar se uma pessoa X é um possível comprador. O número de filhos, renda anual, região e as outras variáveis são as colunas da View. Com a rede de dependência, podemos analisar que coluna tem influência de comprar ou não uma moto.

2-2

Se você ajustar a barra de links, você pode definir quais as colunas que tem mais influência para comprar ou não uma moto.

2-4

Em nosso exemplo a idade do comprador é o fator mais importante para a compra ou não da moto.

2-3

O segundo fator para a compra é o número de carros. Essa informação é muito importante para os Analistas de Negócios e o time de marketing.

Em meu primeiro artigo nós usamos a Árvore de Decisão. A árvore de decisão é um entre diferentes algorítimos usados pela Microsoft para predizer o futuro. Nesse caso para prever se o cliente x vai comprar a moto ou não. Na caixa de seleção Viewer nós vamos selecionar a opção Microsoft Generic Content Tree Viewer. Essa opção permite-lhe obter alguns detalhes técnicos sobre o algorítimo.

2-5

Para mais informações sobre Nós, cardinalidades CLIQUE AQUI.

Sobre Árvores de Decisão

As Árvores de Decisão é o primeiro algorítimo básico que nós usamos nesse artigo. O algorítimo de Data Mining  divide a população para prever se os consumidores vão comprar ou não a moto em diferentes Nós. Os Nos tem ramos e nós-filhos.

Clique na caixa de seleção Viewer e altere para Microsoft Tree Viewer.

2-6

O primeiro Nó contem todos os casos. Se você clicar no Nó, na direita tem uma legenda com todos os casos usados. O valor 0 é o número de clientes que não compram as motos. O valor 1 é o grupo de usuários que compram motos. As cores mostram graficamente as percentagens de usuários em cada categoria.

2-7

No segundo nó divide os casos pela idade.

2-8

Você pode ver que as cores dos nós são diferentes, o nós mais escuros contem mais casos, se você clicar em Age >= 49 e < 65, teremos um total de 7735 casos e se clicarmos em Age >= 41 e < 49 teremos um total de 4916 casos.

2-9

 

Os outros nós são relacionados ao número de crianças em casa e a receita anual. São muitas as informações que podem ser analisadas aqui.

2-10

Eu vou falar sobre a precisão dos gráficos na Mineração em futuros artigos. Para finalizar esse artigo, nós vamos ver a lista de potenciais compradores e prever se eles vão comprar ou não a moto.

Para esse exemplo, nós vamos usar a tabela dbo.Prospectivebuyers que está incluída no banco de dados AdventureWorksDW.  Vamos clicar na guia Mining Model Prediction.

2-11

Clique em “Select Case Table”

2-12

Na janela seguinte, selecione a tabela ProspectiveBuyer. Essa tabela contem todos os potenciais compradores. Nós vamos determinar a probabilidade para a compra ou não de bicicletas.

2-13

No source, selecione DTModel, selecione os campos de ProspectiveBuyer.

ProspectivebuyerKey, firstName, lastname and Email. Finalmente selecione a Prediction Function e selecione o PredictProbability.

2-14

Para verificar o resultado selecione a opção Result.

2-15

Agora você tem a informação para prospectar compradores com probabilidade de comprar motos. Você está prevendo o futuro novamente!

2-16

Nesse exemplo, Alexandre tem 65% de chance de comprar a moto enquanto Adrienne Alonso tem uma probabilidade de 50%. Devemos nos concentrar sobre os caras com mais probabilidade de encontrar e por que eles preferem motos. Depois desse exercicio, a principal razão é o que número de carros.

Conclusão

Nesse artigo, falamos um pouco mais sobre Mineração de Dados e em seguida sobre o funcionamento da árvore de decisão. Finalmente, previmos o futuro de uma lista de possíveis clientes e encontrou quem mais tem probabilidade de comprar motos.

Anúncios
Introdução a Mineração de Dados – Parte 2

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s