Data Mining

Datamining ou Mineração de Dados consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e / ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados.

Histórico

Atualmente, muitas revistas de informática e de negócios têm publicado artigos sobre Datamining. Contudo, há poucos anos atrás, muito pouca gente tinha ouvido falar a respeito. Apesar dessa tecnologia ter uma longa evolução de sua história, o termo como conhecemos hoje, só foi introduzido recentemente, nos anos 90.

Qualquer sistema de Datawarehouse (DW) só funciona e pode ser utilizado plenamente, com boas ferramentas de exploração. Com o surgimento do DW, a tecnologia de Datamining (mineração de dados) também ganhou a atenção do mercado.

Como o DW, possui bases de dados bem organizadas e consolidadas, as ferramentas de Datamining ganharam grande importância e utilidade. Essa técnica, orientada a mineração de dados, oferece uma poderosa alternativa para as empresas descobrirem novas oportunidades de negócio e acima de tudo, traçarem novas estratégias para o futuro.

O propósito da análise de dados é descobrir previamente características dos dados, sejam relacionamentos, dependências ou tendências desconhecidas. Tais descobertas tornam-se parte da estrutura informacional em que decisões são formadas. Uma típica ferramenta de análise de dados ajuda os usuários finais na definição do problema, na seleção de dados e a iniciar uma apropriada análise para geração da informação, que ajudará a resolver problemas descobertos por eles. Em outras palavras, o usuário final reage a um estímulo externo, a descoberta do problema por ele mesmo. Se o usuário falhar na detecção do problema, nenhuma ação é tomada.

A premissa do Datamining é uma argumentação ativa, isto é, em vez do usuário definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Datamining pesquisam automaticamente os mesmos a procura de anomalias e possíveis relacionamentos, identificando assim problemas que não tinham sido identificados pelo usuário. Em outras palavras, as ferramentas de Datamining analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, e então diagnosticam o comportamento dos negócios, requerendo a mínima intervenção do usuário, assim ele se dedicará somente a ir em busca do conhecimento e produzir mais vantagens competitivas.

Conceitos Gerais

Datamining é uma das novidades da Ciência da Computação que veio para ficar. Com a geração de um volume cada vez maior de informação, é essencial tentar aproveitar o máximo possível desse investimento. Talvez a forma mais nobre de se utilizar esses vastos repositórios seja tentar descobrir se há algum conhecimento escondido neles. Um banco de dados de transações comerciais pode, por exemplo, conter diversos registros indicando produtos que são comprados em conjunto. Quando se descobre isso pode-se estabelecer estratégias para otimizar os resultados financeiros da empresa. Essa já é uma vantagem suficientemente importante para justificar todo o processo. Contudo, embora essa idéia básica seja facilmente compreensível, fica sempre uma dúvida sobre como um sistema é capaz de obter esse tipo de relação. No restante deste artigo vamos observar alguns conceitos que podem esclarecer essas dúvidas.

Atualmente, as organizações têm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operações diárias ou pesquisas científicas, porém, ainda não usam adequadamente essa gigantesca montanha de dados para transformá-la em conhecimentos que possam ser utilizados em suas próprias atividades, sejam elas comerciais ou científicas.

A rápida taxa de inovação nas tecnologias de informática está exigindo que, cada vez mais, os profissionais estejam preparados e atualizados para conhecer e enfrentar os desafios da Tecnologia da Informação.

O conceito de Datamining está se tornando cada vez mais popular como uma ferramenta de gerenciamento de informação, que deve revelar estruturas de conhecimento, que possam guiar decisões em condições de certeza limitada. Recentemente, tem havido um interesse crescente em desenvolver novas técnicas analíticas, especialmente projetadas para tratar questões relativas a Datamining. No entanto, Datamining ainda está baseado em princípios conceituais de Análise de Dados Exploratórios e de modelagem.

Datamining é parte de um processo maior de conhecimento denominado Knowledge Discovery in Database (KDD). KDD consiste, fundamentalmente, na estruturação do banco de dados; na seleção, preparação e pré-processamento dos dados; na transformação, adequação e redução da dimensionalidade dos dados; no processo de Datamining; e nas análises, assimilações, interpretações e uso do conhecimento extraído do banco de dados, através do processo de Datamining.

Aplicações

Cada vez mais o mercado exige que as empresas personalizem ao máximo as relações com o seus clientes. Ao mesmo tempo o mercado exige também que se disponibilizem novas formas para os clientes contatarem as empresas. E é aqui que surge o problema - algumas destas novas ferramentas não permitem a identificação do cliente.

Considerando que a Confiança assenta em dois pilares fundamentais, o Valor e a Relação, que por sua vez vão assentar numa pedra basilar, a Informação, constatamos que as aplicações de Datamining apresentam-se então, como peças fundamentais para auxiliar em cada uma destas vertentes.

Valor: O mercado atual é um mercado agressivo e concorrencial, o que obriga as empresas a repensarem constantemente a sua oferta, a serem inovadoras e a trazerem cada vez mais valor aos seus clientes. Para tal, é necessário criar segmentos cada vez mais finos que permitam personalizar os produtos em função das necessidades, o que acontece com as aplicações de Scoring e Segmentação de Clientes. Estas ferramentas permitem descobrir segmentações múltiplas com um número de dimensões cada vez mais elevado. É assim possível descobrir a especificidade que distingue cada nicho de mercado e, conseqüentemente, fornecer a oferta mais adequada.

Relação: No ponto de venda, onde anteriormente se contatava com o cliente, a experiência de um vendedor tornava-se fundamental para uma avaliação e segmentação fiável, permitindo mostrar qual a oferta mais atrativa, ou caso fosse já um cliente "conhecido", trazer-lhe os produtos habituais ou os novos complementos a esse produto. Hoje em dia, existem ainda os centros telefônicos, o fax, o correio eletrônico, a Internet e, futuramente, os acessos WAP e a Televisão Interativa, que se por um lado vão massificar as vendas e tornar o mercado mais vasto mas, por outro, vão tornar mais difícil a personalização do atendimento. O conhecimento dos clientes, dos seus comportamentos de compra, dos seus locais preferenciais de contacto e as suas opções são cada vez mais difíceis de compreender e de analisar. É, também, cada vez mais complicado compreender os efeitos que as campanhas de marketing tiveram sobre esses mesmos clientes. Torna-se, assim, fundamental dotar as empresas de uma solução com vista a atingir este objetivo.

Confiança: A fidelidade dos clientes não pode deixar de estar associada à confiança que o cliente tem da empresa e, por esse motivo, há um esforço na criação de sistemas que premiam os "clientes habituais", como é o exemplo de sistemas de pontuação que tem como objetivo reter o cliente. Através de análises de Datamining, é também possível construir-se um modelo comportamental com base nos dados do passado que, ao aprender que tipo de perfil de cliente está na eminência de terminar a sua relação comercial, será capaz de indicar os clientes que têm propensão a ter esse comportamento no futuro próximo.

Informação: A aplicação das soluções referidas só é possível em empresas numa fase em que já possuem um considerável volume de informação sobre os seus clientes. Para isso é fundamental tenham já a funcionar sistemas de Business Intelligence com processos de qualidade de dados.

Esta solução permite tomadas de decisão pró-ativas e com menor tempo, contrariamente às tomadas até hoje, baseadas em informação do passado.

Concluindo, a prática do Datamining vem contribuir para uma maior eficácia das soluções de Suporte à Decisão permitindo conferir-lhes um caráter de "previsão do futuro".

Linhagens

O Datamining descende fundamentalmente de 3 linhagens:

Estatística: A mais antiga delas é a estatística clássica. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído. A Estatística Clássica envolve conceitos como distribuição normal, variância, análise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e intervalos de confiança, todos usados para estudar dados e os relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas análises estatísticas se apoiam. E sem dúvida, no coração das atuais ferramentas e técnicas de DM, a análise estatística clássica desempenha um papel fundamental.

Inteligência Artificial: A segunda linhagem do DM é a Inteligência Artificial, ou IA. Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. Em função desse “approach”, ela requer um impressionante poder de processamento, que era impraticável até os anos 80, quando os computadores começaram a oferecer um bom poder de processamento a preços mais acessíveis. A IA desenvolveu algumas aplicações para o alto escalão do governo / cientistas americanos, sendo que os altos preços não permitiram que ela ficasse ao alcance de todos. As notáveis exceções foram certamente alguns conceitos de IA adotados por alguns produtos de ponta, como módulos de otimização de consultas para SGBDs.

Machine Learning: E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. Enquanto a IA não se transformava em sucesso comercial, suas técnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preço / performance oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplicações devido às suas combinações entre heurística e análise estatística.A machine learning tenta fazer com que os programas de computador “aprendam” com os dados que eles estudam, tal que esses programas tomem decisões diferentes baseadas nas características dos dados estudados, usando a estatística para os conceitos fundamentais, e adicionando mais heurística avançada da IA e algoritmos para alcançar os seus objetivos. De muitas formas, o DM é fundamentalmente a adaptação das técnicas da Machine Learning para as aplicações de negócios. Desse modo, podemos descrevê-lo como a união dos históricos e dos recentes desenvolvimentos em estatística, em IA e Machine Learning. Essas técnicas são usadas juntas para estudar os dados e achar tendências e padrões nos mesmos. Hoje, o DM tem experimentado uma crescente aceitação nas ciências e nos negócios que precisam analisar grandes volumes de dados e achar tendências que eles não poderiam achar de outra forma.

Técnicas

Existem inúmeras ramificações de Datamining, sendo algumas delas:

Redes Neurais

Indução de regras

Árvores de decisão

Análises de séries temporais

Visualização

O DM é um campo que compreende atualmente muitas ramificações importantes. Cada tipo de tecnologia tem suas próprias vantagens e desvantagens, do mesmo modo que nenhuma ferramenta consegue atender todas as necessidades em todas as aplicações.

Classificação

Segundo Michael Berry, uma alternativa para a classificação dos sistemas de datamining é separá-los em três dimensões:

Natureza da tarefa

Objetivo a ser buscado

Grau de estruturação dos dados

Classificando os sistemas em cada uma das três dimensões podemos agrupar sistemas parecidos, e aplicar algorítmos e procedimentos similares.

Explorando um pouco mais estas três dimensões:

Natureza da tarefa: podem ser divididas em quatro: classificação; predição; segmentação e descrição. Uma tarefa de classificação consiste em associar um item a uma classe, de várias opções pré-definidas. A tarefa do analista passa a ser selecionar qual classe melhor representa um registro, por exemplo, ao se deparar com uma base de dados de veículos, em que cada registro contém os atributos de cor, peso, combustível, número de portas, cilindrada e número de marchas, classificar cada veículo em esporte, utilitário, ou passeio. Predição pode ser definida como a tarefa de preencher um valor em um registro baseado em outros atributos. Como exemplo de modelo de predição, podemos construir um modelo para estimar a probabilidade de um cliente deixar de usar nossos serviços baseado em seu perfil de uso. Segmentação pode ser comparada a uma tarefa de classificação sem classes pré-definidas. O objetivo de uma tarefa de segmentação consiste em agrupar registros semelhantes e separar registros diferentes. Ao se trabalhar com grandes bases de dados, é muito comum que padrões concorrentes se cancelem ao se observar tudo de uma só vez. Quebrar esta enorme base de dados em várias sub-bases pode dar ao analista a condição de ver estas diferenças e identificar novas oportunidades. Datamining também pode ser utilizado para descrição dos dados. Técnicas de visualização podem trazer ao analista percepções diferentes das apresentadas em tabelas, ou relatórios.

Objetivo a ser buscado: existem dois tipos de objetivo, a produção de um modelo ou a produção de informação. Nas tarefas de predição, normalmente estaremos buscando um modelo que possa ser aplicado em dados não vistos anteriormente e que um “score” possa ser gerado. Em tarefas descritivas, buscamos informação que possa dar uma nova perspectiva ao se analisar os dados.

Grau de estruturação dos dados: dados estruturados são normalmente os arquivos de banco de dados, as tabelas, ou seja, estruturas fixas com conteúdo uniforme. Dados desestruturados são arquivos do tipo texto ou imagem, e podem ser usados em projetos que tem como objetivo a identificação de padrões ou formas.

Implementação

Pode ser dito com relativa confiança que é fácil começar um projeto de data mining, a dificuldade está em finalizá-lo de acordo com as expectativas. As promessas geradas, no início de um projeto, pela utilização de novas tecnologias que podem solucionar problemas tradicionalmente difíceis, podem ser mal interpretadas ao avaliar as perspectivas de um novo projeto.

Dificuldades com extração dos dados, preparação dos mesmos, validação dos dados extraídos e a alocação de recursos no cliente, frequentemente são subestimadas ao planejar o envolvimento e os cronogramas para a execução do projeto.

As atividades de obtenção e limpeza dos dados normalmente consomem mais da metade do tempo dedicado ao projeto.

Para a execução de projetos de data mining e a correta alocação de recursos para os mesmos, foi desenvolvida uma metodologia padrão não proprietária que visa identificar as diferentes fases na implantação de um projeto. Esta metodologia foi chamada de CRISP-DM (Cross-Industry Standard Process for Data Mining), e pode ser obtida em http://www.crisp-dm.org .

Segundo a metodologia desenvolvida, a implementação de um sistema de data mining pode ser dividida seis fases interdependentes para que o mesmo atinja seus objetivos finais. São elas:

Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para uma aplicação de data mining e um plano inicial de ataque ao problema.

Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.

Preparação dos dados: Criação de programas de extração, limpeza e transformação dos dados para uso pelos algorítmos de data mining.

Modelagem: Seleção do(s) algorítmo(s) a serem utililizados e efetivo processamento do modelo. Alguns algorítmos necessitam dos dados em formatos específicos, o que acaba causando vários retornos à fase de preparação dos dados.

Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser avaliar os modelos com a visão do negócio, se certificando que não existem falhas ou contradições com relação às regras do negócio.

Publicação: A criação e validação do modelo permite avançarmos mais um passo, no sentido de tornar a informação gerada acessível. Isto pode ser feito de várias maneiras, desde a criação de um software específico para tal, até a publicação de um relatório para uso interno.

(Fonte: "Introdução à mineração de dados", por Fabio Vessoni)

Datamining X Datawarehouse

Comparando os processos de Datamining e Datawarehouse, observamos que:

Datamining é extração inteligente de dados;

Datawarehouse é repositório centralizado de dados;

Datamining não é uma evolução do Datawarehouse;

Datamining não depende do Datawarehouse, mas obtém-se melhores resultados quando aplicados em conjunto;

Cada empresa deve saber escolher qual das técnicas é importante para o seu negócio. (Uma, outra ou as duas);

DataWarehouse aliado a ferramentas estatísticas desempenham papel semelhante ao datamining, mas não descobrem novos padrões de comportamento. (a não ser empiricamente).

Fonte: http://portogente.com.br/portopedia/datamining