Observe bem este número: pesquisas mostram que só nos EUA, as fraudes são responsáveis por prejuízos na ordem de 5% do faturamento em pelo menos 30% das empresas. Pense nas empresas bilionárias que existem por lá e fica fácil imaginar o tamanho do problema. E no Brasil, esse número talvez seja ainda maior. O fato é que a fraude sempre esteve entre nós. Organizações criminosas ou mesmo a ação isolada de uma ou duas pessoas, podem levar a prejuízos financeiros, desvios orçamentários, contratos fraudulentos e etc… Não, este artigo não trata da operação Lava Jato da Polícia Federal. Este artigo é sobre Data Science e como ela pode ser usada na detecção e previsão de fraudes.
Fraude não é um fenômeno apenas da nossa sociedade moderna. Ao longo da história, a humanidade tem se especializado em ações fraudulentas. Entretanto, nunca tivemos tantas ferramentas como hoje, para detectar e prevenir as fraudes. Mas o que é fraude? Fraude envolve uma ou mais pessoas que intencionalmente atuam secretamente para privar outro de algo de valor, para seu próprio benefício. Fraude é um evento criminoso, incomum, imperceptível, que requer tempo para ser concretizado e pode aparecer em muitas diferentes formas, tais como: fraude com cartão de crédito, fraude com seguro, fraude no plano de saúde, manipulação de sistemas, corrupção, lavagem de dinheiro, cibercrime e a lista poderia seguir indefinidamente.
A fraude ocorre por diversas razões. Seja por um problema financeiro, que leve a buscar formas de se ganhar mais dinheiro, seja por pura falta de caráter ou apenas uma oportunidade. Como diz o velho ditado brasileiro: “a ocasião faz o ladrão”. Independente da razão que motivou a fraude, detecção e prevenção de fraude são dois temas bastante abordados em eventos de Data Science pelo mundo e Cientistas de Dados capazes de lidar com este tipo de problema, estão sendo disputados pelas maiores empresas do mundo.
Os dois principais componentes no combate às fraudes, são a detecção e a prevenção. A detecção de fraudes refere-se à habilidade de detectar o evento fraudulento, buscando padrões e reconhecendo a ocorrência do evento. Ou seja, buscamos formas de identificar se a fraude ocorreu. Já a prevenção, esta sim bem mais complicada, busca analisar e prever os eventos fraudulentos, antes que ocorram. Você assistiu o filme Minority Report, com Tom Cruise? Pois bem, no filme, os crimes eram previstos antes da sua ocorrência, em alguns casos, poucos segundos antes. O filme gerou discussões éticas, pois como um criminoso poderia ser preso, se não chegou a cometer o crime? Trazendo isso para a vida real, ao detectarmos uma fraude antes da sua ocorrência, podemos fechar a porta, antes que o criminoso tente sair. No mínimo, podemos evitar o prejuízo financeiro.
Dados x Fraudes
A detecção e prevenção de fraudes é um campo em crescimento. Governos, empresas, mídia e o público em geral, tem visto a fraude não apenas como um problema econômico, mas também social e embora muito avanço tenha ocorrido na detecção de fraudes, através da adoção de metodologias estatísticas para a análise de quantidades massivas de dados, ainda é difícil detectar e prever a ocorrência de eventos fraudulentos.
A fraude em si, é um fenômeno dinâmico, que muda e se adapta ao longo do tempo e as pessoas que cometem fraudes, são normalmente experts naquilo que fazem, o que torna o desafio de combate à fraude ainda maior. E por isso mesmo, os métodos tradicionais de análises de dados não têm sido capazes de identificar e prever as fraudes, mesmo com os dados disponíveis. É quando entra em ação a Ciência de Dados, principalmente o campo de Machine Learning. O volume de dados gerado pelo Big Data e as técnicas e ferramentas da Ciência de Dados, estão criando um novo nicho profissional. O combate à fraude está se tornando um departamento dentro das empresas, focado não apenas no combate às fraudes internas, mas externas também. Operadoras de cartão de crédito, de telefonia, bancos, indústrias. Todos estão criando seus departamentos de combate à fraude. E estão usando Data Science para isso.
Técnicas de Detecção de Fraudes
As técnicas de análise de dados tradicionais orientadas a extrair insights dos dados, ajudam no processo de gerar conhecimento a partir dos dados. Mas há um problema! Estas técnicas de análise foram criadas por analistas humanos, também suscetíveis à fraude.
Um sistema de análise de dados para detecção e prevenção de fraudes tem de estar equipado com uma quantidade substancial de conhecimento e ser capaz de executar tarefas de raciocínio envolvendo esse conhecimento com novos dados fornecidos. No esforço para atingir esse objetivo, os Cientistas de Dados voltaram-se para o Machine Learning (Aprendizado de Máquina). Basicamente, o objetivo da aprendizagem de máquina é converter dados e exemplos (entrada) em conhecimento (saída).
Com aprendizagem de máquina, as empresas podem extrair insights para obter as informações que os coloca à frente do evento fraudulento por meio de acesso a tendências e previsões. O aprendizado de máquina permite automatizar o processo de combate às fraudes, mesmo sendo este um processo dinâmico.
Algumas técnicas de Data Science, utilizadas no combate à fraude (Dê uma olhada neste post Conceitos Fundamentais de Machine Learning, caso tenha dúvidas sobre alguns dos termos descritos aqui):
Detecção baseada em técnicas de aprendizagem não-supervisionada – esta técnica busca encontrar comportamento que se desvia do comportamento normal, ou seja, detectar anomalias. Nesta técnica, algoritmos de Machine Learning aprendem a partir de observações de dados históricos e são chamados não-supervisionados pois não requerem que os dados sejam previamente marcados como sendo do tipo fraudulento ou não fraudulento. Um exemplo é o comportamento que não segue o padrão normal no consumo de planos de celulares. Ligações entre duas cidades, seguem um determinado padrão de duração e ligações que fujam deste padrão, podem ser consideradas anomalias e separadas para investigação posterior (obviamente eu estou simplificando o conceito, que é bem mais amplo). Se pode parecer simples para você, tente imaginar quantas milhões de ligações são realizadas por dia e como este processo pode ser alvo de fraude, sem que ninguém perceba.
Detecção de outliers – esta técnica permite detectar uma fração significante de eventos fraudulentos, que sejam diferentes do histórico de fraudes, ou seja, fraudes que utilizam um novo mecanismo, resultante de um novo padrão. Estes novos padrões, podem não ser facilmente detectados por sistemas avançados de Machine Learning e um conceito básico de estatística (outliers), pode ser empregado nos algoritmos de detecção de fraudes.
Análise preditiva através de aprendizagem supervisionada – nesta técnica, os dados históricos ou observações são usados para identificar padrões e diferenciar comportamento normal do comportamento fraudulento. Esta técnica é usada como um alarme silencioso, para descobrir aquilo que o criminoso não conseguiu esconder. Esta técnica pode ser usada tanto para detectar quanto para prever ações fraudulentas e até mesmo para estimar o tamanho da fraude. A principal limitação desta técnica, é que são necessários dados de exemplos para treinar o algoritmo, ou seja, é preciso ensinar com fraudes já concretizadas. Isso reduz e muito a possibilidade de detectar novos mecanismos de fraude.
Análise de redes sociais – aqui o Big Data entra em ação. A coleta de movimentos nas redes sociais das pessoas e empresas que poderiam ser potenciais fraudadores, em conjunto com os dados internos da empresa efetuando a análise, ajuda a criar um algoritmo poderoso de combate às fraudes. A análise de redes sociais é uma das novas tendências no combate à fraude.
Estas técnicas se complementam e podem focar em diferentes aspectos de uma fraude. Um sistema eficiente de combate à fraude, combina estas técnicas, que juntas se tornam ainda mais poderosas.
Eu considero este assunto fascinante e gostaria de ouvir sua opinião. Deixe seu comentário.
Voltaremos a este tema em breve!
David Matos
Referências:
Post top.
Estou realizando um projeto de iniciação cientifica e meu TCC na área de fraudes com data mining, e na teoria tudo parece simples, até colocar a mão na massa heheheh.
Muitas possibilidades de análise, muitas possibilidade de resultados, tomar cuidado em não extrair resultados errados e pouco material para dá suporte hehehe.
Olá Gabriel. Concordo plenamente com você, principalmente quando o resultado da análise é usado para tomar decisões estratégicas de negócio. Caso queira compartilhar um pouco do seu trabalho aqui no blog, como convidado, me avise e providenciamos. Abs. David
Gabriel, fale mais sobre o teu trabalho. Tenho a intenção de desenvolver algo complementar.
Ótimo post!
Trabalho com técnicas de machine learning e ver o potencial dessas metodologias aplicadas em diversos campos é sensacional.
Abs,
Letícia.
Muito obrigado Letícia!
Venho trabalhando na prevenção de chargeback já alguns anos e a maioria das empresas nem sabe que isto existe. Apesar de ser um dos principais custos no ecommerce, poucas empresas sabem o que fazer. Conciliação e prevenção de chargeback são dois assuntos que deveriam ser levados mais a sério, e quem souber criar um bom processo terá um ganho substancial financeiro e na experiência de compra do cliente. 😉
Seu texto é muito esclarecedor. Ajuda muito a entender as diferentes técnicas utilizadas por Data Science no combate as fraudes. Faço um curso de Big Data e seu texto foi recomendado pela professora. Parabéns!!!
Muito Obrigado Jose.