• Sonuç bulunamadı

Nessa seção, é elaborado um estudo comparativo dos resultados utilizando-se as técnicas dos classificadores bayesianos e da regressão logística em modelos de fraudes com cartão de crédito.

Modelo TAG TAF ROC area Num. de variáveis

Regressão logística(RL) 76.51% 76.43% 84.20% 80

Regressão logística stepwise(RL) 76.49% 76.40% 84.20% 51

Modelo Saturado (NB) 76.20% 74.60% 82.80% 80

Filtragem pelo ganho de informação (NB) 75.90% 74.10% 82.50% 36 Tabela 17 – Taxas de acerto das operações genuínas, das operações fraudulentas, área

abaixo da curva ROC e número de variáveis para ambos os modelos

Para facilitar a comparação entre os modelos, foi montada a Tabela 16, que sumariza os resultados. Os modelos possuem desempenhos próximos mas, analisando a TAF, percebe-se uma maior assertividade no modelo de regressão logística saturado.

Em relação à área abaixo da curva ROC, quanto maior o valor, melhor a discri- minação entre as operações genuínas e fraudulentas. Os modelos de RL obtiveram um desempenho melhor que os CB.

No modelo de RL, o processo de stepwise não contribuiu para o aumento das taxas de acerto das previsões; porém, a área abaixo da curva ROC permaneceu a mesma. A filtragem das variáveis pelo ganho de informação também não contribuiu para o aumento das taxas de acerto das previsões e o poder discriminante dos classificadores Naive Bayes.

De acordo com dados da Serasa-Experian,JORNAL (2015), em março/2015 foram mais de 183 mil tentativas de fraudes contra os consumidores. Isso significa que, a cada 14 segundos, um brasileiro foi vítima de fraudes com cartões ou cheques no País. Isso reforça a importância de estudos como esse, dois pontos são destacados:

Capítulo 5. Resultados 54

aumento da probabilidade de uma operação ser fraudulenta. Essas informações podem ajudar instituições a desenharem suas políticas de fraude;

• A metodologia aqui exposta pode ser utilizada para os mais diversos setores, por exemplo: fraudes em telecomunicações, cheques, dentre outros. A metodologia / modelo não foi particularizado pelo fato do meio utilizado ser o cartão de crédito, sendo assim, pode ser utilizado para se obter modelos de detecção de fraudes nos mais diversos segmentos.

55

6 Conclusões

Nesse trabalho foram feitas aplicações de Redes Bayesianas em modelos de fraude utilizando-se cartões de crédito. Foram avaliadas as Redes Bayesianas conhecidas como Classificadores Bayesianos, com estrutura do tipo Naive Bayes e comparados os resultados dessas com os produzidos pela aplicação da regressão logística.

Observou-se que o classificador Naive Bayes apresentou desempenho inferior à regressão logística em relação às taxas de acerto das operações genuínas, às taxas de acerto das operações fraudulentas e à área abaixo da curva ROC.

O uso das taxas de acerto obtidas da matriz de confusão auxiliou na identificação das categorias da variável resposta (operação genuína ou fraudulenta) cujo modelo é mais assertivo.

Entre as contribuições desse trabalho, podem ser citadas:

Ordenação das variáveis preditoras (dummies) em função do seu ganho de informa- ção em relação à variável resposta. Após essa ordenação, as variáveis com menor contribuição são retiradas. Esse processo tem como finalidade obter um subconjunto ótimo de variáveis que mais contribuem para uma melhor discriminação entre as operações genuínas e fraudulentas;

• Comparação dos resultados produzidos pelos classificadores bayesianos e pela regres- são logística - uma técnica muito utilizada devido à sua facilidade de entendimento e à possibilidade de revisão períodica do modelo;

• Como citado em Maes et al. (2002), as duas principais lacunas para a elaboração de melhores modelos para detecção de fraude são: falta de literatura que forneça resultados experimentais e de informações reais.

Outra contribuição desse estudo consiste em avaliar metodologia de seleção de variáveis junto com Classificadores Bayesianos. Observou-se que a seleção por ganho de informação não contribuiu para um melhor desempenho do classificador Naive Bayes, resultando em uma piora na taxa de acerto das previsões e no poder discriminante desse modelo. Portanto, a retirada individual de variáveis que menos contribuiram para o ganho de informação da variável resposta, não melhora o desempenho do modelo. Conclui-se que essas variáveis, quando combinadas com as demais, tornam-se importantes para o modelo.

Uma das limitações desse trabalho é que os modelos escolhidos, classificador Naive

Bayes e regressão logística, não permitem analisar as dependências que possam existir

Capítulo 6. Conclusões 56

Como sugestão para trabalhos futuros, em vez de fazer comparações de desempenho apenas sobre as taxas de acerto e a curva ROC, pode-se adicionar os testes de Kolmogorov-

Smirnov (KS) e Gini. Essas comparações podem ser estendidas ao incluir outras métricas

de performance, especialmente métricas as baseadas em custo.

Sugere-se ainda, outros tipos de Classificadores Bayesianos - como o Tree Augmented Naive Bayes (TAN) e o General Bayesian Network (GBN), além da possibilidade de um modelo que seja híbrido, por exemplo, relaxando a hipótese de independência condicional do classificador Naive Bayes, como foi proposto por Kang e Tian (2006). Há também os Classificadores TAN e GBN, os quais permitem analisar as dependências que possam existir entre variáveis preditoras.

57

Referências

ADUSEI-POKU, K. Operational risk management–implementing a bayesian network for foreign exchange and money market settlement. Faculty of Economics and Business Administration, University of Goettingen, 2005.

BAMBER, D. The area above the ordinal dominance graph and the area below the receiver operating characteristic graph. Journal of mathematical psychology, Elsevier, v. 12, n. 4, p. 387–415, 1975.

BOBBIO, A. et al. Improving the analysis of dependable systems by mapping fault trees into bayesian networks. Reliability Engineering & System Safety, Elsevier, v. 71, n. 3, p. 249–260, 2001.

BOLTON, R. J.; HAND, D. J. Statistical fraud detection: A review. Statistical science, JSTOR, p. 235–249, 2002.

BOUTILIER, C. et al. Context-specific independence in bayesian networks. In: MORGAN KAUFMANN PUBLISHERS INC. Proceedings of the Twelfth international conference on Uncertainty in artificial intelligence. [S.l.], 1996. p. 115–123.

CHARNIAK, E. Bayesian networks without tears. AI magazine, v. 12, n. 4, p. 50, 1991. CHAUDHARY, K.; YADAV, J.; MALLICK, B. A review of fraud detection techniques: Credit card. International Journal of Computer Applications, International Journal of Computer Applications, 244 5 th Avenue,# 1526, New York, NY 10001, USA India, v. 45, n. 1, 2012.

CHENG, J.; GREINER, R. Comparing bayesian network classifiers. In: MORGAN KAUFMANN PUBLISHERS INC. Proceedings of the Fifteenth conference on Uncertainty in artificial intelligence. [S.l.], 1999. p. 101–108.

DELAMAIRE, L.; ABDOU, H.; POINTON, J. Credit card fraud and detection techniques: a review. Banks and Bank systems, Business Perspectives, v. 4, n. 2, p. 57–68, 2009. FRIEDMAN, N.; GEIGER, D.; GOLDSZMIDT, M. Bayesian network classifiers. Machine learning, Springer, v. 29, n. 2-3, p. 131–163, 1997.

GADI, M. F. A. Uma comparaçao de métodos de classificaçao aplicadosa detecçao de fraude em cartoes de crédito. Tese (Doutorado) — Universidade de Sao Paulo, 2008. GUILLEN, M. et al. Customer loyalty in the insurance industry: a logistic regression approach. In: II Conference in Actuarial Science and Finance on Samos, Karlovasi-Samos, Greece. [S.l.: s.n.], 2002.

HOSMER, D. W.; LEMESHOW, S. Applied logistic regression. In: Applied logistic regression. [S.l.]: Wiley, 2000.

JENSEN, F. V. Bayesian networks and decision graphs. statistics for engineering and information science. Springer, v. 32, p. 34, 2001.

Referências 58

JORNAL, D. C. Estatística ajuda a evitar fraudes em cartões bancários. Jornal do Comércio, Segundo Caderno, 19 de maio de 2015, 2015.

KANG, C.; TIAN, J. A hybrid generative/discriminative bayesian classifier. In: FLAIRS Conference. [S.l.: s.n.], 2006. p. 562–567.

KARCHER, C. Redes Bayesianas aplicadas à análise do risco de crédito. Tese (Doutorado) — Universidade de São Paulo, 2009.

KOU, Y. et al. Survey of fraud detection techniques. In: IEEE. Networking, sensing and control, 2004 IEEE international conference on. [S.l.], 2004. v. 2, p. 749–754.

MAES, S. et al. Credit card fraud detection using bayesian and neural networks. In: Proceedings of the 1st international naiso congress on neuro fuzzy technologies. [S.l.: s.n.], 2002.

MARTINEZ, E. Z.; LOUZADA-NETO, F.; PEREIRA, d. B. B. A curva roc para testes diagnósticos. Cad Saúde Coletiva, v. 11, n. 1, p. 7–31, 2003.

MORAES, D. d. Modelagem de fraude em cartao de crédito. Universidade Federal de Sao Carlos-Departamento de Estatıstica, Sao Carlos-SP, 2008.

NEAPOLITAN, R. E. et al. Learning bayesian networks. [S.l.]: Prentice Hall Upper Saddle River, 2004.

PAULA, G. A. Modelos de regressão: com apoio computacional. [S.l.]: IME-USP São Paulo, 2004.

PHUA, C. et al. A comprehensive survey of data mining-based fraud detection research. arXiv preprint arXiv:1009.6119, 2010.

PLENTZ, R. D. et al. Redes bayesianas para análise de comportamento aplicadas a telefonia celular. Florianópolis, SC, 2003.

QUEIROZ, C. D. N. Redes Bayesianas no gerenciamento e mensuração de riscos operacionais. Tese (Doutorado) — Universidade de São Paulo, 2008.

SAHIN, Y.; DUMAN, E. Detecting credit card fraud by ann and logistic regression. In: IEEE. Innovations in Intelligent Systems and Applications (INISTA), 2011 International Symposium on. [S.l.], 2011. p. 315–319.

SHARIFI, M.; FINK, E.; CARBONELL, J. G. Detection of internet scam using logistic regression. In: IEEE. Systems, Man, and Cybernetics (SMC), 2011 IEEE International Conference on. [S.l.], 2011. p. 2168–2172.

SUMAN, N. Review paper on credit card fraud detection. International Journal of Computer Trends and Technology (IJCTT)–volume, v. 4, 2013.

VASCONCELLOS, M. S. de. Proposta de método para análise de concessões de crédito a pessoas físicas. Tese (Doutorado) — Universidade de São Paulo, 2002.

VIAENE, S. et al. A comparison of state-of-the-art classification techniques for expert automobile insurance claim fraud detection. Journal of Risk and Insurance, Wiley Online Library, v. 69, n. 3, p. 373–421, 2002.

Referências 59

WITTEN, I. H.; FRANK, E. Data Mining: Practical machine learning tools and techniques. [S.l.]: Morgan Kaufmann, 2005.