As bases de dados originais possuem um grande número de linhas. Dessa forma, para a correta manipulação, além dos cruzamentos e tratamentos dos dados, utilizou-se o
software SAS. O modelo de regressão logística com seleção de variáveis por stepwise foi
estimado também pelo software SAS.
O SAS, ou Statistical Analysis System, é um software desenvolvido pelo Instituto SAS para o desenvolvimento de análises preditivas, inteligência de negócios e gestão de dados. O SAS foi desenvolvido na North Carolina State University de 1966 até 1976, quando foi incorporado ao SAS Institute.
Na etapa de categorização das variáveis contínuas, para posterior modelagem, foi utilizado o software IBM SPSS, utilizado para análise estatística. Ele foi produzido pela SPSS Inc., adquirida pela IBM em 2009, e suas versões atuais (2015) são oficialmente chamadas de IBM SPSS Statistics.
Capítulo 4. Metodologia 47
Sciences (SPSS), que refletia o seu mercado original, embora atualmente ele seja popular
em outros campos, incluindo saúde e marketing.
Em todas as etapas de modelagem de RB, foi utilizado o software WEKA (Wai-
kato Environment for Knowledge Analysis), versão 3.6.12: seleção de variáveis, além das
inferências para a interpretação e a predição dos classificadores.
O software Weka foi desenvolvido na Universidade de Waikato na Nova Zelândia para tarefas de Data Mining e possui uma coleção de algoritmos de Aprendizado de Máquina, área que combina Estatística e Inteligência Artificial.
48
5 Resultados
Nesse capítulo são apresentado os resultados das aplicações dos CB em modelos de fraudes em cartão de crédito, utilizando-se base de dados fornecida por uma instituição financeira.
Nas seções 5.1 e 5.2, são avaliados e interpretados os modelos de RL e os CB Naive
Bayes, respectivamente. Na seção 5.3, os resultados serão analisados de forma conjunta.
Os modelos foram obtidos com base em amostra balanceada, com 61.987 registros de operações fraudulentas e 61.987 de operações genuínas. Essa amostra balanceada contém 80 variáveis dummies, conforme discutido na seção 4.2. A variável resposta (fraude) é binária, assumindo valor 0 se a operação for genuína e valor 1 se for uma operação fraudulenta.
As variáveis dummies assumem valor 1 se a operação possui a característica correspondente a essa variável e 0 caso não. A variável indicadora corresponde ao nível da variável preditora original associado a todos os valores zero das dummies.
As amostras de desenvolvimento e de validação foram obtidas por Cross-Validation com dez partições, implementado na ferramenta WEKA utilizado conforme descrito na seção 4.5. O desempenho dos modelos de classificação foram avaliados e comparados em relação às taxas de acerto da matriz de confusão e a área abaixo da curva ROC, descritas na Seção 3.5. O ponto de corte adotado para classificar as operações da amostra de validação foi de 50.
5.1 Regressão Logística
A análise de regressão logística foi executada com o software SAS e ocorreu em duas etapas:
• Foi realizada a estimação do modelo saturado, considerando todas as variáveis; • Em seguida, foi feita a estimação do modelo usando a técnica stepwise, como forma
de selecionar as variáveis. Buscou-se o modelo mais parcimonioso, isso é, aquele que envolvesse o mínimo de parâmetros possíveis a serem estimados e tivesse um bom poder preditivo.
Os resultados obtidos estão sumarizados na Tabela 11. Eles foram obtidos das amostras de validação construídas por Cross-Validation com dez partições, conforme descrito na Seção 4.4.
Capítulo 5. Resultados 49
Modelo TAG TAF ROC area Número de variáveis
Regressão logística 76.51% 76.43% 84.2% 80
Regressão logística(stepwise) 76.49% 76.40% 84.2% 51
Tabela 12 – Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos modelos de regressão logística Como pode ser visto na Tabela 11, as medidas de desempenho dos modelos ajustados, após a seleção de variáveis por stepwise, demonstram que a seleção de variáveis não foi eficiente. Apesar do modelo ter um número menor de variáveis, as estastísticas de desempenho em relação ao modelo saturado apresentaram valores menores. Desta forma, as variáveis preditoras não apresentam dependência entre si, dado que a seleção de variáveis por stepwise, retira as variáveis que possuem alta associação com outras.
Como citado na Seção 4.1, foi utilizada uma amostra balanceada. Assim para a aplicação do modelo na população original, precisamos recalcular o intercepto do modelo logístico. Paula (2004) indica que no modelo de Regressão Logística é necessário que o intercepto seja recalculado, por:
β0 = (β0)∗ −ln(
γ1
γ2
) (5.1)
onde:
• β0∗ é o intercepto do modelo logístico ajustado;
• γ1 = P (Z = 1|F raude = 1);
• γ2 = P (Z = 1|F raude = 0);
• Z uma variável indicadora da seleção amostral em relação à amostra toda. Assim, temos:
β0 = 0.7641 − ln( 61.987 3.938.013
1 ) = 3.387 (5.2)
Supondo que todas as variáveis dummies do modelo assumam o valor zero, a probabilidade da operação ser genuína, é dada por:
P(F raude = 1) = exp(3.387)
1 + exp(3.387) = 0.9673 (5.3)
Os coeficientes negativos indicam que a observação da característica contribui para uma redução da probabilidade da operação não ser fraudulenta; por outro lado, coeficientes
Capítulo 5. Resultados 50
Variável Preditora Níveis(Varíavel Dummy) Coef.
Intercepto - 3.387
Ensino médio completo 0.7189 Educação superior completa 1.3676
Escolaridade Pós-Graduação 1.0615
Ensino fundamental 0.3514 Ensino médio incompleto 0.3514
<=30 -0.4830 30<X<=33 0.2018 33<X<=36 0.1926 Idade 36<X<=38 - 38<X<=41 -0.1492 41<X<=45 - 45<X<=49 - 49<X<=63 - 63<X -0.3380 20<=X - 20<X<=24 0.6915 24<X<=46 0.0939 DDD Celular 46<X<=61 0.7718 61<X<=67 0.2510 67<X<=80 -0.0700 80<X<=85 -0.1367 85<X<=91 0.4618 91<X -
Tabela 13 – Estimativa dos coeficientes do modelo de regressão logística para algumas variáveis
positivos demonstram que a observação gera um aumento da probabilidade da operação não ser fraudulenta.
Com a análise dos coeficientes, na Tabela 12, podemos obter insights de quais características das operações contribuem individualmente para a redução do risco de fraude:
Idade (30<x<=33), Educação Superior Completa. Por outro lado, as características
que contribuem individualmente para um aumento da probabilidade da operação ser fraudulenta: DDD Celular (80<X<=85), Idade(X<=30).
A clusterização de algumas variáveis que envolvem localização demanda um cuidado especial para garantir que a categorização faça sentido geográfico. No caso da variável DDD Celular, alguns dos clusters obtidos têm essa especificidade em relação à localidade, porém só fazem sentido em termos estatísticos.
Análises como essas, somadas ao uso de dados reais, permitem às instituições entenderem quais características aumentam a probabilidade de uma operação ser fraude. Baseado na Tabela 12, pode-se afirmar que operações com as seguintes características, apresentam maior probabilidade de ser fraudulenta:
Capítulo 5. Resultados 51
• Idade(X<=30);
• DDD Celular (80<X<=85);
• Escolaridade (Ensino médio incompleto / Ensino fundamental).
5.2 Classificador Naive Bayes
Nessa seção, são descritos os resultados das aplicações dos CB Naive Bayes em modelos para detecção de fraudes em cartão de crédito, utilizando-se base de dados fornecedida por uma instituição financeira, além do método Cross-Validation com dez partições para a obtenção das amostras, tanto de validação quanto de desenvolvimento.
A seleção de variáveis nos classificadores Naive Bayes, descrita na Seção 4.3, é feita com a filtragem pelo ganho de informação. Todo esse processo foi desenvolvido utilizando o software WEKA. Algumas variáveis dummies da base de dados foram ordenadas por sua contribuição para o ganho de informação da variável resposta e são apresentadas na Tabela 13.
VariavelPreditora (nível) Ganho de informação
Renda(x<=830) 0.122343
Escolaridade (Ensino fundamental incompleto) 0.090027 Escolaridade (Ensino superior completo) 0.076596
Estado Civil (Casado) 0.060913
Estado Civil (Solteiro) 0.054200
Idade (<= 30) 0.052062 Renda (3.520<x<=7.000) 0.028694 Renda (x>7.000) 0.027905 Ocupação (Estudante) 0.021328 DDD (46<x<=61) 0.017705 Tempo de residência (x<=07) 0.015911 Negativação 0.015445 Número de dependentes (x=0) 0.009781 Tempo de residência (13<x<=15) 0.008937 Escolaridade (Pós-graduação) 0.008509 Renda (2.679<x<=3.520) 0.008218 Renda (2.083<x<=2.679) 0.006615
Tabela 14 – Algumas variáveis preditoras, ordenadas pela sua contribuição individual para o ganho de informação à variável resposta
Na tabela acima, pode-se notar que algumas variáveis dummies contribuem pouco para a previsão das operações fraudulentas e genuínas; por exemplo, Renda(2.083<X<=2.679) é a que menos contribui entre as variáveis citadas. Utilizando o método acima descrito, foram retiradas 44 variáveis dummmies da base de dados.
Capítulo 5. Resultados 52
Modelo TAG TAF ROC area Número de variáveis
Modelo Saturado 76.2% 74.6% 82.8% 80
Filtragem pelo ganho de informação 75.9% 74.1% 82.5% 36
Tabela 15 – Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos classificadores Naive Bayes
Figura 13 – Trecho da estrutura da RB do classificador Naive Bayes com filtragem pelo ganho de informação
O desempenho dos Classificadores Naive Bayes em relação às taxas de acerto da matriz de confusão e à área abaixo da curva ROC está sumarizado na Tabela 14. A filtragem pelo ganho de informação não foi eficiente, pois a retirada de 44 varíaveis
dummies não contribuiu para o objetivo inicial: obter um modelo mais parcimonioso e
com maior poder preditivo. Há uma diminuição das taxas de de acerto das operações genuínas e fraudulentas e na diminuição da área abaixo da curva ROC, reduzindo, assim, a habilidade em discriminar as operações corretamente.
O modelo saturado apresentou o melhor resultado com maior área abaixo da curva ROC, discriminando melhor as operações genuínas e fraudulentas, além de maior assertividade nas previsões das operações fraudulentas.
Como ilustração da estrutura da Rede Bayesiana, na Figura 13, tem-se um trecho do que compõe a estrutura da RB do classificador Naive Bayes final.
A Tabela 15 contém as probabilidades condicionais de uma operação se tornar fraudulenta, dada a observação da variável preditora. Baseado nessas informações, pode-se analisar quais características das operações influenciam no aumento ou diminuição da probabilidade de que sejam fraudulentas. Assim verifica-se que algumas variáveis dummies contribuem para o aumento do risco da operação ser fraudulenta: Estado Civil (casado),
Capítulo 5. Resultados 53
Variavel (nível) P(O=1|C=1) P(O=0|C=1) P(O=1|C=0) P(O=0|C=0)
DDD (x<=20) 0.782 0.218 0.718 0.282
Estado Civil (Casado) 0.590 0.410 0.847 0.153
Negativação 0.870 0.130 0.756 0.244
Dependentes (=0) 0.556 0.444 0.440 0.560
Dependentes (2<x) 0.856 0.144 0.912 0.088
Ocupação (Estudante) 0.817 0.183 0.930 0.07
Educação (Sup. completa) 0.677 0.323 0.928 0.072
Tabela 16 – Probabilidades das operações se tornarem fraudulentas (ou não), dada a observação de cada variável preditora, isoladamente.