TEPENİN ARKAS - İlköğretim din kültürü ve ahlâk bilgisi müfredatında yer alan olumsuz ahlâkî eğ

As bases de dados originais possuem um grande número de linhas. Dessa forma, para a correta manipulação, além dos cruzamentos e tratamentos dos dados, utilizou-se o

software SAS. O modelo de regressão logística com seleção de variáveis por stepwise foi

estimado também pelo software SAS.

O SAS, ou Statistical Analysis System, é um software desenvolvido pelo Instituto SAS para o desenvolvimento de análises preditivas, inteligência de negócios e gestão de dados. O SAS foi desenvolvido na North Carolina State University de 1966 até 1976, quando foi incorporado ao SAS Institute.

Na etapa de categorização das variáveis contínuas, para posterior modelagem, foi utilizado o software IBM SPSS, utilizado para análise estatística. Ele foi produzido pela SPSS Inc., adquirida pela IBM em 2009, e suas versões atuais (2015) são oﬁcialmente chamadas de IBM SPSS Statistics.

Capítulo 4. Metodologia 47

Sciences (SPSS), que reﬂetia o seu mercado original, embora atualmente ele seja popular

em outros campos, incluindo saúde e marketing.

Em todas as etapas de modelagem de RB, foi utilizado o software WEKA (Wai-

kato Environment for Knowledge Analysis), versão 3.6.12: seleção de variáveis, além das

inferências para a interpretação e a predição dos classiﬁcadores.

O software Weka foi desenvolvido na Universidade de Waikato na Nova Zelândia para tarefas de Data Mining e possui uma coleção de algoritmos de Aprendizado de Máquina, área que combina Estatística e Inteligência Artiﬁcial.

5 Resultados

Nesse capítulo são apresentado os resultados das aplicações dos CB em modelos de fraudes em cartão de crédito, utilizando-se base de dados fornecida por uma instituição ﬁnanceira.

Nas seções 5.1 e 5.2, são avaliados e interpretados os modelos de RL e os CB Naive

Bayes, respectivamente. Na seção 5.3, os resultados serão analisados de forma conjunta.

Os modelos foram obtidos com base em amostra balanceada, com 61.987 registros de operações fraudulentas e 61.987 de operações genuínas. Essa amostra balanceada contém 80 variáveis dummies, conforme discutido na seção 4.2. A variável resposta (fraude) é binária, assumindo valor 0 se a operação for genuína e valor 1 se for uma operação fraudulenta.

As variáveis dummies assumem valor 1 se a operação possui a característica correspondente a essa variável e 0 caso não. A variável indicadora corresponde ao nível da variável preditora original associado a todos os valores zero das dummies.

As amostras de desenvolvimento e de validação foram obtidas por Cross-Validation com dez partições, implementado na ferramenta WEKA utilizado conforme descrito na seção 4.5. O desempenho dos modelos de classiﬁcação foram avaliados e comparados em relação às taxas de acerto da matriz de confusão e a área abaixo da curva ROC, descritas na Seção 3.5. O ponto de corte adotado para classiﬁcar as operações da amostra de validação foi de 50.

5.1 Regressão Logística

A análise de regressão logística foi executada com o software SAS e ocorreu em duas etapas:

• Foi realizada a estimação do modelo saturado, considerando todas as variáveis; • Em seguida, foi feita a estimação do modelo usando a técnica stepwise, como forma

de selecionar as variáveis. Buscou-se o modelo mais parcimonioso, isso é, aquele que envolvesse o mínimo de parâmetros possíveis a serem estimados e tivesse um bom poder preditivo.

Os resultados obtidos estão sumarizados na Tabela 11. Eles foram obtidos das amostras de validação construídas por Cross-Validation com dez partições, conforme descrito na Seção 4.4.

Capítulo 5. Resultados 49

Modelo TAG TAF ROC area Número de variáveis

Regressão logística 76.51% 76.43% 84.2% 80

Regressão logística(stepwise) 76.49% 76.40% 84.2% 51

Tabela 12 – Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos modelos de regressão logística Como pode ser visto na Tabela 11, as medidas de desempenho dos modelos ajustados, após a seleção de variáveis por stepwise, demonstram que a seleção de variáveis não foi eﬁciente. Apesar do modelo ter um número menor de variáveis, as estastísticas de desempenho em relação ao modelo saturado apresentaram valores menores. Desta forma, as variáveis preditoras não apresentam dependência entre si, dado que a seleção de variáveis por stepwise, retira as variáveis que possuem alta associação com outras.

Como citado na Seção 4.1, foi utilizada uma amostra balanceada. Assim para a aplicação do modelo na população original, precisamos recalcular o intercepto do modelo logístico. Paula (2004) indica que no modelo de Regressão Logística é necessário que o intercepto seja recalculado, por:

β0 = (β0)∗ −ln(

γ1

γ2

) (5.1)

onde:

• β0∗ é o intercepto do modelo logístico ajustado;

• γ1 = P (Z = 1|F raude = 1);

• γ2 = P (Z = 1|F raude = 0);

• Z uma variável indicadora da seleção amostral em relação à amostra toda. Assim, temos:

β0 = 0.7641 − ln( 61.987 3.938.013

1 ) = 3.387 (5.2)

Supondo que todas as variáveis dummies do modelo assumam o valor zero, a probabilidade da operação ser genuína, é dada por:

P(F raude = 1) = exp(3.387)

1 + exp(3.387) = 0.9673 (5.3)

Os coeﬁcientes negativos indicam que a observação da característica contribui para uma redução da probabilidade da operação não ser fraudulenta; por outro lado, coeﬁcientes

Capítulo 5. Resultados 50

Variável Preditora Níveis(Varíavel Dummy) Coef.

Intercepto - 3.387

Ensino médio completo 0.7189 Educação superior completa 1.3676

Escolaridade Pós-Graduação 1.0615

Ensino fundamental 0.3514 Ensino médio incompleto 0.3514

<=30 -0.4830 30<X<=33 0.2018 33<X<=36 0.1926 Idade 36<X<=38 - 38<X<=41 -0.1492 41<X<=45 - 45<X<=49 - 49<X<=63 - 63<X -0.3380 20<=X - 20<X<=24 0.6915 24<X<=46 0.0939 DDD Celular 46<X<=61 0.7718 61<X<=67 0.2510 67<X<=80 -0.0700 80<X<=85 -0.1367 85<X<=91 0.4618 91<X -

Tabela 13 – Estimativa dos coeﬁcientes do modelo de regressão logística para algumas variáveis

positivos demonstram que a observação gera um aumento da probabilidade da operação não ser fraudulenta.

Com a análise dos coeﬁcientes, na Tabela 12, podemos obter insights de quais características das operações contribuem individualmente para a redução do risco de fraude:

Idade (30<x<=33), Educação Superior Completa. Por outro lado, as características

que contribuem individualmente para um aumento da probabilidade da operação ser fraudulenta: DDD Celular (80<X<=85), Idade(X<=30).

A clusterização de algumas variáveis que envolvem localização demanda um cuidado especial para garantir que a categorização faça sentido geográﬁco. No caso da variável DDD Celular, alguns dos clusters obtidos têm essa especiﬁcidade em relação à localidade, porém só fazem sentido em termos estatísticos.

Análises como essas, somadas ao uso de dados reais, permitem às instituições entenderem quais características aumentam a probabilidade de uma operação ser fraude. Baseado na Tabela 12, pode-se aﬁrmar que operações com as seguintes características, apresentam maior probabilidade de ser fraudulenta:

Capítulo 5. Resultados 51

• Idade(X<=30);

• DDD Celular (80<X<=85);

• Escolaridade (Ensino médio incompleto / Ensino fundamental).

5.2 Classiﬁcador Naive Bayes

Nessa seção, são descritos os resultados das aplicações dos CB Naive Bayes em modelos para detecção de fraudes em cartão de crédito, utilizando-se base de dados fornecedida por uma instituição ﬁnanceira, além do método Cross-Validation com dez partições para a obtenção das amostras, tanto de validação quanto de desenvolvimento.

A seleção de variáveis nos classiﬁcadores Naive Bayes, descrita na Seção 4.3, é feita com a ﬁltragem pelo ganho de informação. Todo esse processo foi desenvolvido utilizando o software WEKA. Algumas variáveis dummies da base de dados foram ordenadas por sua contribuição para o ganho de informação da variável resposta e são apresentadas na Tabela 13.

VariavelPreditora (nível) Ganho de informação

Renda(x<=830) 0.122343

Escolaridade (Ensino fundamental incompleto) 0.090027 Escolaridade (Ensino superior completo) 0.076596

Estado Civil (Casado) 0.060913

Estado Civil (Solteiro) 0.054200

Idade (<= 30) 0.052062 Renda (3.520<x<=7.000) 0.028694 Renda (x>7.000) 0.027905 Ocupação (Estudante) 0.021328 DDD (46<x<=61) 0.017705 Tempo de residência (x<=07) 0.015911 Negativação 0.015445 Número de dependentes (x=0) 0.009781 Tempo de residência (13<x<=15) 0.008937 Escolaridade (Pós-graduação) 0.008509 Renda (2.679<x<=3.520) 0.008218 Renda (2.083<x<=2.679) 0.006615

Tabela 14 – Algumas variáveis preditoras, ordenadas pela sua contribuição individual para o ganho de informação à variável resposta

Na tabela acima, pode-se notar que algumas variáveis dummies contribuem pouco para a previsão das operações fraudulentas e genuínas; por exemplo, Renda(2.083<X<=2.679) é a que menos contribui entre as variáveis citadas. Utilizando o método acima descrito, foram retiradas 44 variáveis dummmies da base de dados.

Capítulo 5. Resultados 52

Modelo TAG TAF ROC area Número de variáveis

Modelo Saturado 76.2% 74.6% 82.8% 80

Filtragem pelo ganho de informação 75.9% 74.1% 82.5% 36

Tabela 15 – Taxas de acerto das operações genuínas, das operações fraudulentas, área abaixo da curva ROC e número de variáveis dos classiﬁcadores Naive Bayes

Figura 13 – Trecho da estrutura da RB do classiﬁcador Naive Bayes com ﬁltragem pelo ganho de informação

O desempenho dos Classiﬁcadores Naive Bayes em relação às taxas de acerto da matriz de confusão e à área abaixo da curva ROC está sumarizado na Tabela 14. A ﬁltragem pelo ganho de informação não foi eﬁciente, pois a retirada de 44 varíaveis

dummies não contribuiu para o objetivo inicial: obter um modelo mais parcimonioso e

com maior poder preditivo. Há uma diminuição das taxas de de acerto das operações genuínas e fraudulentas e na diminuição da área abaixo da curva ROC, reduzindo, assim, a habilidade em discriminar as operações corretamente.

O modelo saturado apresentou o melhor resultado com maior área abaixo da curva ROC, discriminando melhor as operações genuínas e fraudulentas, além de maior assertividade nas previsões das operações fraudulentas.

Como ilustração da estrutura da Rede Bayesiana, na Figura 13, tem-se um trecho do que compõe a estrutura da RB do classiﬁcador Naive Bayes ﬁnal.

A Tabela 15 contém as probabilidades condicionais de uma operação se tornar fraudulenta, dada a observação da variável preditora. Baseado nessas informações, pode-se analisar quais características das operações inﬂuenciam no aumento ou diminuição da probabilidade de que sejam fraudulentas. Assim veriﬁca-se que algumas variáveis dummies contribuem para o aumento do risco da operação ser fraudulenta: Estado Civil (casado),

Capítulo 5. Resultados 53

Variavel (nível) P(O=1|C=1) P(O=0|C=1) P(O=1|C=0) P(O=0|C=0)

DDD (x<=20) 0.782 0.218 0.718 0.282

Estado Civil (Casado) 0.590 0.410 0.847 0.153

Negativação 0.870 0.130 0.756 0.244

Dependentes (=0) 0.556 0.444 0.440 0.560

Dependentes (2<x) 0.856 0.144 0.912 0.088

Ocupação (Estudante) 0.817 0.183 0.930 0.07

Educação (Sup. completa) 0.677 0.323 0.928 0.072

Tabela 16 – Probabilidades das operações se tornarem fraudulentas (ou não), dada a observação de cada variável preditora, isoladamente.

Belgede İlköğretim din kültürü ve ahlâk bilgisi müfredatında yer alan olumsuz ahlâkî eğilimlerin değerlendirilmesi (sayfa 87-94)