2. SÜRÛR-EFZÂ’NIN ŞEKİL VE MUHTEVA HUSUSİYETLERİ
2.2. MUHTEVA HUSUSİYETLERİ
2.2.5. Meclis ve Hikâyelerin Özetleri
2.2.5.36. Hisse Veren Hikâye
Alguns dos passos mais importantes no desenvolvimento de um modelo são transformação, padronização, e processos de qualidade nas variáveis. No caso da regressão logística em particular, segundo Hosmer e Lemeshow (2000), faz-se necessário a criação de variáveis dummy para as variáveis qualitativas, que sejam interpretáveis na equação logística resultante. Se tomarmos como exemplo as variantes de cartão: Electronic (E), Nacional (N), Internacional (I), e Gold (G), é necessário que se criem três variáveis dummy (número variáveis – 1), como na tabela 5.
Tabela 5 - Exemplo variáveis dummy
Fonte: dados trabalhados pelo autor
Variante Dummy_N Dummy_I Dummy_G
Electronic 0 0 0
Nacional 1 0 0
Internacional 0 1 0
Gold 0 0 1
No entanto, atualmente as ferramentas comerciais de Data Mining fazem a criação de
dummies automaticamente, ficando para um analista a tarefa de interpretá-las na
equação final. O importante é que após a finalização do modelo, é necessário verificar se não há correlação entre as variáveis que foram selecionadas, e para tanto é preciso transformar as variáveis qualitativas em dummies para calcular a matriz de correlação, como veremos mais à frente. Como usualmente o número de variáveis a serem avaliadas é grande, pode-se verificar a correlação após a seleção das variáveis pelo modelo, mas nada impede que algum processo automatizado verifique as correlações antes.
Para as variáveis contínuas, é interessante categorizá-las em três a quatro faixas, buscando melhorar sua relação com a variável resposta (critério de r2), maximizando a associação.
Para a regressão logística também é importante tratar as variáveis que contenham valores missing, ou seja, faltantes, pois estes valores não são levados em conta no cálculo, o que pode gerar perda de informações importantes. Há casos em que a
informação que falta é a mais significativa na discriminação e, portanto não pode ser desprezada. Para tanto, as informações missing serão transformadas para um valor constante: „-„ para as variáveis qualitativas. Para as variáveis quantitativas usualmente se imputa a média, para não perder a informação. A padronização das informações para modelagem foge ao escopo da dissertação, mas para os modelos desenvolvidos neste trabalho as variáveis foram padronizadas segundo o que preconizam Kimball e Ross (1996).
Quando as variáveis independentes quantitativas apresentam distribuições não lineares (logarítmica ou exponencial, por exemplo), concentrações em determinadas faixas, muitos domínios (variações possíveis nos valores) com relacionamento muito próximo em relação à variável resposta, e outras particularidades, as transformações podem melhorar em muito a resposta dos modelos, especialmente os de regressão logística, que não respondem tão bem para comportamentos não lineares que, no entanto, são muito bem tratados pelas redes neurais, por exemplo. Segundo os testes no desenvolvimento dos modelos, o agrupamento que mostrou o melhor resultado prático foi o “optimal binning for relationship to target”, ou agrupamento ótimo em relação à variável resposta. Esta é uma opção disponível no pacote estatístico SAS/Enterprise Miner, que faz automaticamente os agrupamentos testando os resultados em relação à variável resposta (o número de grupos é definido pelo usuário, sendo que o autor usualmente utilizou até quatro grupos).
Por exemplo, temos no gráfico 5 a transformação (agrupamento) da variável RENDA (Renda demográfica), segundo o melhor relacionamento com a variável resposta IND_VENDA (indicador de venda/não venda de cartão). As cores na legenda indicam o percentual de concentração em cada faixa.
Gráfico 5 - Transformação da variável Renda – Original e transformada
No gráfico 6, temos a transformação da variável idade, comparando-se a distribuição original e a transformada, na qual pode-se notar que há uma concentração na faixa etária compreendendo as idades entre 24 e 47 anos. Além disso, em relação à correspondência com a variável resposta nota-se que o grupo 1, que contempla as observações com valores missing tem o maior peso (negativo) na variável resposta (concentra as não vendas), enquanto os grupos 4 e 5 concentram o maior número de vendas.
Gráfico 6 - Transformação de variável: Idade
Além disso, também é importante agrupar as variáveis qualitativas que causam variações similares na variável resposta (por exemplo, se utilizar as Unidades Federativas SP e RJ resultam na mesma variação na variável resposta, faz sentido agrupá-las). Isso é mais importante nos casos em que o domínio é extenso e muitos grupos apresentam comportamentos similares. O critério de avaliação dos agrupamentos pode ser o índice GINI (a partir do valor 2 já é considerado como um agrupamento válido), ou o Valor Informacional (no trabalho em questão foi adotado o índice GINI, mas não há praticamente nenhuma diferença nos agrupamentos ao se empregar o Valor Informacional). No gráfico 7 temos o agrupamento da variável REG_DDD, que agrega a informação de “Capital” ou “Interior” aos Estados.
Grupo Descrição 1 Sem Informação 2 1 <= IDADE < 22 3 22 <= IDADE < 24 4 24 <= IDADE < 32 5 32 <= IDADE < 47 6 47 <= IDADE < 48 7 48 <= IDADE < 52 8 52 <= IDADE < 56 9 IDADE >= 56
Gráfico 7 - Agrupamento Interativo – Estados X informação de capital/interior
A parte superior do gráfico 7 mostra a variável REG_DDD com sua distribuição original, a saber, os Estados do Brasil divididos entre capital e interior. Na parte inferior esquerda, mostra-se o relacionamento de cada agrupamento (vide tabela 6) com a variável resposta IND_VENDA, e na parte inferior direita, mostra-se o peso de evidência de cada agrupamento (o grupo 4 mostra o maior diferencial em relação à variável resposta conforme os preenchimento em verde = não venda e vermelho = venda).
Tabela 6 - Agrupamento Interativo – Estado / Capital X Interior GRP_REG
_DDD AGRUPAMENTO
1
AL_Cap, AM_Cap, AP_Cap, BA_Cap, BA_Int, CE_Cap, ES_Cap, MA_Cap, MA_Int, MT_Cap, PA_Cap, PE_Int, PI_Int, RO_Cap, SE_Cap
2
CE_Int, MG_Cap, MG_Int, MS_Cap, PA_Int, PB_Cap, PE_Cap, RJ_Cap, RJ_Int, RN_Cap, RS_Cap, TO_Cap
3
AC_Cap, DF_Cap, ES_Int, GO_Cap, GO_Int, MT_Int, PI_Cap, PR_Cap, PR_Int, RR_Cap, RS_Int, SC_Cap, SC_Int, SP_Cap, SP_Int
4 AM_Int, sem_inf
No gráfico 8 encontra-se a transformação da variável mesref_risco: Ano de obtenção do pré-aprovado, que ilustra o agrupamento que será utilizado mais à frente na etapa de modelagem.
Gráfico 8 - Transformação da variável Ano do Pré-aprovado
Grupo Descrição
1 Missing
2 2004, 2005, 2006