Lima Deklarasyonu The Lima Declaration - ULUSLARARASI YÜKSEK DENETİM KURUMLARI STANDARTLARI (IS

4.1.2 Estimação dos parâmetros

A estimação dos parâmetros objetiva encontrar uma função logística em que se possa mensurar a importância de cada variável explicativa para a ocorrência do evento de interesse, ponderando-as uma a uma. Em outras palavras, tem a finalidade de predizer o impacto de cada uma dessas variáveis na ocorrência do evento de interesse. (FÁVERO et al, 2009)

De acordo com Hair Júnior (2009), o método da MV encontra as estimativas mais prováveis para os parâmetros maximizando a probabilidade de que o evento ocorra. Assim, é utilizada uma Função de Verossimilhança (FV) e os Estimadores de Máxima Verossimilhança (EMV) que são aqueles que maximizam o logaritmo desta função, o que é equivalente a maximizar a FV.

Atendendo ao pressuposto de que todas as n observações são independentes, a função de máxima verossimilhança é dada por:

e o logaritmo desta função de verossimilhança é dado por:

Segundo Fávero et. al. (2009), ainda sobre as estimativas da regressão logística, é importante conceituar o Risk Odds Ratio (ROR), calculado através da razão de chances de dois grupos (R0 e R1), obtido por meio da expressão a seguir:

Considerando o cálculo da probabilidade da ocorrência do evento de interesse, obtido pela expressão (4.1.4), tem-se que o odds ratio é dado por:

e (4.1.5) (4.1.6) (4.1.7) (4.1.8)

Assim, o ROR será calculado da seguinte forma:

Desta forma, substituindo as expressões (4.1.8) e (4.1.9) na expressão (4.1.10), tem-se:

Fazendo e

Então, substituindo as expressões (4.1.12) e (4.1.13) na expressão (4.1.11):

O conceito de odds ratio é essencial para a determinação do modelo logit (já citado anteriormente) que pode ser escrito também a partir do logaritmo do odds, de acordo com a equação abaixo:

Sabendo que a probabilidade de classificar o indivíduo no grupo de ocorrência do evento de interesse P(R1) é calculada da seguinte forma:

(4.1.9) (4.1.10) (4.1.11) (4.1.12) (4.1.13) (4.1.14) (4.1.15) (4.1.16)

Pode-se entender que o significado do intercepto (β0) é o logaritmo natural da chance

quando todas as variáveis explicativas são nulas e o conjunto dos demais coeficientes (βi)

representa a mudança no logaritmo natural da chance dada a variação de uma unidade em cada variável X associada.

4.1.3 Verificação da qualidade do modelo ajustado

Ao construir um modelo de regressão logística é necessário verificar se o mesmo se ajusta aos dados de maneira adequada antes de se extrair uma conclusão. Essa verificação pode ser feita utilizando testes de adequação ou através da matriz de confusão (tabela de contingência) que indica o número dos erros e acertos de classificação.

A principal medida de qualidade do ajuste do modelo de regressão logística, chamada

Deviance, consiste na diferença entre o logaritmo da função de verossimilhança do modelo

saturado, ou seja, aquele modelo que abrange todas as variáveis em estudo e as estimativas dos parâmetros correspondentes, e do modelo em investigação disposta da seguinte forma:

Em que _{é o logaritmo da função de verossimilhança do modelo saturado e o é} o logaritmo da função de verossimilhança do modelo em investigação.

Executado o teste Deviance, se a estatística do teste for menor que o valor de referência da distribuição Qui-quadrado, o modelo é adequado. A estatística D, sob a suposição de que o modelo ajustado está correto, tem distribuição assintótica Qui-quadrado com n-p graus de liberdade. (DAVID, 1996)

Além do teste Deviance, há outras possibilidades de avaliação do ajuste através de medidas estatísticas como o Pseudo R², o Teste Qui-quadrado e o teste de adequação global intitulado teste de bondade de ajuste de Hosmer – Lemeshow.

O Pseudo R² (R² logit) é representado, matematicamente, por:

O teste de bondade de ajuste de Hosmer – Lemeshow verifica se as classificações

previstas são iguais às observadas para cada grupo, dividindo as observações em decis e (4.1.17)

aplicando um teste Qui-quadrado que avalia se existem diferenças estatísticas significativas entre as frequências observadas e as esperadas em cada decil.

Os resultados obtidos pelo modelo e os observados na realidade, podem ser apresentados em um quadro ou tabela conhecidos por matriz de confusão ou classificação, que apresenta o número de acertos e erros de classificação, dispostos de maneira que os acertos encontram-se na diagonal principal, e os erros na diagonal secundária, onde se espera que estes últimos sejam iguais ou próximos a zero.

Quadro 2 - Matriz de confusão ou tabela de contingência

PREDITO 0 1 O B SE RVAD O

0 ACERTO (Verdadeiro Negativo) ERRO (Falso Positivo)

1 ERRO (Falso Negativo) ACERTO (Verdadeiro Positivo)

4.1.4 Curva ROC

Para analisar o poder preditivo do modelo, é necessário o estabelecimento de um ponto de corte, onde os valores de probabilidade acima desse ponto indicam a ocorrência do evento de interesse (Y=1), e os valores abaixo dele indicam a ausência desse evento (Y=0).

Um método bastante utilizado para determinar o ponto de corte é a Curva ROC (Receiver Operating Characteristic Curve), que é construída graficamente a partir dos valores calculados para a sensibilidade (verdadeiros positivos) e especificidade (verdadeiros negativos) de todos os possíveis pontos de corte. Quanto maior a área sob a Curva ROC, maior a capacidade do modelo de discriminar os grupos onde ocorre ou não o evento de interesse.

Figura 1: Curva ROC

Para avaliar o tamanho da área sob a curva, tem-se como referência que uma área menor ou igual a 0,5 representa um modelo onde não há discriminação, entre 0,6 e 0,8 há um poder discriminativo aceitável, e maior que 0,8 tem-se uma discriminação excelente, ou determinando um intervalo de confiança para a área onde o valor 0,5 está abaixo do limite inferior deste intervalo. (FÁVERO et al, 2009)

Analisando a curva ROC, o ponto de corte ideal deve-se basear na combinação ótima entre a sensibilidade e 1-especificidade, localizada graficamente no canto superior esquerdo do quadro, onde os verdadeiros positivos estão classificados como 1 e os falsos positivos como 0.

Outra maneira de determinar o ponto de corte seria através do cálculo da distância entre cada ponto observado e o ponto (0,1). Essa distância pode ser calculada da seguinte forma:

Em que _{representa a sensibilidade e , a especificidade e o ponto ótimo seria} determinado pela menor distância calculada. (HOSMER; LEMESHOW, 2000)

Belgede ULUSLARARASI YÜKSEK DENETİM KURUMLARI STANDARTLARI (ISSAI) -I- (sayfa 24-40)