Bitki büyüme parametreleri - Program Kodu: Proje No: 117Z539. Proje Yürütücüsü: Araş. Gör. Dr.

4. BULGULAR

4.1 Bitki büyüme parametreleri

Foi elaborado um modelo baseado em árvore de decisão para predizer a CV detectável (EV8), tendo em vista que este desfecho é de extrema relevância no seguimento de PVHA, por ser determinante de outras complicações. Assim, a elaboração deste modelo decisório teve por objetivo determinar os indivíduos que não estariam com a CV indetectável após os 12 meses de acompanhamento. Entre os modelos de decisão, escolheu-se a elaboração de uma árvore de decisão por sua facilidade de interpretação e aplicabilidade clínica. Enquanto os modelos explicativos, como o Modelo de Cox também realizado, avaliam o risco associado aos fatores estudados como antecedentes, a árvore de decisão permite criar regras de decisão a partir de informações disponíveis (TURBAN; ARONSON; LIANG, 2004) e pode ser útil na tomada de decisões, na classificação de dados e na predição de saídas, possibilitando visualização gráfica das decisões e suas consequências (SOARES et al, 2013). Assim, optou- se por utilizar esta ferramenta adicional visando apresentar as informações no formato de tomada de decisão.

A árvore de decisão é um modelo estatístico que utiliza um treinamento supervisionado para a classificação e previsão de dados. Utiliza uma função que apresenta o banco de dados como um vetor de atributos e uma decisão como valor de saída. Seu funcionamento se dá pela divisão subsequente do conjunto de dados de forma a separá-lo em um subconjunto homogêneo, com casos de única classe (SATO et al., 2013), que constitui a decisão para aquele subconjunto final. Sua estrutura é semelhante a uma árvore invertida, formada por nós, ramos e folhas. Os nós são as regiões de separação dos dados pelos testes lógicos, sendo o primeiro nó chamado de nó raiz ou nó principal, dele se originam os nós filhos ou internos. Os ramos são os valores do atributo de saída de um nó, que se conectam ao nó filho e as folhas são as regiões associadas a um rótulo de valor (SATO et al, 2013). As

informações do banco de dados são apresentadas ao nó inicial da árvore de decisão, que representa um dos atributos (variável decisória), a depender do resultado, a árvore ramifica-se gerando decisões que originam duas folhas ou nós internos (intermediários ou decisórios) (SOBRAL, 2003). A partir deste resultado, a repetição deste procedimento ocorre subsequentemente criando novos nós internos em vários níveis até alcançar um nó terminal que apresenta a variável de decisão. A estrutura geral de uma árvore de decisão está apresentada na figura 12.

A classificação e previsão dos dados ocorre pela identificação dos subconjuntos a partir de cálculos de probabilidade das decisões no conjunto de dados e em todos os subconjuntos de variáveis independentes relacionadas à decisão. Escolheu-se o modelo de árvore de decisão J48, que está disponível no aplicativo Waikato Environment for Knowledge

Analysis (WEKA) versão 3.8.0., e corresponde a uma implementação de código aberto em

Java do algoritmo C4.5, com fácil aplicabilidade. Este algoritmo utiliza o índice de entropia para medir a heterogeneidade, o ganho e a razão de informação, como critérios para selecionar as variáveis que participam dos nós a cada etapa e subdivisão dos conjuntos (LIN; CHEN, 2011).

Figura 12 – Estrutura geral de uma árvore de decisão. 1 - Nó raíz ou principal (com atributo preditivo ou variável decisória). 2, 3 e 5 – Nós internos ou filhos (com variáveis decisórias de níveis intermediários). 4, 6, 7 e 8 – Folhas ou nó terminal (com o valor da variável de decisão). Ramos são as conexões entre os nós que contém os valores dos atributos de cada variável decisória

Para avaliar a entropia, inicialmente calcula-se a informação, definida como Info (S) para um dado conjunto de treinamento (S), conforme a equação 19:

onde: |S| é o número de casos no conjunto de treinamento, Ci é a classe, i={1,2,...,k}, k é o número de classes e freq (Ci,S) é o número de casos em Ci.

Na sequência é calculado o valor da informação esperada para uma variável X da partição S, definido por Infox (S), de acordo com a equação 20:

onde: L é o número de saídas para a variável X, Si é um subconjunto de S e |S| é o número de casos no subconjunto Si.

A partir da entropia calculada dos subconjuntos é possível determinar a variável que apresenta maior Ganho de Informação (GI) e que irá compor o nó raiz e a sequência de nós pela repetição do procedimento (LIN; CHEN, 2011). O GI é calculado utilizando-se a equação 21, a partir dos resultados das equações anteriores:

O critério de ganho seleciona como atributo-teste o que maximiza o GI, preferindo aqueles com muitos valores possíveis, ou seja, as variáveis com muitas categorias tenderiam a ser mais incluídas na árvore. Isto na prática pode gerar um problema na aplicabilidade, pois árvores muito ramificadas nem sempre são fáceis de serem utilizadas como instrumento rotineiro. Diante disso Quilan (1996) propôs o conceito Razão de Ganho que corresponde ao GI relativo (ponderado) como critério de avaliação, e foi definido conforme a equação 22:

Assim, utilizando esses conceitos consecutivamente a partir dos ganhos de informação e razão de ganho, as variáveis vão sendo selecionadas em cada nó e a árvore vai se ramificando até a decisão desejada. Desta forma percebe-se que a variável do nó raiz realmente tem um poder de informação melhor, enquanto que a medida que a árvore se ramifica e se aproxima da decisão, as variáveis que participam dos novos nós são obtidas a

partir de novos subconjuntos gerados (MEDEIROS et al, 2014). Isto justifica porque algumas variáveis apesar de clinicamente ou epidemiologicamente importantes muitas vezes não são selecionadas para os nós e a medida que se modifica, se exclui ou se adiciona alguma variável ao aplicativo, podem ocorrer mudanças importantes no aspecto da árvore.

Após a elaboração da árvore a partir do banco de dados, considerado como conjunto de treinamento, é possível avaliar o desempenho e os progressos na aprendizagem do modelo a partir da técnica cross-validation, que tem como base a simulação das regras em dados aleatórios do banco de dados, tornando-se importante nos modelos de predição. Nesta pesquisa foi adotado o cross-validation de 10%, que resulta da divisão aleatória da base de dados em 10 subconjuntos, sendo considerado um valor pertinente para se obterem medidas mais precisas (MEDEIROS et al, 2016).

A partir da árvore é possível elaborar regras de decisão e gerar uma matriz de confusão, que é uma medida de qualidade do método. As regras são representações textuais da árvore, obtidas da estrutura da árvore a partir da identificação dos atributos que conduzem à decisão. Percorre-se a árvore a partir do nó raiz, através dos nós internos e ramos em direção ao nó terminal (folha) com a decisão. Este caminho representa um subconjunto homogêneo de variáveis associadas à decisão, permitindo estabelecer uma regra pela intersecção das informações dos nós e ramos. Assim, as regras são compostas pelos ‘antecendentes’, que são as categorias das variáveis presentes nos nós (condição), e pelo ‘consequente’, que é a decisão ou conclusão a partir de cada nó (WEKA, 2016). Nas árvores de decisão os antecedentes que constituem a regra até a decisão podem utilizar conectores como “E”, pois a sequência da ramificação se dá por adição de novas condições para que se verifique a parte consequente (decisão).

A matriz de confusão é formada pelos erros e acertos das decisões do modelo e permite avaliar o desempenho da árvore de decisão (BECKMANN, 2010). Ela detalha os acertos e erros produzidos pela árvore quando as regras são aplicadas. É gerada uma matriz 2 por 2, na qual se observa a classificação verdadeira nas colunas, e a decisão obtida pela árvore nas linhas. A matriz está descrita a seguir (23), onde se observa que a diagonal principal (a11 e a22) contém a quantidade de acertos na decisão, sendo (a11) os verdadeiros positivos e (a22) os verdadeiros negativos (MEDEIROS et al, 2014). Em (a12) são os casos classificados como falsos positivos pela árvore e em (a21) são os casos falsos negativos. Esta é uma definição global para qualquer decisão (a) e (b) em um nó terminal. Nesta pesquisa a decisão no nó terminal foi a CV detectável após o seguimento de 12 meses (EV8), e definiu-se (a) quando a

resposta foi EV8 = 1 (indivíduo com CV detectável) e (b) quando a resposta foi EV8 = 0 (indivíduo com CV indetectável).

A partir da matriz de confusão foi possível calcular a sensibilidade, especificidade, valor preditivo positivo, valor preditivo negativo e a acurácia do modelo. A acurácia foi obtida pela razão expressa na equação 24 (MEDEIROS et al, 2014):

Para a construção da árvore de decisão foram apresentadas as mesmas covariáveis utilizadas no modelo de Cox, excetuando-se o resultado da EBIA em 4 grupos, a faixa etária e a ocupação. Preferiu-se utilizar o resultado da EBIA categorizado em 2 grupos, conforme feito também na análise de sobrevida, pois os ramos obtidos da categorização em 4 grupos, geravam árvores maiores e com menor percentual de acerto na classificação total. A faixa etária foi excluída por gerar uma classificação confusa em um dos ramos, destoante dos dados descritos na literatura, e esta exclusão não prejudicou a classificação global do conjunto. A ocupação também foi excluída por apresentar várias categorias com n pequeno em algumas delas, prejudicando a interpretação e aplicabilidade. Assim permaneceram 11 covariáveis como atributos para a decisão (antecedentes) apresentados no quadro 10, e a decisão (consequente) foi o indivíduo apresentar CV detectável ao final do seguimento.

Quadro 10 – Antecedentes apresentados ao aplicativo WEKA para elaboração da Árvore de decisão J48 para a decisão CV detectável após 12 meses de seguimento

Sexo Raça

Situação afetiva Escolaridade

Faixa de renda per capita

Tempo de diagnóstico Tempo de uso de TARV

Segurança alimentar em 2 categorias (SA/IAL ou IAMo/IAG) Carga viral no cadastro

Contagem de células CD4 no cadastro Adesão ao tratamento

O grau de concordância das medidas foi avaliado pela estatística Kappa, que se baseia no número de respostas concordantes interobservador e mede o grau de concordância além do que seria esperado pelo acaso. O Kappa informa a proporção de concordância não aleatória entre as medidas, que é dada pelos valores obtidos, com a seguinte interpretação: <0,00 = não existe concordância; 0,00-0,20 = mínima; 0,21-0,40 = razoável; 0,41-0,60 = moderada; 0,61- 0,80 = boa; 0,81-0,99 = ótima e 1,00 = perfeita (LANDIS; KOCH, 1977).

Belgede Program Kodu: Proje No: 117Z539. Proje Yürütücüsü: Araş. Gör. Dr. Rengin ÖZGÜR UZİLDAY. Araştırmacı: Dr. Öğr. Üyesi Barış UZİLDAY. (sayfa 29-0)