BÖLÜM 3: ARAŞTIRMANIN BULGULARI VE YORUMLARI
3.4. Yalan Tutumunun Bağımsız Değişkenlere Göre Korelasyon Sonuçları
As árvores de classificação são técnicas exploratórias e de previsão e foram popularizadas na literatura por meio do trabalho de Breiman et al. (1984) que propuseram um método de decisão por árvores binárias, conhecido como Classification and Regression Tree - CART. O principal propósito do método é explicar uma variável resposta. Quando a variável resposta assume valores categóricos, a árvore é tratada como árvore de classificação caso contrário é
denominada árvore de regressão. As variáveis explicativas podem ser tanto quantitativas quanto qualitativas de escala ordinal e nominal.
Taconeli (2008) propôs a construção de árvores de classificação multivariada que permitem tratar de forma conjunta mais de uma variável dependente categórica. Essa técnica se mostrou adequada para o presente estudo, pois permitiu modelar o efeito das características da firma sobre a dificuldade de adequação às exigências técnicas. Nesse caso, as nove variáveis dependentes (dificuldade de adequação) são variáveis ordinais com 5 categorias. Outra relação também modelada com o emprego dessa técnica foi o efeito das características e da dificuldade de adequação às exigências técnicas no desempenho exportador da firma. Neste caso, são duas variáveis dependentes (intensidade de exportação e diversificação de mercado) quantitativas a priori, porém categorizadas para a aplicação das árvores.
Ao se trabalhar com árvores costuma-se empregar a seguinte terminologia. Cada posição da árvore é chamada de um nó. O conjunto de dados completo é denominado nó inicial, os subconjuntos partidos denominam-se nós intermediários e os subconjuntos não partidos são tratados como nós finais. A Figura 8 apresenta a ilustração de uma árvore de classificação:
Figura 8 – Ilustração de uma árvore de classificação/regressão
O processo de construção das árvores envolve a definição de um critério para partir as amostras, a aplicação do processo de poda, a seleção do melhor modelo e a classificação dos nós finais.
Partição/Ramo Nó inicial
Nó intermediário Nó final
A construção de uma árvore consiste na seleção de divisões binárias em um nó específico, sendo que as partições dos nós podem ser executadas com base em qualquer resultado amostrado das variáveis independentes.
Seja
{
Yj,Xj}
,j=1,2,...,n, uma amostra de tamanho n de uma variável dependente Y e de um vetor p-dimensional de variáveis independentes X=(X1j,X2,j,...,Xpj). Considerando que Xl é uma variável ordenável e τ um dos resultados amostrados para Xl, pode-se partir a amostra em duas alocando elementos a nós distintos conforme resposta (positiva ou negativa) à questãoτ
≤
lj
X . Essa questão é feita para cada variável explicativa havendo uma questão para cada valor de τ . Se Xl é uma variável não ordenável, os elementos são alocados em nós distintos conforme resposta (positiva ou negativa) à questão "Xlj∈A?", sendo A um resultado (ou subconjunto de resultados) de Xl.
Para cada nó, o algoritmo realiza a pesquisa sobre todas as variáveis explicativas, uma a uma. Para cada variável, ele encontra a melhor partição, compara a melhor partição de cada variável e executa aquela responsável pela maior redução da heterogeneidade dos nós. O algoritmo é encerrado quando o nó resultante é o mais homogêneo possível em relação à variável dependente ou quando esse possui um número mínimo especificado de observações.
Para selecionar as partições é preciso definir alguma medida de heterogeneidade, sendo o coeficiente de entropia φ(t) comumente utilizado nos casos de árvores de classificação. Esse mede a heterogeneidade para um nó t , por meio da dispersão das freqüências amostrais em relação às categorias da variável resposta. O processo inicial de construção das árvores gera normalmente, árvores desnecessariamente grandes e com número de elementos em cada nó reduzido. Assim como em qualquer procedimento de modelagem estatística, deve-se buscar um modelo parcimonioso, no caso, uma árvore de tamanho (número de nós finais) reduzido, com baixa heterogeneidade em seus nós finais e elevada capacidade preditiva. Um caminho para a seleção de um tamanho ótimo para a árvore é o processo de poda.
O procedimento tem por objetivo a obtenção de uma seqüência de árvores de tamanho decrescente, cada uma das quais é ótima para seu tamanho específico. Baseia-se na determinação de uma árvore T que minimiza a seguinte função de custo-complexidade:
~ ) ( ) (T R T T Rα = +α , sendo ~
T o número de nós finais do modelo,
∑
⊂ = T t t n t n T R( ) ( / )φ( ) o custo de má-classificação de T e α ≥0 uma constante denominada parâmetro de complexidade. Variando o valor de α a partir de zero, árvores com números cada vez menores de nós finais minimizam )Rα(T . A obtenção da seqüência de árvores de tamanhos decrescentes se dá definindo a árvore T que minimiza Rα(T) para uma seqüência crescente de valores α . Dentre essas árvores, uma é selecionada mediante comparação de seus respectivos custos de más- classificações.Breiman et al. (1984) ressaltam a importância de se estimar as taxas de más-classificações das árvores com observações independentes daquelas utilizadas na construção do modelo. Caso as mesmas observações sejam utilizadas para construção e validação do modelo, as taxas de más- classificações serão subestimadas e sempre menores à medida que mais partições são executadas. Para tanto, recomenda-se a estimação das referidas taxas por meio de validação cruzada e seleção do modelo com base nas estimativas produzidas.
A classificação dos nós finais de árvores de classificação e regressão tem por objetivo caracterizar cada um dos nós constituídos e possibilitar a predição de novas observações. Em árvores de classificação, os nós são classificados pela categoria da variável reposta que aparece com maior freqüência, enquanto em árvores de regressão, pela média calculada entre os elementos de cada nó. A predição de novas observações é executada conduzindo-as pela árvore até um dos nós finais, segundo os valores apresentados para as covariáveis, e classificando-as segundo a medida descritiva calculada no nó final em que são alocadas.
A construção das árvores de classificação multivariada proposta por Taconeli (2008) utiliza os coeficientes de dissimilaridades e entropia. Tais coeficientes são aplicados visando quantificar a heterogeneidade dos nós constituídos, fundamentando a seleção das partições a serem executadas e a poda, e como medida de má-classificação na validação cruzada. Uma extensão multivariada do coeficiente de entropia, considerada neste trabalho, é apresentada na seqüência.
Sejam Y1,Y2,...Yq variáveis aleatórias dependentes qualitativas, cada uma com r possíveis i
( )
∑
( )
= = q i i Y H H 1 Y (9) Em que( )
∑[
(
)]
[
(
)]
= = = − = ri k k i k i i PY y PY y Y H 1 2log . Ou seja, define-se a entropia de um vetor de variáveis aleatórias como a soma das entropias avaliadas individualmente para cada variável. As probabilidades requeridas são desconhecidas, devendo ser estimadas pelas freqüências amostrais. Toma-se como medida de heterogeneidade dos nós φ
( )
t =Ht( )
Y , ou seja, a entropia multivariadacalculada com base nos elementos contidos em t, utilizando-a como base para a execução das
partições e como taxa de má-classificação no processo de poda.
Para o processo de seleção do modelo, Taconeli (2008) propõe o uso de coeficientes de dissimilaridades. Tais coeficientes são aplicados com o objetivo de quantificar a dessemelhança entre um par de elementos com relação a um conjunto de atributos. Taconeli (2008) propõe como medida de qualidade preditiva para uma nova observação y , independente daquelas utilizadas ∗
na construção da árvore e alocada, segundo o modelo, a um nó t, a dissimilaridade média de y ∗
com relação aos elementos que constituem o referido nó, conforme definido pela equação 10.
( )
/ Dis j t j t y d n φ ∗ ∗ ⊂ =∑
(10) em que dj ∗ a dissimilaridade de ∗y com relação a um elemento j⊂t.