A. Ekolojik Sorunların Türleri
2. Çevre Kirlili ğ i
Para avaliação e validação da técnica CSPG, foram realizadas duas análises principais: 1. Análise de parâmetros: 1) definição dos melhores valores para parâmetros dos algoritmos
usados na análise comparativa; 2) estudo da sensibilidade dos parâmetros da técnica CSPG e seu impacto na classificação de dados reais obtidos a partir de séries temporais de imagens de satélite (Seção6.3).
2. Análise comparativa: comparação dos resultados de classificação obtidos pela CSPG em relação aos obtidos por técnicas propostas na literatura para classificação supervisionada e semissupervisionada (Seção6.4).
Para as duas análises, a abordagem usada nos experimentos consiste na classificação de cada área real da região de interesse em Cana ou NãoCana, baseada no comportamento de sua vegetação durante o período de uma safra de cana-de-açúcar. Assim, em cada experimento, são classificadas séries temporais de NDVI correspondentes ao período de abril de um ano até março do ano seguinte. A seguir, é detalhado o processo de geração dos conjuntos de dados usados nos experimentos.
6.2.1
Conjunto de dados
Cada conjunto de dados utilizado nos experimentos de classificação foi obtido a partir de uma SITS do satélite TERRA ou do NOAA. Além disso, um conjunto de dados está relacionado a apenas uma safra de cana-de-açúcar. Por exemplo, um conjunto de dados referente à safra de 2004/2005 contém instâncias que armazenam informações das áreas reais da região de interesse para o período de abril de 2004 a março de 2005.
Um conjunto de dados contendo n instâncias é definido por X = {x1, x2, ..., xn}, em que
uma instância x possui os seguintes atributos:
∙ lat: coordenada latitude da área real referenciada pela instância x. ∙ long: coordenada longitude da área real referenciada pela instância x.
∙ ts: série temporal de NDVI dada por ts = (s1, s2, ..., sm), e correspondente ao comporta-
mento do índice de vegetação na área de coordenadas (lat, long), ao longo de uma safra de cana-de-açúcar.
6.2. Metodologia do Estudo Experimental 61
É importante notar que ts é gerada a partir de uma SITS, usando o mesmo procedimento descrito na camada de Extração e Pré-processamento do framework SITSMining (Capítulo
4). Por isso, devido à diferença na resolução temporal dos satélites TERRA e NOAA, são obtidos diferentes valores de m: para o TERRA, o comprimento da série temporal de NDVI é m = 23, e para o NOAA é m = 12.
∙ y: rótulo da instância x, em que y = Cana se a área referenciada por x é de cana-de-açúcar, e y = NãoCana, caso contrário.
A definição completa dos conjuntos de dados usados nos experimentos é mostrada na Tabela2.
Tabela 2 – Definição do conjunto de dados.
Satélite NOAA ou TERRA
Safra ano safra de cana-de-açúcar
|X| (NOAA) 174.156
|X| (TERRA) 201.157
Atributo 1 lat ∈ R
Atributo 2 long ∈ R
Atributo 3 ts= (s1, s2, ..., sm), si∈ [−1,+1]
Atributo 4 y ∈ {Cana, NãoCana}
Fonte: Dados da pesquisa.
Para definição do rótulo de cada instância, é usada a máscara de cana-de-açúcar descrita na Seção 6.1. A máscara consiste em um conjunto de pares de coordenadas que referenciam as áreas reais de plantio de cana em uma determinada safra. Assim, se o par de coordenadas (lat, long) de uma instância x estiver presente na máscara, x.y = Cana, caso contrário, x.y =
NãoCana. Na Figura21, são ilustradas a máscara de cana-de-açúcar para a safra 2004/2005 e a
coloração da região de interesse de acordo com o rótulo de cada área.
Após a obtenção dos rótulos, o conjunto de dados X é particionado em dois conjuntos: ∙ XR: conjunto de instâncias rotuladas.
∙ XNR: conjunto de instâncias não rotuladas.
Seja |X| = n, as instâncias de XRe XNRsão amostradas aleatoriamente a partir de X, em
que |XR| = s e |XNR| = n − s. Para os algoritmos de classificação, os rótulos y das instâncias de
XNRsão omitidos e usados posteriormente para avaliação do resultado da classificação.
Nos experimentos, os conjuntos XRe XNRsão usados nas etapas de treinamento e teste dos
algoritmos de classificação. Entretanto o uso dos conjuntos está associado ao tipo de classificação utilizada:
Figura 21 – Máscara da safra 2004/2005 da cana-de-açúcar (a) e aplicação da máscara para rotulação dos pixels (b) da região de interesse.
(a)Máscara de cana. (b)Região de interesse com rótulos.
Fonte: Elaborada pelo autor.
1. Caso supervisionado: o treinamento do classificador é realizado usando apenas as instân- cias de XR. Para a etapa de teste, o objetivo é inferir o rótulo das instâncias de XNR.
2. Caso semissupervisionado: o classificador é treinado usando as instâncias de XRe XNR.
Para o teste, assim como no caso supervisionado, são classificadas as instâncias de XNR.
O processo de criação dos conjuntos de treinamento e teste a partir dos conjuntos XRe
XNRé ilustrado na Figura22.
Figura 22 – Processo de geração do conjunto de instâncias rotuladas e não rotuladas, e definição dos conjuntos de treinamento e teste para os casos supervisionado e semissupervisionado.
Conjunto de treinamento XR XNR Conjunto de teste Conjunto de teste Conjunto de treinamento Supervisionado Semissupervisionado X (atributo y desconhecido) Máscara de cana-de- açúcar X (atributo y conhecido) Amostragem aleatória Classe Cana Classe NãoCana
Fonte: Elaborada pelo autor.
Em um cenário real de classificação de séries temporais de NDVI, na ausência da máscara de cana-de-açúcar, a criação do conjunto de instâncias rotuladas XR provavelmente é realizada
pelo especialista no domínio de aplicação. Devido à complexidade dos dados analisados, o tempo e esforço humano necessários para rotulação de uma grande quantidade de instâncias são muito elevados, o que resulta na criação de um conjunto XR muito reduzido em relação ao tamanho
6.2. Metodologia do Estudo Experimental 63
de X. Por isso, para simular esse cenário real, os experimentos foram realizados com valores de amostragem s = {100,200,300,400} para o conjunto XR, o que corresponde a porcentagens
inferiores a 0.3% dos conjuntos de dados X usados nos experimentos.
Outro parâmetro, que mede o balanceamento entre as classes no conjunto XR, é definido
como a razão r entre a quantidade nRC de instâncias rotuladas da classe Cana e a quantidade
nRNC de instâncias rotuladas da classe NãoCana:
r= nRC nRNC
(6.1) em que nRC+ nRNC= s.
Um experimento preliminar foi realizado para verificar o valor de r para o qual os algoritmos usados na análise comparativa apresentam os melhores resultados de classificação. Os detalhes de execução desse experimento são apresentados na Seção6.3.
6.2.2
Algoritmos de classificação
Para análise comparativa com a técnica CSPG, foram usados algoritmos consolidados na literatura de classificação supervisionada e semissupervisionada. Foram selecionados três algoritmos de classificação supervisionada e dois de classificação semissupervisionada:
Classificação supervisionada
∙ K Nearest Neighbors (KNN) ∙ Support Vector Machines (SVM) ∙ Naive Bayes (NB)
Classificação semissupervisionada
∙ Transductive Support Vector Machines (TSVM)
∙ Linear Neighborhood Propagation (LNP)
Os algoritmos KNN e LNP foram implementados na linguagem C++, assim como a técnica proposta CSPG. Para SVM e TSVM, foi utilizado o software SVMLight4(JOACHIMS,
1999) e para o algoritmo Naive Bayes foi usado o pacote ’e1071’ (DIMITRIADOU et al.,2008), desenvolvido na linguagem R. Os melhores valores de parâmetros para cada algoritmo foram encontrados empiricamente e são apresentados na Seção6.3.
6.2.3
Avaliação dos resultados
A medida para avaliação dos resultados de classificação utilizada nos experimentos foi o MCC (Matthew’s Correlation Coefficient) (MATTHEWS,1975). O MCC foi adotado por ser mais robusto ao desbalanceamento de classes do que outras medidas tradicionais usadas em trabalhos de aprendizado de máquina e mineração de dados, como a acurácia, por exemplo. 4 http://svmlight.joachims.org/
Considerando a classe Cana como positiva, e NãoCana como negativa, a medida MCC é definida como:
MCC = V P×V N − FP × FN
p(V P + FP)(V P + FN)(V N + FP)(V N + FN) (6.2) em que:
∙ VP (Verdadeiro positivo): número de instâncias de Cana classificadas como Cana.
∙ VN (Verdadeiro negativo): número de instâncias de NãoCana classificadas como NãoCana. ∙ FP (Falso positivo): número de instâncias de NãoCana classificadas como Cana.
∙ FN (Falso negativo): número de instâncias de Cana classificadas como NãoCana.
A medida MCC avalia a qualidade de um resultado de classificação (quádrupla (V P,V N, FP, FN)) e está compreendida no intervalo [−1.0;+1.0]. O melhor e pior caso são ilustrados na Tabela3.
Tabela 3 – Melhor e pior caso na avaliação de um resultado de classificação usando MCC.
MCC VP + VN FP + FN Melhor caso +1.0 |XNR| 0
Pior caso −1.0 0 |XNR|
É importante destacar que, para todos os experimentos apresentados neste capítulo, cada valor de MCC corresponde à média de 10 valores MCC produzidos por execuções de classificação usando diferentes particionamentos de X em XRe XNR, amostrados aleatoriamente.