Yararlanılan ve Başvurulabilecek Kaynaklar

O Paradigma Simbólico está fundamentado na construção de representa- ções simbólicas para a generalização do conhecimento. Em um problema de classificação, tais representações são formadas a partir do estabelecimento de relacionamentos lógicos entre os atributos de entrada que descrevem o con- junto de dados e os rótulos (classes) envolvidos no problema. Representações simbólicas podem estar no forma de uma expressão lógica, AD, regras ou rede semântica (Monard & Baranauskas, 2003). Um exemplo de uma lógica proposicional, que utiliza conjunções, disjunções e negações para representar relações entre os atributos individuais, é apresentado a seguir. Essa regra pode ser diretamente interpretada da seguinte forma: se um aluno obteve,

pelo menos, a nota mínima exigida em um curso e obteve a freqüência satis- fatória, ele será aprovado no curso.

Nota_Mínima_Atingida ∧ Freqüência_Satisfatória −→ APROVADO

Uma das premissas do Aprendizado Simbólico é a exigência de que as des- crições (representações) simbólicas sejam facilmente compreendidas e inter- pretadas em linguagem natural, de maneira similar à representação do co- nhecimento humano. Dessa forma, sistemas baseados nesse paradigma são denominados de sistemas orientados ao conhecimento. Sistemas desse tipo são muito úteis quando o modelo gerado precisa ser analisado por um espe- cialista da área do problema ao qual o sistema está sendo aplicado. Quando um sistema não é orientado ao conhecimento, ele é denominado de sistema de caixa-preta, uma vez que o modelo de generalização do conhecimento gerado não é diretamente interpretável.

Dois tipos de técnicas muito utilizados em AM simbólico e que foram utili- zados neste projeto são: técnicas para indução de ADs e técnicas para indução direta de regras. Esses dois tipos de técnicas são baseados em regras, com a distinção de que para o primeiro tipo as regras são obtidas após a construção da AD (método indireto de extração de regras), enquanto que para o último as regras de classificação são obtidas diretamente dos dados (método direto de extração de regras).

Para que um método de classificação baseado em regras funcione adequa- damente, o conjunto final de regras deve possuir duas propriedades funda- mentais. A primeira exige que as regras sejam mutuamente exclusivas, ou seja, que cada exemplo de entrada seja somente coberto por uma das regras do conjunto. Quando essa propriedade não pode ser atendida, duas soluções podem ser tomadas: ordenação das regras por ordem decrescente de priori- dade, de modo que a regra que primeiro cobrir um registro, seguindo a ordem estabelecida, seja selecionada; ou votação (comum ou ponderada) entre as re- gras que cobrem um exemplo. Outra propriedade exige que as regras sejam exaustivas, ou seja, que haja uma regra para cada combinação de atribu- tos. Quando essa propriedade não pode ser atendida, uma solução possível consiste na escolha de uma das classes como default (padrão), para o caso dos valores dos atributos de entrada não serem cobertos por nenhuma regra. Essas duas propriedades juntas (ou as soluções descritas para as mesmas) ga- rantem que cada exemplo seja coberto por uma regra e que não haja conflitos no modelo de classificação.

Árvores de Decisão

Uma AD é uma estrutura de dados definida recursivamente como: um nó folha que corresponde a uma classe ou um nó de decisão que contém um teste sobre algum atributo. Para cada resultado do teste existe uma aresta para uma subárvore. Cada subárvore tem a mesma estrutura que a árvore (Monard & Baranauskas,2003).

Na Figura 2.4é apresentado um exemplo ilustrativo de uma AD que utiliza informações climáticas para realizar a inferência se será possível jogar tênis em um determinado dia.

Figura 2.4: Exemplo de Árvore de Decisão (Mitchell, 1997)

A partir dessa AD, regras podem ser obtidas. Por exemplo, se o tempo es- tiver ensolarado e o índice de umidade estiver normal, as condições estarão propícias para se jogar tênis. Essa regra é representada a seguir:

Tempo = Ensolarado ∧ Umidade = Normal −→ JOGAR TÊNIS

A classificação de dados em uma AD se dá a partir da raiz em direção a alguma folha, que providencia a classificação. Nesse processo, ao testar um atributo em um determinado nó, move-se para baixo no ramo da árvore cor- respondente ao valor do atributo presente no dado de teste. O processo é então repetido para a subárvore enraizada no novo nó. Exemplos de algoritmos que induzem ADs são: ID3 (Quinlan,1986) e seu sucessor C4.5 (Quinlan,1993).

O algoritmo C4.5, que foi selecionado como uma das técnicas utilizadas neste projeto, induz ADs a partir de um mecanismo Top-Down. Nesse pro- cesso, a cada estágio, é feita uma decisão com base em uma medida interna denominada entropia. Tal decisão utiliza o valor de entropia de cada atributo para um conjunto de treinamento para definir qual atributo melhor classifica

o restante dos exemplos de treinamento.

Um problema comumente enfrentado por técnicas de AM que utilizam ADs é o super-ajustamento da hipótese aos dados, o que pode levar a uma queda significante do desempenho preditivo do modelo de classificação (Mitchell,

1997). Para evitar que isso ocorra, alguns mecanismos podem ser utiliza- dos. Entre eles, pode-se destacar a pré-poda e a pós-poda. A pré-poda tem como objetivo controlar o super-ajustamento durante a indução do modelo de classificação, o que pode ser feito, por exemplo, por meio do descarte de al- guns exemplos durante a fase de treinamento. A pós-poda consiste em tratar o super-ajustamento após a indução do modelo. Isso pode ser feito por meio do corte de alguns dos ramos da AD. Procedimentos de poda (prunning) como esses também podem ser aplicados a outras técnicas de AM, como métodos baseados em regras e ANNs.

ADs foram consideradas na implementação dos modelos hierárquicos in- vestigados neste projeto principalmente devido a sua alta legibilidade, ou seja, pelo fato de serem fáceis de entender e interpretar.

Extração Direta de Regras

Métodos que implementam extração direta de regras freqüentemente uti- lizam um algoritmo de cobertura seqüencial dos exemplos, que consiste em uma maneira gulosa (greedy) para obtenção das regras, tendo como base uma medida de avaliação. O conjunto de regras, inicialmente vazio, é incrementado a medida que as regras são selecionadas. Em cada iteração uma classe é ana- lisada, sendo considerada como positiva e todas as outras como negativas, e a melhor regra é selecionada para compor o conjunto de regras. É desejável que uma regra cubra a maioria dos exemplos positivos do conjunto de treinamento e nenhum (ou poucos) exemplo negativo.

O algoritmo RIPPER (Cohen, 1995) é um método de extração direta de regras muito utilizado. Para problemas multiclasses, o RIPPER ordena, de maneira crescente, as classes envolvidas no problema de acordo com a sua freqüência no conjunto de treinamento. A classe majoritária (com maior freqüên- cia no conjunto de treinamento) é escolhida como classe default e regras para cobrir as demais classes são geradas de maneira iterativa, iniciando-se pela menos freqüente. Para problemas binários o procedimento é o mesmo, com a diferença de que as regras só serão geradas para reconhecer uma classe - a classe minoritária, uma vez que a classe majoritária é escolhida como default. Esse algoritmo é particularmente adequado para construção de modelos para conjuntos de dados que apresentam desbalanceamento entre o número de exemplos das classes. Além disso, ele trabalha bem com dados com ruídos,

devido ao seu mecanismo de validação, que previne o super-ajuste da hipó- tese ao conjunto de treinamento. Essas potencialidades do RIPPER foram as principais motivações para a sua escolha como uma das técnicas utilizadas neste projeto.

Belgede Prof.Dr. Ahmet CEVİZCİ Editör Prof.Dr. Ahmet CEVİZCİ (Ünite 1, 2, 3, 4, 5, 6, 7, 8) Yazar FELSEFE (sayfa 63-69)