Como visto anteriormente, em AM pode-se utilizar diferentes tipos de técnicas para re- alizar o aprendizado de um determinado conceito, e cada técnica apresenta seus termos característicos (Bittencourt, 2005). Nesta seção, os conceitos e definições dos termos de aprendizado supervisionado serão abordados, pois são relativos à técnica que foi utilizada nesta dissertação (Mitchell, 1997; Monard and Baranauskas, 2003).
• Acurácia: a acurácia de um classificador é a medida de desempenho obtida por este classificador para uma determinada tarefa. Essa medida é calculada de acordo com a taxa de predições corretas (precisão) ou incorretas (taxa de erro) realizadas por esse classificador para um determinado conjunto de dados, ou seja, é a quan- tidade de padrões que esse classificador acertou ou errou de acordo com a classe. Essa taxa de acurácia é, em geral, estimada utilizando um conjunto diferente do conjunto utilizado no processo de aprendizado, chamado de conjunto de teste. Há ainda outros meios de estimar a acurácia obtida por esse classificador, como o de utilizar técnicas ainda mais complexas, como validação cruzada (cross-validation) e bootstrap (Mitchell, 1997).
• Atributo: cada atributo (Xi) que compõem um conjunto de dados descreve uma
característica ou aspecto de um determinado padrão. Normalmente esses atributos são classificados como: nominais ou categóricos ou simbólicos, quando não existe nenhuma ordem entre os valores, e também de forma ordinais ou enumerados ou discretos, quando ao contrário da primeira classificação, os valores apresentam uma ordem linear. Ainda há outra característica que em alguns conjuntos de dados os atributos podem apresentar, que é a correlação entre eles. Ou seja, Ou seja, se há alguma relação entre os atributos do conjunto de dados. Em alguns tipos de indutores isso pode influenciar o resultado final, por exemplo, o algoritmo Naive Bayes.
• Classe: como mencionado anteriormente, no aprendizado supervisionado todo pa- drão possui um atributo especial (y) denominado rótulo ou classe, que descreve o fenômeno de interesse, isto é, o conceito que se deseja aprender para fazer previsões a respeito. As classes são tipicamente pertencentes a um conjunto nominal (C1, C2,
..., Ck) em problemas de classificação. As classes podem ser classificadas de duas
formas: como majoritária ou minoritária, dependendo da quantidade de padrões rotulados por cada classe. Isso quer dizer, quando comparada às demais classes, uma classe é dita majoritária se ela tiver o maior número de padrões, pertencentes ao conjunto de dados, rotulados com esta classe. Diferentemente acontece quando
2. Aprendizado de Máquina 13 uma classe é chamada de minoritária, que é a classe que tiver o menor número de padrões pertencentes a esta mesma classe.
• Classificador: dado um conjunto de padrões de treinamento, um indutor ou algo- ritmo gera como saída um classificador (ou hipótese) de forma que, dado um novo padrão, ele possa predizer sua classe com a maior precisão possível. Essa hipótese gerada pelo indutor pode ser no formato de regras, como acontece ao utilizarmos uma árvore de decisão (Seção 2.3.3), ou ainda em forma de uma rede neural, quando é utilizado um algoritmo do tipo multi-layer perceptron (MLP) (Seção 2.3.1). Os sistemas nos quais são utilizados diferentes classificadores para realizar a predição das classes, são chamados de Sistemas Multi-Classificadores (SMC) (Capítulo 3). • Conjunto de dados (conjunto de exemplos): é composto por um número de pa-
drões com seus respectivos valores de atributos. Ressalta-se que, no caso de apren- dizado supervisionado, a cada padrão também é associado um atributo especial chamado classe. É nesse conjunto de dados que o indutor é executado, para assim poder gerar uma hipótese que represente o conhecimento adquirido pelo mesmo. Normalmente, esse conjunto de dados é dividido em dois subconjuntos disjuntos: o conjunto de treinamento, utilizado para o aprendizado do conceito, e o conjunto de teste, utilizado para medir o grau de efetividade do conceito aprendido, ou seja, a taxa de acurácia obtida pelo indutor.
• Indutor: informalmente, o objetivo de um indutor (ou também conhecido como programa, algoritmo de aprendizado) consiste em extrair um bom classificador a partir de um conjunto de padrões rotulados. A saída do indutor, ou seja, o classifi- cador, pode ser usado para classificar novos padrões que ainda não foram rotulados, com o intuito de predizer corretamente o rótulo de cada um. Há na literatura diver- sos tipos de algoritmos que geram diferentes tipos de indutores, e o desempenho obtido por cada indutor irá depender do conjunto de dados que será fornecido para a classificação. Dessa maneira, cada indutor apresenta uma característica diferente, por exemplo, há indutores que têm melhores desempenhos em conjunto de dados em que os atributos não apresentam nenhuma correlação entre si, caso contrário haverá uma queda na qualidade dos resultados obtidos por esse indutor. Um outro exemplo de característica é que alguns indutores não trabalham bem em conjuntos de dados com alguns valores do tipo nominal, havendo novamente uma queda na eficácia desse indutor. Por esse motivo, é essencial que se tenha um prévio conhe- cimento do tipo dos dados que se quer analisar e das características dos indutores que serão gerados pelos classificadores que se deseja utilizar.
• Overfitting (super-ajustamento): isso acontece quando, após o treinamento, um classificador apresenta uma taxa de acurácia muito baixa para novos padrões, ou
2. Aprendizado de Máquina 14 seja, ao apresentar novos padrões para um classificador, o mesmo classifica errone- amente a maioria das classes desses padrões. Um dos motivos disto acontecer é que o classificador se especializou apenas nos dados que foram treinados. Essa espe- cialização pode ocorrer pela quantidade muito pequena de padrões no conjunto de treinamento, ou também por haver um número muito grande de padrões de apenas uma classe, havendo assim o desbalanceamento das classes, ou ainda, o conjunto de dados que foi fornecido para o treinamento não representa o conceito a ser apren- dido.
• Padrão: um padrão, também é conhecido como: objeto, exemplo, caso, experi- mento ou instância, é uma tupla de valores que descrevem um determinado número de atributos e um único atributo especial, chamado de classe ou rótulo (X1, X2, ...,
Xn; Y). Cada padrão descreve um objeto de um determinado conceito que se deseja
aprender. Uma descrição de um padrão pode ser os dados médicos de um paciente, ou ainda informações sobre alguma proteína encontrada no corpo humano, dentre outros exemplos. Em alguns conjuntos de dados é percebido que há a falta de algu- mas características de alguns padrões e quando isso acontece é dito que o conjunto de dados apresenta dados faltosos. Como mencionado anteriormente, apesar de ter seu desempenho afetado pela falta de informação de determinadas característi- cas para um determinado padrão, os algoritmos de AM conseguem lidar com esse problema. Mas há o caso em que é recomendado eliminar o padrão caso haja um número muito grande de dados faltosos, para que assim o desempenho do indutor não seja muito afetado.