tivo
Nesta seção revemos alguns algoritmos de treinamento para máquinas de vetores de su- porte indutivas. No caso indutivo, o treinamento de máquinas de vetores de suporte é equivalente à solução de um problema de otimização convexo com restrições. Há diver- sos algoritmos de otimização na literatura que podem ser utilizados com este propósito, onde alguns se destacam por utilizarem diferentes técnicas para explorar as particulari- dades do problema. De qualquer forma, mesmo no caso de algoritmos iterativos, uma vez que o problema dual é resolvido e todas as restrições foram respeitadas, os parâme- tros resultantes são válidos e podem ser utilizados para construir uma regra de decisão equivalente a um hiperplano ótimo de separação.
Entretanto, no caso transdutivo não estamos interessados em estimar uma depen- dência funcional, mas apenas seus valores em dados pontos de interesse. Apesar desta tarefa não parecer tão complexa quantro treinar uma máquina de vetores de suporte indutiva, há o fator complicador de se considerar o conjunto de trabalho (xℓ+1, . . . , xℓ+k)
no processo de aprendizado.
De acordo com [Vap98], o problema de estimar rótulos (y∗
ℓ+1, . . . , yℓ+k∗ ) para o
conjunto de trabalho é análogo a um problema minimax, onde o máximo é dado pela solução de problemas de otimização quadrática e o mínimo é dado por todas as possíveis classificações do conjunto de trabalho. Portanto, para o caso de classificação binária, existem 2k possíveis conjuntos de rótulos que devem ser exaustivamente examinados
para garantir que a melhor solução seja encontrada.
É claro que uma busca exaustiva pela solução ótima não é possível quando k é muito maior que algumas poucas amostras. A alternativa, então, é utilizar rotinas
heurísticas que vasculhem este espaço de soluções com menos recursos computacionais, portanto fazendo com que o treinamento de máquinas de vetores de suporte transdutivas seja possível. Assim como no problema de otimização com restrições do caso indutivo, existem várias heurísticas na literatura para resolver o problema minimax. [RN95] faz a revisão de algumas destas técnicas para a solução de problemas minimax genéricos.
Também de forma análoga com o caso indutivo, as heurísticas de treinamento de destaque para o caso transdutivo são aquelas que consideram algumas das particulari- dades do problema. Entre elas, o trabalho de Joachims [Joa99] foi um dos primeiros a empregar máquinas de vetores de suporte transdutivas em problemas reais. Baseado em problemas de classificação de textos montados a partir de informações de frequência de palavras, Joachims introduziu o algoritmo TSVM baseado na mesma configuração dada pela Equação (3.20), com exceção do uso de diferentes constantes de flexibilização de margens C− e C+ para amostras negativas e positivas, respectivamente. Assim como a
maioria das heurísticas transdutivas, o TSVM começa a partir de uma solução indutiva do problema. A partir daí, ele incrementa iterativamente as constantes de flexibilização de margens. A medida que C− e C+ crescem, diferentes rótulos são permutados, onde
cada mudança resulta na solução de um novo problema de otimização. Apesar de não apresentar provas de convergência, Joachims relata que o TSVM é capaz de treinar uma máquina de vetores de suporte com mais de 10.000 pontos de interesse.
Chen et al. introduziram uma modificação ao algoritmo do TSVM, chamado má- quina de vetores de suporte transdutiva progressiva (PTSVM), eliminando a necessidade de se estimar a proporção entre amostras positivas e negativas no conjunto de trabalho [CWD03]. Os resultados do PTSVM foram melhores que os do TSVM em alguns casos, tanto em termos de acurácia quanto em termos de tempo de treinamento. Como ressal- tado pelos autores, isto sugere que mais pesquisas em diferentes heurísticas baseadas na
Capítulo 4
Construindo um Classificador
Transdutivo
Neste capítulo descrevemos as variações da teoria do aprendizado estatístico introduzi- das, assim como sua utilização no desenvolvimento de um novo método de aprendizado transdutivo.4.1
Transdutividade e Regras de Aprendizado
Os conceitos de transdutividade e aprendizado semi-supervisionado nem sempre são uniformemente empregados na literatura. Uma vez que suas diferenças, ou até sua co- existência, são sutís, há trabalhos que confudem os dois.
Vamos inicialmente examinar como a distinção entre aprendizado não supervi- sionado, supervisionado e semi-supervisionado se dá em função da disponibilidade de dados a priori. No aprendizado não supervisionado, deseja-se estimar rótulos associa- dos a um conjunto de dados sem conhecimento passado qualquer sobre os rótulos deste conjunto. No aprendizado supervisionado, há um conjunto de treinamento com rótulos
disponíveis para criar (ou induzir) uma regra de aprendizado, a partir da qual quaisquer pontos de interesse poderão ser avaliados (ou deduzidos) no futuro. No aprendizado semi-supevisionado, existe não só um conjunto de treinamento com rótulos a priori, mas também um conjunto de trabalho contendo amostras sem rótulo.
Em seguida, examinamos como a distinção entre aprendizado indutivo e transdu- tivo depende da criação de uma regra de aprendizado genérica. No aprendizado indu- tivo, uma regra é induzida a partir de dados disponíveis a priori. Mais tarde, esta regra é utilizada para novas amostras disponíveis apenas a posteriori. Se considerarmos que o objetivo de solução do problema é a classificação de pontos ainda sem rótulo, a criação de uma regra de aprendizado é a alternativa lógica para resolver o problema quando não há informação adicional sobre estes pontos a priori. No aprendizado transdutivo, por outro lado, todos os pontos de interesse devem estar disponíveis a priori, o que au- tomaticamente implica que uma solução transdutiva não precisa generalizar para outros pontos a não ser aqueles inicialmente propostos.
Apesar de não serem unânimes, estas definições são geralmente reconhecidas pela maioria da comunidade de teoria do aprendizado. Baseado nelas, é fácil ver que trans- dutividade e aprendizado semi-supervisionado não podem ser diretamente comparados. Além disso, podemos constatar que pode haver aprendizado semi-supervisionado indu- tivo assim como aprendizado semi-supervisionado transdutivo. A diferença entre os dois está exatamente na imposição do primeiro em criar uma regra genérica para ser utilizada na avaliação de pontos desconhecidos, enquanto o segundo está apenas interessado na estimativa imediata de pontos de interesse.
A motivação para se utilizar métodos de aprendizado semi-supervisionado, indu- tivos ou transdutivos, está na sua habilidade de incorporar toda a informação disponível
pontos sem rótulo pode fornecer uma melhor estimativa da distribuição de probabilida- des original do problema, o que levaria o modelo a ter uma acurácia superior e portanto melhores soluções.
Note que no aprendizado transdutivo semi-supervisionado, deve-se explicitamente estimar o valor dos pontos de interesse. No aprendizado indutivo semi-supervisionado, por outro lado, a saída do problema é uma regra de aprendizado capaz de avaliar quais- quer amostras no espaço do problema. Isto significa que modelos de aprendizado in- dutivos semi-supervisionados não necessariamente precisam estimar o valor dos pontos de interesse. Ao invés disso, assim que a regra genérica é induzida com o auxílio das informações adicionais fornecidas pelos pontos sem rótulo, esta regra é utilizada para classificar estes mesmos pontos. Esta estratégia de dois passos é adotada pela maioria dos métodos indutivos semi-supervisionados da literatura.