Araştırmaya Dayalı Öğrenmenin Sınıflandırılması

Conexionismo (“parallel distributed processing”, “neural networks” ou “neurocomputing”) é, originalmente, o nome dado a modelos de redes neurais que tentam emular o funcionamento de processos cognitivos. Tais sistemas, em vez de apenas receberem e processarem informações, são capazes de aprender a partir da experiência com os estímulos a que são expostos, estando aptos, portanto, a simular a forma como o cérebro humano armazena e acessa informações lingüísticas:

Os modelos conexionistas surgiram com o objetivo de simular [a] topologia neurológica do cérebro. Vários elementos computacionais simples, semelhantes a neurônios, são interconectados em redes, recebendo, em paralelo, simultaneamente, sinais uns dos outros através de suas conexões, exercendo uma influência mútua entre si. (CIELO, 1998, p. 45)

Outra característica importante das redes conexionistas é o fato de elas poderem ser arquitetadas com um algoritmo interno que lhes possibilita a aprendizagem de padrões para os quais foi construída:

Os modelos conexionistas podem ser treinados para desempenhar diversas tarefas, tais como prever o reaparecimento de um objeto por detrás de uma tela, flexionar um verbo no passado, prever a palavra seguinte numa frase, categorizar objetos, categorizar sons de fala, sonorizar um texto escrito, pegar uma bola ou equilibrar uma régua. Em cada caso, o algoritmo de aprendizagem vai ajustando cuidadosamente a força das conexões na rede até alcançar um desempenho similar ao de um adulto. (PLUNKETT, 2000, p. 114-115)

Uma das grandes vantagens dos modelos conexionistas é o fato de ajudarem no estudo da cognição, demonstrando, de forma explícita, como a aprendizagem ocorre dentro das redes. Existem vários modelos de redes neurais, mas, em linhas gerais, pode-se dizer que eles partilham algumas características, a saber (Cf. ELMAN, 1998a):

x Em modelos conexionistas, o processamento é feito por grupos de elementos chamados nós ou unidades. Esses itens são elaborados para imitar neurônios, e o acesso a um desses nós se reflete nos demais;

x Em vez de utilizarem representações simbólicas, as redes empregam padrões de ativação ao longo de diferentes unidades;

x Através de algoritmos de aprendizagem, as redes são capazes, por si mesmas, de atribuir diferentes pesos para as conexões, dispensando, portanto, que um ser humano faça tais ajustes;

x Relacionando formas de entrada (estímulo apresentado) com formas de saída (resultado alcançado), a rede ajusta os pesos das conexões e melhora seu desempenho através de sucessivos treinamentos.

Nos parágrafos seguintes, discutiremos os principais modelos conexionistas já propostos na literatura lingüística. Procuraremos explicar sua arquitetura e apresentar os resultados que eles conseguiram alcançar.

Rumelhart e McClelland (1986) são considerados os pioneiros no desafio de avaliar se uma rede neural poderia aprender padrões similares aos adquiridos pelos seres humanos. Os autores aplicam o Modelo Conexionista ao processo de aprendizagem do passado dos verbos do inglês. Essa flexão foi escolhida porque a regularização que crianças fazem na aquisição dos verbos (aplicando o sufixo –ed a verbos irregulares, como “bring”/“bringed” ou “think”/“thinked”) é comumente citada como uma evidência da atuação de regras no léxico mental. Como os autores têm a intenção de negar esse postulado teórico (necessidade de regras), escolheram essa flexão para verificar se o modelo conexionista seria capaz de aprender a flexionar verbos do inglês sem usar regras abstratas. A fim de testar a viabilidade dessa hipótese, os autores elaboram uma rede neural com a seguinte estrutura (Cf. RUMELHART; McCLELLAND, 1986, p. 222):

Figura 1: A estrutura básica do Modelo Conexionista de Rumelhart e McClelland (1986)

O modelo proposto por Rumelhart e McClelland (1986) consiste de duas partes básicas:

(a) a simple pattern associator network [...] which learns the relationships between the base form and the past-tense form, and (b) a decoding network that converts a featural representation of the past-tense form into a phonological representation. All learning occurs in the pattern associator; the decoding network is simply a mechanism for converting a featural representation which may be a near miss to any phonological pattern into a legitimate phonological representation. (RUMELHART; McCLELLAND, 1986, p. 222-223)

No modelo de Rumelhart e McClelland (1986), a representação fonológica dos itens léxicos é feita através de “Wickelphones” e “Wickelfeatures”. Essa abstração decorre de um esquema proposto por Wickelgren (1969), segundo o qual cada palavra é representada por unidades designando um fonema, seu antecessor e seu sucessor. Esses seriam os Wickelphones. De acordo com essa estrutura fonológica, quando o radical de um

Wickelfeature representation of root form Wickelfeature representation of past tense Phonological representation of past tense Phonological representation of root form Pattern Associator

Modifiable Connections Decoding/Binding Network Fixed

Encoding Network

verbo do inglês é apresentado ao modelo, ele o codifica em Wickelphones que gerarão, através de conexões múltiplas, uma representação de passado, também utilizando essa mesma codificação. Um dos problemas dessa representação é que ela precisa de um número enorme de combinações para conseguir cobrir todas as seqüências possíveis da língua; por causa disso, Rumelhart e McClelland (1986) adotam a noção de Wickelfeatures, representando os traços de cada um dos fonemas, permitindo que uma quantidade menor de informações seja arquivada.

Os modelos conexionistas tentam simular as peculiaridades da mente humana, portanto “[...] they consist of large numbers of simple processors, known as units (or nodes), which are densely interconnected into a complex network, and which operate simultaneously and co-operatively to solve information processing problems.” (CHRISTIANSEN; CHATER, 2000, p. 4). Dentro dessa perspectiva, o funcionamento básico do modelo se dá da seguinte forma:

When each input is presented, it is fed through the network, and the output is derived. The output is compared against the correct “target” value and the difference between the two is calculated for each output unit. The squared differences are summed over all the output units, to give an overall measure of the “error” that the network has made. The goal of learning is to reduce the overall level of error, averaged across input/target pairs. (CHRISTIANSEN; CHATER, 2000, p. 4)

Portanto, quando o modelo se depara com uma “entrada” (input), ele produz um “resultado” (output) e este é comparado com um alvo, que é a forma real (gramaticalmente correta) daquela palavra. A diferença entre a forma produzida pelo modelo e a forma esperada é calculada para cada resultado alcançado e, através de ajustes na rede, o sistema vai aprendendo a fornecer as formas corretas para as palavras apresentadas.

O Modelo Conexionista pressupõe a aprendizagem sem a noção de regras simbólicas. Rumelhart e McClelland (1986) esclarecem que o desempenho lingüístico é caracterizado por regras, mas essas não precisam, necessariamente, estar explícitas no mecanismo de aquisição e acesso a informações lingüísticas, ou seja, as regras são uma generalização a partir da realidade lingüística, mas a aprendizagem não se dá, obrigatoriamente, através delas. Como não há regras formais a serem aprendidas, o processamento da linguagem ocorre através do ajuste gradual de conexões feitas entre os nós na recepção de entradas e produção de resultados.

No treinamento do modelo conexionista proposto por Rumelhart e McClelland (1986), foram utilizados 506 verbos extraídos do Corpus Kuÿera e Francis (1967). As freqüências de ocorrência desses verbos foram consideradas tendo como base a freqüência do gerúndio. Havia 10 verbos de alta freqüência, 410 de média e 86 de baixa freqüência. No primeiro estágio de treinamento, o modelo recebeu os 10 verbos mais freqüentes, sendo oito regulares e dois irregulares. Posteriormente, no decorrer do treinamento, o modelo recebeu os 410 verbos de média freqüência (334 regulares e 76 irregulares) e, mais adiante, os 86 de baixa freqüência (72 regulares e 14 irregulares).

Depois de algum tempo de treinamento, o modelo de Rumelhart e McClelland (1986) obteve 90% de acerto na flexão verbal de passado e foi capaz de produzir resultados não somente para aqueles itens com que foi treinado, mas para qualquer palavra apresentada, pois se tornou apto a generalizar através do mapeamento entre as entradas e os resultados (palavras apresentadas ao modelo e formas de passado produzidas por ele).

Um dos grandes sucessos alcançados pelo Modelo Conexionista na aprendizagem do passado dos verbos do inglês é o fato de ele conseguir reproduzir as três fases do desenvolvimento da criança na aquisição dessa flexão41_{: 1) Utilização de poucos} verbos na forma de passado, geralmente os irregulares e de alta freqüência de ocorrência; 2) Regularização de vários verbos segundo o paradigma da desinência –ed, inclusive os já aprendidos no estágio anterior; 3) Coexistência dos verbos regulares e irregulares em suas formas corretas, embora regularizações ainda possam ocorrer, inclusive na fase adulta, devido à baixa freqüência de alguns verbos. Conforme mencionamos anteriormente, o Modelo Conexionista seguiu essas mesmas etapas na aprendizagem da flexão de passado dos verbos do inglês. A avaliação dos autores sobre o modelo é a seguinte:

We have shown that a reasonable account of the acquisition of past tense can be provided without recourse to the notion of a “rule” as anything more than a description of the language. We have shown that, for this case, there is no induction problem. The child need not figure out what the rules are, nor even that there are rules. The child need not decide whether a verb is regular or irregular. There is no question (as far as generating the past-tense form is concerned) as to whether a verb form is one encountered many times or one that is being generated for the first time. A uniform procedure is applied for producing the past-tense in every case. The base form is supplied as input to the past-tense network and the resulting pattern of activation is interpreted as a phonological representation of the past form of that verb. This is the procedure whether the verb is regular or irregular, familiar or novel. (RUMELHART; McCLELLAND, 1986, p. 267)

41_{O processo de desenvolvimento pelo qual a criança passa na aquisição da flexão verbal do inglês é} conhecido como “aprendizagem em forma de ‘U’” (“U-shaped learning”).

Apesar de bem-sucedido na aprendizagem da flexão de passado do inglês, o modelo de Rumelhart e McClelland (1986) sofreu algumas críticas, dentre as quais podemos citar (Cf. PINKER; PRINCE, 1988, 1994):

1) O fato de o modelo ter sido treinado com um corpus composto primordialmente por verbos irregulares pode ter sido o responsável pela exibição da aprendizagem em formato de “U”, um dos grandes sucessos atribuídos ao modelo. Na aquisição natural da linguagem, as crianças apresentam esse desenvolvimento, mas são expostas, desde o primeiro momento, a todos os tipos de verbos, não apenas aos irregulares;

2) A utilização de Wickelfeatures pode gerar ambigüidades. Essa representação utiliza traços dos fonemas, mas não os segmentos propriamente ditos, o que pode causar equívoco na identificação de diferentes palavras. Outra falha da “Wickelfonologia” é o fato de ela não considerar a posição dos segmentos, mesmo sendo essa uma noção fundamental para que determinadas sub-regularidades dentro dos verbos irregulares sejam abstraídas, como, por exemplo, “ring”/“rang”, “sing”/“sang”; 3) O modelo baseia-se somente em informações fonológicas para produzir formas de

passado, no entanto os falantes lançam mão de informações de outras fontes, não só a fonética, para flexionarem os verbos. Existem formas homófonas, como “ring”/“rang” e “wring”/“wrung”, que dependem de diferenciação semântica para que as formas corretas de passado sejam geradas. Por causa disso, informação puramente fonológica não é o bastante para a produção de formas de passado.

A partir das críticas supracitadas, Pinker e Prince (1988, 1994) defendem a necessidade de regras para produzir as formas regulares da língua, por isso propõem um novo modelo para a estocagem de informações no léxico mental. Esse modelo é chamado “Teoria de Palavras e Regras” e será discutido na próxima subseção.

Após as críticas feitas ao modelo de Rumelhart e McClelland (1986), alguns outros modelos conexionistas foram elaborados, com o objetivo de sanar os problemas apresentados nessa primeira proposta de rede neural. Explicaremos, nos parágrafos subseqüentes, os modelos conexionistas mais relevantes já propostos na literatura lingüística e os sucessos por eles alcançados.

Plunkett e Marchman (1991) criaram um léxico artificial que preservava informações sobre os verbos do inglês. Esse léxico apresentava seqüências de CVC42_{, VCC} e CCV, que não correspondiam a conjuntos reais de sílabas do inglês, mas respeitavam a fonotática da língua. Informações sobre a posição dos segmentos eram, também, preservadas, ao contrário do que acontecia no modelo de Rumelhart e McClelland (1986). A noção de Wickelfeatures foi, portanto, abandonada. A freqüência de tipo (de um determinado padrão de forma de passado) e a de ocorrência (número de vezes em que uma ocorrência específica foi apresentada à rede) foram, também, controladas. Um corpus de 500 verbos foi utilizado como treinamento para o modelo. Essa rede continha algoritmos e divisões intermediárias: em vez de somente duas camadas (de entrada e saída), o modelo continha, também, “camadas ocultas” (“hidden layers”). A vantagem dessa arquitetura é que as camadas de entrada e saída são predeterminadas pela codificação de segmentos adotada, mas a camada “oculta” não é definida a priori e pode seguir qualquer tipo de representação que facilite a aprendizagem.

O modelo de Plunkett e Marchman (1991) foi capaz de dominar os diferentes tipos de flexão regular e irregular a que foi exposto, além de apresentar as mesmas fases de desenvolvimento da criança quando aprende os verbos do inglês, sem que fossem utilizados somente verbos irregulares no início do treinamento. Para que a rede aprendesse as irregularidades, uma interação entre freqüência de tipo e de ocorrência foi necessária, nos seguintes termos: mapeamentos arbitrários entre a forma de presente e a de passado dos verbos (baixa freqüência de tipo) foram aprendidos de forma adequada quando tinham freqüência de ocorrência suficientemente alta.

Uma peculiaridade importante da flexão de passado dos verbos do inglês é a seguinte: existe a regra geral para verbos regulares (adição do morfema –ed), mas há alguns verbos que, apesar de irregulares, pertencem a padrões de sub-regularidades (Cf. PINKER; ULLMAN, 2002a), tais como mudança de vogal (“ring”/“rang”, “sing”/“sang”), nenhuma mudança (“cut”/“cut”, “hit”/“hit”) ou mudança de /d/ para /t/ (“lend”/“lent”, “send”/“sent”). A presença desses casos de sub-regularidades dentro dos verbos irregulares pode ser considerada, em princípio, um problema para que redes neurais aprendam a produzir as formas corretas de passado; no entanto, o modelo de Plunkett e Marchman (1991) apresentou resultados melhores quando esse tipo de sub-regularidade foi introduzido no corpus. Os autores afirmam que, se não houvesse esses pequenos grupos de

verbos irregulares flexionados através dos mesmos processos, as idiossincrasias dos verbos dificilmente seriam aprendidas. É, portanto, por causa da freqüência desses tipos específicos de flexão que os verbos irregulares são armazenados no léxico mental e preservados.

MacWhinney e Leinbach (1991) testaram como um modelo conexionista responderia ao uso de um corpus real do inglês. Os autores selecionaram os 2.062 radicais de verbos mais freqüentes do corpus de Francis e Kuÿera (1982), juntamente com as formas de passado, particípio passado, particípio presente e terceira pessoa do singular desses verbos. Essas flexões compuseram um total de 6.090 itens. A representação fonológica do modelo era baseada em estruturas de vogais e consoantes. Informações semânticas foram preservadas para que não houvesse ambigüidades com formas homófonas.

Após o treinamento, a rede gerou corretamente 100% das formas regulares e 91% das irregulares. Na fase inicial de treinamento, houve generalização dos verbos irregulares, o que é compatível com os estágios de aquisição da flexão verbal pelas crianças. O maior sucesso alcançado por este modelo foi a comprovação de que uma rede neural poderia gerar formas adequadas de passado se fosse treinada com um corpus real do inglês. Isso demonstra que um modelo conexionista é capaz, até certo ponto, de replicar a cognição humana.

Daugherty e Seidenberg (1994) propuseram um modelo conexionista no qual havia três camadas utilizando 120 unidades para codificar estruturas CCCVVCCC (maior unidade silábica dos verbos monossílabos do inglês) e cada segmento era representado através da ativação de 15 traços articulatórios binários, como anterior, labial, coronal, vozeado, etc. A arquitetura do modelo consistia de três camadas (entrada, oculta e saída) e todas as unidades dessas camadas eram ligadas entre si.

Os verbos utilizados por esse modelo também foram retirados do corpus Francis e Kuÿera (1982), considerando informações sobre freqüência (verbos mais freqüentes eram apresentados mais vezes à rede) e quantidades de sub-regularidades proporcionalmente compatíveis com aquelas apresentadas no corpus adotado. Respeitando essas proporções, o treinamento da rede utilizou 309 verbos regulares e 24 irregulares.

Durante o período em que o modelo foi treinado, todos os verbos regulares e 92% dos irregulares foram corretamente produzidos. Outro resultado interessante

apresentado pelo modelo foi chamado pelos autores de “regularidade inconsistente”, que pode ser definida como:

[...] patterns such as BAKE-BAKED and FLIT-FLITTED, which obey the rule but have inconsistent rhyming “neighbors” (SEIDENBERG, 1992). Thus, even though BAKE-BAKED is rule-governed, performance may be impaired because the model must also encode the neighbors MAKE-MADE and TAKE- TOOK, which have irregular past tenses.” (DAUGHERTY; SEIDENBERG, 1994, p. 372)

Daugherty e Seidenberg (1994) observaram que o modelo conexionista por eles proposto demonstrou diferenças no desempenho em relação a: 1) Verbos irregulares, 2) Regulares inconsistentes (com vizinhos irregulares) e 3) Inteiramente regulares (sem vizinhos irregulares), da seguinte forma: para gerar verbos regulares inconsistentes (que têm vizinhos similares foneticamente, mas irregulares), a rede demonstrou mais dificuldade do que para gerar verbos inteiramente regulares e menos dificuldade do que para gerar verbos irregulares. Ou seja, o modelo demonstrou um continuum de probabilidade de erros, sendo que os verbos irregulares foram os que mais geraram resultados errados, e os verbos totalmente regulares os que mais alcançaram sucesso. Os verbos regulares inconsistentes mostraram um desempenho intermediário nessa escala. Esse resultado é uma importante conquista do modelo, visto que, conforme veremos na subseção seguinte, teorias como a de Pinker (1991) não conseguem justificar o fato de verbos inteiramente regulares e regulares inconsistentes apresentarem resultados diferentes no que concerne à formação de passado. Já um modelo como o de Daugherty e Seidenberg (1994) pode explicar o comportamento de tais verbos (regulares inconsistentes) porque trata itens regulares e irregulares através do mesmo processo (rede de conexões), então efeitos de vizinhança lexical são previsíveis e até desejáveis.

Outra hipótese que Daugherty e Seidenberg (1994) testaram foi se o modelo seria suscetível a efeitos de freqüência. Os resultados demonstraram que, para os verbos regulares, freqüência não foi um fator significativo, ou seja, o fato de verbos regulares serem freqüentes ou infreqüentes não interferiu na capacidade de aprendizagem e generalização da rede; por outro lado, para os verbos irregulares, freqüência foi determinante para que o modelo produzisse mais acertos quando os verbos irregulares eram freqüentes.

Um traço comum a todos os modelos conexionistas resenhados até agora nesta subseção é o fato de eles proporem simulações apenas para a aprendizagem da flexão

verbal de passado do inglês. Conforme afirmamos anteriormente, essa morfologia costuma ser utilizada como exemplo do funcionamento de regras simbólicas no léxico mental do falante. Por conta disso, um desafio conexionista era observar se redes neurais puramente associativas poderiam recuperar informações sobre a flexão de verbos do inglês sem a utilização de regras. Como vimos, vários modelos foram bem-sucedidos nessa tentativa. Existem, no entanto, redes neurais que abordam outras questões lingüísticas além da morfologia verbal do inglês. Exemplo disso é o trabalho de Elman, que comentaremos a seguir.

Elman (1990) discute a representação do tempo em redes neurais. O autor propõe que o tempo seja representado não como uma dimensão da entrada (“input”), mas a partir dos efeitos que ele tem no processamento de informações. A fim de testar como modelos conexionistas iriam processar a noção de tempo, o autor elabora e treina redes neurais para desempenhar tarefas lingüísticas específicas, como prever a ordem de segmentos em uma palavra e predeterminar a seqüência de palavras em uma oração. Essas são habilidades que dependem do tempo, já que, na produção da fala, as seqüências de segmentos e palavras são temporalmente condicionadas. Através de sucessivos treinamentos para que pudesse aprimorar o desempenho, a rede elaborada por Elman (1990) foi capaz de aprender a estrutura temporal de sons em palavras e de palavras em frases. Para que essa aprendizagem ocorresse, a rede operou por generalizações estatísticas a partir da co-ocorrência de estruturas em uma linha temporal (segmentos em itens léxicos e palavras em sentenças).

Elman (1998b) elabora uma rede treinada para lidar com sintaxe. Avaliando a questão da necessidade de experiência perceptual para que a aprendizagem ocorra, o autor apresenta o seguinte desafio para ser testado por uma rede:

Can a network trained only on sentences in which a given noun (e.g. “boy”) appears only in subject position, deal appropriately with novel sentences in

Belgede Araştırmaya dayalı öğrenme yaklaşımının maddenin tanecikli yapısı ünitesi kavramsal anlama düzeyi ve bazı öğrenme çıktıları üzerine etkisi (sayfa 57-61)