4. ALİCE HARİKALAR DİYARINDA FİLMİNİN ROLAND BARTHES’IN
4.4 Alice Harikalar Diyarında Filminde Tarihsel Yapı 156
Diferentemente das estratégias de RBMT apresentadas na Seção 2.2.1, a Tradução Automática Estatística (SMT) não é baseada em uma representação sintática ou semân- tica formal nas duas línguas. Ao invés disso, esses sistemas se baseiam na tradução mais provável com base em um corpus paralelo bilingüe1. Em outras palavras, a tradução au-
tomática estatística procura extrair automaticamente o conhecimento (regras de tradução e base de conhecimento) acerca da tradução a partir desse corpus.
Considere, por exemplo, o problema de traduzir uma sentença E, em inglês, para uma sentença F em francês. Na tradução automática estatística, pode-se expressar esse
1Um corpus paralelo bilingue é uma coleção de textos em uma língua L
1e sua correspondente tradução
2.2. SISTEMAS DE TRADUÇÃO AUTOMÁTICA 23 problema de tradução, pela aplicação da Regra de Bayes a seguir:
argmaxF(P(F|E)) =argmaxF(P(E|F)P(F))
P(E) , (2.1)
argmaxF(P(F|E)) =argmaxF(P(E|F)P(F)), (2.2)
Onde, P(F|E) representa a probabilidade da sentença E ser traduzida como a sentença F, de acordo com o corpus bilingüe; P(E|F) representa a probabilidade de F ser traduzida como E; P(E) e P(F) representam a probabilidade das sentenças E e F no corpus da língua inglesa e francesa, respectivamente.
Essa regra indica que, considerando todas as sentenças possíveis em francês F, deve- se escolher aquela que maximiza o produto P(E|F)P(F). O fator P(E) pode ser ignorado, pois ele possui o mesmo valor para todas as sentenças F. O fator P(F) é denominado o modelo da linguagem para o francês, e informa qual a probabilidade de uma dada sentença estar em francês. P(E|F) é denominado modelo de tradução, e informa qual a probabilidade de uma sentença em inglês ser uma tradução de uma dada sentença em francês.
Analisando a equação acima, observa-se que ela não possui uma analogia clara com o processo utilizado por um tradutor humano. Não é intuitivo imaginar um tradutor humano, mentalmente, analisando a lista de todas as sentenças em francês para calcular o produto da probabilidade P(F) com a probabilidade condicional, P(E|F), de tradução da sentença em inglês para cada sentença em francês.
A justificativa para se aplicar a regra de Bayes nesse caso é, em essência, para tornar possível a divisão do problema em duas partes. Primeiro, utiliza-se o modelo de tradução P(E|F) para encontrar sentenças candidatas em francês. Algumas dessas sentenças, no entanto, podem não estar em francês fluente. Em seguida, utiliza-se o modelo de lingua- gem P(F), para estimar qual das sentenças candidatas é provavelmente a tradução mais comum e mais fluente.
O modelo de linguagem, P(F), pode ser qualquer modelo que forneça uma probabi- lidade para uma dada sentença F. Uma alternativa para implementar esse modelo seria estimar P(F) diretamente, contando quantas vezes cada sentença aparece no corpus. Con- tudo, mesmo com um corpus muito grande, a maioria das sentenças nunca aparecerá no corpus, e dessa forma, a sua probabilidade será zero. Para solucionar esse problema, uma alternativa é utilizar o modelo de linguagem de bigramas, em que a probabilidade de uma sentença F em francês composta pelas palavras f1, ...,fné definida da seguinte forma:
24 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA P( f1, ...,fn) = n
∏
i=1 P( fi| f(i−1)) (2.3)Essa estratégia, no entanto, é capaz de captar apenas uma noção de sintaxe muito local, onde uma palavra depende apenas da palavra anterior. Por exemplo, seria necessário conhecer as probabilidades de bigramas como P("torre Eiffell"). Para tradução direta, no entanto, isso é, em geral, suficiente. A opção mais comum, no entanto, é utilizar modelos de trigramas, em que uma palavra depende das duas palavras anteriores.
O modelo de tradução, P(E|F), possui uma complexidade maior, uma vez que ele considera o produto de pares de sentenças (inglês, francês), e não apenas sentenças in- dividuais. Um modelo de tradução simplificado seria traduzir cada palavra individual e independentemente, da esquerda para a direita. Esse modelo computaria a probabilidade de uma tradução da seguinte forma:
P(E|F) =
∏
ni=1
P(Ei|Fi) (2.4)
Um dos problemas desse modelo é a ordem das palavras. Uma sentença em inglês da forma [Adjetivo + Substantivo], por exemplo, é traduzida para o francês na ordem [Substantivo + Adjetivo]. Além disso, conforme comentado anteriormente, a escolha de palavras não é necessariamente um mapeamento de um para um (ambigüidade léxica).
Um modelo de tradução um pouco mais sofisticado é o modelo IBM Model 3 [Brown et al. 1993] que continua utilizando unigramas, isto é, tradução palavra por palavra, mas acrescenta algumas características para lidar com os problemas apresentados. Uma das características introduzidas por esse modelo é o conceito de fertilidade de uma palavra. A fertilidade representa o número de palavras que uma palavra gera na outra língua. Uma palavra com fertilidade n é copiada n vezes e cada uma dessas cópias é tradu- zida independentemente. Por exemplo, para traduzir a expressão "à la maison"do francês para "home"em inglês, o modelo definiria uma fertilidade 0 para as palavras "à"e "la"e uma fertilidade 1 para a palavra "maison"e depois utilizaria esse modelo para traduzir "maison"como "home". Para traduções no outro sentido (inglês para francês), a palavra "home"teria fertilidade 3 e seria copiada 3 vezes, gerando "home home home". Em se- guida, a primeira palavra "home"seria traduzida para "à", a segunda seria traduzida para "la"e a terceira como "maison".
Para lidar com o problema da ordem das palavras, o modelo permuta as palavras na posição correta, através de deslocamentos que movem a palavra de sua posição original para a posição final. Essa operação é, em geral, denominada alinhamento das palavras.
2.2. SISTEMAS DE TRADUÇÃO AUTOMÁTICA 25 No IBM Model 3, o deslocamento leva em consideração a posição da palavra dentro da sentença e o comprimento da sentença em ambos os idiomas. Isto é, o modelo avalia os seguintes parâmetros:
P(Desloc = o|Pos = p,EngLen = m,FrLen = n), (2.5)
Onde, Pos corresponde a posição da palavra na sentença, EngLen representa o compri- mento da sentença em inglês e FrLen representa o comprimento da sentença em francês. Por exemplo, as palavras em inglês "dog"e "brown"são traduzidas em francês como "chien"e "brun", respectivamente, mas a tradução de "brown dog"é "chien brun". Por- tanto, poderia-se determinar o deslocamento de "brown"em "brown dog", consultando P(Desloc|1,2,2). Essa modelo então poderia indicar, por exemplo, um deslocamento +1 (ela é movida uma posição para a direita) com probabilidade 0,7 maior do que um des- locamento 0 (ela não é movida), por exemplo, com probabilidade 0,3. Analogamente, o deslocamento da palavra "dog", P(Desloc|2,2,2), deveria indicar um deslocamento -1 (ela é movida uma posição para a esquerda) com probabilidade maior do que um deslo- camento 0.