B. U YUŞUMCULUK (C OMPATİBİLİSM ) VE U YUŞMAZCILIK (I NCOMPATİBİLİSM ) Ç ERÇEVESİNDE N T OPÇU ’ NUN E LEŞTİRİLERİ
1. İNDETERMİNİZMDEN HAREKETLE ÖZGÜRLÜK SAVUNULABİLİR Mİ?
1.1.2. İmkânlar Çokluğu, Niyet ve Seçim
Segundo Ferreira (1999) e Houaiss (2002), evidência é a condição do que se destaca, é a qualidade do que é evidente e, por sua vez, evidente é aquilo que não oferece ou não dá margem à dúvida. No Modelo TR+ o cálculo dos pesos dos descritores é realizado utilizando o conceito de evidência. Para o cálculo do peso dos descritores além da freqüência de ocorrência do descritor no texto, o Modelo TR+ também utiliza a ocorrência das RLBs.
Gonzalez (2005) esclarece que o resultado do cálculo do peso de um descritor no Modelo TR+ leva em consideração (i) o processo de nominalização, (ii) a capacidade das regras para identificação de RLBs de deduzir estruturas de dependência evidentes e (iii) a formulação do cálculo do peso dos descritores.
A representatividade dos descritores é impactada pela nominalização dos mesmos, já que este processo de normalização lexical coloca em um único descritor diferentes palavras. Des- critores que passam pelo processo de normalização lexical tendem a possuir um peso maior quando comparados com aqueles que não sofreram tal processo, pois os descritores normaliza- dos acumulam a freqüência de ocorrência de outros descritores, uma vez que este representa um conjunto de palavras. Gonzalez destaca que este processo de normalização pode ser incluído no conceito de transformação de termos ”ruins” em termos ”bons” apresentado por Salton e MacGill (1983).
A definição da representatividade dos descritores também é impactada pelas regras utiliza- das para a identificação das RLBs, pois tais regras são capazes de reconhecer somente estruturas de dependência evidentes. As dependências com preposições a direita após a segunda preposi- ção, são tratadas como sendo ”não evidentes”. Gonzalez (2005) apresenta o seguinte exemplo:
(a) ”arrombamento do cofre com explosivos” (b) ”arrombamento do cofre com jóias”
as RLBs, ”com(arrombamento,explosivo)”, ”com(cofre,explosivo)”, ”com(arrombamento,joia)” e ”com(cofre,joia)” não são reconhecidas. Com isso alguns descritores perdem representativi- dade (RLBs e os termos nelas presentes como argumento) sendo penalizados pois não atende ao conceito de evidência (onde deve haver destaque e não pode haver dúvidas). Gonzalez destaca que essa abordagem possui duas vantagens, (i) menor esforço computacional (pelo não trata- mento de ambiguidades), (ii) a utilização do conceito de evidência na influência do cálculo do peso dos descritores faz com que quanto mais evidente mais representativo o descritor será.
Considerando o exemplo apresentado por Gonzalez, (a) ”arrombamento do cofre com ex- plosivos”, podemos apresentar o cálculo do grau de representatividade através das seguintes descrições: (i) dos conceitos relacionados a cada um de seus argumentos e (ii) a descrição de seus relacionamentos. Seguindo o mesmos exemplo, ”arrombamento do cofre com explosivos”, a RLB deve receber 3 unidades de evidência (1 unidade pois há um ”arrombamento”; 1 unidade pois há um ”cofre”; e 1 unidade por haver um ”arrombamento do cofre”). Cada ocorrência dos descritores ”arrombamento” e ”cofre” receberia 11
2 unidade, que é metade do valor atribuído à RLB. Por ultimo, o descritor ”explosivo”, por ser o menos evidente, receberá 1
2 unidade de evidência, diminuida de 1 unidade pela falta de coesão evidente. O mesmo ocorre ”joia” no exemplo (b). O descritor envolvido recebe uma unidade de evidência a cada nova coesão.
Gonzalez apresenta a seguinte explicação para o cálculo do grau de representatividade dos descritores: ”os termos t1e t2e a RLB r, encontrados em uma consulta q, têm dupla contribuição no cálculo do valor de relevância de um documento d, caso t1 e t2estejam relacionados através de r em d. Do contrário, se t1 e t2 ocorrem em d mas não estão relacionados através de r, a contribuição é simples e, assim, d tende a perder posições na classificação por relevância a q”.
4.3.1 Cálculo do peso dos Descritores e do valor de Relevância
Para o cálculo do peso dos descritores o Modelo TR+ utiliza a abordagem probabilística (Baeza-Yates & Ribeiro-Netto, 1999), pois tal abordagem mostrou-se mais eficiente para a re- cuperação de informação, segundo Gonzalez (2005). Entretanto, Gonzalez deixa claro que o Modelo TR+ pode se utilizar da abordagem vetorial (Baeza-Yates & Ribeiro-Netto, 1999) para o cálculo dos pesos dos descritores.
A Equação 4.2, uma adaptação da fórmula OKAPI BM25 apresentada na Equação 4.3 sem o fator IDF (Gonzalez atesta que a utilização do IDF não apresentou melhoria nos resultados dos experimentos), é adotada pelo Modelo TR+. O peso Wi,d do descritor i no documento d é dado por: Wi,d = wi,d(K1+ 1) K1((1 − b) + b DLd AV DL) + wi,d (4.2) onde:
• wi,d é a freqüência do descritor i no documento d;
• Ki, b, DLde ADVL são os mesmos componentes utilizados na fórmula Okapi BM25.
Wi,d = wi,d(k1 + 1) k1((1 − b) + b DLb
AV DL + wi,d)
IDFi (4.3)
onde:
• wi,d = fi,d é a freqüência de ocorrência de i em d; • Ki e b são parâmetros;
• DLdé o comprimento (a quantidade de palavras) do documento d; • AVDL é o comprimento médio dos documentos da coleção; • IDFi = Log dfNi;
• N é o número de documentos na coleção; • dfio número de documentos onde i ocorre.
A evidência wi,d, representada através de wt,d para um termo t em um documento d, é calculada da seguinte forma no Modelo TR+:
wt,d = ft,d 2 + r fr,t,d (4.4) onde: • ft,dé a freqüência de ocorrência de t em d e
• fr,t,dé a quantidade de RLBs onde t é argumento em d,
e para uma RLB r, a evidência wi,d em um documento d, representada por wr,d é:
wr,d = fr,d(wt1,d+ wt2,d) (4.5)
onde:
• fr,d é a freqüência de ocorrência de r em d e • wt,dé a evidência do argumento d de r em d;
O Anexo B, transcrito de Gonzalez (2005), apresenta alguns exemplos onde é apontado re- sultados do cálculo baseado em evidência, em comparação à formulação baseada apenas em freqüência de ocorrência. Os termos e a RLBs são obtidos e têm seus pesos calculados utili- zando a mesma abordagem tanto para uma consulta q, quanto para os documentos. Entretanto, para cada RLB r presente na consulta q, sendo, r = id(t1,t2), uma RLB r’é incluida na consulta Booleana qb, sendo, r’ = id’(t1,t2), onde id’ é qualquer identificador diferente de id (conforme é exemplificado na Seção 4.4). O peso Wr′,q de r’ depende do peso Wr,qde r, sendo penalizado
por possuir identificador diferente, mesmo que r e r’ possuam os mesmos argumentos. Wr′, q é
dado por:
Wr′,q =
Wr,q
2 (4.6)
Para se obter o valor de relevância VRd,qtanto para um documento d como para uma consulta qé utilizada a seguinte equação:
V Rd,q = i
(Wi,d, Wi,q) (4.7)
onde:
• Wi,dé o peso de termos e/ou RLBs do documento d e • Wi,qé o peso de termos e/ou RLBs da consulta q.
Após a definição dos termos e RLBs, assim como seus respectivos pesos, os documentos tem sua classificação dependente do valor da relevância dos mesmos e da formulação da consulta Booleana (Gonzalez, 2005).