B. U YUŞUMCULUK (C OMPATİBİLİSM ) VE U YUŞMAZCILIK (I NCOMPATİBİLİSM ) Ç ERÇEVESİNDE N T OPÇU ’ NUN E LEŞTİRİLERİ
1. BERGSON FELSEFESİNDE MEKÂN VE ZAMAN
1.2. BERGSON'UN MEKÂN DÜŞÜNCESİ ÇERÇEVESİNDE SÜRE/ZAMAN
1.2.1. Süre-Mekân Çerçevesinde Dilsel Yapının Eleştirisi
O modelo probabilístico é baseado na idéia apresentada por Robertson e Spark Jones (1976) da distribuição dos termos da consulta em relevantes e não relevantes. Esta distribuição é reali- zada, definindo-se os pesos dos termos, da pontuação dos documentos recuperados, e pela soma entre os pesos dos termos presentes nos documentos presentes na consulta (Harman, 1992). A definição do peso dos termos é realizada pela seguinte fórmula (Robertson & Spark Jones, 1976):
wij = log2 r R−r n−r N−n−R−r (3.7) Onde:
• wij = o peso do termo i para a consulta j; • N = o número de documentos na coleção;
• R = o número de documentos relevantes para a consulta j; • n = o número de documentos que possuem o termo i;
• r = o número de documentos relevantes que possuem o termo i.
Jones (1997) apresenta um experimento similar a utilização da fórmula de pesagem de rele- vantes em uma situação operacional de realimentação de relevantes, na qual o usuário verifica somente alguns documentos relevantes em um conjunto inicial de documentos recuperados, e daqueles poucos documentos são somente disponíveis para o esquema de pesagem. O resultado desta nova pesagem com somente alguns documentos relevantes mostrou melhora significante no seu desempenho em comparação com a performance da definição de novos pesos utilizando somente a medida IDF(Salton & MacGill, 1983). Isto indica que o esquema de nova pesagem probabilística provê um método eficaz para realimentação de relevantes especialmente na nova pesagem dos termos (Harman, 1992).
A principal vantagem da utilização do modelo probabilístico em conjunto com a realimenta- ção de relevantes, segundo Baeza-Yates e Ribeiro-Netto (1999), é que o processo de realimen- tação de relevantes é diretamente relacionado para a derivação de novos pesos para os termos da consulta. Suas desvantagens são: (ii) a definição dos pesos dos termos dos documentos não são realizados na iteração do processo de realimentação; (ii) pesos calculados em formulações de consultas anteriores são desprezadas; (iii) não é utilizada em expansão de consulta, somente termos presentes na consulta inicial são pesados novamente.
Para uma recuperação mais eficiente, na abordagem de RR utilizando o modelo Probabilís- tico, é utilizada a ordenação dos documentos em forma decrescente de acordo com a seguinte fórmula (Salton & Buckley, 1997):
log P r(x|rel)
P r(x|nonrel) (3.8)
Onde: Pr(x|rel) e Pr(x|nonrel) são a probabilidade da representação de um item relevante ou não no vetor x.
A definição dos termos é realizada independentemente da relevância dos documentos da co- leção. Os pesos dos termos atribuidos aos documentos são definidos utilizando valores binários 0 e 1. Para o cálculo da similaridade entre a consulta e o documento, podemos utilizar a deriva- ção da equação 3.8, aplicando-a à consulta e cada documento D = (d1, d2,...,dt), através de dois
parâmetros (pi e ui) que representam a probabilidade que o i-ésimo termo tenha um valor 1 e um documento relevante ou não (Salton & Buckley, 1997). Equação 3.8 derivada é apresentada da seguinte forma: sim(Q, D) = t i−1 dilog pi(1 − ui) ui(1 − pi) + constante (3.9) Onde: pi= Pr(xi= 1 | relevante) ui= Pr(xi= 1 | não relevante)
O cálculo da similaridade (a fórmula 3.9) entre a consulta e os documentos, não pode ser utilizada na prática sem o conhecimento prévio para todos os termos do documento dos valo- res de pi e ui. Segundo Salton e Buckley (1997) alguns métodos foram apresentados para o cálculo dos valores de pi e ui. Para a pesquisa inicial, quando ainda não se tem conhecimento da relevância das informações dos documentos, assume-se que o valor para pi é constante e geralmente 0,5.
A Tabela 3 apresenta a ocorrência do termo i em um subconjunto de documentos relevantes e não relevantes, ui pode ser definido o equivalente ni/N , a proporção dos documentos na coleção que possui o termo i. Para a rodada inicial, a expressão 3.9 é então reduzida para (Salton & Buckley, 1997):
sim − inicial(D, Q) = t i=1 djlogN − ni ni (3.10)
No contexto da realimentação das consultas, os valores acumulados e relacionados à rele- vância dos itens recuperados são utilizados para avaliar a fórmula 3.9. A avaliação é realizada pela distribuição do termo nos itens relevantes recuperados anteriormente. Esta distribuição é a mesma para todo o conjunto de itens relevantes, sendo os itens não recuperados rotulados como não relevantes (Salton & Buckley, 1997). Aplicando os fatores presentes na Tabela 3 para a os documentos recuperados da coleção, temos que:
pi = ri
R (3.11)
ui = ni− ri
N − R (3.12)
Salton e Buckley (1997) apresenta uma variação da fórmula 3.9, substituindo pi e ui utili- zando as expressões 3.11 e 3.12. sim(Q, D) = t i=1 djlog( ri R − ri / ni− ri N − R − ni− ri ) (3.13)
Tabela 3 – Ocorrência do termo i na coleção de documentos N (Salton & Buckley, 1997)
Itens Relevantes Itens Não Relevantes Todos os Itens
di=1 ri ni- ri ni
di=0 R - ri N - R - ni + ri N - ni
Todos os Itens R N - R N
Onde na fórmula 3.13 R representa o número total de itens relevantes recuperados, ri é o número total de itens relevantes recuperados que possuem o termo i, e ni é o número total de itens recuperados que possuem o termo i.
Salton e Buckley (1997), para alguns valores muito pequenos para R e ri A fórmula 3.13, pode causar alguns problemas. Estes problemas freqüentemente acontecem na prática (exem- plo: R = 1 e ri= 0), por causa da expressão logarítmica é então reduzida à 0 (Salton & Buckley, 1997). Para amenizar este problema, muitas vezes um fator de ajuste (0,5) é adicionado na de- finição de pi e ui. Com isso as fórmulas 3.14 e 3.15 são utilizados em sistemas probabilísticos convencionais para a obtenção dos valores de pie ui(Salton & Buckley, 1997).
pi = ri+ 0, 5
R + 1 (3.14)
ui = ni− ri+ 0, 5
N − R + 1 (3.15)
Entretanto segundo Salton e Buckley (1997), o fator de ajuste nem sempre é satisfatório, para estes casos, utiliza-se como alternativa o calculo do valor de pi e ui tal que, ni/N ou (ni - ri)/(N - R). Quando documentos não relevantes são recuperados pela consulta inicial, a melhor estimativa para pi, a probabilidade que um termo ocorra em um documento relevante é simples- mente a probabilidade de sua ocorrência na coleção completa (Salton & Buckley, 1997). Neste caso, pi = ni/N.
p′i = P r(xi = 1|rel)
ri+ ni/N
R + 1 (3.16)
u′i = P r(xi = 1|nonrel)ni− ri+ ni/N
N − R + 1 (3.17)
O fator de ajuste (ni/N) utilizados nas equações 3.16 e 3.17, substitui o fator 0,5 presentes nas equações 3.14 e 3.15. Quando os documentos relevantes que não foram recuperados for pequeno, podemos utilizar o fator de ajuste alternativo (ni - ri)/(N - R) (Salton & Buckley, 1997).
Salton e Buckley (1997), apontam como vantagem do modelo de realimentação probabilís- tica, a utilização do processo de realimentação ser diretamente relacionado à derivação de um peso para termos da consulta. Ao analisarmos a função de similaridade da equação 3.9, pode- mos observar que o fator de pesagem de log[pi(1 − ui)/ui(1 − pi)] é aumentada para cada termo
da consulta i. Onde é combinado um documento, e o peso do termo ideal sob as condições assumidas de independência do termo e indexação binária do documento (Salton & Buckley, 1997).