C. HÂKİMİYETİN SAHİBİ VE KAYNAĞI
2. Hâkimiyet Allah’ın Yeryüzündeki Vekillerine Aittir Anlayışı
de descritores para documentos textuais digitalizados em língua portuguesa, utilizando as estruturas lingüísticas conhecidas como sintagmas nominais”; pretendem-se perfazer os seguintes passos, ilustrados na FIG. 9, e em seguida explicitados e comentados:
Figura 9 – Fluxograma da metodologia prospectiva
A FIG. 9 apresenta os passos gerais da metodologia, que são detalhados nos itens abaixo. Os processos (em azul-claro) são identificados por seus respectivos números e os produtos (em amarelo) estão identificados por letras.
1. Escolher um corpus significativo de documentos reconhecidamente inseridos dentro de uma área de conhecimento, como universo empírico desta pesquisa;
A importância de delimitar o assunto dos textos em uma área específica – no caso, a ciência da informação – foi devida à necessidade de escopo e contextualização. Um dos pass
realizado iência da informação
(CNPq/IBICT, 1989). Da teoria apresentada nos fundamentos lingüísticos, também pudermos retirar justi
específic rmação, como está detalhado em subseção a
segu
A).
formato texto simples (produto B). As ferramentas de software utilizadas na conversão são apresentadas adiante.
3. Retirar os resumos e as palavras-chave atribuídas pelos autores
A separação do corpo do texto dos documentos (produto D) e das palavras-chave a eles atribuídas e dos resumos preparados pelos autores (produto C) foi um artifício metodológico utilizado apenas para possibilitar a análise posterior do sucesso do procedimento automático de extração de descritores, através da comparação simples dos
os metodológicos previstos para a validação dos descritores pré-escolhidos foi com a utilização de tesauro, no caso, da área de c
ficativas que destacavam a importância dos contextos para a escolha dos descritores.
O corpus de textos escolhido para análise proveio, como já citado, de publicações as da área de ciência da info
ir. Não há, entretanto, restrições de aplicabilidade da metodologia para documentos textuais oriundos de outras áreas do conhecimento, desde que sejam adotadas as ferramentas adequadas – tesauros específicos do respectivo campo de conhecimento – e sejam processados documentos com contextos semelhantes.
O produto desta primeira etapa foram os textos originais em formato digital (produto
2. Converter os formatos de arquivo para texto simples;
As ferramentas tecnológicas utilizadas nesta metodologia necessitava de documentos submetidos em formato de arquivos de texto simples. Como os documentos digitalizados – notadamente na web – se encontravam usualmente em formatos mais complexos, como PDF34 ou HTML, esses documentos precisam ser convertidos para o
34
O PDF, ou Portable Document Format, é um formato proprietário da empresa Adobe (http://www.adobe.com) que, entretanto, disponibiliza gratuitamente o visualizador dos arquivos (Adobe Acrobat Reader). Para transformar os documentos em padrão texto simples, é necessário, entretanto, o software completo (Adobe Acrobat).
SNs atribuídos automaticamente e as palavras-chave atribuídas pelos autores dos artigos. o é mais necessário na medida em que a metodologia tenha sido avaliada
iramente automático, utilizando as ferramentas que – . O produto da to HTML contendo os SNs na ordem de sua arquivos em formato HTML tilizando o software MICROSOFT EXCEL (apresentado adiante). Essas planilh
texto
e ordenados nas pastas das planilhas de ac
6. res a
do tamanho dos textos originais.
s formas
freqü ssumiu a forma canônica, segundo as
norm
Esse passo nã
e considerada bem sucedida.
4. Extrair os sintagmas nominais do corpo do texto
Os SNs foram extraídos dos documentos em formato de texto simples através de processo quase que inte
conjuntamente com o processo de extração – foram detalhadas adiante extração constituem arquivos em forma
ocorrência nos textos originais (produto E). A partir destes (produto E), foram criadas planilhas (produto F) u
as contêm pastas específicas para cada , onde serão realizadas todas as operações posteriores.
5. Ordenar os SNs nas planilhas através da verificação da freqüência de ocorrência dos sintagmas nominais nos documentos;
Após o agrupamento, os SNs foram inicialment
ordo com a freqüência de ocorrência de cada um no corpo do documento.
Descartar os SNs que apresentavam freqüências de ocorrência inferio um patamar preestabelecido;
Os SNs que apresentavam uma freqüência inferior a certo patamar foram considerados descritores insignificantes e descartados para as operações posteriores. O patamar estabelecido depende de análises que levassem em consideração a relevância dos SNs extraídos em cada faixa de freqüências, além
7. Agrupar os SNs remanescentes a partir dos determinantes de sua “canônicas”, e reordená-los;
Nesta etapa, ainda realizada manualmente, os SNs que diferiam apenas pelos determinantes iniciais foram agrupados e representados unicamente pela a soma das
ências, e o representante do agrupamento a
as de construção de tesauros. Os determinantes (artigo, pronome ou numeral) foram usualmente composto pelas estruturas apresentadas na TAB. 5:
{a | as | o | os | dois |
essa | ess es | esta | estas | este | estes | aquela | aquelas | aquele | aqueles | mesma | mesmas | mesmo | mesmos | tal | semelhante |
meu |
muitas
três | quatro | cinco | ... | mil | as | esse | ess
meus | teu | teus | tua | tuas | seu | sua | nosso | nossos | vosso | vossa | vossos | vossas | seus | suas |
um | uma | uns | umas | alguma | algumas | algum | alguns | nenhum | nenhuma | toda | todas | todo | todos | cada | qualquer |
certa | certas | certo | certos | outra | outras | outro | outros | muita | | muito | muitos | pouca | poucas | pouco | poucos }
Tabela 5 – Determinantes comuns
Essas planilhas ordenadas com os SNs agrupados, tendo sido descartados os de freqüência abaixo de um patamar preestabelecido (produto G), foram utilizadas nos três
pass ções aos SNs de modo a
embasar a decisão sobre a
ra sintática e do nível dos SNs, como apresentado na subseção 2.1.6, foi um dos critérios a serem considerados na análise da relevância. Pressupôs-se
os posteriores. Esses passos acrescentaram informa relevância de cada um.
8. Analisar manualmente os SNs pré-escolhidos e decidir sobre a sua relevância como descritores, para fins de construção de uma stoplist;
Esta etapa opcional pode ser adotada para otimizar o funcionamento posterior da
metodologia automática. Os SNs – escolhidos através de julgamento humano – que vierem compuseram a lista de stopwords (produto opcional H) puderam ser descartados de qualquer conjunto posterior de SNs extraídos. Os passos posteriores foram realizados ainda com as planilhas representadas no produto G.
9. Verificar a incidência dos SNs nos outros documentos do corpus;
A análise da incidência dos SNs no conjunto de documentos do corpus foi um dos critérios considerados na análise da relevância. Pressupôs-se que quanto maior a incidência de um SN no conjunto de documentos, menor a sua relevância como descritor.
10. Analisar a estrutura e o nível dos SNs;
que
Neste ponto talvez resida uma das partes mais importantes da metodologia prosp
a essa avaliação, relacionaram-se a relev
texto do
d) suas e ocorrência no tesauro da área.
quando a estrutura e o nível do SN estivessem diretamente relacionados à sua relevância como descritor.
11. Verificar a ocorrência destes SNs – de forma total ou parcial – em tesauro específico;
Uma vez que tenham sido escolhidos os SNs pré-candidatos a descritores, houve necessidade de classificá-los segundo suas estruturas sintáticas e segundo seus níveis (como apresentado nas seções 2.1.6 e 2.1.7), para subsidiar o processo de escolha dos SNs mais significativos. Foi também necessário verificar sua ocorrência em um tesauro da área do conhecimento a que pertencem os documentos do corpus.
Esta etapa da metodologia foi ainda realizada manualmente, mas pode ser implementada através de processo automatizado no futuro. O resultado dessas etapas foi incorporado às tabelas das planilhas de análise (produto G) como informações relativas a cada sintagma nominal.
12. Avaliar a relevância dos SNs como descritores;
ectiva. A lógica para escolha dos sintagmas nominais mais significativos e relevantes como descritores dos documentos foi estabelecida através da avaliação dos dados empíricos, gerando subsídios para o estabelecimento da heurística de escolha, a ser adotada na metodologia consolidada. Par
ância dos SNs como descritores e os fatores: a) freqüência de ocorrência do SNs no documento; b) a incidência dos SNs no conjunto de documentos; c) seus níveis;
struturas sintáticas e e) sua
As considerações advindas do cálculo das freqüências foram embasadas na teoria subjacente a alguns dos algoritmos de extração de palavras-chave, baseados na lei de Zipf, que estabelece relação inversa entre a freqüência de ocorrência das palavras-chave e sua significância como descritores. Foram estes os algoritmos: a) análise de freqüência simples com descarte dos picos; b) análise de pesos relacionados à freqüência inversa nos documentos; e c) análise de valor discriminatório dos termos (como apresentados na seção 2.2.2 desta tese).
Houve necessidade de se fazerem adaptações necessárias ao fato de não se mani
elhor tesauro de língua portuguesa conhecido e dis
a em outros tesauros disponíveis, em outras linguagens, como o tesauro da ASIS35, de acordo com os resultados.
o tesauro, considerou-se a verificação – para cada sintagma nominal – da ocorrência da estrutura de maior nível (com
8, produto H), os SNs presentes puderam ser descartados do conjunto dos candidatos a descritores.
O
estabelecidos, nas tabelas das planilhas com os candidatos a descritores (produto I). A partir
discussã
13. Analisar comparativamente os produtos – palavras-chave e resumos dos
ós as etapas de escolha dos sintagmas nominais candidatos a descritores; esses serão comparados às palavras-chave e aos resumos dos documentos originais do corpus
para o pr e o da metodologia. Essa
análise baseou-se no julgamento do autor desta pesquisa. Essas comparações
embasara o SNs como descritores e
suas características intrínsecas, ou relativas à freqüência de ocorrência. As ferramentas matemáticas para permitir a comparação e avaliação serão apresentadas na seção 4.4.2.
pularem palavras-chave, mas sim sintagmas nominais.
O tesauro foi utilizado para a validação dos sintagmas selecionados no contexto do assunto escolhido para o corpus. Como o m
ponível no momento na área de ciência da informação se encontra bastante defasado (CNPQ/IBICT, 1989), esta etapa na escolha dos descritores foi analisada na aplicação inicial da metodologia e sua utilização efetiva avaliada para aplicações posteriores. Aventou-se a possibilidade da consult
Para verificar a incidência de cada sintagma nominal n
o apresentado na seção 2.1.7), para então se procurar pela ocorrência dos sintagmas nominais aninhados, sucessivamente, e finalmente dos lexemas componentes.
Adotada uma stoplist (passo
resultado desta etapa foi a ordenação dos SNs sob os critérios de relevância
dessa ordenação pôde-se escolher a quantidade desejada de descritores – essa o será realizada adiante na seção 4.4.1.
documentos originais e os SNs escolhidos como descritores – para avaliação da metodologia
Ap
im iro julgamento de relevância e análise de sucess
14. Análise por especialistas / garantias literárias.
Este item da metodologia, identificado em processo a parte, foi opcional, e não foi levado em consideração na aplicação da metodologia. Esta etapa é parte do objetivo espe
Os títulos dos artigos do corpus selecionado (produto A) e suas palavras-chave e resum