BÖLÜM 1 : MİKROKREDİNİN KAVRAMSAL ÇERÇEVESİ, DÜNYADA ve
1.2. Dünyada Mikrokredi Uygulamaları
1.2.1. Güney Asya’da Mikrokredi Uygulamaları
As idéias apresentadas até o momento são importantes; no entanto, sua validade se mostra ainda mais eficaz quando apresentadas em forma de exemplo ou estudo de caso. Para tanto, serão apresentadas as etapas que envolveram a coleta e armazenamento de um córpus utilizado na seção “Metodologia” do SciPo-Farmácia, um dos ambientes inspiradores deste estudo e que serviu de estudo de caso para a elaboração da proposta deste trabalho. A construção desse córpus, córpus Met doravante, realizada pela autora desta pesquisa, foi motivada primeiramente pela necessidade de se descrever em detalhes a construção e anotação de um córpus requerido por ambientes de auxílio à escrita nos moldes do Scipo- Farmácia, uma vez que faz parte deste projeto de estudo possibilitar que pessoas não conhecedoras da área de PLN e de Lingüística de Córpus sejam capazes de construir os recursos lingüísticos necessários na geração desse tipo de ferramenta computacional e gerar uma ferramenta de suporte à escrita personalizada para sua área de pesquisa. Para tanto, buscamos embasamentos em situações e dificuldades reais encontradas durante o processo de
construção do córpus citado, de modo a promover uma descrição mais adequada para o usuário do processo proposto por este projeto de mestrado. Essa descrição dos procedimentos envolvidos incluem detalhes sobre os critérios utilizados, dificuldades e procedimentos envolvidos na tarefa de compilação e extração de recursos lingüísticos que geraram o córpus Met. Como resultado colateral dessa atividade, obtivemos a implementação da única seção de auxílio à escrita que ainda não estava implementada no SciPo-Farmácia, a seção “Metodologia” de artigos científicos da área em questão.
Como o córpus de nosso estudo de caso precisava ser da área de Ciências Farmacêuticas, foi necessário compor uma árvore de domínios dessa área citada. Para isso, foram consultados dois especialistas experientes, que são docentes do curso de pós-graduação em Ciências Farmacêuticas da USP-São Paulo. Apesar de haver divergências entre esses especialistas quanto à estratificação da grande área, eles chegaram a um consenso, que resultou na seguinte estrutura:
Árvore de Domínios gerada para a área de Ciências Farmacêuticas
Figura 4.2: Podemos observar acima, que o exemplo de árvore gerada para a área das Ciências Farmacêuticas apresenta uma estruturação simples, com ramificação em apenas um nível: a grande área isolada e localizada no topo do organograma com suas cinco subáreas a ela ligadas. Há que se considerar que se outros especialistas a tivessem elaborado, possivelmente essa estrutura teria diferenças.
No caso da construção do córpus Met, foi de fundamental importância consultar especialistas da área de Farmácia para se chegar a uma árvore de domínios condizente com a área de especialidade que precisava ser representada, uma vez que a especialista responsável pela construção desse córpus não pertence à área em questão. No entanto, como o usuário do CECARL vai construir recursos lingüísticos na área em que atua, tal consulta é opcional, uma vez que esse usuário possui condições de organizar uma árvore de domínio, mesmo que simples, da área em que atua.
Sobre a coleta de textos para compor o córpus Met, 30 seções Metodologia da área de Ciências Farmacêuticas, podemos dizer que sua obtenção foi de certa forma facilitada, pois essas seções foram retiradas de fontes on-line de divulgação científica (Tabela 4.1).
Texto Fonte Texto Fonte
Met_01 PubMed Met_16 PubMed
Met_02 PubMed Central Met_17 PubMed
Met_03 PubMed Met_18 JBC
Met_04 Journal of Biological Chemistry
Met_19 PubMed
Met_05 PubMed Met_20 PubMed
Met_06 PubMed Met_21 Elsevier
Met_07 Chemical Engineering Journal
Met_22 Elsevier Met_08 Pharmaceutical Research Met_23 Elsevier
Met_09 Elsevier Met_24 Elsevier
Met_10 PubMed Met_25 Elsevier
Met_11 PubMed Met_26 ACS
Met_12 PubMed Met_27 JBC
Met_13 Nature Met_28 Elsevier
Met_14 Nature Met_29 ACS
Met_15 PubMed Met_30 Elsevier
Tabela 4.1: As fontes on-line apresentadas na tabela foram escolhidas por serem locais de divulgação de reconhecida importância por parte da comunidade acadêmica das Ciências Farmacêuticas.
Essas 30 seções de metodologia apresentadas na Tabela 4.1 foram construídas sob orientação de dois especialistas da área, os mesmos que decidiram a organização da árvore de domínios anteriormente citada, ou seja, depois de escolhidos, os textos foram lidos e aqueles que não eram pertinentes ao córpus foram excluídos. Antes de se chegar a esse número de textos, outros mais foram coletados e descartados por serem de má qualidade (conteúdo científico), segundo esses mesmos especialistas. É importante dizer que se primou pela escolha de textos produzidos por nativos da língua inglesa, uma vez que se tem aumentada (mas não garantida!) a probabilidade de uma escrita adequada em língua inglesa. Também houve preferência pela coleta de textos com grande impacto na área, ou seja, aqueles que são bem citados e tidos como referência por outros pesquisadores.
A compilação desse córpus Met consistiu em retirar os textos de sua fonte original (Internet), armazená-los em um diretório no qual pudessem ser manipulados adequadamente, convertendo-os para o padrão texto sem formatação (salvando-os com a extensão .txt), sempre
respeitando o texto original. Mais especificamente, tal compilação foi efetuada conforme os seguintes procedimentos:
1. acesso à página de Qualis da Capes, http://qualis.capes.gov.br/;
2. seleção da opção Área de Avaliação (Farmácia) e, em seguida, da Classificação (A); 3. como resultado da ação anterior, os nomes dos periódicos com avaliação “A” aparecem na tela;
4. copia do nome de um periódico para um site de busca, como por exemplo o www.google.com.br
5. acesso ao site do periódico com links de artigos;
6. seleção do trecho de interesse (seção “Metodologia” de artigos científicos, no caso de compilação do córpus Met). No entanto, nesse momento, o usuário do CECARL poderá selecionar um artigo completo e, posteriormente, no momento de gravação desse, salvar as seções do mesmo em arquivos separados. Uma vez que as tarefas descritas para a extração dos recursos lingüísticos requerem que as seções de artigos científicos sejam investigadas separadamente. Em outras palavras, de um artigo científico de uma área qualquer, o usuário do CECARL poderá obter, por exemplo, 6 textos salvos: um com a introdução do artigo, outro com o resumo, um terceiro com a metodologia, um quarto com resultados e outros dois com as discussões e as conclusões, todos retirados de um mesmo artigo;
7. cópia do texto de interesse (o processo de recuperação dos textos da Internet é o padrão “copiar e colar”);
8. em uma página do editor de texto Microsoft Word, por exemplo, pode-se colar o conteúdo copiado da Internet. Nessa operação, certas informações, além de formatação específica, podem ser perdidas. Nesse caso, o texto fonte (site) foi mantido aberto, o que facilitou na visualização e posterior identificação dos caracteres problemáticos;
9. quebra da linha entre os parágrafos do texto, deixando espaço de uma linha em branco. Observação: As quebras de parágrafo respeitam a paragrafação do texto-fonte. Para a execução desta etapa, mantivemos, novamente, o texto fonte (site) aberto;
10. conversão para o formato texto sem formatação (extensão .txt) utilizando o editor Microsoft Word. O objetivo da escolha do formato .txt é para permitir o tratamento computacional (avaliação da concordância da anotação do córpus com vários anotadores via estatística Kappa (mais detalhes na Etapa E1’), como também manuseá- lo com o auxílio da ferramenta WordSmith Tools, que requer um arquivo nesse formato.
Na transferência dos textos do córpus Met do formato .doc para o .txt, houve problemas com os seguintes caracteres:
- Potências: o texto salvo em formato .txt não possibilita a elevação de potências. Dessa maneira, optamos pela inserção de um acento circunflexo antes da escrita do número que seria elevado a potência, por exemplo, 102 foi substituído por 10^2.
- Letras gregas e sinais matemáticos: não foram possíveis de serem salvos no formato requerido e foram substituídos por sua forma em extenso: <maior ou igual>, alfa, teta, lâmbda, mi, e assim por diante.
11. Depois de formatados, os textos foram nomeados. Ex: Met_01, o que significa dizer que se trata de um texto da seção “Metodologia” (Met_) e que se refere ao primeiro texto que compõe o córpus construído.
Quanto à autoria dos textos contidos no córpus Met, os mesmos são citados no cabeçalho de cada texto autorizado, uma vez que os textos foram retirados de sites on-line de divulgação científica (conforme mostra a Tabela 4.1), para os quais as submissões são precedidas por um termo de autorização. Nesses sites, depois de submetidos, os textos são disponibilizados livremente para o uso, sem a necessidade de se pedir nova autorização para tal. No entanto, a ressalva por eles feita é a de que os autores sejam citados sempre que seus trabalhos forem utilizados em outras pesquisas.
Para o isolamento dos dados extratextuais do córpus Met, utilizamos as seguintes etiquetas9.
<figura> <tabela1> <formula1>
Dessa maneira, a ferramenta computacional escolhida para a extração de dados do córpus poderá incluir ou excluir esses elementos extratextuais na seleção de dados que serão analisados. Após o isolamento dos dados extratextuais, é aconselhado uma inserção de informações sobre o texto no próprio texto, utilizando-se para isso um cabeçalho. No córpus Met, optamos pelo seguinte cabeçalho:
9
As etiquetas são pequenos trechos inseridos no corpo do texto, demarcados por símbolos específicos, por exemplo, <Autor=Dimeinstein>, como identificador do autor do texto (Berber-Sardinha, 2004:145).
1) Link para a versão original e completa do artigo coletado, uma vez que utilizamos apenas as seções metodologia de cada um deles. Sempre que necessário ou desejado, a versão original poderá ser consultada.
2) Título do artigo, o qual dá identidade e também dá dicas sobre o conteúdo da seção “Metodologia”.
3) Autores do artigo, respeitando a autoria dos textos coletados e possibilitando que os textos possam, se desejado, ser reunidos e/ou separados por autores.
É importante dizer que, para os propósitos de construção do córpus Met, esse cabeçalho, apesar de simples, satisfaz as necessidades do projeto. Se o usuário de nosso processo desejar adicionar mais informações sobre os textos que coletou, poderá fazê-lo sem problemas, desde que para isso leve em consideração os padrões convencionalizados para realizar esse tipo de tarefa, os quais possibilitam que o cabeçalho padronizado seja (re)utilizado por diferentes ferramentas computacionais. Tão importante quanto a criação de um cabeçalho e a organização dos textos em diretórios que reflitam seu conteúdo, é a nomeação dos textos.
Em nosso córpus Met, a nomeação seguiu a seguinte padronização: Met_01, Met_02, Met_03 ... Met_30. O que significa, respectivamente: primeiro texto da seção “Metodologia”, segundo texto, terceiro... e o qüinquagésimo texto da seção “Metodologia”.
Há um momento dentro do processo de extração dos recursos lingüísticos do córpus, mais precisamente no momento de verificação do balanceamento do córpus (Seção 4.4), em que esses textos poderão sofrer alteração de seus nomes, se desejável, pois poderão ser organizados segundo a subárea a que pertencem.
Em relação aos procedimentos de organização e armazenamento dos textos coletados para o córpus Met, foram construídos os seguintes diretórios: criação de uma pasta (diretório) com o nome do córpus “córpus Met”; criação de subpastas, dentro de córpus Met, com informações sobre o córpus do tipo: pasta com córpus anotado, pasta com córpus sem anotação, etc. Dentro de córpus anotado, por exemplo, se encontram as pastas com nomes de seus respectivos anotadores (Figura 4.3).
Figura 4.3: Estruturação de diretórios utilizada na organização do córpus Met.
Como pode ser observado na proposta acima, há um grande diretório intitulado Córpus_Met. Em seu interior há diferentes subpastas com conteúdos a ela relacionados: o Córpus de Calibração utilizado para familiarizar os anotadores (qunado houver mais de uma pessoa anotando os textos) quanto às categorias que deveriam utilizar para marcar o córpus; há uma pasta que contém o córpus cru, isto é, sem anotação; há outra pasta com o nome de Córpus_Met_Anotado, que possui em seu interior subpastas com o nome dos respectivos anotadores. Na pasta Córpus_Met_Documentação, há as versões do manual de anotação, e as tabelas que comparam a anotação realizada pelos diferentes anotadores.