• Sonuç bulunamadı

Inicialmente aventou-se a possibilidade de se utilizar o diretório de grupos de pesquisa do CNPq para identificar os pesquisadores na área de processamento de linguagem natural. No entanto, simulações realizadas mostraram que somente pesquisadores das áreas da linguística e da ciência da computação possuem grupos de pesquisa, formalmente cadastrados no CNPq, que abordam processamento de linguagem natural. Em função disto, optou-se por utilizar a Plataforma Lattes do CNPq para identificar os pesquisadores que estejam pesquisando sobre o tema desta pesquisa.

Diante do objetivo desta etapa – identificar os pesquisadores que desenvolveram pesquisas sobre processamento de linguagem natural – utilizou-se como critério de busca, encontrar os pesquisadores doutores que tenham atualizado o seu currículo nos últimos dois anos, tendo como assuntos linguagem natural e

linguagem documentária. Esses assuntos foram utilizados, tendo em vista que, conforme mencionado anteriormente, as linguagens documentárias têm sido utilizadas por unidades de informação para descrever o conteúdo dos documentos, e portanto devem ser levadas em consideração num projeto sobre processamento de linguagem natural. Além disso, para verificar a hipótese de que a grande parte das pesquisas sobre linguagem natural está concentrada na ciência da computação, realizou-se também a coleta de currículos a partir da Plataforma Lattes, buscando-se como assunto recuperação de informação em documentos e/ou em textos. Vale destacar que inúmeras consultas na Plataforma Lattes foram realizadas utilizando-se essas palavras-chaves em português e em inglês, assim como com as devidas variações de número e genêro.

O processo de busca da Plataforma Lattes procura qualquer ocorrência das palavras usadas como critérios de busca no conteúdo do currículo cadastrado pelo pesquisador. Vale ressaltar que todas as informações obtidas na referida plataforma foram fornecidas pelo próprio pesquisador, não sendo foco deste trabalho validá-las.

Diante do volume de dados manipulados durante esta etapa do projeto e dado a formação da doutoranda (ciência da computação), optou-se por desenvolver programas de computador4 que realizassem as coletas na Plataforma Lattes de maneira automática. Inúmeras coletas foram realizadas durante a realização desta pesquisa, mostrando como a Plataforma Lattes é um ambiente dinâmico no que se refere a atualização dos currículos. Todos os resultados apresentados foram obtidos a partir de dados coletados no dia 10 de novembro de 2009.

Utilizando-se como critério de busca o assunto “linguagem natural” foram retornados 411 currículos5; 23 currículos foram retornados utilizando-se como critério “linguagem documentária”6; 114 currículos ao utilizar “'recuperação de informação' e documento” como assunto7; e 119 currículos utilizando-se “'recuperação de informação' e texto”8. Para cada pesquisador, manteve-se um arquivo texto contendo todos os artigos e trabalhos completos publicados pelo pesquisador em toda a sua vida, ou seja, todas as referências que encontram-se cadastradas na Plataforma

4 Os programas foram desenvolvidos utilizando-se a linguagem de programação Java, que permitiam a coleta e análise (parsing) do código HTML de cada currículo retornado.

5

Esses 411 currículos são listados no arquivo "estatisticasLN.txt" disponível no CD-ROM que acompanha esta tese. 6

Apresentados no arquivo "estatisticasLD.txt". 7

Apresentados no arquivo "estatisticasRID.txt". 8

Lattes9.

Os resultados dessa seleção totalizaram 541 pesquisadores, sendo que: 95 foram retornados por mais de um assunto: um pesquisador (Nair Yumiko Kobashi da ciência da informação) foi retornado nos quatro assuntos, 29 pesquisadores foram retornados em três assuntos, 65 para dois assuntos e 446 foram recuperados em apenas um assunto10.

Cada currículo foi avaliado, buscando-se a produção científica de cada pesquisador. Diante do objetivo de identificar as grandes contribuições para a área, descartou-se todas as publicações em eventos de iniciação científica. Assim, para cada currículo recuperado, foram coletados automaticamente a instituição vinculada, a área de atuação e os artigos e trabalhos completos, publicados pelo pesquisador em periódicos e em anais de congressos.

Os 541 pesquisadores coletados foram responsáveis, ao longo de toda a sua vida produtiva, por um total de 27.626 publicações11. No entanto, vale destacar que, este montante não é constituído apenas por publicações da área de PLN, e sim por todos os trabalhos publicados pelos pesquisadores que foram recuperados pela Plataforma Lattes. Assim, no sentido de obter as publicações realmente pertinentes a área de PLN, o próximo passo foi descartar as repetições oriundas de co-autorias, para então aplicar o critério de seleção. Neste momento, algumas dificuldades foram encontradas devido à inconsistência nos dados cadastrados na Plataforma Lattes. Essas divergências dificultaram uma análise baseada na referência bibliográfica, visto que para que um procedimento automático de casamento de padrões funcionasse, era necessário que o mesmo trabalho fosse referenciado nos currículos de todos os seus co-autores da mesma maneira, o que não acontece. No entanto, conforme mencionado anteriormente, não cabe a este trabalho validar as entradas e a consistência na normalização das referências apresentadas pelos pesquisadores, e sim considerá-las como sendo uma situação possível de existir.

Essas dificuldades foram antecipadas por Mascarenhas Silva (2007), em sua tese de doutorado, quando advertiu que muitos cientistas não se dão conta que sua produção documental poderia servir, no futuro, como objeto de estudo e que esta produção permitiria estudar "a evolução das políticas de pesquisa e ensino

9

Estes arquivos criados para cada pesquisador retornado pelas consultas realizadas na Plataforma Lattes estão disponibilizados no diretório "todosCurriculos".

10

Disponibilizado no arquivo "estatisticasPesqAssunto.txt". 11

científicos, a evolução desta ou daquela disciplina ou ainda o papel deste ou daquele cientista no desenvolvimento da ciência" (p. 78).

Das 27.626 publicações coletadas originalmente, 337 foram citadas da mesma forma nos currículos dos seus co-autores e portanto puderam ser descartadas por um processo de casamento de padrões12.

Esta divergência dificultou a análise de co-autoria, de maneira automática, uma vez que um mesmo trabalho pode ser cadastrado na Plataforma Lattes com referências diferentes. Por exemplo, o trabalho “Desafios do Processamento de Línguas Naturais” publicado por Vera Lúcia Strube de Lima, Maria das Graças Volpe Nunes e Renata Vieira no 34° Seminário Integrado de Software e Hardware em 2007 foi cadastrado de maneira diferente nos três currículos (citando os autores em ordem diferente).

Mesmo utilizando-se a forma de citação, cadastrada pelo próprio pesquisador no seu currículo, observou-se que tal forma era adotada somente no próprio currículo, mas as co-autorias eram cadastradas sem seguir o padrão. Assim, todas as publicações de um único autor eram cadastradas seguindo o formato cadastrado, mas para as demais, fez-se necessária a utilização de uma heurística (comparando as iniciais dos nomes). Das 2.338 co-autorias analisadas, 334 (cerca de 14%) foram identificadas por meio desse processo heurístico.

Além disso, 88 publicações tiveram que ser corrigidas manualmente, pois apresentavam o mesmo título e o mesmo ano de publicação mas apresentavam autores diferentes. Para essas inconsistências sinalizadas pelo programa de computador desenvolvido, a doutoranda verificou na internet, no site do evento ou do periódico, qual seria a correta autoria do trabalho, e corrigiu manualmente.

Ao final desse processo de análise de co-autorias, a lista de pesquisadores, que inicialmente era de 541, passou a contar com 1.209 co- autores13. Considerando-se somente as publicações potencialmente atinentes, de acordo com o critério de seleção definido, são 1.003 pesquisadores envolvidos14. Para estes pesquisadores, que não foram obtidos pela consulta na Plataforma Lattes, e sim pela análise de co-autoria de alguma publicação, atribuiu-se à área e macro-área como sendo 'desconhecida'. Estes pesquisadores não foram recuperados pelas consultas na Plataforma Lattes, por um dos seguintes motivos: ou

12

As 27.289 publicações restantes estão apresentadas no arquivo "todasPublicacoesSemRep.txt", sem as repetições. 13

Esta lista de 1.209 co-autores está apresentada no arquivo "saidaPesquisadoresRelevantes.txt". 14

não é doutor, ou não tem atualizado seu currículo, ou não tem currículo cadastrado na Lattes. Vale destacar que, destes 668 pesquisadores desconhecidos, 448 foram associados a somente uma publicação, 127 a somente duas publicações, 54 a três publicações e 20 a quatro publicações. Vale ressaltar que, dentre os pesquisadores desconhecidos que apresentaram mais de 5 publicações estão José Gabriel Pereira Lopes e Ricardo Baeza-Yates, que publicam muito na área de recuperação de informação em documentos mas que por serem, Português e Chileno, respectivamente, não apresentam currículos cadastrados na Plataforma Lattes.

Conforme destacado anteriormente, a Plataforma Lattes retorna os currículos que apresentaram os assuntos pesquisados (linguagem natural,

linguagem documentária e recuperação de informação em documentos e/ou em textos), não garantindo que estes currículos, assim como as publicações obtidas,

sejam realmente pertencentes à área de PLN.

O parâmetro conceitual construído foi aplicado em todas as publicações para que fosse possível analisar historicamente a produção nacional. Além disso, como os conceitos usados como critérios de seleção foram estabelecidos, tendo como base os capítulos de revisão do ARIST (de 1966 a 2003), aplicá-los somente às publicações recentes poderia gerar um retrato distorcido da realidade.

Sendo assim, o instrumento de seleção definido anteriormente, a partir da análise de assunto do ARIST, foi utilizado para determinar quais destas publicações eram realmente consideradas atinentes à temática processamento de linguagem natural.

Benzer Belgeler