• Sonuç bulunamadı

3.1 Sürdürülebilir Mimari

3.1.2 Sürdürülebilir Mimaride Ġlkeler, GeliĢtirilen Stratejiler ve Yöntemler

3.1.2.1.1 Enerjinin Korunumu

Para o corpus de Geologia utilizado anteriormente, a gera¸c˜ao da hierarquia de conceitos resultou na estrutura apresentada nas Figuras 6.8, 6.9, 6.10 e 6.11. Nessas figuras apresenta-se repre- senta¸c˜oes gr´aficas utilizando ´arvores hiperb´olicas [109] que permitem a visualiza¸c˜ao interativa da hierarquia.

A Figura 6.8 apresenta uma vis˜ao geral da hierarquia, mostrando a hierarquiza¸c˜ao das eti- quetas semˆanticas. A Figura 6.9 apresenta um n´ıvel de detalhe intermedi´ario do ramo que corresponde `as etiquetas classificadas dentro do ramo “concreto”, subramo “inanimado”, su- bramo “lugares”. A Figura 6.10 apresenta a sub´arvore dos conceitos com a etiqueta semˆantica “lugares aqu´aticos”. Finalmente, a Figura 6.11 apresenta em detalhe os conceitos “mares” e “lagos”.

Nessa ´ultima figura percebe-se claramente, entre outros, o conceito extra´ıdo “mares”, que foi encontrado 798 vezes, e que possui como subconceitos os conceitos extra´ıdos “mar devoniano”, “mar regressivo”, “mar de norte”, etc. Percebe-se tamb´em o conceito “lago”, que foi encontrado 243 vezes, e que possui como subconceitos “lagos profundos”, “lagos altos”, “lagos baixos”, “lagos atuais”, etc.

Outros exemplos pr´aticos de hierarquias constru´ıdas com a ferramenta EχATOLP, ou seja,

com extra¸c˜ao, ordena¸c˜ao e identifica¸c˜ao de conceitos foram publicados no Congresso Brasi- leiro de Inform´atica na Sa´ude - CBIS 2010 [125] e no Semin´ario de Pesquisa em Ontologias no Brasil / International Workshop on Metamodels, Ontologies and Semantic Technologies - Ontobras/MOST 2011 [67].

Figura 6.8: Hierarquia de conceitos para o corpus de Geologia - vis˜ao geral.

6.4. HIERARQUIAS DE CONCEITOS 93

Figura 6.10: Hierarquia de conceitos para o corpus de Geologia - detalhe nos conceitos com etiqueta “lugares aqu´aticos”.

Figura 6.11: Hierarquia de conceitos para o corpus de Geologia - detalhe nas sub´arvores dos conceitos “mares” e “lagos”.

7. CONCLUS ˜AO

O objetivo central dessa tese foi o desenvolvimento de um processo de extra¸c˜ao de conceitos a partir de corpora de dom´ınio. Dessa forma, assumiu-se como entrada corpora anotados linguisticamente e como sa´ıda do processo uma lista de conceitos dos dom´ınios que cada um dos corpus caracteriza.

Esse objetivo foi alcan¸cado e experimentado sobre cinco corpora de dom´ınio, que juntos totalizam um conjunto de textos com quase 6 milh˜oes de palavras. A avalia¸c˜ao de cada etapa do processo foi feita de forma emp´ırica atrav´es de experimentos com bigramas e trigramas de um dos corpus (Pediatria), para o qual havia listas padr˜ao de referˆencia (gold standard ). Cabe lembrar que, segundo a literatura [95, 153, 105], a pr´opria natureza da extra¸c˜ao de termos e conceitos ´e subjetiva, e, portanto, somente avalia¸c˜oes emp´ıricas s˜ao poss´ıveis.

Completando o objetivo, a utilidade dos conceitos extra´ıdos foi exemplificada pela dispo- nibiliza¸c˜ao de recursos de grande utilidade para pesquisadores e usu´arios de ferramentas da ´area de lingu´ıstica computacional. Adicionalmente, todos os m´etodos propostos, bem como a gera¸c˜ao autom´atica dos recursos lingu´ısticos, foram implementados em uma ferramenta de software, EχATOLP, que, ao mesmo tempo, ilustra e permite avaliar empiricamente todas as

propostas dessa tese feitas nos Cap´ıtulos 3, 4, 5 e 6.

7.1

Contribui¸c˜oes Cient´ıficas e Tecnol´ogicas

Na busca do objetivo dessa tese, foram desenvolvidos avan¸cos cient´ıficos expressos por:

1. uma abordagem lingu´ıstica de extra¸c˜ao de termos, que propˆos um conjunto de heur´ısticas a aplicar a sintagmas nominais extra´ıdos de um texto linguisticamente anotado por um

parser, que trouxe um aumento de precis˜ao e abrangˆencia de cerca de 50% frente `a

extra¸c˜ao tradicional;

2. um novo ´ındice de relevˆancia de termos, que permite, pela compara¸c˜ao com corpora contrastantes, estimar a relevˆancia de termos para um dom´ınio espec´ıfico com precis˜ao superior aos demais ´ındices an´alogos existentes;

3. uma proposta de estimativa gen´erica de pontos de corte em listas de termos organizados por relevˆancia, que permite a identifica¸c˜ao de conceitos, resultando em bons valores de medida F;

4. um conjunto de aplica¸c˜oes pr´aticas dos conceitos extra´ıdos e seus contextos, que permite a sua compreens˜ao, manipula¸c˜ao e visualiza¸c˜ao.

Em rela¸c˜ao ao estado da arte, a proposta de extra¸c˜ao (Cap´ıtulo 3) identificou heur´ısticas para transforma¸c˜ao de sintagmas nominais em termos e conceitos, enquanto que os outros tra- balhos nessa linha se limitam a fazer uma extra¸c˜ao puramente estat´ıstica, como ´e o caso do NSP [11]. Mesmo trabalhos mais pr´oximos, como o da ferramenta OntoLP [165] que tamb´em faz extra¸c˜ao baseada em sintagmas nominais e utiliza a entrada de textos anotados linguistica- mente, possuem valores de precis˜ao e abrangˆencia semelhantes aos conseguidos com a extra¸c˜ao

sem o uso de heur´ısticas. Dessa forma, nossa contribui¸c˜ao ao estado da arte da extra¸c˜ao de termos de corpora na l´ıngua portuguesa ´e de um processo, que pelo uso das heur´ısticas, traz, em rela¸c˜ao aos trabalhos correlatos, um aumento de, approximadamente, 10% para mais de 60%, tanto na precis˜ao, como na abrangˆencia de listas de termos extra´ıdos comparados com listas de referˆencia.

No que diz respeito ao estado da arte no estabelecimento de um ´ındice de relevˆancia para termos extra´ıdos, a proposta do ´ındice tf-dcf (Cap´ıtulo 4) traz uma contribui¸c˜ao clara pela formaliza¸c˜ao de um ´ındice com s´olida b´asica matem´atica. O ganho de precis˜ao trazido pelo ´ındice tf-dcf frente a abordagens tradicionais, como o popular tf-idf [130], ´e de cerca de 10%. Mesmo frente a trabalhos mais recententes, com abordagens similares pelo uso de corpora contrastantes [148, 103, 102], o ´ındice tf-dcf apresentou valores mais altos de precis˜ao em todos os experimentos realizados.

A proposta de ponto de corte para a identifica¸c˜ao de conceitos (Cap´ıtulo 5) traz contri- bui¸c˜oes frente ao estado da arte pela sua originalidade. Outros trabalhos similares utilizam alternativamente pontos de corte absolutos [147, 138, 202, 7], pontos de corte relativos [134], ou pontos de corte por limiar [28, 119], mas nenhuma publica¸c˜ao pr´evia cita o uso h´ıbrido de pontos de corte. Dessa forma, a abordagem proposta pelo uso combinado de um ponto de corte por limiar do ´ındice tf-dcf e de um ponto de corte relativo dos termos extra´ıdos traz uma contribui¸c˜ao objetiva ao fornecer valores adequados de medida F, mas, principalmente, por propor uma forma h´ıbrida de escolha de pontos de corte.

As aplica¸c˜oes desenvolvidas (Cap´ıtulo 6) trazem uma contribui¸c˜ao ao estado da arte de dis- ponibiliza¸c˜ao de termos e conceitos por conjugar conceitos existentes, como listas, concordan- ciadores [174], nuvens de etiquetas [112] e ´arvores hiperb´olicas [109], com a sa´ıda qualificada de termos e conceitos extra´ıdos. Por´em, uma contribui¸c˜ao relevante ao estado da arte ´e a proposta, ainda inicial, de uma forma de construir hierarquias de conceitos com uma parte semˆantica, e outra parte baseada em n´ucleo de sintagmas nominais. Essa forma de construir hierarquias pode em trabalhos futuros ser uma alternativa a outras abordagens similares encontradas na literatura [88, 81, 43, 143, 74, 9].

Al´em das contribui¸c˜oes cient´ıficas, essa tese traz trˆes contribui¸c˜oes tecnol´ogicas, que de um ponto de vista pr´atico, se materializam nos os seguintes recursos:

1. a ferramenta EχATOLP, que, al´em de implementar todo o processo de extra¸c˜ao de con-

ceitos descrito, oferece diversos modos de sa´ıda de termos e conceitos na forma de listas, concordanciador, nuvens de conceitos e uma hierarquia de conceitos;

2. os cinco corpora de dom´ınio que serviram para todas as experiˆencias dessa tese, e, por ser um conjunto homogˆeneo de corpora, se configura em um importante recurso lingu´ıstico para o tratamento computacional da l´ıngua portuguesa;

3. listas de conceitos (termos mais relevantes) dos corpora de dom´ınio, que podem ser uti- lizados diretamente, ou ap´os revis˜ao manual por especialistas, como listas de referˆencias para os corpora desenvolvidos.

Essas contribui¸c˜oes ser˜ao disponibilizadas imediatamente ap´os a publica¸c˜ao dessa tese no site do grupo de PLN da PUCRS: http://www.inf.pucrs.br/~linatural/ que ´e o grupo no qual esse trabalho de doutoramento se insere.

7.2. DIFUS ˜AO DAS CONTRIBUIC¸ ˜OES DESSA TESE NA COMUNIDADE ACAD ˆEMICA97

Benzer Belgeler