BÖLÜM II. GÖZETİM ÇALIŞMALARINA KAVRAMSAL BAKIŞ
2.3. Panoptikon Modeli ve Gözetim
2.3.1. Kavramsal Olarak Panoptikon ve Panoptikon Tasarımı
Uma das áreas mais promissoras para o uso de ontologias na IA com os instrumentos de vocabulário controlado é o Processamento da Linguagem Natural (PLN). Esses aplicam diferentes técnicas de indexação automática, utilizando regras formais segundo a abordagem linguística e a representação de termos-chave adotada pelo sistema. No projeto “Agência de Informação da Embrapa29
” foram construídas várias ontologias de domínio em que os documentos são catalogados manualmente, selecionando-se termos que podem ser associados automaticamente pelo sistema.
Conteratto (2005) destaca que os sistemas criados para manipular o código linguístico são geralmente modulados em diferentes níveis de processamento: morfológico, sintático, semântico, discursivo e pragmático. Esses sistemas são executados em módulos distintos que se comunicam pela passagem de representações intermediárias do texto sob análise. A Figura 14 mostra cinco bases de conhecimento: o léxico, a gramática, o modelo do domínio, o modelo do usuário e o modelo do discurso. No léxico, cada palavra pode estar associada às suas características morfológicas, sintáticas e semânticas. As outras três bases de conhecimento são modelos que fornecem o contexto para o processamento de cada frase. No modelo de domínio, armazena-se o contexto enciclopédico (dicionários de entidades e relações, etc.). O modelo do usuário pode ser representado com estruturas hierárquicas. O modelo do discurso fornece o contexto textual.
O léxico é um elemento essencial para o tratamento automático de dados linguísticos, sendo a sua análise semântica fator crucial para um efetivo processamento computacional que, não raro, encontra barreiras em questões ligadas a uma representação semântica eficaz e que permita ser representada em linguagem de máquina. Assim, a gramática, através de regras computacionais, determina listas de termos válidos. Essa representação deve ser escolhida de acordo com a representação da gramática, pois essas duas bases de conhecimento interagem durante o processamento do texto além de existir vários formalismos para representar estas informações armazenadas no léxico.
Apenas o fluxo de informação muda, de acordo com a tarefa do sistema: interpretação ou geração. Tem-se o texto como entrada; e uma representação formal como saída utilizando bases de conhecimento para interpretação da linguagem natural. O mapeamento de formalismos e o compartilhamento de conhecimentos com o uso de ontologias oferecem oportunidade para reusar bases de conhecimento, mesmo com adaptações e extensões. A lógica descritiva passa a funcionar como uma linguagem de representação do conhecimento por possuir sintaxe extremamente formal para integração de fontes de dados quando utilizada em modelos conceituais. Assim, a semântica estrutural assume o princípio de que explicitação formal do significado, primeiro depende da determinação de sua sintaxe para depois ser interpretada ao nível semântico.
Figura 14 – Arquitetura genérica de um sistema de PLN.
Fonte: Conteratto, 2005.
Os processos usados com PLN na Lingüística Computacional são práticas de KDT (Knollndgn Discovnry from Tnxt) que aplica técnicas tradicionais de KDD (Knollndgn Discobnry in Databasns), e outras novas com uso da lógica descritiva e linguagem orientada a objetos com o uso de anotações semânticas em documentos (LOH, 2001). Muitas técnicas utilizadas com ontologias de domínio e anotações semânticas em documentos eliminam ambiguidades de palavras, ajudando o usuário a interpretar termos errôneos dependendo da construção formada na consulta.
A maioria dos buscadores na Web baseia-se na técnica de recuperação ordenada. Para melhorar as medidas de precisão e revocação, pode-se utilizar técnicas de expansão de consultas por meio de conceitos semanticamente relacionados, além de medidas de distância conceitual. A CI se aproxima da Linguística Computacional para gramaticalização das linguagens documentárias. Assim, instrumentos como taxonomias,
tesauros e ontologias são criados para controlar o vocabulário que estruturados em campos conceituais formam um “sistema de conceitos” hierárquico de um modelo relacional. Dessa forma, uma ontologia de domínio na IA pode ser modelada utilizando os mesmos princípios. Um hiperdocumento científico também pode ser analisado por um sistema “inteligente” de uma base de dados, usando métodos estatísticos de orientação a objetos informacionais digitais para classificar/categorizar e relacionar conceitos integrados sobre um domínio.
Na linguística computacional, as anotações semânticas atribuem rótulos de categorias ao texto. As descrições gramaticais utilizam a categorização das palavras e de outras porções do discurso de acordo com os traços que as posicionem dentro do sistema linguístico, podendo utilizar dicionários, tesauros e ontologias associados aos mecanismos de busca. Bueno (2005) utilizou a metodologia da “engenharia da mente”30 que foi aplicada para auxiliar os processos de descrever um modelo representado por um vocabulário controlado que possibilitou a recuperação automática mediante a identificação de expressões jurídicas desse vocabulário nos textos (Figura 15). O modelo de Bueno permitiu consultas em linguagem natural e inclusão de novos casos na base de conhecimento. A recuperação foi realizada com matching31 parcial, usando uma medida de similaridade.
Figura 15 Raciocínio Baseado em Casos.
Fonte: Bueno, 2005.
Existem diferentes recursos na IA que permitem analisar grupos de textos usando representações gráficas, compararem grafos representando, por exemplo, estruturas sintáticas de textos, combinando conceitos com o uso de mapas conceituais e taxonomias (LOH, 2001). Essas técnicas utilizam a matemática discreta como grafos conceituais e encontram-se entre as técnicas mais recentes de IA. Na teoria dos grafos,
30
Engenharia da Mente é um processo de sincronização do conhecimento desenvolvido com a finalidade de fixar modelos conceituais em relação ao objetivo e à aplicação do modelo de gestão baseado na IA.
31 O matching é um algoritmo capaz de comparar dados de uma máquina de inferência com
existem programas de tempo polinomial para encontrar um peso máximo de correspondência em um gráfico com base na rápida multiplicação de matrizes. Uma vez que uma regra é disparada, as ações especificadas pela regra são executadas (LUCENA, 2003).
Modelos booleanos estendidos e difusos com uso da lógica descritiva e a lógica fuzzy32
também podem associar termos de uma ontologia com o uso de anotações semânticas em documentos e redes neurais33. Assim, o computador consegue agrupar dados para localizar termos-chave e separar uma série de objetos semelhantes a um mesmo assunto que tende a permanecer em um mesmo grupo (cluster), ao associar atributos em comum (LOH, 2001). Essas técnicas são usadas em interfaces que permitem aos usuários entrar em consultas em uma linguagem de sintaxe formal. Os motores removem as palavras de parada (stop lords)34 além de normalizar os termos reduzindo-os a seus radicais, processo conhecido como stnmming35.
A indexação para representar documentos pode acontecer em dois níveis (a) em nível de palavra, com equivalência entre os termos de índice e as palavras do texto; e (b) em nível conceitual, onde o mapeamento é realizado entre os conceitos, que as palavras ou as frases carregam, e os índices. Como a indexação visa buscas rápidas, geralmente, usa- se um arquivo invertido36
. A Figura 16 mostra as etapas do processo de indexação automática são: identificação de termos; remoção de stop lords; normalização e padronização de vocabulário e seleção de termos relevantes.
32 A lógica fuzzy encontra-se entre as técnicas mais recentes de IA. A maioria dos modelos
apresenta algoritmos desenvolvidos em linguagens específicas utilizando principalmente paradigmas de programação lógica e funcional (LOH, 1999).
33
Uma rede neural compreende um conjunto de nós interligados chamados de neurônios artificiais. Cada neurônio conecta-se e envia informação para os demais da camada seguinte, de acordo com pesos e conexões predefinidos com a capacidade de tratar dados incompletos, produzindo resultados satisfatórios a partir de generalizações (ALMEIDA e DUMONTIER, 1996).
34
Palavras de parada são palavras muito comuns nos textos como artigos, preposições, conjunções entre outras. Os motores de busca evitam essas palavras porque normalmente não ajudam refinar buscas, demorando o tempo de resposta (TRILLO, 2004).
35
Stnmming é um processo para identificar os radicais das palavras e, com isso, diminuir o número de palavras indexadas, as operações mais comuns são a remoção de afixos.
36 Um arquivo invertido é uma lista de palavras ordenadas ou strings (sequência de caracteres)
Cada palavra contém um conjunto de ponteiros para os locais onde aparecem que pode ser uma parte do documento ou a posição real e específica da palavra no documento (LOH, 2001).
Figura 16 – Indexação automática e índice invertido.
Fonte: Adaptado de TRILLO, 2004 e MORAIS, 2007.
Atualmente, as ontologias também estão sendo vistas como meios de acesso, atuando como mapas conceituais dos tópicos explorados em um serviço de recuperação, revelando as ideias e os conceitos que compõem determinada área do conhecimento. Esses conceitos aparecem representados através de termos-chave, os quais indicam que uma ontologia pode ser modelada representando um sistema de conceitos integrados e indicar relações de equivalência (GOMES, MOTTA, CAMPOS, 2006). No MHTX, Silva (2008) indica o uso de ontologias para a construção de mapas conceituais mais completos sob o ponto de vista semântico e mais preparados para a compatibilização.
A principal vantagem de representação gráfica de redes semânticas com ontologias formais de estruturas taxonômicas é o poder que os mecanismos de inferência têm de derivar as propriedades de objetos mais gerais para os mais específicos (REZENDE, 2003). Esses são os princípios das linguagens de orientação a objetos, como as propriedades de encapsulamento dos atributos, herança e polimorfismo. Uma ontologia pode ter índices múltiplos em uma rede semântica para permitir acesso ao conteúdo estruturado de documento com regiões distintas, explicitando significados de termos.
Um dos benefícios de usar índices múltiplos é que o usuário pode pesquisar em uma região semântica distinta, melhorando o processo de recuperação e evitando que o sistema tenha que pesquisar em todo o índice. Esses índices facilitam a navegação em contexto melhorando o processo de recuperação e evitando que o sistema tenha que pesquisar em todo o índice. Os tópicos (termos-chave) de uma ontologia de domínio são ferramentas que possibilitam uma navegação contextualizada entre os elementos que os compõem, permitindo uma conexão entre o signo representacional e o recurso representado. Esses mapas formam um padrão para representação da informação utilizado para descrever e navegar por objetos informacionais em sistemas digitais (MARTHA, 2005).
Algumas técnicas e ferramentas na IA apresentam documentos e relacionamentos através de agrupamentos visuais, mapas bi ou tridimensionais, conexões gráficas e outras estruturas complexas. As medidas de distância conceitual utilizam os nós para calcular a distância conceitual e medir a similaridade entre os termos da consulta e do documento (LOH, 2001). Um índice de um grafo conceitual é o número total de matchings. Este índice é sempre pelo menos um, pois o conjunto vazio de arestas é contado como uma correspondência para essa finalidade, ou seja, este índice é o número de emparelhamentos não vazia. Furgeri (2006) destaca que as redes semânticas têm seu foco nas categorias de objetos e nos relacionamentos entre eles (lado 1 da Figura 18 ). A relação entre conceitos é representada por arcos através de verbos transitivos ou preposições através de um conjunto de nós (conceitos) e um conjunto de arcos (links).
Os nós de uma ontologia são os conceitos e uma aresta dirigida entre dois nós representa uma relação entre os mesmos. O lado 2 da Figura 17 mostra uma visão de uma ontologia extraída e apresentada pelo OntoCover na forma de uma árvore hiperbólica. A visualização de um mapa conceitual hiperbólico reduz o tempo gasto para navegar no computador, fornecendo meios de localizar informações específicas demonstrando como os conceitos estão tão semanticamente estruturados que facilitam a movimentação de um nó para outro. Esta interface conhecida como fishnyn ou visão “olho-de-peixe” ou “visão mais detalhada” geralmente fornece um esquema que é suficiente para lidar com a orientação de grandes redes, permitindo maior flexibilidade e agilidade na interface (LIMA, 2004).
Figura 17 - Modelo de uma rede semântica.
Fonte: Fileto, Medeiros, Pu, Liu e Assad, 2005; Furgeri, 2006.
A distância conceitual entre dois nós é o comprimento do caminho mais curto entre eles no grafo dirigido exibido no Lado 1. Os nomes dos nós representam conceitos e os arcos representam a ligação entre esses os conceitos. Os nós podem ser representados
por substantivos, adjetivos, pronomes ou nomes próprios. Os termos mais comuns usados em arcos são is_a (é um), has_a (tem um) e is_part (é parte de). A seta do arco determina o sentido da leitura, mas podem ser lidas nos dois sentidos. Alguns mecanismos de inferência computacionais podem ser realizados no modelo: Livro é um tipo de Obra; Artigo é um tipo de Obra; Livro tem um ISBN, um sumário e uma Editora; O Autor é um tipo de Pessoa Física que possui CPF, nome, etc. As cores dos nós do Lado 2 distinguem as facetas, isto é, ramos da árvore descrevendo conceitos relativos a diferentes temas ou dimensões, tais como espaço geográfico, tipos de solo, tipos de vegetação, produtos e tempo. No lado direito, a ferramenta permite selecionar termos da ontologia para compor e comparar anotações semânticas, segundo a ordem parcial dos termos em cada ramo da árvore.
As ontologias têm sido utilizadas como uma das possibilidades mais promissoras para garantir a compatibilização e interoperabilidade semântica de aplicações Web por fornecerem uma semântica bem definida e de forma estruturada. Por permitir reuso, outros benefícios podem ser: a verificação/validação automática do modelo conceitual construído, a possibilidade de geração sistemática de infra-estruturas de domínio e a interpretação não ambígua das definições de conceitos e relações (CAMPOS, 2007). Os padrões de metadados digitais W3C permitem que as anotações semânticas em documentos textuais sejam diretamente processáveis por computador utilizando uma ontologia de domínio.