O domínio biomédico, historicamente, quase sempre contou com artefatos para representação e organização dos termos específicos da área, devido à vasta gama de termos técnicos usados.
Desde os primórdios da história da medicina, os gregos (fundadores da medicina moderna) e os romanos (difusores dos termos médicos pelo mundo) já utilizavam alguns artefatos para a organização dos termos da área. Os registros históricos relatam que o primeiro dicionário médico surge na década de 1830, compostos de termos de origem latina – idioma usado por gregos e romanos nesta época (HENDERSON e DORSEY, 2009).
No que se refere, propriamente, às terminologias, compreendidas como artefatos linguísticos que unem os diversos sentidos ou significados das entidades linguísticas, seu primeiro uso na medicina é registrado durante o século XVII. Neste período, autoridades de saúde de Londres, na Inglaterra, utilizaram uma lista padronizada de aproximadamente 200 causas de morte – a London Bills of Mortality - para tabular as mortalidades ocorridas na cidade. Mais tarde, a London Bills of Mortality foi incorporada a um tradicional sistema de classificação médica, conhecido como Classificação Internacional de Doenças (CID) (GERSENOVIC, 1995).
A partir de então, diversas terminologias na área médica tem sido criadas com o propósito de coletar nomes de substâncias, qualidades, estruturas e processos utilizados tanto no ambiente de pesquisa como na prática clínica, na recuperação de documentos, no registro de estatísticas de mortalidade e morbidade, entre outros.
De maneira geral, pode-se afirmar que uma terminologia médica é um instrumento de organização da informação composto de termos que descrevem a anatomia e a fisiologia humana (órgãos do corpo, sistemas e suas funções), partes do corpo humano, doenças, procedimentos clínicos, diagnósticos, entre outros.
Nesta seção serão apresentadas as terminologias médicas mais conhecidas e relevantes para a padronização de termos da área, que incluem a Classificação Internacional de Doenças (CID), o Medical Subject Headings (MeSH), o vocabulário Descritores em Ciências da Saúde (DeCS), o National Center Institute’s (NIC) Thesaurus e o Systematized Nomenclature of Medicine (SNOMED). Por fim, será feita uma breve descrição do Unified Medical Language System (UMLS), que congrega mais de vinte terminologias médicas especializadas organizadas em uma estrutura única. O UMLS
59
engloba, por exemplo, as terminologias anteriormente citadas: CID, MeSH, SNOMED e DeCS.
A Classificação Internacional de Doenças (CID) foi criada em 1880 pela Organização Mundial de Saúde (OMS) baseada na London Bills of Mortality (OMS, 2012). Atualmente em sua versão 10 – a CID-10 – engloba aproximadamente 13000 classes para a classificação de doenças e formas de contratação. A CID-10 é mantida pela OMS e, segundo Freitas e Schulz (2009), representa, atualmente, o sistema de codificação de doenças mais amplamente utilizado em todo o mundo, servindo de base comum para as estatísticas de saúde.
A CID-10 está dividida em 22 capítulos que denotam classes de doenças e problemas relacionados, o que significa que cada doença específica se encaixa em uma categoria com um código único. A hierarquia is-a é a única relação de construção hierárquica presente na CID e que contém ao todo cinco níveis hierárquicos. Além disso, a CID garante que nenhuma classe tenha mais que uma classe matriz (ou nó pai), com o objetivo de impedir que uma doença seja contada mais de uma vez.
O Medical Subject Headings (MeSH) é um vocabulário controlado criado pela National Library of Medicine (NLM) para indexação do Index Medicus7. Atualmente é utilizado na indexação de documentos da área de saúde, principalmente resumos literários da base de dados biológica MEDLINE (NELSON e SCHULMAN, 2007).
Com relação à sua estrutura, o MeSH consiste de um conjunto de termos, denominados “descritores”, disposto em uma estrutura hierárquica – ao todo são 16 árvores ou ramificações – que permite a busca em vários níveis de especificidade. Os nós das árvores do MeSH são chamados de cabeçalhos e denotam um significado padronizado de um grupo de termos médicos (FREITAS e SCHULZ, 2009). Por exemplo, o cabeçalho MeSH Leishmaniose é parte da hierarquia Doenças Parasitárias e também da hierarquia Doenças da Pele e do Tecido Conjuntivo, conforme apresentado em Freitas e Schulz (2009). Desta forma, o MeSH dispõe seus cabeçalhos em hierarquias múltiplas, em contraste ao CID, com cada cabeçalho possuindo um identificador único e um “número de árvore” a que pertence.
Sobre o MeSH, Hersh (2003) afirma ainda que este vocabulário possui três tipos de relacionamentos entre seus termos: (i) o hierárquico, (ii) os sinônimos e (iii) os
7
Index medicus foi um índice criado em 1879 por John Shaw Billings para ajudar profissionais médicos a encontrar artigos relevantes em jornais da época. Os artigos de jornais eram indexados por nome de autor e assunto do título e, então, eram colocados em volumes separados para um pesquisador encontrar com maior facilidade um assunto específico (HERSH et al., 2001).
60
relacionados; que são usados para auxiliar na busca de documentos que contenham referências a uma doença, por exemplo.
Em 1986, a Biblioteca Regional de Medicina (BIREME8) traduziu e adaptou o MeSH criando o vocabulário controlado Descritores em Ciências da Saúde (DeCS), para uso na indexação de artigos de revistas científicas, livros, anais de congressos, relatórios técnicos e também para ser usado na pesquisa e recuperação de assuntos da literatura científica nas bases de dados da Literatura Latino-Americana e do Caribe em Ciências da Saúde (LILACS), SciELO e a própria MEDLINE, como afirma Pellizzon (2004).
Desta forma, o DeCS caracteriza-se como um vocabulário trilíngue (português, espanhol e inglês) com o propósito de facilitar o acesso à informação biomédica em tais idiomas. Segundo a BIREME (2012), o DECS engloba aproximadamente 26851 descritores, sendo 3656 referentes à Saúde Pública e outros 1950 relacionados com Homeopatia.
Criado pela comunidade de pesquisa do câncer, o National Center Institute’s
(NIC) Thesaurus é um vocabulário controlado de domínio público, baseado no UMLS
MetaThesaurus. Seu propósito principal é integrar informações clínicas e moleculares relacionados ao câncer e, para tanto, contém uma estrutura taxonômica de conceitos clínicos e básicos usados nas pesquisas de câncer, além das relações entre esses conceitos. Além disso, é baseado em lógica descritiva. (NCI, 2012 – 81, 82).
Considerado por seus autores (GOLBECK et al. 2003) como um vocabulário mais amplo e mais profundo que os demais vocabulários clínicos controlados, porque contém maior riqueza de interrelacionamento semântico entre seus nós, o tesauro NCI sofre dos mesmos problemas das terminologias médicas (CEUSTERS, SMITH e GOLDBERG (2005); KUMAR e SMITH (2005)): (i) erros e inconsistências nos princípios de formação dos termos, que incluem uso de verbos e definições inapropriadas; (ii) sinonímia e (iii) problemas com as relações especificadas.
Apesar das falhas identificadas do tesauro NCI, Kumar e Smith (2005) consideram que tal terminologia, caso passe por processos de refinamento, constitui-se num ótimo ponto de partida para o trabalho ontológico no domínio do câncer, podendo ser, futuramente, uma ontologia de referência neste domínio.
O Systematized Nomenclature of Medicine (SNOMED) foi publicado pela primeira vez, em 1975, como sucessor do Standard Nomenclature Pathology (SNOP), desenvolvido pelo College of American Pathologists para englobar termos clínicos de todas
8
BIREME é o nome original do atual Centro Latino-Americano e do Caribe de Informação em Ciências da Saúde, que é um centro especializado da Organização Pan-Americana da Saúde / Organização Mundial da Saúde (OPAS/OMS), orientado à cooperação técnica em informação científica em saúde (BIREME, 2012).
61
as especialidades de medicina (IHTSDO-SNOMED, 2012). Atualmente em uma versão conhecida como SNOMED-CT - Systematized Nomenclature of Medicine-Clinical Terms – o SNOMED é uma terminologia abrangente que já passou por várias revisões publicadas em versões diferentes: SNOMED-2 (1979), SNOMED-3 (1993), SNOMED-3.5 (1996) e SNOMED-RT (Reference Terminology) (1997).
O SNOMED-CT, resultado da fusão do SNOMED-RT com a versão 3 do UK Clinical Terms, cobre o registro do paciente por inteiro, além de abordar estruturas corporais, procedimentos e aspectos relevantes relacionados à saúde (SPACKMAN, 1997 apud FREITAS e SCHULZ, 2009). Desde abril de 2007 é mantido e distribuído pela International Health Terminology Standards Development Organization (IHTSDO).
Quanto à sua estrutura, o SNOMED-CT possui 310.000 nós distribuídos em múltiplas hierarquias is-a. Alguns desses nós são chamados de conceitos e denotam classes de entidades como doenças, procedimentos, medicamentos e até entidades geográficas, como afirmam Freitas e Schulz (2009). Tais conceitos incluem sinônimos e, em alguns casos, definições em texto livre.
Duas novidades do SNOMED-CT em relação às terminologias, anteriormente citadas, é a inclusão de qualificadores, que oferecem refinamentos opcionais para os conceitos, e também 50 tipos de links chamados de conceitos de ligação, que podem ser expressos em lógica descritiva para representar relações entre os conceitos. A partir disso, pode-se afirmar que o SNOMED-CT aproxima-se de uma representação ontológica simplificada.
Nesta breve revisão de literatura das terminologias médicas é possível notar a proliferação destes instrumentos, nos últimos anos, visando à organização da informação biomédica. Com o propósito de buscar um alinhamento de tais terminologias e vocabulários controlados, surgiram projetos e estruturas únicas para unificar essas propostas, tais como o Unified Medical Language System (UMLS) e a Open Biological
Ontologies (OBO).
O Unified Medical Language System (UMLS) foi criado em 1986, pela National Library of Medicine (NLM), com o propósito de integrar informações de diversas fontes terminológicas incompatíveis. O UMLS pode ser definido como um repositório de vocabulários biomédicos que integra, atualmente, cerca de 2 milhões de termos médicos em 900.000 conceitos de mais de 60 famílias de vocabulários biomédicos, além de 12 milhões de relações entre esses conceitos (BODENREIDER, 2004).
Apesar do seu propósito de integração, o projeto UMLS enfrenta problemas por não possuir uma arquitetura comum e terminologias separadas (CEUSTERS et al., 2004). Além disso, os mapeamentos UMLS não conseguem fundir/unificar seus termos em um
62
único sistema (CAMPBELL, OLIVER e SHORTLIFFE, 1998), já que tais mapeamentos são realizados em termos contidos em terminologias separadas – não integradas em uma mesma arquitetura.
Mesmo com esses problemas citados, o UMLS é ainda muito utilizado, atualmente, por uma gama enorme de pesquisadores, profissionais e cientistas, caracterizando-se como um dos principais recursos para indexação e recuperação de documentos da literatura biomédica.
Seus três componentes básicos são: (i) o Metathesaurus UMLS, um repositório de conceitos biomédicos inter-relacionados, que representa seu principal componente; (ii) a Rede Semântica UMLS, que provê categorias básicas ou de alto nível usadas para categorizar cada conceito do Metathesaurus; e (iii) recursos léxicos, que incluem o léxico SPECIALIST e programas para geração de variações léxicas dos termos biomédicos (BODENREIDER, 2004).
Ao nomearem o tesauro UMLS como um metatesauro, seus criadores introduzem a idéia de terem desenvolvido um tesauro dos tesauros, que engloba os demais tesauros da área biomédica, preservando seus nomes, idéias, contextos hierárquicos, atributos de interrelacionamento e adicionando a eles informação básica para cada conceito, além de estabelecerem novos relacionamentos entre os termos destes diferentes vocabulários.
Nelson, Powell e Humphreys (2006) afirmam que a estrutura unificada do Metathesaurus UMLS constitui a mais rica fonte atual de terminologias, tesauros, sistemas de classificação e ontologias biomédicas, cobrindo diversos subdomínios da área biomédica. Esses subdomínios cobertos pela UMLS são apresentados por Bodenreider (2004), conforme Figura 3, a seguir.
63
Figura 3 - Os vários subdomínios biomédicos integrados ao UMLS.
Fonte: adaptado de Bodenreider (2004).
A Figura 3 ilustra alguns dos subdomínios biomédicos cobertos pela UMLS a partir das terminologias, vocabulários e ontologias biomédicas usados em tal estrutura. Assim, temos: (i) a taxonomia NCBI para representar os organismos;(ii) o Digital Anatomist Symbolic Knowledge Base (UWDA) para representar o domínio de anatomia;(iii) a Gene Ontology (GO), usada para anotação dos produtos genéticos dos vários modelos de organismos;(iv) o vocabulário MeSH, para cobrir a literatura médica na base MEDLINE;(v) o Online Mendelian Inheritance in Man (OMIM), como uma de suas bases de representação do conhecimento genético; e (vi)a terminologia SNOMED Internacional (incluindo a SNOMED-CT), para representar os componentes clínicos da biomedicina, além de outros subdomínios específicos não apresentados em tal figura.
Sobre a estrutura do MetaThesaurus UMLS, Nelson, Powell e Humphreys (2006) descrevem que cada conceito possui uma identificação única - Concept Unique Identifier (CUI) – que mapeia um ou mais termosdas diferentes terminologias da UMLS. Esses termos também possuem um identificador único - Common Term Identifier (LUI) – e mapeiam uma ou mais variações morfológicas dos termos, representadas por strings com um identificador único - String Unique Identifier(SUI). O quadro da Figura 4 ilustra essa estrutura do UMLS, apresentando exemplos de cada mapeamento.
64
Figura 4 - Exemplos de identificadores no MetaThesaurus UMLS.
Fonte: adaptado de NLM-UMLS (2012).
Já a Rede Semântica do UMLS provê uma categorização consistente dosconceitos existentes no MetaThesaurus, estruturando-os em tipos semânticos ou categorias básicas. Uma árvore de 135 tipos semânticos, ligados por relações is-a, forma o suporte principal desta rede, que ainda inclui uma hierarquia de 53 relações associativas (por exemplo, localização_de, trata), que são utilizadas para formar 612 trios (por exemplo, Tecido, Procedimento Diagnóstico), dos quais 6252 trios podem ser inferidos (FREITAS e SCHULZ, 2009). Uma parte desta Rede Semântica da UMLS é apresentada na Figura 5, a seguir.
Figura 5 - Extrato da rede semântica UMLS.
65
Por fim, temos os recursos léxicos do UMLS, que incluem o já citado SPECIALIST e outros programas, tais como o LVG, usado para geração das variações léxicas dos termos biomédicos e o Metamap, que pode ser utilizado para a extração de conceitos UMLS de um conjunto de textos como fonte de dados (BODENREIDER, 2004). Tais recursos têm sido sendo desenvolvido para trabalhar com Sistemas de Recuperação de Informação que implementem Processamento de Linguagem Natural (PLN) usando a língua inglesa. No caso do léxico desenvolvido, ele registra para cada palavra a informação sintática, morfológica e ortográfica necessária para um sistema de PLN especialista.
As terminologias médicas, normalmente, são construídas com fins definidos, como a recuperação de documentos ou registro de estatísticas, e seus termos são definidos utilizando expressões da linguagem humana, assim como as relações entre esses termos expressam relações informais próximas da linguagem humana. Resumidamente, pode-se dizer que as terminologias médicas não utilizam descrições formais e bem definidas, como é possível com o uso de ontologias.
Como alternativa às terminologias médicas, as ontologias biomédicas têm sido utilizadas como forma de solucionar os problemas mencionados. Suas vantagens em relação às terminologias relacionam-se, principalmente, aos formalismos baseados em lógica, que são usados para mapear o conhecimento de um determinado domínio. Desta forma, é possível representar com mais expressividade as classes (conceitos), suas relações, suas ocorrências (ou instâncias) e as restrições, tratadas como axiomas. Todas essas características permitem que as ontologias (não apenas biomédicas) possam ser processadas pelos computadores e, assim, verificar se uma sentença está ou não correta frente à semântica do domínio e inferir novas sentenças a partir daquelas já existentes.
Projetos que reúnem diferentes fontes de conhecimento biomédico, tal como o UMLS, passaram a incluir além das terminologias médicas em sua estrutura, as ontologias biomédicas. No UMLS, por exemplo, houve, inicialmente, a incorporação da Gene Ontology à sua estrutura e, posteriormente, à inclusão do Digital Anatomist Foundational Model of Anatomy (ROSSE e MEJINO, 2003), mais conhecido na literatura como Foundational Model of Anatomy (FMA).
Como forma de ilustrar exemplos de ontologias biomédicas, apresenta-se aqui uma breve introdução de algumas das mais conhecidas e importantes, trazendo uma breve descrição delas e o domínio médico onde são usadas.
A Tabela 2, a seguir, apresenta tais ontologias biomédicas, caracterizando-as a partir a partir do seu nome, que tipo de ontologia são, o domínio de aplicação e uma breve descrição.
66
Tabela 2 - Ontologias biomédicas.
Ontologia Tipo Domínios Descrição
Basic Formal Ontology (BFO) Ontologia de fundamentação Domínios biomédicos em geral Ontologia de orientação realista, que fornece
suporte aos desenvolvedores de ontologias de domínio, orientando-os em suas tomadas de decisões ontológicas. (GRENON e SMITH, 2004) Biological Top-Level (BIOTOP) Ontologia de fundamentação Domínios biomédicos em geral Ontologia desenvolvida para prover uma camada ontológica para a ligação e integração de diversas ontologias de domínios específicos em ciências da vida (BEISSWANGER et al., 2007).
Cell Ontology (CL) Ontologia de domínio Anatomia (Células) Ontologia que representa e descreve os tipos de células. Nela estão inclusos tipos de células que vão desde as procariotas até as células mamárias, cobrindo assim, diferentes tipos de organismos (OBO, 2014).
Foundational Model Anatomy (FMA)
Ontologia de domínio Anatomia Ontologia de domínio que
representa o conhecimento declarativo e explícito sobre a anatomia humana. (ROSSE e MEJINO, 2003).
Generalized Architecture for Language, Encyclopaedias and Nomenclatures (GALEN)
Ontologia de domínio Anatomia, fisiologia humana, patologia e sintomatologia
Uma ontologia clínica de fonte aberta e um modelo de referência comum. (RECTOR et al., 2003).
Gene Ontology (GO) Ontologia de domínio Genético e biológico Uma ontologia, às vezes considerada apenas um vocabulário controlado, usada para descrever os produtos genéticos e suas funções em qualquer organismo (SMITH, WILLIAMS e SCHULZE-KREMER, 2003).
Protein Ontology (PRO) Ontologia de domínio Proteínas Ontologia que descreve relacionamentos entre as proteínas e as classes evolucionárias de proteínas, além das múltiplas formas de proteínas dos genes. (OBO, 2014)
Fonte: elaborado pelo autor.
Evidentemente, existe ainda uma grande quantidade de ontologias biomédicas, não citadas na Tabela 2, muito em função da complexidade inerente ao domínio médico.
67
Maiores detalhes sobre as ontologias biomédicas, aqui citadas, e outros exemplos são destacados no capítulo 4 desta tese, cujo assunto principal são as aplicações destas ontologias em domínios do conhecimento.