Biologia de Sistemas pode ser definida, como uma abordagem da pesquisa biomédica que, conscientemente combina redução e integração da informação através de múltiplas escalas espaciais a fim de identificar e caracterizar partes e explorar os modos pelo qual essas partes interagem uma com as outras e com o ambiente resultando na manutenção de todo sistema (KOHL et al., 2010).
Nos últimos dez anos, Biologia de Sistemas, evoluiu de apenas uma idéia, ou um conjunto de idéias envolvendo métodos de análises de dados em larga escala, para se tornar foco principal de pesquisas e receber prioridade de investimentos. Institutos, departamentos e centros envolvendo vários aspectos de Biologia de Sistemas têm surgido em todo mundo. Uma busca simples por “Systems Biology” no pubmed retorna mais de 4.000 trabalhos contendo o termo no título ou no abstract.
O maior motivo para o grande aumento de interesse por essa abordagem está no progresso da biologia molecular, os métodos de análise em larga escala (OMICS) estão
15
gerando quantidades gigantescas de dados que permitem identificar grandes redes regulatórias.
A abordagem de Biologia de Sistemas envolve uma mudança na pergunta a ser feita, enquanto entender o funcionamento dos genes e proteínas continua sendo importante, o foco está em compreender a estrutura do sistema estudado e sua dinâmica. Um sistema não é apenas um conjunto de genes e proteínas, e suas propriedades não podem ser completamente compreendidas apenas desenhando um diagrama com suas interconexões, apesar desse diagrama ser um bom começo para se entender o funcionamento do sistema. Para estudar um sistema é necessário conhecer como suas partes, genes e proteínas, se relacionam de um modo dinâmico durante a situação estudada, como cada parte se comporta nessa determinada situação e como a resposta de cada parte interfere na outra parte, assim no final espera-se ter um diagrama dinâmico que explique como o sistema se comporta (KITANO, 2002).
O primeiro passo para entender como determinado sistema funciona sob determinada condição está em identificar as partes desse sistema, as técnicas de análise em larga escala permitem identificar sequências de mRNA, genes diferencialmente expressos, proteínas numa escala incomparavelmente maior que as técnicas tradicionais de isolamento e identificação de biomoléculas. O segundo passo é associar a essas partes significado biológico, atualmente existem dezenas de ferramentas bioinformáticas que permitem correlacionar determinado gene, transcrito ou proteína a funções celulares, vias de sinalização, encontrar relação funcional entre listas de genes e proteínas diferencialmente expressos. Um bom exemplo do aumento no número de ferramentas envolvendo análise e compreensão de dados em larga escala é o projeto Bioconductor (http://bioconductor.org/) que agrupa mais de 400 pacotes desenvolvidos em linguagem de programação estatística R que são fornecidos gratuitamente.
Apesar da maior parte dos trabalhos em Biologia de Sistemas envolver organismos modelo, tem aumentado o número de trabalhos com organismos não modelo (ROWAN et al., 2011; WILLIAMS et al., 2011).
O transcriptoma, conjunto total de transcritos de uma espécie, representa a conexão chave entre a informação codificada no DNA e o fenótipo, entender a relação entre o genoma é o fenótipo é entender o sistema biológico (KOHL et al., 2010).
16
A quantificação rápida e em larga escala do transcriptoma se tornou possível somente com o desenvolvimento da tecnologia de micorarray para análise da expressão gênica (SCHENA et al., 1995) e mais recentemente ganhou novo fôlego com o desenvolvimento das plataformas de sequenciamento em larga escala (NGS, nex generation sequencing) como, 454 Roche, Solexa da Illumina, o SOLiD da Applied Biosystems, e mais recentemente, a plataforma Helicos HeliScope como alternativa ao clássico método Sanger de sequenciamento de DNA para análises transcriptômicas (LINNARSSON, 2010; MOROZOVA, 2009; MARDIS, 2008).
Atualmente um microarray típico consiste de sequências curtas de oligonucleotídeos imobilizados em um substrato sólido, esses oligonucleotídeos são geralmente baseados na sequência do genoma ou em ORFs (open reading frames) conhecidas ou preditas, geralmente são desenhados múltiplos oligos para cada gene estudado. Os transcritos cuja presença está sendo investigada são extraídos de amostras de tecidos ou células, marcados com corantes fluorescentes (de uma ou duas cores), hibridizados nos arrays, em seguida lava-se o suporte para retirada das marcações inespecíficas e a imagem é obtida através de scanners. Os transcritos marcados com o fluoróforo hibridizam com seu oligo complementar localizado no array, a intensidade de fluorescência emitida por cada hibridização entre transcrito – oligo é usada para medir a expressão do gene (figura 10).
A análise da expressão gênica por microarray é uma técnica muito bem sucedida, uma busca no PubMed pelo termo “microarray” no título ou no abstract gera mais de 42.000 resultados. Essa grande quantidade de trabalhos gerou uma grande quantidade de estratégias para análise dos dados e desenho experimental, aumentado a qualidade e a confiabilidade dos resultados obtidos.
Uma das principais vantagens do método de microarray é o baixo custo comparado ao sequenciamento de nova geração, não restringindo o número de réplicas experimentais e biológicas.
A tecnologia de sequenciamento em larga escala para análises transcriptômicas é chamada de RNA-seq. Ao invés de usar o método de hibridização molecular para “capturar” os transcritos de interesse, no RNA-seq os transcritos presentes no material de interesse são diretamente sequenciados.
17
Em geral, uma população de mRNAs é convertida em uma biblioteca de fragmentos de cDNA com adaptadores presos em cada uma ou em ambas as pontas dos fragmentos. Cada molécula, com ou sem amplificação é, então, sequenciada em larga escala. As sequências (reads) possuem, geralmente, de 30 a 400pb, dependendo da tecnologia de sequenciamento utilizada (figura 11).
Após o sequenciamento as reads produzidas são alinhadas a um genoma ou transcriptoma de referência ou agrupadas de novo, o número de reads mapeadas são contadas para determinar o nível de expressão gênica (MALONE & OLIVER, 2011; WANG et al., 2009).
18
Figura 10: Obtenção de dados pelo método de Microarray. O RNA extraído da amostra de tecido ou células é convertido a cDNA, marcado com fluoróforos, e hibridizará com os oligonucleotídeos correspondentes presentes no suporte, quanto mais expresso o gene, maior a intensidade de fluorescência. A intensidade de fluorescência é convertida em valores numéricos após a análise da imagem scanneada e os dados numéricos são submetidos a análises estatísticas apropriadas para determinação do nível de expressão de cada gene analisado. Reproduzido de MALONE e OLIVER (2011).
Como o RNA-seq fornece acesso direto a sequência essa técnica pode ser usada em espécies cujo genoma não está disponível, além disso, regiões expressas do genoma que correspondem a genes ainda não identificados podem ser facilmente identificadas por sequenciamento, enquanto que no microarray é necessário o prévio conhecimento da sequência dos genes estudados, limitando seu uso.
19
Apesar das diferenças, quando usados para responder a mesma pergunta, microarrays e RNA-seq costumam fornecer o mesmo resultado (MALONE e OLIVER, 2011).
Figura 11: Obtenção de dados pelo método de RNA-seq usando plataforma Illumina Genome
Analyzer. O mRNA é fragmentado, convertido a cDNA, ligam-se adaptadores aos fragmentos de cDNA,
é feita seleção de tamanho, as bibliotecas para sequenciamento são preparadas por agrupamento em “célula de fluxo” com 8 canalículos e é feito o sequenciamento por síntese que gera milhões de
sequências por amostra e pode ser mapeado no genoma. O número de reads mapeadas em uma região do genoma é índice do valor de expressão do gene. Reproduzido de MALONE e OLIVER (2011).
20
Nos últimos dez anos têm se utilizado constantemente técnicas de análise em larga escala em estudos de toxinologia, utilizando a metodologia de análise transcriptômica por meio de Expressed Sequenced Tags (ESTs) (ADAMS et al., 1991) JUNQUEIRA-DE-AZEVEDO e HO (2002) realizaram o primeiro estudo da diversidade de transcritos da glândula de veneno da espécie Bothrops insularis. Desde então, diversos trabalhos de transcriptoma de glândulas de veneno de serpentes foram publicado, ao todo 23 espécies tiveram o transcriptoma de suas glândulas de veneno revelados por esse método. Em geral mais da metade das ESTs identificadas nesses trabalhos são de toxinas, e grande parte das ESTs restantes são de genes relacionados à transcrição e tradução, regulação celular e metabolismo (ROKYTA et al., 2011).
Recentemente foram publicados dois trabalhos de transcriptoma de glândula de veneno utilizando a tecnologia de sequenciamento em larga escala (DURBAN et al., 2011; ROKYTA et al., 2011).
Apenas um trabalho de análise de expressão gênica de glândula de veneno de serpentes utilizando a técnica de microarrays foi publicado até hoje (ST PIERRE et al., 2005).
Todos os trabalhos publicados, até o presente momento, utilizando ferramentas de análise em larga escala para estudo da diversidade de moléculas presentes na glândula de veneno de serpentes tiveram como foco principal os constituintes do veneno (FOX & SERRANO, 2008a; ZELANIS et al., 2011; ST PIERRE et al., 2005; JUNQUEIRA-DE-AZEVEDO & HO, 2002; ROKYTA et al., 2011; DURBAN et al., 2011).
21