TECHNICAL NOTES TEKNİK NOTLAR

As bibliotecas SAGE de Madeira e Folhas foram produzidas a partir de 1440 e 1154 clones, respectivamente. Cada clone sequenciado gerou em média 32 sequências de tags resultando em um total de 43304 tags sequenciadas a partir da biblioteca de madeira, e 39964 tags sequenciadas a partir da biblioteca de folhas. Como a identificação foi realizada somente para as tags com número igual ou superior a 3 cópias por biblioteca, somente 26958 tags da biblioteca de madeira e 22981 tags da biblioteca de folhas foram consideradas. Neste grupo final de tags apenas 3066 corresponderam a tags diferentes ou “genes” na biblioteca de madeira, e 2798 na biblioteca de folhas. Estas tags/genes foram então buscadas em sequências públicas de ESTs de Eucalyptus (NCBI) e entre as sequências de Eucalyptus produzidas pelo consórcio Genolyptus, permitindo assim a identificação de 1272 genes na biblioteca de madeira e 975 na biblioteca de folhas, ou seja, 38% do número total de tags/genes observados foram identificados (Tabela 4).

Tabela 4 - Resumo dos dados gerais produzidos a partir das bibliotecas SAGE

Dados gerais Biblioteca

Madeira

Biblioteca Folhas

Total

Total de clones sequenciados 1440 1154 2594

Tamanho da biblioteca (tags sequenciadas) 43304 39964 83268

Tags com 3 cópias 26958 22981 43939

Total de genes com 3 cópias 3066 2798 5864

Genes anotados 1272 975 2247

Total de genes diferencialmente expressos (P 0,01) - - 464

Genes exclusivos (P 0,01) 47 64 111

Genes preferencialmente expressos na biblioteca de madeira (P 0,01) - - 252 Genes preferencialmente expressos na biblioteca de folhas (P 0,01) - - 212

Trabalhos anteriores que também empregaram a metodologia SAGE para análise de transcrissomas em outras espécies alcançaram 50% de identificação em folhas e sementes de arroz (GIBBINGS et al., 2003), 28% em folhas de arabidopsis (JUNG et al., 2003), 45% em grãos de pólen de arabidopsis (LEE & LEE, 2003), 33% a partir do sistema nervoso periférico em humanos (DE JONGE et al., 2003) e 70% de identificação a partir de células gástricas cancerígenas em humanos (LEE et al., 2003). Esta baixa porcentagem de identificação de genes através do método SAGE está relacionada à pequena representatividade de ESTs de baixa frequência nos diferentes bancos de dados, que pode ser ilustrada pelo exemplo da experiência em humanos. No início do sequenciamento de ESTs em humanos um grande número de novos

genes puderem ser identificados (cerca de 10,4% dos ESTs sequenciados em 1996 representavam novos genes), mas, a medida que o sequenciamento progredia, o número de novos genes identificados passou a decrescer (2,7% dos ESTs sequenciados em 1998 e 1,6% dos ESTs sequenciados entre 1998 e 2001 representavam genes novos) (WANG et al., 2000; CHEN et al., 2002). Quando então as tags geradas pelo método SAGE passaram a ser utilizadas em estudos de expressão gênica em humanos, pode-se observar que para um grande número dessas tags não era possível encontrar as respectivas sequências de cDNAs ou ESTs de origem nos bancos de dados (DE JONGE et al., 2003). Estas observações associadas à observação de que o método SAGE foi utilizado com sucesso na geração de novos genes ainda não identificados em humanos (CHEN et al., 2002), e de que a metodologia SAGE é 26 vezes mais eficiente do que os ESTs para a detecção de transcritos de baixa abundância (SUN et al., 2004), apontam para uma grande diferença na sensibilidade do método utilizado na construção dos bancos de dados (EST) em relação ao método SAGE, resultando, portanto, na dificuldade de identificação das SAGE tags em bancos de ESTs.

Este problema tem sido solucionado por alguns pesquisadores que utilizam bancos genômicos para permitir um sucesso maior na identificação das SAGE tags. A estratégia baseia- se na construção de uma lista de todas as tags possíveis a partir dos dados disponíveis do genoma (tags virtuais) da espécie em questão, e da comparação desta lista com a lista de tags produzidas experimentalmente, dando ênfase às tags virtuais localizadas na região 3’ de cada gene. Porcentagens de identificação de 57% a partir de raízes de arabidopsis (FIZAMES et al., 2004) e 79% a partir de folhas de arabidopsis (ROBINSON et al., 2004) foram alcançadas com esta nova estratégia, no entanto, sua grande limitação é a ausência de dados genômicos para muitas das espécies de interesse, como é o caso para as espécies de Eucalyptus.

É também importante salientar que quando nós terminamos o sequenciamento das bibliotecas SAGE, não havia ainda informações de ESTs de Eucalyptus nos bancos de dados públicos e todo o trabalho de anotação foi primeiramente realizado apenas com base no banco de ESTs do consórcio Genolyptus cujas informações não são disponibilizadas ao público. Somente no ano de 2006 com a publicação de um grande número de sequências de ESTs de amostras de xilema de Eucalyptus gunnii no banco de dados públicos do NCBI nós pudemos então buscar as tags ainda não identificadas e as identificadas como genes importantes na formação da madeira e nos processos foliares, em sequências públicas. Assim, embora seja lamentável que os

pesquisadores que trabalham com eucalipto no Brasil, tenham que buscar informações geradas por grupos estrangeiros, mesmo possuindo informações tão relevantes e enriquecedoras, essa experiência foi muito importante para o nosso laboratório, pois pudemos confirmar as anotações previamente realizadas para um grande número de tags a partir de sequências de uma fonte diferente. Esta confirmação é muito relevante uma vez que demonstra a eficiência da técnica SAGE em acessar transcritos de forma única, mesmo a partir de sequências curtas de 14pb, quando é claro, o organismo a partir da qual as tags foram geradas é o mesmo que o utilizado na geração do banco de referência.

Outra importante observação realizada a partir dos nossos resultados foi a de que para uma mesma tag encontrada em ambas bibliotecas e anotada com sequências de ETSs originadas a partir de tecidos diferentes (madeira ou folhas), foi identificada uma mesma função, em todas as situações avaliadas. Conforme descrito no Material e Métodos, as tags independentemente de serem iguais ou não, foram anotadas em fichas separadas para a biblioteca de Madeira e para a biblioteca de Folhas e, como o banco de dados de ESTs do genolyptus conta tanto com sequências obtidas a partir de folhas quanto com sequências produzidas a partir de amostras do floema e xilema, esta abordagem de análise nos permitiu acessar esta importante informação. Uma alta especificidade na identificação de genes a partir de SAGE tags de 14pb foi também reportada por BAO et al. (2005) os quais alcançaram um percentual de 90% de tags que identificam um único gene, dentro de famílias gênicas. Por outro lado, GE et al. (2006) encontraram 13,2% de tags inespecíficas (que encontraram sequências com funções diferentes no banco de dados do UniGene) em bibliotecas de células normais e cancerígenas de humanos, e reportam ter conseguido 90% de identificação não-ambígua para essas tags quando sequências de tecidos específicos para cada biblioteca foram utilizadas na identificação. Duas hipóteses são possíveis para explicar esta discrepância: (i) as tags produzidas no experimento de GE et al. (2006) foram buscadas em sequências gênicas do UniGene, o que muito provavelmente pode ter levado a validação de tags internas que não necessariamente representam o transcrito acessado pela tag, (ii) como as comparações dos resultados de identificação de uma mesma tag nas bibliotecas de folhas e de madeira foi possível somente para 50% das tags/genes da biblioteca de folhas que apresentaram homologia a sequências de ESTs de folhas, e para 86% das tags/genes da biblioteca de madeira que apresentaram homologia a sequências de ESTs de madeira disponíveis no genolyptus, as tags que possivelmente poderiam gerar dados inespecíficos

estariam entre aquelas de baixa frequência não representadas no banco de referência e, portanto, excluídas da análise.

Após a análise das tags lists produzidas, as bibliotecas de madeira e folhas foram contrastadas, sendo o número de cópias das tag/gene encontradas em cada biblioteca comparada estatisticamente através do teste Z. A análise estatística revelou que das 9861 tags únicas/genes (produzidas a partir do número total de tags nas duas bibliotecas), 1163 apresentaram diferença significativa entre as bibliotecas com pelo menos 95% de confiança e 464 genes foram diferencialmente expressos com 99% de confiança (Tabela 4). Entre estes últimos genes, 47 foram exclusivos da biblioteca de madeira, 64 da biblioteca de folhas, 252 foram significativamente mais expressos na biblioteca de madeira e 212 na biblioteca de folhas (Tabela 4). Os genes preferencialmente expressos em cada tecido serão discutidos dentro das seções que caracterizam o perfil transcricional de folhas e madeira.

Entre os genes exclusivos muitos apresentaram um baixo número de cópias (7 – 13 cópias) o que impossibilitou a identificação de 80 genes ou 72% dos genes exclusivos, a partir dos ESTs. Por outro lado, foi possível identificar os outros 31 genes de expressão exclusiva na biblioteca de folhas ou de madeira. Estes genes representam um grande potencial para identificação de promotores de expressão tecido-específica a serem empregados em projetos de transformação genética de Eucalyptus. O estudo desses promotores candidatos já vem sendo desenvolvido no laboratório Max Feffer de Genética de Plantas da Esalq e estes resultados permanecerão em sigilo até que o estudo seja concluído.

Para que os genes encontrados fossem analisados em uma perspectiva dos processos biológicos de cada tecido, nós procuramos agrupá-los em categorias funcionais e também relacioná-los aos processos metabólicos mais importantes em cada tecido como demonstrado nas próximas seções.

Belgede Tüm Dergi PDF (sayfa 71-73)