• Sonuç bulunamadı

KURAMSAL AÇIKLAMALAR VE İLGİLİ ARAŞTIRMALAR

C. Bilişsel Destek B Antrenörlük

3.1. Araştırmanın Model

O programa CPC (Coding Potential Calculator) (Kong et al., 2007) calcula o potencial codificador de transcritos analisando características intrínsecas de suas sequências. Primeiramente, procura por predição de ORFs (Open Reading Frames) nas três fases de leitura possíveis, utilizando o framefinder software. Havendo identificação de alguma ORF, o programa analisa a sua qualidade e calcula um score (LOG-ODDS SCORE) levando em consideração o tamanho, a qualidade e a integridade3 da ORF. O programa realiza também um BLASTX para verificar se a ORF predita possui alguma similaridade com proteínas depositadas no banco de dados do UniRef 90 (UniProt Reference Clusters). Se a ORF predita possuir pelo menos 90% de identidade com alguma proteína conhecida calcula-se um HIT SCORE, considerando o número de hits encontrados pelo BLASTX e a qualidade desses hits (E-value). Uma vez que é possível encontrar ORFs preditas em transcritos não codificadores ao acaso, e que quando isto ocorre os hits tendem a estar aleatoriamente nas três fases de leitura, o programa calcula um score denominado FRAME SCORE que avalia a distribuição dos hits encontrados pelo BLASTX nas três fases de leitura possíveis. O programa CPC calcula uma pontuação denominada CODING POTENTIAL SCORE que leva em consideração todos os cálculos acima. Desta forma, transcritos preditos como não codificadores possuem uma pontuação menor que zero e os codificadores de proteína possuem uma pontuação acima de zero. A pontuação que fica no intervalo de [-1; 0] e [0; 1] é predita como potencial não codificador fraco e potencial codificador fraco, respectivamente. Logo, quanto mais longe o CODING POTENTIAL SCORE calculado estiver do zero, maior é a confiabilidade na predição do potencial codificador/não codificador.

3.5.5 Identificação de lncRNAs intrônicos em bibliotecas de RNA-seq

Foram utilizados neste trabalho dados de RNA-seq disponíveis publicamente no UCSC Genome Browser (http://genome.ucsc.edu): Burge RNA-seq (Wang et al., 2008) e ENCODE

Caltech RNA-seq Libraries (http://genome.ucsc.edu/cgi-

bin/hgTrackUi?hgsid=268692585&c=chr1&g=wgEncodeCaltechRnaSeq).

RNA-seq é um método de análise do transcriptoma em larga escala que usa tecnologias de

“deep-sequencing” para o sequenciamento dos RNAs expressos em uma determinada célula ou

tecido. Esta técnica é especialmente útil para a obtenção de informação a respeito de padrões de splicing de RNAs e, dependendo de sua cobertura, para a determinação da presença ou ausência de classes de RNAs de baixa abundância, como os RNAs não codificadores de proteínas (Mortazavi et al., 2008). De um modo geral, o método consiste na produção de uma biblioteca de cDNAs contendo adaptadores ligados a uma ou a ambas as suas pontas, a partir de uma população de RNAs (total ou fracionada, tal como poli(A)+, por exemplo). Em seguida, essas moléculas são sequenciadas em larga escala, obtendo-se sequências curtas, entre 30 – 400 pb, dependendo da tecnologia usada para o sequenciamento. As sequências resultantes são então alinhadas ao genoma ou transcriptoma de referência ou montadas “de novo” para a produção de um mapa do transcriptoma, que consiste da estrutura transcricional (presença de íntrons e éxons em genes, regiões de splicing, isoformas gênicas, variações de sequência em regiões transcritas, por exemplo) e/ou dos níveis de expressão gênica.

As bibliotecas de RNA-seq do projeto ENCODE Caltech RNA-seq Libraries utilizadas foram geradas a partir de RNA poli(A)+ obtidos de células das linhagens: GM12878, linhagem celular linfoblastóide; H1-hESC, célula-tronco embrionária; HeLa-S3, carcinoma cervical; HepG2, carcinoma de fígado, HUVEC, células endoteliais da veia umbilical humana; K562,

leucemia mielóide crônica e NHEK, queratinócitos epidermais. Elas foram geradas preservando a informação da orientação original dos transcritos, sequenciadas com a tecnologia de sequenciamento em larga escala Illumina Genome Analyser (Illumina) e mapeadas na montagem hg19 do genoma humano.

Os arquivos disponibilizados no UCSC Genome Browser apresentavam os dados em formato bigWig, que foram transformados em formato wiggle para as análises. O formato de arquivo wiggle exibe os reads sequenciados de forma gráfica, como picos de densidade de reads ao longo das coordenadas do genoma. A partir desses dados não é possível estimar o nível de expressão dos transcritos, uma vez que a informação do número de reads detectados que compõem os picos sobre a coordenada não está disponível. Assim, com essas bibliotecas foram realizadas apenas análises de identificação dos lncRNAs detectados em nossas linhagens em estudo. Isto foi feito a partir dos cruzamentos das coordenadas genômicas de nossos lncRNAs com as coordenadas das regiões expressas nas sete bibliotecas de RNA-seq.

Avaliamos a cobertura de sequenciamento para regiões intrônicas e exônicas das bibliotecas do projeto ENCODE Caltech RNA-seq Libraries a fim de se verificar se estas possuem algum viés de cobertura. A análise da cobertura de sequenciamento foi realizada computando-se o nível de saturação das regiões intrônicas e exônicas ao se amostrar aleatoriamente tags sequenciadas a partir das sete bibliotecas. As tags amostradas foram mapeadas no genoma humano em relação aos Gene IDs de genes, levando-se em consideração a sua localização exônica ou intrônica. Após cada rodada de sorteio o número de novos Gene IDs mapeados e sua localização (região intrônica ou exônica) foram computados para a construção da curva de saturação.

realizado com o sequenciador Ilumina Genome Analyzer (Illumina). A Tabela 3 apresenta o número de reads mapeados na montagem hg19 do genoma humano.

Tabela 3: Número de reads detectados nas bibliotecas do projeto RNA-seq Burge mapeados na montagem hg19 do genoma humano.

A coordenadas genômicas dos reads obtidos de cada uma das nove bibliotecas do projeto RNA-seq Burge foram cruzadas com as coordenas genômicas dos lncRNAs detectados em pelo menos uma das três linhagens, DU-145, MCF-7 e Mia PaCa 2. A seguir, o número de reads por quilobase por milhão (RPKM) foi calculado como definido por Mortazavi e colaboradores (Mortazavi et al., 2008):

A expressão dos transcritos detectados em pelo menos uma das linhagens em estudo (DU- 145, MCF-7 e Mia PaCa 2) e identificados nas bibliotecas do projeto RNA-seq Burge foi

apresentado como uma fração da expressão total do respectivo transcrito entre as nove bibliotecas estudadas (F.E.T.). A abordagem desta análise foi realizada de acordo com os métodos publicados por Cabili e colegas (Cabili et al., 2011):

V’ corresponde à fração de expressão e V = (v1, ..., vn) corresponde a estimativa da abundância do transcrito calculado anteriormente e expresso pelo valor de RPKM.

3.5.6 Comparação de intensidade de expressão entre lncRNAs intrônicos e mRNAs codificadores de proteínas

Para a comparação da intensidade de expressão entre os lncRNAs e mRNAs codificadores de proteínas detectados em pelo menos uma das linhagens DU-145, MCF-7 e Mia PaCa 2 foi necessário normalizar os valores de intensidade medidos por cada sonda válida nas análises individuais de cada experimento entre todos experimentos. O método de normalização realizado foi normalização por quantil (Bolstad et al., 2003). Esta normalização ordena os valores de intensidade de expressão medidos pelas sondas válidas de cada experimento independentemente. Para cada posição do ranque, é calculada uma média da intensidade de expressão entre os experimentos. O valor de intensidade médio calculado para o ranque substitui cada valor original de intensidade de expressão. Esta normalização foi feita utilizando a platforma R (Team, 2011).

Os agrupamentos dos transcritos detectados entre as linhagens foi realizado utilizando o programa SpotFire (SpotFire Inc.).