• Sonuç bulunamadı

BCPred é uma base de dados usada como referência para a predição de EpiLCB (Saha et al., 2005). A maior quantidade de epítopos de células B existentes pertencem ao grupo de epítopos conformacionais e possivelmente apenas 10% do total de epítopos são lineares (Rubinstein et al., 2008). A vantagem de identificar EpiLCB consiste em sua utilização nas áreas de imunodiagnóstico e imuno-ferramentas. O BCpred foi desafiado várias vezes nos últimos anos por vários modelos de predição. Existem muitas variações sobre os dados usados para treinar esses algoritmos de predição (Gao et al., 2012), que estão baseados nas propriedades já descritas (Zhang et al., 2012 (2)).

Acontece uma interessante discussão sobre como predizer corretamente os epítopos. As razões para esta discussão tem como base a seleção de parâmetros, como a estrutura secundária (El- Manzalawy et al., 2008) e propensões e estatísticas de aminoácidos (Subramanian e Chinnappan, 2013). Na maioria dos exemplos conhecidos são aplicados métodos computacionais interessantes, tais como: SVM e redes neurais que mostram o seu melhor desempenho com dados complexos (Saha and Raghava, 2006). O desafio aqui é identificar qual é o melhor método e forma de analisar os dados biológicos, assim a maioria dos métodos conhecidos tem um desempenho de 0.8 AUC (Liu et al., 2014). Um fato interessante é que cada método computacional altera o conjunto de dados para obter os melhores resultados, mesmo quando alguns dados de epítopos podem ser falsos (Zarebski et al., 2008, Vita et al., 2010). O resultado destas pesquisas é uma grande variedade de conjuntos de dados diferentes e métodos que funcionam melhor com alguns dados, mas são ruins para outros (Lian et al., 2015, Shen et al., 2015, Sela-Culang et al., 2015). Portanto, sobre este panorama nós decidimos usar nossos melhores métodos de previsão, MLR e DT, para avaliar o poder de predição sobre epítopos. Como conjunto de dados foi escolhido o BCPred, que é o mais utilizado (Saha et al.,

2005, El-Manzalawy et al., 2008, Gao et al., 2012). Em este, os epítopos são validados experimentalmente e como controle negativo são usadas sequências aleatórias baseadas nas estatísticas do banco de dados swissprot.

Os aminoácidos dos epítopos e falsos epítopos do conjunto de dados BCPred têm um maior grau de similaridade do que os conjuntos de dados vistos anteriormente, mas ainda existem diferenças significativas, tais como: Percentagem de prolina com 6.75% para epítopos positivos experimentalmente e 4.67% para negativos; Leucina com 6.94% para positivos e 9.60% para negativos; Fenilalanina, 3.04 e 4.05 para positivos e negativos, respectivamente (figura 13). Quando examinadas as propriedades, como índice alifático, GRAVY e ponto isoelétrico, a diferença mais relevante foi entre o índice de alifático (72 para positivos e 89 para negativos) e GRAVY (-0.25 para negativo e -0.59 para positivos). Estas diferencias podem ser relativas ao conjunto de dados usado, pelo que se espera uma variacao de um conjunto de dados para outro. Já o ponto isoelétrico ficou em 6.8 em média para ambos os grupos, sem mostrar variações significativas. Assim as diferenças mostram a importância de um conjunto de dados bem descrito e também as variações que sofrem os dados quando são outros antígenos os considerados (Blythe and Flower, 2005). Assim como visto na literatura (Huang et al., 2007) alguns aminoácidos em epítopos se diferenciam de peptídeos aleatórios, o problema radica em que estes variam dependendo do antígeno (Bremel and Homan, 2010).

Figura 13. Estatísticas dos aminoácidos para os epítopos e os não epítopos do conjunto de dados BCPred. Em preto, os epítopos reais ou positivos e em cinza os não epítopos ou epítopos negativos.

Assim, o primeiro método avaliado foi MLR, que tem sido utilizado por Liu R., em 2011 para outro conjunto de dados (Liu and Hu, 2011), com o valor de AUC 0.8 para um conjunto de dados extraídos da PDB. Liu também combinou as estatísticas de aminoácidos com propriedades físico- químicas semelhantes como as descritas por nós. Outros métodos (SVM), também combinam propriedades resultando em valores de AUC de 0.8 para vários conjuntos de dados (Zhang et al., 2012 (1)(2)).

A figura 14 mostra o desempenho em forma de curvas ROC para a predição de epítopos no conjunto de dados BCPred, com tamanhos de 12aa a 30aa de comprimento. O método usado por nós incluiu a combinação de todos os tamanhos de comprimento, desde 12aa até 30aa. Nosso modelo tentou melhorar a predição aproveitando o efeito de “Ganho de Informação”. Esta estratégia ficou sem sucesso para o modelo com MLR, mas os mesmos dados utilizando a metodologia DT resultou

em um desempenho com AUC de 0.966. Este resultado pertence a uma matriz conformada por todos os tamanhos de epítopo, assim como indicado na figura 14. Este modelo mostrou ter o melhor desempenho quando comparado com métodos descritos na literatura até o momento (Zhao et al., 2010, Soria-Guerra et al., 2015). Como mencionado anteriormente, as propriedades mais relevantes neste cenário foi o índice alifático, estatísticas de Prolina, fenilalanina e o índice de GRAVY.

Figura 14. Curva ROC para as predições com os diferentes modelos para os métodos MLR e a árvore de decisão (em vermelho com AUC: 0.966). Em contraste os modelos para MLR não superarem o AUC:0.82. Cada tamanho e numero

Portanto, nesta etapa do projeto através das diferentes propriedades físico-químicas calculadas com scripts em Perl e Python como descrito por Gasteiger e composição de aminoácidos como parâmetro é possível decompor a sequência de antígenos e epítopos em uma matriz de dados. Logo, usando o árvore de decisão conseguimos diferenciar epítopos e não epítopos dentro do conjunto de dados BCpred. Os resultados aqui obtidos serviram de base para a implementação de um novo algoritmo de identificação computacional de epítopos que além da determinação do epítopo estaria usando informações importantes como famílias de proteínas e organismo de origem.

5.5 Mapeamento experimental e computacional de epítopos de

Benzer Belgeler