• Sonuç bulunamadı

Prediction of protein subcellular localization based on primary sequence data

N/A
N/A
Protected

Academic year: 2021

Share "Prediction of protein subcellular localization based on primary sequence data"

Copied!
3
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Birincil Dizi Veri Temelli Protein Hiicre Iqi Yer Belirleme Tahmini

Prediction of Protein Subcellular Localization based on Primary Sequence Data

Mert Ozarar I ,

Volkan Atalay

I,

Rengiil Cetin Atalay

*

ODTU Bilgisayar MUhendisligi BoIUmii

lozarark3,cene.metu.edu.tr)

'

ODTU Bilgisayar Muhendisligi B6liimu Ivolkan@ceng.metu.edu.tr}

Bilkent Universitesi Molekiiler Biyoloji ve Genetik Boliimu {reneul(iiibilkent.edu.tr}

I

dzetce

Proteinlerin islevlerinin belirlenmesinde h i i m ipi yer belirleme p k bnemlidir. Bu palqmada, bkaryotik canlilarda, amino asit sirasi kullanilarak amino asit birincil dizi iwrigi temelli, protein hucre ipi yer belirlenmesi ipin, PZSL admda, yeni bir sistem tasarlanmqtir. Tahmin yaklqimi, bz dikenlemeli haritalara dayanarak verilen bir smAa her protein ipin, en yaygin motifleri bulmak ve bunlan, omitelik olarak kullanarak pok katmanli persephonlann yardimiyla simflandirmaktir. Bu yakla$im dizi uzunlugundan bagimsiz hir siniflandirmaya izin vermektedir. Bunlara ek olarak, kabul edilebilir nokta mutasyon (PAM) degi$tirme matrisi temelli, biyolojik i$levi muhafaza eden, yeni bir kodlama plan, kullanimi tarif edilmektedir. Der! sinifli bir problemde, sistemin istatistiksel test sonuplan sunulmaktadir. PZSL, benzer pali$malardan biraz daha yiiksek tahmin dogruluguna u l q m q t a .

Abstract

Subcellular localization is crucial for determining the functions of proteins. A system called prediction of protein

subcellular localization (PZSL) that predicts the subcellular localization of proteins in eukaryotic organisms based on the amino acid wntent of primary sequences using amino acid order is designed. The approach for prediction is to find the

most

frequent motifs for each protein in a given class based on clustering via self organizing maps and then to use these most frequent motifs as features for classification by the help of multi layer perceptrons. This approach allows a classification independent of the length of the sequence. In addition to these. the use of a new encoding scheme is described for the amino acids that conserves biological function based on point of accepted mutations (PAM) substitution matrix. The statistical test results ofthe system is presented on

a

four class problem. PZSL achieves

slightly

higher prediction accuracy than the similar studies.

1. Giri$

. .

Okaryotik hiicreler fonksiyonel o l d zarla kaph kompartimanlara aynlmqta. Proteinler hiicre ipinde, etkin olabilmek ipin belli bir Mlgede bulunmallda. Gemis papli genom analizi sayesinde oldukpa fazla genler oldugu tahmin edilmektedir. Bundan dolay,, protein hiime ipi yer belirleme tahmini fonksiyon Bzelligi bulma ve yapay protein tasanmi

apismdan onem kazanir. Tam otomatik ve dogru palisan bir t h i n sistemi p k yararli olacaktr.

Bu makalede, birincil dizilerin amino asit iperigi baz alinarak protein hucre ipi yer belirleme tahmini ipin PZSL adinda bir sistemin geli$me sonuplan verilmektedir. Tam veya yan dizilerin amino asit iwrigi global bir oznitelik amino asit sirasi da yerel hir Omitelik olarak ele alinir. Biz sadece yerel olanlarla ilgilendik. Bizim yaklapmrmizda, klimelendirme yardimiyla en sik gariilen motifleri bulma ve bunu siniflandirma esastir. Boylece dizi wunlugundan bagimsiz bir tasanm elde edilir. Geri analiz ve u m a n sistem ipin gerekli kurallar ipinde altyapi gbrevi goriiliir. Bunlara ilave olarak ve daha da bnemlisi PZSL, kabul edilebilir nokta mutasyon degigtime matrisi (PAM) temelli, biyolojik islevi m u h a f m eden. yeni bir kodlama plani kullanimi tarif eder. PAM

siralanmi$ peptid dieilerine bakarak amino asit benzerliklerini kullanir. Amino asitlerin evrimsel yakinliklan haklanda fikir vermesi b h m i n d a n bnemlidir. Bu plqmada, iki sinifli bir siniflandinci iizerinde 6n sonuplarverilir.

Makalenin organizasyonu $byledir. Kisim 2'de ilgili palqmalar, kmn 3'de kullanilan veri ve hesaplama yontemleri; lasim 4'de deneyler ve sonuplara ilivkin yorumlar,

lastm 5'de de vargilar ve p e k e & yBnelik planlar anlatilmaktadir.

2.

ilgili

C a ~ i ~ m a ~ a r

Hiicre ipi yer belirleme tahmini ipin qesitli pli$malar varda. Bunlardan en bnemlileri, tahmin yontemleri apisindan, N-uplu siralama sinyallerine dayananlar ve amino asit iperigi temelli olanlar diye ikiye aynlir.

PSORT bilinen protein siralama sinyallerini Omitelik olarak kullanarak pikanmlara ulqmak ipin geli$tirilmiqtir. iPSORT amino asit indis kurali tabanli karar agaci p i k a m . TargetP, yapay sinir aglan kullanir ve iyi bir b q a n yuzdesi varda. Belli kompartimanlan tahmin ipin birkap pali$ma da vardir. MitoProt ve MTS mitokandriye ait

olan proteinleri incelerler. MTS sakli Markov modeli kullanir. SignalP ve ChloroP yapay sinir aglan yardimiyla sirasiyla endoplazmik retikuluma ve kloroplasta yonelen proteinleri tahmin etmeye palqirlar. SortPred hem yapay sinir aglan hem de sakli Markov mcdeli kullanarak dart smifli bir problemde hiicre ipi yer belirleme tahmininde bulunur. Dogruluk yiizdeleri apisindan SortPred bitki hiicrelerinde 0/086. hayvan humelerinde Yo91 ile bu alanda lider konumundada. TargetP i$in ayni degerler sirasiyla %90 ve

5688,

iPSORT ipin de %85

(2)

ve ?"4'tiir. PSORT ve iPSORT sadece global, SortPred hem yerel hem global. digerleri de sadece yerel oznitelikleri esas alslar.

Bu pali$manm en onemli yanr. kiimelendinne arkasi siniflandinna birle$imi gibi giiriilebilir. P2SL'nin iki sinifli t h i n sonuplan gepmiSteki pali$malara kiyasla gayet yeterlidir. En son gelmek istenilen nokta, TargetP ve SortPred ile ba$a bas t h i n dogrulugu veren ve sadece insana ail proteinlen baz alan bir sistem yamtmaktr.

Gepmi$teki qali$rnalarla kaqilqtirmak gerekirse; TargetP'e benzer pencere (motif) kullanilir. SortPred'e benzer Sekilde 62 diizenleyen hantalar (SOM) yer a h ,

vardir.

Yeni bir kodlama bipimi olan PAM matrisi

3. Yontemler

Bir protein sinifi ipinde sik ama digerlerinde nadir o l d bulunan ortak alt dizgiler bulmak yerel iizniteliklerin yer aldigi protein hiicre ipi yer belirleme tahmini ipin feme1 fikirdir. Bu ortak alt dizgilere motif denir. Bilinmeyen bir girdi dizgisi ipin, varolan motifler belirlenir ve siniflandirma bunlardan yaralanilarak yapilir. Sisteme verilen girdi, amino asit dirileridir. Bunlar verilerden $ikartdlr. Birincil dizi all dizgilere ayn$tinlir ve PAM250 degi$tinne matrisi ile kodlamr. Kodlanmi$ ah dirgi iistiinde kiimelendinne, iiz diizenleyen haritalar yardnniyla olur. Egitim fazinda, her s m f ipin motifler bulunur. Sinama fazinda, bilinmeyen bir girdi didsindeki all dizgiler verildiginde, 6z dlirenleyen haritadaki b a n dugiimlere giirc, belirli bir smiftaki motiflerin varligini belirten ikili bir vekttir olu$turulur. Vektoriin boyu sabit olup iinceden belirlenir. k-en y&n korn9uluk (k") siniflandirmasi bu ikili vektiire uygulamr ve bilinmeyen protein dizisine bir etiket verilir.

3.1. Veri Gesterimi

Protein dizileri degi$ken boyutlu karakter katarlan. ola& aminp asitler de tek bir barf olarak gosterilirler. W, boyu len(W) olan bir protein dizisini gostenin. W sabit boylu alt dizgilere aynpbilir. Eger < len(W) ise, W"de (len(W)-

K+I)

tane alt dizgi vardir ve W(i:m+j) de j. alt dizgiyi giisterir. Daha fazla hesaplama analizi ipin, amino asitleri kodlamak lazimdir. Bu i$lev ipin PAM250 kullanacagimiri daha once belirtmi$tik. Bundan s o w PAM ile kodlanmis diziyi W ile girsterecegiz.

3.2. Kiimelendirme

SOM, yiinetilmeyen yapay sinir agi modeli olup, benzer diigiimler (noronlar) arasinda ydanligi da bakarak ili$kilendinne kurup bir harita oIu$turur. Girdiyi topolojik olarak hizaya sokar. SOM sik sik yiiksek boyutlu bir girdiyi, diiviik boyutlu (genelde 2) uzaya indirgemek ipin kullanilir. Her girdi. p k boyutlu vektiirden o l u p r . Harita dikdartgen ya da altigen Seklinde olabilir. Her diigiim ipin_ girdi 6imitelik vektorleriyle ayni boyutta olan bir dayanak vektiirii olu$turulur. Girdi vektiirleri bu dayanak vektiirleriyle

ktyaslanir. Egitim a$amasinda her girdi, aga suriiliir ve agirlik vektorleriyle kqila$tinlir. 0 andaki girdi ile Euclid metrigine gore en yakin agirhk vektoriiniin niironu, k-an hiicre olarak adlandmlir. Kazanan hiicre ve onun belli kompulan, girdi y6niinde giincellenir. Boylece, benzer girdi vektiirleri haritada kiimelenirler.

Sistemde, kiimelendinne. egitim fazinda olur ve all dizgiler topolojik olarak gmplqir. Bir protein smif ipin belli motifleri bulma problemi SOM'daki o sinrfa ail hiicreleri bulma problemine diiniigiir. Egitirnin sonunda, kritik diigiimler iki smiiiaki alt dizilerin sayilannin farh ahnarak tespit edilir. C: ve C,", srrasiyla, i. hiicredeki X ve Y simflan ipin, alt dizgi kiimesinin eleman sayilan olsun. Eger haritanin boyutu

m'ye n ise, taplam m.n tane diigiim vardir. i. hiicrede her iki sinif ipin. all dizgilerin farki,

AC? =

(ciy

-

c i V ) ve AC," =

-AC?

= ( c y

-

c:) olur. Egitim sirasmda, X ve Y siniflannin motitlerinin atandig] SOM kritik diigiim kiimeleri ve

P y

olup, @yle belirlenir. Eger AC? > 'T ise: i E y o l u r , aksi takdirde i pYhe degildir. T

' onceden belirlenmiS e$ik degeridir. Benzer pekilde, ACT > T

' ise, j e p o l u r , &si takdirdej p d e degildir.

Px

ve

P y

deki eleman sayis, e$it olup, s kadardir.

3.3. Siniflsndirms

k-en yakin kom$ulu!i y o n t m i siniflandirma da kullanilir. Do@usal ve karesel siniflandincilarla kar$iIqtiracak olursak iizellikle k m a $ i k ornek dagilimlan ipin k" y6ntemi daha etkindir.

Her bir egitim girdisi W ipin, 25 boyundaki ikili

vcktiir Z $U Sekilde olupturulur. 0.1

smifini, geriye kalanlar ise Y smifini temsil eder. Eger W(j.j+x) alt dizgisi ipin karanan d i i p n F i n m. elemani ise

Z(m)=l olur. Benzer Sekilde, eger W(j:jfK) alt dizgisi ipin kazanan diigiim

Py

nin rn. elemani ise Z(s+m)=l olur. Bir protein dizisindeki? turn alt dizgiler i$IendiMen sonra, Z son halini a h .

Farz edelim ki, 2'' egitim kiimesindeki ikili vektorii, Z de s i n m a kiimesindekmi temsil etsin. Sinama ktimesindeki her bir protein i ipin, Z, ve

Z",

(j egitim kiimesindeki her eleman ipin) arasindaki Hamming uzakligi hesaplanir. Onceden belirlenmi$ bir tek k degeri ipin. Z; ile en az olan k

lane egitim kiimesi proteini kontrol edilir. Bu k protein ipinden, q tanesinin X smifina, r tanesinin de Y sinifma ail oldugunu sanalim. Buradan k=q+r olur. Bundan sonra, bir oylama diizenegi devreye girer. Eger q > r ise, s i n m a kilmesinin i. elemani X sinifi ile etiketlenir, degilse Y sinifi ile etiketlenir. k sayisi tek oldugundan, q=r ihtimali yoktur.

4.

Malzeme ve Neticeler

Deneylerimizde, daha evvelden yayinlanmi$ bir veri kiimesine kullandik. Bu veri kiimesindeki "signd peptide" (SP) proteinleri ile "nuclear" (NP) proteinleri birbirinden ayinnak ipin bir sinama diizenegi tasarlandi. Her iki simftaki proteinler de "Fasta" dosya bipimindeydi.

iki smif ipin de, girdi verisi alu$urmak iizere 40 protein rasgele sepildi. Birbirini dqlayacak Sekilde, 20 tanesi

(3)

egitim kumesine. 20 tanesi de s i n m a kiimesine dahil edildi.

~ = 3 0

olmak $artiyla, alt dizgiler pikartildi. SOM ipin. SOM- PAK adli hesaplama programi kullanildi. Degisik boyutlu, topolojili ve kom$uluk i$levli haritalar denendi. Deneylerden elde ettigimiz sonuplara gore, rasgele ba$langip durumlu, 25x25 ebadinda, dikdOrtgen topolojili, Gausian kom$uluk ivlevli haritalar daha iyi neticeler verdi. Bir deneydeki egitim sonmi SOM dugumleri histogram farklan $ekil

I

de verilir. Her iki sinif ipin de tepeler agikardir. Fakat Onemli diigijmler, bir sinif ipin ipinde oldukpa f z l a omeklerin oldugu ama diger sinif ipin anlamli olmayan dugumlerdir. k degeri 5 allnip, m a m a neticeleri

IOO%

dogruluk vermigtir. Sinamanin egitime o m i !4 olup, bir iirUnlU algilama deneyi ipin oldukpa yeterlidir.

Dlnaarsa bd- HlbODnml d M d

-$ekil 1. SP ve NP smmflan ipin SOM hiicreleri histogram farh

5.

Sonuqlar

Amino asit simi kullanaak, protein hiicre ipi yer k l i r l m e tahmini ipin tasarlanan bir sistem olan P2SL‘i taninik. Diger iki sinifli pali$malara gore daha iyi dogruluk sonuplanna ulqildi. Kiimelendirme ipin 6z dlkenleyen haritalar, smiflandirma ipin t e n yakin komSuluk yantemleri kullanildi. Amino asit dizilerinden, Bznitelik pikartmak ipin PAM250 degigtirme matrisi ile kodlama yapildi. Bu kodlamq protein h u m ipi hedef dizi motiflerindeki her farkli amino asitin biyolojik i$levini muhafaza etmesini saglar. Kiimelendirmeden

pikanilan baskm vektorleri sepmek, sinillanduma stratejimizin temelini olqturur. Bir sonraki asamada, iki siniftan don sinifa pikmayi planliyoruz. Sitoplamik ve mitokondriye ait siniflar eklenecektir. SOM egitimden daha fazla ornekler kullamlmalidir. Cok katmanli perseptronlar, k” yerine veya b m h e r yer alabilir. SOM kiimelendirme i$lemi ters analiz ipin faydali olabilir.

6.

Kaynakqa

[I] van W e t C., Thomas E.C., Merinc-Trigo A., Teasdale R.D., Gleeson P.A. and Smith, J. 0.; “Intracellular soning and transport of proteins“, Prog. Bioph.vs. Mol

Biologv, 83(1):1-45. 2003.

[2] Corpel F.. Servant F., Gouzy J. and

Kahn

D., “ProDom and ProDom-CG: tools for protein domain analysis and whole genome comparisons”, Nucleic Acidr Research,

28:267-269,2000.

131 Dayhoff M.O., Schwartz R.M. and Orcutt B.C., “A model of evolutionary change in eroteins”, Allas of

prorein sequence and structure. Vol. 5. Suppl. 3.345-352, 1979.

[4] Nakai K. and Kanehisa M., “A knowledge base for predicting protein localization sites in the eukaryotic cells”, Genomics, 14897-991, 1992.

[SI htto:llhvnothesiscreator.net/iPSORT

[6] Emanuelsson 0.. Nielsen H., Brunak S. and von Heijne G., “Predicting subcellular localization of proteins based on their N-terminal amino acid sequence”, Journal of

Molenrlor Biology- 3001005-1016.2000.

171

Clams M.G., “MitoProt: a Macintosh application for studying mitochondrial proteins”, Computer Applications in rheBiosciences, I1(4):441-447, 1995.

[8] Fujiwara Y., Asogawa H. and Nakai K., “Prediction of mitochondrial targeting signals using hidden Markov models”, Genome Informatics, 853-60, 1997.

[Y] Nielsen H., Engelbrechl I., Brunak S., von Heijne G., “A neural network method for identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites”, lnrernarional Journal ofNeural Svstems,

8(5-6):581-599, 1997.

[IO]

Emanuelsson O., Nielsem H. and von Heijne G.,

‘‘

ChloroP, a neural network-based method for predicting chloroplast transit peptides and their cleavage sites”,

Prorein Science, 8978-984, 1999.

[I I] Fujiwara Y. and Asogawa M., “Prediction of Subcellular Localization Using Amino Acid Composition and Order”, Genome infirmatics, 12:103-112,2001. [I21 Cai Y., Liu X., Chou K., “Artificial neural network

model for predicting protein subcellular location”,

Compurers and C h e m i s e , 26179-182,2002.

[I31 Altschul S.F., “‘Amino acid substitution matrices from an information thcoretic perspective”, Journol of Molecular

Biology, 219555-565, 1991.

1141 Kohonen T., ‘The self-organizing map”, Proceedings of

the IEEE, 78(9):1464-1480, 1990. [IS] h t ~ : l l ~ ~ . c i s . h u t . f i l n n r c l n a e ~

Referanslar

Benzer Belgeler

Translasyon ve Amino Asit Sentezi.. ZZT204

***kodon olarak adlandırılır ki her kodon ya protein sentezine katılacak bir amino asidi veya protein sentezinin sonlanacağını ifade eder.. o Her amino asit için en az bir

• Kalıtımla geçen bu hastalığın en dikkate değer özelliği, idrarın akağaç şurubunun veya yanmış şekerin kokusuna benzeyen

Basit proteinler • Globüler proteinler Albüminler Globülinler Globinler Glutelinler Prolaminler Protaminler Histonlar • Fibriler proteinler Keratin Elastin Fibrinojen

• Hidrojen bağları, bir peptid bağının –CO grubu ile diğer bir peptid bağının –NH grubu arasında kurulur, nonkovalenttir.

 Amino asitlerin peptid bağlarıyla bağlanarak Amino asitlerin peptid bağlarıyla bağlanarak oluşturdukları düz zincirli diziye. oluşturdukları düz zincirli diziye

• Üre amino asitlerden gelen amonyağın başlıca atılım yoludur.. • İdrardaki azotlu bileşiklerin %90

• Organizmada bulunan dinamik amino asit havuzuna amino asitlerin katılımı üç yolla sağlanmaktadır. Besinlerle protein alımı, sindirimi ve emilimi, 2. Endojen amino