Siniflandirma
isin Protein Dizilerinin Ozniteliklerinin
Cikarilmasinda
Model
Tabanli
Yeni Bir
Yontem
A Novel Model-based Method
for Feature Extraction from
Protein
Sequences
for
Classification
Omer
Sinan
Sara(
I,
Volkan
Atalay',
Rengul
(7etin
Atalay2
Bilgisayar
Muihendisligi
B6lumui,
Orta
Dogu
Teknik Universitesi, Ankara
2Molek*ler
Biyoloji
ve
Genetik
B6luimui,
Bilkent
Universitesi,
Ankara
{sarac, volkan}@ceng.metu.edu.tr, rengul@bilkent.edu.tr
O
Ozetce
etVe ve%40'in altinda
uzak turde,lik sozkonusu oldugunda yani dizi benzerligioldugunda iyisonu,
alinamamaktadir.
Bu
Proteinlerin i,levsel ve yapisal siniflara ayrilmasinda en durumda, CDH yontemleri en uygun hizalamanin daha onemli nokta amino asit dizilerinin gosterimidir. Gosterim,dui,isgiunui
bulabilmektedirler. Model tabanli yontemlerde, proteinin birincil dizisinde sakli biyolojik olarak anlamli ornegin bir protein ailesinin profilinin olasiliklsal modelini bilgiyi i,ermeli ve temsil edebilmelidir. Korunmu, veya tammlamak i,in bir sakli Markov model (SMM)benzer altdiziler i,levsel ve yapisal benzerlik i,in kuvvetli kullanilmi*tir
[4,5].
Orgetabanliyontemler i,levselveyapisal belirtilerdir. Buqali*mada,
protein dizilerindeki altdizilerinin ozelliklerle ilintili oldugubilinenyuksekderecedekorunmu, modellerini hesaba katan biroznitelik e,lemesi sunulmaktadir. kisa altdiziler olarak tanimlanan orgelerden yararlanirlar [6]. Sakli Markovkari*im
modeli ile birlikte bir Tahmin-Azami Orgelersinifi bilinen bir grupproteindizisinden 9ikartildiktan algoritmasi verilen bir ktime proteinin altdizilerini demetlemek sonra siniflari bilinmeyen dizilerde bu qikartilmi* olan vemodelleriniogrenmek
i,inkullanilmi*tir.
orgelerin olup olmadigi sinanir. Bununla birlikte bir,ok protein sinifi i,in o sinifi tanimlayan orgeler henuiz belirlenmemi,tir vehatta bazi siniflari,cin hi9 orgede yoktur. Abstract Ayrica,orge
9ikartmak da kolay biri,
degildir.Orgeler
Representation of amino-acid sequences constitutes the key mutasyon veya eksikkalinti (residue) i,erdigindengenellikle
pointinclassification ofproteins into functional orstructural tam
dogru
degildir [7].Bunun
da6tesinde,
tek bir orge bir classes. The representation should contain the biologically proteinini,levinibelirlemeki,inyeterli de olmayabilir [6]. meaningful information hiddeninthe primarysequenceof theBu
ana kadar bahsedilen yontemlerde sadece birsiniftanprotein. Conserved or similar subsequences are strong olumlu ornek diziler
kullanilmi*tir
ve yeni bir dizinin indicators of functional and structural similarity. Inthisstudy siniflandirilmasi, olumlu ornek dizilerden yaratilan modele we present a feature mapping that takes into account the benzerligine gore yapilir. Onceki u,c yontemin tersine, models of the subsequences of protein sequences. An ayritedici siniflandiricilarhem olumlu hem de olumsuz olarak expectation-maximization algorithm along with an HMM etiketlenmi, dizileri girdi olarakkullanirve sonu, olarak bir mixture model is used to cluster and learn the models of karar siniri belirlerler. Destekvektor
makina(DVM)
subsequences ofagivensetofproteins. siniflandiricilari uygun oznitelik gosterimi veya ,ekirdekle
birle,tirildiginde
uzaktuirde,lik
belirlemedeguinuimuizde
eniyi
1. Giris
ba*arima ula*maktadirlar
,ekirdek tanimlamak i,in profil SMM kullanmaktadir.[8, 9]. Fisher-DVM yontemi [8], IlkI,lemsel biyolojideen onemli sorunlardan birisi proteinlerin, olarak hedef aile i,in profilbulanSMMin,aedilir. Ardindan birincil dizilerine dayanarak i,levsel ve yapisal siniflarina profil SMM'nin olasiliksal modelinin parametreleri vektor
ayri*tirilmasidir.
Dogada 20 degi,ik amino asit vardir ve olarak duizenlenir. Bir dizi girdi olarak verildiginde, bu dolayisiyla protein dizileri 20 harflik bir alfabedenuretilmi, vektoruidogrudan
kullanmak yerine Fisher skoru denilen degi,ik uzunluklardaki kelime dizileri (string) olarak modelparametre degerlerinden farkliligihesaplanmaktadirvegoruilebilirler. Proteinin i,lev veyapisihakkindaonemli bilgi bu Gausyen ,ekirdegine oznitelik vektorui olarak birincil dizide saklidir. Protein siniflamadaki enbuiyuk sorun siruilmektedir. Bugosterim, verilen ailenin olasiliksal profil
bu fark gozetici ozniteliklerin 9ikartilmasidir. Farkli protein modeline hizalama bilgisini i,erir. Buyontemle onemli bir dizileri arasinda korunmu, altdiziler i,levsel ve yapisal iyile,tirme elde edilmi,tir ve SCOP veritabaninda tanimli benzerlik i,in kuvvetli belirtilerdir, ancak bunlarin ailelerin uzaktuirde,lerininbelirlerlenmesindeeniyi
ba*arima
farkedilmesi ,ok gu,ctur; cunku korunmu, altdiziler farkli
ula*ilmi*tir
[10].uzunluklarda olabilir ve dizinin farkli yerlerinde Leslie vd. DVM i,in uyumsuz e,lemeli dizi e,le,tirme
bulunabilirler. Yazinda bu sorunu ,cozmek i,cin gosterilen ,cekirdegi onermektedir [9]. Uyumsuz e,sle,stirme ,cekirdegi, gayretler dort sinifta toplanabilir: hizalama (alignment) sabit uzunluktaki tuim olasi amino asit altdizilerini gosteren tabanli yontemler, model tabanli yontemler, orge (motif) vektorleri kapsayan oznitelik uzayinda tanimlanir. K-meradi
tabanliyontemlerye ayirtedici(discriminative)yontemler. verilen herbir k uzunlugundaki altdizi buradan en fazla m Hizalama tabanli yontemler [1, 2, 3], ozellikle de ,coklu mevki farkeden-yani m
yanli,s
e,sle,stirme kordinatina katkidadizi hizalama (C,DH) [3], ,cok,ca kullanilmaktadir ye dizi bulunur.fluseyrekoznitelik vektorlerinibulmak yerine Leslie benzerligi yuksek oldugunda
tuirde,slik
(homology) bulmakta vd. Verilen iki diziarasindaki ortak(4,m)
uyumsuze,sle,stirme iyi,cali,smaktadir.
flununlabirlikte C,DHNP-zor bir sorundur altdizilerini sayarak bu ,cekirdergi hesaplar.Ku,cuik
k ye mdegerleri-tipik olarak k i,in5 ve mi,in 1 i,in i,lemsel olarak durumlari arasinda izledigi yoldur. SMM'ler hakkinda ayrintli verimli olan bu yontem, FisherDVM'in
ba*arismna
yakin bir bilgi i,in [13]'e basvurulabilir.ba*ari
elde etmektedir.Kari*im
modelinde SMNM'lerin sayisi olan C algoritmaBititnyontemler oyle yada boyle protein siniflari arasinda
qali*maya
ba,lamadan once belirlenmelidir. Bu sayi, verilen korunmu,, ayirtedici altdizilerin9ikartilmasinaodaklanmi*tir.
bir kume protein dizilerinin altdizilerininolu*turacagi
demet Bu bildiride anlatilan yontem altdizileri degil de onlari sayisi olarak di,isnuilebilir. Eger C kui,ick se,ilirse, bazi farkl uiretmi, olabilecek modelleri bulmayaqali*ir.
Ana duI,sInce, ayirtedici altdiziler ayni SMM'ye atanmaya zorlanacaklardir. ortak bir ozelligipayla*tigi
bilinen bir protein dizisi kuimesi I,leme zamani C iledogrudan
orantili olarak artar. TA verildiginde, bu ortak ozellikle ilgili ozel altdiziler varsa ve algoritmasinin ana hatlaria*agida
verilmektedir.eger verilen dizileri uygun bir ,ekilde bolebilirsek, bu ozel
altdizilere ,ok,a rastlanmasi gerektigidir. Tahmin-azami 1. Durmaol,cutitne kadar yap:
(expectation-mazimization-TA) algoritmasini kullanarak [11], a. SMM'lerden elde edilen benzerlikbilgisine gore her tamamen gozetimsiz bir ,ekilde boylesi altdizilerin modelleri diziyi altdizilerine bMl.
belirlenmektedir. Modellerin gosterimi i,in 20 durumlu, b. Herbir altdiziyi onu en yuksek olasilikla
yaratmi*
birbiriyle tamamen bagli, ergodik bir kuime SMM olabilecek SMM'e ata.kullanilmaktadir. Gozlenme olasiliklari amino asit benzerlik c.
Atanmi*
altdizilerle SMM'leri egit (yakinsamaya matrisi kullanarak sabitlenmi,tir ve bu nedenle bir altdizinin kadar degil de dizilerin uistuinden sadece bir kez modeli amino asit durumlari arasinda izledigi yoldur. ge,erek).Boylece, bir protein dizisinin oznitelik uzayindaki gosterimi
altdizilerinin SMM
kari*im
modeli uizerindeki dagilimi l.c adimi iyi bilinen Baum-Welch algoritmasi ile yerine ,eklinde tanimlanabilir. Buradaki ana sorun dizilerin uygun getirilmektedir [14]. Nazik adim, I.a.'da belirtilen dizilerin boluinmesidir. Bu sorun, alt par9alarinin degi,ik modeller boluitlenmesidir. Verilen bir dizinin nitelik uzayi gosterimi tarafindan uiretilmi, bir i,aretin altpar9alarina boluitlenmesi herbir SNM'e dui,en altdizilerin benzerlik degerlerinin olarak dui,isnuilebilir.Ba*langiqta
modeller bilinmemektedir toplami olarak tanimlandi. Sonu, olarak, Ckari*im
veTAalgoritmasi ileogrenilmesi
beklenmektedir. SMM'lerin modelindeki SMM sayisi olmak uizereCboyutlu bir oznitelik ergodik olmasiyla sorun daha dakarma*ik
hale gelmekte ve uzayiyaratilmi*
oldu.bu durumda SMM'ler her uzunluktaki altdizileri
uiretebilmekte
veya kabul edebilmektedir. Bu bildiride 3. DizilerinBolutlenmesi
boluitleme i,lemi i,in de yontem 6nermektedyiz.
Burada sunulan
yakla*imin
pek ,ok yarari vardir. Dizi Tanimlanmi, olanSMM'lerindavranislarini ,czumlemek i,in benzerligi dui,isk oldugunda sorunlu olduguve eniyininaltini birseri
deney yapilmi*tir. En iyiboluitlemenin
verilmi,verdigi bilinen ,oklu dizi hizalamasi gerekmemektedir. Bu oldugunu varsayarak,
SMM kari*im
modelinin demetleme anlamda, Jakkola vd.qali*masi
en iyi olmayan hizalamaya ba*arimi incelenmi,tir. Rastgele olu,turulan 4000 dizinin meyillidir. Bundan da 6nemlisi, olasi altdiziler i,in herhangi yanisira 30 degi,ik proteinden 12 degi,ik metabotropik bir sabit uzunluk kisintisi getirilmemi,tir ve yontem biyolojik glutamat GPCR imzaorgesinden olu,turulmu, 360 dizi ile bir olarak makul kabul edilenyanli*
e,le,tirme ve mutasyonlaraveri
kuimesi
hazirlanmi*tir. Rastgele dizilerinuzunluklari 5 ile izin vermektedir. Ornegin, orge dizilerinde sik9a rastlanan 30 arasinda degi,tirilmi,tir. TA algoritmasi, l.a adimi ancakyanli*
e,le,tirme ,ekirdegi i,in uimitsiz bir vaka olan20 atlanarakl.b
adimindakiatamalardaki degi,imbelli bire,iginamino asitlik bir altdizide5
yanli*
e,lemeye izinvermektedir. altinadui,ene
kadar C=20 ileko,turduk. Sonu,larbeklendigi Bunlara ek olarak da, altdizi modellerimizi kullanarak en gibi oldu: rastgele dizilerin SMM'leruizerindeki
dagilimi ayirtedici altdizileri bulma ve herbir uzay boyutunun(kari*im
olduk,amuntazamdi; oysaayniorgedengelen diziler birlikte modelindeki herbir SMM'nin) DVM siniflandiricisina obeklenmi,lerdi.Bolutlenmenin
nasil olabilecegi hakkinda katkisiniinceleyerekorgelerike,fetmek olasiligi vardir. Bu da fikir edinmeki,in
rastgeleuiretilmi,
dizleri azsayidaorgelerebiyoloji
ara*tirmacilarinin
sistemi daha iyi anlamasina ilave edip kari*im modelindeki 20 SMM ileuiretilme
log-yardimci olabilir. benzemelerini (log-likelihood) inceledik.
,ekil
1omekleme
ilave edilmi, dizilerin
rastgele
biryerinden ba*ladiginda
elde2. Yontem edilen log-benzerliklerinigostermektedir. Ote yandan, ,ekil2 ilave edilmi, dizilerde bir orgenin
ba*langicindan
Uretici modellerden olu,an vektor oznitelik haritasi olarakba*landiginda
elde edilen log-benzerliklerini gostermektedir. kullanilmaktadir. Oznitelik uzayinda herbir dizi altdizilerinin Dikkat edilmelidir ki log-benzeme degerleri uzunluga gore bu uiretici modeller uizerindeki dagilimi ile temsil rastgele model kullanilaraknormalle*tirilmi*tir.
Log-benzeme edilmektedir. Altdizilerin modellerini temsil edebilecek ozela*agidaki
,ekildetanimlanmi*tir.
SMM'ler
tasarlanmi*tir.
Herbir SMM birbiriyle tamamen bagli 20 durumdanolu*maktadir.
Dogada 20 amino asitbulunmaktadir; bu nedenle herbir durum bir amino asiti temsil l P(X
H,)
(1) etmektedir.Bir durumunsimge salma olasiligi amino asitlerin gP(X
HO)
birbirlerinin yerine konma (substitution) matrisi ile sabitlenmi,tir [12]. Amino asitlerin birbirlerinin yerine konma matrisi, bir amino asitin zamani,cinde diger herbir amino asite
degi,sme hizinin olasiligini tahmin eder. flu da modelimizde
Formuil 1l'de
X altdiziyi, UrnHM4M
modeli ye Ho rastgele herhangi biryanli,s
e,slemeye degil de biyolojik olarak makul modeli temsil etmektedir. Normalle,stirme terimi olarakolanlarmna
izin verir. Durum ge,ci,s olasliklariba,slangi,cta
rastgele model altdizinin o anda incelenenSMMN'ye
rastgele degerler olarak verilmi,stir ye TA algoritmasi ile uygunlugunu incelemek i,cin bir ba,svuru degeri vermektedir.altdizilerin benzerlik degerlerinin
kar*ila*tirilmasina
olanak Bahsedilenyonteminba*arimmni
ol,meki,in iki farkli sinifa saglamaktadir. Kullanilan rastgele model herbir amino asitin ait 200 dizi i,eren bir yapay veri kuimesi olu,turduk. egitim kuimesindeki sikliklaridir. Oncelikle, herbir sinif i,in bir tane olmak uizere ikikuime orge yararttik. Herbir kuime iki farkli tipte orgeye sahipti. Bir 4 sinifin uiyeleri rastgele yerlerekonu*landirilmi*
ilintili bir veya ikiorge
ile birlikterastgele
uiretilmi,amino asit dizilerini i,ermektedir. Herbir 6rnekte, 0'dan 8'e degi,en 2 /< ~uzunluklarda olasimuitasyon
vardir veorge uzunlugu
13'ten 30'adegi,mektedir.
Sonu,taortaya 9ikandizilerinuzunluklari0 130ile 220 arasindadir.
5 SMM
kar*im
modelive20 SMMkari*im
modeli olmak-2 .. ,izereiki
kari*im
modeliegitilmi*tir.
Egitimden sonra her dizi.3
05
ve20boyutlu
uzayae,lenmi,tir. Cok hizlicayapilan
k-orta4
algoritmasi uygulamasi
sonucunda ayni sinifin elemanlari5-5L
SMMile%70
oraninda birlikteobeklenmi,tir.
Ayni
oran20--60 5 10 1~ 20 25 30 SMM i,in %90'a
ula,mi*tir.
O I10 15 20 25 30
$ekil1:Rastele bir noktadan
ba*landiginda
olu,an log- 5.Tarti~ma
benzerliklerin dizi uzunlugunagoredegerleri.Bir proteinin i,levi ve yapisi hakkinda onemli bilgi birincil dizisinde saklidir. Dizi benzerliginin dui,isk oldugu uzak
5
tuirde,
bulmadurumunda,
bazikorunmu,
altdizilerproteinlerin ozellikleri hakkinda onemli
ipu9lari
verir. Protein siniflandirmada en onemli sorun sakl oznitelikleri ve korunmu, altdizileri bulmaktir. Bu ama,la, buqali*mada
o altdizileri iureten modelleri ogrenmeye
dayanan
ortak ozellikta*iyan
bir sinifproteinin paylaslian ozniteliklerini bulmaya yarayan bir yontem anlatilmaktadir. Buqali*mada
anlatilan7zel
SMMyapilari
farkli uzunluklardaki altdizileri.__
~, modelleyebilecek kabiliyettedir. Bunaek olarak, bir altdizide biyolojik olarak olasi muitasyonlaraizinvermektedirvebu da,oknazikorgelerinbulunmasina olanak vermektedir.
-10 1 Kolay bir siniflandirma problemi uizerinde yapilan
0 5 10 1 20° 25 30 deneyler, bu gozetimsiz yontemin, verilen bir kume proteinde
istatistiksel olarak onemli (,ok sayida) 6ruintuiyu bulmaya kabiliyetli oldugunu gostermi,tir. Bir sonraki adim olarak, $ekil2:Belirli bir orguinuin
ba*mndan ba*landiginda
yontem SCOP degerlendirmeveritabani gibi ger,ekbiyolojik olu,an log-benzerliklerin dizi uzunlugunagoreveri
izerinde
sinanmalidir [10]. Orge bulmaktakullanip
degerleri kullanilamayacagini gormek i,in egitimden sonra SMM'ler incelenmelidir. Kullanilanboluitleme
yontemi
bulu*saldir.
Bu baglamda, en iyi boluitlemeyi bulabilecek bir matematik ,ekil 1 ve 2'de goruilebilecegi gibi SMM'ler onemli ,er,evebulmak iyi bir ilerleme olacaktir. TA algoritmasi en altdizilerinba,slangilarinahassas olmalarina ragmen rastgeledui,isk
yerel degeretakilmayaegilimli
oldugundan dolayi
her
uretilmi, altdizilerin
bala
langssllarina
duyarli hale TAtabanli
algoritmasinda
oldugu gibi,ba*langiq
degerlerive
gelmemi,lerdir. SMM'lerneyazikki,
altdizilerinbsonlarina
da durumuba*arimi
,ok etkilemektedir. Bunua,manin
bir duyarli degillerdir. Gozlemlerimizden birisi kazanan yontemi BLAST yada PSI-BLAST [4, 15] benzeri birhizli
SMM'nin diger SMM'lerdenfarkinln
enyuksegeyaklazank
hizalama yontemi kullanarakkari*im
modelindekibazi
amino asit ciyarindaSMkmasider.
flu
gozlemlere dayanarak, SMMleri ba,latmak olabilir.Bu
da modelinbazi
kolaycabalutlemenin
olasi
balangsid
noktalarinin yerlerini saptayarak hizalanabilen altdizilereduyarli olmasini
guivence altina
ger,ekle,tirebilecegi soylenebilir. Dizideki tium konumlar i,inalacaktmr.
Geri kalan SMM'ler de, hizalama yontemi ile o konumdan ba,layarak 5 uzunlugundaki altdizilerin log-hizalanmamca
altdizilerin olu,sturdugu uzaydaaramayapmaya benzerliklerini uirettik ve kazanan SMM'in benzerlik yarayacakrastgeleba,latilmi, bazi SMM'lerolacaktir. degerinin diger SMM'lerin benzerlik degerlerinden farkinintoplaminintepeyaptigiyerleri i,aretledik. Diziler i,aretlenmi, 6.
Kaynak*a
yerlerden boluinduiler ve altdizi uzunlulari 5 ile 30 arasina [1] Altschul, S. F., Gish, W., Miller, W., Myers, E. W., and sinirlandirildi. Lipman, D. J, "A basic local alignment search tool",
Journal ofMolecular Biology, 215:403-410, 1990. 4. Deneyler
~~~~~[2]
Smith, T. and Waterman, M., "Identification of common4. Deneyler
~~~~~~molecular
subsequences", Journal ofMolecular Biology,147:195-197, 1981.
[3] Park, J., Karplus, K., Barrett, C., Hughey, R., Haussler, D.,Hubbard, T., and Chothia, C., "Sequence comparisons
using multiple sequences detect twice as many remote homologues as pairwise methods", Journal ofMolecular Biology, 1998, 284(4):1201-1210.
[4] Baldi, P., Chauvin, Y., Hunkapiller, T., and McClure, M. A., "Hidden Markov models of biological primary sequence information", Proc. Natl. Acad. Sci. USA, 91:1059-1063, 1994.
[5] Krogh, A., Brown, M., Mian, I. S., Sjolander, K., and Haussler, D., "Hidden Markov models in computational biology: Applications to protein modeling", Journal of MolecularBiology, 235:1501:1531, 1994.
[6] Ben-Hur, A. and Brutlag, D., "Remote homology detection: a motif based approach", Bioinformatics, 19:26-33, 2003.
[7] Yang, J., Deogun, J. S, Sun, Z., "A New Scheme for Protein Sequence Motif Extraction", Proc. Of the 38th
HawaiiIntl. ConfonSystem Sciences, 9:280.1, 2005. [8] Jaakkola, T., Diekhans, M., and Haussler, D., "A
discriminative framework for detecting remote protein homologies", Journal of Computational Biology, 7(1-2):95-114,Feb2000.
[9] Leslie, C.S.,Eskin,E.,Cohen,A., Weston, J.,and Noble, W. S., "Mismatch string kernels for discriminative protein classification", Bioinformatics, 20(4):467-476, 2005.
[10] Murzin, A. G., Brenner, S. E., Hubbard, T., and Chotia, C., "SCOP: A structural classification of proteins database for the investigation of sequences and structures", Journalof Molecular Biology, 247:536-540, 1995.
[11] Dempster, A. P., Laird, N. M., and Bubin, D. B., "Maximum likelihood from imcomplete data via EM algorithm", Journall of the Royal Stat. Soc., pp. 1-38, 1977.
[12] Henikoff S., and Henikoff, J. G., "Amino acid substitution matrices from protein blocks", Proc. Natl. Acad Sci. USA, pp.10915-10919, 1992.
[13] Rabiner, L.R., "Atutorialonhidden Markov models and selectedapplications inspeech recognition", Proc.IEEE, 77:257-258, 1989.
[14] Baum, L. E., Peterie, T., Souled, G., and Weiss, N., "A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains", Ann.Math. Statist., 41:164-171, 1970.
[15] Altschul, S.F.,Madden,T.L., Schaffer,A.A.,Zhang, J., Zhang, Z., Miller, W., Lipman, D. J., "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res., 25(17):3389-3402, 1997.