Dizi Hizalama. Amino Asit Alanine Arginine Asparagine Aspartic acid. Cysteine Glutamine Glutamic acid

(1)

Dizi Hizalama

DNA molekülleri nükleotidlerin uzun birer dizileridir. DNA dizisi 4 harften oluşan

{

^A,G,C,T

}

A= gibi bir alfabe ile harfleri bitişik olarak yazılmış bir yazıdır denebilir. DNA dizisi pürin-primidin açısından okunmak istendiğinde ^A^{= P,H}

{ }

gibi iki harfli (P-pürin, H-primidin) bir alfabe kullanılmaktadır. Proteinler amino asitlerin uzun birer dizileridir. Amino asit dizisi

{

A,R,N,D,B,C,Q,E,Z,G,H,I,L,K,M,F,P,S,T,W,Y,Z

}

=

A gibi bir alfabe ile harfleri bitişik olarak

yazılmış bir yazı olarak görülebilir.

Amino Asit

Kod (1 karakterli)

Alanine A

Arginine R

Asparagine N

Aspartic acid D

Asparagine B

Cysteine C

Glutamine Q

Glutamic acid E

Glutamine Z

Glycine G

Histidine H

Isoleucine I

Leucine L

Lysine K

Methionine M

Phenylalanine F

Proline P

Serine S

Threonine T

Trytophan W

Tyrosine Y

Valine Z

DNA dizisindeki proteinleri kodlayan bölgeler canlılarda ilkelden yükseğe doğru azalır. Đnsan genomunun, yani DNA sadece %1.5 ‘lik kısmı (yaklaşık 25,000 gen) protein kodlamaktadır.

Genetik veri tabanlarının geliştirilmesinde ve kullanılışında dizi karşılaştırılması önemli bir yer tutmaktadır. Bazen protein dizileri, DNA dizilerine göre tercih edilmektedir. Örneğin, ACT, ACC, ACA, AGG’nin tamamı “threonine” kodlar. DNA üzerinde bazı değişiklikler protein kodlamasında etkili değildir. Amino asit dizilerinde de aynı işlevi gören ve birbirinin yerini amino asitler söz konusudur. Veri tabanları türlerin karşılaştırılması, gen ailelerinin belirlenmesi ve akrabalık derecelerinin tespitinde kullanılmaktadır. Proteinlerle ilgili kullanımda olan iki veri tabanı CATH ve scop isimli veri tabanlarıdır. CATH ismi Class, Architecture, Topology, Homology sözcüklerinin ilk harflerinden gelmektedir. Homoloji, proteinlerin ortak ata bakımından gruplara ayrılmasını sağlamaktadır. Diğer sözcükler proteinlerin amino asit bakımından içerik, diziliş ve yapısal özellikleri ile ilgili sözcüklerdir. Protein yapılanmaları, birincil yapı-primary structure, ikincil yapı-secondary structure, üçüncül yapı-tertiary structure, dördüncül yapı- quaternary structure gibi farklı düzeylerde ele alınmaktadır.

(2)

Cytochrome c proteininin sürekli oynayan NMR yapıları (Büyük boy görüntü).

Diğer veri tabanı olan scop kısaltması, “structural classification of proteins” (proteinlerin yapısal sınıflandırması) ifadesindeki sözcüklerin ilk harfleridir.

Bu derste; DNA dizilerinde A,C,G,T bazlarının dizilişi ve protein dizilerinde amino asitlerin dizilişi bakımından, ortak bir alfabe ile yazılmış diziler arasındaki benzerliğin hesaplanması ve dizilerin ortak ata yönünden hizalanması üzerinde durulacaktır. Đki dizi arasındaki benzerlik nedir ve nasıl ifade edilebilir. Bu amaçla tanımlanmış değişik uzaklık fonksiyonları (metrikler) söz konusudur.

GENETICS ve GENOTYPES sözcüklerini göz önüne alalım. Ortak kök bakımından karşılaştırmak için bu sözcükler aşağıdaki gibi alt alta yazılsın.

GENET I CS- GENET I C- S GENOTYPES GENOTYPES

Đlk karşılaştırma dil açısından biraz daha anlamlıdır. Fakat ikinci karşılaştırmada gaha fazla harf eşleşmektedir.

Bir DNA dizi parçası nesilden nesile geçerken bazı durumlarda değişikliklere (mutasyonlara) uğramaktadır. En basit mutasyonlar dizi parçasındaki bir nükleotidin yerine başka bir nükleotidin gelmesi (substitution), dizi parçasından bir nükleotidin silinmesi (deletion) veya dizi parçasına nükleotid girmesidir (insertion). Bir popülasyondaki belli bir DNA sitesinde farklı nükleotidler bulunabiliyorsa, bu sitede polimorfizim (polymorphism) vardır denir. Mutasyonlar birbirinden bağımsız olarak örneğin iki farklı yoldan ilerlemiş olsunlar. Bu iki yola giren DNA dizi parçası zaman içinde yavaş yavaş yollar arasında farklılık göstermeye başlayacaktır. Örneğin başlangıçta ACGTTTGCAAA olan dizi parçası ACGCTTTGGCATAA veya ACCGGCTTCGGCCAA haline gelmiş olabilir. Farklılaşma kendini amino asit dizilerinde de gösterecektir. Diğer taraftan, kodonlardaki üçüncü amino asite göre hata toleransı ve bazı amino asitlerin birbirinin yerini tutması DNA parçasındaki değişimleri fazla önemli kılmayacaktır. Canlı için hayati önem taşıyan DNA parçalarındaki farklılaşma hızı diğer kısımlara göre çok düşüktür.

Biyoinformatikte birçok inceleme, iki ya da daha çok sayıda DNA veya protein dizisinin karşılaştırılmasına dayanmaktadır.

(3)

Dizi karşılaştırmasının temelinde dizi hizalama kavramı yatmaktadır. Örneğin yukarıdaki iki dizi parçası,

AC –GCTTTGGCATAA ACCGGCTTCGGCCAA veya

AC –GCTTT– GGCATAA ACCGGCTTCGGCCAA- veya

AC – –GC TTTGGCATAA ACC GGCTTCGGCC –AA

şeklinde hizalanabilir. Moleküler uygulamalarda insersiyon (insertion) veya delesyon (deletion) olayını anlatmak için “indel” denen “-“ işareti kullanılmaktadır. Buna çizgi diyelim. Bir çizginin bulunduğu bir site insersiyonu mu yoksa delesyonu mu temsi ettiğinin ayrımı yapılmamaktadır. Bir tane veya yanyana olan çizgilere (insersiyonlara, delesyonlara) gedik (gap) denir. Yukarıdaki hizalamaların üsttekinde bir tane bir uzunluklu gedik, ortadakinde üç tane bir uzunluklu gedik ve alttakinde bir tane iki uzunluklu ve bir tane bir uzunluklu olmak üzere iki gedik bulunmaktadır.

Hizalamada alt alta çizgi bulunmamaktadır. Aşağıdaki gibi bir hizalamaya müsaade edilmemektedir.

AC– –GCTTTGGCATAA AC– CGGCTTCGGCCAA

Birçok hizalama şekli vardır. Đki dizi parçası tüm olarak (global) veya bazı kısımları yerel (local) olarak hizalanabilir. Hizalamanın gediksiz (ungapped) yapılması istenebilir veya gediklere müsaade edilebilir. Buna göre gediksiz hizalamalar (ungapped alignments) veya gedikli hizalamalar (gapped alignments) söz konusudur. Đki dizi parçasının veya ikiden çok dizi parçasının hizalanması söz konusu olabilir. DNA dizileri veya protein dizilerinin hizalanması söz konusu olabilir. Dizi hizalamasındaki mantık DNA veya protein dizisi açısından fark etmemektedir. Đlk önce iki dizi parçasının gediksiz hizalanması durumunu ele alacağız.

Gediksiz Hizalamada Benzerlik Đçin Bazı Testler

Aynı uzunluklu iki DNA dizisi (dizi parçası) aşağıdaki gibi hizalanmış olsun.

C

I I I I I I I I I

T A C G T T A A A C T C G G C

A C T T T A A G C C A A G C

Bu iki dizi ile ilgili,

0: .

H Bu iki dizi birbirine göre rasgele dizilmiştir

1: ( var ).

H Bu iki dizi birbirine göre rasgele dizilmemiştir aralarında bir bağ dır hipotezlerini göz önüne alalım.

(4)

Đki dizi arasında benzerlik olup olmadığı nasıl söylenecektir. Đki dizininin karşılıklı iki sitesinde aynı nükleotidin olması durumuna eşleşme diyelim. Yukarıdaki iki dizi için eşleşme olan siteler görülmektedir. Dördüncü siteden itibaren dört uzunluklu eşleşmiş bir alt dizi, 1. ve 13.

sitelerden itibaren iki uzunluklu eşleşmiş iki alt dizi ve bir tane bir uzunluklu eşleşmiş alt dizi görülmektedir. Başlangıçtan veya eşleşme olmayan bir sitenin hemen sağından başlayıpta eşleşme olan sitelerin oluşturduğu dizi parçasının uzunluğu Y rasgele değişkeni olsun. Y ‘nin olasılık fonksiyonu,

( ) (1 ) ^y , 0,1, 2,...

fY y = − p p y=

dır (p= p²_A+ p_C² +p_G² + p_T²). Y ‘nin olasılık dağılımından alınan n birimlik bir örneklemin n. sıra istatistiği olan Y_max istatistiğinin dağılım fonksiyonu,

( ) ( )

max( ) ( max ) ( ) ⁿ 1 ^y ⁿ

FY y =P Y ≤y = P Y ≤y = − p

dır. Uzun iki dizinin karşılaştırılmasında, hipotez testi Y_max istatistiği üzerine kurulabilir. Y_max değeri büyük olduğunda sıfır hipotezi reddedilsin. Buna göre, Y_max istatistiğinin gözlenen değeri

ymax olmak üzere,

(

^max

)

max max

( ) 1 1 ^y ⁿ

p−değeri=P Y ≥ y = − −p

olacaktır. N nükleotid bulunduran iki dizinin karşılaştırılmasında, eşleşme olayında başarısızlık olması olasılığı 1− p olmak üzere, başarısızlıkların sayısının beklenen değeri (1−p N) dir.

Başarısızlık durumunda olan her siteden sonra sıfır veya daha uzunluklu başarı (eşleşmeler bulunduran) siteler geleceğinden, bunların sayısının beklenen değeri de (1−p N) dir. N nükleotid bulunduran dizide Y rasgele değişkeni yaklaşık n≈ −(1 p N) kez gözlenmiş olacaktır.

Y rasgele değişkeni, başlangıçtan veya eşleşme olmayan bir sitenin hemen sağından başlayıpta eşleşme olan sitelerin oluşturduğu dizi parçasının uzunluğu olan rasgele değişken olmak üzere, yukarıdaki hipotez testi bu rasgele değişkenin gözlenen Y_max değeri (istatistiği) üzerine kuruldu. Y rasgele değişkeni geometrik dağılıma sahiptir denebilir.

Đki dizi aynı ataya sahip olsa bile tam olarak eşleşmiş uzun alt dizi parçaları yerine, az bir farklılık gösteren alt dizi parçaları gözlemlenebilir. Başlangıçtan veya eşleşme olmayan bir sitenin hemen sağından başlayıpta k tane eşlenmemiş site bulunduran dizi parçalarına iyi-eşlenmiş diyelim.

U rasgele değişkeni iyi-eşlenmiş dizi parçası uzunluğu olsun. Đyi eşlenmiş bir dizi parçasının uzunluğu, eşlenmemiş bir sitenin sağından itibaren (k+1). eşlenmemiş siteye kadar olan site sayısıdır. k =0 için (aralarında eşlenmemiş site bulundurmayan) iyi-eşlenmiş site sayısı olan U rasgele değişkeni yukarıdaki Y rasgele değişkenidir. U rasgele değişkeninin olasılık fonksiyonu,

(5)

( ) ^{u k}(1 )^k 1 , , 1, 2,...

U

f u u p p u k k k

k

− +

=   − = + +

 

olmak üzere, yukarıdaki hipotez testi U_max istatistiği üzerine kurulabilir. U rasgele değişkeninin dağılımından alınan n birimlik bir örneklem U U₁, ₂,...,U (bağımsız ve aynı dağılımlı rasgele _n değişkenler) için,

( )

max( ) _U( ) ⁿ

FU u = F u

dır. Gözlemlerinin N nükleotid (site) bulunduran dizi üzerinden alınması ve iyi-eşleşmiş dizi parçalarında örtüşme olması sebebiyle U U₁, ₂,...,U ‘ler bağımsız olmamaktadır. _n U U₁, ₂,...,U ‘ler _n bağımsız olmadığında U_max istatistiğinin dağılımını bulmak oldukça zordur.

N nükleotid uzunluğunda diziler simülasyon ile çok kez ( j=1, 2,...,m) üretilip her birinde

max^j ( 1, 2,..., )

U j= m gözlenip, U_max için

max 1 max

( )

ˆ ( )

m j

j U

I U u

F u

m

=

≤

=

∑

örneklem dağılım fonksiyonu (empirical distribution function) elde edilebilir.

Büyük örneklem hacimlerinde,

( )

max

ln 0.57716 ln(ln ) ln( ln ) ln1 ln( !) ln

n k n p k p k

p µ p

+ + − − + − −

≈ −

( )

2 2

max 2 12

6 ln p

σ ≈ π +

−

(Waterman,M.S. (1995) Introduction to Computational Biology, sayfa 277) olmak üzere, µ_max değerine yakın u değerleri için,

max

max max

( ) 0.57716

6

( )

u

P U u e e

π µ σ

 

 

 

− − +

≤ ≈

−

dır (Ewens and Grant (2005) Statistical Methods in Bioinformatics, sayfa 99).

.

Gediksiz olarak hizalanmış iki dizinin (nükleotid veya amino asit) benzerliği için başka bir test fonksiyonu BLAST (Basic Local Alignment Search Tool) yönteminde ele alınacaktır.

(6)

Gedikli Hizalama

Belli bir alfabe ile yazılmış n harfli iki dizi parçası,

1 2

x=(x ,x ,...,x )_n

1 2

y=(y ,y ,...,y )_n

olmak üzere, gediklere izin verildiğinde olabilecek hizalama sayısı 2n n

 

 

 sayısından büyüktür.

Örneğin, n=2 için hizalamalar,

1 2

x x

y y

1 2

x x

y y

−

1 2

x x

y y

−

1 2

x x

y y

−

1 2

x x

y y

−

1 2

x x

y y

−

1 2

x x

y y

−

1 2

x x

y y

− −

1 2

x x - -

- - y y

1 2

x x

y y

− −

1 2

x x

y y

− −

1 2

x x

y y

− −

1 2

x x

y y

− −

dır. Dikkat edilirse, sadece en alttaki 6 hizalama x ,x ,y ,y harflerinin x ve y ‘lerdeki indisler ₁ ₂ ₁ ₂ artan sırada olacak şekildeki sıralamalarının sayısı kadardır (6= 4! 2

2!2!

n n

 

= 

 ,n=2). n harf uzunluklu iki dizi parçasında olabilecek hizalama sayısı 2n

n

 

 

  sayısından fazladır. Örneğin, n=50 için 2 29

1.0089 10 n

n

 

≈ ×

 

  dur. Đki dizinin hizalanmasında, tüm olabilecek hizalanmalar arasından belli bir ölçüte göre en uygununu seçmek iyi bir yöntem olarak görünmemektedir.

1 2

x=(x ,x ,...,x )_n ve y=(y ,y ,...,y )₁ ₂ _m gibi iki dizinin hizalanmasında, iyi bir hizalamayı, kötü bir hizalamadan ayırt edecek ölçüt ne olmalıdır? Çok basit bir ölçüt,

( )

C=eşleşmiş site sayısı− eşleşmemiş site sayısı indel sayısı+

olabilir. Örneğin ACGCTTTGGCATAA ve ACCGGCTTCGGCCAA dizilerinin, AC –GCTTTGGCATAA

ACCGGCTTCGGCCAA hizalanması için puanı S= − + =8 (6 1) 1,

(7)

AC –GCTTT– GGCATAA ACCGGCTTCGGCCAA- hizalanması için puanı S= − + =9 (4 3) 2,

AC – –GC TTTGGCATAA ACC GGCTTCGGCC –AA

hizalanması için puanı S = − + =11 (2 3) 6 dır. Bazı sitelere, site içeriklerine göre farklı puan (scor)

‘lar verilebilir. Gediklerdeki siteler, gedik uzunluklarına bağlı olarak değerlendirilebilir. Örneğin, bir gedikteki indel’ler soldan sağa doğru 1,2,..,l ile numaralanıp, numarasına göre

( ) , 1, 2,...,

g k k= l gibi bir puan, örneğin 1

( ) 1

g k = −k

+ verilebilir. Gedik uzadıkça indel’lerinpuanı düşmektedir. Gediklerdeki siteler için genellikle sabit, g k( )= −d k, =1, 2,...,l gibi bir puanlama fonksiyonu kullanılmaktadır. Bu durumda l uzunluklu bir gedik için toplam puan, ( )g l = −d l. gibi bir lineer gedik puanlama fonksiyonudur. Lineer gedik puanlama fonksiyonlarında, her indel d− gibi bir puan ile değerlendirilmektedir.

DNA hizalamasında belli bir yerde (sitede) alt alta A,C,G,T harfleri veya alt ya da üstte “–“

(indel) bulunabilir. Aşağıdaki gibi bir puanlama (skorlama) göz önüne alalım.

s( A ) 10 A

  =

   C

s( ) 20

C

  =

   G

s( ) 20

G

  =

   T

s( ) 10

T

  =

  

A C

s( )=s( ) 1

C A

   

    = −

   

A G

s( )=s( ) 2

G A

   

    = −

   

A T

s( )=s( ) 3

T A

   

    = −

   

C G

s( )=s( ) 1

G C

   

    = −

   

C T

s( )=s( ) 2

T C

   

    = −

   

G T

s( )=s( ) 4

T G

   

    = −

   

{ }

s( ) s( ω ) 15 , ω A C G T, , , ω

−

   

= = − ∈

   −

   

(8)

Bu puanlama (skorlama) aşağıdaki gibi bir matrisle de ifade edilebilir.

10 1 2 3 15

1 20 1 2 15

2 1 20 4 15

3 2 4 10 15

15 15 15 15

Üstteki Harf

A C G T

A C Alttaki Harf G T

−

− − − −

 

 − − − − 

 

− − − − 

 

− − − −

 

− − − − − 

Gediklerdeki puanlama fonksiyonu lineer, yani her indel için -15 puan verildiğinde, böyle bir puan (scor) matrisine göre,

AC –GCTTTGGCATAA ACCGGCTTCGGCCAA hizalanmasının puanı

S =10+20-15+20-1-2+10+10-1+20-1-1-2+10+10=77 dir.

AC –GCTTT– GGCATAA ACCGGCTTCGGCCAA- hizalanması için puan

S =10+20-15+20-1-2+10+10-15+20+20+20-1-2+10-15=99 ve

AC – –GC TTTGGCATAA ACC GGCTTCGGCC –AA hizalanması için puan

S =10+20-15-15+20+20+10+10 -2+20+20+-1-15+10+10=112 dır.

Skor matrisi,

10 1 2 3 15

1 10 1 2 25

2 1 10 3 25

3 2 3 10 15

15 25 25 15

Üstteki Harf

A C G T

A C Alttaki Harf G T

−

− − − −

 

 − − − − 

 

− − − − 

 

− − − −

 

− − − − − 

biçiminde olduğunda, yukarıdaki hizalamaların puan değerleri değişecektir.

(9)

A gibi bir alfabe ile yazılmış iki dizinin hizalanmasında kullanılacak bir skor matrisi, :

( , ) ( )

s R

a b s a b

−× − →

→   

 

A A

gibi bir fonksiyondur (^A⁻ ⁼^A^∪

{ }

⁻ ). Bu fonksiyonun aldığı değerler bir matrisle verilebilir. Bir skor fonksiyonunun matrisinde, bazı durumlarda sadece indel dışındaki skorlar yazılmaktadır.

Đndel’ler ve indel’lerden oluşan gediklerin puanlaması ayrıca belirtilmektedir.

Belli bir amaca yönelik dizi hizalamasındaki skor matrisleri nasıl oluşturulmalı? Belli bir skor matrisine göre en iyi hizalama nasıl elde edilebilir? Skor matrislerinin nasıl oluşturulduğu konusunu şimdilik bir tarafa bırakalım. Belli bir skor matrisine göre x=(x ,x ,...,x )₁ ₂ _n ve

1 2

y=(y ,y ,...,y )_m gibi iki dizinin hizalanmasında, en iyi hizalanmayı ortaya çıkaran Needleman- Wunsch Algoritması aşağıdaki gibidir.

A gibi bir alfabe ile yazılmış x=(x ,x ,...,x )₁ ₂ _n ve y=(y ,y ,...,y )₁ ₂ _m dizileri s gibi bir puan (skor) matrisi ve ( )g l = − ×d l gibi bir lineer gedik (gap) puanlama fonksiyonu ile hizalanacaktır.

En iyi hizalama, yani sitelerin toplam puanı maksimum olan hizalama (tek olmayabilir) için puan ( , )

F n m ile gösterilsin. x=(x ,x ,...,x )₁ ₂ _n dizisinin baştan itibaren x_1...j=(x ,x ,...,x )₁ ₂ _j parçası ile

1 2

y=(y ,y ,...,y )_m dizisinin baştan itibaren y_1...k=(y ,y ,...,y )₁ ₂ _k parçasının en iyi hizalanmasındaki puan F j k olsun. ( , ) x_1...j+1=(x ,x ,...,x ,₁ ₂ _j x_j₊₁) ile y_1...k+1=(y ,y ,...,y₁ ₂ _k₊₁) ‘in en iyi hizalanmasında en son yerde,

1 1

, ^j ,

j

k k

x x

y y

+ +

−

 

   

 

   

−  

   

durumlarından biri olacaktır. Dinamik programlamadaki,

1

( , 1) ( )

( 1, 1) max ( , ) ( )

( 1, ) ( )

j

j k

k

F j k s x

F j k F j k s x

y

F j k s

y

+

+ +

+

  

+ +

  

− 



  + + =  +  

 



 − 

 + +  

  



düşüncesinden faydalanarak en iyi hizalamayı bulmak için aşağıdaki gibi bir algoritma oluşturulabilir (Needleman-Wunsch Algoritması).

(10)

(0, 0) 0

F =

(0, ) , 1, 2,...,

F k = − ×d k k = n

( , 0) , 1, 2,...,

F j = − ×d j j= m

1

1 1

1

( , 1) ( )

( , 1)

1, 2,..., 1

( 1, 1) max ( , ) ( ) max ( , ) ( ) ,

1, 2,..., 1 ( 1, )

( 1, ) ( )

j

j j

k k

k

F j k s x

F j k d

x x j m

F j k F j k s F j k s

k n

y y

F j k d

F j k s

y

+

+ +

+

  

+ +

  

−  + −

 

 

     = −

 

+ + =  +   =  +  

= −

   

 

 −   + −

 + +  

  



olmak üzere, bir adımdan sonrakine geçişler, geliş tarafına yönlendirilmiş oklar çizerek, aşağıdaki gibi bir matriste gösterilmektedir.

1

1 2 3 1

1

2

3

0 2 3 ( 1)

(1,1) (1,2) (1,3) (1, 1) (1, )

2 (2,1) (2,2) (2,3)

3 (3,1) (3,2) (3,3)

( 1,1) ( 1,2) ( 1, 2) ( 1, 1)

(

n n

m

x x x x x

d d d n d nd

d F F F F n F n

y

d F F F

y

d F F F

y

y F m F m F m n F m n

y md F m

−

← − ← − ← − ← ← − − ← −

↑ ↑

− ← ← ← − ←

↑

−

↑

− ← ← ←

↑ ↑ ↑

↑

− − − − ← − −

↑ ↑

−

⋯

⋯ տ

⋯

⋮ ⋮ ⋮ ⋮ ⋮

⋮

տ տ

⋯

( , )

,1) F m( ,2) F m n

 

 

 ↑ 

 

 

տ

⋯

Yukarıdaki gibi bir durumda en iyi hizalama,

−x 1 x ₂ x ... ₃ x_n₋₂ x_n₋₁ x _n y ₁ −y 2 y ... ₃ y_m₋₁ −y m

dır. Matrisin sağ alt köşesinden başlayıp okları takip ederek

( , )

k j

yerine x F j k y

 

 

  տ

( , ) x^k

F j k yerine  

←   −

( , ) j

yerine F j k y

−

↑  

   yazarak sol üst köşesine kadar gelinmektedir.

(11)

Örnek: Đki tane DNA dizisi (dizi parçası), CAGTCAG

CAGATAGCAGA

olsun. Bu diziler için aşağıdaki gibi bir puan (skor) matrisi ve ( )g l = −d l. (d =5) gibi bir lineer gedik (gap) puanlama fonksiyonu altında en iyi hizalamayı bulmaya çalışalım.

10 1 2 3

1 10 1 2

2 1 10 3

3 2 3 10

Üstteki Harf

A C G T

A Alttaki Harf C

G T

− − −

 

− − − 

 

− − − 

 

− − −

 

0 5 1 0 1 5 2 0 2 5 3 0 3 5

5 1 0 5 0

1 0 5 2 0 1 5

1 5 0 1 5 3 0 2 5

2 0 5 1 0 2 5 2 7 2 4

2 5 1 0 5 2 0 3 5 3 0 2 5

3 0 0 1 5 3 0 3 4 4 0

3 5 2 5 2 9 3 5

4 0 3 5 3 0

4 5 4 5

5 0 5 5

5 5 5 0

C A G T C A G

C

A

G

A

T

A

G

C

A

G

A

← − ← − ← − ← − − ← − ← − ← −

 ↑

 − ← ←

 ↑ ↑

− ←

 ↑ ↑ ↑

− ←

↑ ↑ ↑ ↑

− − ←

↑ ↑ ↑ ↑

− − ← ←

↑ ↑ ↑ ↑

−

↑ ↑ ↑ ↑

−

↑

−

↑

−

↑

−

↑ ↑

− տ

տ

տ տ

տ

տ տ տ

տ տ

տ





 

 

CAG−T− −CAG− CAGATAGCAGA -5 -10 -15 -20 -25 -30 -35

-5 10 5 0 -5 -10 -15 -20 -10 5 20 15 10 5 0 -5 -15 0 15 30 25 20 15 10 -20 -5 10 25 27 24 30 25 -25 -10 5 20 35 30 25 27 -30 -15 0 15 30 34 40 35 -35 -20 -5 10 25 29 35 50 -40 -25 -10 5 20 35 30 45 -45 -30 -15 0 15 30 45 40 -50 -35 -20 -5 10 25 40 55 -55 -40 -25 -10 5 20 35 50

(12)

clc;clear all;close all;

Syms A C G T a=[C A G T C A G]

b=[C A G A T A G C A G A]

n=size(a,2);

m=size(b,2);

nn=n+1;

mm=m+1;

'A=1 , C=2 , G=3 , T=4 ' A=1 ; C=2 ; G=3 ; T=4;

aa=eval(a) bb=eval(b)

S=[10 -1 -2 -3 -1 10 -1 -2 -2 -1 10 -3 -3 -2 -3 10]

d=5;

F=zeros(mm,nn);

for i=2:mm

F(i,1)=-d*(i-1);

end

for j=2:nn

F(1,j)=-d*(j-1);

end for i=2:mm for j=2:nn

F(i,j)= max([ F(i-1,j-1)+S(bb(i-1),aa(j-1)) F(i-1,j)-d F(i,j-1)-d]);

end end

F

Proteinler için hazırlanmış değişik skor matrisleri vardır. Bunlar arasında BLOSUM ve PAM isimli matrisler çok kullanılmaktadır.

BLOSUM(62)

A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1

R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 1 -2 -2 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0

* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4

0 -3 -2 0 -2 -1 0 -4 -1 -3 -2 -3 -1 0 -1 -4 0 -4 -2 -3 3 0 -1 -4 -1 -4 -3 -3 4 1 -1 -4 -1 -2 -2 -1 -3 -3 -2 -4 -1 -2 -1 -2 0 3 -1 -4 -1 -3 -2 -2 1 4 -1 -4 -2 -2 -3 -3 -1 -2 -1 -4 -2 -2 2 -3 0 0 -1 -4 -1 -3 -1 3 -3 -3 -1 -4 -1 -2 -1 1 -4 -3 -1 -4 -1 -3 -2 -2 0 1 -1 -4 -1 -1 -1 1 -3 1 -1 -4 -2 1 3 -1 -3 -3 -1 -4 -1 -4 -3 -2 -2 -1 -2 -4 1 -3 -2 -2 0 0 0 -4 5 -2 -2 0 -1 -1 0 -4 -2 11 2 -3 -4 -3 -2 -4 -2 2 7 -1 -3 -2 -1 -4 0 -3 -1 4 -3 -2 -1 -4 -1 -4 -3 -3 4 1 -1 -4 -1 -3 -2 -2 1 4 -1 -4 0 -2 -1 -1 -1 -1 -1 -4 -4 -4 -4 -4 -4 -4 -4 1

(13)

PAM(10)

7 -10 -7 -6 -10 -7 -5 -4 -11 -8 -9 -10 -8 -12 -4 -3 -10 9 -9 -17 -11 -4 -15 -13 -4 -8 -12 -2 -7 -12 -7 -6 -7 -9 9 -1 -17 -7 -5 -6 -2 -8 -10 -4 -15 -12 -9 -2 -6 -17 -1 8 -21 -6 0 -6 -7 -11 -19 -8 -17 -21 -12 -7 -10 -11 -17 -21 10 -20 -20 -13 -10 -9 -21 -20 -20 -19 -11 -6 -7 -4 -7 -6 -20 9 -1 -10 -2 11 -8 -6 -7 -19 -6 -8 -5 -15 -5 0 -20 -1 8 -7 -9 -8 -13 -7 -10 -20 -9 -7 -4 -13 -6 -6 -13 -10 -7 7 -13 -17 -14 -10 -12 -12 -10 -4 -11 -4 -2 -7 -10 -2 -9 -13 10 -13 -9 -10 -17 -9 -7 -9 -8 -8 -8 -11 -9 -11 -8 -17 -13 9 -4 -9 -3 -5 -12 -10 -9 -12 -10 -19 -21 -8 -13 -14 -9 -4 7 -11 -2 -5 -10 -12 -10 -2 -4 -8 -20 -6 -7 -10 -10 -9 -11 7 -4 -20 -10 -7 -8 -7 -15 -17 -20 -7 -10 -12 -17 -3 -2 -4 12 -7 -11 -8 -12 -12 -12 -21 -19 -19 -20 -12 -9 -5 -5 -20 -7 9 -13 -9 -4 -7 -9 -12 -11 -6 -9 -10 -7 -12 -10 -10 -11 -13 8 -4 -3 -6 -2 -7 -6 -8 -7 -4 -9 -10 -12 -7 -8 -9 -4 7 -3 -10 -5 -8 -11 -9 -9 -10 -11 -5 -10 -6 -7 -12 -7 -2 -20 -5 -11 -21 -22 -19 -23 -21 -10 -20 -9 -18 -19 -7 -20 -8 -11 -14 -7 -17 -7 -18 -11 -20 -6 -9 -10 -12 -17 -1 -20 -10 -5 -11 -12 -11 -9 -10 -10 -9 -9 -1 -5 -13 -4 -12 -9 -10 -6 -11 7 7 -18 -6 -1 -6 -4 -9 -12 -5 -16 -14 -10 -4 -6 -7 -6 -1 -20 7 7 -8 -4 -9 -10 -6 -8 -20 -7 -8 -6 -9 -6 -9 -13 -8 -8 -8 -8 -8 -9 -8 -9 -12 -8 -6 -23 -23 -23 -23 -23 -23 -23 -23 -23 -23 -23 -23 -23 -23 -23 -23

-3 -20 -11 -5 -6 -6 -6 -23 -10 -5 -14 -11 -11 -7 -9 -23 -5 -11 -7 -12 7 -6 -6 -23 -8 -21 -17 -11 7 -1 -9 -23 -11 -22 -7 -9 -18 -20 -13 -23 -9 -19 -18 -10 -6 7 -8 -23 -9 -23 -11 -10 -1 7 -8 -23 -10 -21 -20 -9 -6 -8 -8 -23 -11 -10 -6 -9 -4 -4 -8 -23 -5 -20 -9 -1 -9 -9 -8 -23 -10 -9 -10 -5 -12 -10 -9 -23 -6 -18 -12 -13 -5 -6 -8 -23 -7 -19 -17 -4 -16 -8 -9 -23 -12 -7 -1 -12 -14 -20 -12 -23 -7 -20 -20 -9 -10 -7 -8 -23 -2 -8 -10 -10 -4 -8 -6 -23 8 -19 -9 -6 -6 -9 -7 -23 -19 13 -8 -22 -13 -21 -16 -23 -9 -8 10 -10 -9 -13 -11 -23 -6 -22 -10 8 -11 -10 -8 -23 -6 -13 -9 -11 7 -3 -8 -23 -9 -21 -13 -10 -3 7 -8 -23 -7 -16 -11 -8 -8 -8 -8 -23 -23 -23 -23 -23 -23 -23 -23 1

AHQRTRQAHTTQ ve

AHAQRTATRQAHATATQ

protein dizilerinin BLOSUM62 skor matrisi ve g l( )= −d l. (d =8) gibi bir lineer gedik (gap) puanlama fonksiyonu altında Needleman-Wunsch Algoritmasına göre hizalanmasındaki Matlab programı ve çıktısı aşağıdaki gibidir.

>> x='AHQRTRQAHTTQ' x =

AHQRTRQAHTTQ

>> y='AHAQRTATRQAHATATQ' y =

AHAQRTATRQAHATATQ

>> [c1 c2]=nwalign(x,y,'scoringmatrix',BLOSUM(62),'gapopen',8) c1 =

24 c2 =

Gediklere izin verilerek hizalanmış iki dizinin benzerliği için bir test fonksiyonu BLAST (Basic Local Alignment Search Tool) yönteminde ele alınacaktır.

(14)

Yerel Hizalama (Local Alignment) (0, 0) 0

F =

(0, ) 0 , 1, 2,...,

F k = k = n

( , 0) 0 , 1, 2,...,

F j = j= m

1

1, 2,..., 1

( 1, 1) max 0 , ( , ) ( , ( , 1) , ( 1, ) ,

1, 2,..., 1

j k

x j m

F j k F j k s F j k d F j k d

k n

y

+ +

    = −

 

+ + =  +   + − + − 

= −

   

 

olmak üzere, bir adımdan sonrakine geçişler, geliş tarafına yönlendirilmiş oklar çizerek, aşağıdaki gibi bir matriste gösterilmektedir.

1

1 2 3 1

1

2

3

2

0 0 0 0 0

0 (1,1) 0 (1,2) (1,3) (1, 1) (1, )

0 (2,1) (2,2) 0 (2,3)

(3,2)

0 (3,1) (3,3) 0

0 ( 1,1) ( 1,2) max ( 1, 2) ( 1, 1)

0 ( ,1) ( ,2) ( ,

n n

m

x x x xn x x

F F F F n F n

y

F F F

y

F F F

y

y F m F m F m n F m n

y F m F m F m n

−

− −

↑

← = ← ← − ←

>

← ← > ←

↑ ↑

↑

← − − = − − ← − −

↑

←

⋯

⋯ տ

⋯

⋮ ⋮ ⋮ ⋮ ⋮

⋮

տ

⋯

տ

⋯ )

 

 

 

Yukarıdaki gibi bir durumda en iyi yerel hizalamayı elde etmek için en büyük değerli eleman (max) bulunup, okları takip ederek sıfır değerli elemana kadar gelinmektedir.

x ₂ x ... ₃ x_n₋₂ y ₂ y ... ₃ y_m₋₁

clc;clear all;close all;syms A C G T a=[ A T A C ]

b=[C A G A T A G C A G A]

n=size(a,2);m=size(b,2);nn=n+1;mm=m+1;

'A=1 , C=2 , G=3 , T=4 ' A=1 ; C=2 ; G=3 ; T=4;

S=[10 -1 -2 -3 -1 10 -1 -2 -2 -1 10 -3 -3 -2 -3 10]

d=5;

'Yerel Hizalama ' F=zeros(mm,nn);

for i=2:mm for j=2:nn

F(i,j)= max([ 0 F(i-1,j-1)+S(bb(i-1),aa(j-1)) F(i-1,j)-d F(i,j-1)-d]);

end,end F

[0 0 a

0 F(1,1) F(1,2:nn)

b' F(2:mm,1) F(2:mm,2:nn)]

(15)

a =

[ A, T, A, C]

b =

[ C, A, G, A, T, A, G, C, A, G, A]

S =

10 -1 -2 -3 -1 10 -1 -2 -2 -1 10 -3 -3 -2 -3 10

F =

0 0 0 0 0 0 0 0 0 10 0 10 5 10 5 0 5 7 5 9 0 10 5 17 12 0 5 20 15 15 0 10 15 30 25 0 5 10 25 29 0 0 5 20 35 0 10 5 15 30 0 5 7 10 25 0 10 5 17 20

[ 0, 0, A, T, A, C]

[ 0, 0, 0, 0, 0, 0]

[ conj(C), 0, 0, 0, 0, 10]

[ conj(A), 0, 10, 5, 10, 5]

[ conj(G), 0, 5, 7, 5, 9]

[ conj(A), 0, 10, 5, 17, 12]

[ conj(T), 0, 5, 20, 15, 15]

[ conj(A), 0, 10, 15, 30, 25]

[ conj(G), 0, 5, 10, 25, 29]

[ conj(C), 0, 0, 5, 20, 35]

[ conj(A), 0, 10, 5, 15, 30]

[ conj(G), 0, 5, 7, 10, 25]

[ conj(A), 0, 10, 5, 17, 20]

A T A - C A T A G C

(16)

Kısa Bir Dizinin Uzun Bir Dizinin Đçine Hizalanması ATA

CTATGATT dizilerinin

A C G T S=[10 -1 -2 -3 A -1 10 -1 -2 C -2 -1 10 -3 G -3 -2 -3 10] T d=5

skor matrisi göre en iyi hizalanması,

- - AT -A - - CTATGATT olup, toplam skor,

-5+(-5)+10+10+(-5)+10+(-5)+(-5)=5

dir. Kısa dizi uzun dizinin içinde kalacak şekilde aşağıdaki hizalamaları ve puanlarını göz önüne alalım.

ATA ATA ATA AT–A - AT- A CTA ATG ATT ATGA TATGA 19 18 17 25 20

Kısa dizi uzun dizinin içinde kalacak şekilde hizalamalar yapıldığında en yüksek puanın 25 olacağı açıkça görülmektedir. Bu puanu ve karşılık gelen hizalamayı (birden çok olabilir) elde etmek için bir algoritma nasıl oluşturulabilir?

1 2

x=(x ,x ,...,x )_n ve y=(y ,y ,...,y )₁ ₂ _m dizilerinin s gibi bir puan (skor) matrisi ve ( )

g l = − ×d l gibi bir lineer gedik (gap) puanlama fonksiyonuna göre en iyi hizalamasındaki puan ( , )

F n m olmak üzere bu değer F x y ile gösterilsin. 1 i( , ) ≤ ≤ ≤j m için

... , 1,...,

i j i i j

y = y y₊ y olmak üzere,

{

^...

}

max F x y( , _i _j): 1≤ ≤ ≤i j m

değeri ve x ile y_i_..._j dizi parçalarının en iyi hizalanması elde edilmek istenmektedir.

(0, 0) 0

F =

(0, ) , 1, 2,...,

F k = −dk k = n

( , 0) 0 , 1, 2,...,

F j = j= m

1

1, 2,..., 1

( 1, 1) max ( , ) ( , ( , 1) , ( 1, ) ,

1, 2,..., 1

j k

x j m

F j k F j k s F j k d F j k d

k n

y

+ +

    = −

 

+ + =  +   + − + − 

= −

   

 

En büyük değerli eleman (max) bulunup, yukarıdaki gibi, okları takip ederek sıfır değerli elemana kadar gelinmektedir.