BLAST BLAST
• Smith-Waterman Algoritması
• BLAST
Smith-Waterman Hizalama Algoritması Smith-Waterman Hizalama Algoritması
• Algoritma Temel Özellikleri:
1. Kullanılan dinamik programlama 2. Hesaplanan puanlama matrisi
3. Boşluklar için Penaltılar: Daha fazla boşluklar ile bir hizalama daha az boşluk ile hizalanmış bir sekanstan daha iyidir.
Gap Penaltılar:
* Bu iki hizalamaların aynı puanı var, fakat ilk hizalama önemlidir.
(yani daha az boşluklar vardır) ATCG AT-CG ATTG ATT-G
* Giriş Boşluklarını aza indirmek için cezalar (penaltılar) ekle
* İki çeşit Gap Cezaları (Penaltıları) vardır.
– Gap açıklığı (GO): Başlangıçta boşluk açıldığında değerlendirilen
– Gap uzama (GE): Bir boşluk birbirini izleyen uzantısı ile değerlendirildiğinde
• GO ve GE hizada boşlukları sokulması için istenilen duyarlılığı bağlı olarak seçilebilir ya da 3 boyutlu yapısal hatları tahmin edilebilir.
Gap Cezaları (Penaltıları): Örnek Gap Cezaları (Penaltıları): Örnek
• Boşluk açıklığı (GO) ceza = -2 ve boşluk uzatma (GE) penaltı varsayalım = -1
• C-T ikame cezası varsayalım = -1
• Eşleşme için Puan = 1
• Bu gruplaşmada __ bir yüksek puan var hangisi “daha iyi“ ?
AT-C-TA ATC--TA AT-C--TA ATTTTTA ATTTTTA ATT-TTTA
4 uyumlu, 1 uyumsuz, 4 uyumlu, 1 uyumsuz, 4 uyumlu
2 gap açıklığı (GO) 1 GO, 1 GE, 3 GO, 1 GE
Sonuç = +4-1-2-2 Sonuç = +4-1-2-1 Sonuç = +4-2-2-2-1
Sonuç = -1 Sonuç = 0 Sonuç = -3
Uyum Anlamı ve Terminoloji Uyum Anlamı ve Terminoloji
Uyum Anlamı:
• Bir hizalama puanı göz önüne alındığında, ne zaman önemlidir?
• Bazı durumlarda, bu homolog olduğu bilinen sekanslar deneysel testler ile belirlenebilir
• Yüksek hizalama puanı" dizileri ortak bir atadan evrimleştiği düşünülmektedir.
• "Düşük hizalama puanı", sadece bir bilginin eksikliği karşıt
anlamına gelmez.
Terminoloji:
. Dizi Kimliği: Toplam dizi uzunluğuna bölünmesiyle kesin eşleşmelerin sayısı (% ID)
. Benzerlik: "benzer" amino asitler (% benzerlik) için verilen kısmi skor - kullanılan puanlama matrisine bağlıdır.
. Homoloji : İki dizileri ortak bir ata dizisi ya da ortak bir atadan yok (Yok% homoloji)
BLAST Amacı Nedir?
BLAST Amacı Nedir?
• Bir proteini yada DNA dizilerinin, bir protein yada DNA veri tabanlarında karşılaştırılmasını sağlar.
• BLAST veritabanındaki tüm homolog dizileri alır
Neden BLAST Gereklidir?
Neden BLAST Gereklidir?
• Teorik olarak, bir veri tabanında bulunan, bir sorgulama dizisi ve her bir proteini ya da DNA dizisi arasında küresel bir hizalama gerçekleştirebilir
Bu tür yaklaşımların hesaplamaları son derece yoğun olacağından çoğu amaçlar için pratik değildir.
• BLAST buluşsal bu yöntemlere yakındır.
BLAST siparişleri ise daha hızlı diğer sezgisel yöntemlere göre daha büyüklükte.
BLAST diğer sezgisel yöntemlere göre ayrıca daha hassas ve seçicidir.
• BLAST dezavantajları:
Bir miktar homoloji ilişkileri kaçırır Optimal uyum garanti etmez
BLAST Nasıl Çalışır?
BLAST Nasıl Çalışır?
• Sezgisel Üç Adım:
1. Yüksek puanlama kelimelerin bir listesini derlemek
2. Hit olarak adlandırılan bu kelimelerin örnekleri için veritabanı tarama
3. Rastgele anlamlı hitleri ayırt etmek ve uzatmak
BLAST: Terminoloji BLAST: Terminoloji
• Kompozisyon
Belirli bir sıra ile Alfabe kullanım ölçüsü
• Kompozisyon Karmaşıklık
Bir dizinin bilgi içeriği bir ölçüsüdür
Düşük Karmaşıklık Yüksek Karmaşıklık
AGAAGAGGGAA TGHIGAVRLAC
• Boşluksuz vs Boşluklu Hizalama:
Boşluksuz: VHREMAARTSPLRPLVATAGPALSPVPP ASRDPVARTSPLQTPAAPGAAAGPALSP
Boşluklu: VATAGPALSPVPPCVHLTLRRAGDDFSR
VIPMAA---VKQALREAGDE
E-Değerleri E-Değerleri
• Skorlar her yüksek puanlama sırası çifti için BLAST tarafından bildirilen (HSP) e-değerleri olarak
• Tesadüfen beklenen skor S ile e-değerleri HSP sayısına yaklaştığı kabul edilir. (yani ilgili değildir)
• Düşük karmaşıklık dizilerinin filtrelemesi devre dışıysa, E-
değerleri anormal yüksek olacak.
• E-değerleri aşağıdaki formül kullanılarak hesaplanır:
E(S) = Kmne¯ʎS
K = Sabit (Uyumlu başlama noktaları için mümkün olmayan bağımsızlık için düzeltme ) m = Veri tabanında bulunan dizilerin toplam uzunluğu
n = Soru sekansının uzunluğu ʎ = Sabit ölçekleme
S = Yüksek skorlu dizi çiftinin skoru (HSP)
BLAST Çalıştırma BLAST Çalıştırma
• Seçenekler:
Düşük karmaşıklık filtresi
Bu dizileri hizalamak X adı ile olmaz -- uzantıları yerini alır düşük karmaşıklık dizisi ile uzanır.
Limite göre sorgu girme
Veritabanı dize sorgu sonuçlarına karşı sorgu BLAST olacak
Beklemek
E-değeri kesilen HSP'leri bildirdiği için
Kelime boyutunu
Kullanıcı look-up tablosu için kelime boyutunu tanımlamak için izin verir
Proteinler için, varsayılan 3'tür. 2 düşürücü duyarlılığını artırmak , aynı zamanda çalışma süresini artıracak
Matrix
İkame matrisi seçin puanlama için kullanılacak
Boşluk maliyetleri
Boşluk açma ve genişletme cezaları seçin