• Sonuç bulunamadı

Veri Madenciliği Yöntemiyle İlaç Tasarımı ve Uygulamaları

2. İLAÇ TASARIMI VE VERİ MADENCİLİĞİ

2.3 Veri Madenciliği Yöntemiyle İlaç Tasarımı ve Uygulamaları

Veri madenciliği gelişmiş arama teknikleri ve algoritmaları kullanarak büyük veritabanlarında varolan örüntüleri, bağıntıları ve verilere ilişkin bilinmeyenleri keşfeder (Liao ve diğ., 2012; Witten ve Frank, 2005). Veri madenciliği sayesinde moleküler tanımlayıcılardan oluşan bir dizi ile biyolojik olarak anahtar özellikleri (etki, emilim, dağılım, metabolizma ve atılım, ADMET) ilişkilendiren bir model oluşturulabilir (Shen ve diğ., 2010). Elde edilen model, yeni bileşiklerin anahtar özelliklerinin değerlerini öngörmek ve yapı-aktivite ilişkilerini (structure–activity relations, SARs) belirlemek amacıyla kullanılabilir. Veri madenciliği modelleri, doğrusal tekniklerden türetilen basit, parametrik denklemlerden veya doğrusal olmayan tekniklerden türetilen karmaşık, doğrusal olmayan modellere kadar değişmektedir (Geppert ve diğ., 2010; Weaver, 2004). Veri madenciliğinde sanal tarama (virtual screening, VS) kemoinformatik spektrumda büyük önem taşır çünkü yapılan çalışmalar hedef proteine güçlü bağlanma afinitesi yüksek yeni olasılıkların büyük veritabanlarında araştırılmasını sağlar (Chen ve diğ., 2007). Sanal tarama yöntemleri, mevcut yapısal ve biyoaktivite verilerinin miktarına bağlı olarak yapı temelli (structure-based virtual screening, SBVS) ve ligand tabanlı (ligand-based virtual screening, LBVS) yaklaşımlar olarak sınıflandırılabilir. Reseptörün 3D yapısı biliniyorsa, yapı-temelli sanal tarama yöntemi yüksek verimli moleküler kilitlenme (docking) için kullanılabilir (Lavecchia ve Di Giovanni, 2013), ancak reseptör hakkındaki bilgilerin az olduğu durumlarda ligand tabanlı sanal tarama yöntemleri yaygın olarak kullanılır (Geppert ve diğ., 2010). Ligand tabanlı sanal tarama metotları özellikle reseptör için küçük 3D yapısı mevcutsa ilaç keşfinin başlangıcında önemli rol oynar. LBVS yaklaşımlarını genel olarak benzerlik araştırması ve bileşik sınıflandırma teknikleri olarak ayırabiliriz. Benzerlik araştırmaları moleküler grafikler (2D) veya moleküllerin 3D yapıları (Willett, 2005), 3 boyutlu farmakofor modeller (Mason ve diğ., 2001), basitleştirilmiş moleküler çizge gösterimleri (Gillet ve diğ., 2003) veya moleküler şekil sorgulamaları

28

(Hawkins ve diğ., 2007) ile yapılır . Türetilen sonuçlar molekülerin parmak izlerini belirler. Sistem benzerlik metriklerini kullanarak veritabanı bileşiklerini ikili gruplar halinde karşılaştırır ve referans moleküllere azalan moleküler benzerlik sırasına göre bir bileşik sıralaması üretir. Bu sıralamadan aday bileşikler seçilir.

Makine öğrenmesi yaklaşımları bileşik sınıflandırmada yaygın olarak kullanılır (Mitchell, 2014). Bunlara örnek olarak destek vektör makineleri (support vector machine, SVM), karar ağaçları (decision trees, DT), k-en yakın komşular (k- nearest neighbors, k-NN), naive Bayesian metotlar ve yapay sinir ağları (artificial neural networks, ANN) verilebilir. Bu yaklaşımlar LBVS 'de oldukça popülerdir. Bütün bu tekniklerin amacı eğitim kümelerinden türetilen modeller üzerinde bileşik sınıf etiketlerini (aktif veya pasif) tahmin etmek ve aktivite olasılıklarına göre veritabanı bileşiklerinin sıralamasını elde etmektir (Bajorath, 2001). Buna ek olarak bu yöntemlerle bileşiklerin hedef-odaklı bileşik kütüphaneleri için seçimide mümkündür (Schnur ve diğ., 2004). İlaç keşfinde makine öğrenmesinin ilk uygulaması olan alt yapısal analiz (substructural analysis, SSA), Cramer ve diğ. (1974) tarafından biyolojik tarama verisinin otomatik olarak analizi için gerçekleştirildi. Makine öğrenimi artık artan veri koleksiyonlarının kullanılabilirliği ve yeni araçların gelişimiyle bilgisayar biliminde aktif bir araştırma alanıdır (Hand ve diğ., 2001). Birlikte ele alındığında, bilgisayar destekli ilaç keşfinde makine öğrenme yöntemleri geniş bir yelpazede yer almaktadır. Bu nedenle bu alanda yapılan çalışmalar yeni bir ilaç keşfi için önem taşımaktadır.

Gözetimli makina öğrenmesi algoritmalarından (supervised machine-learning algorithms) SVM'ler bileşikleri sınıflama ve regresyon temelli özellik değeri tahminlerine olanak sağlar. SVM’ler genel olarak aktivite tahminlerinde kullanılır. Ayrıca ilaçları, ilaç olmayanlardan ayırt etmek (Zernov ve diğ., 2003), bileşikler arasında spesifik bir aktiviteye sahip olmayanları belirlemek (Warmuth, 2003), ilacın sentetik erişilebilirliğini ve suda çözünebilirliği belirlemek gibi uygulamalarda kullanılır. Öncelikle bileşik kütüphanelerinin iz düşümü büyük boyutlu bir özellik uzayına dönüştürülür. Burada moleküller tanımlayıcı vektörlerle temsil edilir.

LBVS'de bir SVM sınıflandırması tarafından elde edilen skorlar, veritabanındaki bileşiklerin azalan aktivite olasılıklarına göre sıralanmasında başarıyla kullanılmıştır. Bir aday bileşik ile hiperplane arasındaki işaretli uzaklık böyle bir sıralamada kullanılabilir (Jorissen ve Gilson, 2005).

29

DT'ler spesifik moleküler özellikler ve tanımlayıcı değerleri aktivite ile ilişkilendirmeyi sağlayan kurallar içerir. DT yaklaşımlarının uygulandığı bazı problemler, kombinatoryal kütüphanelerin tasarımı, bir aday molekülün ilaç benzeri (drug-likeness) olmasının ve biyolojik aktivitelerin öngörülmesi ayrıca bileşikler için tanımlayıcı veriler üretilmesidir. Bu yöntem verilen bir veritabanı içerisindeki kimyasal bileşiklerin aktivite durumunu ortaya koyan alt yapıların belirlenmesinin yanında kimyasal bileşiklerin ilaç veya ilaç olmama durumlarına göre sınıflandırılmasını da sağlar (Scheneider ve diğ., 2008). DT'ler aynı zamanda bileşiklerin ADME/Tox özelliklerini öngörmek içinde kullanılırlar. Bu özellikler ilaçların emilimi, dağılımı, çözünürlüğü veya geçirgenliğine ilişkin özelliklerdir (Lamanna ve diğ., 2008; Wang ve diğ., 2015). Bu yaklaşımlar P-glikoprotein (de Cerqueira Lima ve diğ., 2006) veya kan-beyin bariyerinin geçirgenliği (Mente ve diğ., 2005) ile metabolik stabilite'nin belirlenmesinde de önemli rol oynar (Sakiyama ve diğ., 2008).

Naïve Bayesian sınıflandırıcıları genellikle kemoinformatikte kullanılır ve diğer sınıflandırıcılarla karşılaştırıldığında fizikokimyasal özelliklerin tahmininden ziyade biyolojik tahminler için kullanılır. Bileşiklerin toksisite durumlarının tahmini (von Korff ve Sander, 2006), fosfolipidoz mekanizması (Lowe ve diğ., 2012), hedef proteinin belirlenmesi ve ilaç benzeri moleküllerin biyoaktivitelerine göre sınıflandırılması problemlerinde de kullanılır.

K-NN algoritması en basit makine-öğrenme algoritmalarından biridir. Bir molekülün sınıfını (Kauffman and Jurs, 2001), özelliklerini (Konovalov ve diğ., 2007) veya rankını (Votano ve diğ., 2004) özellik uzayındaki en yakın eğitim örneklerini temel alarak tahmin eder. Ayrıca regresyon uygulamaları içinde kullanılır.

ANN'ler esnek hesaplamada oldukça popüler ve derinlemesine çalışılan tekniklerdir (Patel ve Chaudhari, 2005). Tıbbi kimyada ANN'ler bileşik sınıflaması, QSAR çalışmaları (Gleeson ve diğ., 2006), bileşiklerin birincil sanal taramalarında, potansiyel ilaç hedeflerinin tanımlanması ve biyopolimerlerin yapısal ve fonksiyonel özelliklerinin lokalizasyonu için kullanılırlar (Patel ve Goyal, 2007). ANN'ler teknikleri, robotik, model tanımlama, psikoloji, fizik, bilgisayar bilimleri, biyoloji ve diğer alanlarda da kullanılmaktadır (Fogel, 2008).

31

3. VERİ MADENCİLİĞİ TABANLI İLAÇ SINIFLANDIRMA ÇATISI