AKCİĞER RÖNTGEN İMGELERİNİN SINIFLANDIRILMASI

Şüpheli dokulardan öznitelikler çıkarıldıktan sonra dokuların sınıflandırılması için k-En Yakın Komşu (k-Nearest Neighbor – k-NN), Karar Ağacı, Rastgele Orman, Lojistik Doğrusal Sınıflandırıcısı (Logistic Linear Classifier – LLC), Destek Vektör Makineleri (Support Vector Machines – SVM), Fisher Doğrusal Ayırtaç Analizi (Fisher’s Linear Discriminant Analysis – FLDA) ve Naive Bayes sınıflandırıcıları kullanılmıştır.

6.1. k-En Yakın Komşu Sınıflandırıcısı

K en yakın komşu sınıflandırıcısı, mevcut tüm verileri depolayan ve yeni verileri benzerlik ölçütüne göre uzaklık fonksiyonları kullanarak sınıflandıran basit bir algoritmadır (Kim et al., 2012). Bir veri, komşularının çoğunluk oyuyla sınıflandırılır. Durum, uzaklık fonksiyonu ile ölçülen en yakın komşuları arasında en yaygın olan sınıfa atanır. k = 1 ise, durum en yakın komşusunun sınıfına atanır. En yaygın kullanılan uzaklık fonksiyonlarından biri öklit uzaklığıdır. X ve Y vektör arasındaki Öklit uzaklığı Eşitlik 6.1’deki gibi hesaplanır.

Öklit_Uzaklığı(X,Y) = √∑^𝑘_𝑖=1(𝑥_𝑖− 𝑦_𝑖)² (6.1)

6.2. Karar Ağacı Sınıflandırıcısı

Karar ağacı, bir ağaç yapısı şeklinde sınıflandırma veya regresyon modelleri oluşturur. Bir veri kümesini daha küçük alt kümelere ayırırken, aynı zamanda ilişkili bir karar ağacı kademeli olarak geliştirilir (Safavian ve Landgrebe, 1991). Sonuç, karar düğümleri ve yaprak düğümleri olan bir ağaçtır. Bir karar düğümünün iki veya daha fazla dalı vardır. Yaprak düğümü, bir sınıflandırma veya kararı temsil eder. Ağacın en üstündeki karar düğümü, kök düğümü diye adlandırılır. Bu durum örnek ile açıklanırsa, hava karar düğümünü, havanın nasıl olacağı (yağmurlu, güneşli) karar düğümünün dallarını, yaprak düğümü de o hava şartlarında aktivite yapılıp yapılmayacağını belirtir. Bütün örnekler aynı

sınıfa dahi oluncaya kadar ağaç dallanır, sonunda yaprak düğümü oluşur ve sınıflandırma yapılmış olur. Karar ağaçları hem kategorik hem de sayısal verileri ele alabilir.

6.3. Rastgele Orman Sınıflandırıcısı

Rastgele orman birden fazla karar ağacı oluşturur ve daha doğru ve istikrarlı bir tahmin elde etmek için onları birleştirir. Rastgele Orman takriben bir karar ağacıyla aynı parametrelere sahiptir. Rastgele Orman, ağaçları büyütürken modele ilave rastgelelik katmaktadır. Bir düğümü bölerken en önemli özelliği aramak yerine, rastgele bir özellik alt kümesi içinde en iyi özelliği arar. Bu, genellikle daha iyi bir modelle sonuçlanan geniş bir çeşitlilikle sonuçlanır. Bu nedenle, Rastgele Orman'da, bir düğümü bölmek için kullanılan algoritma ile özelliklerin sadece rastgele bir alt kümesi dikkate alınır. Ek olarak, mümkün olan en iyi eşikleri normal bir karar ağacı gibi aramak yerine, her özellik için rastgele eşikleri kullanarak ağaçları daha rastgele yapabilir.

6.4. Fisher Doğrusal Ayırtaç Analizi Sınıflandırıcısı

FLDA, 1936'da R. A. Fisher tarafından geliştirilen bir sınıflandırma yöntemidir.

Basit ve gürbüz bir algoritması olan ve genellikle doğruluğu karmaşık yöntemler kadar iyi olan modeller üretir. Algoritma, iki sınıfı en iyi ayıran değişkenlerin doğrusal bir kombinasyonunu arama kavramına dayanmaktadır (Fisher, 1936). Bunun için Eşitlik 6.2’de verilen fonksiyonu en büyüklemeyi amaçlar. Eşitlik 6.2 ve 6.3’te 𝜇₁ ve 𝜇₂ vektör ortalamalarını ifade eder.

𝑆(𝛽) =^𝛽^𝑇^∙𝜇¹^−𝛽^𝑇^∙𝜇²

𝛽^𝑇.𝐶.𝛽 (6.2) Eşitlik 6.2’de β doğrusal model vektörlerini, C ise kovaryans matrisi ifade eder.

Model katsayıları Eşitlik 6.3’deki gibi ve kovaryans matrisi ise Eşitlik 6.4’deki gibi hesaplanır.

𝛽 = 𝐶⁻¹(𝜇₁− 𝜇₂) (6.3)

𝐶 =^𝑛¹^∙𝐶¹^+𝑛²^∙𝐶²

𝑛₁+𝑛₂ (6.4)

6.5. Destek Vektör Makineleri Sınıflandırıcısı

SVM, iki sınıf arasındaki sınırı maksimize eden hiper düzlemi bularak sınıflandırma yapar (Özkan vd., 2015). Hiper düzlemi tanımlayan vektörler (durumlar) destek vektörleridir. Algoritmanın çalışma mantığı şu şekildedir; optimal bir hiper düzlem tanımlanır, sınır maksimize edilir ve veriler, doğrusal karar yüzeyleriyle sınıflandırmanın daha kolay olduğu yüksek boyutlu alana eşlenir. Eşitlik 6.5’de 𝑥⃗_{𝑡𝑒𝑠𝑡} vektörü için sınıflandırmanın yapıldığı karar fonksiyonu verilmiştir.

𝑓(𝑥⃗_{𝑡𝑒𝑠𝑡}) = ∑^𝑀_𝑖=1{𝛼_𝑖 ∙ 𝐿_𝑖∙ (𝑥⃗_𝑖^𝑇∙𝑥⃗_{𝑡𝑒𝑠𝑡} ) + 𝑏} (6.5)

Eşitlik 6.5’de 𝛼_𝑖 kuadratik denklemin sıfırdan farklı katsayılarını, 𝑥⃗_𝑖 vektörleri, 𝐿_𝑖 sınıf etiketlerini ve 𝑥⃗_{𝑡𝑒𝑠𝑡} test vektörünü belirtir. Sınıflandırıcının çalışma prensibi Şekil 6.1’de verilmiştir. Şekildeki eşitliklerde 𝑤⃗⃗⃗ hiperdüzleme normal vektörü gösterir ve ^𝑏

||𝑤⃗⃗⃗ ||

hiperdüzlem ile orijin arasındaki en büyüklenecek dik uzaklığı verir (Esener, 2017).

Şekil 6. 1. SVM sınıflandırıcısı çalışma prensibi

6.6. Naive Bayes Sınıflandırıcısı

Naive Bayes sınıflandırıcı, tahmin ediciler arasındaki bağımsızlık varsayımlarıyla Bayes'in teoremine dayanmaktadır. Naive Bayesian modelinin oluşturulması kolaydır, karmaşık ve tekrarlayan parametre tahmini yapmadığı için çok büyük veri kümeleri için özellikle yararlıdır. Sadeliğine rağmen, Naive Bayesian sınıflandırıcısı çoğu zaman şaşırtıcı derecede iyi sonuç verir ve sıklıkla daha sofistike sınıflandırma yöntemlerinden daha iyi performans gösterdiğinden yaygın olarak kullanılır. Bayes teoremi Eşitlik 6.6’da verilmiştir.

Birbirinden bağımsız ve rastgele gerçekleşen iki olaydan birinin gerçekleşmesi durumunda ikincisinin gerçekleşmesi olasılığıdır.

𝑃( 𝐴 ∣ 𝐵 ) =^𝑃(𝐵∣∣𝐴^)𝑃(𝐴)

𝑃(𝐵) (6.6) Sınıflandırma yapılırken en yüksek olasılıklı sınıf hedef sınıf olarak Eşitlik 6.7 kullanılarak seçilir. Girdi vektörlerinin birden çok olduğu durumlarda hedef sınıf tahmini yaparken tüm özellikler için koşullu olasılıkların çarpımı yapılır ve Bayes teoremi Eşitlik 6.8’deki gibi farklı bir forma dönüşür (Rish, 2001).

𝑆_{ℎ𝑒𝑑𝑒𝑓}= 𝑎𝑟𝑔𝑚𝑎𝑥𝑃( 𝑠_𝑗 ∣∣ 𝑣 ) (6.7) 𝑠_𝑗∈ s

𝑃( 𝑣₁, 𝑣₂, … … , 𝑣_𝑛 ∣∣ 𝑠𝑗) = ∏^𝑛_𝑖=1𝑃( 𝑣_𝑖 ∣∣ 𝑠𝑗) (6.8)

Her girdi için paydadaki değer sabit kaldırılır ve sınıflandırma modeli Eşitlik 6.9’daki gibi hesaplanır.

𝑆_{ℎ𝑒𝑑𝑒𝑓}= 𝑎𝑟𝑔𝑚𝑎𝑥(𝑃(𝑠_𝑗) ∏^𝑛_𝑖=1𝑃( 𝑣_𝑖 ∣∣ 𝑠𝑗) (6.9) 𝑠_𝑗∈ s

6.7. Lojistik Doğrusal Sınıflandırıcısı

LLC, bağımlı ve bağımsız değişkenler arasında bir ilişki kurarak ayrımsama modeli oluşturur (Webb, 2002). Lojistik regresyon analizi kullanılarak bağımlı ve bağımsız değişkenler arasında bir ilişki kurulur ve doğrusal sınıflandırıcı kullanılarak ayrımsama modeli oluşturulur. Herhangi bir x örneği için oluşturulan LLC modeli Eşitlik 6.10’da verilmiştir.

𝑙𝑜𝑔 (^{𝑝(𝑥⃗∣𝑤}¹⁾

𝑝(𝑥⃗∣𝑤2)) = 𝛽⃗^𝑇∙ 𝑥⃗ + 𝛽₀ (6.10) Yöntemde loglinear modeli oluşturulur, kovaryans ve sınıf olasılıkları matrislerinin eşit olduğu varsayımı Eşitlik 6.11’deki gibi yapılır. 𝛽₀′ Eşitlik 6.12’deki gibi tanımlanır.

Karar kriteri Eşitlik 6.13 ve 6.14’de verilmiştir.

𝑝(𝑤₁ ∣ 𝑥⃗)= ^{exp (𝛽}^⃗⃗⃗^𝑇^{∙𝑥⃗+𝛽}⁰⁾

1+exp (𝛽⃗⃗⃗^𝑇∙𝑥⃗+𝛽0)

(6.11) 𝑝(𝑤₂ ∣ 𝑥⃗)= ¹

1+exp (𝛽⃗⃗⃗^𝑇∙𝑥⃗+𝛽0)

𝛽₀^′ = 𝛽₀+ log (^𝑝(𝑤¹⁾

𝑝(𝑤₂)) (6.12)

𝑥⃗ ∈ {

𝑤₁

, ^𝑝(𝑤₁_∣∣^∣𝑥⃗⁾

𝑝(𝑤₂_∣∣^∣𝑥⃗⁾^>1 𝑤₂

, ^𝑝(𝑤₁_∣∣^∣𝑥⃗⁾

𝑝(𝑤₂_∣∣^∣𝑥⃗⁾^<1

(6.13)

𝑥⃗ ∈ {𝑤₁, 𝛽⃗^𝑇∙ 𝑥⃗ + 𝛽₀ > 0

𝑤_2, 𝛽⃗^𝑇∙ 𝑥⃗ + 𝛽₀ < 0 (6.14)

Belgede Akciğerlerdeki Farklı Dokuların Otomatik Tespit ve Sınıflandırılması Ali Çınar YÜKSEK LİSANS TEZİ Elektrik Elektronik Mühendisliği Anabilim Dalı Mayıs 2019 (sayfa 42-47)