LOJİSTİK REGRESYON KULLANARAK SINIFLANDIRMA:

(1)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI

LOJİSTİK REGRESYON KULLANARAK SINIFLANDIRMA:

Tahmin etmek istenilen hedef değişkeni kategorik ise doğrusal regresyon yerine lojistik Regresyon kullanabilir. Kategorik hedef değişkeni bir kişinin hasta olup olmadığı, bir kişiye kredi verilip verilmeyeceği veya bir mailin spam olup olmadığı örneklerinde olduğu gibi iki değerden birini (0,1) aldığı binary (ikili) lojistik regresyon kullanılır. Hedef değişkeninin ikiden fazla seviyeye sahip olduğu kanser türleri ve puanlandırma sınıfları gibi durumlarda multinomial (çok terimli) lojistik regresyonda kullanılır. Kömür madeninde çalışma süresinin kanser olup olmamaya etkisini incelemek istiyoruz. Çalışma yılına karşı binary olan hedef değişkenin grafiği aşağıdaki gibidir.

Aynı grafik üzerine doğrusal bir model uydurursak grafik aşağıdaki gibidir.

(2)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Kategorik hedef değişkeni durumunda, doğrusal regresyon ile ilgili temel sorun, tahmin edilen değerin her zaman beklenen aralığa düşmemesidir. Yukarıdaki grafiklerde maden ocağında çalışma yılları düşük olduğunda kanser olmama ihtimali artarken yıllar artıkça kanser olma ihtimali artmaktadır. Dolayısıyla hedef değişkeninin tahminini doğrusal regresyon kullanarak sürekli bir değer olarak hesaplamak yerine (0,1) aralığında bir ihtimal hesaplamak daha uygundur. Grafikteki noktaları bir doğruyla birleştirmek yerine tüm noktalara uyacak bir aşağıdaki grafikte olduğu gibi bir eğri uydurmak daha doğru bir yaklaşımdır.

Lojistik regresyon kullanarak, hedef değişkeni için (0,1) aralığında bir ihtimal elde edilir.

0,5'ten daha az (veya eşit) (eşik olarak bilinir) ihtimaller, kanser olmama olarak sınıflandırılırken 0.5'den büyük bir ihtimal kanser olarak sınıflandırılır.

Lojistik regresyon algoritmasının ayrıntılarını incelemeden, olasılıkların oranı olarak ifade edilen odds (tercih üstünlüğü) kavramından bahsetmek gerekir. Odds, başarı olasılığının başarısızlık olasılığına oranı olarak tanımlanır.

^𝑃

(1−𝑃)

P: Başarı olasılığı, (1-P): Başarısızlık olasılığı

Örneğin, bir madeni para attığınızda yazı gelme odds oranı 1’dir. Çünkü yazı gelme olasılığı 0.5 iken yazı gelmeme olasılığıda 0.5’dir. Dolayısıyla Odds=1’dir. Dolayısıyla yazı gelme odds’u 1 ise atılan paranın yazı gelme olasılığı 0,5’dir. Ancak atılan para hileli ise ve yazı gelme olasılığı 0.75 ve tura gelme olasılığı 0.25 ise dolaysıyla yazı gelme odds’u 3 tür. Bunun anlamı yazı gelme şansı tura gelme şansının 3 katıdır şeklinde yorumlanır.

(3)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Odds ifadesinin logaritması alınırsa aşağıda gösterilen logit fonksiyonu elde edilir.

𝐿 = ln⁡( 𝑃 1 − 𝑃 )

Logit fonksiyonu (0.1) aralığındaki bir değişkeni (-∞, +∞) aralığına dönüştürür. Aşağıdaki kodlar kullanılarak bu dönüşüm görsel olarak izlenebilir.

Logit eğrisi için, x ekseninin olasılık değerler aldığı ve y ekseninin reel sayılar aralığında değerler aldığı aşikârdır. Lojistik regresyon için, sayıları reel sayılar kümesine olasılıklara dönüştüren bir fonksiyon aranır. Bu işlem, logit eğirişinin eksenlerini çevirerek yapılabilir. Bu şekilde elde edilen yeni eğriye sigmoid eğrisi denir.

Sigmoid eğrisi logit fonksiyonun tersi olan sigmoid fonksiyonu kullanılarak elde edilir ve Sigmoid fonksiyonu (-∞, +∞) aralığındaki değerleri (0,1) aralığına dönüştürür ve aşağıdaki gibidir.

𝑃 = 1

(1 + 𝑒 ^−𝐿 )

(4)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Sigmoid fonksiyonu çizmek için aşağıda kodlar kullanılabilir.

Logit fonksiyonu Sigmoid eğrisi

L yerine β0 +xβ yazılarak lojistik regresyon modeli oluşturulur. Bilinmeyen β0 sabit ve β katsayıları, ençok olabilirlik tahmini yöntemiyle tahmin edilir.

𝑃 = 1

(1 + 𝑒 ⁻⁽

^{𝜷0⁡+x𝜷)}

)

(5)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI

Göğüs kanseri Wisconsin (Diagnostic) veri seti uygulaması:

Wisconsin meme kanseri veri seti (teşhis), scikit-learn kütüphanesi içerisinde Wisconsin meme kanseri veri seti (teşhis) ile birlikte gelir. İkili sınıflandırmaları göstermek için sıklıkla kullanılan klasik bir veri kümesidir. Bu veri kümesi 30 özellik içerir. Veri kümesinin etiketi (hedef değişkeni) bir ikili, malign için M veya benign için B, sınıflandırmaya sahiptir.

Daha fazla detay için, orijinal veri setine aşağıdaki web adresinden ulaşılabilir https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) Değişkenler hakkında bilgi:

1) ID number (Kimlik no)

2) Diagnosis (M = malignant (kötü huylu), B = benign(iyi huylu) ) (Hedef değişken:Teşhis) 3-32)

Özellikler:

a) radius (Perimetre üzerinde merkezden noktalara olan uzaklıkların ortalaması) b) texture (gray-scale değerlerinin standar sapması)

c) perimeter d) area

e) smoothness (radius uzunluklarındaki lokal değişim) f) compactness (perimeter^2 / alan - 1.0)

g) concavity (sıklık) h) concave points (sayı) i) symmetry

j) fractal dimension ("coastline approximation" - 1)

(6)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Özellikler arası ilişkilerin incelenmesi:

Veri setini yüklemek için sklearn kütüphanesinden datasets modülünün içe aktarılası gerekir.

load _ breast _ cancer() fonksiyonu yardımıyla bu işlem gerçekleştirilir.

Veri seti yüklendikten sonra özellikler arasındaki ilişkileri incelemek için, ilk olarak aşağıdaki kodlar yardımıyla, ilk iki özelliği iki boyutlu bir liste haline getirilsin ve bu iki özelliğe ait bir serpme grafiği oluşturulsun.

(7)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Bu grafikten tümör radius’a göre büyür ve texture göre artarken kötü huylu olarak teşhis edilmesi daha yüksek olasıdır.

Tek bir özellik kullanarak Eğitme:

Tümörün kanser olup olmadığını veri setindeki ikinci özellik olan mean texture değerlerini kullanarak lojistik regresyonla tahmin edilmek istenilsin.

Modelin sabit ve katsayısını bulmak için,

(8)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI β0 sabit ve β katsayıları tahmin edildikten sonra, Sigmoid eğrisi çizilebilir.

Eğitilen modeli kullanarak ortalama texture değeri 30 olan bir kişinin tümörünün iyi huylu olup olmadığı tahmin etmek için aşağıdaki kodlar kullanılır.

İyi huylu olma olasılığı= 0.871 iken kötü huylu olma olasılığı=0.129’dir.Tahmin edilen sınıf değeri 0 (iyi huylu)’dır. Başka bir kişi için ortalama texture değeri 10 ise tahmin edilen sınıf değeri 1 (kötü huylu)’dir.

(9)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Daha fazla özellik kullanarak modeli eğitmek için, eğitim seti için veri setinin %80’i hedef değişkenine göre rastgele seçilirse,

Linear_model fonksiyonu yardımıyla 30 özellik için lojistik regresyon modeli aşağıdaki kodlarla kurulabilir.

Eğitilen model katsayılarını bulmak için,

Model, 30 özelliğe göre eğitildiği için 30 katsayı ve bir sabit değeri y-tahmin edilmiştir.

Modeli test etme:

(10)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Modelin tümörün kanserli olup olmadığını tahmin etmekte ne kadar iyi olup olmadığını görmek için karışıklık matrisi denilen bir matris aşağıdaki kodlarla oluşturulabilir.

Elde edilen sonuçlar, aşağıdaki tabloda özetlenebilir.

TAHMİN DEĞERİ

GERÇEK DEĞER

0 1

0 GN: 39 YP:2

1 YN: 3 GP:70

Burada,

GN (Gerçek Negatif): Gerçekte 0 iken 0 olarak tahmin edilenlerin sayısı GP (Gerçek Pozitif): Gerçekte 1 iken 1 olarak tahmin edilenlerin sayısı YN (Yalancı Negatif): Gerçekte 1 iken 0 olarak tahmin edilenlerin sayısı YP (Yalancı Pozitif): Gerçekte 0 iken 1 olarak tahmin edilenlerin sayısı Doğruluk, Duyarlılık, kesinlik ve diğer metrikleri hesaplama:

Doğruluk(Accuracy): Doğru olarak tahmin edilenlerinin sayısının toplam tahmin edilenlerin sayısına oranıdır.

Doğruluk (Accuracy)= (GN+GP)/(GN+GP+YN+YP)

Kesinlik(precision): Gerçek pozitiflerin tüm pozitif olarak tahmin edilenlere oranıdır.

Kesinlik(precision)=GP/(GP+YP)

(11)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Duyarlılık (Recall): Gerçek pozitif oranı olarak ta bilinir.

Duyarlılık (Recall)= GP/(GP+YN) F1 SKORU:

F1 SKORU= 2*(kesinlik*duyarlılık)/( kesinlik+duyarlılık) Yalancı Negatif oranı:

YNO= YP/(YP+GN)

Doğruluk 0.96 olarak bulunur.

ALICI İŞLETİM KARAKTERİSTİK EĞRİSİ (ROC):

Sınıflandırma modellerinin doğruluk hesaplamalarında ROC eğrisi sıklıkla kullanılır. ROC farklı sınıflar için bir olasılık eğrisidir. Bir ROC eğrisinde X ekseninde Yanlış Pozitif Oranı ve Y ekseninde Gerçek Pozitif Oranı vardır. ROC eğrisi altında kalan alan (AUC), model performansının bir özeti olarak kabul edilebilir.

Eğri altındaki alanların yorumlanmasında aşağıda verilen derecelendirmeler kullanılabilir .90-1.00 = mükemmel, .80-.90 = iyi, .70-.80 = orta, .60-.70 = zayıf, .50-.60 = başarısız

(12)

PROF.DR.MEHMET ALİ CENGİZ, OMÜ İSTATİSTİK BÖLÜMÜ VERİ BİLİMİ PROGRAMI Eğriyi PYTHON!da çizdirmek için,

ROC eğrisi aşağıdaki gibidir.

Eğri altında kalan alan 0.98 olduğundan modelin çok iyi model olduğu söylenebilir.

LOJİSTİK REGRESYON KULLANARAK SINIFLANDIRMA: