Sınıflandırma Çözümlemesi
A. Talha Yalta
TOBB Ekonomi ve Teknoloji Üniversitesi
˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 1 / 67
Açık Lisans Bilgisi
Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.
A. Talha Yalta
TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 2 / 67
Ders Planı
1 Do ˘grusal Olasılık Modeli
DOM tahminine yönelik ele¸stiriler
2 Lojistik Regresyon
˙Ikili lojistik model
Lojistik tahmin ve kestirim Çoklu lojistik model
3 Diskriminant Çözümlemesi
˙Ikili do˘grusal DÇ modeli Çoklu do ˘grusal DÇ modeli Alma¸sık DÇ modelleri
4 Di ˘ger Konular
Sınıflandırma kesinli ˘ginin ölçülmesi Sınıflandırıcıların kar¸sıla¸stırılması
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 3 / 67
Sınıflandırma Çözümlemesi (1)
3. Bölümde gördü ˘gümüz regresyon yönteminde Y tepki de ˘gi¸skeni nicel(quantitative) de ˘gerlere sahipti.
Ancak birçok durumda Y birnitel(qualitative) de ˘gi¸sken de olabilir.
Bu bölümde nitel tepkiyi kestirmeye yöneliksınıflandırma(classi- fication) çözümlemesini ele alaca ˘gız.
Sınıflandırma uygulamada en az regresyon kadar yaygındır. Bir- kaç örnek olarak, a¸sa ˘gıdaki konu ba¸slıklarını gösterebiliriz:
1 Bir kredi ba¸svurusunun ret edilip edilmeyece ˘gi
2 Bir ¸sirketin ele geçirmeye hedef olup olmayaca ˘gı
3 Sirketlerin hisse senedi çıkartıp çıkartmayacakları¸
4 Belli bir ürünün iade edilip edilmeyece ˘gi
5 Ki¸silerin sigorta yaptırıp yaptırmayacakları
6 Bir ki¸sinin i¸sgücüne katılıp katılmayaca ˘gı
7 Sendika üyesi olunup olunmayaca ˘gı
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 4 / 67
Sınıflandırma Çözümlemesi (2)
Sınıflandırma çözümlemesinde kullanılan araçlar temelde Y ’nin belli bir sınıfa ait olma olasılı ˘gını tahmin etmeye dayanır.
Dolayısıyla yöntem regresyona benzemektedir.
Elimizde yine (x1,y1), . . . , (xn,yn) ¸seklinde bir e ˘gitim veri seti var- dır. Amacımız bunları kullanarak bir sınıflandırıcı olu¸sturmaktır.
Bu sınıflandırıcının yanlızca e ˘gitim verilerinde de ˘gil, test verile- rinde de ba¸sarı göstermesi önemlidir.
Ayrıca burada Y de ˘gi¸skeni nicelik belirtmedi ˘gi için sıradan enkü- çük kareler (SEK) dı¸sında yöntemler de geli¸stirilmi¸stir.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 5 / 67
Temel Sınıflandırma Yöntemleri
Bu bölümde a¸sa ˘gıdaki be¸s temel sınıflandırma yöntemini sırayla ele alaca ˘gız:
1 Do ˘grusal olasılık modeli
2 Lojistik regresyon
3 Do ˘grusal diskriminant çözümlemesi
4 ˙Ikinci derece diskriminant çözümlemesi
5 Sade Beyes sınıflandırıcı
Bunlara ek olarak, 2. Bölümde açıkladı ˘gımız K-enyakın kom¸su yöntemini de bölüm sonunda di ˘gerleriyle kar¸sıla¸stıraca ˘gız.
Örnek uygulama olarak ise önceki bölümlerde de gördü ˘gümüz kredi veri setini kullanaca ˘gız.
Farklı ki¸silere ait gelir, kredi kartı borcu ve borç ödeyip ödememe bilgileri ¸Sekil 1’de gösterilmi¸stir.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 6 / 67
Kredi Kartı Verileri
Sol paneldeki serpilim çiziminde farklı ki¸silerin kredi kartı borçları ile gelirleri verilmi¸stir. Sa ˘g panelde ise borcu yüksek olanların te- merrüte dü¸sme olasılı ˘gının daha yüksek oldu ˘gu anla¸sılmaktadır.
0 500 1000 1500 2000 2500
0200004000060000
Kredi kartı borcu
Gelir Kredi kartı borcu
Temerrüt
Hayır Evet
05001000150020002500 Gelir
Temerrüt
0200004000060000
Hayır Evet
¸
Sekil 1:Gelir, kredi kartı borcu ve borç ödeyip ödememe verileri
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 7 / 67
Do ˘grusal Olasılık Modeli
Ders Planı
1 Do ˘grusal Olasılık Modeli
DOM tahminine yönelik ele¸stiriler
2 Lojistik Regresyon
˙Ikili lojistik model
Lojistik tahmin ve kestirim Çoklu lojistik model
3 Diskriminant Çözümlemesi
˙Ikili do˘grusal DÇ modeli Çoklu do ˘grusal DÇ modeli Alma¸sık DÇ modelleri
4 Di ˘ger Konular
Sınıflandırma kesinli ˘ginin ölçülmesi Sınıflandırıcıların kar¸sıla¸stırılması
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 8 / 67
Do ˘grusal Olasılık Modeli
Do ˘grusal Olasılık Modeli (1)
¸
Sekildeki ili¸skiyi sıradan enküçük kareler (SEK) yöntemi ile tahmin etmek istersek a¸sa ˘gıdaki gibi bir model belirtebiliriz:
Yi = β1+ β2Xi+ i
Burada X kredi kartı borcudur. Y = 1 temerrüte dü¸süldü ˘günü, Y = 0 ise borcun ödendi ˘gini göstermektedir.
Bir kukla de ˘gi¸sken olan Y ’yi X ’in do ˘grusal fonksiyonu olarak belir- ten yukarıdaki modele“do ˘grusal olasılık modeli”(linear probability model), ya da kısaca“DOM”(LPM) adı verilir.
Bu modelde ˆY tahminleri X veriliyken Y = 1 olayının gerçek- le¸smesine yönelik ko¸sullu olasılık (conditional probability) olarak yorumlanır:
Pr(Yi=1|Xi)
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 9 / 67
Do ˘grusal Olasılık Modeli
Do ˘grusal Olasılık Modeli (2)
Elimizdeki modele neden do ˘grusal olasılık denildi ˘gini görmek için hata terimi ’un ortalamasının 0 oldu ˘gunu anımsayalım. Bu du- rumda ¸sunu yazabiliriz:
E (Yi|Xi) = β1+ β2Xi
Yi =1 oldu ˘gunda temerrüt gerçekle¸smektedir. Bunun olasılık de-
˘gerine Pi dersek Y ’nin olasılık da ˘gılımı a¸sa ˘gıdaki gibi olur:
Y Olasılık
1 Pi
0 1 − Pi
Toplam 1
Beklenen de ˘ger tanımından yararlanarak ¸sunu görebiliriz:
E (Yi|Xi) =0(1 − Pi) +1(Pi) =Pi
Görüldü ˘gü gibi E (Yi|Xi)bir olasılıktır. Dolayısıyla 0 ≤ E (Yi) ≤ 1
¸seklinde bir sınırlama söz konusudur.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 10 / 67
Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler
Ders Planı
1 Do ˘grusal Olasılık Modeli
DOM tahminine yönelik ele¸stiriler
2 Lojistik Regresyon
˙Ikili lojistik model
Lojistik tahmin ve kestirim Çoklu lojistik model
3 Diskriminant Çözümlemesi
˙Ikili do˘grusal DÇ modeli Çoklu do ˘grusal DÇ modeli Alma¸sık DÇ modelleri
4 Di ˘ger Konular
Sınıflandırma kesinli ˘ginin ölçülmesi Sınıflandırıcıların kar¸sıla¸stırılması
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 11 / 67
Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler
DOM Tahminindeki Sorunlar
E ˘ger amacımız çıkarsama ise DOM tercih edilen yakla¸sım de ˘gil- dir. Bunun temelde dört nedeni vardır:
1 Sınıflar arası ili¸skinin sayısal olmaması
2 Hata teriminin normal-dı¸sılı ˘gı
3 Hatalarda farklıserpilimsellik görülmesi
4 0 ≤ E (Yi|Xi) ≤1 ko¸sulunun sa ˘glanamaması
Öte yandan, günümüzde büyük veri setleri ve yo ˘gun hesaplama gerektiren yapay zeka uygulamalarında DOM yöntemi sınıflan- dırma amacı için uygun bir seçenek olabilir.
Ayrıca DOM kullanılarak ile elde edilen sınıflandırmalar bu bö- lümde görece ˘gimiz di ˘ger bir yöntem olan do ˘grusal diskriminant çözümlemesi ile aynı sonuçları vermektedir.
¸
Simdi DOM yönteminin ele¸stirilen yanlarından kısaca söz edelim.
Böylece, lojistik model gibi farklı araçlara neden gerek duyuldu-
˘gunu da daha iyi görebiliriz.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 12 / 67
Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler
Sınıflar Arası ˙Ili¸skinin Sayısal Olmaması
DOM’a yönelik ilk ele¸stiri, sınıflandırma için Y ’ye sayısal de ˘gerler versek de ili¸skinin aslında sayısal olmamasıyla ilgilidir.
Ayrıca ço ˘gu zaman ikiden fazla sınıf söz konusudur.
Örnek olarak, ˙Internet üzerindeki satı¸sların hangi ilden gerçekle-
¸sece ˘gini kestirmek istiyor olalım:
Y =
1 e ˘ger ˙Istanbul ise 2 e ˘ger Ankara ise 3 e ˘ger ˙Izmir ise
Yukarıda tepki de ˘gi¸skeninin aldı ˘gı de ˘gerlerin belli bir önem ya da olu¸s sırasına sahip olmadı ˘gına dikkat ediniz.
Di ˘ger bir deyi¸sle, Ankara ˙Istanbul’un iki katıdır ya da ˙Izmir An- kara’dan yüzde 50 daha fazladır diyemeyiz.
Dahası bunların sırasını de ˘gi¸stirirsek tahminler de de ˘gi¸sir.
Dolayısıyla ikiden fazla sınıf olması durumunda DOM tahmini uy- gun bir sınıflandırma yöntemi de ˘gildir.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 13 / 67
Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler
Hata Teriminin Normal-dı¸sılı ˘gı
˙Ikinci olarak, SEK yönteminde çıkarsama için hata terimi i’nin normal da ˘gıldı ˘gı varsayımının önemli oldu ˘gunu anımsayalım.
Ancak DOM tahminininde i’nin normal da ˘gılması olanaksızdır.
A¸sa ˘gıda da görüldü ˘gü gibi, Yi’ler yalnızca iki de ˘ger aldı ˘gı için iki farklı i kümesi ortaya çıkar:
i =Yi− β1− β2Xi Yi =1 ise i =1 − β1− β2Xi Yi =0 ise i= −β1− β2Xi
Burada i’ler normal da ˘gılıma de ˘gil, Bernoulli da ˘gılımına uyar.
Öte yandan nokta tahminleri yansız olmayı sürdürür.
Ayrıca merkezi limit kanıtsavına göre örneklem büyüklü ˘gü artar- ken kalıntıların normale yakla¸saca ˘gı da unutulmamalıdır.
Dolayısıyla büyük örneklemlerde ’nun normal-dı¸sılı ˘gı kestirim ve çıkarsama açısından bir sorun yaratmayabilir.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 14 / 67
Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler
Hatalarda Farklıserpilimsellik
Üçüncü olarak, hata teriminin Bernoulli da ˘gılımına uydu ˘gu bilindi-
˘gine göre, DOM tahmininde i’lerin aynıserpilimsel oldu ˘gu varsa- yımını korumak da olanaksızdır.
˙Ikiterimli da˘gılımın genel biçimi olan kesikli Bernoulli da˘gılımının ortalaması p, varyansı p(1 − p)’dir.
Buna göre do ˘grusal olasılık modelinin varyansı da ¸su olur:
var(i) =Pi(1 − Pi)
Pi =E (Yi|Xi) = β1+ β2Xi oldu ˘guna göre, i sonuçta Xi de ˘gerle- rine ba ˘glıdır ve bu nedenle aynıserpilimsel olamaz.
Farklıserpilimsellik altında SEK yansız olmayı sürdürmekle birlikte artık en iyi (enaz varyanslı) yöntem de ˘gildir.
Ancak büyük örneklemlerde bu da DOM için sorun olmayabilir.
Farklıserpilimsellik, a ˘gırlıklı enküçük kareler ya da daha geli¸smi¸s sa ˘glam ölçünlü hata tahminleri kullanarak a¸sılmaya çalı¸sılabilir.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 15 / 67
Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler
0 ≤ E (Y
i|X
i) ≤ 1 Ko¸sulunun Sa ˘glanmaması
Son olarak, DOM tahmini için bir di ˘ger sorun 0 ≤ E (Yi|Xi) ≤ 1 ko¸sulunun sa ˘glanamamasıdır.
Bu modeller X veriliyken Y olayının gerçekle¸sme ko¸sullu olasılı-
˘gını ölçtü ˘gü için, E (Yi|Xi) de ˘gerinin 0 ile 1 arasında yer alması önemlidir.
SEK yöntemi böyle bir matematiksel sınırlama içermedi ˘gi için DOM tahmini sonrasında yakı¸stırılan de ˘gerlerin 0’dan küçük ya da 1’den büyük çıkmasına sıkça rastlanır.
Öte yandan böyle durumlarda eksi de ˘gerli ˆYi’leri sıfır, 1’den büyük Yˆi’leri ise 1 varsaymak yoluna da gidilebilir.
Sonuç olarak, DOM aslında gözden dü¸smü¸s bir yöntem gibi gö- rünse de günümüzde ˙Internet ölçe ˘ginde veri setleri ve hesaplama yo ˘gun tekniklerle birlikte kullanmak için potansiyel vadetmektedir.
Varsayımsal örne ˘gimize ili¸skin DOM tahmini ¸Sekil 2’de verilmi¸stir.
A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 16 / 67