• Sonuç bulunamadı

Sınıflandırma Çözümlemesi

N/A
N/A
Protected

Academic year: 2021

Share "Sınıflandırma Çözümlemesi"

Copied!
67
0
0

Yükleniyor.... (view fulltext now)

Tam metin

(1)

Sınıflandırma Çözümlemesi

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi

˙IKT-457 Ekonomi ve Finans ˙Için Yapay Zeka 1 Sürüm 0,93

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 1 / 67

(2)

Açık Lisans Bilgisi

Bu belge “Creative Commons Attribution-ShareAlike 3.0 Un- ported” (CC BY-SA 3.0) lisansı altında bir açık ders malzemesi olarak genel kullanıma sunulmu¸stur. Bazı ¸sekiller “An Intro- duction to Statistical Learning, with applications in R” (Sprin- ger, 2017) kitabından yazarların izniyle alınmı¸stır. Tüm belge eserin ilk sahibinin belirtilmesi ve geçerli lisansın korunması ko¸suluyla özgürce kullanılabilir, ço ˘galtılabilir, ve de ˘gi¸stirilebi- lir. Creative Commons örgütü ve CC-BY-SA 3.0 lisansı ile il- gili ayrıntılı bilgihttps://creativecommons.orgInternet adresinde yer almaktadır. Ders notlarımın güncel sürümlerine http://yalta.etu.edu.tr adresinden ula¸sabilirsiniz.

A. Talha Yalta

TOBB Ekonomi ve Teknoloji Üniversitesi 2020 – 2021

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 2 / 67

(3)

Ders Planı

1 Do ˘grusal Olasılık Modeli

DOM tahminine yönelik ele¸stiriler

2 Lojistik Regresyon

˙Ikili lojistik model

Lojistik tahmin ve kestirim Çoklu lojistik model

3 Diskriminant Çözümlemesi

˙Ikili do˘grusal DÇ modeli Çoklu do ˘grusal DÇ modeli Alma¸sık DÇ modelleri

4 Di ˘ger Konular

Sınıflandırma kesinli ˘ginin ölçülmesi Sınıflandırıcıların kar¸sıla¸stırılması

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 3 / 67

(4)

Sınıflandırma Çözümlemesi (1)

3. Bölümde gördü ˘gümüz regresyon yönteminde Y tepki de ˘gi¸skeni nicel(quantitative) de ˘gerlere sahipti.

Ancak birçok durumda Y birnitel(qualitative) de ˘gi¸sken de olabilir.

Bu bölümde nitel tepkiyi kestirmeye yöneliksınıflandırma(classi- fication) çözümlemesini ele alaca ˘gız.

Sınıflandırma uygulamada en az regresyon kadar yaygındır. Bir- kaç örnek olarak, a¸sa ˘gıdaki konu ba¸slıklarını gösterebiliriz:

1 Bir kredi ba¸svurusunun ret edilip edilmeyece ˘gi

2 Bir ¸sirketin ele geçirmeye hedef olup olmayaca ˘gı

3 Sirketlerin hisse senedi çıkartıp çıkartmayacakları¸

4 Belli bir ürünün iade edilip edilmeyece ˘gi

5 Ki¸silerin sigorta yaptırıp yaptırmayacakları

6 Bir ki¸sinin i¸sgücüne katılıp katılmayaca ˘gı

7 Sendika üyesi olunup olunmayaca ˘gı

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 4 / 67

(5)

Sınıflandırma Çözümlemesi (2)

Sınıflandırma çözümlemesinde kullanılan araçlar temelde Y ’nin belli bir sınıfa ait olma olasılı ˘gını tahmin etmeye dayanır.

Dolayısıyla yöntem regresyona benzemektedir.

Elimizde yine (x1,y1), . . . , (xn,yn) ¸seklinde bir e ˘gitim veri seti var- dır. Amacımız bunları kullanarak bir sınıflandırıcı olu¸sturmaktır.

Bu sınıflandırıcının yanlızca e ˘gitim verilerinde de ˘gil, test verile- rinde de ba¸sarı göstermesi önemlidir.

Ayrıca burada Y de ˘gi¸skeni nicelik belirtmedi ˘gi için sıradan enkü- çük kareler (SEK) dı¸sında yöntemler de geli¸stirilmi¸stir.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 5 / 67

(6)

Temel Sınıflandırma Yöntemleri

Bu bölümde a¸sa ˘gıdaki be¸s temel sınıflandırma yöntemini sırayla ele alaca ˘gız:

1 Do ˘grusal olasılık modeli

2 Lojistik regresyon

3 Do ˘grusal diskriminant çözümlemesi

4 ˙Ikinci derece diskriminant çözümlemesi

5 Sade Beyes sınıflandırıcı

Bunlara ek olarak, 2. Bölümde açıkladı ˘gımız K-enyakın kom¸su yöntemini de bölüm sonunda di ˘gerleriyle kar¸sıla¸stıraca ˘gız.

Örnek uygulama olarak ise önceki bölümlerde de gördü ˘gümüz kredi veri setini kullanaca ˘gız.

Farklı ki¸silere ait gelir, kredi kartı borcu ve borç ödeyip ödememe bilgileri ¸Sekil 1’de gösterilmi¸stir.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 6 / 67

(7)

Kredi Kartı Verileri

Sol paneldeki serpilim çiziminde farklı ki¸silerin kredi kartı borçları ile gelirleri verilmi¸stir. Sa ˘g panelde ise borcu yüksek olanların te- merrüte dü¸sme olasılı ˘gının daha yüksek oldu ˘gu anla¸sılmaktadır.

0 500 1000 1500 2000 2500

0200004000060000

Kredi kartı borcu

Gelir Kredi kartı borcu

Temerrüt

Hayır Evet

05001000150020002500 Gelir

Temerrüt

0200004000060000

Hayır Evet

¸

Sekil 1:Gelir, kredi kartı borcu ve borç ödeyip ödememe verileri

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 7 / 67

(8)

Do ˘grusal Olasılık Modeli

Ders Planı

1 Do ˘grusal Olasılık Modeli

DOM tahminine yönelik ele¸stiriler

2 Lojistik Regresyon

˙Ikili lojistik model

Lojistik tahmin ve kestirim Çoklu lojistik model

3 Diskriminant Çözümlemesi

˙Ikili do˘grusal DÇ modeli Çoklu do ˘grusal DÇ modeli Alma¸sık DÇ modelleri

4 Di ˘ger Konular

Sınıflandırma kesinli ˘ginin ölçülmesi Sınıflandırıcıların kar¸sıla¸stırılması

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 8 / 67

(9)

Do ˘grusal Olasılık Modeli

Do ˘grusal Olasılık Modeli (1)

¸

Sekildeki ili¸skiyi sıradan enküçük kareler (SEK) yöntemi ile tahmin etmek istersek a¸sa ˘gıdaki gibi bir model belirtebiliriz:

Yi = β1+ β2Xi+ i

Burada X kredi kartı borcudur. Y = 1 temerrüte dü¸süldü ˘günü, Y = 0 ise borcun ödendi ˘gini göstermektedir.

Bir kukla de ˘gi¸sken olan Y ’yi X ’in do ˘grusal fonksiyonu olarak belir- ten yukarıdaki modele“do ˘grusal olasılık modeli”(linear probability model), ya da kısaca“DOM”(LPM) adı verilir.

Bu modelde ˆY tahminleri X veriliyken Y = 1 olayının gerçek- le¸smesine yönelik ko¸sullu olasılık (conditional probability) olarak yorumlanır:

Pr(Yi=1|Xi)

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 9 / 67

(10)

Do ˘grusal Olasılık Modeli

Do ˘grusal Olasılık Modeli (2)

Elimizdeki modele neden do ˘grusal olasılık denildi ˘gini görmek için hata terimi ’un ortalamasının 0 oldu ˘gunu anımsayalım. Bu du- rumda ¸sunu yazabiliriz:

E (Yi|Xi) = β1+ β2Xi

Yi =1 oldu ˘gunda temerrüt gerçekle¸smektedir. Bunun olasılık de-

˘gerine Pi dersek Y ’nin olasılık da ˘gılımı a¸sa ˘gıdaki gibi olur:

Y Olasılık

1 Pi

0 1 − Pi

Toplam 1

Beklenen de ˘ger tanımından yararlanarak ¸sunu görebiliriz:

E (Yi|Xi) =0(1 − Pi) +1(Pi) =Pi

Görüldü ˘gü gibi E (Yi|Xi)bir olasılıktır. Dolayısıyla 0 ≤ E (Yi) ≤ 1

¸seklinde bir sınırlama söz konusudur.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 10 / 67

(11)

Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler

Ders Planı

1 Do ˘grusal Olasılık Modeli

DOM tahminine yönelik ele¸stiriler

2 Lojistik Regresyon

˙Ikili lojistik model

Lojistik tahmin ve kestirim Çoklu lojistik model

3 Diskriminant Çözümlemesi

˙Ikili do˘grusal DÇ modeli Çoklu do ˘grusal DÇ modeli Alma¸sık DÇ modelleri

4 Di ˘ger Konular

Sınıflandırma kesinli ˘ginin ölçülmesi Sınıflandırıcıların kar¸sıla¸stırılması

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 11 / 67

(12)

Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler

DOM Tahminindeki Sorunlar

E ˘ger amacımız çıkarsama ise DOM tercih edilen yakla¸sım de ˘gil- dir. Bunun temelde dört nedeni vardır:

1 Sınıflar arası ili¸skinin sayısal olmaması

2 Hata teriminin normal-dı¸sılı ˘gı

3 Hatalarda farklıserpilimsellik görülmesi

4 0 ≤ E (Yi|Xi) ≤1 ko¸sulunun sa ˘glanamaması

Öte yandan, günümüzde büyük veri setleri ve yo ˘gun hesaplama gerektiren yapay zeka uygulamalarında DOM yöntemi sınıflan- dırma amacı için uygun bir seçenek olabilir.

Ayrıca DOM kullanılarak ile elde edilen sınıflandırmalar bu bö- lümde görece ˘gimiz di ˘ger bir yöntem olan do ˘grusal diskriminant çözümlemesi ile aynı sonuçları vermektedir.

¸

Simdi DOM yönteminin ele¸stirilen yanlarından kısaca söz edelim.

Böylece, lojistik model gibi farklı araçlara neden gerek duyuldu-

˘gunu da daha iyi görebiliriz.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 12 / 67

(13)

Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler

Sınıflar Arası ˙Ili¸skinin Sayısal Olmaması

DOM’a yönelik ilk ele¸stiri, sınıflandırma için Y ’ye sayısal de ˘gerler versek de ili¸skinin aslında sayısal olmamasıyla ilgilidir.

Ayrıca ço ˘gu zaman ikiden fazla sınıf söz konusudur.

Örnek olarak, ˙Internet üzerindeki satı¸sların hangi ilden gerçekle-

¸sece ˘gini kestirmek istiyor olalım:

Y =





1 e ˘ger ˙Istanbul ise 2 e ˘ger Ankara ise 3 e ˘ger ˙Izmir ise

Yukarıda tepki de ˘gi¸skeninin aldı ˘gı de ˘gerlerin belli bir önem ya da olu¸s sırasına sahip olmadı ˘gına dikkat ediniz.

Di ˘ger bir deyi¸sle, Ankara ˙Istanbul’un iki katıdır ya da ˙Izmir An- kara’dan yüzde 50 daha fazladır diyemeyiz.

Dahası bunların sırasını de ˘gi¸stirirsek tahminler de de ˘gi¸sir.

Dolayısıyla ikiden fazla sınıf olması durumunda DOM tahmini uy- gun bir sınıflandırma yöntemi de ˘gildir.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 13 / 67

(14)

Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler

Hata Teriminin Normal-dı¸sılı ˘gı

˙Ikinci olarak, SEK yönteminde çıkarsama için hata terimi i’nin normal da ˘gıldı ˘gı varsayımının önemli oldu ˘gunu anımsayalım.

Ancak DOM tahminininde i’nin normal da ˘gılması olanaksızdır.

A¸sa ˘gıda da görüldü ˘gü gibi, Yi’ler yalnızca iki de ˘ger aldı ˘gı için iki farklı i kümesi ortaya çıkar:

i =Yi− β1− β2Xi Yi =1 ise i =1 − β1− β2Xi Yi =0 ise i= −β1− β2Xi

Burada i’ler normal da ˘gılıma de ˘gil, Bernoulli da ˘gılımına uyar.

Öte yandan nokta tahminleri yansız olmayı sürdürür.

Ayrıca merkezi limit kanıtsavına göre örneklem büyüklü ˘gü artar- ken kalıntıların normale yakla¸saca ˘gı da unutulmamalıdır.

Dolayısıyla büyük örneklemlerde ’nun normal-dı¸sılı ˘gı kestirim ve çıkarsama açısından bir sorun yaratmayabilir.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 14 / 67

(15)

Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler

Hatalarda Farklıserpilimsellik

Üçüncü olarak, hata teriminin Bernoulli da ˘gılımına uydu ˘gu bilindi-

˘gine göre, DOM tahmininde i’lerin aynıserpilimsel oldu ˘gu varsa- yımını korumak da olanaksızdır.

˙Ikiterimli da˘gılımın genel biçimi olan kesikli Bernoulli da˘gılımının ortalaması p, varyansı p(1 − p)’dir.

Buna göre do ˘grusal olasılık modelinin varyansı da ¸su olur:

var(i) =Pi(1 − Pi)

Pi =E (Yi|Xi) = β1+ β2Xi oldu ˘guna göre, i sonuçta Xi de ˘gerle- rine ba ˘glıdır ve bu nedenle aynıserpilimsel olamaz.

Farklıserpilimsellik altında SEK yansız olmayı sürdürmekle birlikte artık en iyi (enaz varyanslı) yöntem de ˘gildir.

Ancak büyük örneklemlerde bu da DOM için sorun olmayabilir.

Farklıserpilimsellik, a ˘gırlıklı enküçük kareler ya da daha geli¸smi¸s sa ˘glam ölçünlü hata tahminleri kullanarak a¸sılmaya çalı¸sılabilir.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 15 / 67

(16)

Do ˘grusal Olasılık Modeli DOM tahminine yönelik ele¸stiriler

0 ≤ E (Y

i

|X

i

) ≤ 1 Ko¸sulunun Sa ˘glanmaması

Son olarak, DOM tahmini için bir di ˘ger sorun 0 ≤ E (Yi|Xi) ≤ 1 ko¸sulunun sa ˘glanamamasıdır.

Bu modeller X veriliyken Y olayının gerçekle¸sme ko¸sullu olasılı-

˘gını ölçtü ˘gü için, E (Yi|Xi) de ˘gerinin 0 ile 1 arasında yer alması önemlidir.

SEK yöntemi böyle bir matematiksel sınırlama içermedi ˘gi için DOM tahmini sonrasında yakı¸stırılan de ˘gerlerin 0’dan küçük ya da 1’den büyük çıkmasına sıkça rastlanır.

Öte yandan böyle durumlarda eksi de ˘gerli ˆYi’leri sıfır, 1’den büyük Yˆi’leri ise 1 varsaymak yoluna da gidilebilir.

Sonuç olarak, DOM aslında gözden dü¸smü¸s bir yöntem gibi gö- rünse de günümüzde ˙Internet ölçe ˘ginde veri setleri ve hesaplama yo ˘gun tekniklerle birlikte kullanmak için potansiyel vadetmektedir.

Varsayımsal örne ˘gimize ili¸skin DOM tahmini ¸Sekil 2’de verilmi¸stir.

A. Talha Yalta (TOBB ETÜ) Sınıflandırma Çözümlemesi Sürüm 0,93 16 / 67

Referanslar

Benzer Belgeler

Güven ıaralıklan yardımıyla, bilinmeyen evren regresyon 'katsayılarının. içinde bulunduğu olası sınırlar

Fakat her zaman bir cismin hareketini sabit bir eksen takımından incelemek m¨umk¨un veya uygun olmaz bir ¸cok m¨uhendislik probleminde noktasal cisim hareketli bir koordinat

Bir direnç üzerinde açı"a çıkan ısı enerjisinin elektrik enerjisinin iletimi sırasında olu#tu"unu ö"rendik. Bu nedenle iletken üzerinde kontrolsüz olarak

C matrisinin sütun uzayı için birimdik (ortonormal) bir taban, Q hesaplayalım, bunu QR ayrı¸sımı gibi standart yöntemlerle bulabilece˘gimiz gibi, matris tamamlama

2 AVM yönetimince, AVM’ye aynı anda kabul edilebilecek toplam müşteri sayısı, herkes tarafından görülebilecek bir şekilde (AVM girişlerine pankart şeklinde ve

6- 2547 sayılı Yükseköğretim Kanununun 45 inci maddesinin (d) bendi uyarınca sınavsız geçme hakkı verilen meslek yüksekokullarında ikinci öğretim kapsamında

Bu açıdan önerilen yöntem SAR uygulamaları için bile¸sik görüntünün yanında iki ek görüntü de sunmaktadır: sahnedeki seyrek nesneler- den olu¸san bir seyrek görüntü

Jipsli topraklar, Türkiye’de olduğu gibi, kurak ve yarı ku- rak enlemlerdeki ülkelerde biyolojik çeşitlilik açısından son derece önemli ekosistemlerdir. Jipsli