İçerik DeepLearning Derin Öğrenme

(1)

Derin Öğrenme Deep Learning

Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü

Bu dersin sunumları, “Simon Haykin, Neural Networks and Learning Machines, Prentice Hall, 2016.” kitabı kullanılarak hazırlanmıştır.

İçerik

 Öğrenme nedir?

 Perceptron öğrenme kuralı

 Çok katmanlı ileri beslemeli ağlar

 Çok katmanlı ileri beslemeli ağlarda öğrenme

 Öğrenme hızı

 Örnek: Ses tanıma

 Örnek: Karakter tanıma

(2)

Öğrenme nedir?

 Öğrenme sürecinde, model içerisindeki parametreler problemin çözümü için optimize edilir.

 Parametre sayısı geliştirilen modelin öğrenme kapasitesiyle ilişkilidir.

 Modelin parametrelerinin optimizasyonu için

deterministik/nondeterministik farklı algoritmalar kullanılabilir.

 Modellenen sisteme ait veriler eğitim sürecinde geliştirilen modele giriş olarak verilir.

 Denetimli öğrenme yapan sistemlerde çıkış verisi de modele verilir.

3

Öğrenme nedir?

 Dinamik bir sistem aşağıdaki gibi M adet giriş ve bir tane çıkışa sahip olsun.

 Sistemde,

i.

sıradaki girişleri gösterir.

 Eğitim veriseti aşağıdaki gibi tanımlanabilir.

 Eğitim setindeki her satır için istenen çıkış ise

d(i)

ile gösterilir.

(3)

Öğrenme nedir?

 Sistem aşağıdaki gibi modellenebilir.

 Modelin parametreleri her girişin ağırlık değerleridir (

w

).

 Öğrenme sürecinde istenen sonucu elde edecek

w

ağırlıkları belirlenir.

5

Öğrenme nedir?

 Modelde ileri doğru geçişte giriş değerlerine göre ağırlıklar kullanılarak çıkış hesaplanır.

(4)

Öğrenme nedir?

 Parametrelerin optimizasyonu sürecinde ağırlıkların optimal çözümü (

w

*) bulunur.

 E

**(w*)**

maliyet fonksiyonu ağırlık vektörüne göre minimize edilir (unconstraint optimization).

 Optimalite için gerekli şart,

7

Öğrenme nedir?

  gradient operatörüdür,

 E(w) hata vektörünün gradient operatörüdür,

 Her iterasyonda hesaplanan yeni ağırlık değerleri ile maliyet fonksiyonu daha küçük değer alır.

(5)

Öğrenme nedir?

 Steepest descent algoritmasında ağırlıklar gradyan vektörünün ters yönünde değiştirilir.

 E(w) gradient operatörüdür,

 Burada,



ağırlıkların değişme hızını ayarlar ve öğrenme oranı veya adım boyutu olarak adlandırılır.

9

İçerik

(6)

Perceptron öğrenme kuralı w

_i+1

= w

_i

+ Dw

_i

Dw

_i

**=  * x**

_i

* (d - o)

 = öğrenme oranı (0-1 arasında) w

_i

= i.bağlantının ağırlık değeri D w

_i

= Ağırlık değişim değeri x

_i

= i.girişe girilen değer d = İstenen çıkış değeri o = Hesaplanan çıkış değeri

11

x₁ x₂ d

1.0 1.1 3.3 0.9 1.4 2.7

… … …

2.2 3.1 0.8

w₀ .5

.5 x₁

x₂ -1

w₁

w₂ o

Perceptron öğrenme kuralı

w₀

a .5

.5 x₁

x₂ -1

w₁

w₂ o

x₁ x₂ d

1.0 1.1 3.3 0.9 1.4 2.7

… … …

2.2 3.1 0.8

(w₁, w₂) (w₁+Dw₁, w₂+Dw₂)

Minimum hata

(7)

Perceptron öğrenme kuralı

13

Sum Square Error (SSE)

Mean Squared Error (MSE)

P = Eğitim kümesi boyutu

K = Çıkış vektörü boyutu (Çıkış neuronsayısı)



 





^K

j

j p j

p P

p

o P d

MSE

1

2 , ,

1

) 1 (



 





^K

j

j p j

p P

p

o d

SSE

1

2 , ,

1

) (

İçerik

(8)

Çok katmanlı ileri beslemeli ağlar

15

 Çok katmanlı ağlarda geriye yayılım (backpropagation) yöntemiyle öğrenme gerçekleştirilebilir.

 Eğitim verisetindeki her satır için çıkış hatası hesaplanır.

 Çıkış hatasına göre ağırlıklar çıkıştan girişe doğru değiştirilir.

 Ağırlıkların değişimini hesaplamak için gradyan vektörü kullanılır.

Çok katmanlı ileri beslemeli ağlar

 Çok katmanlı ağlarda geriye yayılım (backpropagation) yöntemiyle ağırlıklar değiştirilir (öğrenme).

Eğitim seti:

-

{(x^m, t^m); 1≤ m ≤ P}

Hata = t - o

o Hatanın geri yayılımı

(9)

İçerik

17

Çok katmanlı ileri beslemeli ağlarda öğrenme

 Çok katmanlı ağlarda hataların farklarının karelerinin toplamı ağırlıkları değiştirmek için geri yayılım yapılır.

 Eğitim verisetindeki her satır için ağırlıklar çıkıştan girişe doğru değiştirilir.

w w

w   D

(10)

Çok katmanlı ileri beslemeli ağlarda öğrenme

19

w_1,2= w_1,2+ Dw_1,2

Dw_1,2=(∂E / ∂O₂)(∂O₂/ ∂net₂) (∂net₂/ ∂w_1,2)

∂E / ∂O₂= (∂ / ∂O₂)(T₂-O₂)²

∂E / ∂O₂= -2(T₂-O₂)

∂O₂/ ∂net₂= (∂ / ∂net₂)f(net₂)

∂O₂/ ∂net₂= f ' (net₂)

∂net₂/ ∂w_1,2= O_1,1

Dw_1,2=  (T₂-O₂) f '(net₂) O_1,1

Sigmoid f(x) = 1/(1+exp(-x)) f '(x) = exp(-x)/(1+exp(-x)) ²

= 1/(1+exp(-x)) – 1/(1+exp(-x)) ²= f(x) (1 – f(x)) I₁

I₂ I₃ I₄ I₅ I₆

O₁

O₂ w_1,2

1 2 3 4

1

2

Layer 2 Layer 1

O_1,1

Çok katmanlı ileri beslemeli ağlarda öğrenme

w_i1,2= w_i1,2+ Dw_i1,2

Dw_i1,2=(∂E / ∂O₂)(∂O₂/ ∂net₂) (∂net₂/ ∂O_1,2) (∂O_1,2/ ∂net_1,2)

(∂net_1,2/ ∂w_i1,2)

∂net₂/ ∂O_1,2= w_2,2

∂O_1,2/ ∂net_1,2= f '(net_1,2)

∂net_1,2/ ∂w_i1,2= I₁

Dw_i1,2=  (T₂-O₂) f '(net₂) w_2,2 f’(net_1,2) I₁

Dw_i1,2=(∂E / ∂O₁)(∂O₁/ ∂net₁) (∂net₁/ ∂O_1,2) (∂ / ∂net_1,2) (∂net_1,2/ ∂w_i1,2)

I₁ I₂ I₃ I₄ I₅ I₆

O₁

O₂ w_2,1

1 2 3 4

1

2 Layer 2 Layer 1

w_2,2 w_i1,2

Dw_i1,2=  (T₁-O₁) f '(net₁) w_2,1 f’(net_1,2) I₁

O_1,2

(11)

İçerik

21

Öğrenme hızı

 Öğrenme hızı çok yüksek olursa kararsızlık olur, çok düşük olursa öğrenme çok uzun süre alır.

(12)

İçerik

23

Örnek: Ses tanıma

Problem: İki farklı kişinin “merhaba” kelimesini söylemesinin öğretilmesi

1. Kişi = Ahmet 2. Kişi = Mehmet

Frekans dağılımı 60 örnek ile alınsın.

(13)

Örnek: Ses tanıma

25

Ağ yapısı = ileri beslemeli çok katmanlı 60 giriş (her frekans örneği için) 6 gizli node

2 çıkış (0-1 ise “Ahmet”, 1-0 ise “Mehmet”)

Örnek: Ses tanıma

Ahmet

Mehmet

0 1

1

(14)

Örnek: Ses tanıma

27

Ahmet

Mehmet

0.43 0.26

0.73 0.55

Örnek: Ses tanıma

Ahmet

Mehmet

0.26 – 1 = 0.74

0.73 – 1 = 0.27 0.55 – 0 = 0.55 0.43 – 0 = 0.43

(15)

Örnek: Ses tanıma

29

Ahmet

Mehmet

0.01 0.99

0.99 0.01

İçerik

(16)

Örnek: Karakter tanıma

31

A B

E D C

Output Layer

Input Layer

Hidden Layer

• İleri beslemeli çok katmanlı ağ

• Backpropagation öğrenme metodu