Negatif Birliktelik Kuralı (Negative Association Rule)

3.8. Birliktelik Kuralı (Association Rule Mining)

3.8.7. Negatif Birliktelik Kuralı (Negative Association Rule)

Birliktelik kuralı, iki değişken arasındaki güçlü ilişkileri bulmak için kullanılmaktadır. Yani, değişkenler arasındaki korelasyon güçlü ve pozitif olmalıdır. Ancak, güçlü olmayan ilişkiler de söz konusu olabilir ve gizli kalmış küçük korelasyonların büyük veri kümeleri içerisinde önemi olabilir. Bu tür ilişkileri bulmak için bazı yayınlarda önermeler yapılmıştır. Negatif birliktelikleri görmenin temeli şuna dayanmaktadır:

“EĞER X, ÖYLEYSE Y” bir güçlü kural ise, yani min.des/min.güv eşik değerlerini sağlıyorsa X ve Y arasında pozitif bir kuraldan söz edilebilir. Fakat “EĞER X, ÖYLEYSE –Y” gibi bir kural da karşımıza çıkabilir. Aynı şekilde,

⇒ − ; − ⇒ − ⇒ −

gibi kurallar da bizler için fikir verebilecek gizli kalmış kurallar olabilirler. Negatif birliktelik kuralı genel literatürde “−“ sembolü ile gösterilmektedir. Ancak bu sembol, küme teorisi ile uyuşmamaktadır ve yanlış algılamaya sebep olabilir. Bu nedenle, bundan böyle kümenin olumsuzu (veya tümleyeni) ∗ şeklinde gösterilecektir. Ayrıca dikotom değer alan bir veri kümesi için (-1=0 veya -0=1) olabilirken ikiden fazla kategorisi olan kümeler için bu notasyon yetersiz kalmaktadır.

Aslında negatif kurallar, pozitif kuralları çıkarırken eşik seviyelerini düşük tutarak elde edilebilir. Ancak bu durumda kural sayısı patlaması ile karşı karşıya kalınacaktır. Bu nedenle, başka bir algoritma ile minimum sayıda kural elde edilmelidir. Market sepeti analizini tekrar ele alalım. Pozitif kurallar, “eğer süt alıyorsa, büyük bir olasılıkla ekmek te alır” şeklindeydi. Negatif kural olarak düşünüldüğünde ise “eğer süt

alıyorsa, çok az bir olasılıkla turşu da alır” şeklinde olacaktır. Eğer iki değişken bağımsız iseler aralarındaki korelasyon 0 olacaktır ve negatif kural çıkmayacaktır (Ayad, 2000). Olayı dört gözlü tablo üzerinde görmeye çalışalım:

Çizelge 3.5. Negatif kural için dört gözlü tablo

∗ _Toplam

∗

Toplam

Tabloya göre sıklık değeri pozitif kuralları, , ve sıklık değerleri ise negatif kuraları göstermektedir. Dört gözlü tablolardaki ilişki ki-kare istatistiği ile hesaplanabiliyordu. Bu durumda, O(d) gözlenen sepet değeri, E(d) ise beklenen sepet değeri olmak üzere ki-kare değeri

= ∑ ( ) (3.28)

ile hesaplanır. Pozitif kurallar ile ilişkilidir. Ne kadar büyükse destek ve güven değerleri de o ölçüde büyük olacaktır. Negatif kurallar için ise , veya ‘nin herhangi birinin yeterince büyük olması bizlere güçlü negatif kurallar verecektir.

Çizelge 3.6. Negatif kural için satış örneği

A marketi ü ü ∗ Toplam

220 74

∗ 97 45

Toplam 438

A marketinden alışveriş yapan 438 müşterinin süt ve ekmek satın alma durumunu gösteren tabloya göre; 220 kişi hem süt hem de ekmek almış, 74 ve 97 müşteri iki üründen birisini almış, 45 müşteri ise ne ekmek ne de süt almıştır. Dört farklı kural için destek ve güven değerleri hesaplanabilir. Yalnızca iki ürün için durum böyleyken veri kümesi ve değişken sayısı büyüdükçe ilişkileri görmek zorlaşacaktır. Güçlü algoritmalar sayesinde veri tabanlarını hızlı bir şekilde taramak daha kolay olacaktır. Ancak büyük

veritabanlarını tarayacak algoritmaların yazılması zor ve dikkat gerektirmektedir. Apriori algoritmasının daha hızlı çalışması için birçok yeni yaklaşımlar geliştirilirken bir de tüm negatif birliktelikleri tarayacak ve ortaya çıkaracak yaklaşımların geliştirilmesi için çalışmalar yapılmaktadır. Apriori tarzı algoritmaların temel özelliği en iyi budama tekniklerinin algoritmaya yerleştirilmesidir. Bu nedenle eşik değerleri önceden belirlenerek budama gerçekleştirilmektedir. O halde negatif birlikteliklerde tarafların ilişkili olması için hangi eşik değerlerini sağlaması gerekir?

Tüm durumlar için farklı eşik değerleri tespit etmek gerekecektir. Bu noktadan hareketle her bir kural için min.des, min.güv ve min.il değerleri tespit edilip bunlara göre anlamlı kurallar çıkarılabilir. Pozitif yönde birlikteliğe sahip kurallar için

( ⇒ ) = ( ∩ ) ≥ . (3.29)

ü ( ⇒ ) = ( | ) ≥ . ü (3.30)

olmalıydı. Bu değerler sık nesne kümelerinin belirlenmesine yeterli olmuyor, ancak güçlü kural ölçütü olarak yetersiz kalıyorlardı. Bu nedenle, ilginçlik ölçütleri içerisinden lift değerini kullanmıştık. Bu durumda,

( ⇒ ) = ( ∪ )

( ). ( ) = ( | )

( ) ≥ . (3.31)

olacaktır. lift ölçütü için üç durum söz konusu olur:

1. ( ⇒ ) = 1 , ( | ) = ( ) ğı ı ı . 2. ( ⇒ ) > 1 , ( | ) > ( ) , ğı ı ı . 3. ( ⇒ ) < 1 , ( | ) < ( ) , ğı ı ı . ğ ş , − , ğı ı ı . , ( | ) − ( ) ç − ( ) ≤ ( | ) − ( ) < 0 ı ı . ℎ , 0 < ( | ) − ( ) − ( ) ≤ 1 .

Bu oran ne kadar büyükse negatif bağımlılık ta o kadar güçlü olacaktır. Negatif birliktelik kuralına göre sık nesne kümelerinin belirlenmesi için aynı tarz kısıtları sıralayabiliriz:

a. ( ⟹ ∗_{) ≥} _.

b. ü ( ⟹ ∗_{) ≥} _{. ü}

Burada

( ⟹ ∗_{) = ( ) − ( ∩ )} _(3.32)

ü ( ⟹ ∗_{) = (− | ) = 1 − ( | )} _(3.32)

şeklinde tanımlanabilir.

Negatif birliktelikleri iki durumda düşünebiliriz:

( ) ( ) değerleri oldukça büyüktür. Ancak ( ∩ ) yeterince büyük olmayabilir. Bu durumda eşik seviyelerinin büyük kabul edilmesi ile çok sayıda pozitif kurallar elde edilmez ve negatif kuralların sayısı çok olacaktır. Örneğin: “Çay ve kahve satışları çok yüksektir. Ancak her ikisini birden satın alanların sayısı az olabilir. Olasılık azalacağından her iki ürünü birden satın alanların korelasyonu düşük olacaktır.

( ) ( ) den birisi veya her ikisinin değeri oldukça düşük olabilir. Örneğin: “Marketteki bazı ürünlerin satış miktarı çok sık değildir. Bu durumda oluşacak birliktelikler çok küçük olacaktır. Çay alan birisinin aynı zamanda limon tuzu alma olasılığı düşüktür. Aynı durum markalar için de geçerli olabilir. T markasının tuvalet kağıdının satış oranı yüksek olurken S markasının satışı çok az olabileceğinden çay ile T marka tuvalet kağıdı yüksek güven değeri verirken, çay ile S marka tuvalet kağıdının güven değeri eşik seviyesinin altında kalacağından negatif kural şeklinde düşünülebilir. Bu tür birlikteliklere “Seyrek Birliktelik Kuralı (Rare Association Rule)” denilmektedir. Buna göre Negatif Birliktelik Kuralı (i) ile Seyrek Birliktelik Kuralı (ii) farklı olmaktadır; her iki durumu ayrıştırmak ve ayrı ayrı incelemek gerekir.

Apriori algoritması min.güv eşik değerine göre budama yapıyor ve yalnızca sık nesne kümelerini ortaya çıkarıp tarama yapıyordu. Negatif ve seyrek birliktelikleri ortaya çıkarabilmek için budama algoritmasını değiştirmek gerekecektir. Bu işlemi, sisteme yük getirmeden ve çok sayıda tarama yapmadan uygulamak gerekmektedir. Ayrıca burada iki durum karşımıza çıkmaktadır: hem sık nesne kümelerinde var olan negatif kuralları hem de sık olmayan nesne kümelerindeki pozitif kuralları ortaya çıkarmak.

Özellikle sağlık verilerinde bu durumlar sıklıkla karşımıza çıkmaktadır.

İki alerjen madde ayrı ayrı ekili olurken, birlikte çok seyrek olarak reaksiyon gösterebilmektedir. Bu tezde üzerinde çalıştığımız veri kümesi de bu tür birlikteliklerin görülebileceği yapıya sahiptir. Birçok değişken ikili kategoriye sahip olup (0,1) bazılarının hastalarda görülme oranı azdır. Özellikle alkol ve sigara kullanımı ile hipotiroid komorbiditesi az olduğundan bunlara bağlı kurallar negatif çıkmaktadır. Ayrıca satış verilerinde çok küçük güven değerleri bir anlam ifade etmezken sağlık verilerinde çok küçük olasılıkların bile önemli anlamı olabilir. Negatif veya seyrek birliktelik kural çıkarımı hala tam olarak keşfedilmemiş bir alandır. Bazı algoritma önermeleri yapılmış ancak üzerinde çalışılması gereken yerler vardır. Destek, güven veya ilginçlik ölçütleri üzerinden çeşitli yöntemler önerilmiştir. Tan, et al. (2000) tarafından ilginçlik ölçütü budama sürecinde min.il olarak önerilmiştir.

( , ) = ( ∩ )

( ). ( )=

( ∩ )

( ). ( ). ( ∪ ) (3.33)

Hamano ve Sato (2004) tarafından ölçütünün bazı olumsuz yanları belirtilmiş ve ölçütünü önermişlerdir.

Φ( , ) = ( ∩ ) ( ). ( )

( ). ( ∗_{). ( ). (} ∗₎ (3.34)

korelasyon fonksiyonu olmak üzere

( ⟹ ) = = ( ∩ ) ( ). ( ) ( ∩ ).( ( )) , ğ Φ( , ) ≥ 0 = ( ). ( ) ( ∩ ) ( ) ( ∩ ) . ( ) , . . (3.35) Sık nesne kümesi Pozitif kurallar Sık olmayan nesne kümesi Negatif birliktelikler Seyrek birliktelikler Veritabanı

Bu ölçütte, pozitif birlikteliği, ise seyrek birlikteliği göstermektedir.

Zhang ve Zhang (2002) ise PL (Positive Itemset of Interest) ve NL (Negative Itemset of Interest) ölçütleri ile aşağıdaki algoritmayı önermişlerdir.

PL: pozitif sık nesne kümesi NL: negatif sık nesne kümesi

Temk: Veritabanındaki tüm k-nesne kümeleri Fi: tüm sık nesne kümeleri

Nk:Temk’deki sık olmayan nesne kümeleri veya Nk=Temk-Fk olmak üzere

Belgede Veri madenciliğinden birliktelik kuralı ile onkoloji verilerinin analiz edilmesi: Meram Tıp Fakültesi Onkoloji örneği (sayfa 78-84)