Hastalık Te¸shisi ˙Için Ba˘glamsal Üstel A˘gırlıklar ˙Ile
Çevrimiçi Sınıflandırma
Online Classification with Contextual Exponential
Weights for Disease Diagnostics
Kubilay Ek¸sio˘glu, Muhammad Anjum Qureshi, Cem Tekin
Elektrik ve Elektronik Mühendisli˘gi Bölümü, Bilkent Üniversitesi, Ankara, Türkiye {eksioglu, qureshi, cemtekin}@ee.bilkent.edu.tr
Özetçe—Bu bildiride A˘gırlıklı Ortalamalı Tahminci (Weighted Average Forecaster) algoritmasının ba˘glamsal varyantına daya-nan yeni bir çevrimiçi sınıflandırma algoritması önerilmi¸stir. Veri kümesini çevrimiçi olarak ba˘glamlara göre bölümleyen bu algoritma, uzmanlardan gelen önerilerin a˘gırlıklarını ba˘glama göre güncelleyerek, uzman önerilerinin ba˘glamsal füzyonunu sa˘glamaktadır. Önerilen algoritma, UCI veri deposunda mev-cut bulunan hastalık verileri üzerinde denenmi¸stir. Elde edilen sonuçlar, tıbbi te¸shis alanında, önerilen sistemin performans ve dü¸sük hesaplama maliyeti açısından sa˘glamlık, etkililik ve çok yönlülü˘günü kanıtlamaktadır.
Anahtar Kelimeler—Üstel a˘gırlıklar, ba˘glamsal haydutlar, çev-rimiçi sınıflandırma, karar a˘gaçları, sınıf dengesiz veri kümeleri Abstract—In this paper, a novel online scheme for classification, which is based on the contextual-variant of Weighted Average Forecaster Algorithm is proposed. The proposed method adap-tively partitions the data space based on contexts, and trade-offs exploration and exploitation when fusing the predictions of the experts. The proposed algorithm is verified on disease data available in UCI Online Machine Learning Repository. These results prove the robustness, effectiveness and versatility in terms of performance and low computational cost of the proposed system in the field of medical diagnostics.
Keywords—Exponential weights, contextual bandits, online clas-sification, decision trees, biased datasets
I. G˙IR˙I ¸S
Hastalık te¸shisinde, negatif (sa˘glıklı) örnekler veri kümesi-nin büyük bir kısmını olu¸sturmaktadır. Sınıflar arası denge-sizlik olan veri kümelerinde sınıflandırma yapılırken, bilinen algoritmaları do˘grudan kullanmak mümkün de˘gildir. Genel-likle bu gibi sınıflandırma problemlerinde çözüm, farklı yanlı¸s sınıflandırma maliyetleri eklemek, lehine dengesizlik olan sı-nıftan az sayıda örnek almak veya aleyhinde dengesizlik olan sınıftan sentetik yeni örnekler üretmektir [3], [5].
Birden fazla ba˘gımsız uzmanın (sınıflandırıcının) bir araya getirildi˘gi toplu sınıflandırıcıların do˘gruluk performansı, ken-disini olu¸sturan uzmanların performansından üstündür [4]. Bu çalı¸sma TÜB˙ITAK tarafından 2232 Burs Programı kapsamında destek-lenmektedir (Proje no: 116C043).
A˘gırlık temelli toplu sınıflandırıcılar gerçek zamanlı çalı¸sabilir. Uzmanlardan önerileri alınır, bu öneriler uzmanların a˘gırlı˘gına ba˘glı olarak birle¸stirilir ve sınıfa karar verilir. Sonrasında sistem, uzmanların a˘gırlıklarını önerilerinin do˘gru karara uzak-lı˘gına ba˘glı olarak günceller [6], [9].
Bu çalı¸smada, çok sayıda eksik bilgilendirilmi¸s ba˘gımsız uzmanın önerilerinin birle¸stirilmesinden olu¸smu¸s yeni bir çev-rimiçi sınıflandırma yöntemi sunulmaktadır. Her bir uzman veri kümesinin küçük ve di˘ger uzmanlardan farklı bir bö-lümüyle e˘gitilir, bu sayede her uzmanın di˘gerlerinden farklı örüntüleri ö˘grenmesi sa˘glanır. Örneklerin olu¸sturdu˘gu uzay, gelen örneklerin özelli˘gine ba˘glı olarak parçalara bölünür. Her parça, içerisinde kendi A˘gırlıklı Ortalamalı Tahminci (AOT) parametrelerini bulundurur. Bir örnek geldi˘ginde önce örne˘gin hangi parçada oldu˘gu hesaplanır, sonrasında ise bu parçanın parametrelerine bakılarak sınıflandırma gerçekle¸stirilir. Sınıf-landırma sonucuna göre parçanın parametreleri güncellenir. Deneysel sonuçlar, Ba˘glamsal A˘gırlıklı Ortalamalı Tahminci (BAOT) ismini verdi˘gimiz bu algoritmanın sınıflar arası den-gesizlik olan veri kümelerinde AOT yönteminden ve di˘ger iyi bilinen sınıflandırma yöntemlerinden daha üstün performans gösterdi˘gini ortaya koymaktadır.
Bu bildirinin katkıları a¸sa˘gıda listelenmi¸stir.
• Önerilen algoritma AOT [2] algoritmasının yeni bir var-yantıdır. Algoritmaya ba˘glamsal çerçeve eklenerek algo-ritmanın performansı artırılmı¸stır.
• Önerilen algoritma bölümlemeyi Benzerlik Bilgili Uyar-lamalı Ba˘glamsal Haydutlar [8] için kullanılan yakın-la¸sma tekni˘ginin bir çe¸sitlemesine göre gerçekle¸stirir. Bu çe¸sitlemede [8]’dekinden farklı olarak eylem uzayının de˘gil sadece ba˘glam uzayının uyarlamalı bölümlemesi yapılmaktadır.
• Algoritmanın sınıflandırma performansı hem kendini olu¸sturan uzman havuzuyla, hem de güncel sınıflandırma yöntemleriyle kar¸sıla¸stırılmı¸s ve performans üstünlü˘gü gösterilmi¸stir.
II. PROBLEMTANIMI
Veriler d boyutlu X kümesinden gelmektedir. Her boyut
bir niteli˘gi temsil etmektedir. Sistemdeki uzman sayısı N ile,
sınıf sayısı K ile gösterilir. Sistemdeki i’nci uzman, verilen
bir x ∈ X için sınıflar üzerinde ei(x) ile gösterilen K × 1 boyutlu bir olasılıksal da˘gılım vektörü önerir. Tüm uzmanların önerilerinin birle¸simi e(x) = [e1(x), e2(x), . . . eN(x)]T ola-rak gösterilir. Yine ei uzmanının x(t) örne˘gine verdi˘gi öneri ise fi(t) [fi,1(t), . . . , fi,K(t)]T = ei(x(t)) ile gösterilir. f(t) = [f1(t), . . . , fN(t)]T bütün uzmanlarınx(t)’ye
verdik-leri öneriverdik-leri birle¸stiren N ×K matrisi ifade eder. Bu öneriler
algoritma tarafından sınıflandırmada kullanılır. 1 indikatör fonksiyonu
1(α) =
0 α yanlı¸s ise
1 α do˘gru ise
olarak tanımlanmı¸stır. Algoritmanın performası pi¸smanlık kri-teri ile ölçülür. Pi¸smanlık, algoritmanın T anına kadar en
iyi uzmanınkinin üstüne yaptı˘gı beklenen yanlı¸s sınıflandırma sayısını ifade eder. Amaç, T anına kadar olan pi¸smanlı˘gı
minimize edebilen bir algoritma geli¸stirmektir.
III. ÖNERILENÇEVRIMIÇISINIFLANDIRMAYÖNTEMI
A. Uzmanların E˘gitimi
Uzmanların birle¸siminden olu¸san sistemlerin performansı, sistemi olu¸sturan uzmanların performansına ba˘glıdır [6]. Öne-rilen algoritma ba˘glamsal bir ö˘grenme gerçekle¸stirece˘gi için farklı ba˘glamlarda uzmanlara farklı a˘gırlıklar ataması perfor-mansı artıracaktır. Bu nedenle, e˘gitim veri kümesinden rastgele N küme olu¸sturulmu¸s, her bir küme ile bir CART Karar A˘gacı [1] e˘gitilmi¸s ve her uzmanın e˘gitim veri kümesinden farklı bil-giler edinmesi sa˘glanmı¸stır. Kümelerin nasıl olu¸sturuldu˘gunun detayı Deney Sonuçları bölümünde verilmi¸stir.
B. A˘gırlıklı Ortalamalı Tahminci (AOT)
AOT [2] yöntemi, uzmanlara daha önceki önerilerinin isabetlerine bakarak birer a˘gırlık atar. Sonrasında ise uz-manların önerilerinin a˘gırlıklı toplamını hesaplar. i’nci
uz-man için a˘gırlık wi(t), uzmanların a˘gırlık vektörü w(t) =
[w1(t), . . . , wN(t)]T,t zamanındaki örne˘gin j sınıfı için bir-le¸stirilmi¸s olasılı˘gı pj(t) a¸sa˘gıdaki gibi hesaplanır:
pj(t) = N
i=1
wi(t)fi,j(t). (1)
t anındaki birle¸stirilmi¸s olasılık vektörü p(t) =
[p1(t), p2(t) . . . pK(t)] ile gösterilir. Algoritma tarafından
tahmin edilen sınıf, birle¸stirilmi¸s olasılı˘gı en yüksek olan sınıftır:
ˆy(t) = arg max
j (pj(t)). (2)
Gerçek sınıf y(t) ortaya çıktı˘gında, tüm uzmanlar önerileri-nin gerçek sınıftan ne kadar uzak oldu˘guna ba˘glı olarak i(t)
de˘gerinde kayba u˘grarlar. K × 1 boyutlu z(t) vektörü x(t)
örne˘ginin sınıf üyeli˘gini temsil etmektedir:
z(t) = [1(y(t) = 1), . . . , 1(y(t) = K)]T. (3)
Algoritma 1 A˘gırlıklı Ortalamalı Tahminci (AOT) 1: function FORECAST(w(t), f(t))
2: for j = 1, 2, ..., K do 3: pj(t) ←Ni=1ωi(t)fi,j(t) 4: ˆy(t) ← arg maxjpj(t) 5: return ˆy(t)
6: function UPDATEWEIGHTS(ηt, f (t), ˆy(t), y(t), L(t − 1)) 7: for i=1,. . . ,N do 8: i(t) ← j=y(t) fi,j(t) 9: Li(t) = Li(t − 1) + i(t) 10: for i = 1, . . . , N do 11: ωi(t + 1) = Nexp(−ηtLi(t)) r=1exp(−ηtLr(t)) 12: returnw(t + 1), L(t)
13: function WEIGHTEDAVERAGEFORECASTER(x, y, e) 14: Init: 15: for i = 1, . . . , N do 16: wi(1) = 1/N 17: Li(0) = 0 18: for t=1,. . . ,T do 19: f(t) ← e(x(t)) 20: ˆy(t) ← FORECAST(w(t), f(t)) 21: ηt← α ln(N) t 22: w(t + 1), L(t) ←
23: UPDATEWEIGHTS(ηt, f (t), ˆy(t), y(t), L(t − 1)) Uzmanların kaybı, önerdikleri olasılık da˘gılımının gerçek sınıfa olan mesafesinin bir fonksiyonu olarak tanımlanır ve
i(t) = 1 − fi(t)T· z(t) (4)
olarak hesaplanır.
Uzmanların a˘gırlıkları, bu kayıp fonksiyonu kullanılarak toplam kaybın bir üstel fonksiyonunun tüm uzmanlar üzerinde normalize edilmi¸s hali olarak hesaplanır:
Li(t) = t s=1 i(s) (5) ωi(t + 1) =Nexp(−ηtLi(t)) r=1exp(−ηtLr(t)) (6)
ηt ö˘grenme hızı parametresi ve α ö˘grenme katsayısı olmak üzere, ηt =
α ln(N)
t olarak hesaplanır. α = 8 seçildi-˘ginde AOT algoritması için T anına kadar olan pi¸smanlık
2T ln(N) ile sınırlıdır [2]. A˘gırlıklı Ortalamalı Tahminci, Algoritma 1’de verilmi¸stir.
C. Ba˘glamsal A˘gırlıklı Ortalamalı Tahminci (BAOT)
Ba˘glam vektörüxt, t anındaki ba˘glamı ifade eder ve nitelik vektörü x(t)’den farklıdır. Örne˘gin xt,x(t)’nin niteliklerinin
bir alt kümesi veya x(t)’nin do˘grusal bir transformasyona u˘gramı¸s hali olabilir. Bu makaledeki deneylerde ba˘glam, ör-ne˘gin reel de˘gerli niteliklerinden olu¸sturulmu¸stur.X,
ba˘glam-ların alabilece˘gi tüm de˘gerleri içeren çok boyutlu bir uzayı;
Y , eylemlerin alabilece˘gi de˘gerleri içeren sınırlı uzayı ifade
eder. Slivkins, ba˘glamların ve eylemlerin birle¸siminden olu¸san
P ⊂ X × Y benzerlik uzayının nasıl parçalara bölünece˘gini
açıklamı¸stır [8]. Ancak bu makalede sadece sınıflandırılma yapılaca˘gı için, tüm eylemler arasındaki uzaklık e¸sit varsayıla-bilir. Bu nedenle P benzerlik uzayı yerine X ba˘glam uzayını
parçalara bölmek yeterli olacaktır.
BAOT, Algoritma 2’de verilmi¸stir. Ba˘glam uzayının top ¸seklindeki parçalara bölümü Slivkins’in önerdi˘gi yöntemle yapılmı¸stır [8]. center(B), r(B), B topunun merkezini ve
yarıçapını, rew(B), μ(B) ise B topunun toplam ve ortalama
ödüllerini ifade eder. DX ba˘glam uzayındaki uzaklık fonksi-yonu olmak üzere,B topunun kapladı˘gı ba˘glamların kümesi
members(B) = {x : r(B) > DX(center(B), x)} (7) olur. x ba˘glam vektörü c × 1 boyutlu ise, uzaklık fonksiyonu olarak DX(x1, x2) =
x1− x22/c kullanılabilir.
Ba˘glam xt geldi˘ginde, bu ba˘glamın hangi topların etki alanında oldu˘gu hesaplanır.At,t anındaki topların kümesidir. AB
t = {B ∈ At : r(B) < r(B)} olarak tanımlanır ve B topunun Atkümesi içindeki etki alanı:
dom(B, At) members(B) −
B∈AB t
members(B) (8)
ile gösterilir.
B topunun t anındaki güven yarıçapı conft(B): conft(B) 4
log T
1 + n(B) (9)
olarak tanımlanır. Buradan(B), B topunun t anına kadar kaç
kere seçildi˘gini gösterir.
xt ba˘glamını etki alanı içerisine alan topların kümesi
B = {B ∈ At : xt ∈ dom(B, At)} olur. Ba˘glam xt için seçilecek top Bt arg max
B∈B (It(B)) olarak tanımlanır. It(B),
B topunun üst güven sınırını ifade eder ve a¸sa˘gıdaki ¸sekilde
hesaplanır:
D(B, B) DX(center(B), center(B)) (10)
Itpre(B) = μ(B) + r(B) + conft(B) (11)
It(B) = r(B) + minB∈At(Itpre(B) + D(B, B)) (12)
W(Bt), L(Bt) sırasıyla uzmanların Bt topu içerisindeki a˘gırlıkları ve toplam kayıplarını ifade eden N × 1 boyutlu
vektörlerdir.
p(t) = W(Bt)T · f(t) (13) hesaplandıktan sonra ˆy(t) sınıf tahmini yapılır. Bu durumda ortaya çıkan ödül π = 1(ˆy(t)=y(t)) ile gösterilir. Sonrasında
W(Bt) ve L(Bt) AOT algoritmasındaki gibi güncellenir.
Algoritma 2 Ba˘glamsal A˘gırlıklı Ortalamalı Tahminci (BAOT)
1: function INITBALL(center, radius)
2: B ← B(center, radius) 3: n(B) = rew(B) = 0 4: for i=1,. . . ,N do 5: Wi(B) = 1/N 6: Li(B) = 0 return B
7: function ADAPTIVECONTEXTUALWAF(x, y, e)
8: Init: 9: B ← INITBALL(x1, 1) 10: A ← {B} 11: for t=1...T do 12: Getxt 13: Bt← arg maxB∈BIt(B) 14: f(t) ← e(x(t)) 15: ˆy(t) ← FORECAST(W(Bt), f(t)) 16: π ← 1(ˆy(t) = y(t)) 17: n(Bt) ← n(Bt) + 1; rew(Bt) ← rew(Bt) + π 18: ηt← α ln(N) n(Bt) 19: W(Bt), L(Bt) ←
20: UPDATEWEIGHTS(ηt, f (t), ˆy(t), y(t), L(Bt)) 21: if conft(Bt) ≤ r(Bt) then
22: B ← I´ NITBALL(xt,r(Bt)
2 )
23: A ← A ∪ { ´B}
IV. PERFORMANSDE ˘GERLENDIRMESI
Bu bölümde, veri kümesinin detayları verilmi¸s ve önerilen yöntemin performansı di˘ger bilinen yöntemlerle kar¸sıla¸stırıl-mı¸stır.
A. Simülasyon
Veri Kümesi: Bu sınıflandırma görevi için kullanılan veri
kümesi, UCI (Center of Machine Learning and Intelligent Systems, University of California) Makine Ö˘grenimi Veri Deposu’ndan alınmı¸stır [7]. Veri kümesi sa˘glıklı sınıf lehine dengesizlik göstermektedir. Örneklerin%92.5’i sa˘glıklı gruba aitken%7.5’i hasta gruba aittir. Hasta grupta iki farklı hastalık vardır, veri kümesi toplam 3 sınıf içermektedir. Hastalara uygulanan testlerden 21 nitelik toplanmı¸stır; bunların 6’sı reel, 15’i ikilidir. Bu sınıflandırma görevinde e˘gitim için 3772, test için 3428 örnek bulunmaktadır.
Bilinen algoritmalar: Önerilen Ba˘glamsal Üstel A˘gırlıklı
sistemin performansı, farklı makine ö˘grenim algoritmalarıyla kar¸sıla¸stırılmı¸stır. Bu algoritmalar Yardımcı Vektör Makineleri (SVM), k En Yakın Kom¸su (k-NN), CART Karar A˘gacı, AOT ve e˘gitilen uzman havuzundan seçilen 3 uzmandır (En ˙Iyi, Ortalama ve En Kötü uzmanlar). Uzmanların iyilik sıralaması, test setindeki ortalama do˘gru tahmin oranlarına bakılarak yapılmı¸stır.
Deney Parametreleri: Bu deneyde, 3 parametre
de˘gerlendi-rilmi¸stir: tahmin hata oranı (PER), yanlı¸s pozitif oranı (FPR) ve negatif hata oranı (FPR). PER, gerçekte hasta olup sa˘g-lıklı tahmin edilen veya gerçekte sa˘gsa˘g-lıklı olup hasta tahmin
edilen örneklerin toplam örnek sayısına oranıdır. FPR negatif (sa˘glıklı) örneklerden pozitif (hasta) olarak sınıflandırılanların oranıdır. FNR ise pozitif örneklerden negatif olarak sınıflan-dırılanların oranıdır.
B. Deney Sonuçları
Kar¸sıla¸stırılan tüm bilinen algoritmalar e˘gitim veri kümesi-nin tamamıyla e˘gitilmi¸stir. Uzman havuzunu olu¸sturan CART karar a˘gaçlarını üretmek için e˘gitim seti içerisinde birbirin-den uzakta 10 veri kümesi seçilmi¸stir, bu kümelerdeki örnek sayıları büyüklükleri 10 ile 100 arasında rastgele atanmı¸stır. Sonra seçilen kümelerle CART karar a˘gaçları e˘gitilmi¸s ve uzmanların farklı alanlarda e˘gitilmesi sa˘glanmı¸stır. Sonrasında, sınıf dengesizli˘gini azaltacak ¸sekilde rastgele seçimler yapıla-rak test setinden 3,000 örnek olu¸sturulmu¸stur ve algoritmalar bu örneklerle de˘gerlendirilmi¸stir. Bu sayede problem zorla¸stı-rılarak, e˘gitim ve test kümelerinin farklı da˘gılımlardan gelmesi sa˘glanmı¸stır. Deney 25 defa tekrarlanmı¸s ve her deneyde seçilen örnekler ve sıraları de˘gi¸stirilmi¸stir. Deneyler sırasında
α = 8 seçilmi¸stir.
Tablo I algoritmaların performans parametrelerini içermek-tedir. PER, FPR, FNR parametreleri için ortalama ve standart sapma de˘gerleri verilmi¸stir. Önerilen yöntemin ortalama PER parametresi, kendini olu¸sturan uzmanların en iyisinden%0.63, AOT algoritmasından %0.52 daha iyidir. Deneylerde k-NN ve SVM’nin performansının dü¸sük oldu˘gu gözlemlenmi¸stir. Bunun nedeni e˘gitim kümesinde sınıf da˘gılımının dengesiz olmasıdır. Ba˘glamsal AOT performans açısından genellikle en iyi uzmandan daha üstündür.
A˘gırlıklı Ortalamalı Tahminci algoritmasının ba˘glamsal var-yantının, ö˘grenme e˘grisi de orijinal versiyonuna göre daha üstündür. Bu e˘griler ¸Sekil 1’de gösterilmi¸stir.
V. SONUÇ
Bu bildiride sınıflar arası dengesiz da˘gılıma sahip e˘gitim veri kümelerinden ö˘grenme yapabilen bir algoritma sunulmu¸s-tur. Bu algoritma A˘gırlıklı Ortalamalı Tahminci algoritmasının yeni bir varyantıdır. Ba˘glam uzayını uzaklıklara göre parçalara bölüp her bir parçada ayrı a˘gırlık tanımlayan bu varyantın kendini olu¸sturan uzmanlardan ve bilinen güncel sınıflandırma yöntemlerinden daha yüksek performansa sahip oldu˘gu göste-rilmi¸stir. Algoritma aynı zamanda ba˘glam kullanmayan orijinal versiyonuna göre de daha yüksek performans göstermektedir. TABLO I: Algoritmaların Sınıflandırma Performanslarının Or-talama ve Standart Sapma Kar¸sıla¸stırması
Ölçü Ortalama Standart Sapma
Parameters PER% FPR% FNR% PER FPR FNR
Ba˘glamsal AOT 1.63 2.63 0.54 0.41 1.15 0.52 AOT 2.15 3.63 0.005 0.50 0.54 0.025 SVM 38.53 0.00 94.69 10.62 0.00 2.49 k-NN 24.95 2.99 56.89 7.19 0.37 9.66 Karar a˘gacı 2.78 0.51 6.15 1.08 0.21 2.85 En ˙Iyi Uzman 2.26 3.66 0.31 0.61 0.62 1.54 Ortalama Uzman 11.12 5.31 20.65 9.58 8.19 21.07 En Kötü Uzman 24.62 16.42 33.16 7.84 10.75 11.64 0 500 1000 1500 2000 2500 3000 84 86 88 90 92 94 96 AOT
¸Sekil 1: BAOT ve AOT algoritmalarının ö˘grenim e˘grileri Medikal veri kümeleri genellikle dengesiz da˘gılıma sahip ol-du˘gu için, bu algoritmanın medikal veri kümelerinde kullanımı faydalı olacaktır.
KAYNAKLAR
[1] Olshen Stone Breiman, Friedman. Classification and regression trees. Wadsworth Brooks, 1984.
[2] Nicolo Cesa-Bianchi and Gábor Lugosi. Prediction, Learning, and Games. Cambridge University Press, 2006.
[3] Xiao Lin Chen, Yan Jiang, Min Jie Chen, Yong Yu, Hong Ping Nie, and Min Li. A dynamic cost sensitive support vector machine. In Advanced
Materials Research, volume 424, pages 1342–1346. Trans Tech Publ,
2012.
[4] Yoav Freund and Robert E Schapire. A desicion-theoretic generalization of on-line learning and an application to boosting. In European
Confe-rence on Computational Learning Theory, pages 23–37. Springer, 1995.
[5] Bartosz Krawczyk, Michał Wo´zniak, and Gerald Schaefer. Cost-sensitive decision tree ensembles for effective imbalanced classification. Applied
Soft Computing, 14:554–562, 2014.
[6] Nick Littlestone and Manfred K Warmuth. The weighted majority algorithm. In 30th Annual Symposium on Foundations of Computer
Science, pages 256–261. IEEE, 1989.
[7] Ross Quinlan. Thyroid Disease Data Set. https://archive.ics.uci.edu/ml/datasets/Thyroid+Disease. [Çevrimiçi; en son eri¸sim: 02 ¸Subat 2017 ].
[8] Aleksandrs Slivkins. Contextual bandits with similarity information.
Journal of Machine Learning Research, 15(1):2533–2568, 2014.
[9] Cem Tekin, Jinsung Yoon, and Mihaela van der Schaar. Adaptive ensemble learning with confidence bounds. IEEE Transactions on Signal