• Sonuç bulunamadı

Siegel yönteminin temel yaklaşımı (Siegel [16], [17]) kural türetme, sorgu dönüşümü ve düşük maliyetli sorgu işlemini bulmaktır. Bu yöntemden, önerilen kuralları kullanarak bir çok dönüşüm türetmek mümkündür ve bunların bir kısmı sorgu iyileştirme işlemi için kullanışlı olmayabilir. Bunun için kurallar kümesinin büyüklüğünü sınırlamak çok önemlidir. Başka bir nokta ise yöntem gerçek verilere değil gerçek verilerden oluşturulan verilere bağlıdır. Bu yüzden, yöntem veri şablonlarını kullanarak geliştirilmelidir. Böylece veritabanındaki gerçek veri değerlerinin üzerinde, kuralların etkileri belirlenebilir. Bu yüzden, bu tarz sorunlarla başa çıkabilmesi için temel yöntemi geliştirmek önemlidir. Bu geliştirmeler Siegel’in aynı araştırmasında üç farklı alanda özetlemiştir. Bunlar “Kullanıcıya Özel Alan Bilgisi”, “Sezgisel Bilgi” ve” İstatistiksel artış” alanlarıdır.

Kullanıcıya Özel Alan Bilgisi: Otomatik kural türetme sabit bir işlem değildir, başka bir

deyişle, çeşitli anlamsal bilgi ve istatistiklere bağlıdır. Temel yöntemde bilginin kullanımı tek bir alan tarafından sınırlandırılmıştır. Yine de, kullanıcıya özel alan ilgisi tarafından analiz edilen ve kullanılan bilgi için KDD ile ortaya atılan birkaç yöntem vardır. Bu alan bilgisi kural sınıflarının bir belirtisi olarak görülebilir ve bu belirtiye göre hangi kural sınıfının anlamlı ilişkiler içerdiğini belirlemek mümkündür.

Sezgisel Bilgi: Temel yöntemi desteklemek amacıyla sezgisel bilgi SQO yaklaşımı için

çok önemlidir. Yine de bu bilginin kullanımı da kurallar için sınırlandırılmıştır. Bu kurallar sadece değere bağlıdır. Başka bir deyişle bağımlılık yoktur. Eğer ilişkilerin bağımlılıklarını kapsayan yeni bir sezgi tanımlamak mümkün olursa, temel yöntem gerçekte kullanılan sorgular için daha verimli ve daha uygulanabilir olacaktır. Sezgi, keşfedilmiş sezgilerden (İndeks tanıtma, tarama azaltması gibi) türetilemeyen farklı kural tiplerini bulmak için kullanılabilirler. Eklenen sezgiler, referans kural sütunları,

dinamik kural sütunları, statik kurallar (Özellikle ilişkinin anahtar sütunu için) ve kategori sütunları gibi yararlı kuralların türetilebilmesi için ilişkilerde ne tip sütunların olması gerektiğini keşfedecek şekilde geliştirilmelidir.

İstatistiksel Artış: İstatiksel artış, geçmiş sorguların işleme konulması ile toplanabilen

istatistikleri (geçmiş bilgileri) kullanan kural türetme işleminin kalitesini artırmak için kullanılır. Siegel yöntemi, istatistiklerin elde edilmesi durumunda kural türetme yöntemindeki önerilen kurallar için potansiyel maliyet kazancının değerlendirilmesinde 3 faktörün belirlenmesi için bu istatistiklerin kullanılabileceğini işaret eder. Bu üç faktör eski türetmelerin performansı ile her hangi bir bilgiye sahip olmadan sadece şimdiki sorguyu kullanarak bu faktörlerin yöntemle keşfedilememesidir. Türetilebilme faktörü, kural sınıfındaki sütunların ilişkisine göre yapılır. Bakım faktörü kural kümesindeki bir kuralın bakımının ve bozuklukların kontrol edilmesinin maliyetiyle ilgilenir. Bu faktör sonradan kural türetişinin yararlılığı hakkında bir karar vermek için kullanılabilir. Önceki seçicilik faktörü, önerilen kural için önceki koşulunun seçiciliği ile alakalıdır. Eğer önceki koşul çok genişse, önerilen kuraldan gerçekten yararlı yeni bir kural türetmek pek mümkün değildir. Görüldüğü gibi, bu faktörlerin uzmanlar tarafından belirlenebilmesi çok kolay değildir. Çünkü bu faktörlerde işlenmiş sorguların geçmiş performanslarına ve bunların istatistiklerine bağlıdır.

KDD’de veri bağımlılıkları temelli yöntemleri kullanarak yeni kuralları öğrenmek mümkündür. Bu yöntemlerdeki ana fikir, istatistikler ve alan bilgisi aracılığıyla ilişkiler arasındaki veri bağımlılığını ölçmektir. Böylece sağlam kural sınıfları bulabilmek için gereksiz sütunların elenmesi sağlanır. Genellikle yöntemler tek bir kuralın yerine, bir kural sınıfında olmasının test edilmesi temeline dayanır. Çünkü bazı durumlarda kurallar aynı kural sınıfında olmalarına rağmen bir kural diğerlerinden daha verimli olabilir. Bu sebeple kural kümesinin verimli ve verimsiz kurallarla çok fazla büyümesi gerçekleşebilir. Buda SQO’nun performansını azaltır.

(Siegel vd. [23], [24]) Siegel tarafından sunulan, yöntemlere karşılık, (Hsu ve Knoblock [13], [14], [15]) tarafından sunulan, Knoblock temelli yöntem daha verimli kullanılabilir. Çünkü her hangi bir sezgi ile sınırlandırılmamıştır. Yöntem birkaç yönden çok umut vericidir. Bunlardan biri, verilen sorgu yeniden formüle edilir ve sonra yeni kurallar

türetmek için kullanılırlar. Bir başka umut verici yönü ise, veri örnekleri verilen sorgunun koşulları için bu yöntemle kontrol edilir ve her bir koşul için koşulla karşılanan pozitif örnekleri bulup bu örnekler aday koşulların yapımında kullanılır. Sonra negatif örnekleri elemek için en güçlü aday koşulları seçer. Bu eleme, veri tipleri, uzunlukları, dizin yapıları ve bunların oluşum sayılarına bağımlıdır.

(Lowden vd., Lowden ve Lim [16],[17]) tarafından sunulan SQO sistemi, birkaç eklemeyle Knoblock yöntemi' ne benzer bir öğrenme işlemi temeline dayanır.

BÖLÜM 4

DİNAMİK VERİTABANLARINA DAYALI ÇOKLU REGRESYON ANALİZİ

Veritabanlarında saklanan veri istatistiki açıdan oldukça önemlidir. Bu sistemler sayesinde daha çok veri üzerinde uygulanacak olan istatistiksel metotlar, verilerin içerisinde direkt görülemeyen ilişkilerin tespiti ile daha anlamlı bilgilerin bulunmasına imkan sağlamaktadır. Bu amaçla “Çoklu Regresyon Analizi” kullanılarak akıllı bir sistem oluşturulabilir. Bu sistem çeşitli mühendislik alanlarındaki modellemelerde kullanılabileceği gibi veritabanı alanında sorguların optimizasyonu için yeni kuralların öğrenilmesinde kullanılabilir. Bu bölümde öncelikle oluşturulan yazılım sisteminin temelini oluşturan “Çoklu Regresyon Analizi” genel hatlarıyla Bölüm 4.1’de açıklanmıştır. Yazılımın Gemi İnşaatı Mühendisliği alanında gemilerin başlangıç tasarımı için yapılan modellemelerdeki uygulaması Bölüm 4.2’de anlatılmıştır.

Benzer Belgeler