Veri Madenciliği ve Bilgi Merkezleri

(1)

Türk Kütüphaneciliği 17,4 (2003), 369-380

Hakemsiz Yazılar J_______

Opinion Papers

Veri

Madenciliği ve Bilgi

Merkezleri

Öz

Günümüzde bir çok kurum ve kuruluş işlem ve hizmetlerini otomasyona geçirmiş tir. Bu kurum ve kuruluşlar kullanıcı odaklı olarak faaliyetlerini Internet üzerin den de sürdürmeye çalışırken, daha büyük kazanımlar elde etme amacındadır. Elde etmek istedikleri kazanımlar kalitelerini arttırmalarının yanında, kullanıcı memnuniyetine de dayanmaktadır. Kullanıcılarının ürün ve hizmetlerinden ne ka dar yararlandıkları, memnun kalıp kalmadıkları ancak, onların davranışları iz lenerek ortaya konabilir. Bilgi merkezleri de kullanıcı davranışlarını izleyen ve elde ettiği bilgilere göre işlem ve hizmetlerini geliştiren kurumlardandır. Bilgisa yara dayalı işler sürecinde otomatik olarak oluşan verinin işlenip analiz edilme si, bilgi merkezlerine çalışanları ve kullanıcıları hakkında anlamlı bilgiler suna caktır. İşlemler ve kullanım sırasında oluşan veri büyük bir yığın halinde olup, bu yığından anlamlı veri elde edilmesi bazı özel yöntem ve tekniklerin kullanıl masını gerektirmektedir. Veri madenciliği oluşan verilerin toplanması, bir yapay zeka aracılığıyla analiz edilmesi ve yorumlanarak amaç ve hedeflere ulaşmada gerekli adımları önermesi sürecidir.

Yrd. Doç. Dr. Sacit Arslantekin, Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Bilgi ve Belge Yöne timi Bölümü öğretim üyesidir. E-posta: [email protected]

(2)

370 Hakemsiz Yazılar / Sacit Arslantekin

Giriş

1960’lardanbu yana işyaşamında bir moda gibi hızla değişen planlar, analizler ve stratejiler söz konusudur.. Bu değişime ayakuydurabilmekiçin ise üst seviye yöneticilerin, analistlerinvebilgi profesyonellerinin gereksinim duydukları şey dahafazla bilgidir. Masalardakiçok güçlübilgisayarlara ve iletişim sistemlerine rağmen uzmanlar, karar mekanizmasını oluşturan yöneticiler vedanışmanlar,ör gütlerinde zaten mevcutolan kritikbilgilere ya da enformasyonlaraulaşamama sıkıntısınıyaşamaktadırlar.

Örgütler az veya çok milyarlarcabyteuzunluğunda,kullanıcıları, süre giden işleri, hizmetveürünleri, çalışanları vb. hakkındaveri üretirler. Ancak bu veriler bilgisayar sistemlerinin içindeher geçen gün ulaşılması daha da zor bir hal ala rak gömülür gider. Uzmanlar ise,mevcut verilerden elde edilmiş,işlenmiş ve de polanmış sadece küçükbir parçaveriye dayanarak değerlendirme yapabilmekte dirler. Örgüt bünyesinde toplanan verilerinyalnız raporlama amaçlı kullanılma sı, yöneticilere yeterincekarar desteği sağlanamamasına neden olmaktadır(Ka- rakaş:2002).

Dünyadaki ani değişmelerin beklenmedik bir şekilde kurum ve kuruluşlara olan etkisi karşısında bilgi teknolojilerikritik bir misyonu da üstlenmektedirler. Bilgiteknolojileri ileilgilenenlerin stratejik misyonları,teknolojiyikesintisizve mekandan bağımsız bir halde sunarak organizasyonların performansını arttır maktır. Örgütün iş stratejisinin merkezindeki yeriniz, yüksek kalitedeki veriyi doğru insana doğru zamanda sunabilmenize bağlıdır.

Bilgisayar sistemleri veveritabanları sayesinde hızla toplananverilerherge çen gün artmaktadır. Gereközel sektör, gerekse kamu yöneticileri, bu toplanan veriyi karardestek amaçlı bilgiyedönüştürmek, bilgiye dayalı yönetime geçmek durumundadırlar. Sonuçta bu veriler, insanları, onların koşullarını,isteklerini,ge reksinimlerini, sorularını içermekte ve eğilimlerine karşı da ipuçları vermektedir. İstatistik; bu verilerden yararlanmanın yolunu açmakta ve kurumlann, uygula dıkları programların,yöneldikleri kesimingereksinimlerini karşılayıp karşılama dıklarının farkına varmalarını sağlamaktadır.

İstatistik, kendisinden yararlananların veriyi analiz etmesi ve verideki gizli bilgileri karar destek amaçlı kullanılabilmesini sağlar. Özelliklegünümüzüneko nomik koşullan ve yaşanan hızlı değişim ortamında,iş deneyimiveön sezilere dayanılarakalmankararlarda yanlış karar alma riski çok yüksektir. Riski azalt manın tek yolu bizleri“BİLGİYE” dayalı yönetime taşıyankarardestekçözüm lerdir. İstatistik ve veri madenciliği gereçlerigerçekanlamdabirkarardestek sis temi oluşturmada olamazsa olmaz ikilidir.Bunoktadabilgi teknolojilerinden ya rarlanmak elbettekaçınılmazdır.

(3)

Veri Madenciliği ve Bilgi Merkezleri 371

Veri Ambarları

Veri ambarlarınınamacı, operasyonel veri tabanlarındaki verileri kullanılabi lir kılmak ve bunları diğer dışardan almanbilgive verilerle harmanlamaktır.

Kurum genelindeki bilgileri veri ambarına atmak, onları birleştirmek, özet ha linderaporlamak bilinenveriambarıteknikleridir. Veri ambarlarına geneldealın mayanbilgiler, site klik bilgileridir. Yani, “site ziyaretçisi 2 no’lu sayfaya baktı, üçürüne/bibliyografik kimliğe baktı, birisini bibliyografyasına ekledi ya da biri nin detayına gitti” gibi bilgiler site klik bilgileridir. Ziyaretçiyi “gözetler” gibi toplananbubilgilersitenizigeliştirmekiçin çokisinize yarayacaktır.Bu bilgile ri toplamanın çeşitli yollan bulunmaktadır. Apaçhe, IIS gibi programlarüzerinde birkaç değişiklik gerçekleştirilerekbu tür bazıprogramlar kullanıcıyı takip eder hale getirilebilir. Takip bilgisini almanın yollannm başında, ‘servis programı’ kullanmakgelir. ‘Sayfa servis’ programlan sadece sayfa ile uğraşırlar. Sayfaser vis eklentileri ile de kullanıcı takip ettirilebilir. “Servisprogramı”veonlannüze rine kurulan ticaret uzantıları, ziyaretçi hakkında her turlu e-ticaret bilgisiniiçe recektir. Mesela ziyaretçi sepeti hakkında bilgiler oradan alınabilir (Bayram- lı:2002).

Bildiğimiz gibibirçok kurum yada kuruluşInternetüzerindekendilerini,ürün ve hizmetlerini tanıtan birsite yapmaktadır. Eski ekonomi şirketleri denilen ve gerçek mağazası olanlardan tutun, sadece sanal ortamda vücut bulanşirketler bi le bu yeni ortamdankazanç elde etmeye başladılar. Bir sure sonra, bu sanal ma ğazalar kullanıcılarına daha iyihizmet verebilmek içinsitelerine giren kullanıcı nın her hareketini kaydeder oldular. Kullanıcılarının yoğunlukla kullandığısay falan ve ürün yada hizmetleri bu yolla anlayacaklar ve buna göre site tasanmmı düzeltme şanslan olacaktı. Bu amaç için, sayfa ve sayfa üzerinde gösterilen mal- lann kayıtlannı içeren, kullanıcının hareketlerine göre yazılan bir günlük kütüğü yarattılar. Her kullanıcı hareketi, bir şekilde kütüğe geçti. Örneğin “x.html” say fasınadört kez bakan A kullanıcısı,bu kütükte dört kayıt yaratmış olacaktı. Bu sayede hangisayfaların rağbetgördüğü anlaşıldı,fakat esas önemliolan kullanı cı istihbaratıdenenönemlive stratejik bilgi sayfalardan alınamadı.Ziyaret veri sininkişiselleştirilmesigerekiyordu, bu da ziyaret verisini zatenkayıtlı olan kul lanıcıbilgisi ile birleştirmek suretiyle başarıldı.

Veri ambarlan bu seviyede devreye girmiştir ve ziyaret kütüğü kullanıcıkü tüğü ilebirleştirilerek, raporların kullanıcı bazındaçıkartılması başanlmıştır..

Bu gibi biruygulama, tahmin edileceği gibi muazzam denecek kadar büyük miktarda veri ileoynamaya mecbur bırakmaktadır. Büyükçe bir kurum yadaku ruluşun mesela 100.000 sayfa ziyareti ve5.000 kayıtlıkullanıcısı olduğunu farz etsek, bu veri içinden yararlanılabilecek bilgi çıkarmanın zorluklanm gözümü zün önüne getirebiliriz. Sonuç olarak kurum ve kuruluşlar, kendileri içinyararlı olabilecek butürde bilgileri çıkarmak için iki türlü yolu seçmişlerdir :

(4)

372 Hakemsiz Yazılar / Sacit Arslantekin

Bunlardan ilki,birvarsayımdabulunarak üzerinde çalışma yapmaktır. Örne ğin, kullanıcılarımız arasında“x” veritabanmabakmasına rağmen bu veri taba nındanyararlanmayan bir“a”grubu vardır. Bu kullanıcıları belirleyiponlarınis tedikleri veri tabanına üye olmak, onları yeniye yönlendirmek gerekebilir. Bu varsayım sonrasındakullanıcı bilgilerimizi veri ambarındaki verilerle eşleştirip çeşitli yazılım ve sorgulama dilleri kullanarak bazı sonuçlara ulaşmamız müm kündür. Elde ettiğimiz sonuç bizim yeni birtavıriçine girmemizi gerektirebilir ya da gerektirmeyebilir. Bunuancak bu sorgulamalar sonucueldeettiğimiz veri leri kendiölçütlerimizle kıyaslayarakortaya koyabiliriz.

Diğer bir yolise, bilgisayar vekullanılan sistemlerin otomatikolarak verileri analiz etmesi veilginçgörülen durumların raporedilmesi yöntemidir.

VeriMadenciliği

Karar aşamalarındaçok kritik bazıbilgiler vardır ki, sonuçların etkileri bubilgi lerin doğruluğuyla orantılıdır. Birçok durumda cevabını tam olarakveremediği miz sorulardoğrultusunda karar verebiliriz. Kullanıcılarımızın ilgi alanları, bize karşı olan bakışaçıları, diğer bilgimerkezleriile olan ilgileri, kaynaklarımızdan yararlanma ve kullanım sıklıkları, eğitim ve bilgidüzeyleri gibibilgiler onlara hizmetlerin kalitesi üzerinde çok netetkileryapacaktır.Butürbilgiler teorik ola rakher ne kadar sistemlerimizdekayıtaltında olsada, kullanılabilir bir şekilde açık ve net yanıtlara ulaşabilmemiz mevcutkullanımdaki sistemlerle neredeyse imkansız denecekkadarzordur.

Çok büyük veri yığınları altında saklıolanbu bilgilere ulaşmak için,uzun yıl lar boyu yapılagelençalışmaların neticesinde bir dizimetodolojigeliştirilmiştir. Veri madenciliği uzun yıllardır özellikle Batı ülkelerinde üzerinde çalışılan bir konuolmasına rağmen, gerçek hayatta, yazılım endüstrisininsonyıllardaüretmiş olduğu ileriteknolojiürünü yazılımlarilekullanılmaya başlamıştır.

Verimadenciliği,büyük miktarda veridenanlamlı bilgi çıkarma sanatıdır. Bi lindiğigibi, ‘veri’ile ‘bilgi’ aynı şey değildir. Bilgi bir anlamıyla, üzerindeirde lemeyapılabilenve eylem planı oluşturabilen bir ileti, gözlem, ve sayısal/görsel raporlar toplamıdır. Veri madenciliği, kullanılan verimadenciliği programı yardı mıyla, veri ambarı üzerine çeşitli yollar veformatlarda toplanan verileri işleye rek bizekritik ve çalışmalarımızakullanıcımemnuniyetini sağlayacak yönde bil gi sağlamaktadır. Veri madenciliğini,örgütlerinkarar aşamaları içinyeni bilgiler üreten yadagelecekleilgili tahminlerve planlaryapmamızısağlayanbir dizi tek nikler ve anlayışlar bütünüolarak tanımlayabiliriz.

Harrod’s sözlüğünde verimadenciliği “ilk bakıldığında pekfazla anlamtaşı mayan veri setlerinden anlamlı bilgi çıkartma sürecidir” şeklindetanımlanmıştır (Harrod’s, 2000 : 208).

(5)

Veri Madenciliği ve Bilgi Merkezleri 373 Verimadenciliği toplananbüyük yığın halindeki veriler arasında örnek kalıp ların tanımlanması, eğilimlerin belirlenmesi ve gerekli ilişkilerin kurulması iş lemlerine ait bir süreçtir.

Veri madenciliği,veri tabanları,istatistik ve yapay öğrenme gibi bilgi yöneti mi alt bileşenlerinin kavramlarına dayalı teknikler kullanır ve birbilgi yönetim işinin diğer modülleri ile uyumlubirfikirsel yapı oluşturur.

Zaman zaman veri madenciliği istatistiksel programlar ya da müşteri takip programlan olarak algılandığıgörülür. Dikkattenkaçmaması gereken aynntı ve ri madenciliğinin bir sorgu işleme mekanizması, yapay öğrenme sistemi olmadı ğıdır.

Ülkemizdeson dönemlerde sık kullanılmaya başlayanveri madenciliği kav ramının, Avrupa ve KuzeyAmerika ülkelerinde birbirinden çok farklı alanlarda aynıamaçla, 10 yılı aşkın süredir kullanıldığını biliyoruz.Pazarlama vesatış ala nındahedef pazarların tespitinde, müşteri ilişkilerinin yönetiminde, sepet anali zinde, çapraz satışlarda, pazar segmentasyonlannda ve müşterihatırlamada sık sıkveri madenciliğinden yararlanılmaktadır. Veri kaynaklarımişlemek için müş teri kartı bilgilerinin kaydedilmesinde, müşteri şikayetlerinin incelenmesinde, yaşam biçimi çalışmalarında, web ve/veya e-ticarette veri madenciliği oldukça büyük işleve sahiptir. Öte yandan birliktelik bilgilerine dayanan tahminler ve analizler de veri madenciliğinin kullanıldığıalanlararasında sayılmaktadır. Verimadenciliğitemelde şu yararlan sağlar:

1) Satış sırasındave satış sonrasında kazancm artmasını sağlar, 2) Kayıplan azaltarak kazancın artmasını sağlar,

3) Daha fazla ölçülebilir değerler ortaya koyar (Data, 2003:4).

Yapay öğrenmekavramı da son yıllarda pekçok sektörde kullanılmayabaş lanmış olup, zaman zamanveri madenciliği olarakdaanılmaktadır. Yapay öğren me bir makineveyazılımının“öncekisonuçlara dayalıolarak performans sağla yabilme yeteneği” olarak tanımlanabilir(Foldoc, 2003). Gerçekte bu iki kavra mın pek çok ortak noktalan bulunmaktadır.Bunun için örneğin konuşma tanıma sını gerçekleştirenbir yazılımı ele alalım. Aynı sözcükinsanlartarafındanfarklı biçimdesöylenebilmektedir.Ağızdan çıkan ses kişinin cinsiyetine, yaşma, aksa nma, hatta sağlık durumuna göre farklılık gösterebilmektedir. Yapay öğrenme kendisine verilen örneklerden model çıkartarak daha sonra yapılması gerekeni kendisibelirleyebilmektedir. Bunun gibi görüntü tanıma, elyazısı tanıma vb. ya zılımların da kullanıldığını bilmekteyiz.

Veri madenciliği istatistik ve bilgisayar bilimlerinin buluştuğu bir alandır. Geçmiş örnekler bir örnek kümesi oluşturuyor. İstatistik bizeörnek kümeden çı karım yapmak için gerekenteoriyi sağlar.Bilgisayar bilimleri de bu çıkarımı

(6)

ya-374 Hakemsiz Yazılar / Sacit Arslantekin

zilimveyadonanım açısındanyüksekbaşanmlı gerçeklemekte devreye girmek tedir.

Web Madenciliği:

Anlaşılacağı gibi veri madenciliği kurum içi ağlardakullanılabileceği gibi, Inter net üzerindeyapılandırılmışsitelerde de büyük ölçüdekullanımimkanına sahip tir. Özelliklewww yapısı üzerinde oldukça yoğun biçimde kullanılmaya başlan mıştır.Bu durum web madenciliği teriminin veri madenciliği bünyesinde gelişti ğini göstermektedir. Web madenciliği sayesinde, www ile ilişkili aktiviteler yada insan yapımınesnelerden kesin bilgi ve yararlı olabilecek örnekler ile ilginç çı karımlarda bulunulabilmektedir.Temel olarak web madenciliği; web dokümanla rına erişimi, webüzerindeki bilginin seçim ve işlenmesini, web sitelerinden ve bunlar arasındakigeçişlerden örneklerinmeydana çıkartılmasını vebulunan ör neklerinanalizini içermektedir.

Web madenciliği temel olarak üç şekilde kategorizeedilmektedir: Web-içerik madenciliği, web-yapı madenciliği ve web-kullanım madenciliği (Hsu, 2003 : 438).

Web-içerikmadenciliği, dokümanıniçeriğiyada tanımlamalarından elde edi len verilerin işlenmesidir. Buyöntem kavramların dizinlenmesi temeline dayanan kaynak keşfibiçimindekiwebmetinlerinin madenciliğini içerir.

Web-yapı madenciliği, ise, www üzerindekiörgütselyapılanmavebağlantı lardan çıkarılan bilgilerin işlenmesi anlamındadır. Web-yapımadenciliği, sayfa larüzerindeki metin ve verilere bakmak yerine,web sitelerinin yapısından bilgi çıkartmaya yönelmektedir. Bu yöntem akıllı metinler ve diğer bağlantılar gibi, web sitesi üzerindeki dokümanlararasındavar olan bağlantılarüzerinde incele me yapar. Bu yöntemde, geçerli web sayfalarının bulunacağılinkleraracılığıyla nakledilen bilgiden yararlanılır( Hsu, 2003 : 438).

Web-kullanımmadenciliği, ki aynı zamanda web-kütükleri madenciliği ola rak da bilinir, web erişimkütüklerinden ve diğerwebkullanımbilgilerinden çı karılanilginç örneklerin işlenmesianlamındadır. Web-kullanım madenciliği, di ğer yöntemlerin izlediği yol yerine, web kullanıcısının davranışlarını ya da bir kullanıcının web’inasıl kullandığı ve web ile nasıl karşılıklı etkileşimiçine gir diğineodaklanmıştır.Bu yöntem ikincil veri ya dakullanıcı etkileşiminden türe tilmiş veri ile ilgilenir. İki yolla bunusağlar: Genel ulaşım örneğinin izlenmesi (ulaşım örnek ve eğilimlerini daha iyi anlamak için web kütüklerinin analizini yapar), isteğeuyarlanmışkullanım izlemesi (bireysel eğilimleri analiz eder).

Bunlardanweb-içerik madenciliği, web tabanlı veri, doküman ve sayfalardan yeni veri ve bilgi keşfetmeyle ilgilidir. Kosala ve Blockeel’e göre, web-içerik madenciliğindetemeliki yaklaşım bulunmaktadır: bilgi erişim bakışı ve

(7)

verita-Veri Madenciliği ve Bilgi Merkezleri 375 banı bakışı. Bilgi erişim bakışı;hem serbest metingibi yapılandırılmamış hem de HTML ve hyperlink şeklindekiverilerde olduğu gibiyanyapılandınlmış sayfa larda çalışmak için düzenlenmiştir. Bu bakış kümeleme, sınıflama,metin örnek leri bulma vekurallar çıkarmagibi tekniklerle doküman analizinetemellendiril miş örnekler ve modeller tanımlamayaçalışır. İçerik madenciliğinde bir başka yaklaşım da benzer yapılandınlmamış doküman madenciliğinde kullanılantek niklerin yanında, yan yapılandınlmış dokümanlar için ortam elemanlarının bir çeşidiniiçerendoküman analizini gerçekleştirecek karmaşık yöntemleri de bera berinde kullanılmasıdır(Hsu, 2003 : 438-439).

Aynca web tabanlı veri içerenveritabanlanndan daha iyi sorgulamayapılaca ğı düşünülen dil odaklı uygulamalar da bulunmaktadır. Araştırmacılar webkü tükleri ve web SQL gibi www’den veri toplayan veri tabanı sorgulama standart larını yaygınlaştırmak için web-yönlü sorgulama dilleri geliştirmişlerdir ( Hsu, 2003 : 438). Böylelikle farklı uygulama ve ortamlardan gelenfarklı biçimlerde ki bilgiler arasında ilişki kurarak işlem yapılabilmektedir.

Bilgi Merkezleri ve Veri Madenciliği

Veri madenciliği, anlamlı bilgi çıkarmak için otomasyon sürecini kullanan birya payzekadır.Veri madenciliğinin kütüphanelerdekullanımıher ne kadar sınırlı ol sa da, bilimsel ve işçevrelerinde birey ve gurupların davranışlarını izlemek ve daha bir çokuygulamadayıllardır kullanılmaktadır (Banerjee,1998 : 29).

Çevremizde terabyte’larla ölçülen bu kadar veribulunmasına rağmendünya da birkaç bilgi merkezi dışında gerçek veri madenciliği ve onunla beraberbulu nan teknolojiyikütüphaneveri kümelerinin analizinde kullanmamaktadır.

Bugünkü endüstrikollan gibi bilgi merkezleri de ellerindeki deliller doğrul tusunda karar vermek için topladıklan veriyi gruplandırmak (dilimleme ve kü meleme) için arayış içindedir. Her ne kadar terabyteTarca veri arasından tarama yapmak sorun olmasa da;bilgi merkezlerifiziksel vesanal iş çevrelerinden fark lı hareketler sonucu oluşarak bir araya gelen verinin toplanması, hazırlanması, analizi ve yorumlanmasızorluklanyla karşı karşıyadır. Bilgimerkezlerinde top lamadan analize kadar veri madenciliğinin uygulanmasına ilişkin bazı anahtar kavramlarbize rehberlik edebilir(Guenther, 2000 : 60).

Bu süreç üçaşamada tanımlanabilir: Veri seçimivesağlanması, veri hazırlan ması ve işlemlenmesi,yorumlama ve bütünleştirme (Guenther, 2000: 61-63).

(8)

376 Hakemsiz Yazılar t Sacit Arslantekin

Seçim ve Sağlama

Veri toplamanın ilk adımı,iki soruyakarşılıkarayaraken iyişekildeyerinegeti rilebilir. “Toplamakistediğimiz veri nedir?” ve “Veri toplamada kullandığımız yöntem yadaişlemnedir?”.Veri seçmeve sağlamadaki yolumuz bizim birbirin den farklı hizmethatlarımızda çakışır.Pek çok bilgi merkezinde veri; ödünçver me,derme ve danışmagibiçeşitli işlevlerin yer aldığıalanlarda üretilir.

Ödünç vermevedanışma,kullanıcı ilebilgimerkezi arasında oluşan hareket lere dayalı hizmetlerdir. Örneğin ödünç verme işlemlerinde, ödünç verilenmater yalin işlemleri sırasında oluşan çok sayıdaki hareket ve ödünç verme, süre uzat ma, kütüphanelerarası ödünç verme istekleriya da bilgikaynağı dağıtımındaki hareketleri ölçümleriz. Danışma hizmetlerinde, verinin kullanıcı gereksinimleri için yararlı olup olmadığının karşılaştırılması ileveri toplarız.Bu noktada genel likle verinin gereksinime doğru yanıt verip vermediği şeklinde veriler toplan maktadır.

Derme geliştirmede, veriyi, kullanıcı gereksinimlerine yönelik kaynakların dermede bulunması, bunların geliştirilmesi ve devamının sağlanması sırasında bir araya getiririz. Derme geliştirme verisi genellikle ödünçverme ve danışma bölümlerinin işlemlerinin sonucunda oluşturulan verilerin kümelenmesi şeklin dedir.

Yakalamak istediğimiz detayı kolaylıkla tanımlayabiliriz. Fakat yakalanan ya daelde edilen bu veri,karmaşık bütünde yeni bir katman olacaktır. Yaratılan ve rinin çok sayıdadeğişik platform ve uygulamadangelmesi,bununsonucundade ğişik formatlarda olmasızorlukları katlamaktadır.

Capital One’s Information Technology Futures’un veri tabanı uzmanı Troy Borough “Verikullanıcılarının hepsininaynı şeyi istediğini bunun da tüm veri kaynaklarına tek bir yer yada tarama mekanizmasından erişebilmek olduğunu söylemiştir.

Ne yazıkki bu durum yapılandırılmış yadayapılandırılmamış verikaynakla rındantaramanın oldukça zorluğunu ortaya koymaktadır. Yapılandırılmışdata ti pik olarak ilişkisel veritabanlarında ya da benzer şekildeki sabit yapıdaki veri ambarlarındabulunmaktadır. Yapılandırılmamış veriise sunu dokümanları (Po wer Point gibi), hesap tabloları, kelime işlem dokümanları, web sayfalan gibi başkaher ortamı kapsamaktadır. Yapılandınlmışyadayapılandınlmamışverinin her birini karmaşık uzmandizinleme mekanizmalan iletaramak oldukça kolay dır. Bununla birliktebuikiveri şeklinin ikisinide,hepsinden önemli olanüstve- ri (metadata) ile bağlamadığımız takdirde, elimizdeki tüm bilgibirikimini kapsa yan bir tarama gerçekleştirmekzordur.”

Bu durum farklı dosya biçimlerinden, değişik metodolojiler kullanarakelde edilen, toplanan verilerden oluşan bilgi merkezleri veri kümeleri için de aynıdır. Veri gerçek zamanda meydana gelen kontrolsüz hareketlerin dökümsayfalan yo

(9)

Veri Madenciliği ve Bilgi Merkezleri 377 luyla toplanır, örneğin danışma hizmetinde bir isteğe verilenyanıt gibi. Bunun yanında veribize içerik sağlayıcılarımız tarafından sağlanabilir. OPAC sunucu muzdakikullanımlar da bize diğer verileri yaratmaktadır. Bilgimerkezleri ayrı ca, web sitelerive kendi içinde kullanmakta olduğu veri tabanından veri sağla yan diğer sistemleri içeren bazı kütüphane otomasyon programlankullanmakta dır. Birbiriyleetkileşimsağlayan arayüz olmadıkça veri sağlayançoklu sistemler çok geçerli değildir(Guenther, 2000 : 61).

Hazırlama ve İşlemleme:

İyi düzenlenmiş bir ortamda tümleşik sistemlerden veri sağlamamız veseçmemiz mümkündür veaynca anlamlı bilgi çıkartmak için mevcut sistemler arasında sor gulama yapmak için herhangi birekstra adımagereksinimduyulmaz.Fakat ger çekte pek azımız bu mükemmel dünyada yaşıyoruz. Gerçekte basılı dökümler den, sürücü kütük dosyalarından ve bunlann analizlenmesinden ya daelimizde ki veri tabanınayazdığımızküçükprogramlar vb. aracılığıyla topladığımızgibi, pek çok metodolojiyi kullanarak birbiriyle uyumsuz sistemlerden veri toplan maktadır. Şirketler, yapılandınlmış veisimlendirilmişveri tabanlarını standart bir veri haline dönüştürmek için formal planlar hazırlamada veverimimarileriniuy gulamada milyonlarım harcamaktadır. Şirketlerin elindeki standartveri yapısı ve değişkenleriçeren yaygm verimimarisi, tartışmaya açık veri tabanı sorgulamala rını ortadan kaldırır. Birsorgulamabirden fazla veri tabanının birleşiminden olu şanverilerin tümünü yönetmektedir.Farklı formattaki (ilişkisel veri tabanı yöne tim sistemidosya formatı) ya da farklı alanyapılandırmalarındaki (alan adı ve değişkenler) verileri bir arayagetirmekiçin birkaç basamak daha işleme ya da gelişmiş araçlara sahipolmak gerekir.

Bilgi merkezleri için uygulamadan tarafsızveriüretmekiçin iki strateji var dır. Birinci strateji, farklı fiziksel platformdaki,veri işleyişinden periyodik olarak bilgileralmakve analiz için aldıkları bu bilgileri tek bir veri tabanına yüklemeyi gerektirir. Bu tipstandardizasyon ASCII tabanlı, düz dosya formatında (sıklıkla virgül yada kesme ile ayrılmış), bir programyardımıyla bilinen bir alan kümesi haline getirerek ve bilinenbir ilişkisel veri tabanı yönetim sistemine aktarılarak sağlanabilir. Düz dosya formatı, analiz yapılmasında bir tekveri tabanınaveri ak tarma sürecini en azındanortakpaydada birleştirme imkanı verir. Bütün kaynak veri tabanları tarafından paylaşılamayanverilerin uygun olmaması yada aktarım da kaybolan veriler ile zaten bozuk olan veriler aktarım sürecinde kesinliklerol oynar.

İkincistrateji, bütün bilgi merkezi sisteminden bilinenbir verimimarisiger çekleştirerekve veriyi bütündenseçipçıkartarak uygulanılandır.Bu uyumlu sis templatformlarını seçmek vebir“İlişkisel Veri Tabam Yönetim Sistemi”nin ben

(10)

378 Hakemsiz Yazılar / Sacit Arslantekin

zer veri alanve karakteristiklerini, üstveriyi,dizinlemeşemalarını(benzeri olma yantanıtaçlar) uygulamak anlamına gelir. Kısaca kaynak veri tabanlarındanveri bütünlüğü içinde besleme yapmak anlamındadır. Fakatbu durum çok basit görül memelidir. Bilgi merkezleri için veri yönetimine yönelik bir mimari yaratmak önemli bir durumdur. Bunun yanında söz konusu içeriksağlayıcılarolduğunda, sağlayıcıların bize verdiği içerikten (çevrimiçi dergiler, e-kitaplar ve veri taban ları gibi) ne hakkında veriye ihtiyaç duyuyoruz? Bunların her biri kendi veri mi marisinisahipolup,pek çokdurumda bizim kendidilimizde değildir. Sağlayıcı tarafındanpaketlenmişve öncedenbelirlenmiş veri toplanır ve PDF, HTML, Ex cel yoluyla sayısallaştırılmış ya da doğrudan Word yada Excel formatmda belir li dönemlerde çok çeşitli formatlarda sunulabilir. Pekçok örnekte format, veri ti pi ve özgüllük için fazla seçeneğimiz yoktur. Genellikle sağlayıcının gönderdiği veriyi diğer bilgimerkezi verisiylebütünleştirmek için önemliişlemleryapmak gerekir, sürücüler evrensel boyutta kabul edilmiş veri değişim formatlanna ge reksinim duyarlar. Değişim formatına dönüştürülmüşveri, toplama ve analiziiş lemini kolaylaştırmak amacıyla XML olarak alınabilir. XMLverinin hem dağı tım hem de değişiminikolaylaştırır.

Borough “Sağlayıcılar kendi alanlarında depoladıkları tüm verileri XML ta banlı depolamak için bazı çalışmalar yapmakta” olduğunu ileri sürmektedir. XML,verilerin farklı yerlerdedepolanmalarınınyönetimi içinbirçözümsağlar. Bir XMLveri deposu XML formatmda gelen tüm doküman tiplerini içerir. Nite kim bir çalışmatablosuverilerin arasına eklenebilir ve sonrasındabir ilişkisel ve ri tabanıtablosu formatmda ya dabir kelime işlemci dokümanı olarak erişilebi lir. XML hem yapılandırılmış hem de yapılandırılmamış verilerin bir araya geti rilmesine izin veren ortakbir dildir.

GelecekteXML, veri toplamaişlemlerini doğru bir yola sokmak isteyen kü tüphaneler için bir cevap olabilecektir. Uzunvadeli çözümlerde kütüphane kon sorsiyumları,içeriksağlayıcılar ve yayıncılarınveri değişim için üzerinde birleş tikleri bir formattır. Tamamen kütüphaneçevresineodaklanmış olan hem MARC kayıtlan ve hem de özel kütüphane tabanlı XMLtaglanyla ilişkiyi nasıl yönete ceğini ortaya koyanDocumentType Definition (DTD) konusunda, Kongre Kü tüphanesi MARC DTD’sinikullanarak, MARC formatındaki kataloglama verisi niSGML (Standard GeneralizedMarkup Language) formatınadönüştürenbirça lışma gerçekleştirmektedir (Guenther, 2000: 61-62).

Yorumlamak ve Bütünleştirmek

Veri toplamanın son safhası, topladığımız anlamsız veriden anlam çıkartmaktır. Verinin farklı veri havuzlarından gelmesi, farklıuygulamalardakullanılabilmek için birtakım işlemlemeleri gerektirecektir. Örneğin, diğerbir analiz için bir en

(11)

Veri Madenciliği ve Bilgi Merkezleri 379 vanter sayfasını bir çalışma tablosuna kopyalayabiliriz. Çalışma tabloları kolay lıklahazırlanabilen, geçici kullanımlara kolaylıklauyarlanabilen ve veri analizi için bir “Takve Kullan” aracı olarakkabul edilir.

İlişkisel veri tabam yönetim sistemleripek çok gücübünyelerindebarındırır lar. Bunları geliştirmek çokfazla düşünmeyi gerektirirve zaman almasma rağmen bir veri tabanının yapısal çevredeveri barındırması bakımından önemlidir. Bu durum raporlama için çokfazla seçeneğin ve karmaşık istatistikianalizler ile ta ramada çokbüyük bir güç oluşturur. Kütüphanenin işlevsel bilgi alanları arasın da ilişkiyi tanımlamak ve veri elementleri için örnek tipteki alanları ifade etme de bir veri tabanı geliştirmek büyük bir güçolacaktır (Guenther, 2000 : 62-63).

Sonuç

Verimadenciliğiveberaberindegelenuygulamalar (özellikle web madenciliği) uzun yıllardırAvrupave Kuzey Amerika’da kullanılmaktadır.Buyöntemler ön celikle iş ve endüstrialanlarında kullanılmaya başlamıştır. Temel amaç ürünpa zarlamada kullanıcı davranışlarını belirlemek, üretim ve pazarlamalarını bu yön de geliştirerek daha fazla kazanç sağlamaktır.

Belirtilen yöntemlerin bilgi merkezlerinde kullanılması ise oldukça yenidir. Ancak unutmamak gerekir ki, tıpkı iş ve endüstri alanlarında olduğu gibi, bilgi merkezleri de kullanıcı üzerine odaklanmış kuramlardır. Bilgi merkezleri veri madenciliği yöntemlerini kullanarak işlem ve hizmetleri sırasında üretilen ve kendileri için çokanlam ifade etmeyen verilerinianlamlıhalegetirebilirler.

Bilgi merkezleri materyal sağlama, kataloglama ve sınıflama, ödünç verme, danışmahizmetleri vb.sırasında küçümsenmeyecek boyutlarda işlem yapmakta dırlar. Veri madenciliği yöntemleri ile otomasyonageçmiş bir bilgi merkezinde işlemler sırasında yapılan hareketler izlenerek, bu işlemler sırasında uğranılan kayıplarönlenebilir.

Uluslararası veri tabanları yine bilgi merkezlerininbüyük yatırım yaptıkları kaynaklardır.Bu yatırım, kullanıcının veri tabanlarını ne kadar,nasıl kullandığı, gerçek anlamda yararlanıp yararlanamadığı gibi sorulara yanıt almayı zorunlu kılmaktadır. Buzorunlulukkullanıcınınveri tabanları üzerindeki işlemleriniin celemeyi ve buincelemesonucundaanaliz yapmayı gerektirmektedir.

Bilgi merkezlerihizmetlerini küresel ortamda yaymak ve kullanıcılarınaula şabilmek için hizmetlerini Internet ortamına taşımaktadır. Internet üzerindewww aracılığıyla verilen hizmetlerde yalnızca verilen hizmetin hangidetaydaolduğu değil, bu hizmetten yararlanacakkullanıcının web sayfalarını kullanımı ve bek lentileri de önemlidir. Web madenciliği yöntemleri, kullanıcıların davranışlarını inceleyerekbilgi uzmanlarının web sayfalarınıdaha verimlibirşekilde, yeniden ve gerekirsekullanıcıyauyarlanmış sayfalar düzenleyebilmelerini sağlayacaktır.

(12)

380 Hakemsiz Yazılar / Sacit Arslantekin

Veri madenciliği ile gerek bilgi merkezi içinden, gerekseInternetüzerinden kullanıcıdavranışları incelenip analiz edilerek belirlenecek kullanıcılara ait pro fil yaratılması mümkün olabilir. Buişlem bireysel ya dagrup belirlenerek deger çekleştirilebilecek, hizmetler otomatikolarak detaylandınlabilecektir.

Bu örnekleriçoğaltmak mümkündür. Bununla beraberbütün çalışmalar gös termektedir ki, adı ve türü ne olursa olsun, özellikle otomasyona geçmiş ve Inter net üzerinden hizmet verenbilgi merkezleri yakın gelecekte, veri madenciliği uy gulamaları ile veriambarlarında biriken verileri kullanarak kendileri içinanlam lı bilgiye ulaşmak bazıadımlaratmak zorunluluğu hissedeceklerdir.

Kaynakça

Harrod’s librarians’ glossary and reference book (2000). 9th ed.Aldershot: Gower.

Data Mining: Tools, Techniques and ROI (2003). London, Canada:: Info-Tech Research Group. Machine learning (2003). FOLDOC: Free On-line dictionary of computing içinde Elektronik ad

res: http://foldoc.doc.ic.ac.uk/foldoc/foldoc.cgi?query=machine+leaming&action=Search Banerjee, Kyle(1998). “Is data mining right for your library?” Computers in Libraries, (Novem-

ber/December 1998) 28-31.

Bayramlı, Burak (2002). Veri ambarlan - site satış analizi nasıl yapılır? Bilgi Yönetimi. [Çevrimiçi]. Elektronik adres: http://www.bilgiyonetimi.org/cm/pages/mkl_gos.php?nt=393 Guenther, Kim (2000). “Building digital libraries: Applying data mining principles to library data

collection” Computers in Libraries, (April 2000) 60-63.

Hsu, Jeffrey (2003). “Critical and future trends in data mining: a review of key data mining tech nologies/ applications” Data Mining: Opportunities and Challenges içinde Hershey: Idea Gro up Inc.

Karakaş, Melikşah (2002). Veri ambarlan genel yapısı. Bilgi Yönetimi [Çevrimiçi], Elektronik ad res: http://www.bilgiyonetimi.org/cm/pages/mkl_gos.php?nt= 131

Karakaş, Melikşah. (2002) Veri madenciliği üzerine. Bilgi Yönetimi [Çevrimiçi]. Elektronik adres: http://www.bilgiyonetimi.org/cm/pages/mkl_gos.php?nt= 132