• Sonuç bulunamadı

Essa faseda avaliação foi realizada omo parte de umprojeto de lasse para o urso de Mi-

neraçãode Dados, nonível dagraduação ( om algunsalunos tambémda pós). Normalmente,o

trabalho nal da dis iplina requeria que os alunos desenvolvessem um projeto de mineração de

regrasdeasso iaçãomodelandoumproblemareal eapresentandoosresultadosreais. Noprojeto

desenvolvidonosegundosemestre de2007, osestudantes tambémtiveramque riar umnível de

abstraçãoa serapresentado a usuáriosnais. Em outras palavras,tiveramque denir questões

queusuáriosnaisestariam interessadosem soli itareidenti aramqual seriaodomínio deres-

postasespe í asquepoderiasergeradodo onjuntoderegrasdeasso iação. Os enários riados

Deformageral,osprojetosforamdesenvolvidosemgruposde2estudantes. Dos14gruposque

ini iaramoprojeto,12terminarame,desses,8foramavaliados omotendoal ançadoosobjetivos

doprojeto,ouseja,tendo onseguidofazer amodelagemdesejadaapartirdos enáriosdenidos.

Osmotivospelosquaisalgunstrabalhosforam onsiderados omonãotendoatingidoosobjetivos

doprojetoenvolvemváriasquestões, omoaproduçãodetrabalhosin ompletosou ujamodelagem

datarefademineraçãonãofoi onsideradasatisfatória 6

.

Foramsugeridosalgunstemasparaoprojetoemsaladeaula,masosalunostambémpoderiam

en ontrar outros de seu interesse. O projeto exigiu que osalunos interagissem om um usuário

nal, bus ando denireanalisar um ontexto real deapli ação, onde algunsprojetos foramdis-

ponibilizados, assim omo usuários. Eles também tiveram a esso às bases de dados ne essárias

para modelagem do problema. Os projetos onsiderados foram feitos em 3 diferentes domínios:

Temperaturae onsumodeenergiaelétri aem diferentesedi ações(1 grupo),Criminalidadeem

uma idade(1 grupo)equalidadedequestõesdovestibulardeumauniversidade(6grupos).

Todosos 8gruposforam apazesde riarbonsníveisdeabstração(entradaesaídadedados).

Porsu esso, onsideramosqueumaabstraçãopoderiaserapli adaemumdeterminadoproblema,

ondenãohouvesse ne essidadedeentenderos on eitos té ni ospelos usuáriosnais. Umgrupo

superou o que foi soli itadoe efetivamente implementou uma onsulta em um sistema de mine-

ração, o Weka [Weka (2006)℄. No projeto foi ainda soli itado aos alunos que expli assem suas

onsultas,assim omoamodelagemfeitaparaoproblema. Umresultadointeressantefoique,em-

boranãotenhasidoapresentadoaosusuáriosodi ionário,amaioriadostrabalhosapresentouum

mapeamentoentreasabstraçõesdas onsultaseoselementosdainterfa edosistemademineração.

Deformaailustrarasabstraçõespropostas,foram riados enáriosdeuso 7

. Aseguirsãoapre-

sentadosexemplosde enáriosqueforamobtidosnostrabalhosgerados.

Vestibular

Oprimeiro enáriodeapli açãofoi emrelaçãoaqualidadedasquestõesdevestibulardeuma

determinadainstituição. Abasededadosdisponibilizadaparaotrabalho ontéminformaçõesdos

anos de 1995 a 2005. Ela apresenta dados só io-e onmi os, assim omo notas nas provas dos

vestibulareseemdiversasdis iplinasnagraduaçãodos andidatosaprovados.

Ousuáriorealdo ontexto, onsideradoleigonasté ni asdemineraçãodedados,desejavaana-

lisaravalidadedasquestõesdovestibularserempreditoresdedesempenhodoalunonagraduação.

Ousuárioleigoapresentouseuproblema, ontextoeuma lassi ação apresentadanagura4.4

aserapli ada nas questões dovestibular. Em relaçãoà lassi ação,um alunopode erraruma

questãonovestibulareterfra assoemumadeterminadadis iplina,ougrupodelas,nagraduação.

Podeerraraquestão,mastersu essoposteriormentenagraduação;a ertaraquestãoetersu esso

ou a ertar e ter fra asso. Assim, as boas questões são as onsideradas, segundo o leigo, as que

onseguempré-determinarodesempenhodoalunonasaulas(erro:fra assooua erto:su esso). Um

alunoquea ertaumaquestão(ouobtémsu essoemuma provaespe í anogeral)defísi a, por

exemplo,edepoisvaibemnamatériadefísi a,podedemonstrarqueaquestãofoiumaboaforma

6

Aavaliaçãodomodelofoi onduzidaapósotérminodadis iplina.Paraisso,foisoli itadaentãoaautorização

dosalunos paraa utilizaçãodeseustrabalhos para estem. Otermo de onsentimento utilizadoen ontra-seno

Apêndi eC.1.

7

de seleção. Já oaluno que vaimuito bem numa provade matemáti a e depois temfra assoem

váriasdis iplinas rela ionadas, omo ál ulos, podedemonstrar que aprovanão está sendouma

boaseleçãodosalunos.

Figura4.4: Classi açãodasquestõesdevestibular,segundoavisãodousuárioleigo

Diante dessa demanda, os alunos bus aramapresentar premissas para riarem algumas on-

sultasrela ionadaseque poderiamserúteispara ousuárional. Muitas vezesfoine essário um

pré-pro essamentodabase,deformaaorganizarelimparosdadosaseremminerados. Porexem-

plo,oatributonotafoidis retizadoemalguns asos,sendoapresentadoem on eitos. Assim,foram

onsideradas,por exemplo, faixasde valorespara umdeterminado on eito: até 50(F); de50 a

60 (E)e assim por diante. Além disso, foram riados novosatributos ou ritérios omo: alunos

que tiraram a ima de 70% foram bem e que tiraram abaixo foram mal, onde o atributo riado

FOI_BEMerapreen hido omS(sim)ouN(não),dea ordo omasnotastiradasnadis iplina.

Assim, foram riadas onsultas rela ionadas às ne essidades do leigo, omo a exempli ada

abaixo:

Quaisasmelhoresquestõesdovestibularde<ANO>damatéria<MATERIA_VESTIBU- LAR>?

Deformaaanalisarodesempenhodosalunosnovestibularenasdis iplinas,foram onsiderados

pares de dados matéria_do_vestibular x matéria_da_graduação. Essa relação foi onsiderada

oerenteebaseadanosdadosexistentes. Exemplosderelaçõesfeitassãoapresentadasaseguir:

Físi a-FundamentosdeMe âni a

Matemáti a-Cál uloDiferen ialeIntegralI

Quími a-Quími aGeral

Aexpli açãoapresentadaparaa onsultadevetentarauxiliarosusuáriosaentenderemoquefoi

modelado. Umexemplodeexpli açãodadafoi: Estatarefatentarárela ionar asquestõesde uma

dasprovas dovestibulardeum determinadoano omodesempenhonoprimeiroperíodoletivodos

alunosaprovados. Ousuário deve sele ionar um ano espe í oe umadas matérias do vestibular

pararealizara onsulta. Oresultadoserádadorela ionandoasquestõesda provaes olhida omo

desempenho dasmatérias ursadaspeloaluno. Alémdessaexpli ação,apremissaquefoiadotada

em relaçãoa onsiderar uma questãoboadeveserdes rita ( omoen ontrar asmelhores?) Uma

(do vestibular e da graduação)rela ionadas e arelação entre elas ser oerente. Uma questão foi

onsiderada boa quando o on eito obtido no vestibular foi igual oudiferente de um on eito em

relação a matéria da graduação. Os on eitos utilizados foram[...℄ Assim, se um aluno tirou B

em umaquestão de físi a, a questãoserá onsiderada boase oaluno tirarA, B ouC namatéria

de Fundamentosde Me âni a[...℄ Todasasexpli açõesedes riçõesqueforamdesenvolvidassão

onsideradasnomodelo omopartedabasede onhe imento.

Como resultado, foram geradas regras onde os ante edentes eram nome da prova, número

da questão e on eito da questão e omo onseqüente o on eito da dis iplina. As formas de

apresentaçãosugeridasnostrabalhosparaosresultadosforamdiversas. Tabelas,grá os,imagens

etextosforamformasqueapare eram. Paraessaquestãoemespe ial,foiapresentadaumatabela

omonúmerodaquestão, on eitodaquestão, on eitoda dis iplinaeper entualde o orrên ia

( onança). Templates textuaistambémforamsugeridos, omooexemploabaixo:

Dos<TAMANHO_BASE>alunosdodepartamento <NOME_DEPT>quezeramoves- tibular de <ANO> e ursaram <DISCIPLINA>, <TAMANHO_BASE>*<SUPORTE>

(<SUPORTE>%)tiveram<RESULTADO_DISCIPLINA>nessadis iplinaetiveram<RE-

SULTADO_QUESTAO>naprovade<MATERIA_QUESTAO>.

Dos<TAMANHO_BASE>alunosdodepartamento <NOME_DEPT>quezeramoves- tibular de <ANO> e ursaram <DISCIPLINA>, <TAMANHO_BASE>*<SUPORTE>

(<SUPORTE>%)tiveram<RESULTADO_DISCIPLINA>nessadis iplinaetiveram<ACERTO_

QUESTAO>naquestão<NUMERO_QUESTAO>de<MATERIA_QUESTAO>.

Os atributos e parâmetros são apresentados entre as mar ações <>, o que representa que

serão preen hidos pelos valores existentes. Exemplos de resultados obtidos, onde as regras já

foramtraduzidas segundootemplatedenidosãoapresentadosaseguir:

Dos 1000 alunos do departamento de físi a que zeram o vestibular de 2005e ursa- ram fundamentos de me âni a,700 (70%) tiveramsu esso nessa dis iplinae tiveram

su essonaprovadefísi a.

Dos1000alunosdodepartamentode físi aquezeramovestibularde2005e ursaram fundamentosdeme âni a,700(70%)tiveramsu essonessadis iplinaetiverama erto

naquestão3defísi a.

Temperatura e onsumo de energia elétri a

Osegundo enárioaquides rito,apresentadonostrabalhos,foiemrelaçãoao ontrolede on-

sumodeenergiaelétri aem algumasedi ações. Essemonitoramentoéimportante paraanalisar

ogasto omenergia,levantandopossíveisformasdemelhoraproveitamentoee onomia.

Abasededados onsistenasmediçõesfeitasemindústriaseedi ações,queidenti ao onsumo

individual(equipamentos)egeraldeenergia. Dentre as onsultaselaboradasnotrabalhoparaos

usuários reais sele ionados, uma bus ava analisar o omportamento em relação ao onsumo de

energia de um determinado equipamento quando submetido a uma temperatura espe í a. A

Qual omportamentodosequipamentos,emrelaçãoao onsumodeenergia,no<MES>,de a ordo omafaixade<TEMPERATURA>doperíodoanalisado?

Comojá itado,asexpli açõesasso iadasàs onsultaspodemserté ni asoudire ionadaspara

osusuáriosnais. Emrelaçãoàsinformaçõesté ni as,umaexpli açãofoidadadaseguinteforma:

Para gerar essa onsulta, o valor es olhido para onança foi de 0.7, isso porque a ima desse

valoréqueforamen ontradasregrasinteressantesparaaquestão. Ovalor parasuportefoide0.01

porquerepresenta2%da base,sendoesse valor onsideradorelevante.

Comoformadeapresentaçãoparausuárional, foipropostoumavisualizaçãotabular,ondeé

apresentadaaintensidadedainformaçãoemformasdebarras. Afreqüên iaéoutrovalorapresen-

tado, que onsiste na onançada regra. A freqüên iade o orrên iaé apresentada gra amente

peladequantidadeestrelas,ondequantomaisestrelas,maiorovalorasso iadoà onança.

***

De forma geral, ambas as etapas de avaliação foram positivas ao demonstrar que um nível

de abstraçãopoderiaser riado deforma e iente. Foram riadas onsultas relevantes eúteis a

serem apli adas nos ontextos reais dos usuários leigos, tanto as abstrações riadas a partir de

tarefas,quanto aspropostasporusuáriosespe ialistas. Noter eiro enáriodesenvolvido,rela io-

nadoà riminalidade,asabstraçõestambémforam riadasdeformasatisfatória. Esse enárioserá

apresentadonaseção5.3,ondefoiutilizadoparaavaliações omosusuáriosreais.

Apósessaavaliaçãopreliminardomodelo,opróximopassofoiveri arqueummódulobaseado

nomodeloproposto poderiade fato serimplementado ea opladoaum sistema demineração já

existente,oTamanduá[Tamandua(2006)℄. Essepassodotrabalho onsistenoprotótipoapresen-

Protótipo

No apítulo 4vimos o modelo e uma avaliação preliminar de omo ele possibilitaa riação

de abstrações por usuáriosespe ialistas para usuáriosleigos. Continuando a análise do modelo,

este apítulo refere-se à implementação do modelo em um sistema de mineração de regras de

asso iaçãodesegundageração. Assim,foi riadaumainstân iadomodelodeformaaavaliarseu

fun ionamentoeestrutura. Paraisso,umprotótipofoidesenvolvidoeforamfeitasavaliações om

aparti ipaçãodeusuáriosespe ialistas eleigos.

A seguirserãoapresentados oprotótipoe osistema de segundageraçãoutilizado omo base,

o Tamanduá, além da arquitetura do mesmo e o usto de a oplamento do protótipo, ou seja,

asadaptaçõesne essáriasno sistema para que oprotótipopudesse fun ionar. Além disso, serão

apresentadastambém asavaliaçõesrealizadas omoprotótipoeaanálisedosresultadosobtidos.

5.1 Tamanduá

OsistemaTamanduáfoi desenvolvidonodepartamento deCiên ia daComputação daUFMG

omoobjetivodepermitirapesquisabási a eapli adarela ionadaàmineraçãode dadosdistri-

buída[Tamandua(2006)℄[Ferreiraetal.(2005)℄. Podemos onsideraroTamanduáumsistemade

mineraçãode objetivo geral, nosentidoque ele pro ura ofere er aosusuários aoportunidade de

en ontrarpadrõesinteressantesemumabase dedados,semfo aremnenhumdomínioespe í o.

OTamanduájávemsendoutilizadoporalgumasinstituiçõespúbli asbrasileiras, omapli ações

emdiferentes ontextos,dentreosquais: segurançapúbli a, saúdee omprasgovernamentais. Ele

tem apoiado agestãogovernamental em tarefas deauditoria e temsido utilizado também omo

ferramentadeanálisepor ientistasso iais.

OTamanduáéumaplataformaquevisapropor ionarserviçosdemineraçãodedadosdeforma

es alávelee iente,possuindoalgumas ara terísti as omo:

A interoperabilidadeébaseadanautilização eextensãodepadrõesabertoseinterna ional- mente re onhe idosparaa onstruçãodeserviçosweb,mineraçãoearmazémdedados;

A es alabilidade refere-se àsua arquitetura modularizada, oque permite fá il repli ação e adaptaçãodesses omponentesparaosvariados enáriosdeusodaplataforma,assim omoa

utilizaçãodeuma plataforma omputa ionalparalelabaseadaemmáquinasdebaixo usto;

O paradigma da omputação utilizado é o orientado a serviços, o que permite que ada servidorsejainstan iadomaisdeumavez, tornandoasoluçãoexívelees alável.

Cada tarefaexe utada noTamanduápodedemandaruma grande argade dadosepro essa-

mento. Bus andoapoiaressademanda, oTamanduáfoi on ebido omoum onjunto de ompo-

nentesdistribuídosqueofere emosseusserviçosatravésdeinterfa esbemdenidas,demodoque

possamserusadosparasatisfazerasne essidadesdaapli ação.

AversãoatualdoTamanduádáapoioàsseguintesfasesdopro essodemineração:

Seleção dosdados: es olhapelousuáriodequaisatributosdabaseserãoutilizados;

Engenharia dos dados: formataçãoe ajuste dos dadospara possibilitara exe ução das té ni asdemineração;

Determinação de padrões: exe uçãodo algoritmoem si, dea ordo oma té ni aes o- lhida;

Análise dospadrões: análisedosresultadosobtidosutilizandoté ni asdevisualizaçãode padrões.

A arquitetura do Tamanduá pode servista na gura 5.1. E a seguiriremos des rever ada

omponente.

Servidor de Apli ação: OservidordeApli açãoéresponsávelporgarantiro ontrolede a essoaosdadoseserviçosofere idos.

ServidordeMineração: éresponsávelpordispararasrequisiçõesdemineraçãorealizadas pelosusuários, ontrolandoosnodosdeexe uçãodenidosnosistema. Eleéresponsávelpela

omuni ação entre osoutros servidoresgarantindoa orretaexe ução dalógi ade negó io

propostapeloTamanduá.

Servidor de Dados: O Servidorde dados (SD) éresponsávelpela interfa e para a essar todosos onjuntosdedadosemetadadosasso iados. OSDpodeobterdes riçõesdasbasesde

dadoseosseusmetadados,realizaratransferên iadebasesdeumSDparaoutroeexe utar

onsultasSQLsobre osdados.

Servidor de Pro essamento: OServidorde pro essamento (SP) exe uta osalgoritmos, pro essa um onjunto de dadose produz novos onjuntos omo resultado. Para lidar om

grandesbasesdedadoseos ustos omputa ionaisasso iados,oSPédistribuídoatravésde

um luster.

Servidorde Visualização: OServidordevisualizaçãore ebeum onjuntodedados omo entrada(normalmenteoresultadodeumamineraçãoanterior)eoperaemanalisarosdados

eproduzirumarepresentaçãovisual.

A gura 5.2 apresenta o i lo de vida de des oberta de onhe imento utilizando o Taman-

duá [doTamandua (2005)℄. Uma tarefa de des oberta de onhe imento é exe utada atravésdos

seguintespassos:

1. O servidor de apli ação ontém as interfa es, serviços web disponibilizados através de

páginas web; alémdisso, ele realizao ontrole ne essáriodea esso aosdados. Assim, ele é

Figura5.1: EstruturadoTamanduá

2. Oservidorde mineraçãore ebeosdadosdeentradaeéresponsávelpora ionarosoutros

servidores;ele ontrolatodoopro esso.

3. Osdadosaseremminerados amarmazenadosnoservidorde dadosqueenviapartições

aoservidordemineração.

4. Oservidorde pro essamentoéresponsávelpelamineraçãoemsi,exe utandoosalgorit-

mosdemineração.

5. Porúltimo, osdadossãotratadospeloservidorde visualizaçãoquetrataosresultadosa

seremapresentados.

Apróximaseçãoapresentaoprotótipodesenvolvido,suas ara terísti asedenições.

Benzer Belgeler