Essa faseda avaliação foi realizada omo parte de umprojeto de lasse para o urso de Mi-
neraçãode Dados, nonível dagraduação ( om algunsalunos tambémda pós). Normalmente,o
trabalho nal da dis iplina requeria que os alunos desenvolvessem um projeto de mineração de
regrasdeasso iaçãomodelandoumproblemareal eapresentandoosresultadosreais. Noprojeto
desenvolvidonosegundosemestre de2007, osestudantes tambémtiveramque riar umnível de
abstraçãoa serapresentado a usuáriosnais. Em outras palavras,tiveramque denir questões
queusuáriosnaisestariam interessadosem soli itareidenti aramqual seriaodomínio deres-
postasespe í asquepoderiasergeradodo onjuntoderegrasdeasso iação. Os enários riados
Deformageral,osprojetosforamdesenvolvidosemgruposde2estudantes. Dos14gruposque
ini iaramoprojeto,12terminarame,desses,8foramavaliados omotendoal ançadoosobjetivos
doprojeto,ouseja,tendo onseguidofazer amodelagemdesejadaapartirdos enáriosdenidos.
Osmotivospelosquaisalgunstrabalhosforam onsiderados omonãotendoatingidoosobjetivos
doprojetoenvolvemváriasquestões, omoaproduçãodetrabalhosin ompletosou ujamodelagem
datarefademineraçãonãofoi onsideradasatisfatória 6
.
Foramsugeridosalgunstemasparaoprojetoemsaladeaula,masosalunostambémpoderiam
en ontrar outros de seu interesse. O projeto exigiu que osalunos interagissem om um usuário
nal, bus ando denireanalisar um ontexto real deapli ação, onde algunsprojetos foramdis-
ponibilizados, assim omo usuários. Eles também tiveram a esso às bases de dados ne essárias
para modelagem do problema. Os projetos onsiderados foram feitos em 3 diferentes domínios:
Temperaturae onsumodeenergiaelétri aem diferentesedi ações(1 grupo),Criminalidadeem
uma idade(1 grupo)equalidadedequestõesdovestibulardeumauniversidade(6grupos).
Todosos 8gruposforam apazesde riarbonsníveisdeabstração(entradaesaídadedados).
Porsu esso, onsideramosqueumaabstraçãopoderiaserapli adaemumdeterminadoproblema,
ondenãohouvesse ne essidadedeentenderos on eitos té ni ospelos usuáriosnais. Umgrupo
superou o que foi soli itadoe efetivamente implementou uma onsulta em um sistema de mine-
ração, o Weka [Weka (2006)℄. No projeto foi ainda soli itado aos alunos que expli assem suas
onsultas,assim omoamodelagemfeitaparaoproblema. Umresultadointeressantefoique,em-
boranãotenhasidoapresentadoaosusuáriosodi ionário,amaioriadostrabalhosapresentouum
mapeamentoentreasabstraçõesdas onsultaseoselementosdainterfa edosistemademineração.
Deformaailustrarasabstraçõespropostas,foram riados enáriosdeuso 7
. Aseguirsãoapre-
sentadosexemplosde enáriosqueforamobtidosnostrabalhosgerados.
Vestibular
Oprimeiro enáriodeapli açãofoi emrelaçãoaqualidadedasquestõesdevestibulardeuma
determinadainstituição. Abasededadosdisponibilizadaparaotrabalho ontéminformaçõesdos
anos de 1995 a 2005. Ela apresenta dados só io-e onmi os, assim omo notas nas provas dos
vestibulareseemdiversasdis iplinasnagraduaçãodos andidatosaprovados.
Ousuáriorealdo ontexto, onsideradoleigonasté ni asdemineraçãodedados,desejavaana-
lisaravalidadedasquestõesdovestibularserempreditoresdedesempenhodoalunonagraduação.
Ousuárioleigoapresentouseuproblema, ontextoeuma lassi ação apresentadanagura4.4
aserapli ada nas questões dovestibular. Em relaçãoà lassi ação,um alunopode erraruma
questãonovestibulareterfra assoemumadeterminadadis iplina,ougrupodelas,nagraduação.
Podeerraraquestão,mastersu essoposteriormentenagraduação;a ertaraquestãoetersu esso
ou a ertar e ter fra asso. Assim, as boas questões são as onsideradas, segundo o leigo, as que
onseguempré-determinarodesempenhodoalunonasaulas(erro:fra assooua erto:su esso). Um
alunoquea ertaumaquestão(ouobtémsu essoemuma provaespe í anogeral)defísi a, por
exemplo,edepoisvaibemnamatériadefísi a,podedemonstrarqueaquestãofoiumaboaforma
6
Aavaliaçãodomodelofoi onduzidaapósotérminodadis iplina.Paraisso,foisoli itadaentãoaautorização
dosalunos paraa utilizaçãodeseustrabalhos para estem. Otermo de onsentimento utilizadoen ontra-seno
Apêndi eC.1.
7
de seleção. Já oaluno que vaimuito bem numa provade matemáti a e depois temfra assoem
váriasdis iplinas rela ionadas, omo ál ulos, podedemonstrar que aprovanão está sendouma
boaseleçãodosalunos.
Figura4.4: Classi açãodasquestõesdevestibular,segundoavisãodousuárioleigo
Diante dessa demanda, os alunos bus aramapresentar premissas para riarem algumas on-
sultasrela ionadaseque poderiamserúteispara ousuárional. Muitas vezesfoine essário um
pré-pro essamentodabase,deformaaorganizarelimparosdadosaseremminerados. Porexem-
plo,oatributonotafoidis retizadoemalguns asos,sendoapresentadoem on eitos. Assim,foram
onsideradas,por exemplo, faixasde valorespara umdeterminado on eito: até 50(F); de50 a
60 (E)e assim por diante. Além disso, foram riados novosatributos ou ritérios omo: alunos
que tiraram a ima de 70% foram bem e que tiraram abaixo foram mal, onde o atributo riado
FOI_BEMerapreen hido omS(sim)ouN(não),dea ordo omasnotastiradasnadis iplina.
Assim, foram riadas onsultas rela ionadas às ne essidades do leigo, omo a exempli ada
abaixo:
•
Quaisasmelhoresquestõesdovestibularde<ANO>damatéria<MATERIA_VESTIBU- LAR>?Deformaaanalisarodesempenhodosalunosnovestibularenasdis iplinas,foram onsiderados
pares de dados matéria_do_vestibular x matéria_da_graduação. Essa relação foi onsiderada
oerenteebaseadanosdadosexistentes. Exemplosderelaçõesfeitassãoapresentadasaseguir:
•
Físi a-FundamentosdeMe âni a•
Matemáti a-Cál uloDiferen ialeIntegralI•
Quími a-Quími aGeralAexpli açãoapresentadaparaa onsultadevetentarauxiliarosusuáriosaentenderemoquefoi
modelado. Umexemplodeexpli açãodadafoi: Estatarefatentarárela ionar asquestõesde uma
dasprovas dovestibulardeum determinadoano omodesempenhonoprimeiroperíodoletivodos
alunosaprovados. Ousuário deve sele ionar um ano espe í oe umadas matérias do vestibular
pararealizara onsulta. Oresultadoserádadorela ionandoasquestõesda provaes olhida omo
desempenho dasmatérias ursadaspeloaluno. Alémdessaexpli ação,apremissaquefoiadotada
em relaçãoa onsiderar uma questãoboadeveserdes rita ( omoen ontrar asmelhores?) Uma
(do vestibular e da graduação)rela ionadas e arelação entre elas ser oerente. Uma questão foi
onsiderada boa quando o on eito obtido no vestibular foi igual oudiferente de um on eito em
relação a matéria da graduação. Os on eitos utilizados foram[...℄ Assim, se um aluno tirou B
em umaquestão de físi a, a questãoserá onsiderada boase oaluno tirarA, B ouC namatéria
de Fundamentosde Me âni a[...℄ Todasasexpli açõesedes riçõesqueforamdesenvolvidassão
onsideradasnomodelo omopartedabasede onhe imento.
Como resultado, foram geradas regras onde os ante edentes eram nome da prova, número
da questão e on eito da questão e omo onseqüente o on eito da dis iplina. As formas de
apresentaçãosugeridasnostrabalhosparaosresultadosforamdiversas. Tabelas,grá os,imagens
etextosforamformasqueapare eram. Paraessaquestãoemespe ial,foiapresentadaumatabela
omonúmerodaquestão, on eitodaquestão, on eitoda dis iplinaeper entualde o orrên ia
( onança). Templates textuaistambémforamsugeridos, omooexemploabaixo:
•
Dos<TAMANHO_BASE>alunosdodepartamento <NOME_DEPT>quezeramoves- tibular de <ANO> e ursaram <DISCIPLINA>, <TAMANHO_BASE>*<SUPORTE>(<SUPORTE>%)tiveram<RESULTADO_DISCIPLINA>nessadis iplinaetiveram<RE-
SULTADO_QUESTAO>naprovade<MATERIA_QUESTAO>.
•
Dos<TAMANHO_BASE>alunosdodepartamento <NOME_DEPT>quezeramoves- tibular de <ANO> e ursaram <DISCIPLINA>, <TAMANHO_BASE>*<SUPORTE>(<SUPORTE>%)tiveram<RESULTADO_DISCIPLINA>nessadis iplinaetiveram<ACERTO_
QUESTAO>naquestão<NUMERO_QUESTAO>de<MATERIA_QUESTAO>.
Os atributos e parâmetros são apresentados entre as mar ações <>, o que representa que
serão preen hidos pelos valores existentes. Exemplos de resultados obtidos, onde as regras já
foramtraduzidas segundootemplatedenidosãoapresentadosaseguir:
•
Dos 1000 alunos do departamento de físi a que zeram o vestibular de 2005e ursa- ram fundamentos de me âni a,700 (70%) tiveramsu esso nessa dis iplinae tiveramsu essonaprovadefísi a.
•
Dos1000alunosdodepartamentode físi aquezeramovestibularde2005e ursaram fundamentosdeme âni a,700(70%)tiveramsu essonessadis iplinaetiverama ertonaquestão3defísi a.
Temperatura e onsumo de energia elétri a
Osegundo enárioaquides rito,apresentadonostrabalhos,foiemrelaçãoao ontrolede on-
sumodeenergiaelétri aem algumasedi ações. Essemonitoramentoéimportante paraanalisar
ogasto omenergia,levantandopossíveisformasdemelhoraproveitamentoee onomia.
Abasededados onsistenasmediçõesfeitasemindústriaseedi ações,queidenti ao onsumo
individual(equipamentos)egeraldeenergia. Dentre as onsultaselaboradasnotrabalhoparaos
usuários reais sele ionados, uma bus ava analisar o omportamento em relação ao onsumo de
energia de um determinado equipamento quando submetido a uma temperatura espe í a. A
•
Qual omportamentodosequipamentos,emrelaçãoao onsumodeenergia,no<MES>,de a ordo omafaixade<TEMPERATURA>doperíodoanalisado?Comojá itado,asexpli açõesasso iadasàs onsultaspodemserté ni asoudire ionadaspara
osusuáriosnais. Emrelaçãoàsinformaçõesté ni as,umaexpli açãofoidadadaseguinteforma:
Para gerar essa onsulta, o valor es olhido para onança foi de 0.7, isso porque a ima desse
valoréqueforamen ontradasregrasinteressantesparaaquestão. Ovalor parasuportefoide0.01
porquerepresenta2%da base,sendoesse valor onsideradorelevante.
Comoformadeapresentaçãoparausuárional, foipropostoumavisualizaçãotabular,ondeé
apresentadaaintensidadedainformaçãoemformasdebarras. Afreqüên iaéoutrovalorapresen-
tado, que onsiste na onançada regra. A freqüên iade o orrên iaé apresentada gra amente
peladequantidadeestrelas,ondequantomaisestrelas,maiorovalorasso iadoà onança.
***
De forma geral, ambas as etapas de avaliação foram positivas ao demonstrar que um nível
de abstraçãopoderiaser riado deforma e iente. Foram riadas onsultas relevantes eúteis a
serem apli adas nos ontextos reais dos usuários leigos, tanto as abstrações riadas a partir de
tarefas,quanto aspropostasporusuáriosespe ialistas. Noter eiro enáriodesenvolvido,rela io-
nadoà riminalidade,asabstraçõestambémforam riadasdeformasatisfatória. Esse enárioserá
apresentadonaseção5.3,ondefoiutilizadoparaavaliações omosusuáriosreais.
Apósessaavaliaçãopreliminardomodelo,opróximopassofoiveri arqueummódulobaseado
nomodeloproposto poderiade fato serimplementado ea opladoaum sistema demineração já
existente,oTamanduá[Tamandua(2006)℄. Essepassodotrabalho onsistenoprotótipoapresen-
Protótipo
No apítulo 4vimos o modelo e uma avaliação preliminar de omo ele possibilitaa riação
de abstrações por usuáriosespe ialistas para usuáriosleigos. Continuando a análise do modelo,
este apítulo refere-se à implementação do modelo em um sistema de mineração de regras de
asso iaçãodesegundageração. Assim,foi riadaumainstân iadomodelodeformaaavaliarseu
fun ionamentoeestrutura. Paraisso,umprotótipofoidesenvolvidoeforamfeitasavaliações om
aparti ipaçãodeusuáriosespe ialistas eleigos.
A seguirserãoapresentados oprotótipoe osistema de segundageraçãoutilizado omo base,
o Tamanduá, além da arquitetura do mesmo e o usto de a oplamento do protótipo, ou seja,
asadaptaçõesne essáriasno sistema para que oprotótipopudesse fun ionar. Além disso, serão
apresentadastambém asavaliaçõesrealizadas omoprotótipoeaanálisedosresultadosobtidos.
5.1 Tamanduá
OsistemaTamanduáfoi desenvolvidonodepartamento deCiên ia daComputação daUFMG
omoobjetivodepermitirapesquisabási a eapli adarela ionadaàmineraçãode dadosdistri-
buída[Tamandua(2006)℄[Ferreiraetal.(2005)℄. Podemos onsideraroTamanduáumsistemade
mineraçãode objetivo geral, nosentidoque ele pro ura ofere er aosusuários aoportunidade de
en ontrarpadrõesinteressantesemumabase dedados,semfo aremnenhumdomínioespe í o.
OTamanduájávemsendoutilizadoporalgumasinstituiçõespúbli asbrasileiras, omapli ações
emdiferentes ontextos,dentreosquais: segurançapúbli a, saúdee omprasgovernamentais. Ele
tem apoiado agestãogovernamental em tarefas deauditoria e temsido utilizado também omo
ferramentadeanálisepor ientistasso iais.
OTamanduáéumaplataformaquevisapropor ionarserviçosdemineraçãodedadosdeforma
es alávelee iente,possuindoalgumas ara terísti as omo:
•
A interoperabilidadeébaseadanautilização eextensãodepadrõesabertoseinterna ional- mente re onhe idosparaa onstruçãodeserviçosweb,mineraçãoearmazémdedados;•
A es alabilidade refere-se àsua arquitetura modularizada, oque permite fá il repli ação e adaptaçãodesses omponentesparaosvariados enáriosdeusodaplataforma,assim omoautilizaçãodeuma plataforma omputa ionalparalelabaseadaemmáquinasdebaixo usto;
•
O paradigma da omputação utilizado é o orientado a serviços, o que permite que ada servidorsejainstan iadomaisdeumavez, tornandoasoluçãoexívelees alável.Cada tarefaexe utada noTamanduápodedemandaruma grande argade dadosepro essa-
mento. Bus andoapoiaressademanda, oTamanduáfoi on ebido omoum onjunto de ompo-
nentesdistribuídosqueofere emosseusserviçosatravésdeinterfa esbemdenidas,demodoque
possamserusadosparasatisfazerasne essidadesdaapli ação.
AversãoatualdoTamanduádáapoioàsseguintesfasesdopro essodemineração:
•
Seleção dosdados: es olhapelousuáriodequaisatributosdabaseserãoutilizados;•
Engenharia dos dados: formataçãoe ajuste dos dadospara possibilitara exe ução das té ni asdemineração;•
Determinação de padrões: exe uçãodo algoritmoem si, dea ordo oma té ni aes o- lhida;•
Análise dospadrões: análisedosresultadosobtidosutilizandoté ni asdevisualizaçãode padrões.A arquitetura do Tamanduá pode servista na gura 5.1. E a seguiriremos des rever ada
omponente.
•
Servidor de Apli ação: OservidordeApli açãoéresponsávelporgarantiro ontrolede a essoaosdadoseserviçosofere idos.•
ServidordeMineração: éresponsávelpordispararasrequisiçõesdemineraçãorealizadas pelosusuários, ontrolandoosnodosdeexe uçãodenidosnosistema. Eleéresponsávelpelaomuni ação entre osoutros servidoresgarantindoa orretaexe ução dalógi ade negó io
propostapeloTamanduá.
•
Servidor de Dados: O Servidorde dados (SD) éresponsávelpela interfa e para a essar todosos onjuntosdedadosemetadadosasso iados. OSDpodeobterdes riçõesdasbasesdedadoseosseusmetadados,realizaratransferên iadebasesdeumSDparaoutroeexe utar
onsultasSQLsobre osdados.
•
Servidor de Pro essamento: OServidorde pro essamento (SP) exe uta osalgoritmos, pro essa um onjunto de dadose produz novos onjuntos omo resultado. Para lidar omgrandesbasesdedadoseos ustos omputa ionaisasso iados,oSPédistribuídoatravésde
um luster.
•
Servidorde Visualização: OServidordevisualizaçãore ebeum onjuntodedados omo entrada(normalmenteoresultadodeumamineraçãoanterior)eoperaemanalisarosdadoseproduzirumarepresentaçãovisual.
A gura 5.2 apresenta o i lo de vida de des oberta de onhe imento utilizando o Taman-
duá [doTamandua (2005)℄. Uma tarefa de des oberta de onhe imento é exe utada atravésdos
seguintespassos:
1. O servidor de apli ação ontém as interfa es, serviços web disponibilizados através de
páginas web; alémdisso, ele realizao ontrole ne essáriodea esso aosdados. Assim, ele é
Figura5.1: EstruturadoTamanduá
2. Oservidorde mineraçãore ebeosdadosdeentradaeéresponsávelpora ionarosoutros
servidores;ele ontrolatodoopro esso.
3. Osdadosaseremminerados amarmazenadosnoservidorde dadosqueenviapartições
aoservidordemineração.
4. Oservidorde pro essamentoéresponsávelpelamineraçãoemsi,exe utandoosalgorit-
mosdemineração.
5. Porúltimo, osdadossãotratadospeloservidorde visualizaçãoquetrataosresultadosa
seremapresentados.
Apróximaseçãoapresentaoprotótipodesenvolvido,suas ara terísti asedenições.