BÖLÜM 2: MALİYET-HACİM-KAR ANALİZLERİ
2.2. Faaliyet Tabanlı Maliyetleme İle Maliyet-Hacim-Kar Analizleri
2.2.2. Faaliyet Tabanlı Maliyetlemenin Uygulama Aşamaları
2.2.2.2. Faaliyet Düzeylerinin Sınıflandırılması ve Maliyet Hiyerarşisi
A primeira fase do estudo de caso compreendeu a criação de uma aplicação multimídia através da ferramenta MAE. A aplicação utilizada corresponde a um sistema de agência de turismo, contendo imagens de pontos turísticos e paisagens, que podem ser consultadas pelos clientes da agência para, através delas, decidir qual o seu destino como turistas. No processo de criação, a informação semântica correspondente foi criada e, conseqüentemente, todos os metadados foram armazenados.
Em uma segunda fase, foi efetuada a transformação dos dados (uma das etapas de descoberta de conhecimento) para posterior aplicação do algoritmo. A transformação compreendeu a realização de consultas ao meta-esquema do banco para a extração das características das mídias a serem mineradas. Na transformação, as características foram automaticamente organizadas de forma que em uma mesma coluna, estejam informações de um mesmo domínio, atendendo a uma restrição do algoritmo SSDM. Note que, independentemente do tipo de mídia em questão, as características assumem a forma textual e estão prontas para o processo de mineração.
Considere a Tabela 7.1, a qual contém uma pequena amostra dos elementos que compõem as informações semânticas. Nela são mostradas instâncias do atributo elementName, da classe
Element. Conforme foi apresentado na seção anterior, essa classe representa temas e
qualificadores, que são associados a domínios. Assim, os temas e qualificadores aparecem nessa tabela junto a seus domínios correspondentes, representados na classe Domain através do atributo
name.
Tabela 7.1 – Temas e qualificadores associados a seus domínios.
Element Domain elementName name lago paisagem montanha paisagem teatro construção novo tempo frio temperatura grande tamanho monumento construção quente temperatura praia paisagem velho tempo
antigo tempo museu construção médio tamanho ponte construção gelado temperatura morro paisagem pequeno tamanho enorme tamanho
Os elementos exibidos na Tabela 7.1 compõem termos que representam as informações semânticas das mídias. Eles são exibidos na Tabela 7.2. Para a aplicação do algoritmo SSDM, esses dados são selecionados e transformados, e o resultado desse processo pode ser visto na Tabela 7.3 e na Tabela 7.4.
Tabela 7.2 – Termos contendo temas e qualificadores.
Termos
t01 teatro médio antigo
t02 museu pequeno velho
t03 ponte enorme novo
t04 monumento grande novo t05 lago pequeno frio
t06 montanha enorme gelado t07 praia grande quente
t08 morro médio frio
t09 teatro grande novo
t10 museu enorme antigo
t11 ponte pequeno velho
t12 monumento grande antigo t13 lago médio quente
t14 montanha grande frio
t15 praia grande quente
t16 teatro médio antigo
t17 museu pequeno velho
t18 ponte enorme novo
t19 monumento grande novo t20 lago pequeno frio
t21 montanha enorme gelado t22 praia grande quente
t23 morro médio frio
t24 teatro grande novo
t25 museu enorme novo
t27 teatro médio velho
t28 museu pequeno velho
t29 ponte grande novo
t30 praia médio quente
Tabela 7.3 – Termos que envolvem temas do domínio construção.
construção tamanho tempo
t01 teatro médio antigo
t02 museu pequeno velho
t03 ponte enorme novo
t04 monumento grande novo t09 teatro grande novo
t10 museu enorme antigo
t11 ponte pequeno velho
t12 monumento grande antigo t16 teatro médio antigo
t17 museu pequeno velho
t18 ponte enorme novo
t19 monumento grande novo t24 teatro grande novo
t25 museu enorme novo
t26 ponte pequeno velho
t27 teatro médio velho
t28 museu pequeno velho
t29 ponte grande novo
Tabela 7.4 – Termos que envolvem temas do domínio paisagem.
paisagem tamanho temperatura t05 lago pequeno frio
t06 montanha enorme gelado t07 praia grande quente
t08 morro médio frio
t13 lago médio quente
t14 montanha grande frio
t15 praia grande quente
t20 lago pequeno frio
t21 montanha enorme gelado t22 praia grande quente
t23 morro médio frio
Além disso, para cada um dos 5 domínios identificados é obtida a matriz de similaridade correspondente. Essas matrizes são exibidas na Figura 7.2.
Domínio: construção
teatro museu monumento ponte Teatro 1 0.9 0.4 0.2
Museu 0.9 1 0.7 0.2
Monumento 0.4 0.7 1 0.3
Ponte 0.2 0.2 0.3 1
Domínio: paisagem
lago praia montanha morro
Lago 1 0.8 0.6 0.3
Praia 0.8 1 0.2 0.25
Montanha 0.6 0.2 1 0.85
Morro 0.3 0.25 0.85 1
Domínio: tamanho
pequeno médio grande enorme Pequeno 1 0.6 0.35 0.1 Médio 0.6 1 0.25 0.2 Grande 0.35 0.25 1 0.85 Enorme 0.1 0.2 0.85 1
Domínio: tempo
antigo velho novo
Antigo 1 0.95 0.4
Velho 0.95 1 0.1
Novo 0.4 0.1 1
Domínio: temperatura quente gelado frio
Quente 1 0.1 0.05
Frio 0.1 0.75 1
Gelado 0.05 1 0.75
Figura 7.2 – Matrizes de similaridade dos domínios identificados.
Considerando os valores de 25% para minsup, 50 % para minconf, e 80% para minsim, o algoritmo SSDM é aplicado, e assim são obtidas as regras de associação exibidas na Figura 7.3.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
grande->novo sup=0.2777778 conf=0.8333334 novo->grande sup=0.2777778 conf=0.625
grande~enorme->novo sup=0.41111112 conf=0.8 novo->grande~enorme sup=0.41111112 conf=0.925
pequeno->velho~antigo sup=0.27083334 conf=0.97499996 velho~antigo->pequeno sup=0.27083334 conf=0.5
pequeno->velho sup=0.2777778 conf=1.0
velho->pequeno sup=0.2777778 conf=0.8333334 grande->quente sup=0.25 conf=0.75
quente->grande sup=0.25 conf=0.6
praia~lago->quente sup=0.375 conf=0.71428573 quente->praia~lago sup=0.375 conf=0.90000004 praia->quente sup=0.33333334 conf=1.0
quente->praia sup=0.33333334 conf=0.8000001 praia,grande->quente sup=0.25 conf=1.0 quente,grande->praia sup=0.25 conf=1.0 quente,praia->grande sup=0.25 conf=0.75 grande->quente,praia sup=0.25 conf=0.75 praia->quente,grande sup=0.25 conf=0.75 quente->praia,grande sup=0.25 conf=0.6 grande->praia sup=0.25 conf=0.75
praia->grande sup=0.25 conf=0.75
Figura 7.3 – Regras de associação obtidas pelo SSDM.
Note que as regras 3, 4, 5, 6, 11 e 12 não seriam obtidas através da aplicação de um algoritmo convencional de mineração de regras de associação. A regra 4, por exemplo, mostra que as ocorrências de “novo” tendem a coincidir com as ocorrências dos itens similares “grande” e “enorme”, com suporte (nebuloso) de 41,11% e confiança de 92,5%. Uma possível interpretação dessa regra, no contexto da aplicação da agência de turismo, é “entre as imagens de pontos turísticos, 41,11% mostram que o que é novo é grande ou enorme, e em 92,5% das imagens em que aparece uma atração turística grande ou enorme, ela é nova”. O conhecimento representado por regras de associação que consideram as similaridades semânticas entre os dados, como no caso de “grande” e “enorme”, passa a ser gerado quando o algoritmo SSDM é aplicado.
7.4. CONSIDERAÇÕES FINAIS
Esse estudo de caso demonstrou que através do algoritmo SSDM é possível obter regras de associação com informações contemplando a similaridade semântica dos dados, ignorada por algoritmos convencionais. Assim, a descoberta de conhecimento é favorecida, já que a análise do significado dos dados na mineração propicia a obtenção de regras de associação mais compreensíveis e ricas em informações.
8. CONCLUSÕES
8.1. RESULTADOS ALCANÇADOS
Com a criação e aplicação do algoritmo SSDM, tornou-se possível descobrir regras de associação que refletem a similaridade semântica que pode haver entre os dados. Com isso, o conhecimento fornecido por essas regras passa a ser mais rico, pois são reveladas associações entre os dados que algoritmos convencionais não são capazes de descobrir. O uso de conceitos de lógica nebulosa no SSDM contribuiu para que a representação e manipulação das informações estejam mais próximas da linguagem humana, tornando-as mais inteligíveis. Como o processo de descoberta de conhecimento (KDD) busca padrões potencialmente úteis e compreensíveis nos dados, quanto melhor for a compreensão do conhecimento obtido, maior será a sua utilidade. A mineração de dados semanticamente similares caminha nesse sentido.
A mineração de dados multimídia (capítulo 5) ainda tem que evoluir para que o processo todo seja totalmente automático. Estudos referentes ao estado da arte em mineração multimídia mostram que nela as características das mídias são extraídas e que, então, o processo de mineração se dá sobre os dados extraídos. O algoritmo SSDM, apresentado na seção 6.3, segue essa linha de implementação, e ao agregar maior semântica no processamento dos dados, contribui para a evolução do estado da arte. Essa contribuição fica particularmente evidente ao se analisar os tipos de metadados minerados nas abordagens estudadas. Enquanto nesses trabalhos são minerados metadados obtidos a partir de características como cores, padrões e formatos, o objeto da mineração de dados semanticamente similares são as informações semânticas.
8.2. CONTRIBUIÇÕES
Estão entre as contribuições deste trabalho:
• Um novo algoritmo (SSDM) que realiza mineração de dados semanticamente similares, além de ser genérico, uma vez que pode ser aplicado na mineração das informações semânticas de qualquer tipo de dados.
• A criação de um novo parâmetro (minsim) para a mineração de dados, que indica a similaridade mínima entre os itens desejada.
• A definição de associação nebulosa, no contexto do SSDM.
• A definição e a estratégia para identificação de ciclo de similaridades. • As definições de item nebuloso e itemset nebuloso, no contexto do SSDM.
• A definição de ocorrência nebulosa, e a criação de fórmulas para o cálculo do peso nebuloso.
• A definição de suporte nebuloso, que permite manter inalterada a forma de cálculo da confiança.
• A possibilidade de existir itens nebulosos nas regras de associação exibidas, representando a associação entre itens suficientemente similares, e a possibilidade de os valores de suporte e confiança que aparecem nas regras serem calculados de forma nebulosa.
8.3. TRABALHOS FUTUROS
8.3.1. Avaliar o desempenho
Não foram realizados testes de desempenho com o algoritmo SSDM. Essa tarefa deverá ser realizada comparando-o com outros algoritmos existentes na literatura. Pretende-se efetuar dois tipos de comparação:
1) Comparar o SSDM com algoritmos convencionais. Por exemplo, comparar Apriori (seção 2.3.1) e SSDM, para avaliar a diferença de desempenho entre um algoritmo clássico que minera regras de associação, e um algoritmo que além disso também minera similaridades semânticas entre os dados.
2) Incorporar as novas funcionalidades presentes no SSDM em outros algoritmos existentes, e então compará-los com o SSDM. Isso poderia ser feito, por exemplo, em relação ao algoritmo FP-growth (seção 2.3.3). Note-se que, através da realização dessa tarefa, novos algoritmos serão criados.
8.3.2. Refinar o processo de expressão das regras
No algoritmo atual, as regras exibidas podem compreender itens nebulosos, e nesse caso os valores de suporte e confiança nelas exibidos refletirão a presença deles na regra. Porém, a forma como as regras são expressas, apresentada na Figura 6.7, segue a dos algoritmos convencionais. Assim, pode ser realizado um estudo para definir uma forma mais refinada de expressar os conceitos envolvidos na mineração de dados semanticamente similares. Afinal, as regras constituem a saída do algoritmo, e quanto maior for a qualidade da representação das informações, melhor será a interpretação das mesmas e conseqüentemente a capacidade de se descobrir conhecimento a partir das regras.
8.3.3. Realizar baterias de testes
Foram realizados testes sobre uma massa de dados capaz de validar o uso do algoritmo. Entretanto, deseja-se avaliar se o uso da similaridade pode trazer algum tipo de distorção no resultado, considerando-se que os valores de similaridade representam a semântica introduzida por um usuário e que por esse motivo não estão totalmente livres de problemas de interpretação. Para isso, é necessária a realização de baterias de testes envolvendo variedade e quantidade maiores de dados.
8.3.4. Substituição da estrutura Hash-tree
O SSDM utiliza uma estrutura de Hash-tree, adaptada daquela usada no algoritmo Apriori, para armazenar e recuperar os itemsets analisados durante a mineração. Além disso, o peso de um
itemset também é atualizado na Hash-tree, à medida que novas ocorrências dos itens que o
compõem são encontradas na base de dados. Na mineração de dados semanticamente similares, realizada pelo SSDM, os itemsets podem ser nebulosos, e por isso a construção de uma estrutura de dados que os manipule mais adequadamente pode ser avaliada. Uma possibilidade é a utilização de uma estrutura métrica, na qual os dados estejam armazenados em um nó conforme a similaridade ou dissimilaridade apresentada entre eles.
8.3.5. Permitir outras formas de definição dos domínios
Conforme foi comentado na seção 6.3.1, a definição dos domínios no SSDM é importante para que seja possível relacionar os itens quanto à sua similaridade somente quando isso for conveniente, ou seja, quando pertencerem a um mesmo domínio. Para possibilitar a aplicação do
SSDM nas informações semânticas de qualquer tipo de dados, adotou-se a princípio como
solução definir os domínios aos quais os itens pertencem de acordo com a coluna em que eles aparecem na base de dados. Existem, porém, aplicações onde esse não é um bom critério para a definição dos domínios, porque nelas seria interessante uma análise da similaridade semântica entre itens que fazem parte de uma mesma linha (portanto, de colunas diferentes) de uma base de dados. Assim, seria interessante permitir outras formas de definição de domínios, para que os itens sejam neles agrupados de acordo com a análise semântica desejada.
9. REFERÊNCIAS BIBLIOGRÁFICAS
AGRAWAL, R. e SRIKANT, R. Fast Algorithms for Mining Association Rules. In: 20th Conference on Very Large Data Bases (VLDB'94), 1994, Santiago, Chile. Anais. Santiago, Chile, 1994. p. 487-499.
ANTHONIE, M. L., ZAÏANE, O. R. e COMAN, A. Application of Data Mining Techniques for Medical Image Classification. In: 2nd International Workshop on Multimedia Data Mining (MDM/SIGKDD'2001), 2001, San Francisco, USA. Anais. San Francisco, USA, 2001. p. 94- 101.
AU, W.-H. e CHAN, K. C. C. FARM: A Data Mining System for Discovering Fuzzy Association Rules. IEEE International Conference on Fuzzy Systems, 1999.
BIANCHI-BERTHOUZE, N. e HAYASHI, T. Subjective interpretation of complex data: Requirements for supporting kansei mining process. In: 3rd International Workshop on Multimedia Data Mining (MDM/SIGKDD'2002), 2002, Edmonton, Canada. Anais. Edmonton, Canada, 2002. p. 93-99.
CHAN, K. C. C. e AU, W.-H. An Effective Algorithm for Discovering Fuzzy Rules in Relational Databases. In: IEEE International Conference on Fuzzy Systems, 1998, Anchorage, Alaska. Anais. Anchorage, Alaska, 1998.
CHEN, G. e WEI, Q. Fuzzy association rules and the extended mining algorithms. Fuzzy Sets and Systems, v. 147, n. 1-4, p. 201-228, 2002.
CHEN, G., WEI, Q. e KERRE, E. E. Fuzzy Data Mining: Discovery of Fuzzy Generalized Association Rules. In: G. Bordogna e G. Pasi. Recent Issues on Fuzzy Databases. Physica- Verlag, 2000, p. 45-66.
DATCU, M. e SEIDEL, K. An Innovative Concept for Image Information Mining. In: 3rd International Workshop on Multimedia Data Mining (MDM/SIGKDD'2002), 2002, Edmonton, Canada. Anais. Edmonton, Canada, 2002. p. 11-18.
DEOGUN, J. S., et al. Data Mining: Trends in Research and Development. In: T. Y. Lin e N. Cercone. Rough Sets and Data Mining - Analysis of Imprecise Data. Kluwer Academic Publishers, 1997, p. 9-24.
DJERABA, C. Relationship extraction from large image databases. In: 2nd International Workshop on Multimedia Data Mining (MDM/SIGKDD'2001), 2001, San Francisco, USA. Anais. San Francisco, USA, 2001. p. 44-49.
DUBOIS, D. e PRADE, H. Fuzzy Relations. In: Fuzzy Sets and Systems: Theory and Applications. New York: "Mathematics in Science and Engineering" series, Academic Press, 1980, p. 68-93.
DVORAK, J. e SEDA, M. Comparison of fuzzy similarity values. In: 3rd International Conference Aplimat, 2004, Bratislava, Slovak. Anais. Bratislava, Slovak, 2004. p. 387-392.
ELMASRI, R. e NAVATHE, S. B. Data Mining Concepts. In: Fundamentals of Database Systems. Addison-Wesley, 2004, p. 867-897.
FAYYAD, U., PIATETSKY-SHAPIRO, G. e SMYTH, P. From Data Mining to Knowledge Discovery in Databases. AI Magazine (AAAI), 1997.
HAN, J. e KAMBER, M. Data Mining - Concepts and Techniques. 1ª edição. Nova York: Morgan Kaufmann, 2001.
HAN, J., PEI, J. e YIN, Y. Mining frequent patterns without candidate generation. In: Proc. of the ACM SIGMOD Int'l Conf. on Management of Data, 2000, Dallas, Texas, USA. Anais. Dallas, Texas, USA, 2000.
HIPP, J., GÜNTZER, U. e NAKHAEIZADEH, G. Algorithms for Association Rule Mining - A General Survey and Comparison. SIGKDD Explorations, v. 2, n. 1, p. 58-64, 2000.
HONG, T.-P., KUO, C.-S. e CHI, S.-C. Mining association rules from quantitative data. Intelligent Data Analysis, v. 3, n. 5, p. 363-376, 1999.
KLIR, G. J. e YUAN, B. Fuzzy Sets and Fuzzy Logic - Theory and Applications. Prentice Hall P T R, 1995.
KUOK, C. M., FU, A. e WONG, M. H. Mining Fuzzy Association Rules in Databases. ACM SIGMOD Record, v. 27, n. 1, p. 41-46, 1998.
LEE, J.-H. e LEE-KWANG, H. An Extension of Association Rules Using Fuzzy Sets. In: 7th International Fuzzy Systems Association World Congress, 1997, Prague, Czech. Anais. Prague, Czech, 1997. p. 399-402.
MANNILA, H. Methods and problems in data mining. In: International Conference on Database Theory, 1997, Delphi, Greece. Anais. Delphi, Greece, 1997.
MARCHIORI, E. Data Mining. Encyclopedia of Life Support Systems (EOLSS), 2000.
MITRA, S. e ACHARYA, T. Data Mining: multimedia, soft computing, and bioinformatics. Wiley-Interscience, 2003.
ORDONEZ, C. e OMIECINSKI, E. Discovering Association Rules based on Image Content. In: IEEE Advances in Digital Libraries Conference (ADL'99), 1999, Baltimore, Maryland (USA). Anais. Baltimore, Maryland (USA), 1999.
ORLANDO, S., PALMERINI, P. e PEREGO, R. Enhancing the Apriori Algorithm for Frequent Set Counting. Lecture Notes in Computer Science - Springer-Verlag, v. 2114, p. 71+, 2001.
PEDRYCZ, W. Fuzzy set technology in knowledge discovery. Fuzzy Sets and Systems, v. 98, n. 3, p. 279-290, 1998.
PEDRYCZ, W. e GOMIDE, F. Fuzzy Relations and Their Calculus. In: An Introduction to Fuzzy Sets: Analysis and Design. "A Bradford book." - The MIT Press, 1998, p. 85-126.
SANTOS, F. G. Ferramenta MAE: Autoria Multimídia e Integração com Banco de Dados. 2003. Dissertação (Mestrado) – Departamento de Computação (DC), UFSCar, São Carlos, 2003.
SAVARESE, A., OMIECINSKI, E. e NAVATHE, S. An Efficient Algorithm for Mining Association Rules in Large Databases. In: 21st Conference on Very Large Databases (VLDB'95), 1995, Anais. 1995.
SRIKANT, R. e AGRAWAL, R. Mining Generalized Association Rules. In: 21st VLDB Conference, 1995, Zurich, Switzerland. Anais. Zurich, Switzerland, 1995. p. 407-419.
______ Mining Quantitative Association Rules in Large Relational Tables. In: ACM SIGMOD, 1996, Montreal, Canada. Anais. Montreal, Canada, 1996. p. 1-12.
VIEIRA, M. T. P., et al. Content-Based Fuzzy Search in a Multimedia Web Database. In: Intelligent Exploration of the Web. "Studies in Fuzziness and Soft Computing" series, Springer-Verlag, 2002.
WOJCIECHOWSKI, M. e ZAKRZEWICZ, M. On Efficiency of Dataset Filtering Implementations in Constraint-Based Discovery of Frequent Itemsets. In: 2002 JCKBSE Conference, 2002, Maribor, Slovenia. Anais. Maribor, Slovenia, 2002.
ZADEH, L. A. Fuzzy Sets. In: R. R. Yager, S. Ovchinnikov, et al. Fuzzy Sets and Applications: Select Papers by L. A. Zadeh. Wiley-Interscience, 1987a, p. 29-44.
______. Similarity Relations and Fuzzy Orderings. In: R. R. Yager, S. Ovchinnikov, et al. Fuzzy Sets and Applications: Select Papers by L. A. Zadeh. Wiley-Interscience, 1987b, p. 81-104.
ZAKI, M., et al. New algorithms for fast discovery of association rules. In: Proc. of the ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining, 1997, Newport Beach, CA, USA. Anais. Newport Beach, CA, USA, 1997.
ZHANG, J., HSU, W. e LEE, M. L. Image Mining: Issues, Frameworks and Techniques. In: 2nd International Workshop on Multimedia Data Mining (MDM/SIGKDD'2001), 2001, San Francisco, USA. Anais. San Francisco, USA, 2001. p. 13-20.