2.2. SORUŞTURMA İŞLEMLERİNE SON VERİLMESİ KARARININ
2.3.13. İddianamenin Düzenlenmesinin Ertelenmesi
2.3.13.2. İddianamenin Düzenlenmesinin Ertelenmesi Müessesesinin
No que segue, é discutida a execução de um primeiro experimento envolvendo o S_MEMISP+AR usando dados reais (BDO completa após pré- processamento (ver Tabela 6.3)), com vistas a avaliar e testar o funcionamento do sistema. Para o experimento em questão:
a) min_sup = 0,05 (ou seja, um padrão para ser considerado frequente deve ter sido identificado em pelo menos 5% das transações da BDO, i.e., ocorrer em 75 transações ) e
b) o valor mínimo de confiança para considerar uma regra forte foi estabelecido como min_conf = 0,035.
A Tabela 6.4 apresenta os resultados da primeira fase de execução do S_MEMISP+AR, em que são identificados todos os itens frequentes. Nela é possível observar que os produtos (itens) mais frequentes são: refrigerante, identificado em 41,47% (622) das transações da BDO e cerveja, identificada em 29,05% (435) das transações da BDO.
128 As escolhas dos valores dos parâmetros min_sup e min_conf foram feitas tendo em conta que, considerando um valor de suporte menor que 0,05, a quantidade de padrões encontrados é muito grande, o que provoca um aumento considerável no tempo de processamento do S_MEMISP+AR. Em muitos casos chega até a gerar erros de estouro de pilha. Por outro lado, definindo o min_conf com valor acima de 0,035, restringe o S_MEMISP+AR, a ponto de gerar apenas uma regra de associação com os padrões identificados.
Tabela 6.4 – Itens frequentes identificados na BDO via S_MEMISP+AR (min_sup = 0,05).
Item Suporte Item Suporte
banana-kg 0,1438 queijo-kg 0,1114 laranja-kg 0,0620 acucar 0,0620 refrigerante 0,4146 cafe 0,0944 cebola-kg 0,1227 feijao 0,0634 cenoura-kg 0,0818 leite 0,1537 carne-bovina 0,2256 mortadela 0,0592 detergente 0,0860 oleo-de-soja 0,0916 arroz 0,0832 sabao-em-po 0,1015 linguica-kg 0,1438 milhoverde 0,0677 pao-frances 0,1889 salsicha 0,0691 papel-higienico 0,1057 carne-de-frango 0,1664 tomate-kg 0,1706 presunto-kg 0,0803 cerveja 0,2905 iogurte 0,0592 batata-kg 0,1269 sabonete 0,0874 maionese 0,0662
Recordando o funcionamento do S_MEMISP+AR em sua segunda etapa de execução, fase em que é criada uma lista de índices para cada um dos itens identificados no passo anterior, o algoritmo combina cada um dos itens com seus sucessores na transação, a fim de gerar padrões frequentes. Tal processo é executado de forma recursiva, até que todas as combinações tenham sido geradas, considerando todas as transações que a lista de índices do item registra ocorrência dele. Todos os itens são analisados, juntamente com suas respectivas listas de índices.
O resultado do processo de identificação de padrões frequentes na BDO pelo S_MEMISP+AR é apresentado, dividido em duas tabelas: a Tabela 6.5 (padrões com 2 itens) e a Tabela 6.6 (padrões com mais de 2 itens). Note que todos os
padrões gerados apresentados em ambas as tabelas possuem apenas um único
itemset.
É importante lembrar que o exemplo apresentado no Capítulo 5, em que o S_MEMISP+AR foi utilizado em um experimento cuja BD continha apenas 70 registros (i.e., um subconjunto da BDO utilizada nesta seção) e, portanto, o valor de
min_sup teve de ser relativamente baixo (0,2 e 0,18) para que fosse possível
identificar uma quantidade razoável de padrões frequentes. Entretanto, para esse experimento, com o uso da BDO e min_sup = 0.05 (i.e., relativamente baixo), o S_MEMISP+AR conseguiu identificar uma quantidade significativa de padrões frequentes.
Observando a Tabela 6.6 é possível extrair informações sobre a relação existente entre alguns itens de uma mesma transação da BDO. Considere o padrão frequente #ID = 10, da tabela, cujo valor de suporte = 0,0606. É possível afirmar, com base nesse padrão frequente identificado, que os itens carne-bovina, carne-de- frango, cerveja e refrigerante são comumente comprados juntos, por uma grande quantidade de fregueses que utilizam o estabelecimento (90 transações). Situação semelhante ocorre com o padrão frequente #ID = 7, com valor de suporte igual a 0,0634.
Como visto no Capítulo 5 (ver Seção 5.5), cada itemset ei (ei ∈ s), identificado no passo anterior, dá origem a um conjunto de regras Ri = {Ri1, Ri2, Rik} quando da utilização do procedimento gera_regras_do_itemset. Nessa etapa de execução são geradas todas as combinações possíveis, a fim de construir regras de associação com consequentes contendo de 1 a m−1 itens (m, tamanho do itemset ei). Tanto o
antecedente quanto o consequente da regra sempre conservam a ordem de ocorrência dos itens no itemset analisado. Para cada combinação gerada do conjunto de regras Ri, i=1,...,N, o valor de confiança é calculado (ver Equação 2.1) e, caso seja maior ou igual ao valor pré-estabelecido min_conf, a regra é considerada, caso contrário é descartada. Para o experimento descrito nesta seção, min_conf = 0,035. Todas as regras que permanecerem no conjunto Ri, i=1,...,N, são adicionadas ao conjunto final de regras de associação consideradas fortes i.e., o conjunto All_R. Ao final da execução do procedimento memisp_rules, tal conjunto irá conter todas as regras de associação geradas.
130
Tabela 6.5 – Padrões frequentes, contendo 2 itens, identificados na BDO via S_MEMISP+AR, para min_sup = 0,05.
Tabela 6.6 – Padrões frequentes, contendo mais de 2 itens, identificados na BDO via S_MEMISP+AR, para min_sup = 0,05.
A próxima etapa de execução do S_MEMISP+AR consiste em utilizar os padrões frequentes identificados (ver Tabela 6.5) para a geração de um conjunto de regras de associação via memisp_rules. A Tabela 6.7 apresenta o conjunto de
Itemset Suporte Itemset Suporte
(acuca,café) 0,0606 (cerveja,refrigerante) 0,1241 (cerveja,linguica-kg) 0,0521 (banana-kg,refrigerante) 0,0719 (cerveja,tomate-kg) 0,0578 (banana-kg,carne-bovina) 0,0521 (banana-kg,tomate-kg) 0,0493 (feijao,oleo-de-soja) 0,0505 (banana-kg,batata-kg) 0,0564 (banana-kg,leite) 0,0564 (leite,refrigerante) 0,0902 (leite,tomate-kg) 0,0578 (batata-kg,refrigerante) 0,0747 (batata-kg,cebola-kg) 0,0662 (linguica-kg,refrigerante) 0,0761 (batata-kg,carne-bovina) 0,0564 (batata-kg,tomate-kg) 0,0648 (oleo-de-soja,refrigerante) 0,0505 (batata-kg,carne-de-frango) 0,0505 (pao-frances,refrigerante) 0,0832 (carne-bovina,refrigerante) 0,1269 (carne-bovina,linguica-kg) 0,7052 (papel-higienico,refrigerante) 0,0620 (carne-bovina,pao-frances) 0,5077 (papel-higienico,sabao-em-po) 0,0507 (carne-bovina,tomate-kg) 0,0662 (carne-bovina,carne-de-frango) 0,0719 (presunto-kg,refrigerante) 0,0509 (presunto-kg,queijo-kg) 0,0705 (carne-de-frango,refrigerante) 0,0775 (carne-de-frango,linguica-kg) 0,0507 (queijo-kg,refrigerante) 0,0677 (carne-de-frango,tomate-kg) 0,0634 (cebola-kg,refrigerante) 0,0662 (refrigerante,tomate-kg) 0,0846 (cebola-kg,tomate-kg) 0,0662
#ID Itemset Suporte
1 (banana-kg,refrigerante, tomate-kg) 0,0507 2 (batata-kg,cebola-kg,refrigerante) 0,0521 3 (carne-bovina,carne-de-frango,cerveja) 0,0620 4 (carne-bovina,carne-de-frango,refrigerante) 0,0662 5 (carne-de-frango,refrigerante,tomate-kg) 0,0505 6 (cerveja,linguica-kg,refrigerante) 0,0521 7 (banana-kg,cerveja,refrigerante) 0,0634 8 (leite,refrigerante,tomate-kg) 0,0509 9 (presunto-kg,queijo-kg,refrigerante) 0,0505 10 (carne-bovina,carne-de-frango,cerveja,refrigerante) 0,0606
combinações possíveis associadas ao padrão #ID = 10, que é um dos padrões frequentes identificados pelo S_MEMISP+AR. Na tabela são também mostrados o valor de confiança para cada uma das possibilidades geradas bem como indicado se a combinação em questão pode ser considerada uma regra forte ou não (será forte se seu valor de confiança for maior ou igual ao valor min_conf (estabelecido como 0,035).
Tabela 6.7 – Conjunto de combinações geradas a partir do padrão frequente #ID = 10, com seus respectivos valores de confiança. Serão consideradas regras aquelas
combinações com conf ≥ 0,035.
Regra Confiança Regra considerada?
carne-bovina,carne-de-frango,cerveja ⇒ refrigerante 0,0505 Sim carne-bovina,carne-de-frango ⇒ cerveja,refrigerante 0,0366 Sim carne-bovina ⇒ carne-de-frango,cerveja,refrigerante 0,0181 Não