II. KURAMSAL ÇERÇEVE VE İLGİLİ ARAŞTIRMALAR
2.6. İlgili Araştırmalar
2.6.1. Yurtiçinde Yapılan Araştırmalar
Aggarwal et al. [AGG09b] identificam mineração de dados como uma das áreas mais promissoras para pesquisa sobre incerteza nos dados. Os autores caracterizam a "descoberta de conjuntos de itens frequentes" como uma das técnicas com grande espaço para o desenvolvimento de pesquisas em um contexto de incerteza. Na revisão sistemática desenvolvida por Carvalho e Ruiz [CAR13], fica evidente o crescimento de publicações de artigos sobre o tema, a partir de 2007.
Os avanços tecnológicos em software, hardware e rede têm aumentado o volume das bases de dados. Muitos datasets, além de conter dados determinísticos, também armazenam dados com algum grau de incerteza associada. Tal incerteza pode ser gerada por uma série de motivos e são constantes em aplicações atuais.
A incerteza pode ser gerada em função dos métodos de coleta dos dados, tais como sensores. Durante o processo de captura, sensores podem gerar erros nos dados em função de sua imprecisão ao fazer a coleta, ou ainda durante a transmissão dos mesmos. Sensores que coletam dados específicos, tais como dados meteorológicos e de segurança, geram dados com incerteza. Frequentemente os dados dos sensores envolvidos na coleta necessitam ser consolidados. Desta consolidação é possível
estimar, por exemplo, a probabilidade "p" de os sensores detectarem um determinado objeto, com uma determinada margem de erro "e". Logo, tal incerteza é representada por probabilidades que são adquiridas, ou por meio de um especialista, ou através de algum método estatístico aplicado sobre os dados históricos.
A incerteza dos dados também pode estar relacionada ao desconhecimento da origem das fontes de informações, o que pode ocorrer por causa de formulários preenchidos incorretamente, leitura e escrita imprecisa de instrumentos diversos, problemas em sistemas de software, dentre outros fatores. Aplicações utilizadas para o reconhecimento de padrões, a fim de descobrir a presença ou ausência de objetos em imagens de satélite, são outros exemplos da existência de incerteza nos dados. Em função de erros e resoluções limitadas, a presença de um objeto em uma área no espaço é frequentemente incerta e probabilidades são utilizadas para representá-la.
Lakshmanan et al., em [LAK97], mostram um exemplo de dataset com dados incertos, a partir de uma base de dados contendo imagens, ilustrada na Tabela 3.1. Considerem-se algoritmos de processamento de imagens executando sobre imagens de vigilância. Dada uma imagem "im1.gif", tais algoritmos executam dois passos: tentam localizar faces na imagem "im1.gif" (segmentação) e posteriormente procuram combinar as faces encontradas no primeiro passo com imagens contidas em uma base de dados.
A tupla t1, por exemplo, informa que uma face ocorre no arquivo de imagem "im1.gif". Esta
face está localizada em um retângulo: canto rodapé-esquerda (5,10) e canto topo-direita (35,40). Para identificar quem está representado neste retângulo, de acordo com t1, existem probabilidades
associadas. A face pode ser de John, com 20% a 25% de certeza, ou Jim (35% - 40%) ou ainda Tom (40% - 45%).
Tabela 3.1: Exemplo de incerteza em um dataset de imagens (adaptado de [LAK97]).
tupla imagem rodapé esquerda topo direita quem IP1 SP2
t1 im1.gif 5 10 35 40 John 0.20 0.25 Jim 0.35 0.40 Tom 0.40 0.45 t2 im2.gif 35 40 60 40 John 0.60 0.65 Jim 0.20 0.25 Ed 0.10 0.15 t3 im3.gif 10 10 25 25 JohnEd 0.300.60 0.350.65
Chui et al. [CHU08] ilustram outro exemplo de incerteza nos datasets. Tomem-se experimentos que testam microorganismos resistentes a certas drogas. Os resultados de cada teste são salvos em um dataset. Cada microorganismo é uma transação e as drogas são listadas como itens na tran- sação. Aplicando algoritmos FIM sobre o dataset, é possível descobrir associações entre as drogas que apresentam resistência aos microorganismos. Na prática, devido aos possíveis erros de medição, diversos experimentos precisam ser conduzidos, a fim de obter a mais alta confiança nos resulta- dos. Em cada caso, a existência de um item (droga) na transação deveria ser expressa como uma probabilidade. Por exemplo, se Streptococcus Pneumoniae (um microorganismo) mostra resistên- cia a Penicilina (um antibiótico) 90 vezes nos 100 experimentos, a probabilidade de a propriedade "resistência à penicilina" existe em Streptococcus Pneumoniae em 90% dos casos. Este tipo de probabilidade é denominado de probabilidade existencial do item e foi caracterizada como tal, pela primeira vez, por Chui et al., em [CHU07].
Aggarwal et al. [AGG09a] afirmam e provam que algoritmos tradicionais como Apriori [AGR93], AprioriTid [AGR94] and FP-Growth [HAN00] não estão adaptados a lidar com as características
probabilísticas dos dados. Para os autores, novos algoritmos e técnicas têm sido desenvolvidas, a fim de capturar e trabalhar sob circunstâncias de incerteza, a partir da evolução destes algoritmos clássicos.
3.2.1 Representação da Incerteza nos Dados
Diversos trabalhos sobre incerteza nos dados armazenam esta informação de maneira distinta. Grande parte dos trabalhos, de acordo com a revisão sistemática de Carvalho e Ruiz [CAR13], representam esses dados conforme Figura 3.7. Cada item i, em uma transação t qualquer, tem uma probabilidade P (i,t), onde 0 < P (i,t) <= 1. Na Figura 3.7, por exemplo, a transação 4 indica que o paciente tem Obesidade (O), além de 80% e 90% de probabilidade de ter Depressão (D) e Insônia (I), respectivamente.
Figura 3.7: Dataset onde cada transação denota a probabilidade de um paciente estar com sintomas de Depressão (D), Hipertensão (H), Insônia (I) e Obesidade (O).
Existem alguns trabalhos que lidam um pouco diferente com a representação dos dados com incertezas. O artigo de Liang Wang et al. [WAN10] varia a forma de representar os dados com incerteza. Além de executar testes sobre datasets com a mesma representação dos dados ilustrada na Figura 3.7, este trabalho também gera datasets cujas probabilidades estão associadas às tuplas, ou seja, a probabilidade de uma transação tj é um valor entre 0 e 1, representada por P (tj) ∈ (0, 1]. Isto indica que esta tupla existe na base de dados com probabilidade igual a P (tj).
Outro trabalho que organiza os dados de modo distinto é o artigo de Leung e Sun [LEU11], que transforma bases de dados probabilísticas de seu formato usual, na horizontal, para um formato verti- cal. Neste artigo a base de dados é representada por uma coleção de itens, onde cada item i específico está associado a uma lista de transações (tidlist). A representação tidlist(i) : t1: 0.9, t2: 0.8, t3: 0.2
indica em quais transações o item i aparece. Neste caso, o item i aparece na transação t1 com 90%
de certeza, enquanto este mesmo item aparece nas transações t2 e t3 com 80% e 20% de certeza,
respectivamente.
O artigo de Liu [LIU12] classifica os dados como univariate uncertain data, onde cada atributo, em uma transação, está associado a um intervalo quantitativo. Por exemplo, um sensor de baixa sensibilidade, usado para anotar a poluição atmosférica, pode registrar um intervalo quantitativo, ao invés de um valor preciso, para indicar a quantidade de partículas suspensas no ar, às 5h da manhã.