• Sonuç bulunamadı

3. BÖLÜM

6.3. Müze ve Oyun İlişkisi

Nesta seção, comparamos, quanto ao resultado e tempo de execução, as técnicas de extração automática de tópicos baseada em PCA, em LDA e a técnica baseada em covariância introduzida na Seção 3.2. A técnica de extração de tópicos baseada em covariância é a que mais se assemelha às técnicas desenvolvidas neste trabalho, tanto quanto à representação de um tópico como quanto ao processo empregado para extrair os tópicos. Na técnica de extração de tópicos baseada em covariância, primeiramente identificam-se os dois termos com maior covariância na representação vetorial dos documentos selecionados. Esses dois termos com maior covariância são adicionados ao tópico a ser extraído. Para cada termo remanescente, a média da covariância dos dois primeiros termos selecionados em relação a cada termo remanescente é calculada. Se essa média for maior ou igual a um limiar pré-estabelecido α (um valor entre [0, 1]), o termo é adicionado ao tópico. De forma a identificar se existem outros pares de termos iniciais com alta covariância e interessantes para indicar temas, qualquer par de termos cuja razão de sua covariância pela maior covariância for maior ou igual a um limiar β (também um valor entre [0, 1]) irão gerar um novo tópico. Os valores α = 0, 5 e

β = 0, 75 foram adotados como padrão pelos autores.

A Figura 4.5 apresenta os tópicos extraídos por cada uma das técnicas acima quando aplicadas ao ano de 2012 da projeção dinâmica criada usando-se a T-LSP para o conjunto de artigos publicados por Alessandro Vespignani. Oito grupos encontrados pelo algoritmo de agrupamento DBSCAN (a ser apresentado na Seção 4.3.1) foram fornecidos como entrada

para essas técnicas. Os polígonos em cinza delimitam esses grupos, com identificadores (Ci)

adicionados manualmente para facilitar a análise. Um tópico é representado visualmente como uma lista de seus termos, e com o seu peso em colchetes. Quando um tópico é muito longo, os últimos termos não são exibidos, utilizando-se reticências no fim para indicar a existência de mais termos. Para exibir todos os termos de um tópico, basta o usuário selecioná-lo na representação visual. A Figura 4.5a apresenta os tópicos extraídos utilizando-se a técnica baseada em covariância com valores padrão para os parâmetros (α = 0, 5 e β = 0, 75). A Figura 4.5b mostra os tópicos extraídos utilizando a técnica baseada em PCA também com valores padrão para os parâmetros (min_topics = 0, 5 e min_terms = 0, 6). Por fim, a Figura 4.5c apresenta os tópicos extraídos utilizando-se a técnica baseada em LDA com valores padrão para os parâmetros (min_topics = 0, 5 e min_terms = 0, 3).

A extração em tópicos baseada em covariância tende a ser mais concisa do que a

técnica baseada em PCA. Por exemplo, todos os termos dos dois tópicos extraídos para

o grupo C7 na Figura 4.5a (covariância) – (simililarity, semantic, web) (graph, statistical) –

aparecem nos três tópicos – (internet, network, sampled, statistical, sampling, . . .) (statistical,

graph, web, sampling, sampled, mapping, . . .) (internet, semantic, similarity) – para o mesmo

grupo na Figura 4.5b (PCA). Apesar de não serem concisos, os tópicos baseados em PCA oferecem mais evidências de qual tema está sendo discutido nos documentos selecionados,

(a) Extração de tópicos baseada em covariância com parâmetros α = 0, 5 e β = 0, 75.

(b) Extração de tópicos baseada em PCA com parâmetros min_topics = 0, 5 e min_terms = 0, 6.

Figura 4.5: Tópicos extraídos para o ano de 2012 da projeção dinâmica criada usando-se a T-LSP para o conjunto de artigos publicados por Alessandro Vespignani (mesma projeção da Figura 4.4f).

(c) Extração de tópicos baseada em LDA com parâmetros min_topics = 0, 5 e min_terms = 0, 3.

Figura 4.5: Tópicos extraídos para o ano de 2012 da projeção dinâmica criada usando-se a T-LSP para o conjunto de artigos publicados por Alessandro Vespignani (mesma projeção da Figura 4.4f) (cont.).

por incluírem mais termos relevantes. Os tópicos também diferem entre si em relação aos seus pesos e a ordem de seus termos.

A técnica baseada em covariância também tende a ser suscetível a uma alta ocorrência de um conjunto de termos que acontece em um único documento do grupo. Por exemplo, os termos similarity e semantic, que compõem o tópico (simililarity, semantic, web) listado como

o tópico com maior peso para o grupo C7 segundo a técnica baseada em covariância, ocorrem

somente em um documento dentre os 16 desse grupo. O termo semantic ocorre 7 vezes nesse documento, enquanto o termo similarity ocorre 5 vezes. Dessa forma, esse tópico não é o

mais representativo para o grupo C7, apesar de ser listado como tal. Esses termos também

aparecem nos tópicos extraídos por PCA, mas no tópico com menor peso dentre os extraídos. Já o tópico (graph, statistical) referente à caracterização de propriedades estatísticas de redes complexas aparece em 10 documentos, e é listado como somente o segundo tópico mais importante segundo a técnica em covariância. Já a técnica baseada em PCA caracteriza o tópico correspondente (internet, network, sampled, statistical, sampling, . . .) como o mais importante do grupo, respondendo por 22, 77 da variância. Esse tópico também foi capaz de detectar que os documentos desse subconjunto discutem principalmente a caracterização de propriedades estatísticas de redes complexas representando domínios da Internet. Essa

menor suscetibilidade a esse tipo cenário pela técnica baseada em PCA pode ser explicada pelo fato desta técnica avaliar a covariância entre os termos globalmente, e não par a par como na técnica baseada em covariância.

Já a técnica baseada em LDA tende a gerar mais tópicos em alguns casos (e.g.,

grupos C6, C7 e C8) nos quais o modelo LDA encontra-se mais diluído para alguns grupos

de documentos – com contribuições menores de vários tópicos. Esse tipo de cenário pode tornar um pouco mais difícil para o usuário inferir quais os temas associados aquele grupo de documentos. Também se observa maior probabilidade de um único tópico estar associado a múltiplos grupos de documentos. Por exemplo, o tópico (critical, self-organized, criticality)

encontra-se associado aos grupos C2, C3 e C5 com diferentes pesos. Um tópico pode estar

associado a múltiplos documentos e a técnica de extração de tópicos baseada em LDA consegue capturar melhor esse tipo de situação. Já se uma projeção for gerada com o modelo LDA, o mesmo modelo também é utilizado para a extração dos tópicos, caso se opte pela técnica baseada em LDA. Dessa forma, obtém-se uma maior conexão entre a representação da coleção e os tópicos extraídos.

Dessa forma, acredita-se que a técnica PCA funcione melhor em coleções pequenas como a apresentada nessa seção. Em contrapartida, quando se tem uma coleção relativamente grande (> 1.000 documentos) recomenda-se a técnica baseada LDA, pois o modelo LDA funciona melhor em cenários mais complexos (vasto vocabulário) do que o modelo vetorial utilizado pela técnica baseada em PCA.

Quanto à diferença nos tempos de execução, a técnica baseada em covariância gastou 51 milissegundos para gerar os tópicos exibidos na Figura 4.5a. Já para a técnica baseada em PCA foram necessários 242 milissegundos para gerar os tópicos exibidos na Figura 4.5b. Por fim, foram necessários 7 milissegundos para gerar os tópicos exibidos na Figura 4.5c segundo a técnica de extração de tópicos por LDA. Também foram necessários 46 segundos adicionais para inferir o modelo LDA para essa coleção de documentos antes de extrair os tópicos, utilizando 1.500 iterações e parâmetros T = 100, α = 0, 1 e β = 0, 01. No entanto, a inferência do modelo LDA para uma coleção só precisa ser realizada uma única vez, mesmo que desejemos também extrair os tópicos para um outro conjunto de grupos em outro instante de tempo da projeção dinâmica. Esses tempos de execução foram calculados em um computador com processador Intel Core i7 de 3.4 G.Hz e com 16 GB de memória RAM.

No geral, os tópicos extraídos foram similares. A questão é que não existe uma ground

truth para avaliar um tópico. Todos os tópicos extraídos existem naqueles documentos, o que

pode divergir é que o tópico extraído pode não ser necessariamente o mais frequente ou o mais relevante.

Quanto à representação visual de tópicos por meio de uma lista, um problema pode ocorrer quando dois ou mais tópicos eventualmente se sobrepõem na representação visual. No entanto, a colocação automática de labels é um problema difícil e complexo, que neste

trabalho foi contornado por meio de uma iteração, que destaca o tópico do grupo sobre o qual o usuário posicionou o mouse e oculta os demais.