BÖLÜM II: PROJE N SEÇ LEN YER N VE PROJEDEN ETK LENECEK ALANIN
ekil 5. Baz Kümes Ekipmanlar
Os sistemas de Etiquetagem Social (do Inglˆes Social Tagging), tˆem crescido em populari-
dade na Web nos ´ultimos anos por conta de sua simplicidade para categorizar e recuperar o
conte´udo usando etiquetas (do Inglˆes tags). O crescente n´umero de usu´arios que fornecem
informa¸c˜oes sobre si mesmos por meio de atividades de etiquetagem, ´e consequˆencia do surgimento de abordagens de perfis baseados em marca¸c˜ao (Musto et al., 2009), os quais
assumem que os usu´arios exp˜oem suas preferˆencias por determinados conte´udos atrav´es
de intera¸c˜oes utilizando etiquetas.
As etiquetas fornecidas pelos usu´arios, em geral, s˜ao uma forma de intera¸c˜ao que ex- pressa preferˆencias e interesses dos usu´arios e que auxiliam significativamente os sistemas de recomenda¸c˜ao em retornar os itens mais relevantes para aquele usu´ario. Com a in- trodu¸c˜ao de etiquetagem social, a rela¸c˜ao bin´aria habitual entre usu´arios e itens, que ´e largamente explorada por SR tradicionais, transforma-se em uma rela¸c˜ao tern´aria entre usu´arios, itens e etiquetas.
A qualidade das etiquetas pode afetar diretamente o desempenho da recomenda¸c˜ao. Quando utilizadas colaborativamente, a etiquetagem social pode representar as preferˆen- cias de um grupo de usu´arios; por´em ´e suscet´ıvel a problemas, tais como a dispers˜ao
(os usu´arios tendem a fornecer um n´umero limitado de etiquetas, polissemia (etiquetas
organiza¸c˜ao pessoal como “ler”, por exemplo). Todos esses problemas podem prejudi- car a qualidade das recomenda¸c˜oes e geralmente s˜ao causados pela maneira pela qual as etiquetas s˜ao capturadas e manipuladas (Zhang et al., 2010). Apesar de conterem um valor semˆantico, as etiquetas podem tamb´em ser utilizadas como intera¸c˜oes impl´ıcitas, de maneira que leva-se em considera¸c˜ao somente se o usu´ario atribuiu uma etiqueta a determinado item ou n˜ao. Nesta abordagem considera-se apenas o esfor¸co do usu´ario de fornecer informa¸c˜oes a determinado item, n˜ao sendo necess´ario um processamento lingu´ıs- tico, como an´alise de sentimento, para a recomenda¸c˜ao.
Dentre os principais m´etodos de aquisi¸c˜ao de etiquetas, tem-se:
❼ Etiquetas especialistas (Tagging Expert): esta abordagem depende de um
pequeno n´umero de especialistas, que ir˜ao associar palavras aos itens, usando, prin-
cipalmente, vocabul´arios estruturados. Nesse m´etodo, geralmente os especialistas
fornecem etiquetas objetivas e que abrangem m´ultiplos aspectos daquele item. Pan-
dora6´e um exemplo relevante de um sistema que utiliza especialistas para associarem
palavras-chave a m´usicas. A principal vantagem da utiliza¸c˜ao de especialistas ´e a
coerˆencia do vocabul´ario gerado. Por outro lado, existe o custo de trabalho manual, o que ´e simultaneamente demorado e caro.
❼ Etiquetas com base em jogos: ´e uma ideia inovadora, que iniciou-se com o
ESPGame7, para utilizar os usu´arios em jogos de classifica¸c˜ao de itens. No caso
do ESPGame, dois jogadores observam simultaneamente a mesma imagem e o jogo pede para ambos entrarem com palavras-chave at´e que ambos entrem com a mesma palavra. Depois do sucesso da ESPGame, apareceram v´arios outros (por exemplo,
ListenGame8) no dom´ınio da m´usica. Atrav´es da parceria de duas ou mais pessoas, o
conjunto resultante de marca¸c˜oes tem o potencial de ser muito preciso. O problema desse m´etodo ´e que os jogadores, optando por maior pontua¸c˜ao, podem sacrificar a qualidade de etiquetas. Por exemplo, podem introduzir marca¸c˜oes mais gerais no lugar de palavras mais espec´ıficas, apenas para aumentar a probabilidade de ganhar
um n´umero maior de pontos em uma partida.
❼ Etiquetas baseadas em conte´udo: artif´ıcios como endere¸cos de um recurso (do Inglˆes Uniform Resource Locator - URL), trilhas sonoras, coment´arios, etc., pos-
suem um conte´udo rico. Por meio da coleta dessas informa¸c˜oes e convertendo esses
dados em uma representa¸c˜ao adequada, as etiquetas podem ser geradas atrav´es de algoritmos de minera¸c˜ao de dados. A vantagem de se utilizar marca¸c˜oes baseadas
6 http://www.pandora.com/ 7 http://www.gwap.com/gwap/gamesPreview/ 8 http://www.listengame.org/
em conte´udo ´e que nenhum usu´ario necessita estar diretamente envolvido durante o processo de aquisi¸c˜ao de etiquetas. As desvantagens s˜ao que essas palavras-chave podem conter ru´ıdos, seu c´alculo ´e intensivo, e os usu´arios s˜ao obrigados a concordar com as etiquetas geradas pelos algoritmos.
Na Tabela 3.1, s˜ao apresentadas as principais vantagens e desvantagens das aborda- gens descritas. Embora a etiquetagem social seja propensa a idiossincrasia, dispers˜ao e problemas de partida fria, a qualidade de etiquetas geralmente melhora com um grande
n´umero de usu´arios. Al´em disso, novos sistemas, bem como os que utilizam m´etodos
como os jogos de anota¸c˜ao, representam um paradigma de computa¸c˜ao com um enorme
potencial para resolver os problemas de sistemas baseados em conte´udo para aquisi¸c˜ao
de etiquetas. Entretanto, ao contr´ario de computadores, os usu´arios necessitam de algum incentivo para participar da “computa¸c˜ao coletiva” e alimentar esses sistemas.
Tabela 3.1: Caracteriza¸c˜ao dos m´etodos de aquisi¸c˜ao de marca¸c˜oes.
M´etodo Vantagens Desvantagens
Etiquetagem Social Escal´avel, Preferˆencias ge-
rais de grupos de usu´arios
Idiossincrasia, Polisse-
mia, Arranque frio
Experts Etiquetas Precisas N˜ao escal´avel, Processo
Manual
Jogos Preferˆencias gerais de gru-
pos de usu´arios, Potencial- mente escal´avel
Arranque frio, Propensa a manipula¸c˜ao
Minera¸c˜ao de dados Automa¸c˜ao, Evita o arran-
que frio
Ru´ıdos, computacional-
mente caro
Durao et al. (Durao e Dolog, 2010), desenvolveram um sistema de recomenda¸c˜ao baseado em etiquetagem multi-fatorial, composto por fatores lexicais e relevˆancias de palavras-chave buscadas por usu´arios para o c´alculo da similaridade. Shepitsen et al. (Shepitsen et al., 2008) propuseram um sistema de recomenda¸c˜ao personalizado usando agrupamento hier´arquico. Nesta abordagem, os autores utilizam um pr´e-processamento nas marca¸c˜oes pesquisadas pelos usu´arios e no agrupamento de etiquetas da base de dados para gerar uma recomenda¸c˜ao personalizada. Zhang et al. (Zhang et al., 2010) tiveram como objetivo no seu trabalho integrar a difus˜ao em gr´aficos tripartidos usu´ario × item × marca¸c˜oes, para melhorar a recomenda¸c˜ao de t´ecnicas do estado da arte.