2.3. Eritme Peyniri Üretiminde Kullanılan Katkı Maddeleri
2.3.4. Tat ve aroma maddeleri
Neste cap´ıtulo foram apresentados e discutidos sete coeficientes de correla¸c˜ao quanto `as suas principais caracter´ısticas e propriedades. Al´em dos coeficientes de correla¸c˜ao pro- priamente ditos, foram apresentadas trˆes medidas recentemente propostas para o cen´ario de an´alise de s´eries temporais de dados de express˜ao gˆenica, sendo duas destas baseadas em medidas de correla¸c˜ao. A compara¸c˜ao emp´ırica destas medidas em tarefas de an´alise de express˜ao gˆenica constitui o principal foco desta disserta¸c˜ao. Nos pr´oximos cap´ıtu- los s˜ao apresentados experimentos e resultados envolvendo a avalia¸c˜ao das medidas aqui descritas nos cen´arios de agrupamento, sele¸c˜ao de atributos e classifica¸c˜ao.
5
Experimentos em Agrupamento
Neste cap´ıtulo s˜ao apresentados e discutidos os experimentos realizados para a avali- a¸c˜ao de medidas de similaridade em agrupamento de dados de express˜ao gˆenica. Para uma melhor discuss˜ao dos resultados obtidos, os mesmos foram divididos em duas grandes partes: agrupamento de amostras (Se¸c˜ao 5.2) e agrupamento de genes (Se¸c˜ao 5.3). Tal separa¸c˜ao ´e motivada por diferen¸cas existentes nas caracter´ısticas das bases de dados uti- lizadas, bem como nos processos de valida¸c˜ao que foram empregados em cada uma dessas subtarefas. Al´em disso, algumas das medidas discutidas no Cap´ıtulo 4 s˜ao investigadas somente no cen´ario de agrupamento de genes, em virtude das caracter´ısticas especiais das bases de dados deste cen´ario. Antes da apresenta¸c˜ao dos resultados propriamente ditos, os algoritmos de agrupamento para os quais as medidas foram avaliadas ser˜ao apresentados.
5.1
Algoritmos Utilizados
Para avaliar as medidas de similaridade na tarefa de agrupamento de dados de ex- press˜ao gˆenica quatro algoritmos de agrupamento foram considerados: k-medoids, Single-
Linkage, Average-Linkage e Complete-Linkage. ´E importante neste ponto fazer uma con-
sidera¸c˜ao a respeito da escolha do algoritmo k-medoids em detrimento do mais comu- mente utilizado algoritmo k-means. Tal escolha tem rela¸c˜ao com o c´alculo de centr´oide realizado pelo algoritmo k-means durante o agrupamento. Para a distˆancia Euclidiana, o centr´oide de um grupo ´e obtido pela m´edia aritm´etica dos objetos que pertencem ao
grupo. Por´em, at´e mesmo para outras m´etricas da norma Lp (da qual faz parte a distˆan-
cia Euclidiana) (Jain e Dubes,1988) o c´alculo do centr´oide deve ser alterado para que as
propriedades de otimiza¸c˜ao e convergˆencia do algoritmo sejam mantidas (Steinley,2006).
Quando a distˆancia de Manhattan ´e utilizada, por exemplo, o prot´otipo do grupo deve 47
ser substitu´ıdo pela mediana de seus objetos (Steinley, 2006). Uma vez que as formas corretas de c´alculo do centr´oide para as diversas medidas de correla¸c˜ao analisadas neste
trabalho1 ainda s˜ao desconhecidas (at´e onde se sabe), o algoritmo k-medoids foi preferido,
em virtude da substitui¸c˜ao dos centr´oides (objetos artificiais) pelos medoids (objetos reais da base de dados), o que garante a convergˆencia do algoritmo independente da dissimi- laridade utilizada.
Feitas tais considera¸c˜oes, os algoritmos considerados s˜ao descritos a seguir. As descri- ¸c˜oes dos algoritmos s˜ao realizadas a fim de que o trabalho permane¸ca auto contido. O leitor j´a familiarizado com os algoritmos considerados pode prosseguir diretamente para as Se¸c˜oes 5.2 e 5.3, sem nenhum preju´ızo para o entendimento dos resultados e da discuss˜ao que ser´a realizada ao longo deste cap´ıtulo.
5.1.1
k-medoids
O algoritmo de agrupamento particional k-medoids (Bishop, 2007) ´e semelhante ao
algoritmo k-means (Wu et al.,2008), exceto pela substitui¸c˜ao do centr´oide do grupo (ob-
jeto artificial) pelo medoid (objeto real mais representativo). Ainda quanto ao algoritmo k-medoids empregado neste trabalho, ´e importante ressaltar que um coeficiente de corre- la¸c˜ao ´e adaptado como medida de distˆancia, como ser´a visto adiante.
Feitas tais considera¸c˜oes, o algoritmo k-medoids, que recebe como entrada um conjunto de n objetos, pode ser descrito conforme o Algoritmo 1, juntamente com a Equa¸c˜ao (5.1),
que define como deve ser realizada a escolha de um novo medoid ηr para um grupo Gr.
O valor k, fornecido ao algoritmo como parˆametro de entrada, define o n´umero de grupos
que devem ser formados para os n objetos dispon´ıveis. Ainda quanto a Equa¸c˜ao (5.1),
Dist(xi, xj) = 1− Correla¸c˜ao(xi, xj), sendo a fun¸c˜ao correla¸c˜ao um dos coeficientes de
correla¸c˜ao definidos no Cap´ıtulo 4. Algoritmo 1: k-medoids.
1: Entradas: k ≥ 2, base de dados
2: Selecione k objetos distintos como k medoids iniciais
3: repita
4: para cadaobjeto xi da base de dados, com 1≤ i ≤ n fa¸ca
5: Adicione xi ao grupo G r se 6: Dist(xi, ηr)≤ Dist(x i, η s), ∀s ∈ {1, ..., k} − {r} 7: fim para
8: Redefinir os medoids de acordo com a Equa¸c˜ao (5.1)
9: at´e medoids permane¸cam inalterados
ηr = arg min xi∈G r X xj∈G r Dist(xi, xj) (5.1) 1
Note que para que as propriedades de convergˆencia do algoritmo sejam mantidas, o c´alculo do cen- tr´oide deve ser realizado e modificado de acordo com a medida de proximidade utilizada. No trabalho de
5.1.2
Hier´arquicos Aglomerativos
Algoritmos de agrupamento hier´arquicos produzem como resultado uma hierarquia de parti¸c˜oes, obtida a partir de uma matriz de proximidades entre pares de objetos. M´etodos
aglomerativos iniciam atribuindo cada objeto a um grupo distinto, de forma que o n´umero
de grupos inicial ´e igual ao n´umero de objetos. A cada passo subsequente, os dois grupos
mais similares s˜ao ent˜ao unidos para formarem um novo grupo. Tal passo ´e ent˜ao repetido
at´e que todos os objetos perten¸cam a um ´unico grupo, como descreve o Algoritmo 2.
Algoritmo 2: Algoritmo Hier´arquico Aglomerativo Gen´erico.
1: Entrada: Matriz de proximidade entre objetos
2: repita
3: Encontre e unifique os dois grupos mais similares
4: Atualize a matriz de proximidade entre grupos
5: at´e apenas um grupo seja obtido
Note que no algoritmo apresentado o terceiro passo se refere `a unifica¸c˜ao dos dois grupos mais similares. A partir da defini¸c˜ao de diferentes medidas de similaridade entre pares de grupos, diferentes algoritmos hier´arquicos podem ser obtidos, mesmo que sigam o mesmo esquema geral. Neste trabalho, trˆes diferentes medidas de similaridade entre pares de grupos s˜ao consideradas, resultando em trˆes diferentes algoritmos hier´arquicos:
• Single-Linkage: A distˆancia entre dois grupos ´e definida como a menor distˆancia entre todos os pares de objetos pertencentes aos dois grupos. Para um par espec´ıfico, cada um dos dois objetos pertence a um grupo distinto.
• Average-Linkage: A distˆancia entre dois grupos ´e definida como a distˆancia m´edia entre todos os pares de objetos pertencentes aos dois grupos. Para um par espec´ıfico, cada um dos dois objetos pertence a um grupo distinto.
• Complete-Linkage: A distˆancia entre dois grupos ´e definida como a maior dis- tˆancia entre todos os pares de objetos pertencentes aos dois grupos. Para um par espec´ıfico, cada um dos dois objetos pertence a um grupo distinto.