Na avaliação referenciada da qualidade de imagens, uma imagem de referência livre de distorções é comparada com sua versão distorcida. Portanto se enquadram na categoria de avaliação referenciada (FR, do inglês full reference). A avaliação referenciada da qualidade de imagens requer a definição de uma medida de similaridade bidimensional. Uma medida de distância frequentemente utilizada é a diferença média entre os níveis de intensidade de pixels correspondentes (WANG et al., 2004).
Essa abordagem é útil quando se deseja avaliar o desempenho de algoritmos de compressão e filtragem por meio de um índice de comparação. Em aplicações
práticas, entretanto, nem sempre a imagem original está disponível, o que é a principal desvantagem dos métodos referenciados de avaliação da qualidade de imagens.
Similaridade estrutural
O método de avaliação de imagens proposto por Wang et al. (2004) foi desenvolvido para avaliar a qualidade de imagens monocromáticas, com isso se aproxima ao HVS em aplicações de avaliação da qualidade de imagens. Este método adota como modelo as observações de Marr (1982) sobre a formação das estruturas, conforme comentado no Capítulo 1. Outras versões foram propostas (WANG; SIMONCELLI; BOVIK, 2003; SHEIKH; BOVIK, 2006; PÉREZ et al., 2012; GINESU; MASSIDDA; GIUSTO, 2006), tendo obtido resultados próximos ao HVS para diferentes aplicações.
No trabalho de Wang e Bovik (2002b), os autores buscam um modo de avaliar objetivamente a qualidade de imagens em substituição ao EQM. Em outro estudo, Wang et al. (2004) propõem uma métrica de avaliação da qualidade de imagens em níveis de cinza.
O índice de similaridade estrutural (SSIM, do inglês structural similarity), proposto por Wang et al. (2004), mede a similaridade entre duas imagens. Trata-se, portanto, de uma medida referenciada e que quantifica a distorção por compressão ou ruído, quando comparada à sua versão original não degradada. Segundo os autores, o algoritmo SSIM foi desenvolvido para melhorar o resultado da avaliação objetiva da qualidade de imagens tradicionalmente efetuada com o PSNR e EQM. Ainda segundo Wang et al. (2004), a diferença da medida fornecida pela SSIM para as medidas EQM e PSNR está no fato de que estas são medidas de erro, enquanto a SSIM considera a degradação da imagem como uma mudança estrutural.
A informação estrutural pressupõe a idéia de que os valores dos pixels possuem uma forte dependência entre si, especialmente quando eles estão espacialmente próximos. Esta dependência fornece uma informação significativa a respeito da estrutura dos objetos da cena.
A medida SSIM é calculada localmente em um janela quadrada de dimensões M × M centrada nos pixels x ∈ I e y ∈ J. Wang et al. (2004) afirmam que M = 8 é uma boa escolha e que a medida SSIM é pouco influenciada pelo valor de M. A janela pode ser deslocada pixel a pixel ao longo da imagem. Entretanto, os autores propuseram o uso de um conjunto reduzido de possibilidades para reduzir a
complexidade computacional dos cálculos. A expressão que define a SSIM é
SSIM(x,y) = [l(x,y)]α[c(x,y)]β[s(x,y)]γ, (3.1)
em que l(x,y) = 2µxµy+C1
µ2
x+µ2y+C1 é a componente de luminância, c(x,y) =
2σxσy+C2
σ2
x+σy2+C2 a
componente de contraste e s(x,y) = 2σxy+C3
σxσy+C3 a componente estrutural (correlação
cruzada). C1 = (k1L)2, C2 = (k2L)2 e C3 = C2/2 são variáveis para estabilização da
divisão com um denominador fraco, L é a faixa dinâmica de intensidade dos pixels (ex. 255), k1 = 0,01 e k2 = 0,03 são valores padrões. Os valores µx, µy, σx e σy
são, respectivamente, as médias e desvios padrões dos valores dos pixels das janelas M× M centradas em x e em y. O desvio padrão σxy é uma medida de variabilidade
dos valores dos pixels entre as duas janelas.
O resultado obtido com a SSIM é um mapa de mesmas dimensões das imagens de entrada que apresenta localmente o grau de similaridade entre as mesmas. Quanto mais próximo de zero, maior a degradação estrutural presente em uma determinada região da imagem. Isto pode ser observado na Figura 3.4 (c). A escala de cores vai do azul escuro para valores de similaridade próximos de zero, até o vermelho escuro para valores de similaridade iguais a 1.
(a) (b) (c)
Figura 3.4: Exemplo de análise com a SSIM. (a) Imagem de referência. (b) Imagem contaminada com ruído sal e pimenta. (c) Mapa SSIM com MS-SSIM = 0,81.
Para obter um valor numérico da qualidade da imagem, utiliza-se o valor médio das janelas SSIM definido por
MSSIM =X
x,y
SSIM(x,y)/(MiMj), (3.2)
em que Mi e Mj representam o número de linhas e colunas das imagens,
respectivamente. O resultado da equação 3.2 representa o nível de degradação da 34
imagem, como ilustrado na Figura 3.4. Similaridade estrutural multiescala
Uma versão multiescala da SSIM, a similaridade estrutural multiescala (MS-SSIM, do inglês multiscale structural similarity), foi proposta por Wang, Simoncelli e Bovik (2003). A imagem de entrada é submetida a um filtro passa-baixa e sucessivas subamostragens por um fator de 2. Esse algoritmo produz um resultado com N − 1 iterações, em que N é a escala máxima. O valor final é o resultado do produto das componentes SSIM para cada escala, conforme a expressão
MS-SSIM(x,y) = [lN(x,y)]αM N
Y
j=1
[cj(x,y)]βj[sj(x,y)]γj. (3.3)
Importante destacar que o valor de luminância (ou intensidade) é calculado somente na escala N. Na prática, a equação 3.3 diminui a importância da degradação na componente de luminância com relação às demais componentes.
O valor MS-SSIM aproxima melhor a avaliação da qualidade, porque incorpora informação local em diferentes escalas. Por exemplo, o valor MS-SSIM para a imagem da Figura 3.4 (b) é 0,91, bem maior do que o obtido pela SSIM. Este valor aproxima melhor a percepção de que a degradação causada pelo ruído sal e pimenta, na intensidade do exemplo, não afeta substancialmente as estruturas da imagem.
Rouse e Hemami (2008) propuseram uma versão modificada do MS-SSIM, na qual as constantes C1 = C2 = 0, porém mantendo inalterados os demais parâmetros.
Os autores realizaram experimentos mostrando que a sua versão modificada, MS-SSIM*, obteve um desempenho melhor na tarefa de estabelecer um limiar para o reconhecimento estrutural de imagens naturais. Vale ressaltar, entretanto, que a proposta dos autores resume-se a um caso particular da MS-SSIM.
Fidelidade da informação visual
Sheikh, Bovik e Veciana (2005) propuseram um modelo que aproxima funcionalmente a informação extraída pelo HVS de uma cena. Esse modelo tem por base a estatística de cenas naturais, por meio da mistura gaussiana de escalas C = {−→Ci : i ∈ I}, sendo I um conjunto de índices espaciais para um campo
aleatório gaussiano. A expressão pode ser decomposta como C = {Si−→Ui : i ∈ I},
em que Si são escalares e −→Ui são vetores gaussianos m-dimensionais. Considere
−
→CN = {−→C
1,−→C2,· · · ,−→CN} e SN descritores dos N elementos de C. Sabendo que
a imagem de teste para degradações N e N′, é possível quantificar a informação
mútua (MACKAY, 2005) I(−→CN;−→EN : SN = sN) e I(−→CN;−→FN : SN = sN), sendo
que sN denota uma realização de SN. Similarmente, EN e FN são elementos de E e
F, respectivamente. A função I(·) quantifica a informação que pode ser extraída da saída do HVS pelo cérebro, quando uma imagem é observada. Importante destacar que as transformações e decomposições presentes neste modelo visam representar a forma como o HVS percebe as estruturas de uma imagem. Maiores detalhes do modelo podem ser encontrados no trabalho de Sheikh, Bovik e Veciana (2005).
Com base nesse modelo, Sheikh e Bovik (2006) propuseram a Informação de Fidelidade Visual (VIF, do inglês Visual Information Fidelity). A VIF fornece uma medida da qualidade de imagens calculada para uma coleção de coeficientes das decomposições por ondaletas (wavelets) (DAUBECHIES, 1992) em escalas que formam as subbandas da imagem, por meio da expressão
VIF = P j∈subbandas I(−→CN,j;−→FN,j : sN,j) P j∈subbandas I(−→CN,j;−→EN,j : sN,j). (3.4)
Uma subbanda pode representar tanto a imagem completa quanto uma região espacialmente localizada dos coeficientes das decomposições por ondaletas. Portanto, a equação 3.4 pode ser empregada em uma janela da imagem ou na sua totalidade. No primeiro caso é obtido um mapa de qualidade da imagem. No segundo caso, obtém-se uma medida que quantifica a fidelidade de informação e que pode ser empregada como estimativa da qualidade de uma imagem degradada.