Foram abordados, neste cap´ıtulo, alguns aspectos te´oricos dos novos esquemas de modifica¸c˜ao dos coeficientes, SoftSoft e HardHard, podendo-se utilizar o primeiro em m´etodos de redu¸c˜ao de ru´ıdo em sinais de voz.
Para obter os limiares que minimizam o MSEE no esquema SoftSoft, inicialmente, numa situa¸c˜ao idealizada, a qual sup˜oe conhecidos s [n] e w [n], consideramos:
1) A obten¸c˜ao direta dos limiares a partir da superf´ıcie de erro calculada usando o sinal original s [n];
2) O uso de um modelo para a curva msee(t): a fun¸c˜ao de interpola¸c˜ao f (x), aqui proposta e obtida por pontos de referˆencia medidos.
Finalmente, numa situa¸c˜ao real, na qual se tem acesso apenas a y [n] e yt1t2[n], ou
outras informa¸c˜oes, como y′
t1[n], yt2[n] e N0, consideramos:
3) A fun¸c˜ao gcv(t) e estimativas da potˆencia do ru´ıdo (ˆσ2) e do sinal (||s||2
) para obter os limiares
3a) por meio da a fun¸c˜ao f (x), obtida por pontos referˆencia estimados, e 3b) por meio de um m´etodo pr´atico, tamb´em aqui proposto.
4) Ainda consideramos um modelo estat´ıstico que justificou a introdu¸c˜ao do limiar inferior para selecionar os coeficientes do sinal de voz de pequena magnitude.
`
A guisa de conclus˜ao, registre-se que a fun¸c˜ao de threshold SoftSoft, concebida neste trabalho, depende apenas de dois parˆametros, o limiar superior e o inferior, os quais podem ser ajustados de maneira adaptada `as caracter´ısticas do sinal e do ru´ıdo, produzindo uma sa´ıda com menor erro quadr´atico m´edio e maior qualidade para o sistema auditivo humano do que seria obtido com as fun¸c˜oes de threshold convencionais. O pr´oximo cap´ıtulo busca comprovar estes fatos por meio de alguns ensaios computacionais.
Cap´ıtulo 4
Simula¸c˜ao Computacional
Este cap´ıtulo tem como finalidade verificar por meio de ensaios computacionais a aplica¸c˜ao dos m´etodos HardHard e SoftSoft propostos e, ainda, comparar o desem- penho destes com outros m´etodos de redu¸c˜ao de ru´ıdo existentes na literatura.
4.1
Considera¸c˜oes Iniciais
Conv´em, inicialmente, explicar alguns detalhes a respeito dos ensaios computa- cionais realizados. Com esta finalidade, s˜ao apresentadas, a seguir, algumas con- ven¸c˜oes e instrumentos matem´aticos utilizados para estabelecer o desempenho dos m´etodos testados.
4.1.1
TIMIT
O banco de dados de voz TIMIT [27] ´e formado por um conjunto de frases foneti- camente balanceadas e que s˜ao normalmente utilizadas para avaliar o desempenho de sistemas de processamento de voz. Foram utilizadas as seguintes senten¸cas, faladas por uma voz masculina e uma feminina:
1. She had your dark suit in greasy wash water all year. ⊲ ⊲1
2. Don’t ask me to carry an oily rag like that. ⊲ ⊲
1
O ru´ıdo de fundo das grava¸c˜oes ´e muito baixo, justificando o termo sinal de voz “limpo” ou “original” muitas vezes empregado.
Estas frases — originalmente gravadas `a taxa de 16000 amostras/s — foram con- vertidas `a taxa de 8000 amostras/s, que ´e a taxa de amostragem utilizada nas simu- la¸c˜oes. O sinal assim obtido, possui dura¸c˜ao de dois a trˆes segundos.
4.1.2
Medidas de desempenho
Empregamos as seguintes medidas de desempenho com a finalidade de comparar a eficiˆencia dos diferentes m´etodos de redu¸c˜ao de ru´ıdo.
A rela¸c˜ao sinal-ru´ıdo
A rela¸c˜ao sinal-ru´ıdo ´e uma medida tradicional da qualidade de um sinal afetado por ru´ıdo. Normalmente, o sinal “alvo” ´e a informa¸c˜ao de interesse e o ru´ıdo ´e o restante. No contexto deste trabalho, o sinal-alvo ´e o sinal de voz original e, na defini¸c˜ao da SNR aqui utilizada, o ru´ıdo engloba indistintamente distor¸c˜oes do sinal original ou interferˆencias agregadas. Define-se a rela¸c˜ao sinal-ru´ıdo (dB) como
SN R = 10 log10 ||s||
2
||s − ˆs||2 !
, (4.1)
na qual s ´e o sinal de voz original (desconhecido na pr´atica), ˆs representa generica- mente o sinal de sa´ıda do m´etodo de redu¸c˜ao de ru´ıdo que se est´a avaliando. Por exemplo, nos m´etodos SoftSoft e HardHard, tem-se ˆs = yt1,t2. Na express˜ao da SN R,
o termo||s||2 = N1 PNn=1|s [n]|2 ´e uma boa estimativa da potˆencia m´edia do sinal ori- ginal, pois N ´e suficientemente grande e, como a distor¸c˜ao do sinal de voz introduzida pelo m´etodo ´e pequena, o termo ||s − ˆs||2 ´e uma estimativa razo´avel da potˆencia de ru´ıdo remanescente na sa´ıda.
A rela¸c˜ao sinal-ru´ıdo segmentada
A SN R representa uma medida global dos n´ıveis m´edios de sinal e ru´ıdo ao longo de todo o trecho processado, por isso, a SN R n˜ao fornece uma boa medida da quan- tidade de ru´ıdo percebida por um ouvinte. Uma medida da quantidade relativa de
sinal e ru´ıdo que procura contornar este problema ´e a rela¸c˜ao sinal-ru´ıdo segmenta- da (SegSN R) que ´e uma SN R m´edia dos trechos em que h´a presen¸ca da voz. Tal m´edia pode ser obtida dividindo-se o sinal em blocos de comprimento apropriado, ou melhor, utilizando-se um comprimento que permita considerar o sinal aproximada- mente estacion´ario dentro do bloco. Utilizamos a seguinte defini¸c˜ao para a rela¸c˜ao sinal-ru´ıdo segmentada (dB) (cf. [31]) SegSN R = 1 M M X m=1 SN Rm, (4.2)
sendo SN Rm a rela¸c˜ao SNR do m-´esimo bloco.
A distˆancia log-espectral
A medida de desempenho anterior fornece uma boa id´eia dos n´ıveis relativos de potˆencia de sinal e de ru´ıdo presentes na sa´ıda, contudo, como a percep¸c˜ao da potˆencia sonora do sistema auditivo humano n˜ao ´e linear, esta medida n˜ao representa corre- tamente a qualidade do sinal avaliada por um ouvinte. Tal inconveniente pode ser evitado pelo uso da distˆancia log-espectral (LSD, Log-Spectral Distance [32, Cap. 4]) (dB) calculada por LSD = 1 M M X m=1 Dm, (4.3) Dm = v u u t 1 L L−1 X k=0 10 log10|Sm[k]| − 10 log10 ˆSm[k] 2,
sendo M o n´umero total de blocos, Sm[k] = DF T{sm}(k) o k-´esimo coeficiente
da DFT de sm (o m-´esimo bloco do sinal original s). Analogamente, ˆSm[k] =
DF T{ˆsm}(k), em que ˆsm ´e o m-´esimo bloco do sinal de sa´ıda; no caso dos m´eto-
dos de threshold com dois limiares, ˆsm ´e o m-´esimo bloco de yt1,t2. Empregamos
L = 128 como o n´umero de amostras em cada bloco. Ressalte-se que, em geral, o comprimento L utilizado no c´alculo da SegSN R pode ser diferente do comprimento de bloco utilizado no m´etodo de redu¸c˜ao de ru´ıdo; particularmente, neste trabalho, empregamos L = 128 em ambos os casos.
A implementa¸c˜ao computacional das f´ormulas (4.2) e (4.3) considera apenas os blocos com sinal n˜ao nulo durante o c´alculo da m´edia, evitando as ocorrˆencias de divis˜ao por zero ou de log de zero.
Avalia¸c˜ao subjetiva de desempenho
Os arquivos de ´audio foram normalizados em 100% da amplitude de pico-a-pico usando o editor CoolEdit2. Tal procedimento visa comparar o sinal antes e ap´os a
redu¸c˜ao de ru´ıdo tendo como base um mesmo n´ıvel de intensidade de reprodu¸c˜ao (play-back level ).
Todos os arquivos de ´audio foram avaliados de maneira informal por um ´unico ou- vinte (sem familiaridade com os m´etodos considerados) com a finalidade de averiguar, ainda que de maneira prec´aria, a qualidade da sa´ıda em termos da redu¸c˜ao de ru´ıdo, da distor¸c˜ao da voz e da presen¸ca de ru´ıdo musical. Deve-se ressaltar o car´ater infor- mal e subjetivo desta avalia¸c˜ao, uma vez que uma an´alise rigorosa deveria considerar aspectos como a qualidade do equipamento de ´audio, as condi¸c˜oes do ambiente e a representatividade do ouvinte. Melhor ainda, deveria considerar a opini˜ao de v´arios ouvintes, classificando a qualidade geral do sinal obtido como sendo “m´a”, “fraca”, “razo´avel”, “boa” ou “excelente”. A partir das respostas seria calculada uma opini˜ao m´edia (MOS, Mean Opinion Score) e seriam obtidos resultados para um ouvinte m´edio.
4.1.3
Alguns detalhes do programa computacional
Escrevemos um programa em Matlab com a finalidade de testar o m´etodo de redu¸c˜ao de ru´ıdo proposto. Neste programa, o sinal de entrada ´e dividido em blocos e se calcula uma DCT para cada bloco. Aplica-se, no entanto, um ´unico par de limiares a todos os blocos.
2
O programa desenvolvido trabalha com os limiares normalizados: — O limiar superior normalizado ´e
¯
t2 = t2/cmax ≤ 1,
sendo cmax = maxN −1k=0 |Y [k]| a maior magnitude de coeficiente ruidoso observada no
sinal de entrada.
— O limiar inferior normalizado ´e definido usando t2, ou seja, ´e dado por
ˇ
t1 = t1/t2 = ¯t1/¯t2 ≤ 1,
sendo ¯t1 = t1/cmax.