• Sonuç bulunamadı

Foram abordados, neste cap´ıtulo, alguns aspectos te´oricos dos novos esquemas de modifica¸c˜ao dos coeficientes, SoftSoft e HardHard, podendo-se utilizar o primeiro em m´etodos de redu¸c˜ao de ru´ıdo em sinais de voz.

Para obter os limiares que minimizam o MSEE no esquema SoftSoft, inicialmente, numa situa¸c˜ao idealizada, a qual sup˜oe conhecidos s [n] e w [n], consideramos:

1) A obten¸c˜ao direta dos limiares a partir da superf´ıcie de erro calculada usando o sinal original s [n];

2) O uso de um modelo para a curva msee(t): a fun¸c˜ao de interpola¸c˜ao f (x), aqui proposta e obtida por pontos de referˆencia medidos.

Finalmente, numa situa¸c˜ao real, na qual se tem acesso apenas a y [n] e yt1t2[n], ou

outras informa¸c˜oes, como y′

t1[n], yt2[n] e N0, consideramos:

3) A fun¸c˜ao gcv(t) e estimativas da potˆencia do ru´ıdo (ˆσ2) e do sinal (||s||2

) para obter os limiares

3a) por meio da a fun¸c˜ao f (x), obtida por pontos referˆencia estimados, e 3b) por meio de um m´etodo pr´atico, tamb´em aqui proposto.

4) Ainda consideramos um modelo estat´ıstico que justificou a introdu¸c˜ao do limiar inferior para selecionar os coeficientes do sinal de voz de pequena magnitude.

`

A guisa de conclus˜ao, registre-se que a fun¸c˜ao de threshold SoftSoft, concebida neste trabalho, depende apenas de dois parˆametros, o limiar superior e o inferior, os quais podem ser ajustados de maneira adaptada `as caracter´ısticas do sinal e do ru´ıdo, produzindo uma sa´ıda com menor erro quadr´atico m´edio e maior qualidade para o sistema auditivo humano do que seria obtido com as fun¸c˜oes de threshold convencionais. O pr´oximo cap´ıtulo busca comprovar estes fatos por meio de alguns ensaios computacionais.

Cap´ıtulo 4

Simula¸c˜ao Computacional

Este cap´ıtulo tem como finalidade verificar por meio de ensaios computacionais a aplica¸c˜ao dos m´etodos HardHard e SoftSoft propostos e, ainda, comparar o desem- penho destes com outros m´etodos de redu¸c˜ao de ru´ıdo existentes na literatura.

4.1

Considera¸c˜oes Iniciais

Conv´em, inicialmente, explicar alguns detalhes a respeito dos ensaios computa- cionais realizados. Com esta finalidade, s˜ao apresentadas, a seguir, algumas con- ven¸c˜oes e instrumentos matem´aticos utilizados para estabelecer o desempenho dos m´etodos testados.

4.1.1

TIMIT

O banco de dados de voz TIMIT [27] ´e formado por um conjunto de frases foneti- camente balanceadas e que s˜ao normalmente utilizadas para avaliar o desempenho de sistemas de processamento de voz. Foram utilizadas as seguintes senten¸cas, faladas por uma voz masculina e uma feminina:

1. She had your dark suit in greasy wash water all year. ⊲ ⊲1

2. Don’t ask me to carry an oily rag like that. ⊲ ⊲

1

O ru´ıdo de fundo das grava¸c˜oes ´e muito baixo, justificando o termo sinal de voz “limpo” ou “original” muitas vezes empregado.

Estas frases — originalmente gravadas `a taxa de 16000 amostras/s — foram con- vertidas `a taxa de 8000 amostras/s, que ´e a taxa de amostragem utilizada nas simu- la¸c˜oes. O sinal assim obtido, possui dura¸c˜ao de dois a trˆes segundos.

4.1.2

Medidas de desempenho

Empregamos as seguintes medidas de desempenho com a finalidade de comparar a eficiˆencia dos diferentes m´etodos de redu¸c˜ao de ru´ıdo.

A rela¸c˜ao sinal-ru´ıdo

A rela¸c˜ao sinal-ru´ıdo ´e uma medida tradicional da qualidade de um sinal afetado por ru´ıdo. Normalmente, o sinal “alvo” ´e a informa¸c˜ao de interesse e o ru´ıdo ´e o restante. No contexto deste trabalho, o sinal-alvo ´e o sinal de voz original e, na defini¸c˜ao da SNR aqui utilizada, o ru´ıdo engloba indistintamente distor¸c˜oes do sinal original ou interferˆencias agregadas. Define-se a rela¸c˜ao sinal-ru´ıdo (dB) como

SN R = 10 log10 ||s||

2

||s − ˆs||2 !

, (4.1)

na qual s ´e o sinal de voz original (desconhecido na pr´atica), ˆs representa generica- mente o sinal de sa´ıda do m´etodo de redu¸c˜ao de ru´ıdo que se est´a avaliando. Por exemplo, nos m´etodos SoftSoft e HardHard, tem-se ˆs = yt1,t2. Na express˜ao da SN R,

o termo||s||2 = N1 PNn=1|s [n]|2 ´e uma boa estimativa da potˆencia m´edia do sinal ori- ginal, pois N ´e suficientemente grande e, como a distor¸c˜ao do sinal de voz introduzida pelo m´etodo ´e pequena, o termo ||s − ˆs||2 ´e uma estimativa razo´avel da potˆencia de ru´ıdo remanescente na sa´ıda.

A rela¸c˜ao sinal-ru´ıdo segmentada

A SN R representa uma medida global dos n´ıveis m´edios de sinal e ru´ıdo ao longo de todo o trecho processado, por isso, a SN R n˜ao fornece uma boa medida da quan- tidade de ru´ıdo percebida por um ouvinte. Uma medida da quantidade relativa de

sinal e ru´ıdo que procura contornar este problema ´e a rela¸c˜ao sinal-ru´ıdo segmenta- da (SegSN R) que ´e uma SN R m´edia dos trechos em que h´a presen¸ca da voz. Tal m´edia pode ser obtida dividindo-se o sinal em blocos de comprimento apropriado, ou melhor, utilizando-se um comprimento que permita considerar o sinal aproximada- mente estacion´ario dentro do bloco. Utilizamos a seguinte defini¸c˜ao para a rela¸c˜ao sinal-ru´ıdo segmentada (dB) (cf. [31]) SegSN R = 1 M M X m=1 SN Rm, (4.2)

sendo SN Rm a rela¸c˜ao SNR do m-´esimo bloco.

A distˆancia log-espectral

A medida de desempenho anterior fornece uma boa id´eia dos n´ıveis relativos de potˆencia de sinal e de ru´ıdo presentes na sa´ıda, contudo, como a percep¸c˜ao da potˆencia sonora do sistema auditivo humano n˜ao ´e linear, esta medida n˜ao representa corre- tamente a qualidade do sinal avaliada por um ouvinte. Tal inconveniente pode ser evitado pelo uso da distˆancia log-espectral (LSD, Log-Spectral Distance [32, Cap. 4]) (dB) calculada por LSD = 1 M M X m=1 Dm, (4.3) Dm = v u u t 1 L L−1 X k=0  10 log10|Sm[k]| − 10 log10 ˆSm[k] 2,

sendo M o n´umero total de blocos, Sm[k] = DF T{sm}(k) o k-´esimo coeficiente

da DFT de sm (o m-´esimo bloco do sinal original s). Analogamente, ˆSm[k] =

DF T{ˆsm}(k), em que ˆsm ´e o m-´esimo bloco do sinal de sa´ıda; no caso dos m´eto-

dos de threshold com dois limiares, ˆsm ´e o m-´esimo bloco de yt1,t2. Empregamos

L = 128 como o n´umero de amostras em cada bloco. Ressalte-se que, em geral, o comprimento L utilizado no c´alculo da SegSN R pode ser diferente do comprimento de bloco utilizado no m´etodo de redu¸c˜ao de ru´ıdo; particularmente, neste trabalho, empregamos L = 128 em ambos os casos.

A implementa¸c˜ao computacional das f´ormulas (4.2) e (4.3) considera apenas os blocos com sinal n˜ao nulo durante o c´alculo da m´edia, evitando as ocorrˆencias de divis˜ao por zero ou de log de zero.

Avalia¸c˜ao subjetiva de desempenho

Os arquivos de ´audio foram normalizados em 100% da amplitude de pico-a-pico usando o editor CoolEdit2. Tal procedimento visa comparar o sinal antes e ap´os a

redu¸c˜ao de ru´ıdo tendo como base um mesmo n´ıvel de intensidade de reprodu¸c˜ao (play-back level ).

Todos os arquivos de ´audio foram avaliados de maneira informal por um ´unico ou- vinte (sem familiaridade com os m´etodos considerados) com a finalidade de averiguar, ainda que de maneira prec´aria, a qualidade da sa´ıda em termos da redu¸c˜ao de ru´ıdo, da distor¸c˜ao da voz e da presen¸ca de ru´ıdo musical. Deve-se ressaltar o car´ater infor- mal e subjetivo desta avalia¸c˜ao, uma vez que uma an´alise rigorosa deveria considerar aspectos como a qualidade do equipamento de ´audio, as condi¸c˜oes do ambiente e a representatividade do ouvinte. Melhor ainda, deveria considerar a opini˜ao de v´arios ouvintes, classificando a qualidade geral do sinal obtido como sendo “m´a”, “fraca”, “razo´avel”, “boa” ou “excelente”. A partir das respostas seria calculada uma opini˜ao m´edia (MOS, Mean Opinion Score) e seriam obtidos resultados para um ouvinte m´edio.

4.1.3

Alguns detalhes do programa computacional

Escrevemos um programa em Matlab com a finalidade de testar o m´etodo de redu¸c˜ao de ru´ıdo proposto. Neste programa, o sinal de entrada ´e dividido em blocos e se calcula uma DCT para cada bloco. Aplica-se, no entanto, um ´unico par de limiares a todos os blocos.

2

O programa desenvolvido trabalha com os limiares normalizados: — O limiar superior normalizado ´e

¯

t2 = t2/cmax ≤ 1,

sendo cmax = maxN −1k=0 |Y [k]| a maior magnitude de coeficiente ruidoso observada no

sinal de entrada.

— O limiar inferior normalizado ´e definido usando t2, ou seja, ´e dado por

ˇ

t1 = t1/t2 = ¯t1/¯t2 ≤ 1,

sendo ¯t1 = t1/cmax.

Benzer Belgeler