Noise Meter - Introducció a la supressió de soroll
Després d'entendre les diferències bàsiques entre la supressió del soroll (supressió del soroll ambiental de l'altaveu perquè els oients remots escoltin clarament) i la reducció activa del soroll (compensant el propi soroll ambiental de l'oient), centrem-nos en com aconseguir la supressió del soroll.
Un mètode és utilitzar diversos micròfons per suprimir dades. La recollida de dades de diverses ubicacions farà que els dispositius rebin senyals similars (però encara diferenciats). El senyal de veu que rep el micròfon prop de la població parlant és significativament més fort que el del micròfon secundari. Dos micròfons rebran un so de fons no de veu amb una intensitat de senyal similar. Resteu la informació sonora recollida pel micròfon de veu fort i el micròfon secundari, i la majoria restant és la informació de veu. Com més gran sigui la distància entre micròfons, més gran serà la diferència de senyal entre micròfons més propers i més llunyans, cosa que facilita l'ús d'aquest senzill algorisme per suprimir el soroll. Tanmateix, quan no parleu, o quan espereu que les dades de veu canviïn amb el temps (com ara quan camineu o correu i el telèfon no para de tremolar), l'eficàcia d'aquest mètode disminuirà. La supressió de soroll de diversos micròfons és certament fiable, però hi ha inconvenients en el maquinari i el processament addicionals.
Aleshores, què passa si només hi hagués un micròfon? Si no s'utilitzen fonts de so addicionals per a la verificació/comparació, una solució de micròfon única es basarà en comprendre les característiques del soroll rebut i filtrar-les. Això està relacionat amb les definicions esmentades anteriorment de soroll en estat estacionari i no estacionari. El soroll en estat estacionari es pot filtrar eficaçment mitjançant algorismes DSP, mentre que el soroll no estacionari suposa un repte, les xarxes neuronals profundes (DNN) poden ajudar a resoldre el problema.
Aquest mètode requereix un conjunt de dades per entrenar la xarxa. Aquest conjunt de dades consta de diferents sorolls (en estat estacionari i no estacionari) i una parla clara, creant un patró de parla sorollós sintetitzat. Alimenta el conjunt de dades com a entrada a DNN i emet-lo amb veu clara. Això crearà un model de xarxa neuronal que eliminarà el soroll i només produirà una parla clara.
Fins i tot amb DNN entrenats, encara hi ha alguns reptes i indicadors a tenir en compte. Si voleu executar-vos en temps real amb una latència baixa, necessiteu una gran potència de processament o un DNN més petit. Com més paràmetres tingui DNN, més lenta serà la velocitat de funcionament. La freqüència de mostreig d'àudio té un efecte similar en la supressió del so. Una freqüència de mostreig més alta significa que DNN necessita gestionar més paràmetres, però al seu torn, aconseguirà una sortida de major qualitat. La comunicació de veu de banda estreta és una opció ideal per a la supressió de soroll en temps real.
