La recerca en el processament de veu avança ràpidament. Hem passat en poc temps de veus robòtiques i planes a veus que imiten l’entonació, la modulació i aviat també les emocions dels éssers humans. Un dels pioners en la recerca en matèria de veu i IA és Javier Hernando, doctor en enginyeria de telecomunicacions per la UPC i director de recerca en tecnologies de la veu del Barcelona Supercomputing Center. Hernando va començar a investigar la generació de veu als anys 80 i, en aquests moments, treballa en la caracterització de locutors: el reconeixement d’emocions a través de la veu, l’estat de salut, el sexe, l’edat, l’idioma i dialecte.
La síntesi de veu ha millorat tant que s’ha de ser un expert per reconèixer que no és humana, estem a nivells d’imitació molt alts”
La IA ja es podria fer servir en doblatge o per exemple per a la traducció simultània al Parlament Europeu, segons Belén Alastruey, graduada en Matemàtiques per la UPC, màster en Tecnologies Avançades de la Telecomunicació a la mateixa universitat i que ha treballat per Apple, Amazon i Meta. “El que necessites són moltes dades“, diu la Belén. La IA generativa funciona per estadística. Els sistemes actuals han llegit molts textos i han escoltat moltes veus i poden contestar amb allò que la persona espera i que la màquina troba que és el més raonable.
Una IA més sostenible
En poc temps, la recerca en IA ha agafat velocitat, però per continuar avançant té un repte important a superar: la sostenibilitat. La IA no és tan neta com sembla: actualment es treballa en recerca amb “màquines monstruoses, enormes als pols, sota el mar i consumint molta energia“, explica Javier Hernando. Els esforços se centren a aconseguir màquines que no consumeixin tanta energia, que siguin més petites, en definitiva, sostenibles.
Els experts: Javier Hernando y Belén Alastruey
Javier Hernando
- doctor en enginyeria de telecomunicacions de la UPC
- catedràtic del Departament de Teoria del Senyal i Comunicacions
- director del Centre de Recerca de Tecnologies i Aplicacions del Llenguatge i la Parla (TALP) de la UPC
- membre d’IDEAI-UPC
- director de recerca en tecnologies de la veu del Barcelona Supercomputing Center (BSC-CSN)
Belén Alastruey
- graduada en Matemàtiques a la UPC
- Màster en Tecnologies Avançades de la Telecomunicació
- investigadora del processament de veu
- ha treballat a Apple, Amazon i Meta
- Premi DonaTIC 2022