català maquines
Foto: Lazar Gugleta

La Generalitat busca milions de veus per “ensenyar” el català a les màquines. L’objectiu és aconseguir crear un corpus de veu, un “diccionari” de veu mitjançant el qual la tecnologia pugui entendre i parlar el català. D’aquesta manera, qualsevol empresa o organització podrà utilitzar-lo per desenvolupar, per exemple, traductors, assistents personals o agents conversacionals.

Per crear el “diccionari”, però, calen milions de veus de persones voluntàries i de diferents varietats dialectals, edats i gèneres. La campanya “La nostra llengua és la teva veu” vol ser una crida a la ciutadania a llegir i enregistrar diverses frases que serveixin de model a les màquines.

Com puc “donar” la meva veu?

La iniciativa, impulsada per la Generalitat i el col·laboració del Barcelona Supercomputing Center (BSC), es fa a través de Common Voice de Mozilla per al català. La col·laboració es pot fer de manera anònima, tot i que el govern remarca que registrar-se i introduir paràmetres com l’edat o la varietat dialectal farà més fàcil classificar les dades obtingudes. Les frases es troben agrupades de cinc en cinc, encara que no hi ha cap límit màxim per gravar-ne.

Un repte “especialment difícil”

“Ensenyar” la nostra llengua a les màquines per tal que puguin entendre’ns i també respondre’ns de manera coherent és un repte per al qual cal aconseguir dades massives de la llengua, tant en format de text com de veu. El govern, però, apunta que “obtenir aquest volum i concreció de dades és especialment difícil per a les llengües minoritàries a escala mundial com el català”. De moment, el perfil majoritari de les veus obtingudes és el d’homes d’entre 30 i 35 anys.

Per tirar-ho endavant, el govern ha invertit tres milions d’euros en el projecte AINA, una xifra que multiplica per 12 la inversió del 2021. Aquest 2022 es vol crear el primer corpus de veu en català i generar la segona versió enriquida del corpus de text, entre altres objectius com crear un motor de traducció català-castellà. Actualment, es disposa d’un banc de dades textual amb 1.770 milions de paraules agrupades en 95 milions de frases que s’ha obtingut descarregant diferents fonts digitals en català, com pàgines web o arxius.

6 curiositats que encara no sabies del Paraulògic