Àmbit de la notícia
Informàtic

Calen 1.000 hores d'enregistrament de veu per ensenyar català a les màquines

Entitat redactora
Colectic
  • Enregistrant frases amb l'aplicació 'Common Voice'
  • Una dona enregistrant veu amb 'Common Voice'
    La Direcció General de Política Lingüística co·labora amb Sofcatalà, fent difusió del projecte 'Common Voice'

Softcatalà fa una crida a les persones que parlen català perquè col·laborin amb el projecte 'Common Voice' de Mozilla. La manera de fer-ho és enregistrant i validant frases.

El reconeixement automàtic de veu és un repte per a totes les llengües, també per al català. Desenvolupar tecnologies de veu de qualitat per a les màquines requereix un gran volum de dades de veu. Algunes empreses en tenen, però no les comparteixen. Davant això, Mozilla, organització sense afany de lucre que treballa perquè Internet sigui un recurs públic global, obert i accessible, ha iniciat el projecte 'Common Voice', per tal de fer que la tecnologia de reconeixement de la veu estigui oberta a tothom.

Per aconseguir-ho, pretén recollir i validar un corpus lingüístic lliure en qualsevol llengua amb una comunitat prou activa, com és el cas del català. L'associació sense ànim de lucre que promou la presència i l'ús del català en les TIC, Softcatalà, s'ha sumat a la iniciativa, per impulsar l'enregistrament d'àudios en català.

Calen aproximadament 1.000 hores d'enregistraments de veu per poder generar models de reconeixent de veu de qualitat. Per això, demana la col·laboració de totes les persones que parlen català. Per participar-hi cal ser major de 19 anys i busquen diversitat d'edats, gènere i dialectes.

Per poder fer-hi aportacions, recomanen crear un perfil a la plana web de 'Common Voice', encara que no és obligatori, i enregistrar talls de veu llegint en veu alta els textos que s'hi mostren. També s'hi pot col·laborar valorant els talls (cal un domini excel·lent del català), traduint la interfície i creant o cedint frases al projecte.

'Common Voice' publica les dades amb llicència CC0, així qualsevol empresa o organització pot fer servir les dades lingüístiques.

 

Comparteix i difon

Afegeix un nou comentari