AINA: un projecte fet en i pel català
Comparteix
Aquesta iniciativa a favor de la presència del català a internet ha rebut recentment el Premi Connexió a la Iniciativa Institucional.
A principis d’aquest mes de juny, l’Aliança per la Presència Digital del Català, va publicar un informe advertint que un petit canvi en l’algoritme de cerca de Google havia fet que el cercador deixés d’oferir pàgines en català, fins i tot en els casos en què es feia la cerca en aquest idioma i la usuària havia especificat que volia prioritzar les respostes en aquesta llengua. Aquesta tendència va comportar una reducció de gairebé el 70% en el retorn de pàgines en català respecte al seu equivalent en castellà.
"Aquest tipus d'accions petites i insidioses" comenten les investigadores del Barcelona Supercomputing Center (BSC), Carlos Rodríguez i Carmen Armentano, "mogudes a vegades més pel desconeixement o per lògiques comercials curtes de visió, fan perillar a mig i curt termini la viabilitat del català com llengua d'ús i l'arracona a entorns domèstics".
Precisament amb l'objectiu de lluitar per la presència del català a Internet, en els darrers anys han sorgit diverses iniciatives que volen que la nostra llengua sigui també la llengua dels cercadors, dels traductors i, fins i tot, de la intel·ligència artificial. Un dels projectes que compta amb la complicitat de Govern, institucions, empreses i ciutadania és el Projecte AINA, impulsat per Departament d'Empresa i Treball de la Generalitat de Catalunya i el Barcelona Supercomputing Center, en col·laboració amb el Govern de les Illes Balears.
"Hem de demanar, exigir, no només esperar passivament, tenir un futur, un lloc, com a cultura i llengua, amb el nostre llegat, i el nostre tarannà, en l'espai digital, tant com en l'analògic."
El Projecte AINA va néixer va tres anys amb l'objectiu de generar la infraestructura i els recursos necessaris perquè el català tingui un lloc dins l'ecosistema de la intel·ligència artificial. "Quan parlem d'infraestructura", expliquen Rodríguez i Armentano, "parlem d'eines, recursos, dades, etc. fetes en i pel català, amb llicències d'ús obert i permissiu, que permetin que qualsevol ciutadà o empresa les faci servir gratuïtament".
Carlos Rodríguez, investigador del BSC, explica que el projecte "sorgeix de la preocupació pel futur digital del català", una llengua molt dinàmica i amb una forta presència digital si mirem xifres i demografia, però en la qual encara "es feia difícil trobar veus, continguts o aplicacions que funcionessin bé".
Una qüestió que s’està procurant solucionar amb la col·laboració d’iniciatives ja existents, com ara Softcatalà, grups de recerca universitaris i associacions públiques i privades de defensa de la llengua, per, segons expliquen les investigadores del Barcelona Supercomputing Center, "treballar conjuntament per aprofitar els grans avenços tecnològics amb i dins de la nostra llengua".
Es necessitem veus en català
Una de les iniciatives més conegudes dintre d’AINA és el seu banc de veus, que forma part Common Voice, un projecte internacional per a la creació d’un gran corpus de veus lliure. "Common Voice existeix des de fa temps", expliquen les investigadores del Barcelona Supercomputing Center, Carlos Rodríguez i Carmen Armentano , "i fins ara havia estat impulsat en català per un grup de voluntàries, sobretot del col·lectiu Softcatalà, i ja havien obtingut molt bons resultats".
En cas de voler col·laborar amb el banc de veus del Projecte AINA, es pot fer de dues maneres: gravant les frases que es proposen o validant les frases que han enregistrat altres usuàries. "Totes dues tasques són molt importants", comenta Carlos Rodríguez, "es poden fer des de pràcticament qualsevol lloc i dedicant-hi cinc o deu minuts al dia. És una manera senzilla i divertida de col·laborar amb el desenvolupament de les tecnologies en català", afegeix l'investigador.
Fins ara, més de 34.000 persones han col·laborat amb el banc de veus del Projecte AINA, enregistrant més d'un milió de frases. De fet, actualment el català és la llengua que més presència té en el corpus de Common Voice. Ara per ara, les veus predominants són masculines, majors de 50 anys i parlants les varietats centrals, "de manera que ens falten sobretot veus amb altres característiques", recorden Rodríguez i Armentano.
Acabem l'any amb unes dades excel·lents al #commonVoiceCat!
— Aina (@projecte_aina) December 28, 2022
Durant el 2022 hem passat...
de 1036 a 2721 hores enregistrades
de 916 a 1866 hores validades
de 6665 a 30888 veus diferents
Moltes felicitats i gràcies als qui ho estan fent possible!
@tic @BSC_CNS pic.twitter.com/5yTZ8GJT7N
Tot i que es va donar a conèixer per la seva campanya de recollida de dades de veus, AINA té moltes més vessants: models de llenguatge tipus ChatGPT, traductors automàtics de gran qualitat, reculls de dades anotades per entrenar màquines per a interpretar i generar textos en català, etc. Algunes aplicacions ja s'aprofiten (o ho faran aviat) d'aquests esforços i recursos.
Tot plegat, per poder utilitzar la nostra llengua a internet, cosa que, segons Carlos Rodríguez, requereix d'una constant reclamació social. "Hem de demanar, exigir, no només esperar passivament, tenir un futur, un lloc, com a cultura i llengua, amb el nostre llegat, i el nostre tarannà, en l'espai digital, tant com en l'analògic", reclama l'investigador del Barcelona Supercomputing Center, que afegeix que "tenim el dret i el poder com a ciutadans i com a consumidors de demanar-ho. I crec que també, tenim el deure de fer-ho. Les pròximes generacions no ens ho perdonaran si no ho fem".
Afegeix un nou comentari