La presència del català en la intel·ligència artificial, una oportunitat vital

LaviniaNext
Autor/a: 
Carlos Faneca
El paradigma de la revolució tecnològica de la intel·ligència artificial, ChatGPT, funciona en català. Font: Llicència CC (Unsplash)
El paradigma de la revolució tecnològica de la intel·ligència artificial, ChatGPT, funciona en català. Font: Llicència CC (Unsplash)
Acte de presentació de l'Aliança per la presència digital del català amb representants de les entitats col·laboradores. Font: Twitter @llenguacat
Acte de presentació de l'Aliança per la presència digital del català amb representants de les entitats col·laboradores. Font: Twitter @llenguacat
Actualment, no és possible comunicar-se en català amb cap assistent de veu. Font: Llicència CC
Actualment, no és possible comunicar-se en català amb cap assistent de veu. Font: Llicència CC

La presència del català en la intel·ligència artificial, una oportunitat vital

Autor/a: 
Carlos Faneca
LaviniaNext

Resum: 

Diverses entitats treballen a través de la creació de models i corpus perquè la llengua catalana formi part d'aquesta nova revolució tecnològica.

El 2023 està sent l'any de l'eclosió de la intel·ligència artificial, especialment, gràcies a Open AI, paradigma d'aquesta revolució tecnològica, i el seu ChatGPT, un prototip de bot conversacional que funciona a través del model d'intel·ligència artificial GPT4, i que ja utilitzen milions de persones arreu del món. Aquest només n'és un exemple, però les opcions que ofereix la intel·ligència artificial deixa entreveure que aquesta tecnologia formarà part de les nostres vides en un futur no gaire llunyà.

És bàsic doncs que la llengua catalana estigui present en aquesta nova tecnologia, com ho ha estat, i amb molta importància, a internet des del seu començament. Això sí, a partir d'ara es dibuixa un nou panorama que probablement deixarà enrere les aplicacions que hem conegut fins ara. Per tant, el català ha de ser en la intel·ligència artificial, perquè la ciutadania pugui expressar-se en català a l'hora d'interactuar amb la intel·ligència artificial, per rebre contingut generat en català o perquè la intel·ligència artificial esdevingui una oportunitat per a la nostra comunitat.

De moment, ChatGPT, l'eina que ha fet moure els fonaments dels principals actors en aquesta revolució, permet mantenir converses en diferents idiomes, sent un d'ells el català amb un nivell molt bo en la seva darrera actualització. Es preveu que Google també inclogui la llengua catalana en l'aplicació que presentarà aviat per contrapesar l'efecte ChatGPT. Més enllà d'aquests casos, però, encara queda molta feina a fer, motiu pel qual, tant des de la Generalitat de Catalunya, com des de les entitats, es treballa perquè el català no es quedi enrere en aquest camp.

"Convé que la intel·ligència artificial també parli català. És de vital importància", considera el Gerard Soler, tècnic d'empreses internacionals a Plataforma per la Llengua, entitat que promou la llengua catalana com a eina de cohesió social i que treballa per evitar que en les noves tecnologies "les catalanoparlants siguin ciutadans de segona". Soler considera que la llengua catalana ha de conservar, en aquest nou panorama que s'entreveu, l'estatus de ser una de les llengües més influents en l'àmbit digital.

Iniciatives per apropar el català a la intel·ligència artificial

A Catalunya existeixen diversos projectes que treballen perquè aquesta revolució tecnològica parli en català. Un d'ells és el Projecte AINA, impulsat pel Departament de la Vicepresidència i de Polítiques Digitals i Territori i el Barcelona Supercomputing Center (BSC). L'objectiu d'aquesta iniciativa és el de dotar al català de les eines i recursos suficients perquè la seva inclusió en les aplicacions d'intel·ligència artificial sigui rendible i atractiva per a les empreses del sector.

Es tracta, doncs, d'un projecte de desenvolupament d'infraestructura, que fa un any que està actiu, i que segueix tres línies de recerca i desenvolupament: la parla, el text i la traducció. A través de la recopilació de dades de veu i text en català, des del BSC s'entrenen models d'intel·ligència artificial. Tant els corpus generats, amb les dades netejades i processades, com els models entrenats, s'obren i es posen a disposició d'empreses o investigadores perquè puguin utilitzar-los.

"En el cas dels models de textos generatius, posem sobretot molt d'èmfasi en les dades, ja que la tecnologia del nostre àmbit està en plena evolució i canvia cada pocs mesos", explica Maite Melero de l'equip del Projecte AINA al BSC. "Hem vist que ChatGPT és potent lingüísticament, però no tant des del punt de vista sociocultural. Així que també podem aportar la nostra realitat: un model entrenat a Catalunya pot tenir més referents d'aquí que no pas un model tipus ChatGPT", assenyala. En el cas de la veu, enguany llençaran models de reconeixement i de síntesi de parla.

Sobre la presència del català en la intel·ligència artificial, Melero assenyala que ens trobem en un moment bastant optimista pel català en la tecnologia, però en general per a totes les llengües. "Els models i les arquitectures són tant potents que una llengua es pot beneficiar de dades menys elaborades, així com d'altres llengües gràcies a l'entrenament multilingüístic dels models", explica Melero.

Per a la recopilació de veu, el Projecte AINA, entre altres col·laboracions, es va adherir al projecte Commonvoice, una iniciativa de crowdsourcing impulsada per la Fundació Mozilla que Softcatala, entitat que treballa per la normalització de la llengua catalana en el sector informàtic, lidera a Catalunya. Jordi Mas, de Softcatalà, explica que gràcies al Commonvoice s'ha aconseguit una gran fita: un gran corpus de veu en català. "El català és una de les llengües amb un corpus més gran, cosa que és fonamental per poder entrenar sistemes de reconeixement de la parla", explica.

Cal dir que des de Softcatalà s'ofereixen una sèrie de serveis que utilitzen intel·ligència artificial. Destaca un nou sistema de transcripció de vídeos i d'àudios en català que l'entitat ha publicat recentment, el servei de resum de textos o el traductor que fan servir tecnologia neuronal, en aquest cas, del català a llengües com l'anglès o l'holandès, i viceversa. Així mateix, des de l'entitat publiquen els models neuronals que utilitzen per posar-los a disposició de la societat, així com tots els corpus paral·lels perquè qualsevol pugui entrenar també els seus models.

Voluntat de les grans empreses

Generalment, excepte casos concrets, no hi ha hagut grans problemes en què el català estigui present en les tecnologies com una de les opcions disponibles de les aplicacions que les suporten. En el cas de la intel·ligència artificial, Mas considera que el català es troba en un bon punt de partida. "Hi ha molts avenços a escala internacional on el català té molt de suport", valora.

"El model GPT4 funciona molt bé en català; el model de reconeixement de parla d'OpenAi s'inclou el català com una de les noranta-vuit llengües suportades; Meta impulsa iniciatives de traducció automàtica, com ara 'No Language Left Behind', on el català està inclòs; Google té una cultura del multilingüisme molt avançada...", enumera Mas."No és cosa menor que aquestes empreses tinguin en compte el català", afirma. No obstant això, recorda que les empreses, amb un criteri comercial, són les qui decideixen incorporar o no una llengua. "I en això és difícil incidir", assenyala.

En tot cas, hi ha iniciatives que tracten d'apropar el català a la intel·ligència artificial, com les que hem comentat. Malauradament, tot i que la majoria d'empreses són sensibles a incloure propietats multilingüístiques a les aplicacions, no totes ho acaben duent a terme "Hi ha empreses que prefereixen fer servir el seu corpus de veu i crear-lo des de zero. Però, al cap i a la fi, és un peix que es mossega la cua, perquè després no l'acaben fent perquè consideren que no els surt a compte econòmicament", explica Soler des de Plataforma per la Llengua.

Tampoc fan servir els models d’intel·ligència artificial perquè aquestes grans empreses tecnològiques usen arquitectures de models pròpies, molt personalitzades.

"Per tant, els mitjans hi són, i els processos s'estan abaratint. Així que l'argument de no incloure el català queda reduït a gairebé una voluntat estrictament política", explica Soler. "És una oportunitat i un avantatge. Veurem com respon, encara estem a l'expectativa, ja que la intel·ligència artificial encara està en molt poques mans i moltes de les aplicacions només estan en anglès. Tenim un gran repte, no només des del català, sinó des de la resta de llengües del món", afirma.

En aquest punt, agafa protagonisme l'entitat Plataforma per la llengua, que treballa per tractar que les empreses incloguin el català en les seves tecnologies. Ara, des de l'entitat han obert una nova línia d'actuació que tracta d'avançar-se als fets, i actuen en aquest sentit abans que les empreses triomfin o, fins i tot, durant la seva creació. Darrerament, des de Plataforma per la llengua han aconseguit que EzDubs, una aplicació web de doblatge automàtic simultani i en diferit, inclogui el català.

Una aliança per incrementar la presència del català a Internet

Entitats de la societat civil han identificat diversos àmbits del món digital en què la presència de la llengua no és satisfactòria. Un d'ells té a veure amb el posicionament de les webs en català als cercadors de Google. Es va detectar una pèrdua de rellevància de la llengua catalana als cercadors, ja que Google col·locava les webs en català per sota d'altres resultats, especialment, en castellà. Alertats per aquesta situació, nou entitats, amb el suport de la Generalitat de Catalunya, han format l'Aliança per la presència digital del català.

Mas explica que l'algoritme de rellevància de Google, actualment, no respecta les preferències de llengua de l'usuari, una situació que Soler titlla d'"alarma nacional". I és que, a banda de les conseqüències més visibles, que deixen els continguts en llengua catalana per sota d'altres llengües, el que suposa una barrera a creadores de contingut i consumidores que no troben el que busquen, també cal esmentar la repercussió negativa a nivell econòmic que suposa per a les empreses.

"Hi ha empreses que pel seu tarannà tenen el web només en català, o amb la llengua catalana com a primera opció. Aquests webs no s'estan posicionant amb la mateixa facilitat que altres llengües, el que suposa pèrdues econòmiques per aquestes empreses", afirma Soler.

El motiu d'aquesta problemàtica encara es desconeix, però molt probablement seria a causa d'una sèrie de desordres o desequilibris interns en els algoritmes que es van produir en les tasques de Google per accelerar la seva presència dins del sector de la intel·ligència artificial. Almenys hi ha una correlació entre les dates de publicació de ChatGPT 3,5 (fet que hauria empès a Google a actuar) i la pèrdua de posició als cercadors de la llengua catalana.

L'objectiu d'aquesta aliança és trobar una solució a aquesta situació "abans que el dany sigui més gran". La feina de les entitats comença amb la recopilació de totes les dades possibles d'empreses i d'entitats al voltant del seu tràfic de visites. "Per fer canvis, Google necessita dimensionar l'impacte. Així que la voluntat és aglutinar tota aquesta informació, presentar-la a Palo Alto en una reunió i explicar de quina manera perjudica tant a entitats com a empreses", afirma Soler.

"Tractarem de cercar tota la informació possible, que la gent sigui conscient de la gravetat del problema, intentar explicar-ho, però al final l'única part que pot solucionar això és Google", explica Mas. "Es tracta d'un problema, o afecta l'experiència d'usuari, que ha de ser respectuosa amb tots els usuaris de totes les llengües, no només el català", afegeix.

D'altra banda, a llarg termini, l'objectiu serà contacar amb actors públics i privats i proposar accions de millora perquè apostin pel català en aplicacions de televisió, navegadors de cotxe, automoció, intel·ligència artificial, etcètera. "És una feina que ja estem duent entre les entitats, però que ara tractarem d'amplificar-la", afirma Soler. L'Aliança per la presència digital del català està formada per Amical Wikimedia, l'Institut d'Estudis Catalans, l'Institut Ramon Llull, Òmnium Cultural, Plataforma per la Llengua, Softcatalà, WICCAC, l'Obra Cultural Balear i l'Acció Cultural del País Valencià.

Afegeix un comentari nou