La UOC desenvolupa un sistema de traducció automàtica neuronal en català

Colectic
Autor/a: 
Alejandra Sanchez
Segons les investigadores de la Universitat Oberta de Catalunya, el fet que les llengües minotitàries estiguin digitalitzades pot contribuir a impulsar el seu ús. Font: Pexels. Font: Pexels
Segons les investigadores de la Universitat Oberta de Catalunya, el fet que les llengües minoritàries estiguin digitalitzades pot contribuir a impulsar el seu ús. Font: Pexels.

La UOC desenvolupa un sistema de traducció automàtica neuronal en català

Autor/a: 
Alejandra Sanchez
Colectic

Resum: 

A més, aquest nou sistema podrà traduir automàticament també el gallec, l’asturià o l’aranès.

Una de les principals aplicacions de les intel·ligències artificials – almenys en el nostre dia a dia i tenint en compte el seu vessant més pràctic – és la traducció automàtica de continguts. Però, les eines com ara Google Translate, que fa temps que tenim a l'abast i que ja ens són més familiars, normalment tradueixen només llengües majoritàries.

Amb l'objectiu de fer que les llengües minoritàries formin també part de la revolució digital que està suposant la intel·ligència artificial, la Universitat Oberta de Catalunya (UOC), juntament amb el Ministeri de Ciència i Innovació i les Universitats d'Oviedo, Lleida i Saragossa, ha desenvolupat el projecte 'Traducció Automàtica Neuronal per a les Llengües Romàniques de la Península Ibèrica' (TAN-IBE).

TAN-IBE explora algunes de les tècniques més innovadores d'entrenament dels sistemes de traducció automàtica basats en xarxes neuronals i els aplica a set llengües romàniques presents a la península Ibèrica: castellà, català, aranès, gallec, asturià, aragonès i portuguès. Segons afirmen des de la UOC, "el fet de formar part de la revolució digital, pot contribuir a impulsar l'ús d'aquelles llengües amb menys parlants".

Normalment, els sistemes de traducció amb intel·ligència artificial funcionen amb el sistema de corpus paral·lels que els entrenen amb milions de paraules, frases i altres expressions en dues llengües fins que els mateixos sistemes són capaços de traduir amb eficàcia qualsevol text en aquestes dues llengües. El problema és que, en moltes llengües minoritàries, no hi ha material suficient per a entrenar a la intel·ligència artificial.

Per resoldre aquest obstacle, TAN-IBE basa el seu projecte en la capacitat dels sistemes neuronals d'intel·ligència artificial d'aprendre coses d'una llengua a partir d'una altra que se li assembli, tal com passa amb la majoria de les llengües romàniques, de manera que, tal com expliqua la Universitat en un comunicat, "l'eina de traducció espanyol-aranès haurà après en part gràcies al sistema espanyol-català o a l'espanyol-portuguès".

Entrenament d’intel·ligències artificials i creació d’un marc teòric

A més de desenvolupar els corpus paral·lels i monolingües per a les set llengües romàniques en les quals es basa el projecte de 'Traducció Automàtica Neuronal per a les Llengües Romàniques de la Península Ibèrica', TAN-IBE té altres objectius que busquen establir aquest sistema com un referent per a les llengües minoritàries.

El projecte busca posar el focus especialment en l'asturià, l'aranès i l'aragonès, tres de les llengües amb un menor corpus monolingüe, de manera que la quantitat de material en cadascun d'aquests idiomes es pugui ampliar considerablement. En aquesta línia de treball, TAN-IBE ha arribat a un acord amb el govern del Principat d'Astúries per a la cessió de tot el corpus de textos traduïts del castellà a l'asturià que té la Dirección Xeneral de Política Llingüística.

D'altra banda, es busca explorar noves tècniques per entrenar sistemes de traducció automàtica neuronal i per observar el comportament dels sistemes multilingües capaços de traduir des de totes i cap a totes les llengües del projecte. A partir d'aquesta observació, el projecte desenvoluparà tot un marc teòric amb guies que facilitin l'entrenament de sistemes de traducció automàtica neuronal en general i, més en concret, per a les llengües minoritàries.

Afegeix un comentari nou