Andreu Huguet: "Volia crear una eina útil per la meva comunitat i la meva llengua"
Comparteix
A partir d'una necessitat de la seva colla castellera, aquest jove emprenedor de Barcelona va crear una web que transcriu àudios en català de manera ràpida i accessible i pensada per a tothom.
fesmelacta.cat no és només una eina de transcripció, sinó que té un vessat comunitari. Quan la secretària de la seva colla castellera li va demanar ajuda per transcriure dues hores d’àudio, Andreu Huguet, el creador d'aquest projecte, va veure-hi una oportunitat. En lloc de fer la feina manualment, va crear fesmelacta.cat, una web intuïtiva que converteix fitxers d’àudio en text de forma automàtica i eficient. Amb una forta aposta per la llengua catalana i l’ús d’intel·ligència artificial, aquesta iniciativa ja no només resol un problema puntual, sinó que es consolida com una eina al servei de comunitats i professionals.
Per saber més sobre fesmelacta.cat, des de Xarxanet hem parlat amb el seu creador, Andreu Huguet.
Què és fesmelacta.cat?
fesmelacta.cat és una web de transcripció. Bàsicament, qualsevol fitxer d’àudio que tinguis es pot passar a text. És una interfície molt intuïtiva i molt fàcil d’utilitzar. Pots copiar o baixar-te la transcripció en format subtítol o text. La idea és fer-ho tan fàcil com sigui possible.
Com va sorgir la idea de crear aquesta eina?
La idea em va venir perquè estic en una colla castellera, els Arreplegats de la Zona Universitària, i una amiga meva de la colla, que és la secretària, em va passar una acta sencera en àudio i aquest àudio durava dues hores. Llavors, la meva amiga em va dir: “Tu que ets llest i saps fer coses d’aquestes, passa-m’ho a text”. Vaig veure que allà hi havia un problema i li vaig dir: “No t’ho faré jo, et faré una web que t'ho farà automàticament”. I així va néixer fesmelacta.cat. En una setmana, la pàgina web ja estava feta i li vaig passar un enllaç en lloc de la transcripció.
Entenem que per poder crear una web en només una setmana s'han de tenir certs coneixements del programació. Explica'ns una mica el teu perfil i d'on vens.
Jo soc estudiant de Matemàtiques i graduat en Ciència de Dades per l’Universitat Politècnica de Catalunya. Programo des de fa deu anys, vaig començar fent videojocs de petit i ara ja faig webs i productes que poden impactar la meva comunitat.
Vaig trobar un repositori d’una persona que havia fet una eina de transcripció amb models d’intel·ligència artificial molt nous. Vaig veure l’oportunitat d’agafar aquest model i posar-lo dins una web intuïtiva i fàcil, pensada per tothom. Perquè aquests models d’IA són molt potents, però normalment només gent molt tècnica els sap fer servir.
És a dir, la IA ha fet que sigui més fàcil posar en marxa eines com aquesta?
Totalment. Ara fer una web que abans costava una setmana, la pots tenir en dos dies. Models com GPT poden programar gran part del codi per tu i et fan anar molt més ràpid.
Quan una persona entra a la web i vol transcriure un àudio, quin és el procés que ha de seguir?
La web està pensada perquè siguin només tres clics. Primer et pregunta si vols fer servir el processador del teu ordinador. Aquesta opció és ideal per a ús puntual, i pot trigar uns 20 minuts per una hora d’àudio i et permet veure com avança la transcripció en temps real, cosa que altres serveis no ofereixen.
També hi ha l’opció professional, per gent que necessita resultats ràpids. Aquesta opció fa servir servidors llogats molt més potents, i poden transcriure una hora d’àudio en un minut. Després tries l’idioma principal de l’àudio i, finalment, cliques a 'transcriure'.
TREUREM EL https://t.co/c67kxR8qk4 DEL POBLE pic.twitter.com/2eQyNtTKpH
— Andreu Huguet (@HuguetAndreu) March 27, 2025
Una de les coses més innovadores de fesmelacta.cat és que està pensada específicament per funcionar bé amb el català. Per què vas considerar important donar-li aquest enfocament?
Perquè la majoria d’eines que hi ha a internet prioritzen el castellà, l’anglès i altres llengües majoritàries, que són més rendibles econòmicament i això fa que llengües com el català, el basc o el gallec quedin fora. fesmelacta.cat utilitza el model Whisper d’OpenAI, que entén més de 99 idiomes. Llavors, jo vaig decidir començar pels idiomes que ningú cobria. El català és el primer que hi ha perquè és més fàcil comunicar-ho, però també funciona amb altres llengües com el basc, el gallec o, fins i tot, el vietnamita.
Tot i que existeixen altres eines de transcripció, tu has volgut crear una alternativa centrada en llengües menys presents. Quin és l’objectiu del projecte a llarg termini?
La meva idea inicial era cobrir una mancança dins el meu entorn, al final el que volia era crear una eina útil per la meva comunitat i per la meva llengua. Ara mateix, tinc un procés obert a Twitter perquè vull fer créixer el projecte. Hi ha una nova empresa, Eleven Labs, que ha tret un model molt millor que el Whisper actual, amb una qualitat molt superior. Però és un model que només pot funcionar amb servidors, i és més car.
La meva intenció és fer servir aquest nou model per a la transcripció professional: per 'podcasters', periodistes, gent que fa moltes entrevistes al dia... Vull que fesmelacta.cat no només sigui una eina per cobrir una necessitat comunitària, sinó que també ajudi els professionals amb una transcripció més ràpida i de millor qualitat.
Aquest procés obert que comentes, en què consisteix exactament?
Doncs bàsicament el que busco en aquest procés és atraure gent com jo, emprenedors o persones interessades en aquestes temàtiques, per crear sinergies. Vull fer créixer el projecte i fer-lo molt més potent, amb millor SEO, millor experiència d’usuari, més qualitat i capacitat d’autocorrecció per part de la IA. Ja no es tracta només de cobrir un forat en el meu entorn, sinó de fer una eina realment útil per a tothom. I tot plegat ho faig des del meu perfil personal a Twitter, que és @huguetandreu.
Afegeix un nou comentari