Com detectar si una veu és generada amb intel·ligència artificial?
Comparteix
Un protocol senzill i diverses pistes acústiques i visuals poden ajudar les entitats a identificar veus sintètiques i evitar fraus telefònics o videotrucades manipulades.
Les trucades fraudulentes han evolucionat. Si abans els intents d’estafa es basaven en correus electrònics o SMS, ara moltes persones reben trucades amb veus generades per intel·ligència artificial que imiten familiars, professionals o representants d’entitats i institucions. Aquest fenomen, conegut com a 'deepfake de veu', és cada vegada més difícil de detectar, ja que els models generatius han millorat la naturalitat, el ritme i la prosòdia (entonació) de les veus sintètiques.
Per a les entitats socials, aquest risc és especialment rellevant: poden rebre trucades falses que suplanten proveïdores, administracions o persones usuàries, o bé poden veure com els seus equips són enganyats amb peticions urgents de pagament o dades. Per això és essencial conèixer les pistes que delaten una veu generada amb IA i aplicar protocols de verificació senzills que ajudin a evitar fraus.
Senyals acústics que poden delatar una veu generada amb IA
La majoria de 'deepfakes de veu' fallen en aspectes relacionats amb la prosòdia: entonació, ritme, pauses i intensitat. A diferència d’una mala connexió, els errors de la IA solen ser consistents i no aleatoris.
Les entitats poden fixar-se en:
- Entonació plana o poc natural: la veu no flueix emocionalment i manté un to massa uniforme.
- Pauses estranyes o massa regulars: silencis col·locats en llocs on la gramàtica no els espera.
- Artefactes sonors: clics, brillantor metàl·lica o un so 'massa net' per al context.
En una mala connexió, el so fluctua; en una veu sintètica, els errors es repeteixen de manera similar. Aquesta diferència és clau perquè les entitats puguin detectar anomalies en trucades sensibles.
Pistes visuals en videotrucades: microgestos i incoherències
Quan el 'deepfake' és en vídeo, les entitats poden observar elements que no depenen de la qualitat de la connexió, sinó de la generació sintètica:
- Parpelleig escàs o irregular.
- Moviments facials poc orgànics, especialment al voltant de la boca.
- Ombres i il·luminació aplanades, sense coherència amb l’entorn.
- Detalls estranys en cabells i orelles, com píxels flotants o vores borroses.
A diferència del 'macropixelat' típic d’una mala connexió, aquestes anomalies són fines i repetitives. Per a les entitats que fan atenció telemàtica, és important formar els equips perquè puguin identificar aquests senyals.
Protocol ràpid per verificar identitats en trucades sensibles
Les entitats poden incorporar algunes recomanacions als seus protocols interns, especialment quan reben trucades amb peticions urgents o relacionades amb dades personals. Algunes de les recomanacions serien les següents:
- Confirmar qui parla: Utilitzar una paraula clau acordada prèviament amb persones usuàries, voluntàries o proveïdores. Si la resposta no és natural o hi ha dubtes, cal continuar amb el protocol.
- Trencar el guió: penjar i tornar a trucar al número verificat que consti als registres de l’entitat. Mai no s’ha de trucar al número entrant. Això desmunta molts intents de frau, perquè obliga l’estafador a controlar també el segon canal.
- Registrar i escalar: Si la verificació falla, cal activar el protocol intern que consisteixi enregistrar l’hora, els senyals detectats i avisar l’equip de ciberseguretat o la direcció.
Aquest protocol és especialment útil per a entitats que gestionen dades sensibles o que reben moltes trucades de persones usuàries.
Bones pràctiques per protegir la veu de l’entitat
A més de detectar 'deepfakes', les entitats poden reduir el risc adoptant mesures preventives:
- Limitar la publicació d’àudios nítids en obert, especialment de persones referents de l’entitat.
- Afegir música de fons en enregistraments públics.
- Revisar la configuració d’assistents de veu i desactivar l’emmagatzematge continu.
- Establir codis de seguretat rotatius per a trucades internes o amb proveïdors.
Aquestes pràctiques ajuden a reduir la 'petjada vocal' disponible per a models de clonació de veu.