Gli assistenti vocali e il problema della pronuncia

Di Luca Sambucci

A Stanford hanno provato a vedere come si comportano gli algoritmi di riconoscimento vocale quando la pronuncia, la cadenza, l’inflessione delle parole non è perfettamente corrispondente alla lingua ufficiale. Per lo studio hanno raccolto spezzoni audio da diversi gruppi di donne e uomini provenienti da varie parti degli Stati Uniti. Fra gli altri hanno anche raccolto pezzi audio da una comunità di afroamericani nel North Carolina e altri da una comunità di bianchi nel nord della California per confrontare i risultati.

Per comprendere con quale efficacia gli algoritmi di riconoscimento vocale riuscissero a capire l’audio i ricercatori hanno usato una metrica chiamata word error rate (WER), che si ottiene mettendo a confronto una trascrizione manuale fedele all’audio e la trascrizione fornita dall’algoritmo. Dai risultati è apparso chiaro che tutti i sistemi hanno problemi con l’audio pronunciato dagli uomini afroamericani, con tassi di errore generalmente doppi rispetto a quelli riscontrati con uomini e donne bianchi. Più comprensibili degli uomini sono risultate le donne di colore, con un tasso d’errore comunque superiore alla media dello studio.

Con uomini e donne bianchi gli algoritmi hanno restituito tassi di errore rispettivamente dello 0,21 e dello 0,17 – differenze statisticamente irrilevanti – mentre il WER con le donne afroamericane è arrivato a 0,30 e con gli uomini afroamericani addirittura allo 0,41. All’atto pratico queste differenze vogliono dire che i software non riconoscono, non capiscono, sbagliano le parole il doppio delle volte con gli uomini di colore rispetto ai bianchi.

Il motivo ovviamente non è razzismo, bensì semplicemente un training delle reti neurali dove il dataset era composto più da spezzoni audio di persone bianche rispetto a persone di colore. Tutti i maggiori produttori di software di riconoscimento vocale, parliamo di Amazon, Apple, Google, IBM e Microsoft, hanno avuto problemi simili nel test. Questo significa che in tutti quei casi il training set non era opportunamente bilanciato, cosa che ha fatto nascere il bias dell’algoritmo.

Sbaglieremmo a pensare che il problema è solo americano. Tutte le lingue hanno dialetti, accenti, pronunce diverse. In Italia ne sappiamo qualcosa, con la molteplicità di lingue e soprattutto di dialetti parlati nel nostro Paese. Ma anche altri Paesi, penso ad esempio all’India, hanno le stesse difficoltà.

Una soluzione sarebbe consentire alle reti neurali degli assistenti vocali di imparare in continuazione, adeguandosi al parlato di chi li usa. Sarebbe triste veder accelerare la scomparsa di lingue e dialetti solo perché le macchine non li capiscono. O perché i maggiori produttori di assistenti digitali usano dataset troppo selettivi.

L’autore: Luca Sambucci:

Dopo la laurea in Management ha conseguito una specializzazione in Business Analytics a Wharton e una certificazione Artificial Intelligence Professional da IBM. E’ socio fondatore del chapter italiano di Internet Society, membro dell’Associazione Italiana esperti in Infrastrutture Critiche (AIIC), della Association for the Advancement of Artificial Intelligence (AAAI) e dell’Associazione Italiana per l’Intelligenza Artificiale (AIxIA). Partecipa ai lavori della European AI Alliance della Commissione Europea e del Consultation Forum for Sustainable Energy in the Defence and Security Sector della European Defence Agency.

Abbiamo stipulato un accordo con l’autore, Luca Sambucci, per la diffusione dei suoi articoli. L’articolo originale si trova al seguente link: Notizie.ai

DONA ORA E GRAZIE PER IL TUO SOSTEGNO: ANCHE 1 EURO PUÒ FARE LA DIFFERENZA PER UN GIORNALISMO INDIPENDENTE E DEONTOLOGICAMENTE SANO

Gli Scomunicati è una testata giornalistica fondata nel 2006 dalla giornalista Emilia Urso Anfuso, totalmente autofinanziata. Non riceve proventi pubblici.

Novembre 30, 2020Novembre 28, 2020

Lascia un commento Cancel Reply