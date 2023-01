E se davvero esistesse un software in grado di riprodurre tali e quali le nostre voci? Microsoft ci sta lavorando…

L’ascolto delle conversazioni private attraverso sistemi di intercettazione avveniristici è qualcosa che, negli ultimi decenni, ha animato generi letterari e cinematografici.

Tuttavia, non ci sarebbe da scherzarci troppo. Non perché una fantasia non troppo elaborata non sia di per sé futuribile ma perché i sistemi di truffa vanno di pari passo allo sviluppo tecnologico. Ed ecco che, improvvisamente, anche una prospettiva da spy story hollywoodiana come l’ascolto delle conversazioni private, diventa uno scenario che decisamente non fa ridere. A suonare l’allarme sono gli esperti del settore tech, tutt’altro che convinti di un progetto targato Microsoft che, tramite l’Intelligenza artificiale, punterebbe allo sviluppo di un software in grado di clonare la voce in una clip audio di appena tre secondi. Il nome è VALL-E, solo nella grafica somigliante al robottino protagonista del quasi omonimo film Pixar, WALL-E.

Difficile, anzi, quasi impossibile che, almeno una volta, qualcuno di noi non abbia inviato un vocale su WhatsApp, un file audio, registrato un’intervista, usato la propria voce in un filmato o in qualsiasi altro contesto uniformato a una tecnologia in grado di registrare la nostra voce. Ecco, VALL-E partirebbe proprio da qui. Ancora più nello specifico, da 60 mila ore di conversazione in lingua inglese, test per mettere alla prova la sua reale capacità di ascoltare, catturare e riprodurre una voce impressa su un file audio. E, parola dei programmatori, ci riuscirebbe eccome. Con prospettive piuttosto concrete di un’estensione del programma anche ad alte lingue.

VALL-E, l’Intelligenza artificiale che copia le voci: il punto debole

C’è da dire che i programmatori hanno subito alzato gli scudi. Non solo VALL-E non è attualmente disponibile per uso commerciale ma sarebbe del tutto al riparo da possibili violazioni. Gli sviluppatori, infatti, sarebbero al lavoro su un sistema di prevenzione, basato probabilmente su un software parallelo in grado di rilevare se la voce parlante sia passata tramite il sintetizzatore vocale. Una prerogativa essenziale, considerando che VALL-E sarebbe in grado, addirittura, di mantenere inalterato lo stato emozionale del parlante al momento di sintetizzare la voce. In pratica, in qualche sala di sviluppo, esisterebbe un programma intelligente in grado di riprodurre in modo sorprendentemente simile la nostra voce, “mettendoci” di fatto in bocca anche parole mai dette. Questo, almeno, è il timore degli esperti. Anche perché, al momento, non è chiaro l’uso che Microsoft intenderebbe fare del sintetizzatore.

Sulla carta, la prospettiva è quella di sviluppare sintesi vocali come l’editing oppure creare contenuti audio. Del resto, sarebbe quasi da escludere la possibilità che i device di massa possano essere in grado di averlo a disposizione. Tuttavia, considerando l’alto potenziale, i timori su possibili controindicazioni sono tutt’altro che ingiustificati. La stessa VALL-E indica che un uso improprio delle potenzialità del software potrebbe risultare estremamente deleterio. In quanto, abbastanza evidentemente, sarebbe possibile falsificare voci o impersonare qualcun altro. Con implicazioni abbastanza evidenti. Se non altro perché, come accadeva per l’app di “invecchiamento” delle immagini, non è ben chiaro che fine farebbe realmente la nostra voce. Per questo, almeno per ora, l’uso commerciale sembra escluso.