O Planeta Azul – Fake áudio: dublagem perigosa

Na parceria da Fórum com o canal O Planeta Azul, veja as novas tecnologias que já permitem a reprodução de vozes humanas com perfeição e que trazem o receio de mais mentiras nas redes

Escrito en DEBATES el

Por O Planeta Azul

Leva apenas 3,7 segundos de áudio para clonar uma voz. Esta façanha impressionante, e por que não dizer preocupante, foi anunciada pela chinesa Baidu, uma das maiores empresas de tecnologia do mundo.  Um ano atrás, a ferramenta de clonagem de voz da empresa chamada Deep Voice exigia 30 minutos de áudio para fazer o mesmo. Isso mostra o quão rápido a tecnologia para criar vozes artificiais está se acelerando. Em pouco tempo, os recursos de geração de voz de Inteligência Artificial se expandiram e se tornaram mais realistas, o que torna fácil o uso indevido da tecnologia.

Como todos os algoritmos de inteligência artificial, quanto mais dados as ferramentas de clonagem como Deep Voice receberem para treinar, mais realistas vão ser os resultados.   Recentemente, o Google revelou o Tacotron 2, um sistema de conversão de texto em fala, e o método de geração de voz WaveNet.  O WaveNet analisa uma representação visual de áudio, chamada espectrograma. Esse sistema gera o áudio. Ele é usado para gerar a voz para o Google Assistente. Esta tecnologia é tão realista que é quase impossível dizer o que é gerado por IA e qual voz é gerada por humanos. O algoritmo aprendeu como pronunciar palavras e nomes desafiadores que seriam um sinal revelador de uma máquina, bem como enunciar palavras com mais naturalidade. Esses avanços na tecnologia de geração de voz do Google permitiram ao Google Assistant oferecer participações especiais de celebridades. A voz do cantor John Legend agora é uma opção em qualquer dispositivo nos Estados Unidos com Google Assistente, como Google Home, Google Home Hub e smartphones. A voz do cantor só responderá a certas perguntas, como "Como está o tempo" e "A que distância está a lua" e está disponível para cantar parabéns a pedido.

Outro exemplo de quão precisa a tecnologia se tornou, um modelo de IA de Jordan Peterson (autor do livro 12 regras para a vida) soa exatamente como ele cantando a música "Lose Yourself" de Eminem. O criador do algoritmo de IA usou apenas seis horas de conversa de Peterson (tiradas de gravações prontamente disponíveis dele online) para treinar o algoritmo de aprendizado de máquina para criar o áudio. Essa tecnologia avançada abre as portas para empresas fornecerem novos serviços e produtos. A Lyrebird, por exemplo, usa inteligência artificial para criar vozes para chatbots, audiolivros, videogames, leitores de texto e muito mais. Eles reconhecem em seu site que “com uma grande inovação vem uma grande responsabilidade”, ressaltando a importância dos pioneiros dessa tecnologia tomarem muito cuidado para evitar o uso indevido da tecnologia.

Semelhante a outras novas tecnologias, a voz artificial pode ter muitos benefícios, mas também pode ser usada para enganar indivíduos. À medida que os algoritmos de IA ficam melhores e fica difícil discernir o que é real e o que é artificial, haverá mais oportunidades de usá-los para fabricar a verdade. De acordo com pesquisas, nossos cérebros não registram diferenças significativas entre vozes reais e artificiais. Na verdade, é mais difícil para nosso cérebro distinguir vozes falsas do que detectar imagens falsas. Agora que esses sistemas de inteligência artificial requerem apenas uma pequena quantidade de áudio para criar uma voz artificial que imite o estilo de fala e o tom de um indivíduo, a oportunidade de abuso aumenta. Até agora, os pesquisadores não foram capazes de identificar uma distinção neural de como um cérebro pode distinguir entre o real e o falso. Imagine como vozes artificiais poderiam ser usadas em uma entrevista, notícias ou conferência de imprensa para fazer os ouvintes acreditarem que estão ouvindo uma figura de autoridade no governo ou um CEO de uma empresa.

Aumentar a conhecimento sobre essa tecnologia e como ela funciona é o primeiro passo para evitar que os ouvintes acreditem em vozes artificiais quando elas são usadas para nos enganar. O principal receio é que as pessoas possam ser enganadas se agirem com base em algo falso porque parece que vem de alguém real.

Algumas pessoas estão tentando encontrar uma solução técnica para nos proteger. No entanto, uma solução técnica não será 100% infalível. Nossa capacidade de avaliar criticamente uma situação, avaliar a fonte de informação e verificar sua validade se tornará cada vez mais importante.

https://youtu.be/g084ilcLv4k