INTELIGÊNCIA ARTIFICIAL

Criadores do ChatGPT testam IA que gera áudio falso de qualquer voz humana

Empresa diz que “planeja manter a tecnologia sob estrito controle". Com apenas 15 segundos de voz, nova IA é capaz de recriar a fala de uma pessoa.

ChatGPT pode lançar nova ferramenta que recria voz humana.Créditos: Sanket Mishra/Pexels
Escrito en TECNOLOGIA el

A OpenAI, empresa conhecida pelo desenvolvimento de ferramentas de inteligência artificial como ChatGPT e DALL-E, acaba de apresentar uma nova tecnologia capaz de gerar áudios com qualquer voz humana. Chamado de Voice Engine, o sistema de conversão de texto em voz foi apresentado em uma demonstração para cerca de 10 desenvolvedores, segundo um porta-voz da empresa.

Ao contrário de recursos anteriores, o Voice Engine imita a cadência e entonações específicas da sua voz, criando falas realistas. Com 15 segundos da voz de uma pessoa falando, a inteligência artificial aprende e reproduz outra fala com perfeição. A tradução em tempo real de áudio para diferentes idiomas é outro recurso apresentado.

Em uma demonstração, a OpenAI apresentou a nova tecnologia com um exemplo prático: um áudio do CEO da OpenAI, Sam Altman, explicando a tecnologia em uma voz indistinguível de sua fala real, mas que foi totalmente criada por inteligência artificial. “Se você tiver a configuração de áudio correta, é basicamente uma voz humana”, afirmou o líder de produto da OpenAI, Jeff Harris.

“É uma qualidade técnica bastante impressionante.” No entanto, Harris disse: “Há obviamente muita delicadeza de segurança em torno da capacidade de imitar com precisão a fala humana”. No entanto, a ferramenta ainda não está disponível para o público em geral. A OpenAI diz que reconhece o potencial de uso indevido da tecnologia e, por isso, optou por mantê-la sob estrito controle até que sejam implementadas medidas de segurança robustas.

Em uma nota publicada no último dia (29), a dona do ChatGPT apontou sérios riscos para o ano eleitoral e disse estar se articulando com instituições e governos. “Reconhecemos que gerar um discurso que se assemelhe às vozes das pessoas apresenta sérios riscos, que são especialmente importantes em um ano eleitoral. Estamos nos envolvendo com parceiros de governos e setores da imprensa, entretenimento, educação, sociedade civil e outros para garantir que iremos incorporar seus comentários à medida que construímos [a tecnologia].”

Mesmo assim, a existência de um mecanismo que facilite a imitação de voz em diferentes contextos continua uma preocupação. Em janeiro, um telefonema falso, mas extremamente realista, com a voz de Joe Biden circulou em New Hampshire, nos EUA, dissuadindo as pessoas de votarem nas primárias, por exemplo.