A OpenAI, empresa conhecida pelo desenvolvimento de ferramentas de inteligência artificial como ChatGPT e DALL-E, acaba de apresentar uma nova tecnologia capaz de gerar áudios com qualquer voz humana. Chamado de Voice Engine, o sistema de conversão de texto em voz foi apresentado em uma demonstração para cerca de 10 desenvolvedores, segundo um porta-voz da empresa.
Ao contrário de recursos anteriores, o Voice Engine imita a cadência e entonações específicas da sua voz, criando falas realistas. Com 15 segundos da voz de uma pessoa falando, a inteligência artificial aprende e reproduz outra fala com perfeição. A tradução em tempo real de áudio para diferentes idiomas é outro recurso apresentado.
Te podría interesar
Em uma demonstração, a OpenAI apresentou a nova tecnologia com um exemplo prático: um áudio do CEO da OpenAI, Sam Altman, explicando a tecnologia em uma voz indistinguível de sua fala real, mas que foi totalmente criada por inteligência artificial. “Se você tiver a configuração de áudio correta, é basicamente uma voz humana”, afirmou o líder de produto da OpenAI, Jeff Harris.
“É uma qualidade técnica bastante impressionante.” No entanto, Harris disse: “Há obviamente muita delicadeza de segurança em torno da capacidade de imitar com precisão a fala humana”. No entanto, a ferramenta ainda não está disponível para o público em geral. A OpenAI diz que reconhece o potencial de uso indevido da tecnologia e, por isso, optou por mantê-la sob estrito controle até que sejam implementadas medidas de segurança robustas.
Te podría interesar
Em uma nota publicada no último dia (29), a dona do ChatGPT apontou sérios riscos para o ano eleitoral e disse estar se articulando com instituições e governos. “Reconhecemos que gerar um discurso que se assemelhe às vozes das pessoas apresenta sérios riscos, que são especialmente importantes em um ano eleitoral. Estamos nos envolvendo com parceiros de governos e setores da imprensa, entretenimento, educação, sociedade civil e outros para garantir que iremos incorporar seus comentários à medida que construímos [a tecnologia].”
Mesmo assim, a existência de um mecanismo que facilite a imitação de voz em diferentes contextos continua uma preocupação. Em janeiro, um telefonema falso, mas extremamente realista, com a voz de Joe Biden circulou em New Hampshire, nos EUA, dissuadindo as pessoas de votarem nas primárias, por exemplo.