O professor da UFABC e especialista em computação forense Mario Gazziro (UFABC), em entrevista ao programa Fórum Onze e Meia, nesta quarta-feira (27), explicou de forma detalhada e minuciosa como é o método de análise empregado para chegar ao laudo que mostrou que os áudios golpistas atribuídos ao general Augusto Heleno seriam do próprio militar que chefiou o Gabinete de Segurança Institucional (GSI) do ex-presidente Jair Bolsonaro (PL).
Como foi demonstrado com exclusividade pela Fórum, o laudo produzido pelo professor da UFABC revela que os áudios atribuídos a Augusto Heleno tinham compatibilidade de 86% com a voz do general e que, segundo os métodos de análise, que usam Inteligência Artificial (IA) e apresentam "coeficientes cepstrais", eram de fato do oficial da reserva.
Gazziro foi entrevistado pelo editor da Fórum, Renato Rovai, e pela jornalista Dri Delorenzo. Leia a íntegra com as explicações e esclarecimentos do acadêmico sobre o método empregado e os resultados obtidos.
“Bem, boa tarde, pessoal. Então, meu nome é Mário Alexandre Gazziro, eu sou professor da Federal do ABC desde 2014, a minha informação é em Ciência da Computação pela USP, com mestrado em Reconhecimento de Padrões e Processamento de Imagens pela Universidade Federal de São Carlos, e o meu doutorado é em Física Computacional pela USP também.
Eu tenho três pós-doutorados, eu tenho algumas especializações no exterior, inclusive com projetos de chip. A minha área principal de atuação na faculdade é projeto de chips de computador, então a gente trabalha num nível bem baixo, assim, num nível de hardware bem baixo, e há um tempo já eu iniciei essa aplicação de processamento de sinal avançado para chips. Porém, dado essa expertise em processamento de sinais, alguns anos atrás eu fui convidado para dar o curso de Computação Forense na USP. A Computação forense, para quem não sabe, acredito que grande parte da nossa audiência aqui já ouviu os dois termos separadamente, Computação e Forense, mas Computação Forense lida exatamente com técnicas computacionais avançadas para auxiliar processos jurídicos, para a gente gerar processos que tenham validade em tribunal.
Esse é o principal fato. Ou seja, rastreadibilidade, repetibilidade dos processos, checagem de origens, confirmação da autenticidade de voz, vídeo, localização de artefatos. Bom, nos últimos anos, eu e meu grupo de pesquisa, eu coordeno um grupo de segurança na minha universidade, tenho 70 alunos trabalhando comigo, e a gente trabalha em parceria com grupos da UFSCar, com grupos da USP, na USP tem a professora Kalinka que trabalha conosco, inclusive os alunos dela ajudaram nessa análise.
Então, não é uma coisa feita em um único centro, um monte de universidade, nós sempre consultamos os parceiros, para esse lado do Heleno foi consultado também especialista da Universidade Federal de São Carlos, na parte do enriquecimento padrão. Então, é uma coisa escrita à muitas mãos, como sempre, e muito avançado. A gente usa o que a gente chama de estado da arte, técnicas do estado da arte, para averiguar a autenticidade dos áudios. O que se vê muito por aqui, quando a gente via, até então, porque quando a gente começou a fazer este tipo de análise, o que se via era um protocolo holandês, essa que o professor Carlito comentou aí, que eles dão uma escala que vai de menos seis a mais seis, aquilo é uma mistura, é um protocolo holandês, que mistura critérios subjetivos com critérios técnicos.
Eles usam um critério técnico muito pouco abrangente, que eu vou explicar rapidamente aqui, que é a chamada frequência central. O que acontece? Todo mundo tem uma certa frequência central. A minha voz aqui, se eu calcular, ela vai estar lá em uma certa frequência, vai aparecer, vão ter picos de uma certa frequência.
Na minha voz, na do Rovai vai ter outra, na do Carlito vai ter outra, na da Dri vai ter outra. Só que isso por si só, ele pode ser excludente. Então, se a frequência central do Rovai for X, e a frequência central do Carlito for Y, a gente pode falar que não é a mesma voz. Mas quando a frequência central é a mesma, você não pode dizer e falar que era a mesma pessoa. Você não pode simplesmente chegar, e como aconteceu uma vez, teve um áudio que a gente referenciou, que a gente teve que referenciar um áudio que tinha sido feito por uma funcionária da Associação de Peritos, que dizia que atribuía que o Lula tinha, sim, feito aquele áudio que vira e mexe volta, que ele dizia que ia matar o Palocci, isso e aquilo.
Aquele foi um áudio editado, 95 % do áudio é um áudio verdadeiro do Lula, e num trecho pequeno, bem pequeno, colocaram um imitador. E aí o que acontece? Eles fazem uma análise de frequência central lá, apenas, o laudo que dizia que era a voz do Lula. E mesmo a frequência central lá não batia exatamente, ela batia um pouco diferente, aí o laudo falou assim, ‘ah, ele estava gripado na época, então por isso que ficou diferente, sabe?’.
Bom, resumindo, frequência central é tipo, vamos dizer assim, você falar que você viu o último número da placa de uma pessoa, um carro atropelou alguém, qual foi o último número da placa? Era a placa número, eram 45 os últimos números. Você não pode falar que todo mundo tem a placa com final 45, foi o culpado, tá? Então, é uma característica que não é única, você tem aí uma faixa no Specs, você pode ter, se você pegar 100 pessoas, você vai ter 5 que vão ter a mesma frequência central, tá? Do áudio. Agora, pega o Brasil, com a quantidade de população que tem no Brasil inteiro, tá? Você não pode simplesmente falar que... Ao contrário do nosso método, tá? Nosso método, a gente gera um mapa cepstral, tá? Que ele é quase como se fosse a impressão digital da voz, tá? A gente extrai muito mais características do que apenas um número, tá? A gente extrai ali, basicamente a gente chega ali em centenas, às vezes até milhares de características.
Dependendo da análise. Então, a gente consegue fazer o controle de bateria. E ainda assim, também não dá para a nossa técnica falar que a gente identifica um brasileiro em meio ao Brasil todo. Não dá, tá? Do ponto de vista forense, eu não vou pegar uma voz, qualquer uma, qualquer voz assim que me trouxeram e falar me fale de que pessoa é essa voz, né? Não, ainda assim, o que a gente faz é por treinamento, por similaridade. A gente consegue falar, ó, essa voz aqui, ela tem aí 80, 90 % similaridade com essa outra, tá? E isso é muito raro de acontecer, se não for a mesma pessoa, tá? E ter adivinho do mesmo trato vocal.
Inclusive, se for gerado a partir de um gravador, não consegue enganar o nosso sistema, tá? Tem que ser, a voz, ela tem que ser gerada pela pessoa, pelo trato vocal da pessoa mesmo. Se você gravou no alto-falante e toca de novo, o nosso sistema, ele reconhece a característica do alto-falante, tá? Então, assim, é uma coisa muito moderna. A gente tem as referências, obviamente, né? Junto com o laudo saiu as referências, né? Mas é a chamada análise de coeficientes cepstrais, que sempre se traz na escala de frequências MEL. Esse é o nome completo da técnica. Não fui eu que inventei a técnica, tá? É uma técnica internacional... MFCC é o nome da técnica, resumindo. MFTC. MFCT. MFCC. Tá? MEL coeficiente, MEL Cepsum coeficientes, alguma coisa por aí, tá? Bom, então a gente faz uso dessa técnica, que eu, particularmente, comecei a estudar ela quando eu fui convidado a dar o curso de Forense na USP, há alguns anos atrás. A gente ministrou lá para os alunos do grupo de segurança, e desde então eu tenho utilizado bastante essa técnica, tá? Para análise de áudio e para todos os lados do técnico, tá?
Vocês vão encontrar laudos que eu fiz, inclusive, que nos tentam Bolsonaro, tá? Para quem vai dizer que é uma questão partidária, eu sou totalmente técnico, tá? Então, vocês vão encontrar laudos que eu fiz, que nos tentam, basicamente, até hoje, todos os laudos que a gente fez, inocentavam as supostas vítimas. Então, tem laudo inocentando Bolsonaro, de xingar a Michelle Bolsonaro, a gente fez análise lá, deu que não era, tá? A gente tem laudo no caso do Lula, a gente tem laudo no caso do Ciro, tá? Esse é o primeiro caso de veracidade, tá? De positivo, que bateu.
Então, deu um trabalho extensivo, a gente ficou três dias fazendo essa análise, porque, assim, é uma coisa muito séria, tá? Você ficar, como se falasse, não, é a mesma pessoa, com certeza total. Então, porque qual é o risco de uma análise dessa, de acontecer aquilo que eu falei? Do suposto áudio estar editado no sentido seguinte, ter 90 % da voz original, vamos supor, de general Heleno, e, de repente, só um pedacinho, eles trocaram ali, tá? A gente faz essa análise quase que vocábulo a vocábulo, tá? Então, a gente tem que fazer pedacinho por pedacinho, batimento demora, processamento de sinal demora, né? Quando a gente vai, as fontes originais, para a gente comparar também, elas também têm que ser processadas, por exemplo, eu não posso simplesmente pegar uma entrevista que o general dá lá no canal oficial do governo, tá?
E eu não posso simplesmente pegar aquele trecho inteiro e sair processando, não, porque tem, assim como nós agora, uma hora eu estou falando, outra hora o Carlito está falando, né? Então, primeiro, a gente tem que separar a hora que eu estou falando com o outro, tá? Então, não pode simplesmente pegar tudo, como eu já vi também, né? Eu já vi um instituto de peritos fazer um laudo, que dizia que, categoricamente, que não pertencia aos postos de aula, e ele falou assim, olha, a gente comparou com um vídeo do YouTube ali, de uma entrevista que foi dada do Datena, e eles trouxeram uma análise de F0, que não falam em que momento do vídeo do Datena eles pegaram a fonte original, então você não sabe nem se ele está comparando com a voz do Datena ou da pessoa investigada, né?
Então, é assim, a gente entrou com recurso na época, inclusive, no Ministério Público, para aquele laudo ser validado, né? Então, eu atuo muito nesse sentido de dar laudo sobre laudo, tá? No começo. Agora, eu estou dando os laudos também, diretamente, mas, no começo, a gente era muito procurado para rever os laudos que eram dados, tecnicamente, inclusive, quem quiser, o meu próprio laudo fica disponível a isso, tá?
A gente já disponibilizou no GitHub, no YouTube, os dados, né? É uma coisa que tem que ser refeito, nós somos cientistas, tá? O método científico é esse, outro tem que reproduzir o seu resultado e tem que dar certo. Foi o que aconteceu agora, recentemente, no caso do supercondutor de temperatura ambiente, mais uma vez, ninguém conseguiu reproduzir ainda, tá?
Então, o nosso intuito é, justamente, que outros pesquisadores, outros técnicos, outros peritos, reproduzam o nosso sistema, tá? Como a Polícia Federal, provavelmente, vai refazer agora lá, né? E essa é a nossa metodologia, acho que eu falei demais, Rovai, fico à disposição de mais perguntas."