A empresa de inteligência artificial OpenAI informou nesta segunda-feira que, por meio de seu modelo Voice Engine, consegue clonar vozes humanas reproduzindo sons naturais “emotivos e realistas” usando uma amostra de 15 segundos, mas que ainda não liberará a tecnologia para o público em geral, pois seria muito arriscado.
“Reconhecemos que a geração de discurso que se assemelha à voz das pessoas traz sérios riscos, que são especialmente importantes em um ano eleitoral” nos Estados Unidos, disseram os criadores do ChatGPT em comunicado.
O Voice Engine é um novo modelo de IA que pode converter texto em fala para criar vozes sintéticas, o que, de acordo com a empresa, pode permitir que os criadores de conteúdo traduzam seu trabalho para outros idiomas sem perder o sotaque nativo e ajudar as pessoas com problemas de comunicação verbal a usar a voz para, por exemplo, fazer chamadas telefônicas.
Em um dos exemplos dados pela empresa, é possível ouvir como a voz de uma mulher anglo-saxônica foi traduzida para o espanhol, mandarim, alemão, francês e japonês, mantendo o sotaque nativo da pessoa.
No momento, as empresas que podem acessar essa tecnologia são a empresa de tecnologia educacional Age of Learning, a plataforma de narrativa visual HeyGen, a fabricante de software de saúde Dimagi, a fabricante de aplicativos de comunicação de inteligência artificial Livox e o sistema de saúde Lifespan.
“Estamos adotando uma abordagem cautelosa e informada para uma publicação mais ampla devido ao potencial de uso indevido da voz sintética”, disse a empresa no comunicado, observando que as empresas com as quais trabalham concordaram com suas políticas de uso.
Entre essas regras estão a de não usar a voz de alguém sem o consentimento dessa pessoa ou a de indicar aos usuários que se trata de vozes sintéticas.
“Por fim, implementamos um conjunto de medidas de segurança, incluindo marcas d’água para rastrear a origem de qualquer áudio gerado pelo Voice Engine, bem como o monitoramento proativo de como ele é usado”, acrescentou a OpenAI.
Neste ano eleitoral nos EUA, já houve casos de chamadas telefônicas automatizadas com vozes clonadas de políticos, como a do presidente Joe Biden.
Outro grande problema com as vozes sintéticas geradas por IA é que os fraudadores poderiam usá-las para acessar contas bancárias que usam autenticação por voz.