IA da Meta copia a voz de alguém com apenas 2 segundos de amostra; entenda

Meta apresentou recentemente uma nova inteligência artificial capaz de emular a voz humana. Chamada Voicebox, a IA generativa precisa apenas de uma pequena amostra da fala para gerar trechos nunca ditos antes a partir de descrições em texto.

Bastam dois segundos de demonstração de voz para a IA já ser capaz de recriá-la em diferentes textos, imitando o timbre e tom em novas falas, parecido com o VALL-E da Microsoft, apresentado em janeiro deste ano.

A ferramenta de reprodução de voz da Meta pode gerar falas inéditas a partir de amostras de dois segundos (Imagem: Reprodução/Meta)

“No futuro, modelos de IA generativos multifuncionais como o Voicebox poderiam dar vozes com som natural a assistentes virtuais e personagens não jogadores no metaverso”, explica a Meta no anúncio. “Eles poderiam permitir que pessoas com deficiência visual ouvissem mensagens escritas de amigos lidas por IA em suas vozes, fornecer aos criadores novas ferramentas para criar e editar facilmente faixas de áudio e muito mais”, complementa.

Treinamento extenso

O Voicebox foi treinado com 50 mil horas de áudio pré-gravado de livros de domínio público em inglês, francês, alemão, espanhol, polonês e português. A IA aperfeiçoa os resultados tomando como base o contexto das falas, também sendo capaz de adicionar pequenos trechos à faixa sem precisar recriá-la totalmente.

Indo além

O Voicebox é capacitado para executar uma variedade de tarefas. São elas:

  • Emulação de voz gerada por trechos de apenas dois segundos;
  • Redução de ruído e edição de áudio de um trecho pré-gravado, removendo barulhos de fundo, sem comprometer o conteúdo;
  • Tradução de conteúdo em voz, permitindo que o interlocutor converse no idioma original e tenha o conteúdo adaptado para outra língua na sua própria voz;
  • Geração de falas aperfeiçoadas com dados do mundo real em seis idiomas (inglês, francês, alemão, espanhol, polonês e português).

Segundo a Meta, o Voicebox é mais poderoso que o VALL-E na geração de voz a partir de texto, sendo capaz de criar trechos com mais agilidade e menos erros que o modelo rival da MS. A IA da empresa de Mark Zuckerberg também seria melhor que o YourTTS, cometendo menos falhas e com melhor semelhança no áudio artificial.

IA de geração de voz é perigosa

Assim como a criação de imagens por IA oferece perigos, ferramentas como a Voicebox também têm potencial para gerar estrago. No Brasil, já acontecem golpes em que vozes simuladas são usadas para enganar vítimas ao se passar por parentes e amigos.

A Meta reconhece os perigos de deixar uma IA como a Voicebox livre para o público, por isso disponibilizou somente os detalhes da ferramenta num documento completo (research.facebook.com). Na página oficial (ai.facebook.com), você pode conferir as demonstrações selecionadas pela companhia.

Via Canal Tech

Gabriel

Curtiu? Compartilhe

Ajuda a espalhar a notícia — manda no grupo.

Continue lendo