IA da Meta copia a voz de alguém com apenas 2 segundos de amostra; entenda

A Meta apresentou recentemente uma nova inteligência artificial capaz de emular a voz humana. Chamada Voicebox, a IA generativa precisa apenas de uma pequena amostra da fala para gerar trechos nunca ditos antes a partir de descrições em texto.

Bastam dois segundos de demonstração de voz para a IA já ser capaz de recriá-la em diferentes textos, imitando o timbre e tom em novas falas, parecido com o VALL-E da Microsoft, apresentado em janeiro deste ano.

A ferramenta de reprodução de voz da Meta pode gerar falas inéditas a partir de amostras de dois segundos (Imagem: Reprodução/Meta)

“No futuro, modelos de IA generativos multifuncionais como o Voicebox poderiam dar vozes com som natural a assistentes virtuais e personagens não jogadores no metaverso”, explica a Meta no anúncio. “Eles poderiam permitir que pessoas com deficiência visual ouvissem mensagens escritas de amigos lidas por IA em suas vozes, fornecer aos criadores novas ferramentas para criar e editar facilmente faixas de áudio e muito mais”, complementa.

Treinamento extenso

O Voicebox foi treinado com 50 mil horas de áudio pré-gravado de livros de domínio público em inglês, francês, alemão, espanhol, polonês e português. A IA aperfeiçoa os resultados tomando como base o contexto das falas, também sendo capaz de adicionar pequenos trechos à faixa sem precisar recriá-la totalmente.

Indo além

O Voicebox é capacitado para executar uma variedade de tarefas. São elas:

Emulação de voz gerada por trechos de apenas dois segundos;
Redução de ruído e edição de áudio de um trecho pré-gravado, removendo barulhos de fundo, sem comprometer o conteúdo;
Tradução de conteúdo em voz, permitindo que o interlocutor converse no idioma original e tenha o conteúdo adaptado para outra língua na sua própria voz;
Geração de falas aperfeiçoadas com dados do mundo real em seis idiomas (inglês, francês, alemão, espanhol, polonês e português).

Segundo a Meta, o Voicebox é mais poderoso que o VALL-E na geração de voz a partir de texto, sendo capaz de criar trechos com mais agilidade e menos erros que o modelo rival da MS. A IA da empresa de Mark Zuckerberg também seria melhor que o YourTTS, cometendo menos falhas e com melhor semelhança no áudio artificial.

IA de geração de voz é perigosa

Assim como a criação de imagens por IA oferece perigos, ferramentas como a Voicebox também têm potencial para gerar estrago. No Brasil, já acontecem golpes em que vozes simuladas são usadas para enganar vítimas ao se passar por parentes e amigos.

A Meta reconhece os perigos de deixar uma IA como a Voicebox livre para o público, por isso disponibilizou somente os detalhes da ferramenta num documento completo (research.facebook.com). Na página oficial (ai.facebook.com), você pode conferir as demonstrações selecionadas pela companhia.

Via Canal Tech

Editorias

Institucional

IA da Meta copia a voz de alguém com apenas 2 segundos de amostra; entenda

Treinamento extenso

Indo além

IA de geração de voz é perigosa

Curtiu? Compartilhe

Terremoto devastador deixa mortos, desaparecidos e destruição

Boi invade BR, atravessa pistas e surpreende motoristas

Burnier recebe alta após ataque de pitbull e faz alerta sobre responsabilidade dos tutores

Irã lança mísseis contra Israel e amplia tensão no Oriente Médio

Influenciador se emociona ao vivo após repercussão de vídeo sobre suposto Ovni

Envie seu perrengue no WhatsApp

IA da Meta copia a voz de alguém com apenas 2 segundos de amostra; entenda

Treinamento extenso

Indo além

IA de geração de voz é perigosa

Curtiu? Compartilhe

Continue lendo

Vereador joga esgoto no chão de Câmara em protesto contra problema de saneamento; veja vídeo

Turista flagra funcionária de restaurante cortando as unhas do pé em cima do balcão; veja o vídeo

VÍDEO: Gato de 12 kg, do tamanho de uma criança, viraliza na web

Shih-tzu entra em briga com filho de tutora e motivo diverte web; assista

Envie seu perrengue no WhatsApp