Empresa de inteligência artificial do Google acaba de fazer uma máquina que soa como um ser humano

de Merelyn Cerqueira 0

Adquirida em 2010 pelo Google, a Deep Mind é uma empresa de inteligência artificial com sede em Londres. Entre seus serviços estão um sistema de produtos para lojas online e soluções para simuladores e jogos, por exemplo.

No entanto, a marca anunciou recentemente a criação de um novo programa de síntese de voz em WaveNet, alimentado por uma inteligência artificial neural de aprendizagem profunda, segundo informações da Science Alert.

Primeiramente, o programa foi alimentado com amostras de voz retiradas do Google Voice. No entanto, a síntese para formar algo a partir destas amostras provou ser um grande desafio para os desenvolvedores. Logo, consideraram outro método para fazer isso. A partir da técnica TTS (text-to-speech, que sintetiza a fala humana e ainda converte texto em linguagem normal), utilizaram uma linguagem de programação concatenativa que combina fragmentos de falas gravadas em conjunto.

No entanto, a principal desvantagem observada neste método é que ele não poderia modificar os fragmentos para criar algo novo, o que resultou na característica voz robótica. Outro método considerado foi o TTS paramétrico, que transmite a fala através de vocoder (instrumento analisador e capaz de sintetizar voz humana), mas que produziu um discurso ainda menos natural.

Assim, eles utilizaram o programa WaveNet do Google, que possuía uma abordagem completamente diferente. Ao invés de simplesmente analisar o áudio, o programa era alimentado e aprendia com ele, semelhante à forma como muitos sistemas neurais de aprendizagem profunda funcionam. Ao trabalhar com pelo menos 16.000 amostras por segundo, o programa pôde gerar suas próprias amostras de áudios crus.

BlogPost-Fig2-Anim-160908-r01

Logo, verificou-se que ele poderia fazer isso sem muita intervenção humana e que utiliza estatísticas para prever qual peça de áudio é realmente necessária e o que tem que ser “dito” na fala seguinte. Os sistemas TTS sempre requerem uma entrada de fala de instrução, no entanto, o WaveNet é capaz de criar sons e falas sem um roteiro.

A empresa divulgou algumas amostras de voz para serem ouvidas, disponíveis em inglês e mandarim. O sistema também é capaz de sintetizar sua própria música, uma vez que pode analisar quaisquer padrões de som e não apenas fala. O resultado é apenas uma sequência de sons sem sentido acompanhados de movimentos da boca e respiração. Contudo, isso indica que o programa tem o potencial para criar vozes de computadores mais realistas.

[ Science Alert ] [ Fotos: Reprodução / Science Alert ] 

Jornal Ciência