A Microsoft lançou, na semana passada, uma inteligência artificial (IA) com a capacidade de imitar a voz humana em poucos instantes. Chamada de VALL-E, a nova tecnologia precisa de apenas três segundos para se adaptar e fazer a imitação.
De acordo com a Microsoft, essa IA capaz de imitar a voz humana é um novo modelo para a síntese de texto por meio da fala. Ele visa a tornar mais natural a forma para transformar textos em áudios. É uma tentativa de evitar timbres mecânicos ou despersonalizados de aplicativos em atividade como, por exemplo, o Google Tradutor.
Para desenvolver a ferramenta, o dispositivo usou 60 mil horas de gravações de vozes para aprendizagem, segundo o jornal o Estado de S. Paulo. Por meio dessas análises, a IA aprendeu a distinguir as nuances e os padrões em ambientes diferentes.
As amostras de áudio são utilizadas como base para gerar falas de textos predefinidos. Desse modo, com a identificação da entonação e de fatores como a frequência e o timbre, a ferramenta consegue fazer a imitação.
Até o momento, a ferramenta criada pela Microsoft imita apenas a voz humana na língua inglesa. A empresa garante que o dispositivo oferece a preservação “da emoção do locutor”.