Vamos fazer o seguinte teste, ouça este clipe de áudio em espanhol.
É assim que sua tradução em inglês pode soar ao ser submetida a um sistema tradicional de tradução automática.
Agora é assim que soa quando é colocado no novo sistema de tradução automática do Google.
Os resultados não são perfeitos, mas você pode ouvir como o tradutor do Google conseguiu manter a voz e o tom do falante original.
Isso pode ser feito porque converte a entrada de áudio diretamente em saída de áudio sem quaisquer etapas intermediárias.
Em contraste, os sistemas tradicionais de tradução convertem o áudio em texto, traduzem o texto e ressintetizam o áudio, perdendo as características da voz original ao longo do caminho.
O novo sistema, apelidado de Translatotron, tem três componentes, todos os quais analisam o espectrograma de áudio do locutor – um instantâneo visual das freqüências usadas quando o som está tocando, muitas vezes chamado de impressão de voz.
O primeiro componente usa uma rede neural treinada para mapear o espectrograma de áudio na linguagem de entrada para o espectrograma de áudio na linguagem de saída.
O segundo converte o espectrograma em uma onda de áudio que pode ser tocada. O terceiro componente pode, então, sobrepor as características vocais do locutor original de volta à saída de áudio final.
Essa abordagem não apenas produz traduções mais diferenciadas, mantendo importantes dicas não-verbais, mas, em teoria, também deve minimizar o erro de tradução, porque reduz a tarefa a menos etapas.
O Translatotron é atualmente uma prova de conceito. Durante os testes, os pesquisadores testaram o sistema apenas com tradução do espanhol para o inglês, que já recebia muitos dados de treinamento cuidadosamente selecionados.
Mas as saídas de áudio, como o clipe acima, demonstram o potencial de um sistema comercial a ser lançado futuramente. Você pode ouvir mais deles aqui.
Siga o Dica App do Dia nas redes sociais – os links estão no final da página – e também no agregador de notícias Flipboard.