Imagina a possibilidade de criar vídeos a partir de, apenas, uma foto, seria realmente possível?

Para criar um modelo de “cabeça falante personalizado”, esses trabalhos exigem treinamento em um grande conjunto de dados de imagens de uma única pessoa. 

Com Inteligência Artificial, sim! A Samsung, na Rússia, descobriu como realizar esta façanha. Vários trabalhos recentes mostraram como imagens altamente realistas da cabeça humana podem ser obtidas pelo treinamento de redes neurais convolucionais para gerá-las. 

Redes neurais convolucionais, CNN do inglês Convolutional Neural network ou ConvNet, é uma classe de rede neural artificial do tipo feed-forward, que vem sendo aplicada com sucesso no processamento e análise de imagens digitais.

No entanto, em muitos cenários práticos, esses modelos de cabeça falante personalizados precisam ser aprendidos com algumas visualizações de imagem de uma pessoa, potencialmente até mesmo uma única imagem. 

A tecnologia, é claro, pode ser usada para se divertir, como dar vida a um retrato clássico. A Mona Lisa, cujo sorriso enigmático é animado em três vídeos diferentes para demonstrar a nova tecnologia, existe apenas como uma única imagem fixa. 

A inteligência artificial desenvolvida por um laboratório da Samsung na Rússia pode fabricar vídeo a partir de uma única imagem, incluindo uma pintura. Egor Zakharov

Aqui, apresentamos um sistema com essa capacidade de poucos disparos. Realiza um longo processo de meta-aprendizagem em um grande conjunto de dados de vídeos.

Fonte: https://arxiv.org/abs/1905.08233

Em seguida, é capaz de enquadrar modelos de cabeças neurais falantes de pessoas nunca antes vistas como problemas de treinamento adversário com geradores e discriminadores de alta capacidade. 

Uma técnica semelhante em colocar rosto de alguém em vídeo foi o que a TV Estatal Chinesa Xinhua ao criar uma âncora através de IA.

Mas, existe o lado mau desta tecnologia

Aqui está o lado negativo: esses tipos de técnicas e seu rápido desenvolvimento também criam riscos de desinformação, adulteração de senhas e fraude, de acordo com Hany Farid, um pesquisador de Dartmouth especializado em análise forense para erradicar deepfakes (clipes fabricados que fazem as pessoas parecerem fazer ou dizer coisas que nunca fizeram).

Crucialmente, o sistema é capaz de inicializar os parâmetros do gerador e do discriminador de uma maneira específica da pessoa, de modo que o treinamento pode ser baseado em apenas algumas imagens e feito rapidamente, apesar da necessidade de sintonizar dezenas de milhões de parâmetros. 

Trazendo fotografias a vida. Imagens mostradas para os modelos “one-shot”, aprendidos a partir da coluna de origem a esquerda. Fonte: https://arxiv.org/abs/1905.08233

Mostramos que tal abordagem é capaz de aprender modelos realistas e personalizados de novas pessoas e até mesmo retratos.

A tecnologia tornou possível um gênero inteiro de memes, incluindo um em que  o rosto de Nicolas Cage é colocado em filmes e programas de TV em que ele não estava.

Mas a tecnologia deepfake também pode ser tendenciosa, por exemplo, inserir o rosto de uma pessoa em filmes adultos explícitos.

Normalmente, uma cabeça falante sintetizada exige que você treine um sistema de inteligência artificial em um grande conjunto de dados de imagens de uma única pessoa. Como muitas fotos de um indivíduo eram necessárias, os alvos profundos costumavam ser figuras públicas, como celebridades e políticos. 

Via Profillic, CNET,

DEIXE UMA RESPOSTA

Digite seu comentário
Entre com seu nome aqui