Mundo Positivo » Pesquisadores usam IA para criar novo método de leitura labial em vídeos

Pesquisadores chineses da Alibaba e da Universidade de Zhejiang, em parceria com o Stevens Institute of Technology, criaram o LIBS (Lip by Speech), um método de leitura labial por meio de inteligência artificial e machine learning que possui taxa de erro baixíssima, que varia entre 7,66% e 2,75%. Para efeito de comparação, pesquisadores da Google e da Universidade de Oxford detalharam um sistema que poderia anotar imagens de vídeo com precisão de 46,8%, mais de 12% a mais do que o mesmo serviço feito por humanos.

O sistema exibe informações em várias escalas, inclusive com o nível de sequência, contexto e até de quadro. Em seguida, alinha esses dados com os que foram obtidos por meio do vídeo, identificando a correspondência entre eles (devido a diferentes taxas de amostragem e espaços em branco que às vezes aparecem no início ou no final, as sequências de vídeo e áudio têm comprimentos inconsistentes) e utiliza uma técnica de filtragem para refinar com as informações apuradas.

Os componentes do LIBS para reconhecimento de fala e leitor labial são baseados em uma arquitetura sequencial que tem como base o valor de atenção, um método de tradução automática que mapeia uma entrada de uma sequência (isto é, áudio ou vídeo) para uma saída com uma tag.

–
Podcast Canaltech: de segunda a sexta-feira, você escuta as principais manchetes e comentários sobre os acontecimentos tecnológicos no Brasil e no mundo. Links aqui: https://canaltech.com.br/360/
–

Pesquisadores usam IA para criar novo método de leitura labial em vídeos - 2 — Imagem: Stevens Institute of Technology

Os pesquisadores chineses treinaram a inteligência artificial do LIBS neste sistema mencionado acima e, também, no LRS2, que contém mais de 45.000 frases faladas da BBC e do CMLR, do site China Network Television, o maior conjuto de leitura labial em mandarim disponível, com mais de 100.000 frases naturais (incluindo mais de 3.000 ideogramas chineses e 20.000 frases).

“O LIBS reduz o foco em quadros não relacionados”, escreveram os pesquisadores, em um artigo em que descrevem seu trabalho. “O detalhamento do conhecimento no nível do quadro melhora ainda mais quando estes recursos recebem mais atenção do sistema”, cita outra parte do artigo.

A equipe observa que o modelo sofreu para obter resultados “razoáveis” no conjunto de dados do LRS2, devido à falta de algumas frases e em sentenças com menos de 14 caracteres. No entanto, uma vez que foi pré-treinado em frases com um comprimento máximo de 16 palavras, o decodificador melhorou a qualidade das partes finais das frases nos dados do LRS2, aproveitando o conhecimento em nível de contexto.

Trending no Canaltech:

Fonte: Canaltech