Óculos equipados com IA lêem fala silenciosa

Paulo F. De Barros

04.09.2023

Pesquisadores da Cornell University desenvolveram uma interface de reconhecimento de fala silenciosa que usa detecção acústica e inteligência artificial para reconhecer continuamente até 31 comandos não vocalizados, com base nos movimentos dos lábios e da boca.

A interface vestível de baixo consumo de energia – chamada EchoSpeech – requer apenas alguns minutos de dados de treinamento do usuário antes de reconhecer os comandos e poder ser executada em um smartphone.

Ruidong Zhang, estudante de doutorado em ciência da informação, é o principal autor de “EchoSpeech: Reconhecimento contínuo de fala silenciosa em óculos minimamente obstrutivos alimentado por detecção acústica”, que será apresentado na Conferência da Association for Computing Machinery on Human Factors in Computing Systems ( CHI) este mês em Hamburgo, Alemanha.

“Para as pessoas que não conseguem vocalizar o som, esta tecnologia de fala silenciosa pode ser uma excelente entrada para um sintetizador de voz. Ela pode devolver a voz aos pacientes”, disse Zhang sobre o uso potencial da tecnologia com mais desenvolvimento.

Em sua forma atual, o EchoSpeech pode ser usado para se comunicar com outras pessoas via smartphone em locais onde a fala é inconveniente ou inapropriada, como um restaurante barulhento ou uma biblioteca silenciosa. A interface de fala silenciosa também pode ser combinada com uma caneta e usada com software de design como CAD, praticamente eliminando a necessidade de teclado e mouse.

Equipados com um par de microfones e alto-falantes menores que borrachas de lápis, os óculos EchoSpeech se tornam um sistema de sonar vestível alimentado por IA, enviando e recebendo ondas sonoras pelo rosto e sentindo os movimentos da boca. Um algoritmo de aprendizado profundo analisa esses perfis de eco em tempo real, com cerca de 95% de precisão.

“Estamos movendo o sonar para o corpo”, disse Cheng Zhang, professor assistente de ciência da informação e diretor do Laboratório de Interfaces Inteligentes de Computadores para Interações Futuras (SciFi) de Cornell.

“Estamos muito entusiasmados com este sistema”, disse ele, “porque ele realmente impulsiona o desempenho e a privacidade. É pequeno, consome pouca energia e é sensível à privacidade, recursos importantes para a implantação de novas tecnologias vestíveis em o mundo real.”

A maior parte da tecnologia de reconhecimento de fala silenciosa é limitada a um conjunto seleto de comandos predeterminados e exige que o usuário enfrente ou use uma câmera, o que não é prático nem viável, disse Cheng Zhang. Também existem grandes preocupações com a privacidade envolvendo câmeras vestíveis – tanto para o usuário quanto para aqueles com quem o usuário interage, disse ele.

A tecnologia de detecção acústica como a EchoSpeech elimina a necessidade de câmeras de vídeo vestíveis. E como os dados de áudio são muito menores do que os dados de imagem ou vídeo, eles requerem menos largura de banda para processar e podem ser retransmitidos para um smartphone via Bluetooth em tempo real, disse François Guimbretière, professor de ciência da informação.

“E como os dados são processados localmente em seu smartphone, em vez de enviados para a nuvem”, disse ele, “as informações confidenciais nunca saem de seu controle”.

Materiais fornecidos pela Cornell University . Original escrito por Louis DiPietro, cortesia do Cornell Chronicle.