Óculos equipados com IA lêem fala silenciosa

Pesquisadores da Cornell University desenvolveram uma interface de reconhecimento de fala silenciosa que usa detecção acústica e inteligência artificial para reconhecer continuamente até 31 comandos não vocalizados, com base nos movimentos dos lábios e da boca.

A interface vestível de baixo consumo de energia – chamada EchoSpeech – requer apenas alguns minutos de dados de treinamento do usuário antes de reconhecer os comandos e poder ser executada em um smartphone.

Ruidong Zhang, estudante de doutorado em ciência da informação, é o principal autor de “EchoSpeech: Reconhecimento contínuo de fala silenciosa em óculos minimamente obstrutivos alimentado por detecção acústica”, que será apresentado na Conferência da Association for Computing Machinery on Human Factors in Computing Systems ( CHI) este mês em Hamburgo, Alemanha.

“Para as pessoas que não conseguem vocalizar o som, esta tecnologia de fala silenciosa pode ser uma excelente entrada para um sintetizador de voz. Ela pode devolver a voz aos pacientes”, disse Zhang sobre o uso potencial da tecnologia com mais desenvolvimento.

Em sua forma atual, o EchoSpeech pode ser usado para se comunicar com outras pessoas via smartphone em locais onde a fala é inconveniente ou inapropriada, como um restaurante barulhento ou uma biblioteca silenciosa. A interface de fala silenciosa também pode ser combinada com uma caneta e usada com software de design como CAD, praticamente eliminando a necessidade de teclado e mouse.

Equipados com um par de microfones e alto-falantes menores que borrachas de lápis, os óculos EchoSpeech se tornam um sistema de sonar vestível alimentado por IA, enviando e recebendo ondas sonoras pelo rosto e sentindo os movimentos da boca. Um algoritmo de aprendizado profundo analisa esses perfis de eco em tempo real, com cerca de 95% de precisão.

“Estamos movendo o sonar para o corpo”, disse Cheng Zhang, professor assistente de ciência da informação e diretor do Laboratório de Interfaces Inteligentes de Computadores para Interações Futuras (SciFi) de Cornell.

“Estamos muito entusiasmados com este sistema”, disse ele, “porque ele realmente impulsiona o desempenho e a privacidade. É pequeno, consome pouca energia e é sensível à privacidade, recursos importantes para a implantação de novas tecnologias vestíveis em o mundo real.”

A maior parte da tecnologia de reconhecimento de fala silenciosa é limitada a um conjunto seleto de comandos predeterminados e exige que o usuário enfrente ou use uma câmera, o que não é prático nem viável, disse Cheng Zhang. Também existem grandes preocupações com a privacidade envolvendo câmeras vestíveis – tanto para o usuário quanto para aqueles com quem o usuário interage, disse ele.

A tecnologia de detecção acústica como a EchoSpeech elimina a necessidade de câmeras de vídeo vestíveis. E como os dados de áudio são muito menores do que os dados de imagem ou vídeo, eles requerem menos largura de banda para processar e podem ser retransmitidos para um smartphone via Bluetooth em tempo real, disse François Guimbretière, professor de ciência da informação.

“E como os dados são processados ​​localmente em seu smartphone, em vez de enviados para a nuvem”, disse ele, “as informações confidenciais nunca saem de seu controle”.

Materiais fornecidos pela Cornell University . Original escrito por Louis DiPietro, cortesia do Cornell Chronicle.

Sair da versão mobile