15/04/2018 B3 Web Solutions
Você já deve ter se deparado com alguma situação em que não conseguia escutar o que uma pessoa dizia porque muitas outras estavam falando ao mesmo tempo. Agora o Google revelou uma tecnologia impressionante, que consegue pegar um vídeo e isolar o que apenas uma pessoa está falando e ignorar todas as outras.
Essa é uma tarefa que é razoavelmente fácil para o cérebro humano. Mesmo com outras pessoas falando uma sobre as outras, não é um problema muito grande você se focar em uma única voz, bastando apenas um pouco de concentração. No entanto, os computadores sempre estiveram longe de repetir o feito; se você colocar duas pessoas falando em um mesmo canal de áudio (gravando as duas ao mesmo tempo em um microfone, por exemplo), é praticamente impossível separar as vozes. Ou, pelo menos, era.
A pesquisa do Google deu origem a uma inteligência artificial que é capaz de separar uma faixa de áudio com duas pessoas falando simultaneamente em duas faixas distintas, o que permite silenciar uma delas para deixar apenas a outra falando e vice-versa. Você pode conferir no exemplo abaixo, com dois comediantes se apresentando ao mesmo tempo, criando uma cacofonia quase impossível de entender sem um alto grau de concentração.
O recurso funciona, no entanto, apenas com vídeo, porque a máquina foi treinada para associar voz a movimentos faciais, analisando também as frequências da voz para determinar qual das pessoas no vídeo está falando o quê. A partir daí, é possível isolar as vozes de acordo com o rosto de cada pessoa. Veja outro exemplo:
Existem alguns obstáculos para a tecnologia. O sistema funciona bem com frequências de voz bem distintas, mas pode se confundir se as vozes forem mais parecidas. O Google chegou a divulgar um vídeo no qual mistura dois discursos do CEO Sundar Pichai falando para mostrar que o sistema funciona mesmo com vozes similares, mas infelizmente o vídeo foi removido. O site Android Police, no entanto, afirma que os resultados eram impressionantes, ainda que fosse possível notar um nível maior de irregularidades.
Para que vai servir essa tecnologia? Um impacto interessante seria para legendas no YouTube. O serviço de vídeos poderia distinguir qual pessoa está falando o quê para exibir legendas automáticas que façam essa diferenciação. Um outro efeito da tecnologia que pode ser um pouco mais perigoso em relação a privacidade é que seria possível apontar uma câmera para uma multidão e escutar o que cada um está falando. O futuro dirá como essa tecnologia será usada.