A Microsoft avança para consolidar seus muitos serviços de fala

A Microsoft está dando os primeiros passos para a criação de uma interface de programação de aplicativos (API) e um kit de desenvolvimento de software (SDK) que funcionarão em todos os seus produtos e serviços, incluindo Windows, Office, Cortana, Xbox e HoloLens.

A Microsoft divulgou este movimento na semana passada de uma maneira bastante discreta em sua conferência Build 2018. (Esta sessão de desenvolvimento do Dia 3 no “SDK do discurso de serviços cognitivos”aborda alguns dos detalhes.)

A Microsoft tem algumas metas ambiciosas para o seu próximo serviço de fala unificado, que se enquadra em seu guarda-chuva Microsoft Cognitive Services. (Os serviços cognitivos são APIs do Azure que os desenvolvedores podem usar para adicionar vários recursos de AI a seus próprios aplicativos e serviços.)

O novo serviço de fala unificado “une vários serviços de fala do Azure que anteriormente estavam disponíveis separadamente : Bing Speech (compreendendo reconhecimento de fala e texto para fala), fala personalizada e conversão de fala. Como seus precursores, o serviço Speech é ativado pelas tecnologias usadas em outros produtos da Microsoft, incluindo Cortana e Microsoft Office “, de acordo com a Microsoft.

A Microsoft pretende que a API de fala comum e o SDK “sejam executados em todas as plataformas modernas” e “suportem todas as modernas linguagens de programação”. A Microsoft quer que o serviço seja acessível em todos os níveis, do iniciante ao desenvolvedor especialista, e para trabalhar online, offline, em situações híbridas e em lotes, disseram autoridades. A nova API e o SDK fornecerão fala para texto; fala-para-intenção; tradução por voz e chamada personalizada de indicador de palavras-chave. Eles trabalharão com comandos falados de disparo único e contínuos. A Microsoft está se comprometendo a lidar com todos os 28 idiomas falados no único Speech SDK unificado.

“Não temos tudo isso hoje, mas essa (pré-visualização de fala) é um bom primeiro passo”, disse Rob Chambers durante a sessão Speech SDK da semana passada. A pré-visualização suporta o Windows 10, Linux e Android (através do Speech Devices SDK), e atualmente trabalha com C #, C ++ e Java. Suporte para iOS e MacOS X estão chegando “em breve”.

O Speech Devices SDK é uma “biblioteca pré-ajustada emparelhada com hardware específico habilitado para microfone”, explica a Microsoft em sua documentação. “O SDK facilita a integração do seu dispositivo com o serviço Microsoft Speech baseado em nuvem e cria uma experiência de usuário excepcional para seus clientes.”

O SDK de Dispositivos destina-se a permitir que as empresas criem seus próprios “dispositivos de ambiente com uma palavra de ativação personalizada” e fornece supressão de ruído, cancelamento de eco, voz de campo distante e muito mais. Atualmente, a visualização do SDK fornece acesso ao Speech to Text and Speech Translation. O texto para fala atualmente não é suportado pelo SDK.

Funcionários da Microsoft disseram que estão migrando o aplicativo / serviço existente do Microsoft Translator para usar o novo serviço de fala unificado e o SDK a partir de sua próxima versão. O Office também está planejando substituir o atual mecanismo de ditado, baseado na tecnologia Dictate desenvolvida pela incubadora Microsoft Garage , com o novo serviço / SDK.

“A Microsoft está planejando transferir o Office Dictation para o Microsoft Speech Service e unificado o SDK quando ele estiver disponível. Enquanto isso, o Office Dictation continuará sendo atualizado e a migração será perfeita para os clientes”, disse um porta-voz quando perguntei sobre o tempo.

Autoridades da Microsoft disseram esperar que o serviço / SDK fique disponível em algum momento nos “próximos meses”, disse o porta-voz.

Também perguntei à equipe do Windows sobre seus planos sobre quando / como o Windows 10 suportará o novo serviço de fala unificado e o SDK. Com a atualização do Windows 10 de abril de 2018, funcionários da Microsoft estavam divulgando um ditado aprimorado incorporado ao Windows 10 como um dos principais pontos de venda da Atualização de abril . Mas o Windows não usa o mesmo mecanismo de fala do Office ou de outros produtos da Microsoft no momento; ele usa a tecnologia de fala herdada da Microsoft.

Até agora, nenhuma palavra da equipe do Windows sobre o que está planejando nessa frente.