微软的Azure认知服务获得了新的语音风格

发表于 2020年4 月6日星期一上午 12:58:29

微软公司今天向Azure认知服务（Azure Cognitive Services）添加了新的“语音样式”，这是其基于云的应用程序编程接口套件和软件开发工具包，开发人员可使用它们来创建具有智能语音功能的应用程序。

新样式（新闻广播，客户服务和数字助理）旨在帮助开发人员量身定制其应用程序和服务的声音，以适应其品牌或独特场景。该公司补充说，声音可以发出自然的声音，并与真实人类声音的语调和样式相匹配。

微软在博客中说：“基于强大的基本模型，我们的神经TTS声音非常自然，可靠和富有表现力。” “通过转移学习，神经TTS模型可以从不同的说话者那里学习不同的说话风格，从而实现细微的声音。”

第一种声音是新闻广播，旨在反映我们与电视新闻记者的联系的“专业语调”，没有区域主义的痕迹。声音具有中性的发音，其中没有字母的声音掉落。

微软表示，新闻广播语音也在其微信服务微软听力文档中提供，该服务可以在Word，Excel和PowerPoint中大声朗读文档。 Bing移动应用程序中还为希望大声朗读每日新闻简报的人们提供了语音功能。

微软表示，客户服务风格的声音是为创建客户服务应用程序的开发人员提供的，具有“友好”和“参与”的音调。对于数字助理语音，它具有“有用”的音调，适用于中继天气预报或导航方向等任务。

微软还添加了新的“情感风格”，用于表达不同的情感以适应特定的环境。情感包括英语和巴西葡萄牙语的愉悦和同理心，以及为阅读散文和诗歌而优化的“抒情风格”，仅提供中文版本。

星座研究公司（Constellation Research Inc.）分析师Holger Mueller告诉SiliconANGLE，这种语音功能非常重要，因为语音是新的用户界面，可帮助人们摆脱阅读信息的需求。

穆勒说：“神经网络通过拾取中断，音调和语调来帮助使这些传统的机器人和机械声音听起来更加自然。”

Azure认知服务可与Google LLC的WaveNet系统相媲美，该系统总共提供57种不同的声音样式，包括31种AI合成声音和24种标准声音。 Amazon Web Services Inc.还提供了一项称为Brand Voice的服务，该服务依赖于AI来创建自定义发言人，该发言人具有其文本到语音产品Amazon Polly提供的多种语音和情感样式。

图片：微软

资讯来源：由0x资讯编译自SILICONANGLE。版权归作者Mike Wheatley所有，未经许可，不得转载