Azure 语音合成再添新声音，“风格迁移”技术为不同音色实现多情感演绎

观点

2022

08/11

18:43

亚设网

微软 Azure Neural TTS（神经网络版文本转语音）新增五种声音模型，让我们再次体会到了“风格迁移”技术对 AI 语音模型多情感多风格的强大支持。

此次更新的五个美式英语声音模型，包括青春甜美的 Jane、低沉温和的 Nancy、随性且精力充沛的 Davis、响亮激昂的 Jason 和沙哑粗犷的 Tony。在“风格迁移”技术的支持下，不仅拥有开心 (cheerful)、伤心 (sad)、生气 (angry)、兴奋 (excited)、期待 (hopeful)、友好 (friendly)、不友好 (unfriendly) 和恐惧 (terrified) 等丰富的情感表现，还拥有首次运用的呼喊 (shouting) 和耳语 (whispering) 两种表达方式。至此，用户拥有可选择的美式英语声音模型已达到 20 个，丰富的情感和风格让应用场景更加多元。

现在就来听听这 5 个新声音吧

声音

性别

示例

Jane

女性

Audio

Davis

男性

Audio

Jason

男性

Audio

Nancy

女性

Audio

Tony

男性

Audio

点击声音模型，感受 AI 声音的两种新表达方式

声音风格或情感

示例（男性）

示例（女性）

呼喊 (shouting)

Audio

耳语 (whispering)

Audio

点击声音模型示例，感受合成语音蕴含的情感

情感或表达方式

示例（男性）

示例（女性）

开心 (cheerful)

Audio

期待 (hopeful)

Audio

友好 (friendly)

Audio

不友好 (unfriendly)

Audio

恐惧 (terrified)

Audio

“风格迁移”技术的原理是把一个声音模型的韵律和语调复制到另一个声音模型上，从而让后者在本身音色不变的前提下，也可以拥有前者说话的韵律和语调。过去，声音风格的搭建主要依靠录音演员录制各种风格的声音数据，再使用录音数据来生成多风格的智能语音模型，但是一名录音演员难以演绎所有风格的声音。风格迁移技术创新地解决了这一问题，可以高效地赋予多 AI 声音情感和风格。

声音风格和声音情感模型的持续更新，让 Azure Neural TTS 的合成语音在多种业务场景中得到了广泛应用，让用户感受到了更逼真的语音体验。例如，游戏平台可以快速为角色生成多种情感声音，为游戏增添更多符合情节的个性化表达，让虚拟游戏世界栩栩如生。“State of Decay”（腐烂国度）的创作者 —— 微软亡灵工作室 (Undead Labs) 的使命是为游戏开创崭新的方向，他们在游戏开发中就应用了 Azure Neural TTS。推出过包括“Psychonauts 2”（精神病患者 2）在内的多款游戏的 Double Fine 工作室，也正在利用 Azure Neural TTS 制作未来游戏项目的原型。音频解决方案提供商 Remixd 在其平台中集成了 Azure Neural TTS 的声音模型 Jenny 和 Davis，让其客户在创建音频内容时有了更多选择。

关于 Azure Neural TTS

微软 Azure Neural TTS 是 Azure 认知服务中强大的语音合成功能，能够让开发人员使用 AI 技术将文本转换为逼真的声音。截止目前，微软 Azure Neural TTS 支持全球 140 个国家和地区的语言，提供 400 个声音模型，可加速声音的自动化生产，帮助各种企业更快地训练出满足业务场景的声音，打造出专属的声音品牌 —— 无论是呼叫中心、语音助手、有声书制作、聊天机器人、语音导购，还是影视剧 / 动漫配音、自媒体短视频、情感电台、教育培训等场景。

持续的技术迭代和版本更新，让 Azure Neural TTS 可以为更多企业、更多场景提供逼真、自然、接地气的声音体验。同时，微软的所有技术进步都接受微软负责任的 AI 流程的指导，遵循公平、包容、可靠性与安全性、透明、隐私与保障、负责的原则，并通过微软内部的负责任人工智能办公室 (ORA)，人工智能、伦理与工程研究委员会 (Aether)，以及负责任 AI 战略管理团队 (RAISE) 来监督、实施这些道德标准。

现在就来 Azure 认知服务官网体验极具特色的文本转语音服务，或定制你的专属声音吧。

THE END

Azure 实现情感演绎音色

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表亚设网的观点和立场。