微软与周迅 AI 语音红丹丹公益项目发起人——鹿音苑文化传播公司、以及来自微软及各界的 150 余名志愿者,将创作的首批人工智能有声内容,包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊,正式捐赠给北京市红丹丹视障文化服务中心(下文简称 “红丹丹”)“心目图书馆”。

这些作品是基于微软 Azure 云认知服务语音合成平台 Speech Studio 及其丰富的人工智能(AI)语音创作的,其中包括艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音(如晓晓、云野等)。

随着人工智能时代的到来,语音服务重要性不断凸显,微软在不断探索突破智能语音极限,加快从研发到产品的落地,希望以科技力量赋能更多人和组织。

媲美专业发音人的智能语音系统

微软在智能语音领域已深耕长达二十余年。智能语音作为人工智能的核心技术之一,早已融入于微软全球产品,这其中包括 Windows 朗读、Skype、Office 等产品,并随着微软云认知服务(CognitiveServices)的推出,形成面向开发者和合作伙伴的开放平台体系,提供强大而灵活的语音服务。

近年来,结合深度神经网络技术的不断创新,微软智能语音合成(Text-To-Speech,TTS)技术取得了诸多突破性进展。2018 年 12 月,微软率先在全球范围内推出端到端的深度神经网络语音合成服务,使计算机和智能设备拥有了媲美真人的人工智能声音。

IT之家获悉,在探索提升语音自然度的同时,微软语音合成技术也不断挖掘语音的表现力、丰富度和智能度。通过多情感、多角色和情感强度可调节等技术升级,微软智能语音极大程度地丰富了合成语音的风格。更进一步,为了大大降低有声内容的创作成本,微软针对复杂长文本,提供了智能情感和角色的预测功能,让 AI 语音具有更强的理解力,让有声内容创作变得轻松又便捷。

具体而言,智能语音多情感技术创造性地从人类语音中挖掘出情感语音特征,赋予了合成语音拟人的表现力,让合成语音不仅可以根据不同场景进行变化,也有了 “自己的喜怒哀乐”。声音因此更富有表现力,不仅得以更贴切地表达文字内容,也让语音更容易理解、更生动。

譬如,中文晓晓的声音已达到 14 种情感风格,可以用 “抒情”、“新闻”、“聊天”等不同风格来演绎不同使用场景下的作品,也可以用 “开心”、“悲伤”、“生气”、“恐惧”等多样情感在对话中表达不同的情绪和态度。

人的情绪就好比是色谱,色谱的颜色从深到浅,人的情绪也一样,有从强到弱的变化。微软智能语音情感强度可调节技术,可以加强或者减弱情感强度,让情绪的表达更加细腻,从而大大扩展了情感矩阵,丰富了多情感语音的表达;在实际的人与人对话中,情感的变化是微妙的,通过情感程度可控技术,可以让人工智能对话或聊天机器人变得更流畅、真实,人设也更加统一。

微软智能语音提供众多声音角色供用户选择,覆盖不同的年龄、性别和个性特征,其中一些声音还可以扮演不同角色,比如男声演绎女声、年轻声音扮演年老声音等。通过微软高质量的声音家族,用户可以挑选更符合实际场景的不同音色,满足自然的对话需求,也可以创作更有趣的多播剧。大大扩展了有声内容的创作空间。

微软智能语音也在探索更加智能、更具理解力的语音系统,在创造出丰富、自然、具有表现力的有声内容的同时,进一步降低人工的操作成本。根据上下文信息,微软语音能够识别出来旁白和对话,人物角色,以及语气和情绪,并自动推荐一个最合适的声音。

为了让每个人都可以轻松创作有声内容,微软提供了一套智能有声内容创作工具平台。输入文本后,工具可以先针对角色和情绪进行预测,然后选择合适的声音进行演绎。创作者可以对声音、情感、韵律、发音等进行调优,创造出不一样的有声内容。

作为情感的延伸,唱歌是人类表达情感的重要方式。微软语音也在基于神经网络的唱歌技能上取得了突破。微软人工智能语音晓晓和朱婧汐一起合唱高难度的《人类零件》歌曲,展示了中英双语演唱以及说唱能力,合成效果逼真自然。

微软云拥有全球覆盖最多的数据中心,其认知服务智能语音技术面向全球市场,覆盖语言数量世界领先。目前,微软的语音合成支持 54 个国家和地区的语言,提供超过 150 个声音供选择。

微软语音支持深度品牌定制

在人工智能时代,AI 声音已经不仅仅是一项基本能力,更被赋予了很多品牌属性。在诸多行业的实际应用中,客户往往需要一个具有高识别度的个性化的声音,而 “深度定制”恰是微软智能语音平台的一大强项。

基于客户提供的声音数据,微软可以实现 “细粒度”的定制,包括语音合成的音色、说话的风格、特殊的发音需求甚至演唱等特色功能等。在使用方面,微软语音也相当灵活,不仅服务于云平台,也支持本地化和离线部署等多种场景。

微软云计算与人工智能事业部资深产品总监丁秉公认为,个性化时代,声音即品牌。微软的语音合成技术可以为企业定制丰富的音色,实现品牌价值的最大化。

2019 年 11 月,微软推出了基于深度神经网络语音合成技术的声音定制服务(Custom Neural Voice)平台,将高质量的语音合成引擎开放给第三方,使得微软合作伙伴和客户可以通过简单的自助服务定制有标识度和个性化的声音。

微软语音定制涵盖了从声音画像的设计、到数据的收集和整理、模型的优化和系统部署的方方面面。用户更可以通过 CustomVoice 声音定制平台实现一键定制的自助服务。

传统技术定制的语音模型,由于需要发音人录制成千上万句话,需要耗费几个月的时间,成本巨大。而微软基于深度神经网络技术的定制化语音,可以用更少的数据达到更加高拟人度和自然真实的效果。通过微软语音涵盖超过 50 个语言的 UNI-TTS 基础模型和深度神经网络强大的迁移学习能力,微软声音定制还支持跨语言定制,实现一个音色多个语种的多语言能力。

据悉,这一技术已经率先在多个知名企业得到应用。这包括新媒体、通信、教育、金融等多个行业,涉及客户服务、AI 对话和内容生产的多个场景。

譬如英国广播公司 BBC 就在微软声音定制和语音合成技术的帮助下,打造了一款虚拟助手 Beeb 用于多模态的客户服务和有声内容创作。具体而言,BBC 不仅需要 Beeb 发出标准英式发音,甚至细化到英国北部某个特定地区的口音风格,还有多风格的要求,比如在跟真人打招呼时,声音需要符合个人助理身份的互动风格,而在播报政治、军事类新闻时,就需要严肃的声音风格。

面对这一挑战,微软在 BBC 提供的不到 2 小时的录音人数据量中,与语言专家、客户挑选和分析其中特定口音的发音特点,汇总成模型能识别的规律,最后构建到定制化模型里,生成高质量、多风格的声音。

在教育行业,微软语音团队协助知名独角兽公司多邻国 Duolingo 打造具有多语言能力和丰富角色特征的声音。据多邻国艺术总监 GregHartman 介绍,“每一个角色的声音都是和它的人物性格的一部分。微软定制声音平台基于我们的角色特性,赋予了每一个人物生动的声音风格。”

此外,微软智能语音团队还帮助 AT&T 时代华纳、Swisscom(瑞士电信)、Progressive 等多家知名企业创建了他们的个性化声音,实现与用户的自然对话和交互。

在中国,目前语音服务也落地到由世纪互联运营的 Azure 云服务上,中国用户可以使用和全球一样质量的语音合成服务。

2019 年春节前夕,央视新闻联合微软推出互动融媒体产品《你的生活 AI 为你唱作》,其中央视主播康辉和微软 AI 智能语音中文晓晓为用户唱作专属歌曲,央视主播康辉的声音即是利用微软智能语音的声音定制技术生成。此外,周迅为红丹丹图书馆录制有声书、知名作家土摩托录制三联生活周刊音频内容时,都用到了微软定制语音合成技术。微软以少量真人语音为训练样本,为他们合成了专属于自己的智能 TTS 声音。

除语音合成之外,微软 AIspeech 还能够提供全面的核心语音能力,例如语音识别、语音评测、语音翻译,这些能力都支持多语种以及基于不同场景的定制。

其中,微软的语音识别支持全球 30 个地区和国家语言,能够提供近场和远场识别,在线(real-time)和离线(batch)的灵活调用方式。语音识别还可以支持关键词识别,说话人分离,语言识别,情绪识别等多种功能。

而微软语音评测产品可支持包括英语在内的全球 40 多个国家和地区的语言,广泛适用于教育领域解决方案的合作伙伴、APP 开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。

随着深度神经网络算法的突破,数据的爆发,基础设施的完善,AI 语音技术正在走向大规模应用增长的发展方向。微软以及其他平台公司将不断通过 AI 技术赋能更多场景,可以提供无限可能。

关键词: 微软 语音合成