让声音听起来更自然,是语音合成的核心挑战,即使目前最普遍的语音助手,如Siri或Alexa,一发声给人的第一感觉仍然是,“哇!这是计算机!”背后原因在于这些语音助手系统的工作原理:根据预录的声音文档整理出词汇,再通过另一个新的音频文档将这些词汇拼凑在一起发声。
现在,人工智能改善了这个问题。
三名蒙特利尔大学的博士生创立的初创企业Lyrebird开发了一款智能语音合成软件Lyrebird,可以复制人类的声音,并用这个声音合成其他声音。这话听起来比较绕,通俗点说,这款AI工具可以把你的声音生成川普、奥巴马、希拉里三个人的声音来一段对话。
Lyrebird利用深度学习技术,能在1分钟“倾听”过程中“掌握”每个人说话时字母、音位和单词的发音特点,通过推理并模仿这个人声音中的情感和语调,“说”出全新的语句。这项技术适用于个人语音助理构建、游戏数字化角色设计、有声读物、残疾人语音系统等语音内容表达。当然,如果你深爱自己性感的嗓音并希望将一切文字内容都转化为这种声音,Lyrebird同样能够帮上大忙。
如下图,Lyrebird应用需要30个句子(音频长度约为1分钟),来创建数字化语音输出结果。开发该系统的蒙特利尔大学学习算法实验室博士后亚历山大·布瑞比森表示,在学会并模仿了几个人的声音后,再模仿任何一个新对象的语音就会变得更快,因此新语音系统不需太多信息,1分钟足以捕获某个人声音的核心特点。
结果生成一段语音片段,既读出了我录制的声音,又包含大量我在录制过程中并未使用的词语。
这种方式显然限制了人们的想象力,不要妄想随意上传一段周杰伦的音频,试图生成以假乱真的其他语音内容,因为Lyrebird应用要求必须首先录制它屏幕上显示的句子,并且提供多种方式对提交的任何音频加以分析,借此判断音频内容是否属实或存在伪造迹象。
然而就目前而言,Lyrebird生成的音频可能还经不起详细推敲——音频取证专家完全能够通过分析发现其中的异常与线索,从而验证是否属于合成产物——美国卡内基梅隆大学语言技术研究所教授迪莫·鲍曼指出,Lyrebird的语音系统和真正的人声之间还有差距。“我仔细听过琴鸟系统的发声,带有背景噪音,以及微弱的机器人特征。而且,它还不能模仿人们在讲话中的呼吸和唇部运动,因此仍然能听出其计算机语音特征。”他因此认为,语音系统真正令人信服地复制人声,还需再等几年。
另一个暴露的问题,我们还缺少用于分析伪造音频的文化、习惯或者易于使用的成熟工具。这意味着,伪造音频的门槛很低,而发现虚假信息传播者的难度也将因此而提高。
但我们不可否认,人工智能改善了语音合成技术。Lyrebird强调,获得的音频样本越丰富,数字语音输出结果质量就越好。
Lyrebird提到,其核心主旨在于为社会作出贡献:
我们向任何潜在用户提供这项技术,为了逐步推出更为完善的方案以确保社会能够适应这项技术,并立足积极层面取得良好效果——同时尽可能防止潜在的负面应用方式。Lyrebird也提到,只要获得他们的许可,可以为任何用户提供高质量数字语音输出结果。目前我们尚不清楚Lyrebird打算如何验证相关授权申请,以及用户是否需要像前文提到的那样,对系统进行训练,或仅仅需要录一段语音并提交音频文件即可。
自定义封面
需要提到,Adobe公司正在研究VoCo项目,旨在开启音频录制编辑的可能性,这意味着,音频编辑未来将如同在文档当中复制/粘贴文本一样轻松。
——以上回答来自科技行者团队周老师的低八度声音转文字。
wx小程序“语音合成文字配音小帮手”,100多种声音,支持中英文、日语、韩语,效果不错:
系统概念
一种语音合成系统,其包括:分割单元,其被配置成将对应于目标语音的音位串分割为多个节段,来产生第一节段序列;
选择单元,其被配置成基于第一节段序列通过组合多个语音单元产生对应于第一节段序列的多个第一语音单元串,并从所述多个第一语音单元串中选择一个语音单元串;和连接单元,其被配置成连接包含在所选择语音单元串中的多个语音单元,以产生合成语音,选择单元包括检索单元,其被配置成反复实施第一处理和第二处理,该第一处理基于对应于第二节段序列的最多W个(W为预定值)第二语音单元串产生对应于第三节段序列的多个第三语音单元串,所述第二节段序列作为第一节段序列中的部分序列,所述第三节段序列作为通过将节段添加给第二节段序列而获得的部分序列,第二处理从所述多个第三语音单元串中选择最多W个第三语音单元串,第一计算单元,其被配置成计算所述多个第三语音单元串中每个的总成本,第二计算单元,其被配置成基于涉及语音单元数据获取速度的限制来为所述多个第三语音单元串中的每个计算对应于总成本的惩罚系数,其中惩罚系数依赖于接近所述限制的程度,和第三计算单元,其被配置成通过使用惩罚系数修正总成本来计算所述多个第三语音单元串中每个的估计值,其中检索单元基于所述多个第三语音单元串中每个的估计值从所述多个第三语音单元串中选择最多W个第三语音单元串。
方法比较
"未来的十年是语音技术的时代"。随着语音技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。语音合成技术是语音技术中十分实用的一项重要技术,它能解决人民大众的实际需求,能够深入到社会的各行各业中去。
语音合成技术经历了一个逐步发展的过程,从参数合成到拼接合成,再到两者的逐步结合,其不断发展的动力是人们认知水平和需求的提高。它们各有优缺点,人们在应用过程中往往将多种技术有机地结合在一起,或将一种技术的优点运用到另一种技术上,以克服另一种技术的不足。
标签:语音,合成