只需生前15秒的原声素材,AI就能复刻逝者的声音并以语音回信的方式陪人谈心。5月11日,34岁的武汉市更好创新科技有限公司创始人徐祥鹏告诉记者,自己研发的AI产品“宛在”上线不到一周就有了千余用户,定制生成一分钟的音频只需9.9元。
素材时长不能少于15秒
从微博上得知“宛在”上线后,“90后”湖南女孩小玉第一时间就为已故的外婆注册了账号。她手头只有一段约20秒外婆生前的声音素材,但系统始终判定素材不合格,无法训练声音模型。
公司运营总监朱文露拿到了小玉提交的声音素材,发现这段素材非常杂乱,既有多人对话,同时还有切菜声、车鸣声等噪声,AI无法准确识别。
借助专业软件,朱文露最后提取出了外婆声音清晰的部分,但时长只有5秒。经过测试后,她发现生成的声音模型效果并不好,建议小玉想办法搜集更多外婆的声音素材。
“菜没择干净,味道就不好。”徐祥鹏告诉记者,用户提交的声音样本就是原材料,这个样本的质量高低决定了后期AI建立声音模型的效果。
用来训练AI的素材越多,复刻出来的声音就越像,但不少人会遇到小玉这样的问题,难以找到足够的音频素材。徐祥鹏做过大量测试,发现要满足用户的复刻需求,素材时长不能少于15秒,否则复刻效果就在“开盲盒”。
“15秒时长是指‘干净’的音频。”朱文露说,如果音频噪声多就必须降噪处理。如果内容是一段对话,就必须提取出所需要的声音。用户可以自己完成,也可以向客服付费求助。
朱文露向记者展示了两段音频,一段是人在街头跟人聊天的声音,各种声音夹杂。另一段经过声音提取和降噪处理,说话人的声音清晰连贯。
AI“学说话”至少要训练20轮
“宛在”同步上线的有小程序和APP。它真的能让逝者“音容宛在”吗?11日,记者亲身体验了一把小程序。
小程序的使用并不难,用户首先要按要求为已故亲朋创建一颗星球,即一个账号。完成账号创建后,用户按提示上传时长为15秒的一段音频,就可以进行AI声音模型训练。
徐祥鹏告诉记者,“宛在”是一款用于在线纪念的产品,只允许用户为已故亲人复刻声音并用作纪念目的,用户每次提交的音频素材最好“吐字清晰、感情丰富”,便于AI更好识别。
记者现场录制了一段音频,上传后,AI首先自动检测音频质量,然后加入训练队列,分析、学习音频的表达特点。
朱文露告诉记者,为了保证AI学习的效果,除了用户提交的声音样本外,AI还会借助网上一些公共数据库,学习其他人如何说话,这个训练过程至少需要20轮,每次训练需要1个小时左右,最后才能生成客户专属的声音模型。
“很高兴和你重逢,我现在拥有了一个新的声音模型,与我写信互动就能收到语音回信。”训练完成后,系统自动生成了一段音频,音频中讲话人的声音与记者原声几乎一模一样。
记者随后写了一封信,AI回了一封约200字的信,还可以用记者的声音读出信件内容,读信时抑扬顿挫,感情充沛。
“用户提交的原声素材决定了声音模型的风格。”朱文露解释说,如果声音主人的说话风格像读诗,AI模型生成的音频也是“诗歌风”。
注册用户可自助“复活”声音
徐祥鹏是十堰人,大学学的是金融,毕业后,他创办了武汉市更好创新科技有限公司,开始接触到线上纪念领域。2021年,他和合伙人上线了“思念星空”微信小程序,探索用AI服务人们缅怀已逝亲人。
去年年底,他开始研发“宛在”这款产品。今年5月初,“宛在”正式上线,目前已有注册用户千余人,大部分都是年轻人。
2019年,徐祥鹏的奶奶去世,他想把奶奶生前的资料制作成一个视频,结果发现他之前保存在手机里的通话记录都没有了,这件事也成了他内心的遗憾。开发“思念星空”时,他发现很多人都有和他类似的遗憾:老人去世后保存下来的音频资料很少,子女难以再听到老人的声音。他便萌生了“留下数据,不留遗憾”的想法,想研发出一款产品,帮大家储存这些数据,再借助AI技术来“复活”声音。
“宛在”目前采取自助模式,用户可以免费使用,但一些音频素材需要先期处理,用户也可以付费向客服寻求帮助。
“我们鼓励用户自助使用。”徐祥鹏告诉记者,公司后期会推出一些增值服务,为有需要的用户提供更好的服务体验。而对于一般用户而言,现有的免费服务已经能满足他们的需要。“网上很多大公司的类似产品收费动辄数百元到数万元,而我们只需9.9元。”徐祥鹏说。
如何保证被安全使用?
徐祥鹏告诉记者,“宛在”的底层技术用的是网上的开放源代码,但满足用户个性需求的技术都是自己研发的,公司有一个7人的研发小组。
徐祥鹏不满足于AI只能进行一些简单的日常问候或者简单对话功能,他希望通过AI的推理能力,让逝者与亲人自如谈心,他形象地称之为“AI复活”。“这既是构建元宇宙的一部分,也是实现人们数据永生的基础。”徐祥鹏说。
据介绍,“宛在”现在只推出了面向国内的中文版,他们正在着手研发面向海外的英文版,后期将会推出西班牙文版、韩语版等版本。
下一步,他会把图片和声音复刻结合起来,用声音驱动图片或视频,让生成的内容更加自然、真实,以达到更好的治愈效果。
技术门槛和成本门槛被拉低后,“复活”的声音如何保证被安全使用?
徐祥鹏做了大量预防性措施。例如,“宛在”的用户必须实名注册并签署相关协议。对于用户上传的资料,后台有专人审核,防止有人将公众人物的信息提交上来。此外,他还引入了声纹水印技术。AI生成的每段音频都会打上可溯源的隐形声纹水印,公司一旦接到投诉,就会马上核实并停止服务。
记者史强