只需15秒原声素材，AI就能复刻！

日期：05-13

字号：大 中 小

版面：第4版：关注上一篇 下一篇

只需生前15秒的原声素材，AI就能复刻逝者的声音并以语音回信的方式陪人谈心。5月11日，34岁的武汉市更好创新科技有限公司创始人徐祥鹏告诉记者，自己研发的AI产品“宛在”上线不到一周就有了千余用户，定制生成一分钟的音频只需9.9元。

素材时长不能少于15秒

从微博上得知“宛在”上线后，“90后”湖南女孩小玉第一时间就为已故的外婆注册了账号。她手头只有一段约20秒外婆生前的声音素材，但系统始终判定素材不合格，无法训练声音模型。

公司运营总监朱文露拿到了小玉提交的声音素材，发现这段素材非常杂乱，既有多人对话，同时还有切菜声、车鸣声等噪声，AI无法准确识别。

借助专业软件，朱文露最后提取出了外婆声音清晰的部分，但时长只有5秒。经过测试后，她发现生成的声音模型效果并不好，建议小玉想办法搜集更多外婆的声音素材。

“菜没择干净，味道就不好。”徐祥鹏告诉记者，用户提交的声音样本就是原材料，这个样本的质量高低决定了后期AI建立声音模型的效果。

用来训练AI的素材越多，复刻出来的声音就越像，但不少人会遇到小玉这样的问题，难以找到足够的音频素材。徐祥鹏做过大量测试，发现要满足用户的复刻需求，素材时长不能少于15秒，否则复刻效果就在“开盲盒”。

“15秒时长是指‘干净’的音频。”朱文露说，如果音频噪声多就必须降噪处理。如果内容是一段对话，就必须提取出所需要的声音。用户可以自己完成，也可以向客服付费求助。

朱文露向记者展示了两段音频，一段是人在街头跟人聊天的声音，各种声音夹杂。另一段经过声音提取和降噪处理，说话人的声音清晰连贯。

AI“学说话”至少要训练20轮

“宛在”同步上线的有小程序和APP。它真的能让逝者“音容宛在”吗？11日，记者亲身体验了一把小程序。

小程序的使用并不难，用户首先要按要求为已故亲朋创建一颗星球，即一个账号。完成账号创建后，用户按提示上传时长为15秒的一段音频，就可以进行AI声音模型训练。

徐祥鹏告诉记者，“宛在”是一款用于在线纪念的产品，只允许用户为已故亲人复刻声音并用作纪念目的，用户每次提交的音频素材最好“吐字清晰、感情丰富”，便于AI更好识别。

记者现场录制了一段音频，上传后，AI首先自动检测音频质量，然后加入训练队列，分析、学习音频的表达特点。

朱文露告诉记者，为了保证AI学习的效果，除了用户提交的声音样本外，AI还会借助网上一些公共数据库，学习其他人如何说话，这个训练过程至少需要20轮，每次训练需要1个小时左右，最后才能生成客户专属的声音模型。

“很高兴和你重逢，我现在拥有了一个新的声音模型，与我写信互动就能收到语音回信。”训练完成后，系统自动生成了一段音频，音频中讲话人的声音与记者原声几乎一模一样。

记者随后写了一封信，AI回了一封约200字的信，还可以用记者的声音读出信件内容，读信时抑扬顿挫，感情充沛。

“用户提交的原声素材决定了声音模型的风格。”朱文露解释说，如果声音主人的说话风格像读诗，AI模型生成的音频也是“诗歌风”。

注册用户可自助“复活”声音

徐祥鹏是十堰人，大学学的是金融，毕业后，他创办了武汉市更好创新科技有限公司，开始接触到线上纪念领域。2021年，他和合伙人上线了“思念星空”微信小程序，探索用AI服务人们缅怀已逝亲人。

去年年底，他开始研发“宛在”这款产品。今年5月初，“宛在”正式上线，目前已有注册用户千余人，大部分都是年轻人。

2019年，徐祥鹏的奶奶去世，他想把奶奶生前的资料制作成一个视频，结果发现他之前保存在手机里的通话记录都没有了，这件事也成了他内心的遗憾。开发“思念星空”时，他发现很多人都有和他类似的遗憾：老人去世后保存下来的音频资料很少，子女难以再听到老人的声音。他便萌生了“留下数据，不留遗憾”的想法，想研发出一款产品，帮大家储存这些数据，再借助AI技术来“复活”声音。

“宛在”目前采取自助模式，用户可以免费使用，但一些音频素材需要先期处理，用户也可以付费向客服寻求帮助。

“我们鼓励用户自助使用。”徐祥鹏告诉记者，公司后期会推出一些增值服务，为有需要的用户提供更好的服务体验。而对于一般用户而言，现有的免费服务已经能满足他们的需要。“网上很多大公司的类似产品收费动辄数百元到数万元，而我们只需9.9元。”徐祥鹏说。

如何保证被安全使用？

徐祥鹏告诉记者，“宛在”的底层技术用的是网上的开放源代码，但满足用户个性需求的技术都是自己研发的，公司有一个7人的研发小组。

徐祥鹏不满足于AI只能进行一些简单的日常问候或者简单对话功能，他希望通过AI的推理能力，让逝者与亲人自如谈心，他形象地称之为“AI复活”。“这既是构建元宇宙的一部分，也是实现人们数据永生的基础。”徐祥鹏说。

据介绍，“宛在”现在只推出了面向国内的中文版，他们正在着手研发面向海外的英文版，后期将会推出西班牙文版、韩语版等版本。

下一步，他会把图片和声音复刻结合起来，用声音驱动图片或视频，让生成的内容更加自然、真实，以达到更好的治愈效果。

技术门槛和成本门槛被拉低后，“复活”的声音如何保证被安全使用？

徐祥鹏做了大量预防性措施。例如，“宛在”的用户必须实名注册并签署相关协议。对于用户上传的资料，后台有专人审核，防止有人将公众人物的信息提交上来。此外，他还引入了声纹水印技术。AI生成的每段音频都会打上可溯源的隐形声纹水印，公司一旦接到投诉，就会马上核实并停止服务。

记者史强

只需15秒原声素材，AI就能复刻！

日期：05-13 字号：大中小 版面：第4版：关注 上一篇 下一篇

日期：05-13

字号：大中小

版面：第4版：关注上一篇下一篇