”其中,形象逼真写实,但没有交互能力的数字人为L1级别。L2级别的数字人,背后有真人带着比较繁重,成本很高的专业的动捕设备,在内部的环境之下去进行制作完成的。比如传统的影视制作,动画制作等。
L3级别的数字人背后也有真人,他们不再需要佩戴繁重的专业级动捕设备,而是直接通过安装在电脑或手机端的摄像头,基于算法植入,就可以将真人的所有动作,包括表情、口型、肢体等动作细节捕捉,同步迁移到数字人身上,驱动数字人实时的互动起来。
L4级别的数字人将被赋予智慧的大脑。它们可以独立地与真人进行实时的智能化交互。比如商汤科技推出的宁波银行上海分行数字人“小宁”,它可以代替真人在线下网点大堂,解答来访客户的业务问题。L5级别的数字人可以完全实现智能化交互,不在依赖于真人的介入,是一个通用智能型的数字人,可以回答更通用化的问题,成为我们个人生活的助手。
杨燕表示:“因为L4级别以上的数字人涉及到大量的人工智能的算法和技术,我们也将其称之为AI数字人。只有达到L4等级的数字人,才能真正地进入到行业里,解决经济发展中普遍会面临的‘人效’问题。”
AI数字人的技术特点
与一般数字人相比,AI数字人具备三大特征,分别是多模态交互能力、深度学习能力和AIGC能力。首先,杨燕介绍了多模态交互能力,它是指利用数字化的技术,模拟人与人之间的自然交互方式。你可以通过语言、文本、甚至是不同手势或表情,来与数字人进行交互和沟通。这里会涉及到视觉识别、语言识别、语义理解等技术,具有一定的门槛。据杨燕介绍,商汤的视觉相关的算法模型已累计超过30000个,研发建成了世界上最大的计算机视觉基模型,参数高达300亿,可以支持数字人在图像、视频等视觉信号处理的复杂长尾应用。在语音语义理解方面,商汤也自研并具备了包括语音识别(ASR)、语义理解(NLP/知识图谱)、语音合成(TTS)以及语音动画合成(STA)等多项技术能力。
正是基于以上技术支撑,商汤得以在“拟人化”和“自动化”两大维度,建立了AI数字人的生产力底座。
其次,杨燕还解释了深度学习能力,它是指基于计算机深度学习技术,让数字人不断地学习新的语料和数据。在经过训练及现实应用的反馈后,不断地迭代和延展它的能力和交互水平。通过深度学习,数字人不仅在专业度上有所加深,还可以学习跨业务的知识,支持跨业务服务和沟通。最后,杨燕介绍了AI数字人的最后一大特征,即AIGC。它是指在制作数字人过程中,引入AI生成内容的能力,辅助自动化的生成内容。从而大幅度提升数字人的制作效率,降低开发者使用门槛,缩短开发的周期,降低成本。
商汤通过人工智能技术的集成和应用,并与数字人生产流程进行融合优化,针对传统CG建模、动画制作环节,和数字人的多模态交互、深度学习能力构建,分别推出了智能化生成、智能化驱动和智能化交互三大引擎,并通过三大引擎间的流程打通和标准化处理,打造“一站式”AI数字人生产流水线。
如此,数字人才有可能推广至更广泛的产业或行业中。
数字人广泛落地应用的最后一公里
杨燕介绍:“我们建立运营管理平台,就是希望打通技术到应用的‘最后一公里’问题。”开发者通过三大智能引擎生产出一个数字人后,可以通过运营管理平台进行后台业务管理,包括对多终端的设备管理,数据管理和分析等。再结合人工智能技术对这些非结构化的数据进行分析,从而帮助业务发现规律跟逻辑,帮助业务更好地进行升级和迭代。同时,商汤致力于让数字人在任何交互终端或系统上无缝使用,不受终端系统限制,可以进行灵活的呈现和交互,包括手机、智慧大屏,甚至AR眼镜、汽车终端、小程序应用等。让数字人走进千行百业,打破数字人的使用边界,赋能泛娱乐、商业零售、金融服务、文博文旅、政务服务等行业发展。
截至目前,商汤在多个行业场景中的案例实践。比如商汤与宁波银行上海分行打造的数字人小宁,与广州永旺梦乐城购物中心联合打造的超写实型AI数字人“小糖”。杨燕认为:“线上线下的每一次交互带来新的数据,都是一个无形资产。”同时,数字人作为一个具象化IP形象,也将会与用户建立更深层次的情感构建,带来更好的服务。