多模态数字人驱动技术及应用

发布时间：2022-12-09 14:02:55 所属栏目：大数据来源：未知

导读： 编辑整理｜吴靖楠厦门国际银行
出品社区｜DataFun
01/数字人驱动技术演进介绍
数字人，也称虚拟人，是指通过建模、动作捕捉、AI 等科技手段，制作出具有人或类人的外貌特征和行为模式并通

编辑整理｜吴靖楠厦门国际银行

出品社区｜DataFun

01/数字人驱动技术演进介绍

数字人，也称虚拟人，是指通过建模、动作捕捉、AI 等科技手段，制作出具有人或类人的外貌特征和行为模式并通过显示设备呈现出来的虚拟形象。数字人从 20 世纪 80 年代开始，经历了萌芽、探索、初级及成长各个发展阶段，技术路线日趋成熟，正逐步走入大众视野。

大数据的6大应用场景_大数据放疗应用场景_大数据应用场景

商汤智能产业研究院针对数字人的实现难易程度，并根据数字人在拟人化程度、自动化水平、应用场景三个方面的表现水平，将数字人分为 L1～L5 五个等级：

数字人从 L1 到 L5，技术深度由浅入深。当前中科深智持续深耕 L4 级智能交互数字人，并逐步向 L5 级数字人演进，下面重点分享下中科深智基于自研 Motionverse 动作生成中台的实时动作及表情的驱动和生成技术。

02/Motionverse 动作生成中台

宋健老师认为，动作和表情驱动是虚拟人技术的关键，而依赖单一技术难以满足所有应用场景。中科深智自研的 Motionverse 动作生成引擎，该动作生成引擎由多模态动作指令收集、数字人驱动智能模型构建及影像生成、实时动画影像输出展示三大部分组成，如下图所示。

大数据应用场景_大数据的6大应用场景_大数据放疗应用场景

1. Motionverse 工作流

首先，基于 Motionverse 多模态动作生成驱动引擎，融合了 XR 和 AI技术，可根据不同场景，支持语言、文本、传感器多种驱动方式，实现多模态动作指令输入。

大数据的6大应用场景_大数据放疗应用场景_大数据应用场景

在完成动作驱动输入数据的基础上，经过 RTC Streaming 实时传输或数据封装，Motionverse 中台能够将这些接收到的输入指令及数据，通过 AI 算法进行模型训练，解析并生成对应的动作表情数据，形成动作表情数字资产，进一步运用其不断积累的数字资产和模型组合驱动数字人，实时生成千人千面的动作和表情，赋予数字人更强的表现力和生命力。最后在 HIVE 云端完成二维、三维图像及全息模型的影像渲染及生成，使得数字人更逼真写实。

2. 大规模数据集及动作视觉语言模型

多模态风格化动作数据解析及生成是 Motionverse 中台的核心技术模块，而数字人的动作解析及生成离不开大规模数据集训练以及动作视觉语言模型构建。通过专业的动捕采集设备完成大规模的动作表情数据采集，在规范化的数据预处理及标记后，不断地训练、模拟动作视觉语言模型，提升模型的准确度及效率，依靠模型推理，再根据不同的应用场景要求进行相应的后处理，最终输出到相应的工具平台或融入到具体的业务流程中。中科深智当前累计完成约 150 小时的动作视频采集，视频帧数以达到千万级别，以此支撑表现内容丰富的实时动作表情输出。

大数据应用场景_大数据放疗应用场景_大数据的6大应用场景

Motionverse 中台支持传感器、文本、文本、视频、控制器、传感器、脚本等不同的动作驱动及输入方式。这里的脚本输入即包括传统的动画模版、动画播放等预设脚本指令，也支持 AI 脚本指令输入。除了如下图示的多种驱动方式外，Motionverse 中台还支持数字人的风格化设定；风格化指的是同一个人在不同场景下，其语音、语气、动作表情等存在表现形式上的不同，如日常办公、对客服务场合下可能有表达规范上的要求，而在家庭亲子互动场景中则比较亲密自然。

大数据放疗应用场景_大数据应用场景_大数据的6大应用场景

03/融入多场景的多模态驱动应用

1. 从稠密到稀疏的传感器数字人驱动

在传统的数字人驱动模式下，需要通过在中之人不同的关节增加更密集的惯性、光学等动捕设备传感器来获取真人的动作数据，以不断提升动作还原精度，但也带来了算力成本及复杂度要求增加。Motionverse 多模态动作生成驱动引擎能够实现只需少量的动捕设备辅助，其余依靠 AI 智能算法模型的解析及推理便可生成实时动作数据。

大数据的6大应用场景_大数据应用场景_大数据放疗应用场景

多模态动作生成驱动引擎，在通过充分的数据集训练后，可以生成特定场合下的数字人动作，甚至手的动作都可以通过手臂的姿态来进行高度还原。如下图的抖音直播画面中，两个数字人与《霍元甲》歌曲节奏高度合拍，“高举”直播道具完成了双人齐舞，该场景只通过 3 个 Tracker 传感器（头部 1 个+双手 2 个）采集中之人的头部及手臂动作数据，其余动作如手握道具、步伐走动则完全依靠模型自主生成。

大数据应用场景_大数据的6大应用场景_大数据放疗应用场景

2. 多种情绪的语音驱动微表情

区别于卡通风格的夸张、简单的面部表情，Motionverse 多模态驱动引擎通过不断收集多种情绪下的面部表情数据，辅以高精度面部骨骼绑定和大规模的数据集训练，实现高兴、悲伤、生气、惊讶、中立、恐惧、厌恶等 9 种情绪下的丰富的面部微表情。作为超写实数字人驱动技术的核心，Motionverse 驱动的多种情绪下的表情和动作，使得超写实数字人更加逼真。

大数据的6大应用场景_大数据应用场景_大数据放疗应用场景

3. 客服类数字人动作生成

Motionverse 可以直接通过语义和声音驱动数字人，完成特定场景下的手势动作自动生成，并与声音把持协调。如下举例客服类数字人动作生成场景，在 42 秒的客服播报中，画面中的虚拟主播手口并用地给大家推介葡萄酒，其动作完全依靠语义和声音生成，手势自然流畅不重复。

大数据的6大应用场景_大数据应用场景_大数据放疗应用场景

04/中科深智元宇宙技术布局

1. 开放不同层次的 SDK 接入元宇宙

Motionverse 通过开放 SDK，让动作表情数据进入到不同工作流、工具平台以及元宇宙中，完成跨系统、跨生态的连接。共有四个层次的 SDK 接入方式：

大数据的6大应用场景_大数据应用场景_大数据放疗应用场景

2. 完成多人表情动作交互的场景延伸

在中科深智看来，单个数字人的播报及动作表情生成有其局限性，相比之下，两人或多人的表情动作实时交互更具现实意义。在多人互动的情景下，人与人之间的动作表情具备关联性，通过 Speaker 的动作表情，可以推断出 Listener 的动作表情。中科深智将于近期推出多人互动下的动作表情交互的 SDK 接口，不断丰富实时互动的交互场景，提升服务能力。

大数据应用场景_大数据放疗应用场景_大数据的6大应用场景

3. 实现基于语义的长动作生成和表达

下图按照视频帧预估有 500 帧共计 10 秒左右的长动作表情生成画面，如何在充分理解文本语义（如人物性别、年龄、环境）的基础上，有节奏、突出重点地进行动作、情绪的表达并保持和环境的交互，也是中科深智的技术布局重点。

大数据的6大应用场景_大数据放疗应用场景_大数据应用场景

05/总结

中科深智基于 Motionverse 数字人动作及表情驱动的生产技术引擎，面向企业级市场已发布分别针对数字人云制作、数字人直播、虚拟客服的三款 SAAS 软件大数据应用场景，针对个人客户提供来客户端产品以实现实时数字人驱动的动作生成，并通过开放不同层次 SDK，实现与多个元宇宙的连接。

宋健表示，中科深智将始终保持初心，坚持以软件和算法为主驱动，构建3D 实时动画和 AI 数字人场景，打造元宇宙基础设施，提供全栈式解决方案，完成内容生产和价值创造，其前瞻性的技术布局，也为元宇宙的未来提供更多可能。

（编辑：南京站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!