数字虚拟人
背景
10月22日,2021华为开发者大会上,百度增强现实部总监李颖超介绍了一套虚拟形象智能生成系统,允许开发者一张图、一句话零门槛生成模型,告别手工建模。而在9月23日,华为高级副总裁、华为云CEO、消费者云服务总裁张平安公布华为首个数字人“云笙”。
10月25日,科大讯飞发布讯飞虚拟人交互平台1.0,支持用户在一分钟内构建自己的虚拟人形象,并且生成独特的声音、脸型、性格、爱好,甚至衣品。
10月26日,网易投资“虚拟人”公司次世文化,新闻稿统计称次世文化在三个月内连续完成两轮近千万美金融资,曾制作过“迪丽冷巴”“南梦夏”等虚拟人。
10月27日,2021 OPPO开发者大会发布虚拟人“小布”。“希望构建一个以小布助手为中心,一次开发、多端触达的开放生态” OPPO数智工程事业部总裁刘海锋表示,“通过小布实现智能设备之间的万物互融”。
更早之前,今年字节跳动推出的虚拟偶像团体“A-Soul”已经人尽皆知;去年百度在“百度世界2020”大会上,用已有数据打造了自家老板李彦宏和央视主持人康辉两人20年前的虚拟人;2018年,腾讯也推出数字虚拟人“Siren”等。
不知不觉之间,虚拟人不仅成为高科技公司的前沿技术,更成为互联网公司居家旅行的必备品。无论愿不愿意承认,虚拟人的未来已来。
数字人 vs 虚拟人 vs 数字替身
虚拟人
网络上流行的虚拟网红、虚拟主播,称之为虚拟人(Virtual Human)。之所以称之为虚拟,第一点人物的身份是虚构的,现实世界中不存在的,比如火热的的虚拟网红Lil Miquela,她在Instagram上的拥有300多万粉丝,她虚构的身份设定是生活在洛杉矶的一名19岁女生。
如果说身份是虚构的,那么电视剧或电影里的人类演员所扮演的角色也是可能是虚构的,但人类角色并不能称之为虚拟人,因为第二点——虚拟人没有现实世界中的身体,它是通过计算机图形学技术进行虚拟制作的,虚拟人的本体存在于计算设备中(比如电脑、手机)中,通过显示设备呈现出来,让人类能通过眼睛看见。
第三点,它具备人类的外观和行为模式,虚拟人具有人类身体的外观形体结构,表现出来的行为模式是与人类相仿的,虚拟人的影像通常是呈现出某种人类的活动。比如初音未来的的角色设定是16岁的歌姬,生日8月31日,身高与体重则分别是158cm与42kg,擅长流行歌曲,摇滚乐和舞蹈,网上传播的初音未来的图像视频主要是歌舞类型。
数字人
“数字人”一词来自于英文 Digital Human,中文翻译过来是“数字人类”,简称数字人,目前关于数字人并没有统一的定义。之所以称之为数字人,强调了它存在于数字世界。
而数字世界是人类设计运行于计算设备上的代码和数据,它是计算设备上运行的程序,数字世界底层操纵的是0和1这样的数据,相对于人类物理世界来说,物理世界是真实的,数字世界是虚拟的。
数字人基本满足虚拟人的第二、三项特征,稍有区别的是,数字人的身份设定可以是按照现实世界中的人物进行设定,外观也可以完全一致,按照真人还原制作的数字人也可以称为数字孪生,比如数字王国制作的 Digi Doug。
虚拟数字人
中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会发布的《2020 年虚拟数字人发展白皮书》(以下简称“数字人白皮书”)中对虚拟数字人的描述是:与上述医疗领域的数字化人体不同,本篇中所分析的虚拟数字人(以下简称“数字人”)是指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖显示设备存在。
虚拟数字人宜具备以下三方面特征:一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。
数字人白皮书中描述的虚拟数字人是对上述虚拟人描述的延展,除了外观和行为,增加了思想和交流互动的部分,如果严格按照上述各定义特征的要求,数字人的范畴包含虚拟人,虚拟人的范畴包含虚拟数字人。
2D数字人与3D数字人
2D指的是几何上的二维,3D指的是几何上的三维。2D是平面空间,3D是立体空间。2D数字人和3D数字人区别不仅体现在视角上,也体现在制作技术上。
从呈现视角形式来说,2D数字人只能以单个视角去浏览,一般都是在制作的时候就已经确定了视角,用户不可以自行变换视角。而3D数字人能够以任意视角去浏览,至于是否开放视角给用户自己调整,由产品制作团队根据产品设定来定义。
目前大多数显示设备都是2D的,很多3D作品也选择使用2D呈现,比如科幻动作电影《阿丽塔:战斗天使》是使用3D制作,影院放映同时有2D和3D版。但即使是3D版本,也只能有立体效果,并不能调整视角。
从制作技术上来说,3D数字人需要制作三维立体模型,2D数字人则不一定需要。为什么说不一定需要,因为传统的制作方法一般直接做2D的图像即可,而新的趋势也有使用制作三维模型渲染成2D图像的方法来制作。
数字替身
数字人或虚拟人通常具有自己的身份。相反,数字替身是真实人类的复制品,不只是名人。它不是要创建一个随机的Avatar木偶,也不是从头开始设计一个人,而是要尽可能忠实地还原公众人物的外观和表情。他们的背景和法律含义有所不同。
数字替身和数字群演的区别在于,它不是根据未知三维扫描对象且需要被修饰。它们的概念可能会混淆,因为许多已知角色背后的扫描对象都是不出名的普通人,他们有时甚至在不知不觉中出售了自己的肖像权。但是,我们不应该将这些情况视为数字替身,因为在此过程中原始“主人”的身份已被“清除”。
数字替身大部分出现在电影的视效部分中,通常他们的应用包括:面部替换,数字特技替身,生物类型变换或体征变换,例如电影《本杰明·巴顿奇事》中本杰明·巴顿的衰老特效和《爱尔兰人》的年轻版替身。
特效公司MPC曾在《银翼杀手2049》中成功还原出了1984版本的女主瑞秋,当时的女演员肖恩·杨(Sean Young)在拍摄第二部时已经50多岁了,特效团队扫描了她的头部模型,获得了准确的头骨,然后将建模人员根据当年瑞秋表演片段的参考,制作了一个真实的数字替身。
诸如像基努·里维斯(Keanu Reeves)出现在《赛博朋克2077》;诺曼·里德斯(NormanReedus)成为《死亡搁浅》里的主角;马克·哈米尔(Mark Hamill)、吉莉安·安德森(Gillian Anderson)和亨利·卡维尔(Henry Cavill)出现在游戏《星际公民》等数字替身案例变得越来越普遍。
明星广告中的专属虚拟形象。
应用领域
虚拟数字人按照其产业应用场景可以划分为两类:服务型虚拟数字人和身份型虚拟数字人。
虚拟数字人技术的实际应用场景领域,包括传媒、游戏、影视、金融、文旅等行业,形成行业整体解决方案赋能各领域发展。这些场景下,虚拟数字人技术、产品与不同行业相结合,与人们生产生活相融合,其规模化、可定制化、可复制化的能力可推动改善传统环节流程、提升效能、降低成本等,提升业务效率,增强用户体验。
在2030年,我国虚拟数字人整体市场规模将达到2700亿。其中,得益于虚拟IP的巨大潜力,以及虚拟第二分身的起步,身份型虚拟数字人将占据主导地位,约1750亿,并逐步成为Metaverse中的重要一环。服务型虚拟数字人则相对稳定发展,多模态AI助手仍有待进一步发展,多种对话式服务升级至虚拟数字人形态,总规模超过950亿。(来源:量子位虚拟数字人白皮书)
从最底层应用场景分析上图,潜在增长最大的点在虚拟IP方向,目前虚拟直播、虚拟偶像等基于IP的虚拟数字人已经得到明确的商业价值验证,也不断有资本及公司布局相关产业链。
其次是替代真人服务方向,已经具有明确的落地场景和相关产品,主要聚焦在金融、文旅、教育、市政等服务类行业中。应用在社交或元宇宙的虚拟第二分身方向,较依赖元宇宙、NFT、VR等产业的发展,可能会在相关产业发展到一定程度时出现一波快速落地期,并且行业天花板较高,能够维持长期和衍生发展。
虚拟数字人发展的主要推动力为:
- 用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;
- 虚拟数字人相关技术(如计算机图形学、深度学习等)门槛相对降低,成本有所回落;
- 资本热度上升,受元宇宙概念和国外成功厂商引导,虚拟化的趋势逐渐成为共识;
- VR等相关配套设备逐渐回暖,有望实现大规模商用。
服务型数字虚拟人——替代真人服务
- 特点:具备短期的价值增长点
- 核心价值及主要功能:代替真人进行内容生产和简单交互,降低对真人交互的需求,提升优于语音的用户体验,减少标准化内容的制作成本。
- 落地方向:企业服务、内容行业的虚拟客服、虚拟主播、虚拟导游等。
- 推动力:业务快速更迭导致的服务类人力培养难度与成本增加;内容行业向视频时代升级的需求。
- 关注点:需关注对拟人化有强烈需求的特定服务场景;通过知识图谱、客户积累等专注垂直行业服务,通过虚拟数字人实现行业知识的输出;内容行业更易实现规模化复制,需强调SaaS及预设模板等标准化工具。
在内容生产方面,虚拟数字人内容生成平台已成为多家厂商共同的发力点。国内厂商包括火山引擎、科大讯飞等,国外厂商以英国的Synthesia和Hour One为代表。中外主要差异点主要在可供选择的虚拟数字人数量,以及预设模板等线下细节。在这类平台上,使用者只需将需要播报的内容输入平台,选择主持人形象、音色、背景后,即可快速生成相关播报视频。使用者可以利用时间轴,对虚拟数字人的动作进行调节,最终生成图文并茂,带有解释说明的视频。
尽管国内各平台的产品设计中,更多的倾向于新闻播报。但对于产品说明书、教学内容、产品讲解视频等内容相对固定,观看者对于视频灵活度无过高要求,并且无需复杂互动的说明性内容,都可以采用这种方式进行制作,以降低相关投入。
在交互方面,虚拟数字人不适用于通用性、专业性、交互性过强的领域,会暴露其现有技术短板。国内目前多专注于特定细分市场,主要用于提供简单业务交互。
服务型数字虚拟人——多模态AI助手
- 特点:长期想象空间大,已出现领先布局者,国外一些厂商的重点落地方向
- 核心价值及主要功能:基于真人形象,提供关怀感和真实感,在通用场景或特定关怀类场景中提供顾问、关怀、陪伴、事务处理等服务;
- 落地方向:个性化经济、单身经济、电商购物、医疗康复;
- 推动力:新世代对个性化顾问和服务的需求;单身/老龄化/心理脆弱等人群对关怀陪伴的需求;
- 关注点:关注陪伴感、关怀感等心理因素的场景,如健康顾问、虚拟男友等;对虚拟数字人在形象和交互方面技术要求极高;细分场景率先发展,在与手机厂商、系统提供商达成合作后,通用式助手将大规模普及;短期内会和语音交互助手有替代关系,长期语音助手可能成为其附属交互手段。
多模态AI助手可以理解为助手型虚拟数字人,不仅能够在特定场景下基于用户系统高度个性化,还可以实现通用化交互。
特定场景下的多模态助手是国外虚拟数字人公司的业务发展重点,用于提供情感联结。医疗顾问、日常陪伴、购物客服等领域目前均已成为国外厂商的关注重点,在这个方向用户对虚拟数字人外表逼真度的追求非常高。包括UneeQ、SoulMachines、HourOne、Neon会选择在预制虚拟数字人的设计及制作上投入大量精力。相对于国内,其预制虚拟形象在外观及行动方面,对真人的还原度有明显优势。并且特定场景中的助手是高度个性化的。除去多模态技术外,与业务相关的个性化分析及推荐系统在此场景中同样重要。目前国外厂商已有的落地场景包括个性化理财顾问、心理咨询顾问、购物助理等。
通用化的虚拟数字人助理目前仍主要处于前期阶段。基于智能音箱等非可视化设备的语音AI助手仍为主流。尽管拥有具体形象的虚拟数字人是智能虚拟助手的多模态高级形态,仍需要一定时间转化。一方面,当前AI助手多以语音为载体,如手机、音箱等,消费者已习惯在使用时不动用视觉,且设备(以智能音箱为主)并未配备有显示装置。其多模态的特性不具备相对优势,更改用户习惯需要一定时间。然而同时,在XR(Extended Reality,包括VR、AR、MR)或全息投影的方式下,具有具体形象的AI助手将具有较大意义。且此类助手将不仅存在于现实投射中,由于VR的大规模推广将重新构建底层的操作系统和消费者的感官需求,在VR世界中,形象化的虚拟助手将承担特定场景/应用的引导员等。
部分公司目前已在尝试这一方向。与AR相结合的公司Hybri目前已推出首个AI虚拟助手应用。使用者可以基于照片生成虚拟形象,该形象将以AR形式持续存在,并进行简单交互。该应用目前已获得近4万使用者。而知名AI虚拟助手,包括小冰、小爱同学等,都已在为其虚拟形象定制专属虚拟数字人形象。但其目前仍处于对外展示阶段,由于对实时渲染等方面的需求,尚未广泛搭载。据三星Neon团队,他们期待Neon未来能够拥有自己的情感和记忆。
由于AI助手大多由手机厂商或底层系统上进行开发,技术成熟后的增长可能是爆发式的。在多模态AI助手领域,其规模增长关键在于相关设备的成熟,例如物联网终端,VR眼镜的推广、甚至可能车载HUD的车载助手中。
身份型虚拟数字人——虚拟IP/偶像
- 特点:细分市场相对成熟,文娱领域重要增长点,重点在于运营
- 核心价值及主要功能:满足IP运营的视频化、碎片化、实时化需求;创造更为稳定、易得、低成本的IP,创造全新虚拟数字人IP;将漫画、小说等IP立体化运营
- 落地方向:文娱领域
- 推动力:新世代对虚拟化内容的向往;使用真人IP的风险增加;品牌方对定制化代言人的需求
- 关注点:我国的虚拟IP在网红/直播领域更易爆发;面向广大用户的低门槛工具将成为重要增长点;由于能够帮助各类IP实现直播、现场路演等形式,文娱体系整体连接将加强,各类IP易实现全渠道运营;对IP的运营能力成为公司实力的重要象征
虚拟IP指其在现实世界中并不存在对应的真人,其外貌特征、基本人设、各类偏好、背景信息等均由人为设定。虚拟IP存在两种生产方式,全新创造的IP,基于文本、漫画、游戏中的原有IP,立体化后的可交互、可多渠道运营的虚拟IP。尽管在虚拟IP领域,目前大多技术方案会采用真人驱动的方式进行运营,但对应的真人演员(在二次元界也称为“中之人”)与虚拟IP本身并无强绑定关系。
目前,虚拟IP的商业价值已经得到了充分验证。最为知名的虚拟IP Lil Miquela2020年收入超千万美元,而在国内,虚拟IP翎已登上Vogue杂志,并获得特斯拉代言。除去传统的偶像渠道外,直播及网红也成为虚拟IP的重点发展市场。代表IP包括美国主播CodeMiko,中国抖音网红阿喜,中国B站网红鹿鸣、日本Imma。
整体而言,虚拟IP相对于真人IP,解决了MCN对特定IP长期稳定持有的问题,以偶像/网红为核心场景,在直播、代言等领域均有所发展。相对真人IP可能出现各类突发事件,收费昂贵、品牌方难以积累自有流量的问题,虚拟偶像由于可以依托机构进行运作,人设稳定,可高频次出席相关品牌活动。此外,由于我国的短视频和直播业态正在迅速发展,面对高频、碎片且实时的IP运营需求,虚拟IP更能够适应这一趋势。
虚拟偶像方面,在初音未来、洛天依等成功案例下,目前国内已出现了专门的虚拟偶像经纪公司,一些国内外知名娱乐公司在为真人偶像创造虚拟形象的同时,开始打造虚拟偶像,如A-SOUL。业内大多采用文娱公司+技术公司联合打造的方式。由文娱公司进行前期的形象设计、人设打造,以及后期的流量、活动运营等,由技术公司提供虚拟数字人相关技术,并为具体互动提供技术支持。据次世文化,单个虚拟偶像的孵化周期大约在45天左右,以一年半为理想的使用周期。但多家虚拟形象技术公司表示,将在未来关注自身的IP运营能力,并针对特定内容呈现场景发掘潜力赛道,培养对应的虚拟IP,成熟后进行经验复制。在这一领域,对内容行业的深入了解和技术一同成为了参与公司的硬性门槛。
直播领域是我国虚拟文娱的发展特色,虚拟数字人在创造商业价值的同时,有助于激发大众对于虚拟世界的适应力和想象力。包括B站、淘宝直播、腾讯、抖音平台都已经开始使用虚拟主播。由于虚拟数字人技术使视频类和实时演绎类运营的门槛降低,小说IP(阅文集团等)、漫画IP(齐麟等)、游戏IP(灵狐等)等也正在积极通过虚拟数字人技术,使原有单一模态的IP能够实现直播、线下路演等,获得了IP运营新的价值增长点。C端直播的软硬全栈解决方案正在成为多家厂商的共同发力点,由于潜在市场规模巨大(直播市场目前市场规模约1.5万亿),这一细分市场也是目前最易出现跨界竞争者的领域。
代言领域,欧莱雅(M姐)、花西子(花西子)已开始有所尝试,通过虚拟IP打造完全符合品牌调性的虚拟代言人。在完成虚拟代言人打造后,可将该特定IP延展至客服等衍生的虚拟数字人领域,持续加深品牌印象,出于品牌对宣传效果的考虑,对虚拟数字人的形象质量和交互效果有极高的要求,技术上一般通过真人驱动达成。
在面向平台或特定品牌提供了虚拟偶像、虚拟代言人等B端产品后,身份型虚拟数字人公司将转向面对C端的轻量化产品,通过降低软硬件要求、减少成本等方面赋能虚拟数字人UGC,实现人人可虚拟。据公开渠道,目前单一虚拟数字人的制作成本已从六位数下降了五到十倍。
身份型虚拟数字人——虚拟世界第二分身
- 特点:需求得到过往验证,需要相关基础设施支撑
- 核心价值及主要功能:满足个人对虚拟身份的需求,为社交、娱乐、元宇宙设计脱离于现实世界的第二分身;
- 落地方向:互联网社交、游戏、虚拟内容;
- 推动力:新世代对虚拟化内容的向往;Metaverse带动的虚拟数字人基础设施普及率(以年为单位进行迭代);
- 关注点:在用户需求方面已得到过往捏脸应用的验证,市场潜力明确;社交为其天然的适用场景,高开放性的社交类游戏可能成为首先的爆发点;Metaverse基础设施构建、XR设备规模化出货都会成为重要推动因素
分身型虚拟数字人主要面向的是未来的虚拟世界,把为每个人创造自己的虚拟化分身为最终目的,满足个人在虚拟世界中的身份需求。为自己创造独特的形象在社交、游戏等领域被反复验证过,QQ秀、Nepeto、Anmoji、逆水寒等的成功都与这种底层需求紧密相连,但过往多为低还原度的平面形象,虚拟第二分身将有望通过其特有的真实感和沉浸感进一步满足这种分身需求,且用户需要在虚拟形象的创造上拥有更多话语权。基于虚拟身份,还可能出现以NFT服饰等为代表的虚拟消费市场。
尽管高还原度的个性化外表有助于提升第二身份的沉浸感,但大部分业内人士认为这个方向的核心问题在于交互手段,在于精细的描述使用者当前的反应姿态,包括位置、外貌、注意力、情绪等一系列要素,才能为使用者提供基于第二身份的存在感。因此,第二分身虚拟数字人的普及需要一系列基础设施完善。在虚拟产业的内容、硬件、软件等方面基本成熟后,虚拟数字人将有望迎来快速爆发。
社交领域为目前主要的应用场景,国内包括号称“社交元宇宙”的Soul,带有面部捕捉功能的Vyou,各类VR chat应用等。英伟达甚至将其应用于视频会议中,通过其Vid2Vid Cameo帮助使用者以固定的真人形象参加视频会议。
与元宇宙概念的结合,为虚拟数字人的第二身份定位提供了充足的想象空间,很多场景下虚拟形象为用户与虚拟世界链接交互的第一入口。在基于虚拟形象的交互中,参与者得以进行虚拟生产和劳动,并最终形成虚拟生产和社会关系。业内人士的想象,在未来的元宇宙中,虚拟数字人将作为品牌为用户提供服务的核心中介,在作用上等同于目前的APP。部分厂商在元宇宙方面已有所行动。facebook更名Meta布局元宇宙、微软收购暴雪、字节收购Pico等,推动着元宇宙方向的探索。
技术路线
虚拟人物形象生成根据人物图形资源的维度,可分为 2D 和 3D 两大类。语音和动画生成模块可分别基于文本生成对应的人物语音以及人物动画。音视频合成显示模块将语音和动画合成视频。交互模块根据语音语义识别用户的意图,并决定数字人后续的语音和动作。
对于有交互的数字人按技术路线可以分为真人驱动型和计算驱动型。
真人驱动型
真人驱动型数字人是通过真人来驱动数字人,主要原理是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而实现与用户的交互。
在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。
这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。
动作捕捉模块:利用动作捕捉设备或特定摄像头+图像识别,捕捉真人在形体、表情、眼神、手势等方面的关键点变化。
驱动及渲染模块:真人演员根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。需要时需进行语音合成,形成特定类型语音。
计算驱动型
在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。
计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在多个技术方向同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。
驱动模块:利用深度学习,学习模特语音、唇形、表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。充足的驱动关键点配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。目前为止,大多数厂商的驱动模型大多是语音唇形驱动。动作、手势等驱动大多依靠人为现场指令或预设置驱动。对于需对特定真人定制化的数字化虚拟数字人,部分公司会基于在通用驱动模型的基础上,结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。
内容渲染模块:核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术),将输入的本文转化为语音。基于语音,结合上面的驱动模块,推理得到每帧数字人的图片。通过时间戳,将语音和每帧的数字人图片进行结合。
技术中的核心要素时,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。
CG建模/图像迁移技术影响外观呈现。体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异,部分导致了目前国内外玩家主要专注于不同的细分场景和发展路径。
NLP交互技术影响交互体验。以对话能力为核心。继文本对话助手、语音AI助手后,该技术继续在虚拟数字人中发挥核心作用,可以视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效,如小冰等,公司能够为其添加较好的通用式互动能力。
CV等深度学习模型影响驱动效果。受数据量、计算框架、关键特征点等因素深刻影响。能否呈现自然的面部表情变动、肢体变动等,在极大程度上取决于语音驱动的深度模型效果。除此之外,能否对情感等因素进行特别设计,同样会产生重要影响。
产业链及玩家
尽管目前大多国内厂商选择对形象、语音、语言等多方面进行自研,但多家厂商已明确,未来会将非自身核心的技术部分进行外包。目前,多家不同类别的虚拟人厂商正在以各自的核心技术能力达成合作,在不同落地方向快速试水,这一趋势将与国外产品目前的商业模式相似。
从竞争格局来看,无论在国内还是国外,虚拟数字人的竞争格局都尚未成熟,行业集中度相对较高。尽管玩家数量在快速增长,但由于行业对综合的技术实力和合作渠道能力要求较高,具有相当实力的头部公司仍相对有限。
国内外在细分市场上的竞争差异较大。国内外目前的共同市场是自动生成虚拟内容,但由于在外表细节、预设模板、配套系统等方面的差异,国外在该细分市场具有较为明显的产品和客户优势。
此外,虚拟偶像受到较多的共同关注,亚洲地区文娱公司等产业方的参与尤为突出。而在其他市场上,国外更关注情感关怀的顾问/助手类虚拟数字人和用于打造虚拟数字人的应用,而这两个细分市场在国内并无太多发展。国内的玩家更关注虚拟客服类场景,对虚拟直播的高度关注成为我国玩家的特有方向。
整体而言,国内外在细分市场上的竞争各家仍处于试验产品可行性、打造标杆客户的阶段,距离商业化规模推广仍具有一段距离。
总结
2030年我国虚拟数字人整体市场规模将达到2700亿。其中,国内虚拟IP/偶像和替代真人服务是目前的市场热点,也可能是未来市场占比较高的两个应用场景。
从用户体验角度来看,4类数字人应用中多模态AI助手、虚拟世界第二分身、替代真人服务均需要很强的交互需求,需求强度从高到低排序,交互功能会直接影响到用户体验。虚拟IP/偶像的交互方式目前一般采用真人驱动,整体对下游的IP运营能力要求很高。
从技术成熟度来看,强交互型场景的数字人在现有技术条件下不适合规模化生产,受到语音交互、视觉感知/理解能力等技术发展的影响,目前的强交互场景技术方案一般采用真人驱动型,单体成本相对较高。
虚拟世界第二分身(数字孪生)作为与虚拟世界的第一入口,会随着元宇宙、XR等产业的发展,在内容、硬件、软件等方面相对成熟后,可能迎来快速爆发。关键在于对社交娱乐等场景探索的成熟度,以及基于数字孪生的交互沉浸感体验如何。
从落地价值角度来看,目前我们做投产比相对较高的还是替代真人服务类数字人(未来市场占比仅次于虚拟IP方向,但技术实现和投入成本是最低的),交互也简单,核心问题还是业务侧收益大不大;另一个需要保持关注的是虚拟世界的第二分身,一旦XR或者元宇宙雏形能做起来,可能会爆发一波数字孪生的需求。
针对虚拟数字人生产及功能迭代,大致分为以下几个阶段:
- 数字人建模:传统采用美术制作,特点稳定效果可控、但设计资源投入大;最新采用基于深度学习模型生成拟人化模型,特点无需美术制作,但需要大量数据、且效果及鲁棒性需要保证;
- 驱动:分为实时驱动和离线数据驱动两种;其中实时驱动依赖摄像头或动捕传感器等实时数据采集工具,离线驱动以来美术制作的预置动画数据;驱动部分包括表情及肢体动作;
- 功能迭代:基于以上两个基础能力,可对于数字人叠加更多功能,基于视觉/语音/传感器或其他硬件设备/提供更多更丰富的数据输入,从而优化数字人整体能力,使其更逼真、更智能、且整体生产陈本更低;
- 批量化/定制化:当前三个阶段已经完成后,可认为数字人的生产进入可复制且可定制的阶段,批量化生产的同时也可根据用户需要定制化数字人形象及具备能力,
- 渲染可视化技术:对于最终数字人的视觉效果呈现,需要底层强大的渲染技术做支持,核心依赖图形渲染引擎。