超拟人数字人重磅发布!10月24日,第七届世界声博会暨科大讯飞全球1024开发者节在合肥奥体中心拉开帷幕。开幕式上,科大讯飞首次公开展示其多模态视觉交互技术和超拟人数字人能力,引发行业热潮。
大模型的加持,引领数字人行业的进一步发展。首次发布的超拟人数字人,不仅在口唇、表情、动作上更为灵活自然,在制作模式上,更是仅需一张照片即可完成形象的定制,进一步降低了数字人的应用门槛。
01
仅需一张照片,持续降低数字人应用门槛
当下,科大讯飞星火大模型正在各行业应用,其中,与数字人的结合是热门方向。在讯飞旗下一款AIGC内容创作平台讯飞智作上,我们可以看到有四百多个公版形象,从带有民族风味的文旅形象到端庄大气的大会主持,这些数字人被应用于各行各业。但当前定制数字人仍需较为繁琐的拍摄流程且对定制者本身的面部表情和动作表达有着非常高的要求。如何让更多的人使用个性化的数字形象,这也是科大讯飞虚拟人业务一直探索的方向。
在活动现场,科大讯飞研究院院长刘聪为大家展示了自己用一张照片生成的超拟人数字人。这种仅需上传一张照片的操作极大简化了数字人定制对于预设素材的要求,减少了用户的操作路径。这种能力的进步进一步降低数字人的使用门槛与成本,对于数字人应用各行业都具有重要意义。
02
情感贯穿的多模态交互,让情感表达极大提升
随着大模型技术赋能数字人飞速发展,当下诸多应用场景对定制数字人提出了更高的要求。
数字人的表情反馈开始被越来越多的人关注,那如何实现实时匹配语音内容和情感?讯飞智作给出答案——情感贯穿的多模态交互。
此前定制数字人需要进行拍摄数据采集,数字人的表情和动作大多依赖预设资源。基于此,讯飞首发超拟人数字人采用了情感贯穿的多模态交互。情感贯穿让数字人能够根据上下文实时调整表情。这样,数字人的表情不仅是口唇同步,还能够自然反映语境中的情绪波动,实现更贴近真人的情感表达。让数字人告别单一的面部表现,让其情感表达急速提升。
03
摆脱预设模板动作,让动作借助语义自然驱动
在此次1024开发者节上,超拟人数字人在肢体动作驱动方面也带来了技术创新,其肢体动作能够根据语音的节奏、语调和内容实时生成。通常情况下,传统的数字人动作驱动需要依赖预先录制的模板动作,在与语音匹配时调用此前的模版动作来同步数字人肢体,但这种方式在一定程度上会局限数字人肢体的更多表现。
此次讯飞的首发超拟人数字人基于多模扩散生成大模型,让生成式肢体动作突破动作预设模版。数字人的动作能够与语音内容自然匹配,这一突破极大提升了数字人在动态场景中的表现力,增强交互的拟人化程度。
04
中间表征压缩技术,提升多场景下实时交互能力
视频生成模型效率一直是业界持续探索的难题,在数字人不断加速落地多元场景下,数字人视频生成的实时性也决定了数字人技术能否在交互场景中的有效使用。如在银行场景中,数字人扮演网点营业员的工作任务要求其需要极高的实时交互能力,这不仅会影响业务处理效率还会对客户体验产生直接影响。
而这次的讯飞超拟人数字人采用了动作表征抽取技术,将语音和文本输入转化为紧凑的中间表征,将视频维度进行了有效压缩,从而大幅减少视频计算量,让数字人快速生成表情和动作,保障了数字人与用户的实时互动。
从营销到金融,从文旅到电商,数字人承担着虚拟导游、虚拟客服、虚拟主播等多元角色,赋能到金融、文旅、媒体、政企等场景,而快问快答的实时交互能力对于高互动场景的重要性逐渐凸显。此次讯飞发布的中间表征压缩技术能极大提升虚拟人交互能力,让用户在与虚拟人交互过程中提升体验感。
当下,科大讯飞数字人已广泛应用于金融、政务、文旅、商业、展会等多个领域。讯飞智作作为是科大讯飞为广大创作者打造的智能内容创作基地,在AI能力的加持下,用户带着个性化的创意就可以完成高质量音视频的输出,让服务成本降低,让用户体验更优。
与此同时,科大讯飞虚拟人交互平台运用最新的AI虚拟人技术,结合星火认知大模型,为用户提供一站式的虚拟人解决方案。无需代码一键部署,为客户提升服务效率,创新服务体验,降低服务综合成本。从国际赛事巴黎奥运会到文旅地标北京圆明园,从行业活动天津智博会到智慧生活山东高速,科大讯飞虚拟人无处不在,助力融媒体、政企、文旅、教育、电商各行各业。
此次1024开发者节首发超拟人数字人让数字人能力再升级。更加真实且灵动的数字人,正在逐步降低数字人应用开发门槛,相信未来可以帮助更多个人及企业实现一站式的虚拟人解决方案。
现在,首发超拟人虚拟人的已在讯飞智作小程序上开放内测通道。依托星火大模型的基座能力,实现任意一张照片的快速驱动生成,快去定制一个属于自己的超拟人数字人吧。