应用于数字人视频生成场景,服务于企业端客户,根据输入的音频,及人像图像、视频,生成数字人形象的视频,生成的视频与输入的音频内容口唇同步
2024年6月,相芯数字人合成算法通过备案
数字人短视频制作、数字人虚拟助手、数字人直播等场景
undefined
输入一段人声音的音频内容,以及一段预定的人像视频,算法首先利用自回归模型将输入音频内容转换为人脸区域图像,然后利用 GAN 网络将生成的人脸区域图像替换到预定的人像视频里面,使得预定视频的人像变得和输入音频内容口唇同步。算法并不会凭空创作新的形象或者未知内容,只会编辑现有人像区域的口唇表情。