问:

什么是AI数字人?硅基智能、腾讯智影这些公司推出的数字人24小时直播,技术使用的是Wav2Lip吗?

答:
AI数字人指的是由人工智能技术驱动的虚拟人物形象。这些数字人可以通过语音、表情、动作等方式与人进行交互和沟通。
硅基智能、腾讯智影等公司推出的24小时直播数字人,技术上更加复杂,不仅仅是简单的Wav2Lip技术。主要涉及以下几个方面:
1. 虚拟人物建模:包括外观形象设计、动作捕捉、表情捕捉等,构建数字人的全身3D模型及动画。
2. 语音合成:数字人需要具备连续不断地语音产生能力,一般使用神经网络语音合成技术,可以合成任意语音内容。
3. 嘴型同步:数字人说话时需要做嘴唇 synchronization,使得语音与嘴型动画保持同步和协调。这通常使用sequence-to-sequence模型,输入语音特征和嘴型姿态,输出同步后的嘴型动画。
4. 自然语言理解:数字人需要理解人类的语言并作出回应,这需要自然语言理解技术来解析语义和生成回复。
5. 知识图谱:数字人需要具有丰富的常识和知识,知识图谱为其提供海量知识支持,使得数字人像真人一样smart。
6. 行为控制:需要一个行为控制模块来协调数字人的语音、表情、动作等,产生连贯的多模态动画,使其看上去真实自然。
所以,24小时直播的数字人技术远非简单的Wav2Lip,它需要语音合成、语言理解、知识图谱、行为控制等多种AI技术的深度融合,才能达到如此复杂的效果。这也是未来人工智能发展的一个方向。