FutureOmni发布音频-视觉全模态未来预测模型首份答卷

研究团队发布FutureOmni模型，专注于音频-视觉全模态的未来预测任务。该模型能够根据当前的视听信息，预测未来连续的视听场景，为多模态理解与生成提供了新思路。