多模态2026-01-25机器之心FutureOmni发布音频-视觉全模态未来预测模型首份答卷研究团队发布FutureOmni模型,专注于音频-视觉全模态的未来预测任务。该模型能够根据当前的视听信息,预测未来连续的视听场景,为多模态理解与生成提供了新思路。阅读原文