多模态2026-01-25机器之心

FutureOmni发布音频-视觉全模态未来预测模型首份答卷

研究团队发布FutureOmni模型,专注于音频-视觉全模态的未来预测任务。该模型能够根据当前的视听信息,预测未来连续的视听场景,为多模态理解与生成提供了新思路。
更多 AI 资讯

AIStart.ai · 您的个性化 AI 起始页