首页 最新动态 新闻详情
📊 行业趋势 🔥 重要

Meta发布下一代多模态模型MM-Next,在视频理解基准上实现SOTA

2026-02-06 08:00 来源:Meta AI Research Blog 9 浏览 0 点赞

Meta AI于2026年2月6日发布了其下一代多模态基础模型MM-Next。该模型在多个视频理解基准测试中刷新了记录,特别是在ActivityNet-QA和MSRVTT-QA上分别取得了82.1%和78.5%的准确率,超越了谷歌的Gemini 2.0和OpenAI的GPT-4V。MM-Next采用了创新的“时空解耦注意力”机制,显著提升了长视频内容的理解和推理能力。Meta宣布将开源模型的部分核心组件,旨在推动整个AI社区在视频AI领域的研究。

🎯 核心内容

2026年2月6日,Meta AI在其官方研究博客上正式发布了下一代多模态基础模型MM-Next(Multimodal Next)。该模型的核心目标是解决现有模型在长视频内容理解、时空推理和复杂指令遵循方面的瓶颈。发布当天,Meta同步公开了详细的技术报告和一系列基准测试结果。数据显示,MM-Next在ActivityNet-QA(视频问答)数据集上达到了82.1%的准确率,在MSRVTT-QA上达到78.5%,在Ego4D叙事描述任务上也取得了显著提升。这些成绩使其在视频理解领域确立了新的技术标杆。Meta强调,MM-Next的训练使用了超过1000万小时的公开视频数据及对应的文本描述,其参数量约为700亿,是一个高效且能力均衡的模型。

🔬 技术细节

MM-Next的技术架构基于一个统一的Transformer框架,但其核心创新在于“时空解耦注意力”(Spatio-Temporal Decoupled Attention, STDA)机制。传统视频模型通常将时间和空间信息耦合处理,计算复杂度高且难以建模长程依赖。STDA机制将空间注意力和时间注意力分离,允许模型在不同粒度上分别捕捉视觉特征的时间演变和空间关系。具体而言,模型首先通过一个高效的视频编码器(基于改进的ViT)提取关键帧特征,然后通过时间注意力模块建模帧间关系,最后通过空间注意力模块对每一帧内的物体和场景进行深度理解。此外,MM-Next引入了“动态令牌选择”策略,在推理时能自适应地关注视频中最相关的片段,从而在处理长达数小时的视频时也能保持高效。模型支持多种输入(图像、视频、音频波形、文本)和多种输出(文本、结构化数据),其多模态对齐损失函数也经过了重新设计,以更好地实现跨模态的语义一致性。

💡 关键亮点

  • 创新的STDA机制:时空解耦注意力显著降低了长视频建模的计算复杂度,并提升了模型对时序逻辑和因果关系的理解能力,这是实现SOTA性能的关键。
  • 卓越的长视频理解能力:官方演示显示,MM-Next能够观看一部90分钟的电影预告片,并准确回答关于情节发展、角色动机和细节伏笔的复杂问题,展示了接近人类水平的视频叙事理解。
  • 开源与开放生态:Meta承诺将开源MM-Next的模型架构设计、训练代码以及部分经过筛选的预训练权重。同时,将发布一个包含多样化视频指令数据的微调数据集,以促进社区发展和应用创新。

🌍 行业影响

MM-Next的发布标志着多模态AI竞赛进入了一个新阶段,焦点从静态图像和短视频转向了更具挑战性的长视频内容理解。这一能力对于内容审核、视频摘要、智能剪辑、教育科技以及自动驾驶的场景理解等应用至关重要。Meta此举直接挑战了谷歌(Gemini系列)和OpenAI(GPT-4V及后续模型)在多模态领域的领导地位。其开源策略有望吸引大量开发者和研究人员在其基础上进行开发,可能催生出一个类似于Llama时代的视频AI开源生态,加速整个行业的创新步伐。同时,这也对算力提出了更高要求,可能会进一步推动AI芯片和云服务市场的发展。

🔮 未来展望

Meta表示,MM-Next是通向通用视频智能(General Video Intelligence)道路上的重要里程碑。未来计划包括:1)扩展模型的音频理解能力,实现真正的视听融合;2)探索模型与增强现实(AR)设备的结合,实现实时环境感知与交互;3)开发基于MM-Next的创作者工具,赋能视频内容生产。业界预测,随着模型能力的提升,AI驱动的视频内容生成、交互式视频体验以及个性化的视频推荐系统将成为下一个爆发点。Meta的开源举动也可能促使其他巨头公开更多技术细节,推动多模态AI技术更加透明和普惠。

分享到: