OpenAI发布Sora视频生成模型重大更新，支持更长、更可控视频创作

2026-02-05 08:00 来源：OpenAI官方博客 5 浏览 0 点赞

2026年2月5日，OpenAI宣布对其文生视频模型Sora进行重大更新。新版Sora支持生成最长120秒、分辨率高达1080p的高清视频，并引入了“运动笔刷”和“分镜控制”等精细编辑工具，显著提升了视频的时序连贯性、物理真实性和用户可控性。该更新已面向部分研究者和创意工作者开放测试，预示着AI视频生成正从“玩具”走向实用工具。

🎯 核心内容

在沉寂近一年后，OpenAI于2026年2月5日通过其官方博客和研究论文，公布了其颠覆性视频生成模型Sora的里程碑式更新。最初的Sora模型因能生成60秒高质量视频而震惊业界，但存在物理规律错误、细节不一致等问题。此次更新直接针对这些痛点，将最大视频时长延长至120秒，并大幅提升了视频的物理真实性和叙事连贯性。更重要的是，OpenAI引入了全新的交互式控制功能，允许用户通过文本、草图甚至音频线索来引导视频的生成过程，实现了从“描述生成”到“引导创作”的范式转变。目前，更新后的Sora已通过API向部分合作伙伴和红队成员开放，并计划在未来季度逐步扩大访问范围。

🔬 技术细节

技术突破的核心在于其扩散Transformer架构的改进。新版Sora采用了更先进的时空潜在表示，能够更好地建模视频帧之间长距离的依赖关系。训练数据方面，OpenAI构建了一个规模更大、质量更高、标注更丰富的视频数据集，特别加强了复杂物理交互和动态场景的数据。新引入的“控制网络”模块是关键创新，它允许模型接受额外的条件输入，如深度图、边缘检测图或粗略的动作草图，从而将用户的创意意图更精确地转化为视频内容。在评估指标上，新版Sora在用户偏好评估中，其视频的真实性和连贯性得分比旧版提升了超过40%。

💡 关键亮点

时长与质量双突破：120秒时长足以承载一个完整的短视频叙事，1080p分辨率满足多数商业用途，标志着AI视频生成进入实用化门槛。
革命性的控制能力：“运动笔刷”允许用户在静态图像或视频的某一帧上涂抹，指定特定区域的运动轨迹；“分镜控制”则能让用户通过简单的故事板来规划镜头序列。
物理模拟增强：在流体动力学、刚体碰撞、布料模拟等复杂物理场景的生成上更加逼真，减少了明显的物理悖论。

🌍 行业影响

Sora的更新给Runway、Pika Labs、Stable Video等视频生成初创公司带来了巨大压力。它可能加速行业整合，并迫使竞争对手寻求差异化路线（如更垂直的领域、更低的成本）。对于影视、广告、游戏、教育等内容创作行业，这意味着生产力工具的又一次革命，低成本、快速原型制作成为可能，但也引发了关于创意工作者就业和版权归属的新一轮讨论。同时，其强大的生成能力也使得深度伪造的检测与治理变得更加紧迫。

🔮 未来展望

OpenAI表示，下一步将专注于提升Sora的3D场景一致性和角色表情、动作的细微控制，并探索与ChatGPT等语言模型的深度集成，实现“用对话创作电影”的愿景。业界普遍认为，视频生成模型将与3D生成、声音合成技术结合，最终催生能够生成完整、交互式多媒体内容的“全能型”AI创作助手。

分享到：