昊梵体育网

谷歌I/O大会开幕前夕,原生视频模型Gemini Omni意外曝光 ——Gemi

谷歌I/O大会开幕前夕,原生视频模型Gemini Omni意外曝光
——Gemini移动端App主页流出截图,全新视频生成入口上线,宣称支持视频重混剪和对话式直接编辑。
Omni被认为是全模态模型,同时支持文本、图像、音频、视频的输入与输出。与Veo不同,它将深度集成进Gemini,具备更强的提示理解与推理能力,并支持10秒时长、1280×720分辨率的视频输出。
真正引爆全网的,是几个提前流出的demo。其中最炸裂的一个,是教授在黑板上一步步推导三角恒等式,公式正确、推导连贯、笔迹自然,而这段视频仅用了一句提示词生成。文本与公式一致性一直是视频模型的「阿喀琉斯之踵」,Omni的表现让许多人直接破防。
生成之外,实时编辑是Omni另一张王牌。演示中,它可一键去除视频水印且画面毫无破绽,一句话即可将视频中的物体精准替换,光影与遮挡关系自动适配;此外还支持风格化输出,动漫打斗场景每帧均达专业动画质感。
Omni泄露的时间节点格外微妙——两周前,OpenAI的Sora App刚刚正式停服。Sora每天推理成本高达百万至千万美元级别,峰值百万活跃用户跌破一半,30天留存率不足8%,整个生命周期应用内收入仅约210万美元,连一天算力费都覆盖不了。
此次泄露的谷歌模型阵容还包括Gemini 3 Flash、3.1全系列及音频模型Lyria 3 Pro,并将针对核心模型推出专属Agent版本。谷歌I/O将于5月19日开幕,Gemini Omni极有可能在主舞台正式亮相。