2026-06-03 17:24 点击次数:123


还难忘 2023 年 AI 视频最出圈的片断吗?威尔·史小姐吃面,看成鬼畜开云kaiyun官方网站,画面寂然——

其时的视频大模子,只会动,不会语言。Sora 的发布让视频质地飞跃、物理秩序建模跨越强大,也径直引爆了整条赛说念。
Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初创公司,以及 OpenAI、、阿里、字节等科技巨头,纷繁入局。
但非论画质怎么跨越,视频照旧「哑巴」——
你可以让东说念主物奔走、翻转,以至作念出慢看成,但若是念念让扮装语言、听到风声、脚步声,以至感受到炒菜时锅里的滋滋声?
抱歉,还得我方导音频。
更缺乏的是,配完音还可能对不上节拍——口型和对白不同步,脚步踩不到点上,情怀氛围总差连气儿。
直到今天,谷歌精采发布 Veo 3 AI 视频,终于能「启齿语言」了——

Veo 3 不仅能生成高质地视频,还能意会视频中的原始像素,自动生成与画面同步的对话、多种音效。翻译成汉文——
只用一个教唆词,你就能得到画面+对白+唇动对都+拟音音效一气呵成的视频。

教唆语:90 年代酒吧里的状态喜戏院景,配景墙上的霓虹灯写着 「fofr」。一双配偶说了些什么,不雅众大笑起来。

对白生成、唇动对都和情怀音效(不雅众笑声),一气呵成教唆语:一位游戏主播(streamer)只用他的镐子(pickaxe)获得了「Victory Royale」。

生成出的本体是完整直播立场视频,还带着夸张的忻悦与音效,画面有声有色尽管凌晨才发布,Veo 3 已在外交网罗掀翻上升,多个视频动辄数十万次播放,令东说念主感触不已。
雪地要领了了传来咯吱声,鸭子嘎嘎叫,烹调滋滋作响,撒胡椒声......
成绩于模子对物理寰宇的深切意会,扫数声息非后期拼接,而是与画面及时同步生成。

Veo 3 还能精确捕捉画面情怀,渲染氛围音效。这个麦芬蛋糕在烤箱中尖叫,传神到让东说念主有点毛骨屹然。

教唆词:a video with dialogue of two muffins while baking in an over, the first muffin says \"I can't believe this Veo 3 thing can do dialogue now!\", the second muffin says \"AAAAH, a talking muffin!\"至于对口型,Veo 3 也推崇卓绝:非论是脱口秀现场讲见笑,照旧说唱音乐视频中的节拍口型,都能精确同步,确切感爆棚。

教唆词:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue)

教唆词:a man in a music video raps to the camera about generating videos with Veo3
生成歌剧和音乐会视频,成为历练 Veo 3 音画同步水平的高频场景。这个视频里,饱读手的每一次击打看成都与饱读点节拍完好同步,与歌手扮演同步,展现了模子在复杂多声息动态场景下出色的音画合成才智。接济多扮装、多种立场的创作视频,编造东说念主物演技不比《演员请就位》强多了?


长教唆词意会与事件流生成方面,Veo 3 相似出色。以前视频模子教唆词一长就容易崩。但 Veo 3 能意会长句子,完成一个完整、时间有序、逻辑了了的小片断。来看这个视频。
教唆词:清晨时期,一位男士在清秀的夏季公园里奔走,他上气不接下气,然后减速速率,看着镜头,气急阻滞地说:「用 API 运转 AI。使用 Replicate。」然后他不绝跑。临了,「Replicate」的字样缓缓肃清在视线中。
包含看成变化、对白插入、镜头切换、logo 渐隐……多圭表连贯实施,事件流准确,阻抑可以:

音画同步生成,径直把视频模子拉到了新期间 。而其中关节才智,离不开 DeepMind 畴昔就偷偷铺下的一项底层时候:V2A( Video-to-Audio )。2023 年 6 月,DeepMind 就首次裸露:
他们正修复一套 AI 系统,能从视频像素 + 文本教唆中,自动生成完整音轨。包括对白、看成音效、环境音、配景音乐……
它的旨趣是:将视频视觉信息编码为语义信号,与文本教唆一同输入扩散模子,生成匹配的音频波形。可以说,V2A 便是 Veo 3 的「耳朵」和「声带」。再协作谷歌的音视频数据资源—— YouTube 很可能是教师数据之一—— Veo 3 的音画合班师能,依然遥遥启航点。一个小缺憾:视频仍只好 8 秒。
另外,当前 Veo 3 仅面向好意思国 Ultra 订阅用户通达,订价为 249.99 好意思元/月。这是谷歌专为专科创作家、修复者推出的高阶会员做事。

固然门槛不低、时长有限,但 Veo 3 的首次亮相,已鼓胀震荡。畴昔生成式 AI 是「语言+图像」的期间,当前,正在参预「视听一体」的新阶段。生成视频从会动 → 能说 → 有氛围,一步步碎裂不同模态的畛域。若是说 Sora 是让 AI 看懂物理寰宇,那 Veo 3,便是让 AI 能「听懂」,「会说」。看来,音画一体,将是下一轮视频模子竞赛的标配。
文中视频贯穿:https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA
Powered by kai云体育app官方下载app最新版本-kai云体育app官方登录入口 @2013-2022 RSS地图 HTML地图