小朋友都能懂的人工智能⑫从画师到视频大师（无名带来的六一惊喜）（中）

AI在欣赏了无数图片后记住了世间万物的向量特征后，比如就能识猫了（详见小朋友都能懂的人工智能⓶ --卷积神经网络初探），类似的棋局也是图形，在总结了无数棋型特征后，开始碾压人类顶尖棋手（详见小朋友都能懂的人工智能⓸ -狗大师的修仙之路）；L：OK，同样的道理，AI在观看了无数的视频后，自然是有可能了解到物体运动规律的，比如看了无数篮球比赛的视频后，就能在球员跳起投篮时预测到接下来的篮球如何飞行、如

梁敬彬

1050人浏览 · 2025-04-25 16:45:44

梁敬彬 · 2025-04-25 16:45:44 发布

梁敬彬梁敬弘兄弟出品

47. AI是如何学会做视频的

L：虽说视频和做图没有本质区别，实际上要让AI做出视频的难度还是不小的！无论是打球的男孩还是奔跑的猛犸象，都是由一系列连贯的画面组成，问题在于AI如何掌握了预测下一个画面的能力，大家知道吗？

C：是不是看了很多视频后，学习出来的能力。

L：说得太对了！其实这种视频学习训练模式和之前所描述到的识图、下棋、绘画能力的学习训练模式，又是没有本质的区别！

C：没本质区别？

L：是的，咱们一起回顾一下先前的知识。AI在欣赏了无数图片后记住了世间万物的向量特征后，比如就能识猫了（详见小朋友都能懂的人工智能⓶ --卷积神经网络初探），类似的棋局也是图形，在总结了无数棋型特征后，开始碾压人类顶尖棋手（详见小朋友都能懂的人工智能⓸ -狗大师的修仙之路）；在阅读了无数的书籍后记住了词的向量特征后，就能学富五车无所不知了（详见小朋友都能懂的人工智能⓹-不可思议的大模型）。这些大家都还记得吗？

众人纷纷点头称是。

L：OK，同样的道理，AI在观看了无数的视频后，自然是有可能了解到物体运动规律的，比如看了无数篮球比赛的视频后，就能在球员跳起投篮时预测到接下来的篮球如何飞行、如何命中、球如何落地等一系列动作。也就是说AI明白了打篮球的场景应该是怎样的。就这样，在AI观看了各式各样的，足够多的视频后，AI开始明白几乎所有领域的场景应该怎样的。

A爸：有趣，大道至简，方法都是相通的啊，都是在训练数据的规模足够大，在深度学习网络参数足够多的情况下，水到渠成的实现了。

L：是的，A爸的总结非到位！

A爸：对了，AI观看视频是如何观看的，和识别图片和文字一样吗？

L：对于计算机而言，只能识别0和1的数字组合编码的输入，这点识别视频和是识别文字、图片是一样的。不过视频有一个视频分解的过程，这是明显的差异。比如观看篮球视频，会把打篮球的每个动作根据时间进行切片，一个切片就是一个帧。这个帧等同于小男孩画自己打篮球的每一页。假如每秒取30帧图片，观看1分钟视频就是得到了1800张图片。

C妈：原来如此，我明白了，AI进行视频训练的工作量比图片处理要大多了啊。

L：是的，不仅AI视频训练过程的工作量很大，训练完毕进行视频生成时，工作量也非常巨大，同样假设每秒生成30帧图片，那一分钟也得处理1800张图片哦。其实无论训练还是生成阶段，即便一张图片的生成都需要投入巨大的计算资源的。
当视频被分解成每秒若干帧的图片后就进入了视频输入阶段，即将这些帧的图片以像素数据的格式被输入到AI模型里；然后进入模型学习阶段，即模型通过分析这些帧，学习到球员打球的动作规律，比如腿部和手臂的摆动等；最后是预测生成阶段，当模型看到一帧球员开始打球的图片时，AI可以根据之前学到的规律，预测并生成下一帧的图像，直至生成一个完整的打篮球视频。
在这里插入图片描述

A爸：L老师，您这一梳理，我们可算是明白了。近期Open AI推出的SORA的视频演示惊艳全球，就是这训练出来的啊。

L：说到SORA，先来看一下最近刷屏的一段视频，根据下面这段文本生成：“一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多行人走来走去。”

【Sora视频示例】一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上

C妈：哇，这段高清视频堪称完美呈现了文字中所描述的内容！

未完待续…

小朋友都能懂的人工智能⑫从画师到视频大师（无名带来的六一惊喜）（下）

系列回顾

“大白话人工智能” 系列
 “数据库拍案惊奇” 系列
 “世事洞明皆学问” 系列

小朋友都能懂的人工智能⑫从画师到视频大师（无名带来的六一惊喜）原文链接