梁敬彬梁敬弘兄弟出品

往期回顾
————————————————————————
小朋友都能懂的人工智能⓵开篇大吉(上)
小朋友都能懂的人工智能⓵开篇大吉(中)
小朋友都能懂的人工智能⓵开篇大吉(下)
————————————————————————
小朋友都能懂的人工智能②卷机神经网络初探(上)
小朋友都能懂的人工智能②卷机神经网络初探(中)
小朋友都能懂的人工智能②卷机神经网络初探(下)
————————————————————————
小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事(上)
小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事(中)
小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事(下)
————————————————————————
小朋友都能懂的人工智能⓸ -狗大师的修仙之路(上)
小朋友都能懂的人工智能⓸ -狗大师的修仙之路(中)
小朋友都能懂的人工智能⓸ -狗大师的修仙之路(下)
————————————————————————
小朋友都能懂的人工智能⓹-不可思议的大模型(上)
小朋友都能懂的人工智能⓹-不可思议的大模型(中)
小朋友都能懂的人工智能⓹-不可思议的大模型(下)
————————————————————————
小朋友都能懂的人工智能⓺- 逆天,句中高能!!(上)
小朋友都能懂的人工智能⓺- 逆天,句中高能!!(中)
小朋友都能懂的人工智能⓺- 逆天,句中高能!!(下)
————————————————————————
小朋友都能懂的人工智能⓻–无名的故事与GPT-4训练流程(上)
小朋友都能懂的人工智能⓻–无名的故事与GPT-4训练流程(中)
小朋友都能懂的人工智能⓻–无名的故事与GPT-4训练流程(下)
————————————————————————
小朋友都能懂的人工智能⓼–无名的故事与GPT-4运行(推理)流程(上)
小朋友都能懂的人工智能⓼–无名的故事与GPT-4运行(推理)流程(中)
小朋友都能懂的人工智能⓼–无名的故事与GPT-4运行(推理)流程(下)
————————————————————————
小朋友都能懂的人工智能⓽ Hi AI, Database is all you need(上)
小朋友都能懂的人工智能⓽ Hi AI, Database is all you need(中)
小朋友都能懂的人工智能⓽ Hi AI, Database is all you need(下)
————————————————————————
小朋友都能懂的人工智能⓾大白话数据库(上)
小朋友都能懂的人工智能⓾大白话数据库(中)
小朋友都能懂的人工智能⓾大白话数据库(下)
————————————————————————
小朋友都能懂的人工智能⑪一滴墨汁成就一代画师(上)
小朋友都能懂的人工智能⑪一滴墨汁成就一代画师(中)
小朋友都能懂的人工智能⑪一滴墨汁成就一代画师(下)
————————————————————————
小朋友都能懂的人工智能⑫从画师到视频大师(无名带来的六一惊喜)(上)
————————————————————————

47. AI是如何学会做视频的

L:虽说视频和做图没有本质区别,实际上要让AI做出视频的难度还是不小的!无论是打球的男孩还是奔跑的猛犸象,都是由一系列连贯的画面组成,问题在于AI如何掌握了预测下一个画面的能力,大家知道吗?

C:是不是看了很多视频后,学习出来的能力。

L:说得太对了!其实这种视频学习训练模式和之前所描述到的识图、下棋、绘画能力的学习训练模式,又是没有本质的区别!

C:没本质区别?

L:是的,咱们一起回顾一下先前的知识。AI在欣赏了无数图片后记住了世间万物的向量特征后,比如就能识猫了(详见小朋友都能懂的人工智能⓶ --卷积神经网络初探),类似的棋局也是图形,在总结了无数棋型特征后,开始碾压人类顶尖棋手(详见小朋友都能懂的人工智能⓸ -狗大师的修仙之路);在阅读了无数的书籍后记住了词的向量特征后,就能学富五车无所不知了(详见小朋友都能懂的人工智能⓹-不可思议的大模型)。这些大家都还记得吗?

众人纷纷点头称是。

L:OK,同样的道理,AI在观看了无数的视频后,自然是有可能了解到物体运动规律的,比如看了无数篮球比赛的视频后,就能在球员跳起投篮时预测到接下来的篮球如何飞行、如何命中、球如何落地等一系列动作。也就是说AI明白了打篮球的场景应该是怎样的。就这样,在AI观看了各式各样的,足够多的视频后,AI开始明白几乎所有领域的场景应该怎样的。

A爸:有趣,大道至简,方法都是相通的啊,都是在训练数据的规模足够大,在深度学习网络参数足够多的情况下,水到渠成的实现了。

L:是的,A爸的总结非到位!

A爸:对了,AI观看视频是如何观看的,和识别图片和文字一样吗?

L:对于计算机而言,只能识别0和1的数字组合编码的输入,这点识别视频和是识别文字、图片是一样的。不过视频有一个视频分解的过程,这是明显的差异。比如观看篮球视频,会把打篮球的每个动作根据时间进行切片,一个切片就是一个帧。这个帧等同于小男孩画自己打篮球的每一页。假如每秒取30帧图片,观看1分钟视频就是得到了1800张图片。

C妈:原来如此,我明白了,AI进行视频训练的工作量比图片处理要大多了啊。

L:是的,不仅AI视频训练过程的工作量很大,训练完毕进行视频生成时,工作量也非常巨大,同样假设每秒生成30帧图片,那一分钟也得处理1800张图片哦。其实无论训练还是生成阶段,即便一张图片的生成都需要投入巨大的计算资源的。
当视频被分解成每秒若干帧的图片后就进入了视频输入阶段,即将这些帧的图片以像素数据的格式被输入到AI模型里;然后进入模型学习阶段,即模型通过分析这些帧,学习到球员打球的动作规律,比如腿部和手臂的摆动等;最后是预测生成阶段,当模型看到一帧球员开始打球的图片时,AI可以根据之前学到的规律,预测并生成下一帧的图像,直至生成一个完整的打篮球视频。
在这里插入图片描述

A爸:L老师,您这一梳理,我们可算是明白了。近期Open AI推出的SORA的视频演示惊艳全球,就是这训练出来的啊。

L:说到SORA,先来看一下最近刷屏的一段视频,根据下面这段文本生成:“一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。”

【Sora视频示例】一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上

C妈:哇,这段高清视频堪称完美呈现了文字中所描述的内容!

未完待续…

小朋友都能懂的人工智能⑫从画师到视频大师(无名带来的六一惊喜)(下)

系列回顾

“大白话人工智能” 系列
“数据库拍案惊奇” 系列
“世事洞明皆学问” 系列

小朋友都能懂的人工智能⑫从画师到视频大师(无名带来的六一惊喜)原文链接

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐