Sora面世第7天：谷歌猛烈回击，技术冰山下还有这5个关键问题

7wu1wm0 · 发表于 2024-7-28 04:51:58

本文源自：时代周报作者：申谨睿

图源：GPT-4制作

Sora的面世诱发了科技狂欢，亦带来了新的争议。

日前，Meta首席AI专家Yann LeCun杨立昆公开质疑Sora ：“Sora 的生成式技术路线注定失败，用Sora构建世界模型不可行。”

在杨立昆看来，生成类算法适用于离散的文本，但处理高维连续感官输入中的“预测不确定性”则非常棘手，OpenAI将Sora定义为“世界模拟器”有失准确。

实质上，在2月16日Sora发布的同一天，模型行业还有两款重磅制品推出。一是Meta发布的能够以人类的理解方式看世界”的视频联合嵌入预测架构 V-JEPA，二是谷歌发布的支持100万 tokens 上下文的大模型 Gemini 1.5 Pro。

撞档之下，不论是语言模型Gemini 1.5 Pro ，还是与Sora同属视频生成模型的 V-JEPA ，都被掩盖在了Sora的信息流中。

值得一提的是，2月22日凌晨，谷歌毫无预兆地发布了开源模型Gemma，这是继其2月9日宣布Gemini Ultra免费运用、2月16日推出Gemini 1.5 Pro后，短短12天之内的第三个大动作。

一位业内人士告诉时代周报：“谷歌试图经过Gemma挑战Meta的Llama 2，并向用Sora抢了自己风头的OpenAI宣战，颇有‘打不外就开放’的味道。”

新生事物向来要接受各方面的评判和挑战，抛开技术与展现形式的升级，Sora显然还具备科技框架以外的道理。

“麦高芬"（MacGuffin）是电影界的一则术语，指在电影中用于推展剧情的物件、名人或目的，其仔细的背景和发展并不重要，重要的是它对电影剧情的发展起着关键功效。它是电影中的一个激励原因，旨在推动情节的发展，而Sora或许就扮演着这般的角色。

针对一款产生轰动效应的科技制品，抛开技术底座谈行业道理是本末倒置的，摒弃宏观影响谈竞争力是狭隘的。就Sora为商场科技行业带来的许多思考，时代周报邀请到四位业内人士，探讨文生视频行业技术冰山下的问题。

李桢：北京信息化局专家库信息化专家，工信部人工智能内容创作师认证主讲人，商场认知科研院创始院长，西南大学、成都科技大学创业导师，对外经贸大学创新学科讲师。

Edward：英国就业协会理事，人工智能行业协会会员，无束AIGC内容分享平台创始人。

Emma：香港理工大学中英企业传讯硕士，无束AIGC内容分享平台联合创始人。

Yuca：远识资本董事，科技媒介Z Potentials创始人。

怎样看待杨立昆对Sora的质疑？

李桢：每一个模型的显现都具备自己的规律推导，都有可能成功，无注定的事情。杨立昆针对Sora提出质疑，是由于双方所认同的技术路线存在差异。

结合ChatGPT的发展史看Sora，有种历史重演的感觉。彼时，大语言模型行业经历补全类和对话类后，OpenAI利用Transformer（自然语言传送）模型打开了新局面，人们发掘，Chatgpt竟然突破了对上下文语义的理解，而不是词语之间的理解。更令人惊讶的是，这种理解区别于人类的理解方式，它的模式是创立在算法机制上的，经过概率的计算对文本内涵进行揣测和理解。

文生视频行业所依据的两个绘画模型重点是Diffusion Model（扩散模型）和GAN（对抗学习的深度生成模型）。Diffusion Model指的是在有限材料下像学生同样去学习，持续扩散材料；GAN的角色更像是一位老师，经过“批改”的方式将全部模型的稳定度、画面的精确度调节至更高需求。日前所有的文生视频便是从这般的文生图像的连续帧得来的。

针对Sora，OpenAI延续了Chatgpt的技术路线，将Transformer 模型迁移到了文生视频的 Diffusion Model中，让照片更易被理解。这里基本上，OpenAI还做了两项迭代升级。一是在Transformer的架构上增添了对绘画意图标签的理解，二是增添了Space&Time patches（空间与时间的补丁包）。

照片由李桢供给

补丁包的功能在于，大模型在计算画面的同期，基于Transformer 的全部文本的理解方式，把空间下出现的事情的补丁先计算出来，而后推演下一秒钟的情节，随即生成时空行业内的场景数据集，从而选取生成视频所需要的、最合乎理学世界的数据帧，相较于此刻的ControlNet（用于掌控AI 图像生成的插件）对Diffusion Model 的视频处理技术，其能将画面做得更加稳定和逼真。

严格来讲，Sora之于OpenAI原有的技术体系无进行再创造，它是一种组合创新的规律——把原来的模型迁移到视觉模型上，又将原有所说时空的概念打造成为了补丁包的方式，持续的去嵌入和更新。

但从某种程度上讲，杨立昆的观点是没错的。Sora所生成的所有内容都是基于概率计算出来的，事件出现的基本规律与理学世界确实区别。

Edward:Sora本质上不算是AI理解人类的突破，但其高质量跨越生成形态方面的突破可谓将行业推向新纪元。

其底层技术重点遵循对目的照片拆解和拼接的规律。类似最新发布的通用设备人Mobile Aloha。斯坦福团队曾对外暗示该设备人能够完全模拟人类处理非常多家务工作，但其实该设备人背面需要人为操作两个遥控杆。

当下，AI的上限依旧是人类。人类本身针对理学世界仍处在连续探索的过程中，根据Sora的技术规律，暂时没法训练出比人类更智能的AI。

但Sora的进步之处在于，它将视频每一帧的照片赋予了GPT能够理解的文本，这表率着将来每一帧的照片里的元素都能够被文本描述，很大程度上加强了用户针对视频的搜索效率。

怎样理解文生视频行业的中外差距？

李桢：在技术端，我认为日前国际上能与OpenAI相匹敌的企业仅有Meta。由于Meta的开源社区规律有着巨大的增长潜能，就像当年的苹果与安卓。

区别于Sora的技术策略，Meta推出的V-JEPA意在创造架构，随后将Space&Time patches进行迁移实现预测。这种路径虽然不具备Transformer所保持的、由极重数据量支撑全局测算的要求，但架构一旦被输入足够的数据量，其实亦能达到与Sora比肩的效果。

在市场端，咱们日前还没法去评定Sora的详细价值。大众广泛沉浸在Sora带来的美好幻想中，却忽略了一个水面之下的现实问题。

Sora日前无公开报价，而针对走数据集路线的Sora来讲，势必需要强大的算力去支撑。当下所有人都在猜测它的算力，倘若其所需算力的成本比一条短视频的制作成本高非常多，它的可连续性有多强？它的效率有多高？怎样定价相对恰当？

日前来看，Sora无给报价的原由可能有两点。一是OpenAI没法评定怎样定价才会受到市场广泛认可并投入运用；二是基于对手的猛烈攻势，在全面规划未落地的状况下，率先发布内测版本，可能是为了抢夺市场的资金与重视力。

Emma：国产文生视频大模型预计将面临与LLM类似的问题，与国外差距重点表现在算法、算力和算据三方面。

算力方面，英伟达凭借技术优良占据AI芯片行业主导地位，中美科技竞赛背景下，国内厂商暂不具备优良。

算法上，自监督学习机制、模型并行和数据并行优化等核心技术等方面，国外科研团队仍保持必定的领先，不外中国企业在模型架构优化、知识融合、多模态学习等方面亦取得了一系列突破。

算据方面，GPT-4持有100万亿个参数，基本达到人类大脑的规模，而百度的文心一言，华为的盘古大模型参数量在千亿规模的级别，与GPT-3相近。即便达到十万亿级别的阿里巴巴M6大模型，其参数规模仍与GPT-4相差一个数量级。

在文生视频行业，中国企业该怎么样定位？

李桢：这个问题触及到了世界产业分工，国情与文化的区别，造就了中外对基本学科与认识形态存在差异——欧美善于打造天马行空的概念，将科技视作食粮；国内则相对更加注重落地，以应用侧的运用见长。

电商行业中，阿里的AI大模型非常强大，其推出的Animate Anyone和Outfit Anyone开源框架，能将静态图像中的角色或名人进行动态化的展示。基于阿里海量的服装数据，用户只需上传名人照片和服装照片，就可以实时看到虚拟人的换装效果，并可经过动画中的人形动作认识衣服的摆动情况与材质。

让虚拟人根据自然的方式运动亦是非常领先的技术，但和OpenAI、Meta的AI制品显然处在区别维度。条条大路通罗马，国内非常多企业都和阿里同样持有自己的底牌，只是用法区别罢了。

Edward：师夷长技以制夷，中国完全能够持有中国特殊的大模型道路。当技术等级处在下风之时，咱们能够更加注重应用端。从这个方向来看，我反而会认为国内的文生视频企业会更具话语权，国内持有庞大的创作者群体，持有短视频爆发的土壤，相应地具备了更加多视频类语料库。倘若AI能够理解视频指令，每日不间断经过刷视频充实语料库，那样所呈现的算力是惊人的。

另外，国内企业能够经过文生视频打造企业生态，快速实现垂直行业的落地。拿谷歌举例，虽然技术没法与OpneAI相提并论，但谷歌围绕自己生态推出的AI制品持续反哺生态，应用前景常常更加清晰。当行业步入中后期，企业之间的技术差距一般不会太大，手握优秀生态的企业便容易脱颖而出。

从LLM的发展路径来看，国内文生视频可借鉴那些经验？

Yuca：行业初期，企业需按照自己实力提前做好考量与布局规划，按照细分的需求培养竞争力。

例如，大模型企业需具备必定的数据、算力、资金实力，内容创作企业则需具备IP打造能力和创意能力，分发型企业需在合规、准确和效率上提出更高需求。

将来视频模型层迭代速度会火速，大部分人会聚焦在基于视频生成模型的应用场景，制品型和创意型机构会更受关注。

李桢：根据时间线纵向对比，我认为文生视频行业的企业，尤其是国内的企业能够更加开放。但常常国内市场竞争更加激烈，同期中外文化母体区别，对价值的理解程度亦区别。

做为全世界第1的CRM（企业智能数据平台）机构，Salesforce中国水土不适应，原由在于中外对数据资产管理的理解方式区别。大众对“什么东西该开源”“什么东西该收费”的定义没法达成一致，因此只能从长时间视角对企业提出意见，没法苛刻地需求企业短期内做出改变。

透过预制菜与厨师的矛盾，怎么样看待文生视频与人类的关系？

李桢：今年AIGC生成视频很火，但鲜有机构真正将AIGC 文生视频落地。做为为机构提高效率的一个重要手段，直到今年，AIGC赛道才显现有些发展，且发展的主力军局限在文本生成以及文本的自动化工具，由于这部分足够稳定，能够形成生产力，能够实质提高企业工作效率。

对文生视频来讲，要“让子弹飞一会”，当咱们真正科研透彻提示词，才可真正调动AIGC。否则就算Sora的报价恰当，且出图准确，咱们依然会存在将大笔金钱投入在提示词不精细的算力消耗上。

Emma：这种舆论的方向跑在了咱们对AI大模型产生足够的认知之前。针对普通人来讲，经过优秀提示词运用大模型提高工作效率仍存在门槛，当咱们的认知还不足以支撑对工具的运用时，探讨“视频大模型是不是能取代人类工作”还为时尚早。

Edward：文生视频会对现有工作岗位进行升级，或衍生出更加多的新岗位，最后应用到各样丰富的场景中处理民生问题，如农业、教育等，我认为应当把人类的将来交给相应的技术。

4zhvml8 · 发表于 2024-10-9 02:34:40

你的见解独到，让我受益匪浅，期待更多交流。

qzmjef · 发表于昨天 23:33

楼主节操掉了，还不快捡起来！

		自动登录	找回密码
密码			立即注册

Sora面世第7天：谷歌猛烈回击，技术冰山下还有这5个关键问题

浏览过的版块