作者:唐鹏 数旗智酷创始人

从ChatGPT的“文生文”、Midjourney的“文生图”到Sora的“文生视频”,AI大模型作为媒介的延展能力似乎已经漫过了人类的期待,似乎除了洗碗、扫地与搬砖,写一篇文章或制作一部电影都是AI大模型轻而易举的事情。

马修·鲍尔曾在《元宇宙改变一切》一书中提出元宇宙的八大要素:虚拟世界、3D、实时渲染、互操作性、大规模扩展、持续性、同步性、无限用户与个体存在。对于 Sora 而言,“世界模拟器”的判断与愿景是否成立,在于 Sora 是否可以与物理世界实时联通并实现互操作。而目前,Sora 只是凭借“remember by heart”的能力把自己理解的世界复述一遍,但并不包含“持续存在”与“实时渲染”。但是,我却隐隐觉得“世界模拟器”应该就是奥特曼号称的“7万亿美金芯片计划”的一部分。

ChatGPT 曾一夜之间让 NLP(自然语言处理)行业“怀疑人生”,Sora 对数字孪生/城市仿真/CIM产业的影响又将如何呢?那些在创意、测试、验证阶段的建模似乎都可以由 Sora 去尝试完成了。我认为,不要执着于 Sora 视频的生成方式不够完美,不要嘲笑官方视频里那个杯子倾倒方式的蹩脚,不要在乎 Sora 目前还只能生成60秒视频……因为火车刚刚上路的时候也跑不过马车。

“视频化世界”似乎并不能解释 Sora 开启的未来,“视频即世界”或许才是真相。Sora 的文生视频将导致意识形态、文明与传统的转折:首先是人类未来的生产方式是什么?生产与消费的关系是什么?如果一项服务或产品在生产之前就可以模拟其在现实世界的流通、交付、消费方式,以及对社区和城市的影响,那么将会如何影响市场与消费观念?

其次是表达方式的切换。所谓“成功人生”,中国人自古都有“立功立德立言”的心结,未来的新人类为世界留下的是不是一部电影?一部人生纪录片?你所有经过的地点、遇到的人和事都在物理空间一一映射……一个人的文字能力与文采已跟表达无关,我们只需要记住与自己有关的关键词,就可以生成一个以自我为中心的世界。人类的文字与语言是否将会以关键词的片段与组合为主,而非连续性的叙述。就像互联网与社交媒体传播语境带来的表情包、网络梗语等一样,Sora 文生视频是否将带来新的社交信号传递模式?

再次是人类的存在方式。人类文明迄今为止都是基于文字与语言的传承,那些在墓穴和土坑里挖出来的,除了骨头、酒具,然后就是各种骨头、石头和竹片上的文字。《人类简史》作者尤瓦尔·赫拉利认为,“人工智能正在入侵人类文明”,因为 AI 作为内容生产主体而非渠道或平台,开始介入法律、圣经、音乐、艺术等制作,那么,文明的传继方式也许的确会发生改变。就像《茶馆》的作者王笛认为“短视频可以让100年后的历史学家拥有更丰富的研究材料”一样,Sora 是否将成为微博、微信之后更为形象与立体的个人记录。只是这些视频资料不会保存在墓穴中,而是保存在某个机房的硬盘上。

凯文·凯利在他的著作《5000天后的世界》中提出了“镜像世界”的概念。在他看来,将现实世界与人造事物相混合的“混合现实”(MR)将成为下一代平台,而他将之称为“镜像世界”。他认为,镜像世界的实现比 VR、元宇宙更为困难,每一位用户都将成为其构建者,利用虚拟世界对现实世界的映射共同绘制完整的世界地图。或许对于大多数用户而非创造者而言,“编程”的技能门槛进一步降低,文字与语言成为一种开启“镜像世界”的编程语言。不同文字所能表达和抵达世界的深度,将影响他们参与未来世界与创造思想的能力。

我更想知道是,如果与城市服务平台、数字治理平台、智能视频库进行实时在线连接,那么,Sora 的生成式视频对未来城市与社会的运行意味着什么?

对于数字政务服务而言,Sora 带来的启示是什么?在政务公开领域,原来以“文字转图片”、“动画视频”等方式进行政策解读的模式,不仅无法实现预期的解读效果,而且与物理世界的鸿沟巨大,制作成本高,但成效不大。此外,政务服务平台的办事指南涉及的大量文字信息即使转化为白话文依然无法构建良好的用户体验,如果文生视频可以针对用户的办事需求直接生成与物理世界结合的办事流程、注意事项与服务导引,再与VR、AR融合应用,这将是在线政务服务体验提升的跨越式发展,可能对智能咨询与问答的需求也将递减。

就城市数字化治理角度而言,Sora 的文生视频除了可以利用城市运行视频数据的训练之外,对一些突发事件、应急管理等提供一定的决策支持与预测辅助——比如可以结合城市事件的类型、级别、地点、影响范围等,再与物理世界的管理规则、秩序规范等结合,可以模拟出事件的演变发展路径、解决方式以及可能影响。Sora 对目标场景多个镜头、主体统一的视频化展示,而目前城市智能视频针对目标事件只可采用不同机位的摄像头进行组合分析,而 Sora 如何结合视频数据、物理空间以及实时场景进行生成,我们将会迎来怎样的城市治理未来?

此外,相比于数字孪生、城市仿真以及 CIM 技术的高昂成本,Sora 可以在设计和草创阶段大大降低创意成本,并可以在前期研究阶段生发出多种解决方案思路设想,在城市治理路径选择中,可以以最低成本方式切入模拟出对城市规划、产业、环境、安居等多重因素的交互影响,实时调节不同要素之间的关系,以便选择最优的治理路径。尽管,Sora 大致可以模拟出我们“想要的城市”,但不容回避的依然是城市的暴力、偏见以及官僚主义,而这些则来自每一个决策者、管理者与设计者的内心。

对于社会治理而言,Sora 可以给我们提供哪些想象力?如果 Sora 的训练数据集、渲染引擎等与城市社区深度结合会怎样?是否会让类似“买房落户”、“网络游戏禁令”等政策产生的“反身性”降到最低?对于建筑垃圾倾倒、化工厂选址、交通路线规划等公共事件,Sora 如何结合目标区域的物理空间、公众舆论、人群特征、行政信任环境等数据,是否可以模拟形成一个让政府可预期、让公众可信任的解决方案?

从抽象表达到形象展示,Sora 文生视频无疑可以会让人类的表达更有效率,但Sora 会让人类的表达更有想象力和创造力么?我觉得不会,尽量“一图胜千言”已成为读图时代的信仰,而短视频也不在不断驯化人类的理解能力与自我意识。但相对于文字的张力,我认为视频对想象力的具体化视觉呈现反而成为对想象力的“禁锢”。就如当我们描述“春天”,我们可以描述青草、绿地、溪水、微风、蓝天、白云等意像,但“春天”不仅仅只有这些,春天还包括河流解冻的瞬息,以及春风拂过山岗后的生机。Sora 如何生成这些独独属于每个人的内心可以感受到的不同的东西?

Sora 文生视频作为作为一种理解和表达世界的工具与载体,它由一种专业化服务转变为一种日常化行为,从拍摄视频、制作视频到创作视频,从 ChatGPT 到 Sora,AI 大模型的技术演进过程中存在着一种悖论——越是看似要取代人的技术就越离不开人。

《这就是 ChatGPT》的作者史蒂芬·沃尔弗拉姆提出“计算不可约性原理”,“人类、AI、自然界和社会等各种计算系统具有根本的不可预测性,始终存在‘收获惊喜的可能’。人类可贵的,是有内在驱动力和内在体验,能够内在地定义目标或者意义,从而最终定义未来。”也就是说,我们真正应该惊异或担心的不是 Sora 以及未来正在轰鸣而来的其他大模型,是我们有没有信心、勇气和智慧去为自己定义未来。

有专家将 Sora 出现定义为 AI 大模型“睁眼看世界”的开始,从文生视频、静图动态化、3D化展示等能力来看,从 ChatGPT、Midjourney到Sora,从基于已有文本、图像和视频信息,以及人类语言习惯与审美习惯的拼接、重构、联想与再创造,Sora 向物理世界原理跨出的这一小步的确意味着 AI 大模型重新认知世界的一大步。

人生与游戏的区别在于:如果我在游戏中挂掉了,游戏依然可以重启继续;如果我在现实中挂掉了,游戏就结束了。我们所看到的 Sora 现在仍然是一个“未完成”的“离线”世界的工具,离 Sora 技术文档中提到的“世界模拟器”的狂想还有距离,而当某一天它可以“在线”成为物理世界与数字世界的“旋转门”的时候,世界的新游戏篇章就真正开启了。

当年 IBM 把脱胎于资本主义意识形态的“智慧城市”概念包装的服务器主要卖给了社会主义阵营,今天英伟达要把“主权人工智能”包装下的 GPU 卖给四分五裂的自由主义世界?几个月前我们刚刚以“千模大战”以及各种参数“领先”回应了 ChatGPT 的崛起,今天,我们将以什么来回应 Sora?