发布时间:2024-11-25 02:12:57 来源: sp20241125
《中国新闻周刊》记者:杨智杰
发于2024.3.18总第1132期《中国新闻周刊》杂志
没声音,再好的戏也出不来。
在提示框内输入“中世纪小号手”,打开音效开关键,点击生成视频,一个4秒的AI生成视频便跃然于屏幕上。人们不仅能看到一个身穿中世纪宫廷服饰乐手的画面,还能听到乐手吹小号的声音。
北京时间3月10日,硅谷一家AI初创公司Pika lab(以下简称Pika),推出自研视频生成模型的新功能,可同时生成画面和声音。此前,人们看到的所有AI生成的视频都没有声音。此功能尚未向公众开放,但足以让人见识到AI的进化之快。
今年2月16日,OpenAI发布文字生成视频的大模型Sora。根据简单几句提示,Sora便能准确“理解”文本,生成长达60秒的视频,引发全球关注。一些业内人士将Sora的问世称为视频生成领域的“ChatGPT 时刻”。当地时间3月8日,历经几个月的“宫斗”大戏后,OpenAI的创始人山姆·奥特曼重回董事会,继续推进公司实现通用人工智能(AGI)的使命。
Sora的横空出世到底意味着什么,我们距离AGI还有多远,AI的下一步将走向何方?
“大力出奇迹”的再次验证
发布Sora之前,OpenAI并未向外界透露入局文生视频的想法。直到今年年初,全球文字生成视频赛道的焦点,仍集中在Pika、Runway、Stability AI等初创企业身上。
去年11月底,Pika初代文生视频产品发布,用户输入关键词“马斯克穿着太空服,3D动画”,卡通版的马斯克随即出现,在他身后,美国太空探索技术公司(SpaceX)的火箭升入空中,视频只有三四秒,清晰度和流畅度已远超其他产品。彼时,Pika联合创始人孟晨琳接受采访时分析说,“为什么GPT没有用于视频,可能因为他们的资源、人力都集中到了文本模型上。”
两个多月后,Sora惊艳亮相。其技术负责人最新展示的视频中,输入“穿越博物馆的飞行之旅,沿途欣赏众多绘画、雕塑以及各式各样的美丽艺术作品”,AI便生成60秒的长视频,人们跟随镜头,从空中俯冲至博物馆内,在多个画廊、房间穿梭,还会从雕塑边擦身而过。
新加坡南洋理工大学计算机学院助理教授刘子纬对《中国新闻周刊》说,OpenAI入局文生视频赛道,并不令人意外。OpenAI始终标榜要实现通用AGI。“朝着AGI发展,AI不仅要‘读万卷书’,还要看到世界上的种种物理现象。OpenAI一定会在文本、图像、音频、视频等多模态领域发展。视频是发展多模态最重要的一步,包含了世界运转的基本规律。”
Sora生成的视频效果仍令刘子纬感到震撼。刘子纬3年前便开始研究AI视频生成。相较文字和图片,AI视频生成的技术难度最大,对视频数据的分辨率、内容流畅度、一致性要求高,算力需求大。Sora之前,市面上的同类型产品,大多生成的视频清晰度不高,还会出现画面闪烁、人物变形的情况。Sora生成的视频能保持很好的三维一致性。生成的内容,比如水、云的运动,小鸟在林中飞翔等,主体与环境的交互能一定程度上展现物理世界的真实性。
OpenAI在其官网发布的Sora的技术报告中,强调了Diffusion Transformer(基于Transformer架构的扩散模型,以下简称DiT)的重要性,这是由两种模型合成的新模型。两种模型的“合璧”是Sora得以成为爆款的关键。Diffusion(扩散模型)是一种有效的内容生成模型,此前在图片生成领域已展现出强大能力,能生成逼真且高质量的图片。Transformer是GPT这类大语言模型的基础架构。ChatGPT能对答如流,便是因为这一架构能通过预测下一个token(文本的最小单元)出现的概率,更好捕捉上下文信息,生成更符合逻辑的文本。
清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》解释称,OpenAI进行视频数据训练的一大“秘籍”,就是将不同尺寸、分辨率的视频拆分成patch(视觉补丁,相当于token),然后直接输入模型学习。OpenAI官方介绍,Sora可以采样宽屏1920x1080p、垂直屏1080x1920p及介于两者间的所有视频。此外,OpenAI还为训练的视频集中生成字幕,可以提高文本保真度及视频的整体质量。
但业内共识是,DiT模型是个公开的秘密,底层技术上,Sora并没有创新。早在2022年年底,DiT就被提出。当时,美国加利福尼亚大学伯克利分校博士生威廉·皮布尔斯和纽约大学计算机学院助理教授谢赛宁联合发表论文,在文生图领域,创造性地将Transformer与Diffusion融合,一度引发学界轰动。刘子纬向《中国新闻周刊》介绍,去年起,国际上已有团队在探索利用DiT架构训练文生视频模型,包括其所在团队。“这是很自然的选择。”
彼时,文生视频模型有多条技术路径,但受限于算力和数据,DiT路径尚未走通,学术团队和创业公司难以全力投入。OpenAI选择了一条少有人走的路。在刘子纬看来,“Sora背后,与其说是模型的突破,不如说是OpenAI大模型系统设计的胜利”。大模型系统设计,涵盖训练数据的细节,OpenAI在算力、人才组织架构上的积累等。这些因素最为关键,但OpenAI在公开信息中几乎只字未提。
Sora复制了ChatGPT的成功经验,再次验证了“大力出奇迹”的暴力美学,以及OpenAI“遇事不决,扩大模型”核心价值观的可行性。在清华大学计算机系副教授、人工智能初创公司壁智能联合创始人刘知远看来,Sora像是AI视频生成的“GPT-3时刻”,它证明数据的价值,高质量、大规模的数据能训练出一个文生视频模型。
中国科学院深圳先进技术研究院数字所研究员董超长期研究底层机器视觉,目前,正与团队研发多模态模型。他向《中国新闻周刊》强调,选取哪些数据、如何筛选、如何标注,直接影响模型生成的效果。想要大模型生成高质量的视频,要求训练数据分辨率高,场景细节丰富,人、物、景占比协调等,如果一些场景转场太快,也要被剔除。
Pika联合创始人孟晨琳也提到,一些电影中有很多漂亮的视频,但如果大部分都是人站着说话,动作单一,也不是训练大模型的优质数据。此外,版权问题,也会影响企业收集到足够多高质量的视频。
在董超看来,数据背后,人才团队极为重要,“大模型的训练绝不是看上去那么简单,没有经验根本调不通,通常要团队里最优秀的人来做这件事。国外许多科技公司的顶尖AI人才,都会在一线亲自处理数据,写代码”。
据OpenAI官网介绍,Sora的核心团队共15人。公开资料显示,团队的成立时间尚未超过1年,三位研发负责人中,两人都是2023年从加利福尼亚大学伯克利分校博士毕业,其中一人便是前述DiT论文的作者之一威廉·皮布尔斯,另一位蒂姆·布鲁克斯曾在谷歌工作近两年,在伯克利读博期间,主要研究方向就是图片与视频生成。布鲁克斯和另外一位研发负责人阿迪亚·拉梅什都是OpenAI开发的文生图模型DALL-E 3的创造者。
从GPT-3、GPT-3.5再到GPT-4,OpenAI积累了丰富的大数据训练、生成与治理能力,这是支持Sora的“基础设施”。“Sora团队只有十几人,就说明,OpenAI给他们提供了重要的底层支持,组织架构、人才管理、基础设施,这才能让有想法的人,真正做出能影响世界的成果。”刘子纬对《中国新闻周刊》说。
通用人工智能加速到来?
现阶段的Sora并不完美。OpenAI官网公开的生成视频中,Sora会产生不符合常识的幻觉,比如生成的椅子会变形,水杯摔碎前,水已洒在了桌面,明显不符合物理学原理。公开的技术报告中,OpenAI写道:Sora可能难以准确模拟复杂场景的物理原理,或难以理解因果关系,分不清左右,也可能难以精确描述随着时间推移发生的事件等。
这与ChatGPT一本正经地胡说八道相似。清华大学人工智能研究院常务副院长、计算机系自然语言处理与社会人文计算实验室负责人孙茂松向《中国新闻周刊》解释,这是基于Transformer架构模型的“硬伤”。科学家曾希望人工智能像人类一样能“演绎推理”,但努力多年,依然无法实现。Transformer成功让AI产生了令人惊艳的生成能力。但硬币的另一面,它不会像人类一样思考,会产生幻觉。
在孙茂松看来,Sora目前的另一个短板在于可控性差。如果让Sora生成一个复杂的场景,比如根据写好的剧本或小说生成电影,Sora目前还做不好。Sora模型的运行方式与人类思考方式截然不同,模型根本不知道有物体存在。孙茂松举例说,比如要生成的故事中有5个人,有不同的故事线。Sora之后有可能只生成了4个人,或者随着时间发展,无法准确连贯地呈现某个人应做的动作。
但从另一层面看,1分钟的视频虽然不长,对AI文生成视频已算巨大飞跃。“如果按照目前生成的水平,将时长从1分钟延长到5分钟,只需增加算力就可实现。本质上是让模型不断地预测下一帧。”孙茂松说,但如果要对生成视频进行精准地控制,就不只是算力的问题,对算法也提出了更高要求,技术还要发展若干年,如果这一问题解决,这将是超越ChatGPT的突破。
Sora引发业内轰动,更在于OpenAI将其定义为“世界模拟器”。OpenAI写道:经过大规模数据训练后,Sora涌现了新的能力,能模拟一些来自物理世界的人、动物和环境的某些方面。比如Sora生成一个人在吃汉堡,不仅会呈现人吃汉堡的动作,还会考虑到生成咬痕。这些能力的涌现,是在没有明确数据标记的情况下产生的。OpenAI坚信,持续扩大视频模型,是开发高性能物理和数字世界模拟器的有力路径。
刘子纬解释,OpenAI强调世界模拟器,与其要实现AGI相关。但Sora是不是世界模拟器,仍存在争议。英伟达人工智能研究院首席研究科学家Jim Fan表示,“Sora能模拟出无数个真实或虚构的世界”。图灵奖得主、Meta首席科学家杨立昆认为,“通过生成像素来对世界进行建模是一种浪费……注定会失败。”上海人工智能实验室领军科学家林达华表示,“Sora 是一个视频生成方面的里程碑式突破。但是生成逼真的视频,跟掌握物理规律,以至实现 AGI,那是完全不一样的事情,之间有着巨大的鸿沟……我们测试 GPT-4 越深入,就越觉得人类离 AGI 还很遥远。”
目前,学界和业界对于什么是世界模拟器,还没有定论。这背后更本质的分歧,还在于如何定义AGI。以杨立昆为代表的科学家认为,AI要系统去理解人类世界的运作原理,而不是一台学习了大量人类知识的超级机器。以OpenAI为代表的一方认为,AI不用知道背后的物理规律,只要能不断地很好地预测下一帧,还原世界的变化,就能帮助人类达到 AGI。
今年全国两会中,对于何为AGI,全国政协委员、北京通用人工智能研究院院长朱松纯给出的答案是:人工智能在日常物理和社会场景中能完成无限任务、能自主发现任务,即“眼里有活”、有自主价值驱动。今年1月底,北京通用人工智能研究院在京展出了全球首个通用智能人的雏形——小女孩“通通”。朱松纯称,“通通”具备三四岁儿童完备的心智和价值体系,目前还在快速迭代中。在他看来,日常生活中最习以为常的能力背后,其实都是AGI要研究的核心技术问题。“实现通用人工智能,关键在于为机器‘立心’。”
一个共识是,Sora一定程度上体现了真实世界的物理规律。“但并没有上升到成为它的行为准则,让它能理性地去建构世界。”刘知远对《中国新闻周刊》说。刘知远并未完全否认Sora这一模式,他类比人类理解世界的方式,同样分为不同层次和阶段。人们上学前,通过与世界交互,比如扔一个苹果,苹果掉在地上,从感性上感知重力;上学后,从课本上学习万有引力、相对论等物理规律,认知会升华。
当一个模型初步具备了语言能力,并具备了较强的感性知识,像OpenAI这样不断扩大模型,是否是走向世界模拟器的唯一出路?刘知远认为,从长期来看,“大力出奇迹”显然不可持续。科学家有没有可能通过其他方式,让大模型建立起对世界的理性认识,更值得探讨。刘子纬也提到,如果短期内,OpenAI希望Sora做得更好,可能需要两条腿走路,让模型靠数据驱动的同时,输入一些教科书里的物理世界规律等理论知识,探索更多可能。
2022年下半年,孙茂松便在许多场合预测,多模态大模型,尤其是文生视频模型在2024年会迎来一个突破。他向《中国新闻周刊》解释,从文字、图片再到视频生成,这是多模态技术合乎逻辑的走向,但接下来AI会在哪一领域突破,他不敢确定。
具身智能,可以理解为在物理世界运行的不同形态的机器人,融合了AI各种能力,被不少人看作AI的下一个进化方向。当地时间3月1日,OpenAI公开发文称,正在和人形机器人初创公司Figure合作,开发下一代人形机器人的人工智能模型,将他们的多模态模型扩展到机器人感知、推理和交互。在孙茂松看来,多模态大模型可以通过预测下一个token,判断机器人接下来的行动轨迹,这在专用场景有可能实现。但现实世界太复杂了,能否在通用场景下走通,还要打个问号。
与此同时,Sora的出现,再度加深了人们对深度伪造的恐慌。AI生成视频的门槛变得更低,足以以假乱真,鉴定难度也在增大。刘子纬向《中国新闻周刊》提到,近两年,他们团队也曾和一些机构合作,做深度伪造的检测,“当时相对好辨别,一个普通人如果对着视频看足够久,可以发现其中的破绽”。目前,Sora生成的视频虽有破绽,但质量明显提升。在刘子纬看来,整个社会需要提升对AI安全性的认识,学界或业界目前可以做的是,在设计时就提高对AI安全性的考量,比如为AI生成的视频添加数字水印或用于安全认证的二维码等。
ChatGPT的发布曾引发全球对生成式AI监管的讨论,因此,OpenAI如今更加谨慎。设计大模型时,为了提升安全性,技术人员会与“红队”人员(生成错误信息,仇恨、偏见等内容的专家)合作,对模型进行对抗性测试,以便从中发现系统中潜在的危险性,以及可能被滥用的种种可能。
放弃“打篮球”,学会“下围棋”
“OpenAI在不断前进,Sora让大家又一次感受到,他们没有停下,而且,前进的速度看似更快。我们之间的差距仍然存在。”国内知名大模型公司智谱AI相关负责人在接受《中国新闻周刊》采访时坦言,Sora发布后,公司最关注的是,认清差距和方向,继续追赶。
刘知远也向《中国新闻周刊》提到,中美AI的差距始终存在,中国也面临算力等“卡脖子”问题。不过,与十年前相比,近年来,中国在AI人才储备、科研成果等方面,与美国的差距已经缩小。从全球范围看,其他国家乃至美国的其他科技公司,也在追赶OpenAI。
OpenAI的先发优势决定了,其他竞争者想要复刻Sora,并不简单。在刘子纬看来,如果只是从模型层面复刻并不难,Dit有开源代码,许多团队也都探索过。但模型就像冰山一角,冰山底下很庞大,如何把聪明的人才聚集在一起——有人擅长做数据,有人擅长训练模型等,每个人发挥出最大的聪明才智,才是关键。刘子纬估计,如果想要复刻Sora的80%,认真搭建底层系统,大概在1年内能实现。
中国为何没有做出Sora?在董超看来,首先是人才的差距。Sora团队的几位博士生都有在一线训练文生图大模型的丰富经验,这类人才在国内,一个人往往要带几十人的团队,很难在一线。其次,OpenAI人均算力资源量非常大,OpenAI团队共700多人,即便是内部的小团队,也可以用几千张GPU(图形处理器),尝试各种创新方案,OpenAI也有足够的耐心。今年2月,《华尔街日报》曝出,OpenAI正计划募资高达5万亿到7万亿美元,打算亲自下场造芯片,为GPT的发展打造更充足的算力。
相比之下,国内算力资源紧张,如果一个团队拿到1000张GPU,相当于占用了很大的资源,所做的项目会被外界格外关注,如果3~6个月还在训练最初的模型,不出成果,资源很可能就会被收走,这导致研发人员很难冒险做一些创新。
董超还提到,正确的道路往往风险大、周期长,一般团队很难敢做这样的决策。“文生视频模型就是典型案例,OpenAI走的就是完全纯粹的文生视频模型,重新训练,收集大量数据,经过近一年尝试才出成果,一旦成功,必然是颠覆性的。”相比之下,国内科研氛围浮躁,想三五个月就赶超国外,这样只能在人家的工作上修修补补,套壳做山寨,也容易造成内卷,难以形成技术壁垒。
2022年底, ChatGPT爆红之后,国内涌现出上百家大模型厂商,试图打造中国版的ChatGPT。但一年后,在大语言模型上中国企业仍未真正追赶上GPT-4。在刘知远看来,如果一些投资者或从业者因为惊叹Sora的能力,只看到表象,便一窝蜂要做中国版Sora,那只是头痛医头,脚痛医脚。如果国内只是跟随OpenAI在商业模式上的创新,不在底层技术上持续投入,那中国就永远做不出GPT-4和Sora。“哪怕我们是复制,也要在对的方向上追赶。”刘知远说。
在董超看来,不要高估Sora的作用,低估OpenAI的技术储备,更要关注其为何能产出Sora背后的逻辑。如果只是盯着Sora本身,很可能一年后,OpenAI又会扔出另一个“炸弹”。
赶超OpenAI并不容易。自2019年OpenAI转为营利性公司后,公司就放弃了开源策略,发布的GPT-3、GPT-3.5、GPT-4都不再开源,甚至不再公开模型参数。OpenAI甚至被埃隆·马斯克戏称为ClosedAI。今年2月底,OpenAI原董事会成员马斯克甚至起诉OpenAI及公司CEO和总裁,马斯克斥责OpenAI违背“初心”,要求OpenAI恢复开源并给予赔偿。随后,OpenAI回应称,随着大模型能力的增强,如果开源,会让一些不道德的人使用大量硬件来构建不安全的人工智能,因此,减少开放是有意义的。
大模型是否开源,在国内外引发巨大争议。AI的发展离不开开源,依托于开发者社区,全球科研人员都能持续贡献代码,帮助解决问题,打造更透明的人工智能,并对抗大公司的垄断,OpenAI创立时也是开源的坚定支持者。但闭源大模型路径能集中公司的资源,通过内部用户数据的迭代实现持续发展。
去年以来,Meta、法国新兴AI公司Mistral等AI公司相继推出开源大模型。2月21日,谷歌发布号称“全球性能最强大、轻量级”的新一代开源模型Gemma,都有向OpenAI宣战的意味。不过,公认的现实是,目前,开源模型的实力仍不及闭源模型,甚至有从业者曾直言,开源模型永远无法赶超闭源模型。在刘子纬看来,开源大模型有重要价值,它就像电力系统一样,为更多研发者提供一个“基础设施”,来对抗大科技公司的垄断。他判断,开源模型的发展会越来越好,尽管达不到闭源模型的水平,但未来开源大模型在某些特色能力上可能会赶超闭源大模型。
多位受访者提到,与美国相比,中国的优势在于,商业应用场景多,国内一些大模型厂商可以更好思考如何服务用户,但仍需要有企业在自研大模型上修炼好“内功”。沿着当前大模型“大力出奇迹”的趋势,OpenAI“技术爆炸”不会长期持续。虽有先发优势,但不代表它无法被追赶,如果一步步打好基础设施,未来差距会逐渐弥合。
2023年一次关于科技创新的讨论中,朱松纯提到,如果继续沿用过去“跟跑—并跑—领跑”的路线,就形成一种“打篮球”的科研模式。篮球代表科技热点,控球方始终是科技强国,我们的队伍一直追着篮球满场跑,不但会失去定力,频繁更换方向与技术过程中还会跑散了队伍。更重要的是,控球方已完成了软硬件生态的布局,形成了新兴产业“卡脖子”势态。
朱松纯认为,要放弃“打篮球”的战术,学会“下围棋”的战略,注重全局,不盲目“跟跑”当前以“大数据、大算力、大模型”为特征的人工智能热点,要从一味忙于“补短板”的防御战略,转为同时注重“构筑长板”的进攻战略,独辟蹊径,探索一条自己的创新道路。
《中国新闻周刊》2024年第10期
声明:刊用《中国新闻周刊》稿件务经书面授权 【编辑:梁异】