美国OpenAI公司最近发布“文生视频”大模型Sora,又一次引起各方对人工智能问题的广泛关注和热烈讨论。笔者也谈点看法。
客观理性看待人工智能技术。近些年,生成式人工智能以超乎人类想象的速度和规模迅速发展。以生成式人工智能为代表的科技革命正在加速演进。对人类文明的影响堪比火的发现和使用、青铜器发明和使用、蒸汽机发明和使用、互联网发明和运用。如果说火的出现使人类结束了茹毛饮血的原始状态,青铜器的出现使人类农业文明得到了空前的发展,蒸汽机的出现使人类进入了工业文明时代,互联网的出现使人类进入了数字经济时代,那么人工智能的革命,特别是生成式人工智能的出现,将把人类社会带入到一个更新更高层次的时代,这个时代或许可以称作为“硅基”经济时代。如果说第四次产业革命已经到来,那标志性的技术就是人工智能,特别是生成式人工智能。过去三十年发生了三个一百万倍,计算机的算力增强了约一百万倍,存储容量增加了约一百万倍,通信速度增加了约一百万倍。海量数据采集、“硅基”超强算力、算法,让人类社会的工作、生活、学习都发生了天翻地覆的变化。人工智能为代表的科技革命已经和正在颠覆人类传统的认知。在我们刚刚熟悉互联网、大数据、云计算,还没怎么完全弄明白区块链、元宇宙的时候,ChatGPT(聊天生成预训练转换器),GPT4横空出世了。美国OpenAI人工智能公司推出的ChatGPT不仅是人工智能领域的一个巨大的飞跃,“硅基生命”将会取代“碳基生命”的奇点会不会出现?何时出现,出现后会发生什么,目前是仁者见仁,智者见智。OpenAI正在开发一款比GPT4更强大的GPT5。据悉,该系统已经完成了对人类网络上所有视频的学习,可以瞬间标记出所有它看过的视频中的一切声光信息,并且能够准确预测任何一个人的未来行为和寿命。这一动态引发了人们对于AI的恐惧和担忧,有人甚至认为,GPT5将是人类智慧的终结者,最终无生命的“硅基生命”取代“碳基生命”的人类在这个世界上的地位和作用。就连号称“AI教父”的辛顿也认为,面对“失控AI”,拔电源就好,恐怕你做不到!恐惧归恐惧,担忧归担忧。但不可否认,GPT5令人惊叹地展示了AI技术的巨大潜力。以至于以辛顿、马斯克、比尔·盖茨等一大批科学家联名建议,对GPT5开发或许应放慢脚步,认真研究一下可能会对人类社会的危害。
当人们的注意力刚刚开始集中在GPT5的时候,2023年12月7日,谷歌公司推出的多模态人工智能大模型Gemini一夜爆红,再次引起全球轰动,成为人工智能领域又一项重大突破。其多模态推理能力,理解文本、图像、音频等内容的能力和高级编码能力,不仅有助于理解复杂的书面和视觉信息,在大规模的数据提取中识别微小的差异点,通过阅读、过滤和理解信息,从成千上万的文档中提取独到的信息和见解,有利于未来在从科学到金融等众多领域以数字化的速度实现新的突破,而且经过训练,Gemini可以同时识别和理解文本、图像、音频及更多内容,更好地理解细微信息,回答与复杂主题相关的问题,并擅长解释数学和物理等复杂学科的推理。同时,还可以理解、解释和生成主流的编程语言(如Python、Java、C++和Go)的高质量代码,能够跨语言工作并推理复杂的信息。这种人工智能引领的日新月异的科技革命,确实正在刷新人类的认知。其催生的生产力的革命性变革及由此对社会生产关系调整的巨大推动是大势所趋。
前不久OpenAI又推出了一款“文生视频”Sora,使关于人工智能的讨论再次成为热门话题。关注度主要集中在Sora可以按照文字指令生成长达1分钟视频的强大能力。有的认为Sora创新的模型架构为大模型的发展开辟了新道路,也有的认为Sora的推出让通用人工智能(AGI)到来的日期大大提前。360创始人周鸿祎就声称,Sora的诞生意味着AGI实现时间可能从10年缩短至一两年。当然也有种看法认为Sora只是OpenAI的一种营销炒作。其实“文生视频”早已有之并不新鲜。业内已经存在Runway和Pika等功能相似的AI视频生成、视频编辑模型。这些模型可以基于文本提示、2D图片等生成短视频,由静态图像衍生出动画,修复、替换或插入新的视觉元素,以及将镜头扩展到原始帧之外,填充上下文相关内容的“画外画”等。Runway去年8月推出的第二代模型,每次就可生成最高18秒的视频。相比之下,Sora的升级和突破之处在于,可以一次性生成一分钟的视频。视频的质量和逼真度更高,更像真实世界,还实现了“时空一致性”,也就是即便对视频进行扩展,它也能够赋予模型“前瞻性”,确保视频主题在画幅外也能保持不变。Sora发布的“时尚女性走在繁华街头”的视频示例,就很像是一部广告短片或电影片段,人物和场景基本上挑不出明显问题,身体的运动、头发的细节、霓虹灯反光显得尤其逼真,这是“碾压”吊打Pika和Runway等其他早期模型的地方,也是在过去不可想象的。
毫无疑问,Sora将促使人工智能进一步引领新一轮行业变革。拥有强大功能的Sora已然具备了通过AI创建电影的可能性,令IT界、艺术界、广告界、影视界和普通爱好者兴奋不已,特别是对影视、视频、广告等行业或将带来不小的冲击。与此相关的产业感到担心是很自然的。这些输出的视频可以作为“镜头”缝合成一部电影。这也是人们对于Sora功能的预测感到“惶恐”的地方。毕竟与之前的同类工具相比,Sora似乎带来了巨大的飞跃。的确,由文生文本、文生图像到文生视频,又由秒视频到分甚至更长时间的视频,确实是个飞跃。单纯从目前的视频输出样本来看,Sora是迄今为止最令人印象深刻的视频生成模型,其“现实主义效果”将有望在高端娱乐中发挥作用。从而改变行业的业态,催生出新业态、新赛道,甚至对某些行业产生颠覆性的影响。
但对Sora影响也不能谈虎色变。人工智能还是有他的自身局限性。这种局限性使其不可能无所不能取代人脑智能。像电影制作,无论规模还是技术,这种使用文本提示和条件参数生成的视频,要保持角色和场景的连续性是个难题。除了连续性不足,Sora模型还会“误解”现实世界里的造型和行为,在图像和视频输出中出现肉眼可见的“物理性失败”。近日网络上也在热传一个Sora模型的“失败案例”。镜头中的椅子仿佛有了生命般走动,完全超出真实世界的物理可能,画面中还有人甚至“凭空消失”,此类“失误”除了让人哑然失笑,也说明Sora想要创作出类似电影的东西从而颠覆影视业还有很多问题要解决。此外,版权等法律方面问题也直接影响Sora的使用。在实际运用中,如果Sora快速生成概念图、角色造型和分镜动画,帮助创作者挑选方向也许还可以,但如果某个有趣的概念角色、场景真的被选中用于实拍,无论是电影、电视还是游戏制作,依然面临侵权索赔和版权保护追溯的风险。因此要客观看待Sora及其影响。今年1月谷歌发布AI视频模型Lumiere时,就坦承“使用这一技术时,的确有创建虚假或有害内容并被滥用的风险”。
除了Sora,对其他技术路线的人工智能也引起高度重视。现在的包括Sora在内的GPT,Gemini,Neuralink三条技术路线。谷歌DeepMind推出Gemini拥有「视觉」和「听觉」,还有学习和推理能力。最大亮点之一就是原生多模态大模型,具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调。现在最值得关注的是马斯克弄的脑机接口(Neuralink)技术。目前已开始人体试验,这将打破人机界限。Neuralink恐怕才是继OpenAI的GPT、Sora和谷歌的Gemin之后,新的全球关注热点。人类患者已经接受了大脑植入芯片,为未来的神经科技应用开启了无限可能。芯片与大脑的无缝对接,重塑因神经系统疾病或损伤而失去的功能,将使人类社会正步入一个崭新的科技纪元,人与机器的界限在这一刻变得模糊不清。
认为Sora只是OpenAI的一种营销炒作也有一定道理。SamAltman前不久表示,自己需要7万亿美元建起全球的芯片帝国,他已经在全球搜罗金主,包括中东土豪。7万亿,7后12个0,这是什么概念?2023年全球芯片的销售额达到了5270亿美元,预计到2030年会增至每年1万亿美元。根据行业组织SEMI的估计,去年全球半导体制造设备的销售额约为1000亿美元。据说OpenAI早已陷入芯片荒。训练GPT-4,用了大约25000块A100GPU。而训练GPT-5,还需要5万张H100。如今,英伟达的H100售价为2.5万至3万美元。7万亿美元的巨额投资,已经远远超出当前全球半导体产业的规模。根据证券行业和金融市场协会的统计,去年美国公司总共发行了1.44万亿美元的债务。而美国市值高技术产业TOP2的两家公司微软和苹果,市场总值也不过6万亿。在缺芯片缺投资的情况下,适时的推出Sora,对于融资来讲,也许不失为一种非常高明的营销策略。
我国人工智能发展的机遇和挑战。对我国而言,生成式人工智能将革命性地推动科技创新和产业创新,特别是以颠覆性技术和前沿技术催生新产业、新模式、新动能,促进新质生产力发展。2024年1月22日国务院常务会议,研究部署推动人工智能赋能新型工业化有关工作。强调要以人工智能和制造业深度融合为主线,以智能制造为主攻方向,以场景应用为牵引,加快重点行业智能升级,大力发展智能产品,高水平赋能工业制造体系,加快形成新质生产力,为制造强国、网络强国和数字中国建设提供有力支撑。我国已经成为人工智能领域的大国之一。党的十八大以来,我们国家在基础研究方面的投入巨大,人工智能的发展有了非常好的沉淀。一些关键核心技术,中国已经走在了世界前列,比如说人脸和语音识别技术。中国人工智能的发展与各行各业的结合和渗透是非常高的,其应用和推广也不亚于其他国家。我国人工智能发展的创新生态环境已经初步形成。如百度的无人驾驶、阿里的城市大脑、腾讯的智能医疗、科大讯飞的语音识别、云知声的物联网、商汤的图像与视频处理等开放平台以及华为、寒武纪、海康威视等实体经济领域平台已经创建。全球人工智能指数排名,中国属于第一梯队,紧随美国,在人才、教育、专利产出等方面均有所进步。中美两国引领、呈梯次分布的全球人工智能发展总格局保持不变。四大优势护航中国人工智能发展。第一个是政策优势,人工智能已被列为国家优先发展事项。第二个是海量数据资源优势,中国人口是美国的四倍多,手机群体和手机消费、支付量也是最大的,拥有庞大的消费、出行、医疗、旅游、物流等数据资源。第三个是应用场景优势,我国是发展中国家,很多基础设施还不够完善,这恰恰给人工智能的应用提供了一些深度场景。比如城乡的基础设施、医疗、教育、民生服务等领域的问题,人工智能系统的介入,问题可以快速得到解决。第四个是青年人才优势,我国高等教育毛入学率已达59.6%,而且学理工科的学生比例很高,这是一个非常大的人才储备库。国家自然科学基金委员会专门设立人工智能一级学科代码,资助相关基础研究、前瞻性探索和应用研究。当前,我国在载人航天、探月探火、深海深地探测、超级计算机、卫星导航、量子信息、核电技术、大飞机制造、生物医药等领域取得一系列重大创新成果。我国新能源汽车生产累计突破2000万辆、工业机器人新增装机总量全球占比超50%、超高清视频产业规模超过3万亿元、第一批国家级战略性新兴产业集群已达到66家,彰显产业基础好、市场需求大的独特优势。此外,备受关注的锂电池、光伏、新能源汽车等“新三样”行业近年来发展比较快,在国际市场上形成较强竞争力。2023年,我国出口机电产品13.92万亿元,增长2.9%,占出口总值的58.6%。其中,电动载人汽车、锂离子蓄电池和太阳能电池等“新三样”产品合计出口1.06万亿元,首次突破万亿大关,增长29.9%。人工智能推动的战略性新兴产业和未来产业不断发展壮大,已经为新质生产力的发展奠定了良好的基础,并展示出广阔的发展前景。
当然既要看到生成是人工智能带来的推动科技创新、产业结构优化升级,新质生产力发展的巨大机遇。也要清醒认识其挑战。这种挑战有技术的,有伦理的,也有社会政治的。百年变局中,最大的变局是人工智能为代表的科技革命引发的世界范围内的经济社会系统性变革。人工智能引发的科技革命之变是比世界之变、时代之变、历史之变更大更深刻的变。纵观人类历史,每一次重大科技革命,都给社会生产力发展带来空前的提升和进步,也由此对经济社会发展产生巨大的变革。要高度重视科技革命特别是人工智能突破性变革的影响和冲击。进入21世纪以来,全球科技创新超乎人类想象,空前密集活跃,科技革命对世界格局、国与国关系、对一国经济社会发展和百姓生活的影响范围之大、程度之深前所未有。
人工智能引起全世界科技领域空前激烈的竞争。从2013年起,世界许多国家政府,尤其是发达国家纷纷调研人工智能对社会、经济可能带来的颠覆性影响,相继发布符合自身国情的人工智能战略。这两年我们很关注乌克兰局势和哈以加沙地带冲突的炮火连天,或许忽视了以大模型开发利用为特征的人工智能领域“你死我活”硝烟弥漫的竞争。我们很担心地缘政治冲突会不会引发世界大战,但科技领域的“世界大战”事实上已经打响。刚才提到,ChatGPT与Gemini的竞争已经白热化。这种竞争外溢,会引发人工智能领域,科技革命领域的前所未有的“世界大战”。受ChatGPT的刺激,我国各大科技公司也开发出了自己特有的人工智能模型,大大小小已经有几十个了。但不可否认也令人难过的是,目前在人工智能方面,无论从数据量的收集采纳、算力和算法,还没有哪一个可以与ChatGPT比肩,甚至毫不夸张地说,所有这些模型加起来,跟ChatGPT还有相当大的差距,更不要说Gemini。虽然在个别领域我们在国际上领先,但就整体水平而言,我们落后国际先进水平至少还有1-2年的时间。美英等西方国家还是领跑者,我们只是跟跑者。这种差距将很快成为生产力的差距,经济实力的差距。这种状况不仅决定当下经济实力的比拼,而且会决定一国发展的走向和未来的前途与命运。对此我们必须高度重视,万万不可掉以轻心。
推动我国人工智能快速发展的对策。和国际一流企业相比,我们存在的短板主要表现为四个薄弱环节。一是技术研发水平较弱。现有技术虽能满足部分商业化需求,但仍缺乏一定的革命性产品,更多的是利用人工智能技术对传统行业产品的改良,过多专注于某一细分领域的技术和应用研究,各应用场景之间的技术相关度存在一定的差异,基础理论、原创算法和高端器件研发能力弱,比如做深度神经网络训练的GPU(图形处理器)等还乏力。二是缺乏相应的高端人才。以深度学习为代表的机器学习算法研究领域的人才供应相对紧缺,流通性较弱,因此也导致了高端研究人才的超高成本,迫使有的公司选择在美国建立研究院或实验室,人才尤其是具有基础性原创性研究的高端人才需求缺口大,我国最顶级的人工智能高端人才数只有美国的20%,特别有讽刺意味、值得深思、也需要引起高度重视的是,美国人工智能领域的顶尖高端人才不少是我国高等院校培养的“流失人才”。三是缺乏有影响的商业化开源开放平台。虽然当下一些人工智能企业已将部分相对成熟的技术应用到社会生活中,但相应的商业化程度不够,大部分公司的业务主要以B端解决方案和服务为主,C端产品需求开发不够,更多应用场景有待挖掘与构建,目前一些人工智能应用确实起到了代替人类工作的作用,有些甚至已高于人类的工作效率,但现有的应用场景并不能满足社会生活的需求,近几年应用场景虽开始面向大众普及,但是距离全面的应用仍较远,围绕人的行为轨迹,如可穿戴、车载、家居等应用场景,打造面向大众的,有自主品牌的软硬结合的人工智能产品,并形成一定的规模,还有待继续努力。四是除了计算能力差外,数据量也是一个短板。我们的数据绝大部分以汉语为载体,这和以英语为载体的海量数据相比,存在着很大的差距,汉语数据量占世界数字量的比重大概也就百分之几的样子,数据采集、清洗、标签、存储、管理与交易,数据源公共基础设施与垂直领域知识库不足都是薄弱环节。
为了缩短差距,推动我国生成式人工智能产业快速发展,要做的工作很多。关键是深化科技体制机制改革创新。一是强化企业科技创新主体地位。这是深化科技体制改革、推动实现高水平科技自立自强的关键举措。党的二十大报告提出,必须坚持科技是第一生产力、人才是第一资源、创新是第一动力,深入实施科教兴国战略、人才强国战略、创新驱动发展战略,开辟发展新领域新赛道,不断塑造发展新动能新优势。习近平总书记高度重视科技体制改革,多次作出重要讲话和指示、批示。中央高层也开过不少重要会议进行具体部署。2023年第一次中央深改委会议审议通过了《关于强化企业科技创新主体地位的意见》。要抓好这个意见的落实。二是坚持系统观念激发创新活力。围绕“为谁创新、谁来创新、创新什么、如何创新”,从制度建设着眼,对技术创新决策、研发投入、科研组织、成果转化全链条整体部署,对政策、资金、项目、平台、人才等关键创新资源系统布局,一体推进科技创新、产业创新和体制机制创新,推动形成企业为主体、产学研高效协同深度融合的创新体系。三是聚焦国家战略和产业发展重大需求,加大企业创新支持力度。积极鼓励、有效引导民营企业参与国家重大创新,推动企业在关键核心技术创新和重大原创技术突破中发挥作用。四是加大薪酬分配制度改革。鼓励和激发科教人才创新动能。把2023年中央深改委第二次会议审议通过《关于高等学校、科研院所薪酬制度改革试点的意见》真正落到实处。建立起激发创新活力、知识价值导向、管理规范有效、保障激励兼顾的薪酬制度,进一步激发高等学校、科研院所创新创造活力。五是充分发挥市场配置资源的决定性作用。数据收集处理、开源平台构建、应用场景拓展,都要尽可能地向市场要活力,要动能。六是更好地发挥政府的作用。对于政府而言,提供公平竞争的良好创新环境,特别是法治环境,平等竞争的法治环境要胜于任何优惠政策,只有法治成为真正的法治,才能从根本上扫清束缚人工智能发展的体制机制障碍,打造充满生机和活力的人工智能产业。七是激发企业家的活力,充分发挥企业家在人工智能发展方面的积极推动作用。八是深化国际开放合作,稳步推进规则、规制、管理、标准的制度型开放,主动融入全球人工智能发展,抢抓主动权,抢占制高点,在以人工智能为代表的第四次产业革命中,立于不败之地。在以人工智能为特征的新质生产力的发展中,推进中国式现代化。