
访谈嘉宾:汪 敏 开普云董事长
Q:大模型的能力嵌入到数字政府运行流程中,您认为将产生哪些价值与影响?
A:过去这些年,我们做政府融媒体内容管理、政务服务和内容数据安全等众多政务方面业务中,核心是围绕政府的业务流程或者基于数据驱动业务创新。在应用领域中,运用人工智能技术做了很多小的模型来解决特定的问题。对于大模型,总体上我的一个判断观点是,不要认为大模型能解决所有问题,目前大模型在很多事情上可能不一定都能做得很好。
大模型之所以目前获得如此高的关注,其实也反衬出过去人工智能技术在政府行业中的应用做得不尽人意。无论是 NLP(自然语言处理)还是计算机视觉,过去在政府服务和社会治理应用存在的最大问题是,技术的通用性能力不足,包括对数据的标注、收集和治理等成本很高,但应用起来收效甚微。针对特定场景和特定任务收集特定的数据去做专业化训练,而训练完的结果还不一定能够解决深层次的问题。这样导致AI在政府行业的推广很难。
大模型是对很多已有知识的深度学习。无论是政策法规、办事指南还是政务服务场景等等,大模型都可以开展预训练学习。预训练大模型通过前期大量的数据预训练,理解行业特定的知识并具备基础能力,这样就不需要针对某个场景重复进行初级训练,同时还具备涌现的能力和推理的能力。基于神经网络技术,大模型具备推理、联想等逻辑思维能力,在政府的政务公开方面也具备较大的提升空间。过去政策的解读需要完全依靠人工,需要依靠专业的编辑,现在依托于大模型的通用能力,对政策的理解可能比一般民众的理解更深入透彻,虽然大模型对政策理解准确性还不能达到完美,但在政策理解能力方面已经带来很大的提升。通过大模型,大家可以用较小的成本把 AI 应用起来了。
在社会治理领域,大模型的智能识别能力可以满足城市的快速发展需求。比如,过去基于计算机视觉做了很多治理场景,例如针对标志性物件和异常行为的识别。在这些场景中,首先要收集大量的数据,进行大量分析提炼,然后再去做数据标注,训练完之后还要对预选定的场景做识别和处理。这种处理方式由于缺乏通用和泛化的能力,一旦转换到另一个场景时,能力就瞬间失效了。而大模型的能力在城市治理场景中,不只局限于是识别它曾经训练过的物体,还可以对过去没有识别过的物体也能进行识别。同样,大模型的强大语言理解能力可以为公众办事提供更好的体验。比如在办事服务、政策咨询等场景中,老百姓提出的问题可能涵盖了很多政策文件的内容理解,将大模型与智能搜索、智能问答进行结合,在帮助公众高效地获取政策服务方面可以迅速体现价值。大模型的多模态能力,在“一网统管”场景中,例如文档识别、数据共享、自动填报等很多低成本的应用中可以应用起来。
但是,我们也应该看到,对于数字政府领域的一些复杂业务逻辑场景中,其业务核心并非是基于一种知识的训练,而是基于一种规则的再造。在这种情况下,我认为这不是大模型擅长的领域。对于这些复杂逻辑场景,还需要借助大模型之上的多任务推理能力框架,配合一些周边能力进行组合才能构建一个完整的应用场景解决方案。
Q:政务服务强调公平普惠性,更强调底线和规则,您认为政务大模型如何确保避免“AI 幻觉”或错误信息的出现?
A:政务应用是需要确保高可靠性的应用场景,不需要去创造、发挥和很多“小聪明”,而是要求对规则本身的精准理解。我觉得在政务领域,对于文件内涵的识别和理解,大模型的能力是比较强的。但大模型还需要通过与向量数据库与知识检索结合才能避免“AI 幻觉”的产生,这是一个非常关键的事情。目前大模型并非在任何场景下都能具有良好应用效果。
大模型对复杂文件的理解比普通人更加准确。政府的政策文件是具备高度逻辑性和结构性的,从格式上按照章、节、条目等进行规则排列,大模型对这种特征的文本理解能力很强。用户使用口语化的语言进行提问,大模型能够把整个文件的关键点,以一种规则和推理的方式组织起来,再用通俗易懂的语言给用户讲出来。但是从目前我们的技术实践来看,要用好大模型在政务公开方面的优势并规避缺陷,可能需要在大模型之上外挂一些其他技术能力才能做得更好。
我认为,对于“AI 幻觉”的现象需要双向思考。幻觉跟创造力是一体两面,有创造力就会衍生幻觉,有幻觉才有创造力。凯文·凯利说“要把 AI 当人看”,大模型其实跟人一样,对不熟悉的东西硬要讲,那就只能乱讲,所以这是一种正常现象。我认为,随着大模型训练的深度增长,这个问题会减少,是否能够完全杜绝要从技术上和算法原理上做突破。
同时,我们还应该认识到,所谓的幻觉,从更长时间来看,你可能会发现过去所谓幻觉不一定是幻觉,甚至成为一种“预言”。我们判断一个人的观点准不准确,需要时间去检验。有可能过几年发现之前说的都准确了,就说很有“预见性”。所以,对于幻觉也需要辩证地看待。而如何解决幻觉问题,我觉得还是需要靠高质量的数据去长期持续训练,通过打补丁方式来做。仅依靠算法或数据备案等方式,还不足以解决幻觉问题。算法备案解决的是合规性问题,而“AI幻觉”本质上是一个用户价值问题。
Q:您如何看待政务大模型在公文写作、12345热线等场景的应用与价值?
A:开普云的“开悟”大模型在这类场景都有落地,但我觉得还需要通过实际场景去打磨。坦率地讲,我认为12345热线场景与大模型的直接结合进行应用比较难。但如果借助大模型作为12345热线后台服务人员的工作助手,我觉得这是一个非常不错的应用场景。我们不能指望大模型把所有事情都做完。其中,有些事情是大模型可以做到的,比如政府新出了一个政策文件,老百姓通过互动提问来获取信息,大模型通过溯源文件内容来作解释,这可以精准快速地回答公众的问题,从而降低12345热线后台人员的学习门槛与知识理解难度。但是,要将大模型纳入到12345热线的全过程办理,我觉得目前技术上还不成熟。
对于公文写作而言,大模型对起草政务领域的重大文件不一定可行,因为这些重大的政策文件往往会涉及对未来的规划和战略性思考,这并非大模型所擅长的。但是,大模型可以作为公文辅助助手,在收集资料、搜集素材、做资料和素材总结、写出框架、会议纪要总结、领导讲话稿等方面提供辅助,这些工作大模型都能做到。总而言之,我认为将“公务员的助手”和“老百姓的服务代理”作为角色定位,作为一个有人工干预、确认和识别的服务助手,大模型是完全可以胜任的。在越来越强调跨部门联办、“一件事一次办”、“一网通办”的服务语境下,大模型的本质决定它目前只能适用于流程清晰简单的服务。
Q:您认为政务大模型的应用场景推广目前存在最大的障碍或瓶颈是什么?
A:将政务大模型应用到公共服务或社会治理场景,首先应该考虑的是合规性问题。从全球互联网发展来看,大数据和推荐算法的流行,特别在面向妇女、儿童以及少数群体用户的时候,智能化应用的合规性均存在巨大挑战。
另外一个问题是隐私泄露、数据安全问题。比如大模型在做数据预训练的时候,要注意是不是学习了一些非法授权的数据。因此使用哪些数据去训练大模型是一个很重要的问题。大模型的训练完成后,在使用过程中,内部有没有更多权限去控制大模型的输出以及如何建立输出规则、如何能够让大模型按照角色和条件产生不同的输出内容等,都是正在面临的问题。因此我认为,将大模型作为一种智能助手和工具来进行使用,由人工参与进行纠正,对大模型的错误容忍度会高很多。
我们在试点很多政务服务应用场景时发现,为公众提供服务时,即便你输入的东西没有错误,但是如果不能确定它是否准确,也不敢随便进行应用。这可能是大模型相对于以往的数字应用最大的区别。传统的政府数字化应用本质上还是提供平台或媒介,而大模型则是直接提供内容。
Q:大模型不只包括预训练的数据,还涉及到用户反馈的内容,因此将不可避免地输入带有歧视、偏见类数据,您觉得如果将大模型应用于政务服务和决策支撑方面应如何去规避此类风险?
A:现在我们讲大模型需要依靠高质量的数据。实际上,不可能把用户在场景中产生的所有数据来进行训练。当模型规模很大的时候,使用少量用户反馈数据去训练不起作用,大模型也记不住。
我觉得比较好的做法应该是基础模型要足够好,对业务中的专用知识、专业数据要精挑细选。这里的数据是指知识而不是事实,事实性的东西容易出错或者过时,而知识才是泛化能力的基础。比如12345热线数据,需要对用户反馈数据进行治理,才能满足大模型训练要求。少量的数据对做指令微调可能有用,但是对做模型二次训练用处不大,在几十亿甚至几万亿数据里面,有几十条数据进去根本不管用。因此我认为担心因为用户反馈造成大模型的偏见可以不必过于焦虑,通过数据治理手段可以避免。
此外,我觉得需要考虑的,不是用户数据如何加入模型训练,而是类似这种少量数据如何通过指令微调来优化模型。从策略上来讲,我觉得用一个好的模型,仅仅加入一点点数据去做二次训练,这个价值不大。所以,从政务行业的垂直大模型来看,它的能力主要来自政务行业的所有知识。
Q:您认为是否每一个省、市或县区都应该拥有一个自己的政务大模型?通用大模型的能力越来越强的时候,垂直大模型是否有存在的必要?
A:我认为每一个市或县不一定都要训练一个大模型,但是每个市县部署一个大模型是完全有可能的。我觉得,大模型应当具有通用知识和领域知识,但具体某一个用户的知识和数据不应该放在大模型里面,应当通过外挂等技术手段进行解决。对于行业垂直大模型而言,它应该既有通用模型的基本理解能力与推力能力,又具备行业的知识深度。这其实是“通才”与“专才”的结合。
现在有的人讲,通用大模型训练得足够好,垂直大模型就没有存在的必要了。但是我们反过来想想,这个通用大模型得有多大的参数量、多大能力才能把每个行业做好呢?虽然通用大模型有可能把所有行业的知识学透,但是这个模型可能会很大。未来的实现逻辑是,比如对政务中的具体领域,不涉及农业方面,就没必要在模型数据中加入大量农业数据而做得那么大。因为当模型参数量很大的时候,模型的整体成本就会很高。使用一个恰当规模的模型来解决行业问题,这就是垂直大模型带来的好处。
以目前一些互联网大模型为例,不排除它们把各行各业的知识全部学习后,有可能比小的垂直模型要更好,但是要在互联网上做应用,需要建立一种符合投入和产出要求的商业模式,否则就无法延续。所以我认为,通用大模型与垂直大模型的相互取舍以及存在必要性之争,本质上是一个工程问题与管理学问题,而不是一个理论问题。理论上成立并不代表商业上成立。
Q:目前全球一些国家与城市也发布了相应的公共部门应用生成式人工智能的临时指南。您对政务大模型在中国的发展有什么建议?
A:首先,我认为要把数据质量问题解决,需要有专门团队来探索政府大模型应该怎么去构建、数据怎么选择。数据选择是很有必要的,什么数据适合做训练,什么数据不适合做训练,这非常关键。“一方水土养一方AI”本质上讲的就是数据训练的选择问题。
其次,就是在什么样的服务场景下选择什么样的模型。我想未来典型应用场景肯定是“大模型+小模型”来实现,适用于具体应用场景的小模型,再配合一些工具来实现场景的工作目标,我觉得这才是政务大模型未来发展方向。
另外,我认为,需要制定政务大模型建设与发展指南,明确政府数字化部门在大模型建设过程中什么事可行、什么事不可行,通过指南来规范和引导政府机构有效利用大模型这种智能化工具,避免进入认知误区。
Q:政务大模型在未来能否替代主流政府网站或政务服务平台成为主流服务入口?您认为政务大模型可能对现有的政务数字化供给(⽐如原有信息系统、政务云的建设)会产⽣哪些冲击?
A:我认为政务大模型会成为新的政务服务入口,但不是唯一的入口。过去的政府网站依然还是会存在。不同人的使用习惯不一样,有的人喜欢浏览、点击或触摸来获取服务,不同人的使用习惯和体验方式是不一样的。
大模型会成为一种新的政务服务入口形式,但并不是替代或颠覆过去的入口,而是诞生了一种融合和增强多渠道能力的应用形式。类似于 ChatGPT 对话形式,我觉得是一个过渡阶段,并不是最终形态。在某些场景中,“对话”本身是一个效率很低的交互形式。比如现在的订票、打车等移动应用体验已经非常好,而强行改为通过文字或语音对话模式来进行,那么这种交互模式肯定是不理想的。
但也存在一些场景是有可能被替代的,例如“多任务办事”。通过任务分发、智能代理等路径,能够把不同 APP 或平台中的办事流程和要素进行串联,把一件事高效完成,通过大模型是有可能达成的。单一性的办事服务,我觉得目前很多政府机构都已经做得非常好了,所以我觉得“对话”并不一定在所有场景中都是最好的体验模式。
大模型对现有的政府 IT 系统的冲击,我觉得肯定会有。政务大模型会是以一种独立的平台形式存在,成为过去没有的一种形式。那么,我们的过去政府 IT 架构包括操作系统、数据库、中间件等,未来可能还会增加一个叫做“政务大模型”,它会对已有的政府信息化软件结构产生一些调整和改变,因为大模型的前台用户服务供给模式发生了转变,那么后台的支撑系统和流程也将发生改变。大模型不是改变政府IT系统的体系架构,而是改变应用架构,类似于我们原来定义的计算能力上是以 CPU 为核心的,未来可能都将以 GPU 为核心。我们可以将政务大模型的出现和应用视为政府数字化进程中的一个变化,但最终是不是颠覆仍然有待观察。