访谈嘉宾:张  琦  卓繁信息总裁

访 谈  人:唐  鹏  数旗智酷创始人、首席研究员

Q:大模型的能力嵌入到数字政府运行流程中,您认为将产生哪些价值与影响?

A: 在去年国务院办公厅发布的《关于加强数字政府建设的指导意见》文件中,就要求提升政府履职的数字化和智能化水平。而我认为政务大模型作为人工智能发展的新能力,对提升政府的履职能力与服务水平是一次重要机遇。

对于数字政府建设而言,我认为政务大模型主要在两个方面发挥价值,首先是政府工作机制方面,政务大模型通过对政策、文件、法规等数据和知识的学习,可在政府内部运行与管理的具体场景中,辅助政府机构的内部决策行为。

其次是对外服务方面,无论是企业还是个人,大模型能够根据政府现在掌握的数据,结合大模型的支撑,在服务、治理、监管等场景中为企业和个人提供精准化的服务。总体而言,无论是从管理端还是服务端,大模型都会改变我们以往的服务方式、服务体验度以及管理精细度。

Q:之前很多政务服务平台都推出了智能咨询、智能搜索、智能问答机器⼈等应用,但也引发了“智障”的讨论,您认为出现这些问题的背景和原因是什么?大模型可以从哪些方面可以赋能和改进?

A:无论是智能咨询还是智能问答机器人,在与公众的交互中出现卡壳、答非所问等“智障”现象,我认为主要原因在于:第一,传统的 NLP(自然语言处理)加知识图谱的技术逻辑不足以应对人类问答思维。绝大多数的智能咨询和智能问答都没有自主学习和推理的能力,这意味着它后端的知识库相对而言是更新滞后的内容,永远也无法满足用户的即时性需求。第二,传统 NLP 对于用户的问题理解能力不够强。最大的问题在于传统的智能问答无法理解用户提问的意图,它的回答内容只是叫“知识的搬运工”,是一种触发式的“条件反射”,而非经过理解之后的反馈。为什么会这样?因为它所回答的所有内容,100%都是后台数据库中设定好的内容。系统会自动判断你提问的内容权重,如果判断你有90%以上的几率是提问某个问题,那么它就会直接给你一个预先准备好的固定答案,而由于系统并没有“理解”而是在估算概率,所以很容易出现“驴唇不对马嘴”的情况。

大模型技术来了之后,通过预训练和 AIGC 这样的组合方式,首先,大模型对于用户的意图理解能力要远胜于传统NLP。第二,大语言模型的输出模式是生成式内容,它的内容更富有情感,具有人格化与温度感,更像是跟一个人在对话。这一点也是传统智能咨询的机械化问答所不能比的。

Q:有人认为大模型是显得更人性化、更有温度,但对政府来讲,它要求的是输出和输入的准确性,两者之间应该如何平衡?如果在政府网站上部署大模型来回答政务公开、政策解读等方面的问题,怎么样去规避这些不确定性?

A:“AI 幻觉”的发生是建立在大模型的整个能力之上的,如果完全去展开大模型 AIGC 的能力,必然会产生“AI 幻觉”这样的现象。就卓繁“循道”政务大模型的实践而言,也在考虑采取一些方法和手段以适用政务场景的需求。首先,通过限制大模型的内容推理能力来管控“AI幻觉”。比如我们要对某一篇政策提供解读服务,对它的要点、摘要或综述进行整理,或者对政策内容进行专业化解读,那么,我们的大模型会限制它的推理能力,而只使用它对于当前文件的提炼和总结能力,这样就可以避免内容的泛化与“AI 幻觉”的发生。第二,通过回溯机制锁定大模型的准确性来建立用户信任。比如当我们使用大模型进行政策解读的时候,需要确认这个文件中确实包含了它解读的这些内容。那么,我们可以将大模型的回答内容对涉及政策原文内容自动加上附注,以便用户进行溯源,比如政策解读的某一段总结出自整个文件的哪一个章节或哪一页,这种回溯机制的建立也可以提升用户使用的信任度。这样可以让用户去验证大模型哪些回答是源自原文,哪些回答是自己推理出来的。因此,以上两种模式是我们认为在政务领域真正应用好大模型的基本方法。

Q:过去行政服务大厅推出“一窗通办”、“综合窗口”等服务,但现实中对人的培训成本与素质要求都非常高,不确定性也很大,大模型是否能够有效补充和优化政务服务的“数字劳动力”?大模型除了在受理环节可以辅助办理,在审批环节是否还可以往前一步?  

A:首先我觉得,大模型能否在政务服务中应用得更深入,这要从法律和制度是否支持这样的改革动作,以及如何构建大模型介入政务服务环节的权利和责任边界。从技术侧来讲,我觉得大模型本质一个概率问题,比如说在100次当中它有99次的概率可能会怎么样,它不能够确保说我办的事情和验证的结果是100%准确的。所以我们定义的政务大模型应该是一个辅助工作人员开展工作的工具,是一个提效的工具,而非一个替代的工具。大模型更多的是用来减少他们无谓的登录不同系统、查资料,减少一些无谓的操作。无论将大模型运用在政务服务的收件受理还是行政审批场景中,都可以基于大模型掌握的数据和政务服务平台能够获取的数据去联网比对、去验证办事人的资格和提交材料的准确性,大模型可以为收件人或审批人给出意见,但是最终做出“收或不收、批或不批”的决定和判断的一定是有法律许可的工作人员来做出的。

在申请人这一端,比如说我们填报的一些信息和数据,大模型可能通过数据的搜集,尤其像一些需要申请人自己准备的办事材料,比如说一些制度文件、一些计划方案、一些证明模板等,大模型都可以根据你的一些重点需求帮你即时生成,这样就可以提升办事效率。另外,在政府的工作侧,它可以帮助工作人员快速地审核材料,比如看材料是否合规?材料是否存在问题?大模型可以直接把一些问题点直接抽取出来方便用户改正和完善。

Q:哪些政务数据适合做大模型训练?哪些数据应用于大模型有助于提升政府决策和服务能力?

A:从政务服务角度而言,被政府掌握的涉企方面的数据,我觉得非常有必要进入到大模型进行预训练并提供服务,包括企业的一些基本信息、经营信息、税务信息等等。此外,在企业生产经营过程当中,可能涉及到人社、民政、卫健等数据,围绕企业生产经营活动的数据是非常有必要进入到大模型的。因为我们面临的现实是各地政府都在“拼经济”,作为地方政府不管是上马一个什么样的数字化项目,或者是出台一个什么样的改革措施,最终的目标其实都是希望把经济搞上去,让企业的营商环境更好,进而带动整个社会经济更好地发展。所以,我觉得当下最重要的关注点应该是围绕着企业的全生命周期数据,如果政府能够将这些数据汇入到大模型,这对于地方经济发展和领导的产业决策方面是非常有价值的。

Q:目前全球一些国家与城市也发布了公共部⻔应用生成式⼈工智能的临时指南。您对政务大模型在中国的发展有什么建议?

A:我觉得大致应该包含三个方面:第一是法律的合规性。也就是大模型的生成内容要符合国家相关的法律法规要求。第二是正向性原则。就是说大模型生成出来的内容需要有正向的引导,而不是有违社会底线与伦理道德的。所以大模型在生成内容的时候,需要在情感上或者说正向引导上进行校验。为什么我们要在政务应用中尽量降低大模型的推理能力,因为政务内容的生成要以事实和法律为依据,这样就要求政务大模型在训练的时候要保障数据的可靠性。第三是避免歧视和偏见。大模型所有的生成内容需要避免产生群体歧视或偏见,对于敏感信息需要建立一个监测和识别的屏蔽机制。

Q:大模型的预训练不只是对现有数据集进行训练,它还将对用户互动反馈的数据进行动态化学习,因此,您认为政府机构在采用大模型推动政务服务创新与决策优化方面,如何保障机构本身以及公众/企业的数据安全和隐私? 

A:首先,就个人而言,因为误操作而提交了一些隐私数据,大模型也可以提前设置一些隐私保护机制。此外,大模型虽然有动态学习的能力,但由于数据量太少,即使注入了一些敏感信息,对于大模型整体的影响不是特别大。第二,大模型一般都会我们首先绑定用户的会话,在整个用户会话周期,我们可以进行相关的数据使用,一旦超出这个会话周期之后,可以通过将隐私数据进行清除或者封存,让这些数据进行隔离,禁止反馈到其他会话上去。这也是保护数据安全和隐私的一种方式。

Q:怎么看到“通用大模型的能力越来越强,垂直大模型将没有存在的必要”这样的言论?

A:这只是一种理论上成立的说法,是假设通用大模型的训练效率真的能够达到一个理想化的程度,行业大模型、私域大模型或者垂直大模型能力都会有更高的提升。因为现在垂直大模型或私域大模型都是以通用大模型为基础进行构建的,基于通用大模型的能力再去做微调或挂载相关的向量库,然后去进行调试适用于其他细分领域。

这就存在一个问题,在通用大模型训练效率的能级提升背后,它的数据源主要来自于互联网上的公开数据。而垂直大模型和私域大模型需要的一些行业专业的敏感数据,有很多的数据是通用大模型拿不到的。而且垂直大模型在微调和训练环节挂载或嵌入的行业向量库,无论通用大模型的训练能级达到怎样程度,都是不可能与垂直大模型的专业能力相比的。

百度李彦宏就在演讲中说过,通用大模型是不产生价值的,产生价值的是它赋能百行千业之后,真正在具体应用场景中形成的领域大模型或者是垂直大模型,它们才能真正在社会经济发展中发挥价值。

Q:政务大模型在未来的应用和部署会呈现怎样的趋势?

A:目前来看,无论是政府网站还是国家一体化政务服务平台,其发展趋势都是由分散探索建设逐渐走向集约化建设。对于政务大模型而言,我觉得在政务领域的应用还将存在一个较长的探索期,在对应用场景、模式和体验的探索过程中会逐步淘汰一些“伪大模型”。我们现在看到的是“百模大战”、“千模大战”,未来无论是通用大模型还是政务行业大模型,我觉得都会出现“剩者为王”的局面,也就是说真正具有核心技术与能力的大模型会在市场中生存下来。

此外,未来在政务大模型不是说每个市或每个县都去建一个大模型,部署模式我觉得也会按照国家到省两级节点推进。之所以有这样的判断,主要是基于两点,一是政务知识和数据的来源与生产方式;国家和省级政府在出台和制定相关政务服务规范与法律制度,大模型训练的原始知识与数据基本会来自于这两级,按照统一的规范标准、语料和数据进行集中训练后可以对各级单位进行统一赋能。二是算力资源的供给与分配问题;分散化的数据训练与大模型建设不利于算力资源的高效利用,不仅浪费算力资源,而且也无助于大模型的训练能级提升与实际赋能效果。

Q:有专家表示“政务大模型核心在于数据,而不是算法”,但目前政府在数据共享方面还有较多门槛,您认为发展和用好政务大模型的挑战在哪些方面?

A:我觉得第一个挑战就是数据。没有数据就谈不上大模型。如何去梳理、整理相关的高质量数据和知识喂养给大模型,这可能是做好政务大模型的第一道坎。目前,国家数据局也已经挂牌成立了,作为一个以统筹协调为主职的国家数据管理机构,这对解决数据要素流动、数据共享以及数据质量问题应该也有较大的推动作用。

第二个挑战是算力资源。算力资源不只是与芯片制造本身相关,而是与整个计算生态相关,目前我们的计算生态还不健全,这一定程度制约了算力的发展。在若干年前,整个信息化的发展基本是围绕操作系统、中间件、数据库等展开的,当时国内很早就起步去做自主知识产权的操作系统,但在很长一段时间都没有太大的成效,核心是因为我们或许能研发一款独立的操作系统,但没有时间和环境来迅速在短时间内建立起围绕操作系统的应用生态。现在来看,大模型的算力芯片发展其实也是这个道理。因此,我觉得政府应该出台一系列的政策措施,支持国内芯片厂商发展,以满足我国对算力芯片的巨大市场需求。此外,政府也可以主导打造一些典型的示范应用场景,在信创环境上做进一步发力,以政府资金与场景应用去引导整个芯片领域的发展。

Q:政务大模型是否具备替代主流政务服务入口的潜力?如果政务大模型成为一种主流应用,您认为对现有的政务数字化供给(比如原有信息系统、政务云的建设)会产生哪些冲击? 

A:我认为政务大模型应用一定会改变传统的信息化软件使用范式。但是,它是否会替代政务APP、政府网站成为主流应用入口?我觉得并不一定。我觉得政务大模型更多的是提供一种更便捷的服务渠道,为公众获取政务服务增加一个新的选项。比如百度搜索引擎添加了“文心一言”的入口,那么现在真正会有多少人通过“文心一言”的入口来获取知识和信息呢?这肯定是需要一个过程的。比如微软在必应搜索添加了 ChatGPT 应用后各项用户指标并没有明显增长。所以我觉得生成式AI或者大模型应用今后一定会是必备服务,但会像我们的PC端网站都基本配备一个APP或者小程序,但它们不会反过来取代了网站。大模型的应用发展也一样,可能很多网站或APP会逐步配备大模型助手或者叫AI助手,来提升用户交互体验。至于能不能成为主流应用入口,这需要看用户的认同度。

政务大模型的应用推广会不会对政府信息化系统产生冲击?我觉得冲击是一定的,因为大模型已经在改变我们现有的软件系统与信息范式。举个简单的例子,以前我们要查一个数据或者要做一个报表,可能有些都是临时性需求,一年就用一次或者一个季度就用一次的应用,这种需求放到我们以前的信息化系统该怎么应对?我们需要找开发商给我开发一个报表或者专门开发一个查找汇总功能,那么如果有了政务大模型可能就不需要专门开发了,通过会话的方式就能把你需要的数据获取到了和按要求整理完成。这就改变了传统的信息化系统的建设、维护和使用模式。