邹传伟 聂铭江:人工智能应用于金融业的内在逻辑

作者:邹传伟,聂铭江 2026年05月09日
邹传伟,上海金融与发展实验室前沿金融研究中心主任
           江苏省金科数字与科技金融研究院院长

聂铭江,江苏省金科数字与科技金融研究院高级研究员


【编者按】本文为作者于2026年4月15日在国家金融与发展实验室科研工作例会上的发言。本文分两部分。第一部分以银行业为例,讨论人工智能在金融信息处理中的应用。人工智能是一个强大的信息处理工具,而金融资源配置、金融风险管理以及金融机构内部管理和客户服务等的基础都是金融信息处理。人工智能应用于金融业,是从金融信息处理开始的;人工智能在金融业的其他应用,基础是金融信息处理。第二部分在第一部分的基础上,讨论人工智能应用于金融业的三个层次及其影响。


01 人工智能与银行信息处理

(一)来自现实的观察和问题的提出

对人工智能在银行信息处理中的应用,现实中有3点观察。第一,生成式人工智能已从大语言模型拓展到能处理图片、音频和视频等的多模态模型目前主要用于文档生成(比如会议纪要、客服话术、贷款客户尽调报告、离任审计报告和合同解析等)、代码生成、文档核验、知识库和智能问答等。但由于存在幻觉,大语言模型难以直接参与面向客户的决策和核心业务判断。第二,解释型人工智能+替代数据,能高效准确地评估借款人的还款意愿和能力,已在银行信贷评估中得到广泛应用。第三,在银行资本监管的要求下,内部评级法(核心是评估借款人的违约概率PD)仍主要依赖线性回归、逻辑回归等传统“小模型”

国际清算银行(BIS)2024年12月一份研究报告1对全球银行业使用人工智能的情况进行了调研,结果见表1:

表1:全球银行业使用人工智能的情况

image.png

1中,除反洗钱(AML)/反恐融资(CFT)中“分析可疑活动”、“实时监测未经授权的信用卡使用”以及“评估是否放贷”等主要属于解释型人工智能,其他应用场景主要属于生成式人工智能。

这就产生了3个需要讨论的问题。第一,在银行信息处理中,“小模型”、解释型人工智能和生成式人工智能将各自扮演什么角色?第二,这对银行的模型风险管理有什么影响?第三,这对银行信贷评估和信贷审批流程有什么影响?

需要说明的是,尽管将解释型人工智能和生成式人工智能并列讨论,但它们之间不是对立关系。第一,解释型人工智能和生成式人工智能的底层都是人工神经网络,但在人工神经网络的架构上有所不同。目前生成式人工智能主要使用基于注意力机制的Transformer架构,解释型人工智能使用的人工神经网络架构要更为多样化。第二,尽管主要分析的数据类型有所不同(见下),但解释型人工智能和生成式人工智能都在用人工神经网络来估测数据的概率分布。解释型人工智能主要应用于分类问题(比如将借款人分类为是否违约或者不同的信用评级),预测属于某一个类别的概率。生成式人工智能的内核是在概率意义上预测下一个Token(词元,也可以是一组像素、一段音频或视频等),在给出预测结果前会先给出下一个Token在词表(Vocabulary)中的概率分布。换言之,生成式人工智能内嵌了关于下一个Token的分类问题(解释型人工智能)。

(二)银行放贷技术和处理的信息

银行与借款人之间存在信息不对称,银行信息处理的核心目标是评估借款人的还款意愿和还款能力。尽管银行处理的信息在具体形态上可以千差万别,但主要可分为两种类型。第一,硬信息(Hard information),一般以数字形式存在,定量,结构化,不含主观判断、意见或观察。第二,软信息(Soft information),一般以文本形式存在,定性,非结构化,主观判断、意见和观察是不可剥离的组成部分,需要结合所处语境来理解。与这两类信息对应,银行主要有两类放贷技术。第一,交易型放贷,使用企业财务报表和信用评分等硬信息。第二,关系型放贷,使用银行在与企业的长期、多渠道接触中积累的软信息,这些信息无法从企业财务报表或公开渠道获得。从本文分析的角度,以下两个关系是近似成立的:

硬信息≈ 结构化数据  交易型放贷

软信息≈ 非结构化数据  关系型放贷

结构化数据,有非常成熟的分析方法,一般分为4个步骤。第一,假设结构化数据背后有一个待估计的数据生成过程。数据生成过程既可以基于理论研究给出的因果关系(对应着结构化模型),也可以基于变量间的统计相关性(对应着简约化模型)。数据生成过程中包含着一系列有待估计的未知参数,以及误差项或随机干扰项,以考虑观测误差和缺失变量等的影响。第二,通过样本数据对参数进行估计。经济学实证研究一般基于参数估计做假设检验,但实际应用中预测更为重要。第三,利用估计得到的模型在样本外进行预测。第四,评估预测效果。如果预测效果不理想,可以调整模型设置或参数设定(即模型选择或模型调优)。

在银行业中,结构化数据分析的代表性应用场景包括:第一,身份识别,根据人脸、指纹、虹膜和声音等生物特征识别用户身份;第二,信用评估,评估借款人的信用(是否会违约,以及违约概率高低);第三,异常交易检测,识别异常交易和欺诈行为。

长期以来,以文本、图片、音频和视频等为代表的非结构化数据被认为只能由人脑生成,不能通过算法生成。大模型的发展已证明,非结构化数据的内在规律比之前认为的要多。首先,非结构化数据通过嵌入(Embedding)或“词元化”(Tokenization)转化为词向量(本质上是低维度空间中的点),从而能被人工神经网络所处理。这方面的代表性方法包括Word2Vec、GloVe、FastText 等。其次,以ChatGPT为代表的大模型使用基于注意力机制的Transformer架构,通过统计学习,能有效识别非结构化数据中隐含的模式和结构。接着,大模型在概率意义上预测非结构化数据的合理延续(即“下一个Token”),体现为针对提示词(Prompt)的回复(Response)。

(三)模型的可解释性、预测误差和模型风险管理

不管对结构化数据,还是对非结构化数据,银行的处理方法本质上都是对数据建模。银行在何种场景下使用何种模型,都可以纳入模型风险管理框架,而这取决于模型的两个关键特征——可解释性和预测误差。

模型的可解释性分为两个维度。第一,对内的可解释性,目标是解释模型内部是如何运作的,回答关于“How”的问题。第二,对外的可解释性,目标是解释为什么模型会得到某个结果,回答关于“Why”的问题。一般而言,数据生成过程越复杂,未知参数越多(“模型越大”),模型可解释性越低。因此,基于人工神经网络的解释型人工智能和生成式人工智能在可解释性上天然不如线性回归和逻辑回归等“小模型”,具有“黑盒”特征。

针对结构化数据的模型的预测误差容易测度。如果被预测的变量属于连续变量(比如经济增长率和企业利润等),预测误差可以用均方误差(MSE)来衡量。如果被预测的变量属于离散变量(比如是否违约、属于哪个信用评级等),预测误差可以用两类错误(“弃真”、“存伪”)和ROC曲线下面积(即AUC)等来衡量。

对处理非结构化数据的大模型,“幻觉”实际上对应着预测误差。大模型既然是在概率意义上预测下一个Token,生成的Token偏离真实情况就属于题中应有之义。这不是一个通过改进人工神经网络架构,或者使用更多训练语料、算力能够修复的“Bug”,而是大模型的内在特征。使用大模型,就意味着需要接受幻觉风险。在现实中,一般通过结合“检索增强生成”(RAG)技术和知识图谱等方法来缓解大模型带来的幻觉风险。这本质上是在对幻觉风险容忍程度低的场景使用其他信息处理方法,而非修复大模型的幻觉问题。另外还需指出的是,对包括本文在内的非结构化数据的理解带有主观因素,评估文本生成效果比评估结构化数据的预测效果更困难。有监督的微调(SFT)和基于人类反馈的强化学习(RLHF)等大模型对齐技术针对的就是这个问题。

从模型风险管理的角度,存在可解释性问题或预测误差并不意味着模型不可用,而是需要结合应用场景和风险容忍度进行管理。不同银行和不同应用场景下,对模型风险的容忍度可能有所差异。比如,一般情况下,内部信用评估模型的AUC到0.65就可以被接受。模型风险管理也可以像信用风险、市场风险和流动性风险等那样适用“三道防线”的管理框架

解释型人工智能和生成式人工智能都可以纳入风险管理的主流分析框架。从微观审慎监管的角度,人工智能产生的风险主要体现以下方面。第一,信用风险:低估违约概率或违约后损失。第二,网络安全风险:与外部服务供应商的联系增多;多个系统之间的IT联系增多;人工智能在模型训练中遭遇“数据下毒”。最近广受关注的事件是,Anthropic的Claude Mythos被用于发现代码漏洞。第三,声誉风险:运营失败影响公众信任;不公平对待客户造成负面舆情。第四,战略风险:与其他机构的合作使银行失去对核心功能的掌控。第五,法律风险:人工智能模型训练语料可能侵权;面向客户的人工智能工具可能提供不准确或不恰当的回复。第六,数据隐私风险:人工智能模型在训练和使用中可能泄露个人或敏感信息。

从宏观审慎监管的角度,人工智能产生的风险主要体现为:第一,“羊群”行为,来自不同银行使用相同基础模型和训练语料第二,第三方人工智能供应商造成市场集中和相互关联。到目前为止,全球很少有大银行通过预训练研发出性能好的基础模型,主要使用头部大模型公司和互联网公司研发的基础模型,基础模型及相关供应商的集中化趋势已不容忽视。

总的来说,不同模型应根据应用场景发挥各自优势,实现协同增效。“小模型”、解释型人工智能和生成式人工智能之间不存在相互替代关系,而是互补关系。大模型因为“幻觉”不能直接面向银行客户,但可以作为银行员工的“副驾驶”(Copilot),辅助信息处理和报告生成。大模型的输出还作为“小模型”的输入。大模型将显著提高银行处理非结构化数据的效率和效果。

(四)人工智能在银行业的渗透顺序

生成式人工智能目前主要用在银行内部辅助场景。尽管解释型人工智能在银行信贷评估中应用情况良好,监管机构还是偏好可解释性强的“小模型”。比如,在巴塞尔资本协议中,风险资本计量的核心工具是风险价值(VaR);贷款组合的信用风险计量的基础是渐进单因子风险模型;内部评级法在测量违约概率(PD)的主流工具是线性回归和逻辑回归。因此,人工智能在银行业呈现出图1所示的渗透顺序。

image.png

图1  人工智能在银行业的渗透顺序

从图1可以看出:第一,模型的可解释性与预测效力之间存在反向关系,其中生成式人工智能的预测效力最强,但可解释性最低;第二,人工智能在银行业的渗透顺序是从内部辅助场景逐渐深入到以资本监管为代表的核心场景。

2显示了人工智能对银行放贷技术的影响。随着信息和通讯技术(ICT)的发展,越来越多信息以数字化方式被收集和记录下来(硬信息占比越来越高),成为可以被模型分析的对象。大模型显著提高了银行分析非结构化数据的能力。因此,一部分关系型放贷将变为交易型放贷,银行信贷审批权可以适当上收。在现实中已经出现这个趋势。

image.png

图2  人工智能对银行放贷技术的影响



02 人工智能应用于金融业的三个层次及其影响

以金融信息处理为基础,人工智能在金融业有深广的应用前景。一方面,金融业自身特性适配人工智能;另一方面,人工智能从“工具→助手→智能体”的演进,将深化人工智能在金融业的应用。在这两方面合力下,人工智能应用于金融业从浅到深将体现为三个层次,并将对金融业产生深远影响。

(一)金融业与人工智能的适配性

金融业与人工智能的适配性主要体现在两个方面。第一,行业特征匹配。首先,金融业信息密集,大量工作涉及处理研报、公告、合同、监管文件等非结构化文本,与大语言模型的核心能力契合。大模型将使非结构化数据更有效地进入金融系统,提高金融活动的效率。其次,金融业流程密集,业务环节步骤清晰,输入输出明确,便于人工智能从辅助单个步骤到参与完整流程,并且流程中大量手工操作可以被自动化工具替代。最后,金融业规则密集,为人工智能制定了明确的操作边界。“流程密集+规则密集”使得人工智能深度嵌入金融业务流程,从处理信息到处理资金。第二,来自成本效率、客户竞争、合规压力、人才培养四方面的压力推动金融机构部署人工智能。特别在我国,银行业在净息差下降背景下有很强动力去部署人工智能。

最强的人工智能基础模型一般由头部人工智能公司和互联网公司开发,但金融业对数据安全性要求较高,不能直接使用公共API经过过去几年的探索,金融业逐渐收敛到3种数据安全解决方案。第一,“防火墙网关”模式:金融机构自建综合人工智能平台接入外部模型,员工的请求通过内部网关路由,数据在防火墙内经过加密、脱敏和权限检查后发送至外部模型。第二,混合云架构:按数据敏感度分层处理,最敏感的数据留在私有云或本地环境,中等敏感的任务通过企业级公有云配合加密和隔离处理,非敏感性负载考虑更开放的云环境。第三,完全本地化部署:使用开源模型在企业自有基础设施上运行,所有数据处理在内部完成,不依赖于外部API。



(二)人工智能从“工具→助手→智能体”的演进

人工智能从“工具→助手→智能体”演进的核心不是技术代际的更替(目前主流大模型都是Transformer架构,尚未出现有竞争力的替代性架构),而是人机关系的变化,体现在4个边界上的拓展。第一,能力边界:人工智能在每个阶段能做什么、不能做什么?第二,权限边界:人工智能被允许访问和操作哪些系统和数据?第三,流程边界:人工智能嵌入业务流程的深度和广度。第四,责任边界:人工智能参与的决策和行动中,责任如何归属?

1.工具或“副驾驶”

这一阶段的核心特征是“人发起、人主导、人审核”;人工智能提供建议、补充信息和加速产出,但不主动行动,不连接其他系统,不执行操作;每一次人机交互都是独立的。代表性应用是聊天机器人,大模型主要发挥“在概率意义上生成下一个Token”这一基础功能。

2.助手

这一阶段的核心特征是“人分配任务、人工智能持续协作、人保留关键判断权”;人工智能“知道”用户是谁、在做什么、之前讨论过什么,能持续跟进、“记住”前情和“理解”偏好等,开始被嵌入特定岗位的工作流中,但不自主行动、不直接操作用户的电脑系统。

这一阶段得益于“检索增强生成”(RAG)技术。大模型的输出能与搜索引擎的结果、知识图谱和专家知识等结合在一起,缓解大模型的幻觉问题,提高输出结果的准确性和时效性。

人工智能“记住”前情、与用户持续互动的基础是,人工智能与用户的过往交互记录被包含在提示词中。但这种交互不改变大模型的权重设置,大模型没有发生真正意义上的“学习”。如果将大模型视作一个函数,将大模型的权重视作函数的参数,那么将过往交互记录包含在提示词中,是通过改变函数的输入来改变函数的输出;但函数的参数不受影响,大模型本身不变。换言之,关于用户的“记忆”体现在提示词中,大模型对用户是没有记忆的。

3.智能体

这一阶段的核心特征是,人工智能可以规划步骤、调用工具、连接电脑系统并根据反馈调整执行;不等于完全无人化,更现实的形式是有边界的半自动执行,人工智能在明确的规划、权限和审批节点下自主运行,关键决策仍需人工审批。

目前媒体上对智能体有不少夸大和不实的说法。智能体没有改变大模型“在概率意义上生成下一个Token”这一基础功能;智能体能反复调用大模型,但不改变大模型的权重设置。智能体改变的是大模型的调用方式以及大模型与电脑系统之间的互动,相关创新被概括为“上下文工程”(Context engineering)。首先,大模型的输出中包含对电脑系统的调用指令。接着,如果用户给予授权或批准,这些指令将在用户的电脑系统上被执行并产生真实影响,这样大模型看起来就不是“只说不做”。然后,这些真实影响又被纳入提示词中,作为新一轮输入来调用大模型。如此往返,使得大模型能在人类的指令、授权和审批下,分步骤地执行复杂任务。

这一阶段还得益于“模型上下文协议”MCP、“智能体间协议”A2A等标准化连接协议,使得多智能体相互调用、相互协作成为可能。

智能体落地离不开一系列前提条件。第一,工具接口:智能体需要通过标准化接口连接用户电脑系统。第二,权限分层:智能体能访问和操作的范围必须有严格限定。第三,审批节点:涉及资金移动、客户信息修改或对外通信等关键步骤必须有人工审批。第四,日志追踪:智能体的每一步决策和操作必须有完整记录,支持事后审计。第五,评估机制:需要对智能体输出质量和行为合规性进行持续监测。第六,人工兜底:智能体遇到无法处理的情况必须有明确的升级和回退路径。

(三)人工智能在金融业应用的三个层次

1.作为工具增强个人

首先,法务、合规、客服、代码开发和文档处理等中后台岗位因为任务高频、标准化程度较高,人工智能落地速度较快。其次,对知识密集型的前台岗位(比如投研),人工智能将替代部分重复性劳动,改变工作流程中获取信息和整理材料的速度,但不改变决策环节的责任归属。在这一层次,所有业务风险、合规要求和最终决策责任仍完全由人类员工承担。

2.作为助手“理解”角色、上下文和客户

首先是面向员工的助手。助手可以围绕员工的岗位持续工作,跟进员工正在处理的客户关系,记住员工上周讨论过的交易条款、在员工准备下一次客户会面之前整理相关材料。其次是面向客户的助手。从答疑延伸到协助处理具体事务,人工智能开始参与查账单、转账确认和轻量服务流程。在这一层次,虽然核心判断权仍保留在人类员工手中,但当人工智能凭借对多维数据的追踪给出个性化建议,责任边界开始模糊。

3.智能体开始参与完整业务流程

人工智能在明确边界内接手多步骤任务,以释放人力聚焦于意外事件处理和关键判断。目前看,智能体主要适用两类场景。首先是规则驱动型流程场景。比如,反洗钱、制裁合规、KYC审查和合规报送等,具有规则清晰、步骤标准和数据来源明确等特点。其次是“知识+流程”混合型场景。比如,投研部门资料收集与初步分析、财报比较、市场监测与预警、客户经营任务编排等。

(四)人工智能对金融业的影响

第一,对业务模式的影响。首先,客户服务从被动响应转向主动管理。比如,财富管理模式从标准化的资产配置工具向基于客户目标的动态管理模式演变。其次,服务入口拓展。金融服务入口不再局限于银行网点或手机App,开始延伸到对话式人工智能平台。比如,万事达和OpenAI合作,客户在与人工智能的对话中即可完成支付,无需跳转到银行界面。最后,智能体之间的支付是近期广受关注的方向。

第二,对组织分工和人才结构的影响。首先是岗位影响。后台运营、初级研究、合规处理等规则清晰、步骤可拆分、输入输出可标准化的任务更易被自动化。客户关系、复杂判断、伦理决策和创造性策略等不易替代。总的趋势是“重塑岗位”而非简单“替代岗位”,通过自然减员和内部调岗实现转型。其次是职责转变。员工职责从亲手操作每一步,转向任务设计、结果审核和突发情况处理。员工不再只需要掌握业务本身,更需判断哪些任务可以交给人工智能,哪些节点必须重新回到人工处理。

第三,对技术架构的影响。金融机构正在大规模将人工智能朝着基础设施的方向进行部署。人工智能基础设施工程的复杂度高,同时涉及算力层(算力调度和优化)、数据层(统一知识底座和数据权限体系)、模型层(多模型的选用、更新和退役治理)和工具层(为智能体提供标准化的系统连接接口)等,是一个系统工程。人工智能从“工具→助手→智能体”的演进路径,也是金融机构从局部部署走向平台化建设的路径。工具阶段可以容忍局部试点,助手阶段要求角色和上下文接通,智能体阶段则要求系统之间能可靠协同。因此,人工智能不再是IT部门的一个项目,而是需要独立的组织架构、专门的预算和高管层面的治理监督。

(五)未来展望

受益于智能体能力的提升,人工智能有望从单一模型进化为调度中枢。这种升级体现在数据检索与模型计算两个维度的重构。在数据处理维度,具备自主规划能力的数据智能体可以逐步替代传统架构。幻觉并非通过改进架构或增加训练语料能修复的缺陷,而是大语言模型在概率意义上预测下一个词元的内在特征。为了控制这一风险,数据智能体将大模型的输出从最终结论降级为可被验证的中间件。在应对业务场景时,智能体可以将用户意图转化为结构化查询语句或可执行代码。代码能否运行、底层数据库返回是否合理,均可接受确定性检验。幻觉即使在生成查询环节出现,也会在执行失败时被系统拦截,从而避免了错误信息直接进入核心流程。

在模型计算维度,大型通用模型与传统专用小模型的协同调用将成为满足严苛监管要求的关键路径。针对大语言模型可解释性较低的黑盒特征,这一架构可以将不确定性后撤到工具调用层。在需要高度可解释性的场景中,核心风险计量的计算逻辑仍由传统专用小模型完成。大模型不参与最终数值的估测,仅负责处理前置的非结构化数据并生成调用指令。这一设计充分发挥了不同模型的互补优势,并将审计追踪的对象从人工神经网络内部复杂的参数权重,转变为从自然语言指令到代码执行再到传统专用小模型输出的完整可追溯链路。无论是数据智能体对底层信息的精准抓取,还是大模型对小模型的计算分发,这种依靠架构设计而非单一模型来约束不确定性的路径,可以有效契合金融业模型风险管理的要求。未来需要进一步探讨的核心议题是,当系统的风险节点从文本生成层面全面向代码生成与工具调用层面迁移时,与之相应的日志追踪、评估机制和人工兜底审批节点应如何进行匹配


【1】Sector: Recent Developments and Main Challenges", FSI Insights on policy implementation No. 63.


来源:国家金融与发展实验室