电子报阅读机
2026-07-05
星期日
当前报纸名称:新华日报

多模态大模型赋能江南农商银行文档识别升级

日期:06-03
字号:
版面:第9版:金融       上一篇    下一篇

当前银行业务加速向线上化、自动化转型,OCR技术已广泛应用于合同、票据、证件等影像资料处理。但面对手写内容、印章遮挡、版式多变等复杂金融文档,传统OCR易出现识别错误,需大量人工复核,且适配新型业务表格周期长,严重制约业务效率。为破解这一难题,江南农商银行跳出传统优化思路,引入多模态大模型,构建了一套“能理解、会适应”的智能文档识别平台,实现从图像识别到语义理解的升级。

项目前期调研发现,该行业务凭证、合同等文档超200种,手写数字、印章干扰、非标版式等问题频发。信贷审批中,传统OCR对手写数字识别错误率达15%—20%,大量合同需人工核对;事后监督环节,印章遮挡文字难以提取,合规核查压力巨大。同时,新理财产品配套全新版式,传统模式需耗时数周开发适配,业务与科技衔接效率低下。该行意识到,亟须打造能理解文档、快速适配场景的智能识别引擎。

江南农商银行摒弃传统“固定版式匹配+单任务训练”模式,基于Transformer架构构建多模态大模型,融合图像视觉、版式结构、语义信息,形成“视觉—语义—结构”三位一体识别机制,实现对文档内容的深度理解。模型具备零样本版式自适应能力,面对未训练过的非标文档,无需人工标注和重新训练,即可自动提取关键信息。测试显示,非标文档识别准确率从传统OCR的48%提升至91%,疑难复杂文档识别准确率稳定超95%,模型训练工作量减少80%。

平台创新采用“基础模型+场景插件”架构,通过自然语言提示词配置字段抽取、格式输出、数据校验规则,无需代码调整。新增业务抽取任务,从以往两周的开发周期缩短至15分钟,实现分钟级场景适配。某新理财产品紧急上线时,科技团队当日完成提示词配置,次日系统即可试运行,实现技术主动服务业务。

目前,该平台已在贷款合同录入、票据影像识别、客户身份核验、信用卡申请表处理、事后监督凭证核对五大核心场景规模化落地。贷款合同手写内容识别准确率达98.5%,人工复核量下降70%;20余种非标票据实现自动分类提取,处理速度提升4倍;身份证、护照等证件识别准确率达99%;事后监督异常检出率提升至95%,漏检率下降80%。

全行整体运行成效突出,平台月均处理交易近30万笔,集中作业人工替代率超50%,单笔业务时长由45秒压缩至12秒,年节约人力成本约120万元,差错率下降60%。

从“看见”到“理解”,从“固定版式”到“零样本自适应”,从“周级上线”到“分钟级响应”——江南农商银行以多模态大模型赋能文档处理,有效解决传统识别痛点,实现降本增效,为银行业数字化转型、文档自动化建设打造了可借鉴的实践标杆。

王海涛