首页

加入收藏

您现在的位置 : 首页 > 最新资讯

大语言模型在商业银行的应用|金融与科技

时间:02-23 来源:最新资讯 访问次数:39

大语言模型在商业银行的应用|金融与科技

文/中国银行企业级架构建设办公室资深经理宋首文随着以ChatGPT为代表的生成式人工智能的爆发式发展,针对大语言模型的研究和产业应用成为科技界的热点领域。在金融业,大语言模型能够应用在智能客服、智能营销、智能投顾、智能办公、智能风控等诸多场景,从而为银行转变管理模式、提升服务质效提供有效助力,也已成为未来银行数字化转型的路径依赖。同时应用大语言模型过程中,也要对其中可能蕴含的数据风险、模型风险和决策风险等潜在风险因素保持清醒认识,并采取合理措施予以防控。引言党的二十大报告提出,要实施创新驱动发展战略,开辟发展新领域新赛道,不断塑造发展新动能新优势,构建包括人工智能技术在内的一批新增长引擎。近期召开的中央金融工作会议强调,要做好五篇金融大文章,其中包括科技金融与数字金融。金融业因其信息丰富、数据庞杂、知识专业、人才密集等天然特征,拥有与大模型深度结合的基因,因而成为大模型应用落地的重要场景。2022年11月30日,OpenAI推出ChatGPT,引发了全球范围内的新一轮AI狂潮,科技巨头纷纷涌入赛道加速布局。随着微软率先将GPT-4应用于搜索引擎,国内科技领军企业百度、华为、阿里等也加快了大模型的开发和应用,先后推出了文心一言、盘古、通义千问等大模型产品。今年3月,彭博推出了应用于金融业的大语言模型BloombergGPT,引发了市场对金融领域大模型的关注。大模型技术发展带来的产业变革将成为科技金融、数字金融发展的重要推动力。目前,银行业正加速推进数字化转型。数字化转型的愿景就是要利用数字化手段提升企业管理和服务水平,强化创新能力,发展新业务模式。国内多家银行已积极探索大模型应用场景。如农业银行推出了ChatABC大模型,工商银行在远程银行、智慧办公、研发等企业内部场景进行了大模型应用的初步探索,招商银行重点应用于全流程财富管理,投产了FinGPT创意中心等。大模型的发展及特点大语言模型(后续简称大模型)是大规模语言模型(Large Language Model)的简称,是一种网络参数规模达到亿级以上的深度学习复杂神经网络算法,能够自动从大量的非结构化数据中学习、处理数据和生成结果,具有解决复杂问题的理解能力,向用户输出个性化内容。与过去自然语言处理(NLP)领域常见的算法和模型不同,大模型能够充分挖掘海量未标注数据蕴含的信息,这为大模型带来了突破性的语义理解和泛化输出能力。以ChatGPT为代表的大模型在许多复杂的NLP任务上给出了前所未有的出色表现。在ChatGPT火爆出圈之后,许多其他领域的生成式人工智能产品也相继涌现,如自动编程辅助工具CopilotX、AI绘画生成工具Stable Diffusion、智能视频生成工具pika等,这些产品正在深刻地改变人们工作和生活的方式,也将对未来许多行业的商业模式带来深远影响。大模型的发展历程作为NLP领域的前沿技术,大模型的发展史与人类探寻机器处理语言的历程密不可分。在NLP发展过程中,其基本思路由以人为设定的规则为主,逐步演化为基于统计归纳和深度学习的模型处理。总体来看,大模型的发展经历了如下几个阶段:萌芽期(1950—2005):以CNN为代表的传统神经网络模型阶段。卷积神经网络(Convolutional Neural Networks,简称CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。CNN通过卷积操作来提取输入数据的局部特征,并通过池化层减小数据的空间尺寸,最终通过全连接层实现分类,主要应用于计算机视觉领域,如图像识别。卷积神经网络奠定了深度学习在计算机视觉等领域的基础,为后续大模型的发展提供了关键的技术经验支持。成长期(2006—2019):以Transformer为代表的全新神经网络模型阶段。在这一阶段,Word2Vec模型和GAN(对抗式生成网络)相继诞生,深度学习进入了生成模型研究的新阶段。2017年,Transformer架构是由Google创造性地提出的。这是一种基于自注意力机制的神经网络结构,不再依赖于卷积或循环结构,而是通过自注意力机制来处理输入序列,用于自然语言处理、计算机视觉等方面,并由此奠定了大模型的算法架构基础。爆发期(2020年至今):以GPT为代表的预训练大模型阶段。生成式预训练转换器(Generative Pre-trained Transformer,简称GPT)是一种基于Transformer架构的生成式预训练模型,经由庞大的语料库训练后,可根据用户输入的文字内容生成对应文字回答。随着模型规模的增加,GPT具有更强大的学习和生成能力。2022年11月,OPENAI推出ChatGPT3.5,在智能问答、内容创作、翻译等方面的能力显著提升。GPT模型在自然语言处理领域取得了重大的突破,推动了预训练大模型在人工智能领域的快速发展。2023年12月,谷歌公司发布人工智能大模型Gemini。它包括三个版本:功能最强的Gemini Ultra被定位为GPT-4的竞争对手;Gemini Pro是中端版本,适用于多任务处理;而Gemini Nano则用于特定任务和移动端设备。目前,Gemini Pro版本已率先上线并实装至谷歌聊天机器人Bard中。在官方发布的演示中,通过合理输入提示词,Gemini表现出较强的逻辑推理、互动、创作和解决问题的能力,包括跟踪游戏内容、识别手势、给出正确的行星排列顺序等。且由于Gemini是原生多模态大模型,即强调训练过程中就采用多模态数据输入,因此其在处理多模态任务方面相较于GPT-4版本具有优势,例如可基于大量论文数据生成对比分析图表等。Gemini的发布标志着生成式人工智能领域进入了谷歌与OpenAI两大阵营两强“军备竞赛”的阶段,将有助于大模型整体的多元化创新发展,行业的头部效应也将更加明显。大模型基本逻辑及技术特点以GPT为代表的大模型在处理文本时的基本逻辑是采用自回归的预测方式,基于前一个语句的单词来生成下一个词,它通过在大规模文本数据集上进行无监督预训练来掌握语言的统计特征和语义表示,学习单词之间的关系、句子的语法信息和文本的上下文语义。GPT是基于Transformer架构建立的,自2017年被Google提出后,Transformer已成为了BERT、GPT等预训练模型的核心结构。Transformer架构相较于过去运用较多的LSTM等模型,能够在处理长文本时更好地捕捉间隔较长的语义关联,同时,它能够高效利用GPU进行分布式训练,显著提升建模效率。至此,Transformer架构已成为NLP领域最主流、应用最广泛的架构。典型的Transformer架构包含一个编码器(Encoder)和一个解码器(Decoder)。其中,编码器用于学习输入序列的表示,解码器用于生成输出序列。对于输入的文本,Transformer架构首先会对其进行转换,将其编码为词向量和位置信息,使模型获取输入的每个单词和其在整个序列中的位置。随后,编码器会对编码后的数据采用专注力机制进行处理,计算输入序列中每个位置与其他位置之间的关联程度,从而为每个位置分配不同的权重。这些权重信息体现了不同语句元素的重要性,代表了模型所捕捉到的序列中的关联信息。而在解码器模块,会再次通过专注力机制,并经过多层神经网络的计算,给出最终的输出词预测概率。相较于传统的NLP模型,基于Transformer架构的大模型具有如下显著特征:海量磅礴的数据规模尽管对何种规模的模型称其为“大”,还没有官方的定义,早期的大模型参数一般在百万、千万级别,而目前NLP领域的大模型具有的参数往往在数十亿数量级之上。以GPT-3版本为例,其拥有的参数达到1750亿个,为完成训练所需要的语料库数据量达到45TB之巨。大模型带来的卓越性能表现离不开海量基础数据的积累和强大基础计算资源的支撑。智能强大的涌现能力在模型规模不断拓展过程中,一旦突破某个阈值,其在语义理解、逻辑推理等复杂任务上的性能表现就会显著提升,这类带来“质变”的能力被称为“涌现能力”。大模型所体现出的涌现能力主要包括强大的上下文学习能力和知识推理能力等,ChatGPT在很多场景下表现出很高的“理解”的智慧。跨语言跨领域的泛化能力对机器学习模型而言,泛化能力是指将学习到的知识、经验和策略应用到新领域、新场景下的能力,这也是人们始终追求的通用人工智能的关键能力。大模型在处理与训练数据集不同的主题或风格的内容时能给出良好的表现,可以在未经过直接训练的语言上较好地执行任务,也能够应对各种不同的场景,如文本摘要、文本生成、机器翻译和智能问答等。大模型的发展趋势目前,大模型所引发的技术变革正如火如荼,各大科技公司都在理论研究、模型构建和产业应用等方面积极布局。未来,大模型领域前景广阔潜力巨大,随着探索的不断深入,大模型的发展必将呈现出多元化的发展趋势,主要如下:大小模型协同并进:大模型发展迅速,但是在模型部署、资源损耗、数据标注等方面面临非常大的挑战。大型模型能力的提升,关键在于高质量真实数据的投喂。通过模型量化、蒸馏等方式,将大模型沉淀的知识与能力向小模型输出,由小模型执行实际任务,然后将执行结果反馈给大模型。通过这种迭代闭环的数据循环,大模型能力持续强化,形成有机循环的智能体系。行业领域垂直渗透:目前,许多企业级场景在落地大模型会面临缺乏行业深度、不懂企业、无法保证所有权等问题,这是由于通用大模型缺乏专业领域训练语料以及缺少产品设计考虑。未来,垂直大模型是重要的发展方向,通用模型会和各领域的专有知识深度融合渗透,在模型训练和优化中使用特定领域的数据,以确保模型更好地理解和适应该领域的语境和特点,从而创造更高的价值。多种模态深度融合:多模态是指能够将不同类型的数据,如图像、文字、视频、语音等,结合起来进行准确处理,更接近于人类的认知模式。通过不同类型的数据之间的相互关联和结合,能够进一步提高模型的准确性和鲁棒性,展现出更高的性能和智能。多模态大模型的跨感知理解能力和生成能力为大模型应用提供了广阔的新领域,可以高效赋能于各领域场景。公有私用专业对接:随着许多开源大模型的呈现,以及相关厂商大模型的逐步商业化,大模型在纯应用端的发展也在提速迭代。小型企业、专业化公司虽然不具备丰富的人工智能算法和模型知识等基础设施和人才,但也能使用大模型提供的在线接口和服务,结合自身的专业背景和行业实践,通过合理选择应用切入方向,比如通过为大模型设置有效提示词等方式,也能打造具备强大功能的专属应用。大模型在商业银行的应用从ChatGPT等大模型所展现的应用场景和价值来看,大模型在商业银行的应用前景十分广阔,从前台到中后台的各业务条线,都可以深入挖掘大模型的应用潜力,有效助力银行拓展挖掘细分市场,优化金融服务水平,提升内部管理效能,降低自身运营成本。在发展大模型应用的过程中,银行要先行先试、循序渐进,综合平衡成本收益,着眼于可落地性,深入挖掘实际需求,在探索中不断积累完善,稳步提升客户的获得感和内部用户的便捷感知。现阶段,大模型在商业银行的主要应用场景可包括智能客服、智能营销、智能投顾、智能办公和智能风控等方面。智能客服使用机器客服替代部分人工服务的场景,已在银行业广泛应用。但是,许多银行智能客服数字化程度不高,存在知识库问题匹配不精确、提问语义解析不准确、上下文理解不充分、答案抽取能力不高等问题。而大模型在内容生成和语义理解方面有突出优势,因此,许多银行寄望于借助大模型技术来提高客户服务的质量和效率,具体体现在以下三个方面:第一,准确识别客户意图。基于大模型加持的智能客服,横跨多个知识库条目,精准定位关键知识点,能够回溯多轮对话,更好地理解上下文。在通用大模型的基础上,叠加金融客服领域的数据和专业经验,进行垂直领域定向训练,客服机器人可以综合考虑用户提示语和用户习惯,准确识别客户意图。为避免错误话术纳入大模型训练范畴,银行须对海量数据进行合规方面的AI核查。第二,改善提升对话体验。大模型的多模态感知与多维表达能力让智能客服提升了客户情绪识别效果,使沟通更具情感色彩,通过更加拟人化、富有个性的表达方式,增强用户对人机对话的接受度和意愿度。高质量的对话体验可以拉近人和机器的距离,降低转人工率,提升客服支持的效率与服务满意度......本文仅代表个人观点,不代表所在单位意见。付费¥5阅读全文文章来源丨《清华金融评论》2024年2月刊总第123期本文编辑丨王茅责编丨丁开艳校对丨兰银帆初审丨徐兰英终审丨张伟Review of Past Articles -0102

本信息由网络用户发布,本站只提供信息展示,内容详情请与官方联系确认。

标签 : 最新资讯