“千模酣战” 金融业大模型为何还在“前牛顿时代”？

2023-07-11 09:52:04 21世纪经济报道

刚刚过去的世界人工智能大会（WAIC）上，各家厂商AI大模型“大秀肌肉”。在“千模大战”的硝烟背后，大众普遍关心的话题是，谁将历经千帆成为中国版OpenAI？

(相关资料图)

“大模型的迭代是一场‘暴力’填数据、拔规模而造就的‘美学盛宴’。”中金公司研究团队在近日发布的“AI浪潮之巅”系列报告中如是说。

尽管作为推动AI大模型发展的“三驾马车”，数据、算力、算法都关系着大模型技术商业化落地的成败，但从多位接受21世纪经济报道记者采访的业内人士看来，在“抢芯片”之外，决定大模型质量和商业化落地的核心要素是数据。对于既要安全又要发展的金融业而言，在数据共享尚不充分的大模型起步阶段，更需要建立开放的行业生态。

大模型时代的数据之痛

金融行业对模型并不陌生，机器学习也不是新鲜词。

一直以来，在智能营销、智能风控、智能投研、智能客服等领域，基于机器学习驱动的建模能力都是金融机构数智化转型的基础。“大模型”是大型语言模型的简称，机器用大规模语料库数据进行训练，通过算法从数据中学习如何完成任务，参数规模大、数学公式复杂。从AlphaGo到ChatGPT，如今机器已经可以在开放系统下实现自我学习与持续反馈。

与过去相比，当下的大模型时代对算力、算法、数据的需求已然改变。

“今天的AI体系是强依赖数据的，是数据驱动的智能体系。”蚂蚁集团副总裁兼首席技术安全官韦韬表示。

“这次OpenAI为我们带来的最重要的技术并不是几千亿的参数，而是基于数据的反馈，让这个系统在持续强化学习下越来越聪明。”马上消费金融CIO蒋宁告诉记者，即使大模型具备优秀的算法，如果没有高质量数据集的训练，就像失去学习能力的博士生，会逐步失去竞争力。

然而，目前“千模竞帆”背后是国内各厂商的数据生态割裂。

“目前在通用大模型建设过程中，一方面当前中文高质量数据有限，另一方面中国移动互联网生态与互联网生态处于割裂情况。”蒋宁告诉记者。

上海数据交易所副总经理韦志林在接受21世纪经济报道记者采访时指出，大模型之所以强大，能够不断地迭代，都依赖于算力算法以及最重要的数据。“在‘三驾马车’中，数据是最核心、最长远、最基础的要素，它每天都在产生，应用场景非常丰富。”从其与大模型企业沟通的情况来看，相较全球语料库建设，国内语料库供给需要进一步提升，语料库的质量、标准、多样性都有所欠缺。

“大模型技术出现后，数据供应的过程中还遇到四方面问题。”中国电子副总经理陆志鹏提到，一是缺少合规确权的机制，目前国内面临的问题就是数据的有效供给不足。很多企业都在做语料库，但数据都非常有限，而且可能面临着统一标准的问题；二是缺少数据的计量估价机制；三是缺少协调分配；四是缺少安全隐私保护机制。

“我们国家的数据生产量全球排名在第二名，但是分散在各个行业、各个组织中，整体的数据是分开的。但大模型所需要是将数据进行物理归集，在短时间内基于一定的算力与算法进行预训练。”韦志林提到，国内各大主流厂商都推出了基于己方已有数据的大模型，但由于数据分散、丰富度不足、质量参差不齐等原因，各个大模型都存在一定的局限性。

“数据已经成为重要的生产要素，当数据开放共享的安全与收益分配机制还不完善，具有大量数据的头部大厂开放高质量数据集的意愿不足，所以其主要将数据价值创新服务于企业内部，而没有拿出去的动力。”韦志林表示。

金融业的垂直大模型解法

通用大模型激战正酣，金融业的大模型运用则主要在行业垂直模型领域。

今年3月，彭博针对金融业推出大型语言模型BloombergGPT，引发市场对金融垂直领域大模型的关注。

在国内，今年5月，星环科技推出了第一款面向金融量化领域的生成式大语言模型“无涯Infinity”，度小满开源国内首个千亿参数金融大模型“轩辕”，今年6月，恒生电子发布金融行业大模型LightGPT，并宣布将于9月底正式开放试用接口。

多位受访对象向21世纪经济报道记者表示，目前金融业的大模型运用主要在工具层与应用层，无论是技术服务商还是金融机构，都在“量力而为”。

“我们以后不会再开发其他领域的模型，每个行业都有自己的行业壁垒。”星环科技CEO孙元浩在接受记者采访时提到，公司的主要战略是提供大模型（LLMOps）的工具链，帮助金融机构训练自己的大模型。“基础大模型与应用之间的鸿沟实在是太大了，我们不可能用一家公司去做每个行业的大模型。和过去相比，大模型主要有两个方面需要改造，一是高达上千亿的模型参数，需要算力支持，需要分布式、高可扩展的调度框架，二是巨量的高质量语料训练。”孙元浩表示，在过去服务于证券行业时，有二十万个已完成标注的语料，也开发了量化因子，使得其训练的模型基于量化策略可以直接用来做示范交易。

对金融机构内部来说，垂直领域的大模型更类似于“个性化小助手”与业务流程优化助手。

众安保险首席技术官蒋纪匀告诉记者，大模型在保险业的落地，需要关注大模型在保险专业领域的知识增强，在合规安全的前提下，对接口调校和限制也有更高要求。因此众安自主研发了AIGC中台灵犀，通过适配如GPT、通义千问、文心一言等国内外主流大模型，灵犀可以帮助保险机构更好适配AIGC能力，允许机构用户，在大模型内嵌入行业专业领域知识库，实现AIGC在保险垂直领域的应用快速适配。

“谈论大模型技术在金融核心业务场景下的应用为时尚早。”萨摩耶云创始人兼董事长林建明在接受21世纪经济报道记者专访时提到，金融业对于算法可解释性与可信度要求极高，AI仍处于“前牛顿时代”，人类还没有搞懂基本原理，目前萨摩耶云对语言生成模型的应用主要集中在结合个性化推荐、用户画像等，解决线上线下协同过程中的自动化断点问题。

行业拥抱生态互通

当通用大模型走向金融行业落地，割裂的数据生态使越来越多的机构拥抱合作互通。

就在7月10日，中国证监会科技监管局局长姚前刊文《关于大模型生态建设的若干思考》。姚前指出，在具体应用落地的过程中，GPT类大模型还会面临一系列挑战。一是如何确保训练数据的数量与质量。一般而言，大模型的训练语料为来自于多个领域的通用语料，而专业语料的收集通常比较耗时费力，同时也存在隐私问题，由此导致大模型在具体的个别应用领域可能出现专业性不足的情况。二是如何降低大模型的运行和维护成本。大模型需要巨大的算力支持和严格的数据治理，普通的机构和应用部门往往难以支撑大模型的运行以及迭代升级工作。为此，需要建立一个各类模型健康交互和协同进化的生态，以保证大模型相关人工智能产业可以在各个应用领域成功落地。

目前金融机构与通用大模型厂商的合作正在加速。在世界人工智能大会上，交通银行与华为、腾讯云、科大讯飞宣布共建3个联合创新实验室，分别聚焦大模型在金融领域的应用与创新、增强网络空间安全防御能力、研究认知模型在金融领域的应用。

针对目前金融数据开放依然不充分的问题，科大讯飞总裁吴晓如在接受21世纪经济报道记者采访时表示，其在合作中的做法分为两步，第一步是无监督训练，把大量公开数据和素材放进模型，帮助金融机构训练基础模型；如果金融机构需要模型针对行业做精细化调整，其并不需要太大算力，科大讯飞将在联合创新实验室中为金融机构提供工具，让其自己做调试优化。

上一篇 : 贝斯特：上半年归母净利同比预增50%-70%

下一篇 : 最后一页

“千模酣战” 金融业大模型为何还在“前牛顿时代”？

2023-07-11 09:52:04 21世纪经济报道

大模型时代的数据之痛

金融业的垂直大模型解法

行业拥抱生态互通

相关推荐

“千模酣战” 金融业大模型为何还在“前牛顿时代”？

贝斯特：上半年归母净利同比预增50%-70%

沪铝减仓上涨 氧化铝震荡回落【7月10日机构评论】

养老在北京｜92岁大爷走丢，多亏了这个“小钥匙”

华兰疫苗（301207）：7月10日北向资金减持5.07万股

诸葛孔明千载人翻译阅读答案（幻想三国孔明任务答案）

奖牌榜倒数！淘汰了中国男足的他们亚运一金未得，空有3千万人口

日本上半年企业倒闭数量同比大幅增加

央行等两部门延长两项金融政策 对房企提供持续稳定支持

被争议“私建浮桥”背后的白城市：人口外流、收入下降

常见的1元硬币，有这个年份单枚价值上千元，你有吗?

朝阳区实验小学2023年美术教师培训

被“圈”起来的公厕丨社区已为商户配备门禁 街道协调后续问题

铁甲情痴终结者2（铁甲情痴终结者）

正源股份：控股股东收到法院预重整决定书，决定对其进行预重整并指定临时管理人

AI创作能够彻底取代作家群体吗？

河北博野：“小墙绘”为和美乡村赋能添彩

《2023中国金融科技企业首席洞察报告》正式发布

上半年南京卖地收入355亿 同比大涨76%

北京拟规定：途经长安街部分路段及天安门广场公交车禁设车身广告

荣耀 MagicPad 平板电脑现身 Geekbench 平台，搭载高通骁龙 888

永登绘就“安居乐业图”

朝鲜谴责美国计划向半岛地区派遣战略核潜艇

襄阳谷城：提升“烟火气” 点燃“夜经济”

卡普空最新大作支持不同平台联机 玩不了Steam

李豫为何不与独孤贵妃合葬？有哪些不同原因？

解读：中南财经政法大学在职研究生好不好考？

保险为什么不建议趸交？

谁⁉️ 王涛：今年夏天，将有一位超超超级巨星来访

共谋人与自然和谐共生现代化·俯仰山水尽苍翠

中科三环：7月7日融券卖出金额150.80万元，占当日流出金额的0.82%

外媒：丰田首次正式确认拟在泰国生产电动汽车

国家统计局：6月份居民消费价格同比持平 环比下降0.2%

雷暴大风黄色预警！明天入伏！

“鲜味”如何从枝头直达手头

高温天气新能源汽车如何顶住“烤”验？一个系统搞定所有

人报甘头条 | 中国足协女子五人制足球联赛总决赛将在兰举办

汪小菲没有接回孩子，张兰一番玩笑话若发生，会改变大S赢家局面

栖霞市朝熙街美食节期间咋停车 快来看！

在家门口过足“戏瘾”！海口美兰区“大致坡周末剧场”开幕［图］

发电、晒盐、养殖三不误！世界单体容量最大“盐光互补”电站并网发电

高速上，一黑熊突然扑上来！车废人伤

NBA3消息：5队16人大交易，雷霆0换7极限操作，雄鹿签约利文斯顿

俄乌冲突500天后，黑海谷物倡议即将到期，续签命运如何？

Go 并发模型—Goroutines

朝阳站迎宾大道完成改造升级 道路两侧浓荫夹道

《黎明杀机手游》国际服无法登陆服务器怎么办

驾照年审过期一个月怎么办

北大教授张千帆结局（北大教授猛烈大胆演讲）

包浆是什么意思网络用语（包浆是什么意思）

精彩推送

进口牛肉为什么很嫩?

recognition什么意思（recognition）

民营医院 关于民营医院介绍

雷电大风强降雨组团来了

好甜！宋轶公开承认恋情，白敬亭现身横店接她下班，两人已同居

夯实篮球基础，助力三大球发展 2023 “极下之光”北京市小篮球联赛暨夜京城青少年篮球赛开赛

刑法中诈骗犯的定义

宋旭明_关于宋旭明介绍

中国可在日本驻军，并且至今还有效！

证监会宣布重大改革：全面优化公募基金费率模式，稳步降低行业综合费率

东北农业大学“五强化五推动”书写高质量“招聘答卷”

媒体人：上海队正式下桌 桌上目前就真的只有首钢一家了

日本政府发放福岛排海设施验收合格证：坚持夏季排污方针不变

“数联无限 智驾无边”——WAIC2023智能驾驶论坛圆满举行

罗萍率队到红河县调研地质灾害点整治及旅游业态发展工作

东湖评论：止风于萍末，挽狂澜于既倒

甘肃百余头藏野驴悠闲觅食

中原高速（600020）7月7日主力资金净买入180.88万元

黑龙江：打造木耳产业发展新平台

让更多广东“地理标志产品”成为好手信

全省627座水库超汛限水位

3445-2018（3445）

意媒：米兰愿将赖恩德斯报价提升至2100万欧，接近2500万欧要价

沪铝减仓上涨氧化铝震荡回落【7月10日机构评论】

央行等两部门延长两项金融政策对房企提供持续稳定支持

被“圈”起来的公厕丨社区已为商户配备门禁街道协调后续问题

上半年南京卖地收入355亿同比大涨76%

卡普空最新大作支持不同平台联机玩不了Steam

国家统计局：6月份居民消费价格同比持平环比下降0.2%

栖霞市朝熙街美食节期间咋停车快来看！

朝阳站迎宾大道完成改造升级道路两侧浓荫夹道

民营医院关于民营医院介绍

媒体人：上海队正式下桌桌上目前就真的只有首钢一家了

“数联无限智驾无边”——WAIC2023智能驾驶论坛圆满举行

雪祺电气7月14日深交所首发上会拟募资5.9亿元

银联商务推出“银商天图”AIGC产品加速支付科技创新

书籍诞生媒体暑期报名

小暑养生谷医堂专家提醒：注意四点远离女性问题

上汽集团6月份整车销量40.57万辆同比下降16.1%

鲁迅的故家第四分补树书屋旧事六 ~ 一〇

X-59低音爆验证机完成总装将进行首飞前地面测试

创新“深”态第30期丨抢抓AI发展机遇游戏机零部件供应商致尚科技将登陆创业板视讯

【世界独家】关注山西介休未成年人欺凌事件官方集中回应关切

今热点：电力板块盘初冲高大连热电2连板

91.55亿元！武汉国家航天产业基地又一重大项目开工环球短讯

无职转生 II～到了异世界就拿出真本事～第一集失意的魔术师预告

全球热头条丨东莞房地产网东莞房地产门户）

「付费删档测试」充值返利规则全球热点评

云南大理三塔寺门票价格（大理三塔寺简介）全球热头条