# Finova **Repository Path**: cangmj/Finova ## Basic Information - **Project Name**: Finova - **Description**: mirror: https://github.com/antgroup/Finova.git - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-04-20 - **Last Updated**: 2026-04-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README [//]: # (#
Finova
)

Finova

∇ Operable · Verifiable · Agentic

可执行 · 可验证 · 智能体驱动的金融评测基准

[![License](https://img.shields.io/badge/License-Apache_2.0-blue.svg)](https://opensource.org/licenses/Apache-2.0) [//]: # ([🌐Website](https://fineval.readthedocs.io/zh_CN/latest/) |) [//]: # ([🤗Hugging Face](https://huggingface.co/datasets/SUFE-AIFLM-Lab/FinEval) |) [//]: # ([📃Paper](https://arxiv.org/abs/2308.09975)) [English](README.md) | [中文](README_zh.md)
--- 当前,大语言模型在通用领域展现出强大潜力,然而,其在**高度复杂、规则严密的金融业务场景下,作为智能体核心组件所需的关键能力**——如精确选取工具、高效抽取关键信息、进行深度金融推理、进行正确的表达以及确保合规安全——尚未得到系统化、场景化的精准评估。随着智能体技术深度融入金融业务流程,构建一个**紧贴业务实践、聚焦智能体核心职能**的评测基准变得至关重要。 为此,我们构建了一个**专注于金融智能体系统核心能力和挑战性金融任务**的专业评测基准Finova。区别于侧重静态金融知识掌握或通用问答能力的评测,我们的评测基准侧重大模型作为智能体核心组件在真实金融智能体系统流程中必须高效准确完成的关键任务和面临的复杂推理金融问题 1. **智能体任务 (Agent Task):**: 模型在真实金融智能体应用中必须高效完成的核心任务(包括意图识别、槽位抽取、工具策划以及表达评估)的能力。 2. **复杂推理任务 (Complex Reasoning):** 模型应对**来源于金融专家标注的复杂金融问题**以及**开源可验证的困难金融问题**(包括金融数学题与代码题),进行推理和专业解答的能力。 3. **安全合规检测 (Safety & Compliance):** 模型在**业务场景下**识别潜在合规风险和安全漏洞的能力,确保智能体操作符合金融监管要求。 **我们评测基准的独特优势在于其深厚的业务根基:所有任务设计基础均来源于行业真实场景与行业专家标注**。通过精心整合真实业务需求与场景,并运用严谨的数据处理技术,我们确保评测任务能够真实反映大模型在金融领域智能体系统落地时所面临的挑战。 本基准旨在为金融机构和开发者提供**聚焦智能体核心环节**的精准能力标尺,推动大语言模型在金融智能体系统中关键任务、复杂任务处理上的安全、可靠与高效应用,加速金融智能化的务实推进。 --- ## 为什么Finova具有行业通用参考价值? - **核心能力解耦,非业务绑定** 我们从真实业务中**提炼出可迁移的底层能力模块**(语义理解、工具使用、事实一致性、复杂推理、安全合规),而非评测特定的业务逻辑。任何构建金融智能体的团队,均可通过此基准评估其模型的基础能力短板。 - **真实场景复杂性,非学术简化** 所有Query、ToolSet、Schema均基于真实用户需求与业务场景构造,确保评测覆盖**实际应用挑战**(如高阶金融数学问题、监管规则嵌套场景)。相比人造数据集,Finova是更可靠的“压力测试场”。 - **标准化能力维度,支持跨系统对比** 工具集、实体类型、领域设计覆盖行业普遍认知,可在`工具调用正确率`、**`复杂问题推理准确度`**、`实体识别F1`等统一维度上公平比较。 - **模块化设计,支持能力纵深扩展** - 推理能力可迭代(新增**衍生品定价模型、风险敞口计算**等高级金融问题) - 合规场景可强化(支持**反洗钱规则、跨境监管条款**等专项检测任务) - 实体/工具集可扩展(如添加债券类型、宏观经济指标API等) ## 🚀 谁应使用Finova? 本基准适用于: - **金融AI产品团队**:确保智能体在业务关键流程中的可靠应用,评估其在复杂金融推理与安全合规场景下的实际表现。 - **大模型开发者**:重点优化模型在金融领域的深度推理能力,同时提升工具调用精度及合规风险感知能力。 - **学术研究者**:构建覆盖金融高阶推理与监管安全挑战的智能体评测环境,推动相关技术发展。 - **行业评测机构**:建立跨平台金融智能体的核心能力评估标准。 --- ## 任务介绍 ### 智能体任务 (Agent Task) #### 金融意图识别(Intent Recognition) 金融意图识别(Intent Recognition):此任务是一个采自于基金保险等金融实际业务场景的意图识别任务评测。我们结合真实业务环境和行业专家标注构建了用户Query以及“场景+行为”的意图体系。其目标在于评估模型在对于Query理解能力。 + 示例 ```markdown 你是一个金融意图识别助手,你的任务是理解用户Query,分析用户的意图。意图需要以“场景-行为”的形式呈现,用户Query中可能存在多种意图。 ## 场景类型 - 基金:涉及基金产品、基金经理、基金公司等主体的集合投资组合管理,涵盖板块配置及资产管理业务 - 保险:围绕保险产品、保险公司及各类险种的风险保障与经济赔付契约关系,包含寿险、财险等业务形态 - 黄金:以黄金等实物贵金属交易与投资为核心的金融行为,包含现货、期货及衍生品形式 - 外汇:基于不同国家货币兑换的汇率交易与跨境资金流动,涉及外币存取、汇兑及汇率风险管理 ...... ## 行为类型 - 信息查询:获取通识、政策法规等通用内容;获取特定主体的客观内容或最新资讯。 - 投资顾问:对持仓情况的分析;对资产配置的建议;对具体操作的决策指导;对某类主体的看法和推荐。 ...... 对于Query中每组意图,判断该意图的场景以及行为,以""场景-行为""的字符串形式输出。 直接返回python的List[str], 不要输出额外内容,如果Query的意图不属于上述任意场景类型或者行为类型,输出空列表,最终结果放到\\boxed{}中。 用户Query: 外国人在中国工作期间,是否能收到国外亲戚朋友的汇款? ``` ``` Answer: ['外汇-信息查询'], ``` #### 金融工具规划 (Tool Planning) 金融工具规划 (Tool Planning): 此任务是一个采集自基金、保险等金融实际业务场景的工具规划评测。我们结合真实业务环境和行业专家标注构建了用户Query和对应的复杂工具集,结合数据合成技术与实际业务逻辑生成正确的工具规划序列,并经由行业专家进行人工校验。其目标在于评估模型作为规划Agent在真实金融环境下,对多元化金融工具及其背后复杂业务逻辑的深度理解与应用能力。 + 示例 ```markdown # 你的角色 - 你是智能金融理财专家,善于精准洞察客户问题,极其精通各种专业分析框架,能对客户的问题进行全面的理解、思考和拆分。 # 你的任务 - 洞察和理解客户问题,为了采集回答问题所需的信息,从<工具箱>中选择需要的工具 <工具箱>: {""type"": ""function"", ""function"": {""name"": ""综合信息检索"", ""description"": ""提供多领域互联网信息获取服务,覆盖生活服务、文娱体育、健康医疗、教育培训、旅行出行等非金融类资讯。""}} ...... {""type"": ""function"", ""function"": {""name"": ""投资风险等级评估"", ""description"": ""当用户需要进行风险测评时,通过标准化问卷评估其风险承受能力及投资偏好""}} ...... # 输出格式 1. 以json格式输出所选择的待执行工具列表,每个工具的输出格式为str # 输出示例 ["待执行工具1", "待执行工具2"...] # 客户问题:我手头有5万元闲置资金,想找一款适合长期增值的理财产品,有什么推荐吗? ``` ``` Answer: ["资金分类投资规划", "个性化资产配置方案"] ``` #### 金融槽位抽取 (Slot Filling) 此任务是一个直接源自基金、保险等金融实际业务的信息抽取评测。我们结合真实业务环境和行业专家建议构建了用户Query,根据实际业务需求定义关键实体类别(槽位),并由相关专业人士进行精准的实体标注与修正。其目标在于评估模型在复杂多变的真实业务场景下,精准识别与抽取关键业务实体的能力。 + 示例 ```markdown 你是金融实体识别专家,你任务是识别目标文本中的金融实体,你需要从文本中提取实体的完整内容以及对应实体类型。注意不要重复提取嵌套的实体,如果文本中不存在任何实体,请输出`[]`。 # 实体类型 [""保险产品名称"", ""保险公司名称"", ""险种名称"", ""保险类型名称"", ""年龄""] # 输出格式 提取结果必须是JSON格式, 直接输出JSON字符串,格式如下: [{""content"": ""文本中的实体内容"", ""type"": ""实体类型""}] # 目标文本 我想了解一下增额终身寿险有哪些选择 ``` ``` Answer: [{"type": "险种名称", "content": "增额终身寿险"}] ``` #### 金融表达 (Expression) + 示例 ```markdown 你是一个智能金融助理。 # 任务 你要结合以下参考资料、当前时间,判断当前问题的参考回答是否是否存在幻觉。 # 幻觉判定标准: - 忽略重要信息检测:分析针对当前时间的用户问题和每篇参考资料中的`每一句话`,并`逐一判断`是否为关键前置条件,然后`逐句判断`参考回答是否遗漏了该关键前置条件。 - 重要信息匹配错误检测:分析当前时间的用户问题和参考回答,提取参考回答中所有金融实体、属性、关系等重要信息,并与所有参考资料进行逐项比对,检测是否存在时空冲突、实体冲突或者关系冲突等匹配错误问题。 - 数学型错误检测:识别参考回答中所有的数学计算步骤,对每个计算步骤进行模拟演算,并标注出存在错误的计算步骤。 - 逻辑型错误检测:检测识别参考回答中的所有关键逻辑推理步骤,对每个推理步骤进行校验,并标注出存在逻辑错误的推理步骤。 # 参考资料 ## 全网搜索内容 [webpage 1 begin] ...... [webpage 1 end] ...... [webpage 10 begin] ...... [webpage 10 end] # 当前时间 2025年6月27日,星期五 # 用户问题 中信保诚新兴产业混合C近半年同类排名占比是多少? # 参考回答 --- 根据最新公开数据,中信保诚新兴产业混合C(013526)的同类排名情况如下: ...... 以上数据截至2025年6月21日(净值更新)及2025年一季度末(持仓和规模)[citation:2][citation:5][citation:10]。建议结合最新季报和市场动态综合评估。如需进一步分析当前持仓调整或市场适应性,可提供更多实时信息。 --- # 回答要求 请一步步思考,并把最终结果“是”或者“否”放到\boxed{}中。" ``` ``` Answer: 是 ``` ### 复杂推理任务 (Complex Reasoning) 这一个涵盖金融分析与解读、自然语言处理、知识问答、数学与代码等多个场景的金融问答任务。我们基于真实业务场景设计问题情境,并结合金融领域的专业知识和理论背景打造精准的答案,由领域专家进行权威解答编写。该任务要求模型能够对金融理论和实证证据进行理解与抽取,分析支持的论据,并精准匹配能够验证具体观点的最佳选项,展现逻辑推理与专业素养。其中除了数学题之外的题目采取选择题的形式,而数学题为了避免模型猜对答案的情况选择填空题的形式。 + 示例 ```plain 某借款人申请30,000元房产抵押消费贷款,采用"LPR+150BP"浮动定价(当前1年期LPR为4.2%),期限12个月。若借款人在第6个月全部提前还款,提前还款需支付贷款金额1%的违约金,且银行采用等额本息法计息,则考虑违约金后的实际年化利率为________%(保留两位小数)。 ``` ``` Answer: 8.45 ``` ### 金融安全合规检测 (Safety & Compliance) 该金融LLM评测任务旨在测试模型对金融合规安全管理核心措施的理解,要求从选项中识别出最符合法规遵从性和风险管理需求的实践。通过设置干扰项来评估模型是否能够区分表面性操作与实质性的合规管理措施。我们通过行业专家标注根据具体业务需求与安全合规知识对问题进行改写,并由相关专业人士进行审核修正。此任务不仅考察金融领域知识的深度,还检验模型在复杂情境下对合规与安全原则优先级的判断能力,确保其能为实际业务提供可靠指导。 + 示例 ```plain 以下是关于金融领域合规的判断题,根据问题回答是或者否,并把判断结果放到\boxed{}中。 问题:监事会成员是否可以在其曾经工作过的国有金融机构的监事会中任职? ``` ``` Answer: 否 ``` ## 🔐 数据脱敏说明 为遵循金融数据安全与隐私合规要求,本项目对外开源的版本已对原始数据进行进一步处理。因此,**基于开源版本数据所进行的评测结果,可能与我们技术报告中公布的完整版结果存在少量差异**。差异主要体现在极少数高敏感场景的准确率波动,核心能力趋势保持一致。 ## ⚠️ 免责声明 请注意:当前大语言模型技术仍存在局限性,本评测基准中所涉及的模型输出内容可能包含幻觉或不准确信息。所有生成内容**不代表蚂蚁集团(或发布方)的态度、观点或投资建议**。特别是在金融领域,相关信息具有高时效性和专业性,请务必咨询持牌金融从业人员或专业机构,**切勿依赖本项目提供的内容进行实际投资决策或业务操作**。 ## TODO 1. 如何评测 2. 评测结果展示