茂名预应力缓粘结钢绞线 32B越671B!M-A-P全开源数学定理证明模子OProver,五项评测三项

76     2026-06-11 03:26:18
钢绞线

神色化定理证明茂名预应力缓粘结钢绞线,直是 LLM 公认严苛的理试金石,每步都须通过 Lean 4 内核的机器考据。

近两年,开源社区在 MiniF2F、PutnamBench 等 benchmark 上的收获捏续高潮,但增长旅途越来越趋同:扩模子、扩数据、部署阶段雷同检索和多轮修正。

个重要问题长久存在,检索信号、编译器反映和失败开导,大多只在部署时行动外部经过接入,模子在测验阶段并莫得系统学习如何期骗这些信号,酿成了测验与部署之间的"战略错位"。

为野蛮这挑战,M-A-P 开源社区与南京大学等团队建议OProver——

个将检索增强、编译器反映与多轮开导顺利内化到测验战略中的 Lean 4 定理证明框架。

在五个 Lean 4 whole-proof prover 评测中,OProver-32B 赢得三项、两项二:

MiniF2F(93.3)、ProverBench(58.2)、PutnamBench(11.3)先 LongCat-Flash-Prover w/ TIR,并在一说念五项评测中越 671B 的 DeepSeek-Prover-V2。

研讨团队同步开源 1.76M 条神色化文牍、6.80M 编译器考据证明的 OProofs 语料库,以及 8B/32B 共 7 个模子权重。

代码、权重与测验剧本已开源。

战略错位:测验与部署之间的中枢矛盾

比年来的 Lean 4 prover 系统(Goedel-Prover-V2、DeepSeek-Prover-V2、Kimina-Prover 等)在 MiniF2F 上仍是把 Pass@32 到较水平,同期也有使命运转引入检索、编译器反映或 self-correction。

问题在于,这些信号主要行动部署阶段的增强经过,接在仍是测验好的 prover 外部,而非从测验阶段就被纳入学习目标。

这就酿成了错位:

测验阶段,模子主要看到光显的 theorem → verified proof 监督对

部署阶段,系统却把检索到的干系证明、上轮失败尝试和 Lean 编译器反映从头提供给模子,条件进行多轮开导

OProver 的中枢念念路,是让测验目标与部署时的证明过程对都:让模子在测验阶段就学习如何实施 agentic refinement loop,把多轮修正、检索干系证明和编译器反映行动测验战略的部分,而非部署阶段的外部包装。

轻量、可端到端测验

部署阶段:有限轮次开导轮回

OProver 把定理证明建模为个有限轮次的开导轮回。

战略基于目标神色化文牍、检索追溯库中的 top-k 个编译器考据证明、上轮证明尝试和 Lean 4 编译器复返的会诊信息,生成下次证明尝试。恣意轮通过,整条 trajectory 即视为奏凯。

测验阶段:两阶段测验

捏续预测验(CPT):在约 65B token 的混语料上预测验,其中约 30 来自 OProofs 的 Lean 4 数据,20 为代码数据(OpenCoder),40 为数学语料(Nemotron-Math-4-Plus),10 为长 CoT 数据

迭代后测验:瓜代进行 agentic proving rollout、SFT(基于 round-level 开导样本)和 RL(基于 GSPO 算法与贫瘠集)

重要贪图在于:检索效果、失败尝试和编译器反映不再仅仅部署阶段临时接入的外部经过,而是被纳入模子要学习的证明战略。

数据与模子的协同进化

OProofs 语料库与 prover 战略在迭代中互相促进。

每轮迭代中,面前 prover 在题库上生成的新考据证明被加入 OProofs 并索引进检索追溯库;

开导 trajectory 成为下轮 SFT 测验样本;尚未处置的"贫瘠组"为下轮 RL 提供测验信号。

数据、测验与战略,酿成捏续演化的闭环。

OProofs:面向 agentic prover 的 Lean 4 语料

研讨团队同步构建并开源了 OProofs,包含约 1.76M 条神色化文牍、6.80M 条编译器考据证明。

其中 4.29M 条证明保留了检索到的干系证明险阻文,859K 条样本包含此前失败尝试的 Lean 编译器反映。模子不单看到"终正确证明是什么",预应力钢绞线也能学习"证明失败后,如何期骗检索效果和编译器反映不时开导"。

OProofs 由两条构建分支构成。

1、公开资源再证明茂名预应力缓粘结钢绞线

以 NuminaMath-LEAN、Lean-Workbook、Leanabell-Prover-FormalStmt 等公开 Lean 资源为开始,清洗去重后通过 agentic proving 从头生成并考据证明,同期辘集检索险阻文、失败尝试和开导轨迹。

2、当然谈话到神色化

从 Common Crawl 和 GitHub 挖掘数学文牍,用 CriticLean 自动神色化为 Lean 4,再通过 agentic proving 经过生成并考据证明。

从遮掩限制看,OProofs 横跨多个数学向:代数 60.1、分析 13.7、数论 13.0、几何 6.8。难度散播以 elementary(27.4)和 high-school(48.9)层为主,同期包含 18.9 的本科水缓和 4.8 的研讨生水平问题。

五项评测三项、两项二

研讨团队在 MiniF2F、MathOlympiad、ProofNet、ProverBench、PutnamBench 五个 Lean 4 benchmark 上评估,默许酬谢 Pass@32,基于 n=64 条立 multi-round rollouts 的偏臆测。

在 open-weight whole-proof prover 限制内,OProver-32B 有三项重要论断:

1、32B 越 671B

OProver-32B 在一说念五项评测中越 DeepSeek-Prover-V2(671B),在 MiniF2F(93.3)、ProverBench(58.2)、PutnamBench(11.3)上同期先 LongCat-Flash-Prover w/ TIR(560B)。

2、8B 平 32B

OProver-8B 在五个 benchmark 上一说念越 Goedel-Prover-V2-32B,参数目少 4 倍。

3、迭代后测验捏续增益

MiniF2F-Test 上,OProver-8B 从 79.5 提高至 91.8(+12.3),OProver-32B 从 84.7 提高至 93.3(+8.6)。

消融试验:检索与编译器反映协同孝敬

移除多轮 compiler feedback 会致大幅度下落:OProver-32B 在 PutnamBench 从 11.3 降至 7.0,在 ProofNet 从 33.2 降至 25.8。

卓著移除检索后,能不时下落至 5.9 和 24.7。

这阐述提高并非来自浅易的 best-of-N 采样,而是来自检索增强的证明生成与编译器反映引的多轮开导之间的协同。

其中,Lean 编译器反映提供主要开导信号;检索险阻文提供干系证明结构和可参考的证明片断。

测试时膨大:多理预算领会移动

跟着理预算从 8 增多到 256,OProver-32B 在五个 benchmark 上均呈领会提高:MiniF2F 从 87.5 至 92.8,MathOlympiad 从 15.5 至 22.0,ProofNet 从 25.6 至 32.8,ProverBench 从 51.3 至 56.9,PutnamBench 从 6.4 至 11.3。

预算分拨与 benchmark 难度干系:大都 benchmark 偏向增多 refinement 度,而 PutnamBench 这类低奏凯率贫瘠需在开导度与并行探索之间赢得均衡。

开源与发布

研讨团队同步开源了 OProver 的模子、数据与测验代码,遮掩不同测验阶段 checkpoint、OProofs 语料和测验 pipeline。

• m-a-p/OProver-32B / OProver-8B — 终模子

• m-a-p/OProver-32B-Base / Round1 — 32B 各阶段 checkpoint

• m-a-p/OProver-8B-Base / Round1 / Round2 — 8B 各阶段 checkpoint

• m-a-p/OProofs — 1.76M statements / 6.80M proofs / 1.06M trajectories

虽然,OProver 现在仍主要围绕 Lean 4 whole-proof proving 张开。

后续值得不雅察的是,这种 agentic refinement 框架能否转移到 Coq、Isabelle 以及工程 formal methods 器具,以及长的数据与模子协同进化周期中能提高会捏续多久。

论文:https://arxiv.org/abs/2605.17283

代码:https://github.com/multimodal-art-projection/OProver

模子与数据:https://huggingface.co/collections/m-a-p/oprover天津市瑞通预应力钢绞线有限公司相关词条:设备保温     塑料挤出机厂家     预应力钢绞线    玻璃丝棉    万能胶厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定茂名预应力缓粘结钢绞线,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。